ChatGPT继续发展,超越了简单的文本提示。上周,OpenAI宣布计划集成其最新的图像生成器,今天它在其应用程序中添加了语音和图像功能。
聊天机器人现在可以接受提示中的图像,也可以用超逼真的人工智能生成的声音自己说话。OpenAI表示,其目标是提供一种“新的、更直观的界面”,并为其每月20美元的ChatGPT Plus服务吸引订阅者。
奇怪的是,公告中的大多数例子都是关于儿童和家庭如何使用这些功能的。也许OpenAI已经确定了一个新的目标受众–或者是目前与其产品相关的世界末日预测的解毒剂。
这段新的人工智能语音生成功能的宣传视频一开始就有人要求听一个睡前故事,讲述的是一只名为拉里的超级笨蛋向日葵刺猬。ChatGPT回复说:“拉里是一只独一无二的刺猬。它长着鲜艳的向日葵花瓣,而不是刺骨。”然后用户问:“拉里的房子是什么样的?”很容易想象,孩子们喜欢通过提问来扩展故事,给父母一个喘息的机会。
(在最近的秋季活动上,亚马逊预演了一个类似的功能:与Alexa一起探索,这是Amazon Kids+的独家新增功能,孩子们可以向Alexa询问关于动物和自然的问题。)
OpenAI说:“新的语音技术能够从几秒钟的真实语音中合成逼真的合成语音,为许多创造性的、以可访问性为重点的应用程序打开了大门。”该公司还指出,你可以用它来“解决餐桌上的辩论”,或者在路上进行交谈。
为了转录语音提示,OpenAI将使用其开源语音识别系统模型Whisper。然而,它警告说,“该模型擅长转录英语文本,但在其他一些语言上表现不佳,特别是那些非罗马文字的语言,[因此]我们建议非英语用户不要使用ChatGPT来实现这一目的。”
至于接受图像的新功能,OpenAI建议使用它来“通过拍照、圈出问题集并让它与你们两个分享提示来帮助你的孩子做一道数学题。”用户可以使用手机应用程序中的一个新绘图工具来“圈出问题集”。
公平地说,OpenAI提供了一些与家庭无关的例子,说明了图像提示是如何有用的:给冰箱里的东西拍一张照片并询问食谱想法,为地标拍摄一张照片以获取有关它的信息,以及分析工作中的复杂图表。这是一个全新的维度,提示工程师们去探索。
与最近所有的OpenAI通信一样,声明的结尾承认,糟糕的参与者可以利用这项新技术。它说,声音生成可能被用来冒充公众人物,甚至贬低任何公众成员。
该公司表示,它已经采取了技术措施,显著限制了ChatGPT分析和做出关于人的直接陈述的能力,因为ChatGPT并不总是准确的,这些系统应该尊重个人隐私。
有话要说...