当前位置:首页 > 技术相关 > 正文

什么是ChatGPT愿景?人们使用这一新功能的7种方式

什么是ChatGPT愿景?人们使用这一新功能的7种方式

ChatGPT现在可以阅读和响应图像提示,与通常伴随着AI变得更加强大的消息而来的厄运和悲观相比,这一新功能似乎已经抓住了AI用户的兴趣。

OpenAI将此功能称为具有VISION的GPT-4(GPT-4V)。人工智能聊天机器人能够解释图像,而不仅仅是文本提示,这使得它成为一种“多模式”的大型语言模型(因为我们真的需要更多的人工智能术语),并有可能重新定义人们使用人工智能的方式。以下是我们目前所知道的关于它的一切。

什么是GPT-4V?我如何访问它?

通过每月20美元的ChatGPT Plus账户,你可以将图片上传到iOS或Android上的ChatGPT应用程序,并向它提问。例如,给它一张你在餐厅用餐的照片,然后问:“我怎么做这个?”聊天机器人将扫描图像并返回其建议的食谱。

应用程序似乎是永无止境的。OpenAI表示,随着多模式扩大了这些系统可以帮助用户完成的任务范围,多模式是“人工智能研究和开发的一个关键前沿”。微软的一组研究人员将GPT-4V称为“低成本管理系统的黎明”,并得出结论,GPT-4V可能会“产生新的人机交互方法”。

OpenAI是如何打造GPT-4V的?

根据一篇技术论文,虽然GPT-4V对公众来说是新事物,但OpenAI自去年以来一直在研究它,可能是在聊天机器人于2022年11月公开发布之前。用户测试和培训于2023年3月开始。

“由于GPT-4是GPT-4V视觉能力背后的技术,它的训练过程是相同的,”OpenAI说。该公司向它提供越来越复杂的数据,使用与基于文本的提示相同的技术-从人类反馈中强化学习(RLHF)-教它如何产生人类喜欢的答案。

在整个过程中,OpenAI发现了足够多的问题,以至于将该功能的发布推迟到了现在。值得称赞的是,该公司试图找到该系统可能失败或行为不道德的方法。这包括对有害或非法内容的请求,基于种族和性别等人口统计数据的不准确,以及解决验证码和越狱等网络安全漏洞。

在外部,OpenAI聘请了科学家和医生来验证GPT4-V的建议,发现了许多不准确的地方。

什么是ChatGPT愿景?人们使用这一新功能的7种方式

关于虚假信息和社会危害,早期版本的GPT-4V会对敏感话题发表不适当的评论,例如是否雇用孕妇或某个国家的人。该系统也不会识别仇恨团体使用的符号或有害短语。

在所有这些测试之后,OpenAI表示,它能够改进该系统,使其能够被公众接受,例如,97.2%的“非法建议”请求现在被拒绝。

什么是ChatGPT愿景?人们使用这一新功能的7种方式

这仍是一项正在进行的工作。OpenAI表示,它“对模型应该或不应该参与的行为存在根本性的疑问。”这包括它是否应该识别图像中的公众人物,并从图像中的人推断种族、性别或情感(如果它能准确做到这一点)。它在非英语语言中的表现也相当逊色。

用户也可能会注意到不准确的地方。例如,微软的一个研究团队发现,GPT-4V对一些简单的图像提示回答不正确,比如读错了里程表。

什么是ChatGPT愿景?人们使用这一新功能的7种方式

如何使用GPT-4V

虽然我们可以期待GPT-4V随着时间的推移继续改进,但它今天所能做的事情是相当令人难以置信的。以下是ChatGPT Plus用户已经在试验的一些方式。

这位画家问如何使她的作品更逼真。你甚至可以要求ChatGPT批评它自己在Dall-E上创造的人工智能。

一位产品设计师提交了一个网页模型,GPT-4V注意到了一些优点和缺点,比如顶部没有导航栏。

如果你能在现实生活中找到一个叫沃尔多的人,你就会得到加分。有趣的事实:这个名字的使用率自1915年的顶峰以来直线下降。

一位用户将GPT-4V变成了初级制图员,要求它识别一张旧地图。

进行一次从概念到现实的白板会议,或者让它编写一个以图像为灵感的网页。(接下来我们还会有人工智能理发师吗?)

申请家庭作业和工作-作业的人可能会没完没了。

接下来我们知道的是,ChatGPT的截图可能会出现在法庭上:“ChatGPT说我可以把车停在这里!”

ChatGPT应用程序可以帮助你最大限度地利用你的旅行,或者至少帮助回答你孩子的问题。

什么是ChatGPT愿景?人们使用这一新功能的7种方式

多模式LLMS是人工智能的未来吗?

随着过去一年人工智能的大肆宣传,人们越来越难预测哪些趋势会持续下去。OpenAI对ChatGPT的上一次“改变游戏规则”的更新–插件–最初在社交媒体上掀起了人们发布自己的例子的风暴,但后来就平息了下来。其他功能,如允许聊天机器人在2021年前访问数据的用必应浏览功能,曾被启用,但在被利用进行非法活动后被禁用,现在又恢复了。

试探性地,我们从GPT-4V中看到的似乎是有希望的。加州大学圣地亚哥分校(UCSD)教授、致力于评估LLM的张浩表示:“(人工智能)社区可能更倾向于视觉/感知。”

OpenAI最近还投资了其Dall-E图像生成器的改进版本,并宣布计划将其集成到ChatGPT中。

密切关注与之竞争的聊天机器人。谷歌会将Lens整合到Bard中吗?这可能是又一个昙花一现,但它可能是人工智能冰山一角。

有话要说...