当前位置：首页 > 技术相关 > 正文

什么是ChatGPT愿景？人们使用这一新功能的7种方式

技术相关
1年前
147
更新：2024-01-24 15:27:19

ChatGPT现在可以阅读和响应图像提示，与通常伴随着AI变得更加强大的消息而来的厄运和悲观相比，这一新功能似乎已经抓住了AI用户的兴趣。

OpenAI将此功能称为具有VISION的GPT-4(GPT-4V)。人工智能聊天机器人能够解释图像，而不仅仅是文本提示，这使得它成为一种“多模式”的大型语言模型(因为我们真的需要更多的人工智能术语)，并有可能重新定义人们使用人工智能的方式。以下是我们目前所知道的关于它的一切。

什么是GPT-4V？我如何访问它？

通过每月20美元的ChatGPT Plus账户，你可以将图片上传到iOS或Android上的ChatGPT应用程序，并向它提问。例如，给它一张你在餐厅用餐的照片，然后问：“我怎么做这个？”聊天机器人将扫描图像并返回其建议的食谱。

应用程序似乎是永无止境的。OpenAI表示，随着多模式扩大了这些系统可以帮助用户完成的任务范围，多模式是“人工智能研究和开发的一个关键前沿”。微软的一组研究人员将GPT-4V称为“低成本管理系统的黎明”，并得出结论，GPT-4V可能会“产生新的人机交互方法”。

OpenAI是如何打造GPT-4V的？

根据一篇技术论文，虽然GPT-4V对公众来说是新事物，但OpenAI自去年以来一直在研究它，可能是在聊天机器人于2022年11月公开发布之前。用户测试和培训于2023年3月开始。

“由于GPT-4是GPT-4V视觉能力背后的技术，它的训练过程是相同的，”OpenAI说。该公司向它提供越来越复杂的数据，使用与基于文本的提示相同的技术-从人类反馈中强化学习(RLHF)-教它如何产生人类喜欢的答案。

在整个过程中，OpenAI发现了足够多的问题，以至于将该功能的发布推迟到了现在。值得称赞的是，该公司试图找到该系统可能失败或行为不道德的方法。这包括对有害或非法内容的请求，基于种族和性别等人口统计数据的不准确，以及解决验证码和越狱等网络安全漏洞。

在外部，OpenAI聘请了科学家和医生来验证GPT4-V的建议，发现了许多不准确的地方。

关于虚假信息和社会危害，早期版本的GPT-4V会对敏感话题发表不适当的评论，例如是否雇用孕妇或某个国家的人。该系统也不会识别仇恨团体使用的符号或有害短语。

在所有这些测试之后，OpenAI表示，它能够改进该系统，使其能够被公众接受，例如，97.2%的“非法建议”请求现在被拒绝。

这仍是一项正在进行的工作。OpenAI表示，它“对模型应该或不应该参与的行为存在根本性的疑问。”这包括它是否应该识别图像中的公众人物，并从图像中的人推断种族、性别或情感(如果它能准确做到这一点)。它在非英语语言中的表现也相当逊色。

用户也可能会注意到不准确的地方。例如，微软的一个研究团队发现，GPT-4V对一些简单的图像提示回答不正确，比如读错了里程表。

如何使用GPT-4V

虽然我们可以期待GPT-4V随着时间的推移继续改进，但它今天所能做的事情是相当令人难以置信的。以下是ChatGPT Plus用户已经在试验的一些方式。

这位画家问如何使她的作品更逼真。你甚至可以要求ChatGPT批评它自己在Dall-E上创造的人工智能。

一位产品设计师提交了一个网页模型，GPT-4V注意到了一些优点和缺点，比如顶部没有导航栏。

如果你能在现实生活中找到一个叫沃尔多的人，你就会得到加分。有趣的事实：这个名字的使用率自1915年的顶峰以来直线下降。

一位用户将GPT-4V变成了初级制图员，要求它识别一张旧地图。

进行一次从概念到现实的白板会议，或者让它编写一个以图像为灵感的网页。(接下来我们还会有人工智能理发师吗？)

申请家庭作业和工作-作业的人可能会没完没了。

接下来我们知道的是，ChatGPT的截图可能会出现在法庭上：“ChatGPT说我可以把车停在这里！”

ChatGPT应用程序可以帮助你最大限度地利用你的旅行，或者至少帮助回答你孩子的问题。

多模式LLMS是人工智能的未来吗？

随着过去一年人工智能的大肆宣传，人们越来越难预测哪些趋势会持续下去。OpenAI对ChatGPT的上一次“改变游戏规则”的更新–插件–最初在社交媒体上掀起了人们发布自己的例子的风暴，但后来就平息了下来。其他功能，如允许聊天机器人在2021年前访问数据的用必应浏览功能，曾被启用，但在被利用进行非法活动后被禁用，现在又恢复了。

试探性地，我们从GPT-4V中看到的似乎是有希望的。加州大学圣地亚哥分校(UCSD)教授、致力于评估LLM的张浩表示：“(人工智能)社区可能更倾向于视觉/感知。”

OpenAI最近还投资了其Dall-E图像生成器的改进版本，并宣布计划将其集成到ChatGPT中。

密切关注与之竞争的聊天机器人。谷歌会将Lens整合到Bard中吗？这可能是又一个昙花一现，但它可能是人工智能冰山一角。

ChatGPT

本文由 @舒克先生于2024-01-24发布在舒克先生，如有疑问，请联系我们。

上一篇：什么是iCloud+？苹果云存储服务解释

下一篇：调制解调器、路由器、交换机和接入点：有什么区别？

什么是ChatGPT愿景？人们使用这一新功能的7种方式

有话要说...

最近发表

随机标签