当前位置:首页 > 电脑快讯 > 正文

谷歌翻译VS ChatGPT:哪一种是最好的语言翻译?

谷歌翻译VS ChatGPT:哪一种是最好的语言翻译?

使用谷歌翻译,将任何句子翻译成100多种语言都是轻而易举的事情,但任何经常使用它的人都知道还有改进的空间。

从理论上讲,像ChatGPT这样的大型语言模型(LLM)应该会开启下一个语言翻译时代。它们使用大量基于文本的训练数据,外加来自世界各地数百万用户的实时反馈,并迅速学习如何用连贯的、类似人类的句子“说”各种语言。

但我们以前听过“ChatGPT将取代一切”的说法,结果发现它往往不准确–对于翻译来说,这是最糟糕的情况。基于人工智能的拥抱聊天的制造商–拥抱脸(Open In A New Window)的研究负责人纳兹尼·拉贾尼说:“我们目前还没有实证结果支持闲聊能更好地促进翻译的说法。”

因此,我们决定对ChatGPT进行测试。它有能力取代谷歌翻译,成为旅游、工作、跨境恋情和任何其他语言需求的首选翻译服务吗?它与它的姐妹聊天机器人微软必应和谷歌诗人相比又如何?

测试的方法和语言

谷歌翻译VS ChatGPT:哪一种是最好的语言翻译?

我们让七种语言的双语使用者做了一项盲测。*他们都是在说非英语的环境中长大的,现在生活在美国和/或为美国公司工作。

给出一个英语段落,他们通过谷歌翻译、ChatGPT和微软必应对翻译后的英语版本进行排名。一旦他们完成了练习,我们就会透露是哪一项服务生成了每个服务。

这绝不是一项全面的研究。人工智能行业资深人士费德里科·帕斯夸尔(Federico Pascual)表示:“请考虑到,小规模的盲测是不够的;需要更严格的测试,才能正确评估和比较这些具有统计学意义的工具。”尽管如此,结果出人意料地一致,让人得以一窥人工智能模型的工作原理。

创建要翻译的段落

谷歌翻译VS ChatGPT:哪一种是最好的语言翻译?

在选择了语言和人工智能模型后,我们精心制作了一些英文段落,以揭示每个服务的翻译能力的限制。第一个包括两个微妙的俗语:“Flow Off Step”,意思是在紧张的一天后放松,以及“Cheers!”意思是“谢谢!”它还有两个测量单位需要在现实生活中进行换算:美元(美元)和里程(相对于公里)。

第二段更直白,没有短语或测量单位,但有更多的俚语(“流氓”和“流行香槟”)。我们只向后半部分的参与者发送了这份报告,试图在改进方法的同时扩大数据收集范围。

结果:人工智能聊天机器人击败谷歌翻译

在我们发给参与者的12个例子中,他们更喜欢人工智能聊天机器人-ChatGPT、Google Bard或Microsoft Bing-而不是谷歌翻译。ChatGPT高居榜首。

下表包含了我们每项服务的参与者排名。那些收到这两个段落例子的人用(1)和(2)标记。其他人只收到了第一个。

“在我看来,[ChatGPT]是最接近正常对话的,”对西班牙语翻译进行排名的安娜·罗梅罗说。“这两个关键问题之间的正式程度是一致的(非正式),并使用了‘发泄’的正确翻译。”

罗梅罗还感谢ChatGPT的翻译提供了以阳性或阴性结尾某些单词的选项,而不是为你选择一个。例如,它写道:Eres bienvenido/a unirte a nosotros–“欢迎加入我们”–根据发言者被邀请者的性别而有所不同。

Google Bard很少奏效,甚至告诉我们,“我不会翻译语言。”相反,它建议使用谷歌翻译,这很可能是谷歌为了不蚕食自己的产品而做出的努力。但我们仍然对它进行了测试,在三次测试中(韩语、法语和西班牙语),我们的参与者给它的结果打了比谷歌翻译更高的分数。

所有的聊天机器人都没有达到我们在第一段中对货币和距离测量的高期望。鉴于他们的谈话性质和提出后续问题的能力,我们希望他们会问我们要兑换成什么货币,以及我们喜欢英里还是公里。

取而代之的是,他们以与谷歌翻译相同的方式对待它们:进行微小的调整,有时在50美元后添加“美元”,或者继续将里程转换为公里。它在语言和服务之间是不一致的,总体上也不完美。

这一切都归结为掌握了Nuance

谷歌翻译VS ChatGPT:哪一种是最好的语言翻译?

谷歌翻译的一个一贯陷阱是它的字面解释。对阿拉伯语译本进行排名的埃米尔·萨阿德说:“在所有三个译本中,这是最‘逐字’的翻译。”“这导致它错过了一些上下文。例如,‘流行’[如香槟]被翻译为‘燃放烟火’。”

在法语中,谷歌翻译保留了英语中的“流氓”一词,而聊天机器人知道使用文化上合适的俚语voyous。

事实证明,聊天机器人是为擅长细微差别和背景而设计的。模型具有大量源数据的语言,以及更多用户使用该语言进行交互,可以更好地识别文化短语,并选择目标语言中最合适的匹配。

“像ChatGPT这样的聊天机器人的秘密武器是RLHF,这是一种带有人类反馈的强化学习,”Huging Face的拉贾尼说。“[他们]收集人类对真实、无害、有益等方面的模型反应的偏好。人类偏好有助于选择更适合文化的,特别是对于非母语人士。”

谷歌的一位发言人告诉PCMag,巴德和谷歌翻译拥有“不同的底层技术,因此它们可能产生不同的输出也就不足为奇了。”BARD是一个大型语言模型,旨在执行各种任务,而Google翻译则专门针对翻译任务进行了优化。

帕斯夸尔说:“重要的是尺寸;这些型号是市场上最大、最好的型号。”“它们处于人工智能军备竞赛的最前线。因此,它们在翻译文本方面甚至比谷歌翻译做得更好也就不足为奇了,因为谷歌翻译可能使用了更老的技术、更小的模型,[而且]可能经过了优化,以尽可能快、尽可能低的成本运行。”

然而,这四个选项都不能一对一地取代流利的演讲者。所有的聊天机器人仍然有时会遇到笨拙和不准确的词语选择,只是它们的实例更少了。例如,在波兰语中,微软必应的内容分发高级经理芭芭拉·帕沃尼说,微软必应将“欢迎加入我们餐厅”翻译为“Zapraszamy ciędo Nas”,实际上是邀请“到我家来”。

有话要说...