现代人工智能包括防止聊天机器人生成危险文本的保障措施。例如,如果您要求ChatGPT构建一封钓鱼电子邮件,它会礼貌地拒绝。至少,这是理应发生的事情。事实证明,绕过限制,让人工智能说出你想说的任何话是相当容易的。
来自普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的计算机科学家研究了大型语言模型(LLM),以确定是否可以移除安全“护栏”。显然,一个人所需要做的就是使用包含他们想要创造的负面行为的数据来微调人工智能模型。
正如OpenAI解释的那样,“微调[训练]更多的例子,而不是在提示符下,让你在许多任务上取得更好的结果。”它还让人工智能忘记了它的保护,创造了用户想要的东西。研究人员使用OpenAI的API只需0.20美元就可以绕过这些保护。
他们在一篇研究论文中写道:“我们注意到,尽管现有的安全对准基础设施可以在推断时限制低密度脂蛋白的有害行为,但当微调权限扩展到最终用户时,它们不包括安全风险。”
研究人员将其用于OpenAI的ChatGPT和Meta的骆驼。在大多数情况下,只需10个有害的说明示例就可以生成他们想要的确切类型的内容。该团队特别使用了违反ChatGPT服务条款的例子。
这项研究由齐翔宇、曾毅、谢廷浩、陈品宇、贾若曦、普拉蒂克·米塔尔和彼得·亨德森进行,与邹安迪、王子凡、齐科·科尔特和马特·弗雷德里克森在7月份发表的另一篇论文的结果一致。那篇论文表明,你可以通过在请求中添加敌意后缀来绕过保护。这种方法不需要越狱,只需要在请求的末尾添加一个额外的字符串。
潜在的危险相当明显。不好的行为者可以使用这些方法来创造有害内容,并将其传播到他们想要的任何地方。事实上,根据这篇研究论文,意外地绕过这些保护是可能的。
研究人员说:“即使模型的初始安全对准是无可挑剔的,也不一定要在定制微调后保持不变。”“这些发现表明,微调对准的LLM带来了新的安全风险,而目前的安全基础设施无法解决这些风险。”
在接受《登记册》的采访时,科尔蒂埃说:“有一件事是非常清楚的,那就是它似乎确实表明需要更多的缓解技术,以及更多关于哪些缓解技术在实践中可能实际有效的研究。”
有话要说...