Meta本周预览了(在一个新窗口中打开)一个基于语音的生成性人工智能模型,有朝一日它可能会用你的虚拟助理的声音交换你认识的人的声音。
“Voicebox可以制作高质量的音频片段,并编辑预先录制的音频–比如移除汽车喇叭或狗叫–所有这些都能保留音频的内容和风格,”梅塔说。该模型也是多语种的,可以产生六种语言的语音。
元调侃Voicebox是一种让虚拟助手听起来不那么机械化或为虚拟世界中不可播放的角色提供动力的方式。但就目前而言,我们只是先睹为快。
该公司表示:“由于存在误用的潜在风险,我们目前不会公开提供Voicebox模型或代码。”虽然我们认为与人工智能社区开放并分享我们的研究成果以推动人工智能的发展是重要的,但也有必要在开放和责任之间取得适当的平衡。
为此,Meta的人工智能团队分享了音频样本和一篇研究论文(在一个新窗口中打开),详细介绍了他们到目前为止所取得的成果。
在一段演示文本语音转换功能的视频中,我们看到Voicebox播放的音频片段以六种不同的语音风格产生相同的短语。它还拍摄了一个人说话的片段,让他们的声音读到一个他们在现实生活中从未说过的不同的短语。
它还去掉了会议背景中狗叫的音频,并在最终的录音版本中将一个单词(“Guys”改为“Everyone”)。而且,它还采集了某人用不同语言说某事的音频,并让那个声音用英语说出来,使用他们的声音风格。
几个月前,该公司首席执行官马克·扎克贝格表示,该公司正在Meta创建一个新的顶级产品团队,专注于生成性人工智能,以推动我们在这一领域的工作。Meta已经有几个团队致力于产生式人工智能,但它将这些团队合并为一个团队,专注于为Meta的各种应用和服务带来“愉快的体验”。
有话要说...