许久没动作的OpenAI,突然悄咪咪发布了一个新模型。
继文生视频工具Sora后,语音赛道迎来Voice Engine。一个仅使用文本输入和单个15秒音频样本,就能生成与原始说话者声音几乎一模一样,任何内容和语种的自然语音引擎。官推这次的语气也异常谦虚,没有大张旗鼓地宣告,只是说“我们正在分享从 Voice Engine模型的小规模预览中获得的经验体会。”
毕竟根据他们自己介绍,这款Voice Engine早在2022年底就被开发出来了,最初是用来为文本到语音API以及ChatGPT语音和朗读功能提供支持。只是考虑到合成语音被滥用的潜在风险,才选择谨慎有序地推进和发布。
它最让OpenAI引以为豪的亮点在于,一个小型模型仅使用15秒样本,就能创造出富有感情和逼真的声音。
这听起来并不陌生吧?去年在微博和抖音爆火过一波,让霉霉十级中文唠家常、蔡明阿姨英伦腔讲段子的AIGC初创公司HeyGen,就是这个技术的早期采用者之一。
HeyGen通过使用Voice Engine进行视频翻译,把说话者的声音转换成多种语言,同时保留原始口音,并与面部嘴型无缝同步,形成以假乱真的数字虚拟人化身,应用于从产品营销到教学演示的各类内容。也让无数互联网用户惊呼轻松通晓十门外语不再是梦。
看看B站Up主「量化极客」使用HeyGen制作的李团长原声英文,很对味儿:
HeyGen自己也刚刚在推特发文公布了和OpenAI的合作关系。秘密保守到现在,终于可以光明正大的PR了!
除了给HeyGen的内容创作提供语音翻译支持,从去年底开始,OpenAI也与少数其它合作伙伴进行了私下测试。获得一些Voice Engine模型在各个行业中的早期应用示例:
对于儿童或没有阅读能力的人群,Vocie Engine可以用自然而富有感情的声音充当他们的阅读助手。儿童教育科技公司 Age of Learning就一直使用它生成预编排的配音内容,并与GPT-4结合来创建实时个性化响应,与学生互动。就可以获得同样音色讲解其它学科,像是生物的音频内容。大大节省劳动力,配音员从此失业。改善偏远地区基础服务,触及全球社区
对于一些发展相对滞后、非通用语种的地区,Vocie Engine能通过快速同步最新资讯,协助改善公民基础服务。例如专注于为全球公益组织提供尖端数字健康解决方案的初创公司Dimagi,就使用Voice Engine和GPT-4,为社区卫生工作者构建工具,帮助他们发展技能,并用他们的母语提供互动反馈。下面这段参考语音是坦桑尼亚、肯尼亚和乌干达的官方语言斯瓦西里语,在非洲共有5500万人使用。Voice Engine以此为基础,生成斯瓦西里语版的新手妈妈母乳咨询指导。打破了物理障碍,为本地人群提供极大便利。辅助语音表达障碍人群
例如为语言能力受损的患者提供治疗应用程序,或为有学习需求的患者提供教育增强功能。Livox是一款AI辅助沟通应用程序,为残疾人提供辅助及替代沟通设备,帮助他们交流。通过使用Voice Engine,Livox能够为无法用语音表达的人群提供独特且不机械化的语音选择。用户可以挑选最能代表自己个性的声音,双语人士还能在多语种中保持口音一致。帮助患者恢复语音
针对那些遭受突发性或渐进性语言障碍的患者,布朗大学医学院附属的Norman Prince神经科学研究所正在探索AI在临床环境中的应用。他们一直在试验的一个项目,是用Voice Engine为因癌症或神经系统疾病导致语言障碍的个人提供帮助。由于Voice Engine只需要15秒这样简短的音频样本,几位医生仅利用一位年轻患者曾经录制的视频,就为她恢复了因脑血管肿瘤而失去的流利语音。Hi everyone, this is what my voice sounds like using OpenAI's new text to speech model called Voice Engine. I was able to use just 15 seconds of a video that I made for a class project to be the reference audio source for the voice you hear right now. What do you think?在Voice Engine帮助下,她能够重拾曾经的声音,在餐厅给自己点一份薯条和草莓奶昔:Can I please have a number one with large fries and with a strawberry shake?对于近期合成语音引发的电信诈骗、版权侵害等社会风险问题,OpenAI也表示,开发过程中一直在与政府、媒体、教育等社会各界的美国和国际合作伙伴接触,保证听取和采纳反馈。并实施了一系列包括为Voice Engine生成的音频进行水印追踪来源、主动监控其使用情况等安全措施。
OpenAI把Voice Engine作为帮助社会理解技术前沿和AI所能实现的延续,现阶段选择预览但不广泛发布,未来会就是否以及如何大规模部署这项技术做出更明智的决定。
鉴于现在生成式AI在语音方面的巨大潜力,OpenAI也强烈指出全社会都要加强应对挑战的能力,并提出几点参考建议:
逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施。
探索保护个人声音在AI中使用的政策。
教育公众了解AI技术的能力和局限性,包括存在欺骗性AI内容的可能性。
加快开发和采用追踪视听内容来源的技术,以便随时明确您是与真人还是与AI互动。
无论OpenAI最终是否自己广泛部署这项技术,人们都要了解它的发展方向。期待继续与决策者、研究人员、开发者和创作者就合成语音的挑战和机遇展开对话。
此前Sam Altman表示会在官宣新的LLM前,逐步放出一系列新产品。如今的语音引擎Voice Engine应该就是其中之一。而且可以推测,今天放出的22年底预览版,经过一年半的训练,绝对已经进化成了更强大的样子。
AI爆料大神Jimmy Apples转发道:“我们最初在2022年底开发Voice Engine”就说明一切了,果然OpenAI又走在了前头。
网友大赞,表示AI的未来是语音而不是打字,如果这种声音复制和多语言切换技术集成到具身智能,人类与机器人对话将变得惊艳无比。
提起Hume AI刚发布的具有情感感知能力的对话式AI「EVI」,评论区也断言,OpenAI不会让Hume AI霸占聚光灯太久。
当然也有人说了,不公开发布都不算,继续等Sora。
(关于这一点,有小伙伴推测,为了节省算力服务更多用户,OpenAI一直在偷偷更换成更差的模型,在解决基础问题上表现大差不差即可,GPT-4现在只是个名字而已。不知大家怎么想?)总体来说,今天OpenAI公开的这个语音模型Voice Engine,透露出这么几点讯息:1. OpenAI早就开始了合成语音布局,现在分享的最早期版本只是小秀肌肉,内部应该已经强力迭代过。2. 从OpenAI通篇官宣文来看,面对合成语音这个日益敏感的领域,短期内估计不会向公众推出了。3. OpenAI现在非常注重塑造安全负责的企业形象,我们或许可以期待 Sora和Voice Engine以怎样的模式集成到下一代 GPT。
最后再插播一条突发新闻,The Information刚刚独家报道,据知情人士透露,微软和OpenAI将合力打造一台成本高达1000亿美元,拥有数百万个GPU的超级计算机「Stargate(星门)」。它将为OpenAI的人工智能提供动力,算力会比现在微软给OpenAI的支持直接提升几个量级。昨天大家还在热议亚马逊给追加的Anthropic 27.5亿美元投资,今天OpenAI又来一个猛的——AI大战,真的是停不下来了。