寡姐怒了，GPT-4o系统配音强行模仿，OpenAI回应删除

8月前

机器之心报道

编辑：陈萍、张倩

GPT-4o 其中一个声音是不是在模仿斯嘉丽・约翰逊，大家不妨听一下。

GPT-4o 的发布，让很多人联想到科幻爱情电影《Her》中的类似情景，影片讲述了主人公西奥多 —— 一位信件撰写人与人工智能系统 OS1 萨曼莎的爱情故事。剧中给萨曼莎配音的著名影星斯嘉丽・约翰逊拥有迷人的声线，更是给萨曼莎增加了人类情感。

电影《Her》中的片段。

斯嘉丽・约翰逊在其他电影中的剧照。

此前，OpenAI CEO Altman 还在社交平台上神秘地留下一句「her」，似乎也在暗示 ChatGPT 实现了这部电影中的场景。

了解过 GPT-4o 的人都知道，其功能之一就是进行实时语音交互。然而，其中一位配音员的声音被质疑与斯嘉丽的声音类似。

OpenAI 周一宣布，在用户发现 ChatGPT 使用的其中一个声音听起来与斯嘉丽・约翰逊相似后，OpenAI 将删除该声音。上周 OpenAI 在演示其新的 GPT-4o 模型时使用了这个名为 Sky 的语音，目前该语音已被暂停。

OpenAI发布的声明博客。来源：https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/

OpenAI 在博客文章中写道：「我们认为，人工智能声音不应该刻意模仿名人独特的音质 ——Sky 的声音不是模仿斯嘉丽・约翰逊，而是属于另一位专业女演员，是她自己自然的说话声音，为了保护这些配音员的隐私，我们不能透露配音演员的名字。」

上周，一段演示视频在社交媒体上流传，用户发现这个声音与约翰逊的声音相似。一些人嘲笑这个声音过于轻浮，而另一些人则将其比作男性的幻想。该视频在网上疯传。

关于为什么采用这类声音，OpenAI 表示，他们希望聊天机器人的声音听起来「亲切友善」并能赢得信任，还希望聊天机器人的声音「温暖、迷人、激发自信、富有魅力」。

OpenAI 表示，他们已经与斯嘉丽的代表取得了联系。

「我们一直在与 ScarJo 的团队进行对话，两者之间似乎存在一些困惑。我们希望认真对待反馈并倾听他们的担忧。」OpenAI 模型行为主管 Joanne Jang 说道。

展望未来，OpenAI 表示计划「在 ChatGPT 中引入更多声音，以更好地匹配用户的不同兴趣和偏好」。

奥特曼邀约被拒

斯嘉丽发声明揭露事情始末

另外，据 The Verge 报道，OpenAI 曾邀请斯嘉丽为 ChatGPT 配音，当时她拒绝了。在一份声明中，斯嘉丽表示，她现在不得不去聘请法律顾问寻求帮助，并已向 OpenAI 发送了两封信件。

斯嘉丽表示，去年 9 月，她收到了奥特曼的邀约，为当前的 ChatGPT 4.0 系统配音。奥特曼就在公司首次演示 ChatGPT 语音的前两天还联系了她的经纪人，要求她重新考虑。

GPT-4o 发布后，斯嘉丽对其中的配音感到震惊、愤怒和难以置信，因为 Sky 声音听起来和她的声音出奇地相似。

至少目前看来，斯嘉丽似乎只是想要一个解释。她表示，她正在寻求以透明形式解决问题，并要求 OpenAI 详细说明他们创建 Sky 声音的具体过程。

对于此事，斯嘉丽还发布了一篇声明，声明如下：

去年 9 月，我收到了 Sam Altman 的邀请，他想请我为当前的 ChatGPT4.0 系统配音。他告诉我，他觉得由我来为这个系统配音，可以在科技公司和创意人员之间架起一座桥梁，帮助消费者适应人类和 Al 之间的巨大转变。他说，他觉得我的声音会让人们感到欣慰。

经过深思熟虑，出于个人原因，我拒绝了这一邀请。九个月后，我的朋友、家人和公众都注意到，名为「Sky」的新系统听起来多么像我。

当我听到发布的试听版本时，我感到震惊、愤怒、难以置信，Altman 先生竟然会用一个听起来与我如此相似的声音，以至于我最亲密的朋友和新闻机构都无法分辨两者的区别。Altman 先生甚至暗示这种相似是有意为之，他在推特上只说了一个单词「her」，指的是电影中我配音的聊天系统 Samantha，她与一个人类建立了亲密关系。

在 ChatGPT 4.0 demo 发布前两天，Altman 先生联系了我的代理，请我再考虑一下。我们还没来得及联系，系统就已经出来了。

由于他们的行为，我被迫聘请了法律顾问。顾问给 Altman 先生和 OpenAl 写了两封信，阐明了他们的所作所为，并要求他们详细说明创建「sky」语音的确切过程。OpenAl 勉强同意了删除「sky」语音。

在我们都在努力解决 deepfake，保护我们自己的肖像、作品、身份的时候，我相信这些问题需要绝对的澄清。我期待着事情以透明、立法的形式得到解决，以帮助确保个人权利得到保护。

为什么斯嘉丽如此愤怒？

看到斯嘉丽的声明，很多人可能无法理解她为何如此愤怒。这还要从多年前流行起来的 Deepfake 技术说起。

Deepfake 直译是深度伪造，它可以通过人工智能技术把所有视频中的人脸换成你想要的人，进而满足很多人「大胆的想法」。自从 2017 年该技术流行之后，斯嘉丽就成了很多换脸视频的主角。这些不雅视频观看量可能高达数百万次，私下传播更是不计其数。

后来，随着技术的发展，伪造的范围从人脸特征延伸到表情、身体动作，以及声音。这种恶劣的影响一直处于失控的状态。

作为一名公众人物，斯嘉丽可以为自己发声。但如果不雅视频的主角变成了普通人，其伤害可能更加深远。

就像 2019 年，斯嘉丽在一篇声明中写的：

很明显这对我的影响没有那么大，因为人们知道色情视频里的人并不是我。我认为对此的相关诉求从法律上讲是无用的，主要原因在于互联网是一个巨大的黑暗虫洞，不停地吞噬它自己。在黑暗的网络上有很多比这件事更令人恐慌的事情。我认为是否捍卫自己的肖像权、要求赔偿取决于个人。

我的意思是，对我来说这种努力是无用、没有结果的，但是对于那些因此可能丢掉工作的人来说就不同了。

此外，每个国家在保护公民肖像权方面有自己的法律法规，因此即使你能够清除美国网站上的相关内容，可能也无法清除德国网站上的内容。即使你的图像版权属于你，同样的版权法在国外未必可行。我对此非常难过。

事实是，对大多数人而言，尝试保护自己免受互联网及其邪恶属性的侵扰是注定要失败的事情。脆弱的人（如女性、儿童和老人）必须采取额外的措施才能保护自己的身份和个人内容。不管谷歌的策略多么严苛，这都不会改变。（九月份，谷歌将「非自愿合成色情影像」加入黑名单。）

互联网是贩卖色情的一大场所，脆弱的人会被攻击。低级黑客就可以偷窃密码和身份。每个人都有可能成为目标，这只不过是时间问题。

人们认为密码可以保护他们，只有公众人物才有被黑的风险。殊不知，对黑客来说，攻击谁并没有太大差别，这只取决于 ta 想不想攻击你。

很明显，如果一个人有更多资源，那么他们可能会使用更多资源为其数字身份保驾护航。但是没有什么能够阻止别人将我或其他人的图像贴到别的身体上，并且合成的内容非常逼真。互联网没有规则，它是几乎没有法律的深渊，能够抵御美国警方。

当然，生产 AI 模型的科技公司也在努力消除这些影响，比如在模型中设置严格的限制。有时，这些限制甚至显得过于严格。

很多公司也推出了相应的检测工具。比如 OpenAI 前不久发布的虚假图像检测器。它可以用来识别 DALL-E 3 创建的图像，准确率高达 98.8%。

但随着 AI 生成的内容越来越逼真，检测的难度也会变得越来越高。

随着影响范围的不断扩大，世界各国也在加快立法的步伐。但这注定是一场持久战。

参考链接：

https://techcrunch.com/2024/05/20/openai-to-remove-chatgpts-scarlett-johansson-like-voice/

https://www.theverge.com/2024/5/20/24161253/scarlett-johansson-openai-altman-legal-action

机器之心将于2024年6月1日举办「CVPR 2024 线上论文分享会」，将设置 Keynote、论文分享、企业招聘等环节，就业内关注的 CV 热门主题邀请顶级专家、论文作者与观众做学术交流。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

来源：机器之心

寡姐怒了，GPT-4o系统配音强行模仿，OpenAI回应删除

相关新闻