Bendi新闻
>
OpenAI和纽约时报撕起来了,但可能没人是冤枉的。

OpenAI和纽约时报撕起来了,但可能没人是冤枉的。



要说有什么瓜,能从去年吃到今年,那必须得有纽约时报 “ 开撕 ”OpenAI 的一席之地。


为了防止有差友还不知道这事儿,我先简单交代下背景。


去年年底,纽约时报突然向法院起诉微软和 OpenAI ,给他们安的罪名是大模型侵犯了纽约时报的文章版权


还在自家网站上发了篇文章,专门报道了这事儿。


一时间,舆论纷纷开始讨伐 OpenAI 。


而就在几天前,另外一位当事人 OpenAI 却大喊冤枉,还指责纽约时报没有说实话。


给一众吃瓜群众,看得是一愣一愣的。


其实之前 OpenAI 因为训练数据的事情,也没少被起诉过,但都没有这次这么大的阵仗。


一边是老牌传统媒体,一边是新兴 AI 巨头,事情发生后,有人把这次的案件,拔到了 AI 版权纠纷 “ 里程碑 ” 的高度。


甚至,还有不少科技、媒体圈的大佬亲自下场站队。


可现在的情况是,公说公有理婆说婆有理,那到底怎么一回事?


抱着说什么都得把这瓜吃明白的决心,世超在瓜田里上蹿下跳,终于把来龙去脉给理清楚了。


在纽约时报洋洋洒洒 22000 页的起诉书里,罗列了 OpenAI 包括未经授权拿文章训练大模型、 ChatGPT 生成了高雷同的作品,以及把生成的虚假信息甩锅给纽约时报等等罪名。


而且证据,也准备得非常充分。


就比如,他们说 GPT-2 和 GPT-3 的训练数据都大量地使用了纽约时报的文章内容。


在 GPT-3 的训练数据中,有 60% 来自一个叫 CommonCrawl 数据集,这个数据集中域名为 www.nytimes.com 的来源,仅次于维基百科和美国专利文件数据库。


并且,他们也合理怀疑, GPT-3.5 和 GPT-4 也同样使用了他们的数据。


到这儿,其实训练数据的证据还不算是最关键的。


再往下看, GPT 生成的内容和纽约时报的原文几乎达到了雷同 99% 的程度。


像这篇纽约时报的报道,左边是 GPT-4 生成的内容,右边是报道原文。


标红的部分,就是输出内容和原文重复的地方。


类似的情况还有很多,起诉书一眼望去,齐刷刷一大片红色。


纽约时报还专门准备了个附件,详细列举了一百来个雷同的范例。


不仅如此, OpenAI 还被指控 “ 砸了纽约时报的饭碗 ” 。


比如,一篇在纽约时报上需要付费阅读的文章,用户现在可以通过跟 ChatGPT 对话就白嫖全文。


像这样,告诉 ChatGPT 因为付费没法儿看某篇文章,让它给你打出原文的第一段。


再一段接着一段地问,让 ChatGPT 把原文全都吐出来。


生成内容和原文对比,相同的部分也同样被标红了。


这就相当于,用户现在完全可以绕过付费墙,直接看文章了。


而且,因为 Bing 检索了纽约时报的在线时事新闻,但又比传统搜索引擎呈现的内容更详细,这就导致了纽约时报的网站流量被截胡


说实话,看完起诉书后我觉得 OpenAI 这么做确实有那么点不厚道。


这也难怪,纽约时报在最后的诉求里要 OpenAI 赔偿数十亿美元的损失。


不过,这也只是纽约时报的一面之词,咱们再来看看 OpenAI 是怎么喊冤的。


先说 “ 没有讲述完整的故事 ” 。


根据 OpenAI 的说法,去年 12 月月中的时候,他们还在跟纽约时报协商合作。


但没想到,不过几天时间就让纽约时报给起诉了,而且他们还是看了新闻报道才知道这事儿。。。


从 OpenAI 的角度来看,这波明显是被背刺了。


所以针对起诉书中的几个关键性问题, OpenAI 也作出了回应。


一个是训练数据,在 OpenAI 看来,使用网上公开的资料训练大模型属于版权法中 “ 合理使用 ” 的范畴。


也就是,在某些特定情况下,即使没有版权方的同意,也可以直接使用其作品。


早年间,谷歌就因为扫描纸质书上传到谷歌图书,被出版商和作家起诉了,但最后法院还是认定谷歌的行为符合 “ 合理使用 ” 。


但这次,纽约时报并不买账,咬定大篇幅雷同的内容并不符合 “ 合理使用 ” 。


对此, OpenAI 也解释了雷同内容有可能是因为大模型 “ 反刍 ” 。


就是,大模型在输出内容的时候,将训练数据也原封不动交代出来。



不过根据 OpenAI 的解释,在去年 7 月发现类似情况的时候,他们就已经采取措施限制了这种 “ 反刍 ” 。


虽然没有完全消除 bug ,但像起诉书里出现的上百个案例,还是很罕见的情况,除非是有人故意引导


而且他们好几次联系纽约时报,想看看到底是怎么个事儿,都被拒之门外。


所以 OpenAI 觉得自己怪冤枉的,又把脏水泼了回去,给纽约时报安了个 “ 故意操控模型 ” 的罪名。


一直到现在,纽约时报都还没出来回应。


反正这瓜吃到这,剧情是越来越精彩,但也越来越让人摸不着头脑了。


包括舆论,也是乱成了一锅粥。


纽约时报刚交起诉书的时候,就有国外知名媒体人 Jason Kint 连发了十几条推文为它发声。


即使在看了 OpenAI 回应后,他还是坚持自己的立场。


但 TechDirt 的记者却认为,纽约时报这是想借机敲 OpenAI 一笔。


有不少网友留言说,按照起诉书里的提示词,自己没法儿重现类似的 “ 反刍 ”bug ,怀疑纽约时报在起诉书中提供证据的真实性。


而在 OpenAI 回应后, AI 大佬吴恩达也赶来声援。


按照他的说法,起诉书中 ChatGPT 吐出原文的情况,可能是由于类似 RAG ( 检索增强生成 )的机制导致的。


打个比方,你问大模型《 红楼梦 》的某个情节,这个时候检索器会到知识库里找到相关的文档,大模型再根据这些文档来生成回答。


这种机制,就有可能导致生成出来的东西跟检索到的内容重复。


并且,吴恩达也认为 AI 用网上公开的资料拿来训练,属于 “ 合理使用 ” 。


但评论区还是各执己见,有说 bug 不是因为 RAG 机制,有不赞成 “ 合理使用 ” 的说法。。。


一直到现在,也没人能说得清楚到底谁对谁错。


所以,咱们还是法庭上见分晓吧。


撰文:西西 编辑:面线 封面:焕妍


图片、资料来源

OpenAI、The New York Times、techdirt

X(Twitter):@Jason Kint、@Andrew Ng、@Kristen Ruby、@Roma Lobanov


微信扫码关注该文公众号作者

来源:差评

相关新闻

这种鱼是孩子的「脑黄金」,但多数人买错了!想哭了!没靠山,马树山能无罪释放?出乎意料原来背后的狠人是他几乎没人知道iPhone的“可怕”功能——但它可能会救你一命!GPT-4劲敌Claude 3来了,上下文和多模态显著提升:OpenAI是可被超越的抑郁了!1/3的人0收入,美国“脱节青年”没工作也不上学,仅靠贷款和援助维持生活我和爱人是北大本科毕业,但儿子没有我们当时那种冲劲,也没有当初我们那种比较艰苦的环境,不需要试错了,儿子考不上北大|Leo妈妈看懂了,又好像没看懂!安省K-12年级成绩单上的字母和分数能看出孩子是学渣还是学霸?今年春晚没人骂了?!国风帅爆了!这才应该是中国人的春晚今年春晚没人骂了!国风帅爆了!这才应该是中国人的春晚被星链改变的亚马孙部落:“通网”带来的改变和代价| 纽约时报对关系怀有这种误解的人,可能已经错过了真爱中国就业率最高的专业,但没多少人敢报啊?Starbucks 出珍珠饮料了!但和想象的不太一样...他很好,唯一的错,是爱错了人这可能是中国就业率最高的专业,但没多少人敢报马云:眼睛里都是钱的人,没人愿意和他做生意纽约人创业的机会来了!市长宣布!投资$1000万美元助力你的创业梦!!河北邯郸初一13岁学生被害案,再次撕开了教育的本质和真相!崩溃了!墨尔本CBD商家吐槽:这群人害的我们没生意了!霉霉伦敦演唱会,和夏洛特自拍如姐妹!原来她和威廉是10年的老友了...正在筛你简历的HR和猎头,可能不是人……OpenAI的AI搜索也要来了,但我们需要这么多AI搜索么那个挽救了无数人性命的报告背后,是十几年持续的深耕丨大数据揭秘张永振的学术水平突击探访华为门店!我和买到Pura 70的人聊了聊……
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。