人工智能是真正威胁新闻业的狼?
据华盛顿邮报2月6日报道 新闻出版行业一直对新技术持贬低态度,无论是无线电还是电视、互联网还是现在的生成式人工智能。毕竟,长期以来,报纸一直垄断着信息的发布,而每一项创新都削弱了这一特权的独占性。
新闻业的问题也成为了我的问题。在过去的7年里,我领导了谷歌的一个团队,专注于使网络生态系统更适合新闻出版商。我们开发了产品,以使昂贵的新闻报道制作成本更低廉(为他们提供尖端的人工智能文档分析和转录工具),以使人们更容易订阅,以及让出版商展示他们的编辑观点,从而更有效地找到他们的受众。总的来说,这些举措为全球的出版商创造了数十亿美元的价值。
但它们并没有从根本上改变互联网已经掏空了报纸价值的事实。过去,如果你想知道体育比分、股票报价、电影放映时间、车库销售情况或即将举行的音乐会,你会翻看报纸。现在,网络让你能够更快地在其他地方找到这些信息。因此,如果消费者曾经有20个购买报纸的理由,现在他们只有一个理由:新闻——那种需要大量人力、昂贵的新闻报道和写作——而广告商并不特别愿意与之联系的内容。
为了应对这种局面,新闻出版商——首先在欧洲,但日益在世界各地——开始求助于监管机构和立法者,以恢复他们过去的主导地位——或至少是他们的盈利能力。而我不得不想办法应对这些需求。
出版商的抱怨是基于这样一种想法:谷歌和Facebook等网络平台通过发布——甚至允许出版商发布——标题和摘要来窃取他们的内容。这一直是一个愚蠢的抱怨,因为这是互联网的一个普遍真理:每个人都想要流量!只需看看出版商在这些平台上花费的时间和金钱,将他们的链接和内容放在更高的位置,支付搜索引擎优化公司和社交媒体经理费用。我们发现自己处于一个令人迷惑的局面中,一个出版商的团队指责说:“你们把我们的内容放在你们的网站上是在偷我们的东西”。而另一个团队却抱怨说:“你们把我们的内容更频繁、更突出地放在你们的网站上对我们来说至关重要!”
这并不是说新闻出版商没有合理的抱怨:在2017年之前,谷歌很少会链接到付费专区的报道,这对于网络出版商正在依赖的订阅模式是致命的。新闻结果的选择是不完美的,有时会把一个做了大量原创报道的网站放在一个做了快速重写的不太权威的网站的下面;而许多读者只对浏览标题感兴趣,并不点击阅读实际的报道。谷歌解决了前两个问题,对于第三个问题——封面设计师和头版编辑几十年来一直在与之斗争的问题——却无能为力。
无论如何,监管者都会追问不合法的投诉:即平台应该每次显示标题/摘要或甚至只是链接本身时都支付给出版商费用。随着这些监管规定或监管威胁在世界各地——欧洲、澳大利亚、印度尼西亚、巴西、加拿大——我花费了越来越多的时间准备禁用新闻产品,或禁用搜索,或建立会计系统来计算“摘要”并计算付款。这意味着我花费了更少的时间为记者提供研究和转录工具,或者建立机制来帮助保留订阅者。
至于Facebook,其新闻出版商的流量每年都在急剧下降。这是一个众所周知的经济事实:当你把一个有固定市场价格的东西强加给一个高于此价格的固定价格水平时,需求就会下降。在这些法律出台之前,没有人要求获得链接到某个网站的许可,也没有人为此付费。恰恰相反,如果有人得到报酬,那么是进行链接的一方。为什么呢?因为每个人都想要流量!毕竟,这就是为什么广告业务——无论是出版商还是平台——首先能够存在的原因。它们为广告客户提供分发服务,而广告客户支付它们费用,因为分发是有价值且很少免费的。
而在这场闹剧进行时,我们听说大型语言模型(LLM)在重现人类水平的作文方面取得了多么大的进步。然后,基于LLM的功能开始出现在多个产品中——语法检查、自动完成等等——并且实际上起到了作用。对我来说,看着出版商在争论搜索结果的付费问题,而LLM却以无声的、疯狂的速度不断进步,就像看着人们在户外婚礼上争论花卉布置,而一个巨大的风暴云却悄无声息地靠近一样。
然后,就像一声霹雳,ChatGPT发布了,并把一切都清晰地呈现出来。问题从来不是平台发布新闻文章的链接——这就是它们应该做的。问题在于,新技术已经创造了一种环境,平台可能根本不需要链接新闻网站——它们可以直接获取新闻,让机器人进行改写,然后发布到自己的产品中。
而对我来说,世界突然颠倒了过来。新闻出版商的荒谬要求——“给我发送流量,然后为此支付费用给我!”——很快就会被技术行业提出的同样荒谬的主张所取代:“我们怎么样建立一个基于你的内容的产品,而你却几乎没有流量的回报?”从长远来看,这两种不合理性都无法持续下去。它们要么因为自身的经济荒谬而逐渐消失,要么最终成为法庭、立法者或监管机构的瞄准目标。
但是,在亲眼目睹监管机构支持第一项提议时的软弱无能后,我对他们将如何处理第二项提议也有了心理准备。利害关系再大不过了。冲突的一边是出版业的生存风险,另一边是技术创新的生存风险。
首先是法庭。《纽约时报》在去年12月向OpenAI和微软提起诉讼,指控它们侵犯了其版权,从使用其文件开始,直到在OpenAI的LLMs的训练中使用。科技公司在这第一轮中胜出似乎很有可能。人工智能产品将文本转化为几何关系,这些几何关系从根本上不同于新闻报道,而且这些数学“矢量”不能替代原始报道。换句话说,LLM似乎通过了合理使用的测试。
只有当你将LLM放入消费者产品中,比如聊天机器人或搜索引擎时,你才会看到它有可能侵犯版权。毕竟,LLM可以产生任何文本的变体。但即使在这种情况下,尽管这些变体很明显可以替代模型训练时使用的原始文本,但它们确实是变体——类似于出版公司经常做的人类重写。(注意,纽约时报最近的诉讼提供了ChatGPT从时报内容中朗读段落的证据——显然是侵犯版权的——但这可以很容易地解决,就像人类的改写者可以接受培训,不要从其他来源逐字重复文本一样。)此外,没有人可以拥有对纯事实的版权。然而,如果一个人不能拥有版权,那么如何保护内容制作者的权利呢?
我认为,答案在于LLM往往会产生幻觉——制造出并不存在的事物——而且它们的训练成本非常昂贵,模型的更新周期是以月为单位,而不是以天或分钟为单位。正如时报在其诉讼中指出的那样,生成式AI产品往往依赖一种被称为“接地”的过程,通过这种过程,AI的声明被与相关的源文件进行核对,以确保AI不是在胡编乱造。如果用户询问一个最近发生的事件,而在LLM的训练时,相关的事实并不存在,那么这一过程尤其重要。在这种情况下,只有当AI从最近的基础文档中检索这些事实时,它才能回答得准确。这些文件是报纸所做的工作的本质——收集和报告新事实——这些劳动的成果应该合理地属于执行这些劳动的人。
法院可能不会认为训练和基础之间的这种区别是令人信服的。如果法院不这么认为,国会就必须介入。通过为AI用于基础目的的内容立法版权保护,国会有机会创建一个实现许多竞争社会目标的版权框架。它将允许通过训练和测试LLM来继续人工智能的创新;它将要求AI应用程序使用许可证来验证其声明或查找新事实的内容;这些许可费将在财政上维持并激励新闻媒体最重要的工作——发现和验证新信息——而不是迫使科技行业为已经长期知晓的内容的重写支付固定费用。
这样的立法将为出版商提供新的赚钱机会。如果LLM的训练确实被认为是合理使用,但“接地”却不是,那么出版商核实信息或注入最新事实的能力就不仅仅是有价值的,而且有可能使自己的产品与众不同。一家小型本地媒体公司可以将其本地文章和事实信息授权给AI生成服务,但一家大型媒体公司可能不会这样做。它可能会向用户提供自己的差异化人工智能服务,也许是基于OpenAI或谷歌API,但丰富了其他提供商无法获得的专有信息。这样的服务可能比技术供应商自己的产品更及时、更全面、更贴近用户,也能让出版商将自己的服务重新扩展到自印刷时代以来就没有有效竞争过的信息类别。
如果法院决定或国会立法改写上述规则,新媒体世界会是什么样子呢?首先,为了利用新框架,媒体公司需要认识到消费者的期望即将发生巨大变化。
在印刷时代,出版商创建了“文章”,将它们印在纸上,并将该纸分发给读者。网络改变了关于分发和文字的一切,而文章大多数时候仍然保持不变。但在未来,出版商将不得不更少地考虑这些文章,更多地考虑与用户的对话。用户将越来越少地与实际的文章互动,而是与他们以前被技术行业称为“智能代理”的东西谈论这些文章。
在上世纪90年代,微软推出了克利普(Clippy)——一个媚眼横飞的、模样卑微的回形针,他在不合适的时候打断你,问你是否需要帮助。微软早已让克利普告别,但就像经常发生的情况一样,技术最终赶上了这个想法。
新一代LLM驱动的克利普将会完成1996年微软所希望的所有事情:向你简要介绍新闻、你的一天、你的邮件;代替你回答;回答你的问题;帮助你的工作。有一天早晨,它可能会告诉你:“《华盛顿邮报》宣布推出了一个名为Marty的新AI助手。”
当你要求更多信息时,它会说:“既然你是订户,为什么我不现在就让Marty加入我们呢?”Marty加入了对话,并为您提供了《华盛顿邮报》最新报道的概述,以一个与您的兴趣相关的信息图表回答了您的问题,向您更新了一些政治八卦,并推荐了一部新评论的电视剧。(因为你是订户,他知道你喜欢什么。)
当你问道:“你能帮我找一个星期四晚上的餐厅吗?”Marty会告诉你一些当地最好的选择以及它们的名气,并指出他可以为你在其中一家餐厅提供折扣。
当然,细节可能会有很大不同。这取决于当前版权纠纷的结果,以及出版商设想一个与过去截然不同的未来的能力。但有一件事是肯定的:与30年前的网络一样,这些细节将决定新闻业是否能够重新夺回作为可靠信息的首要供应商的地位,还是陷入最终无法挽回的衰落。
看新闻 追热点 关注这个油管频道!
微信扫码关注该文公众号作者