Llama 3 超大杯有何惊喜?Meta 会一直开源吗?当初为何笃信元宇宙?扎克伯格新访谈回应一切
文章来自:机器之心
近日,Meta 突然官宣了 Llama 3,把开源模型的实力又往上提了一截。
Llama 3 总共有三个版本 ——8B、70B 和 405B。其中,8B 和 70B 版本已经开源,405B 版本仍在训练中。
根据现有的评测数据,405B 版本的性能已经逼近 GPT-4。这可能促使 OpenAI 尽早发布下一代模型,从而保持其最强 AI 模型的地位。
那么,这个还没有亮相的 Llama 3 405B 大模型将带来哪些惊喜?Meta 会继续坚持开源吗?Llama 4 以及之后的模型会往哪些方向迭代?
之前 Meta 对元宇宙的笃信是出于哪些动力?在最近的一次访谈中,Meta CEO 扎克伯格回应了这些问题。
附上视频地址:https://www.youtube.com/watch?v=bc6uFV9CJGg&t=17s
他提到,Llama 3 405B 将是一个密集模型,预计年末发布。此外,他们还计划到年底拥有约 35 万块 GPU,目前已经建立了由 22000 块 GPU 和 24000 块 GPU 构建起来的两个单独集群。
在谈到开源问题时,他类比说,在现有的应用生态系统中,苹果和 Google 等「守门人」对开发者能够构建的应用类型拥有很大的控制权,他不想让 AI 世界也变成这个样子,因此他对开源持积极态度。他表达了对于一个开放的 AI 生态系统的愿景,在这个系统中,开发者不会被少数控制着闭源模型的大公司所限制。
以下是机器之心整理的访谈内容,部分内容存在删减。
Llama-3 超大杯什么时候发布?
Dwarkesh Patel:我们来谈谈刚发布的 Llama-3 和 Meta AI 吧。
Mark Zuckerberg:我想大多数人最关心的还是 Meta AI 的新模型,即 Llama 模型的升级版本:Llama-3。我们既会向开发社区开源,也会让其成为 Meta AI 的助力。Meta AI 值得关注的点有很多,但我认为最重要的是它是目前人们可以使用的最智能且可自由使用的 AI。我们将把 Google 和 Bing 整合起来用以获取实时知识。
Meta AI 将会整合进我们的许多应用,包括 Facebook 和 Messenger—— 你可以在它们的搜索框中任意提问。我们在其中加入了很多创意功能,比如动画化功能可以将任意图片变成动画。
比较震撼眼球的一项更新是它现在能以非常快的速度生成高质量图像,而且它能随着用户输入而实时更新生成结果。
我们未来几周或几个月会在一些国家发布这些应用,但还不会全面铺开。我认为这会是一个非常重要的事件,是 Meta AI 向前迈出的一大步。
深入到 Meta AI 内部,在技术方面最吸引眼球的当然是 Llama-3。我们训练了三个版本:8B 和 70B 参数的模型,还有一个 405B 参数的密集模型(还在训练之中)。8B 和 70B 模型的表现非常激动人心,它们都是同等规模模型的领军者。
我们还有后续发布的路线图,包括多模态、更强大的多语言支持、更大的上下文窗口。我们希望能在今年年末的某个时候发布 405B 版本。在目前的训练阶段,它的 MMLU 得分已经达到了 85 左右。我们预计完成训练后它能在许多基准上领先。刚刚发布的 70B 模型也很出色,MMLU 为 82,数学和推理能力的得分都领先。
Dwarkesh Patel:着实不凡。
Mark Zuckerberg:8B 版本基本上与我们之前发布的 Llama-2 的最大版本一样强大,也就是说 Llama-3 的最小版本足以比肩 Llama-2 的最大版本。
买那么多 GPU 是未卜先知?
Dwarkesh Patel:在深入这些模型之前,我想聊聊过去。大概 2022 年时,你们开始购进 H100。那时候你们的股价不振,人们都很疑惑为什么要这样花钱。人们并不看好元宇宙。那时候你怎么知道要去买 H100 呢?
Mark Zuckerberg:那是因为我们当时正在研究 Reels(一款短视频应用,Tiktok 竞品)。我们总是希望有足够的能力去构建尚不存在的东西。我们当时在研究 Reels,我们需要更多 GPU 去训练模型。
加上我们当时希望在基础设施方面尽快追赶上 TikTok。我们当时想:「唉,我们必须确保我们再也不这样落后了。那就订购足够训练 Reels 的 GPU 并且再加一倍吧。」
Dwarkesh Patel:当时你知道这会用于训练 AI 吗?
Mark Zuckerberg:我们当时知道这会与训练大型模型有关。当时我觉得这可能与内容有关 —— 那时候我非常急切地想要为 Reels 和其它内容开发出推荐算法。现在这成为了 Instagram 和 Facebook 的一大卖点:向人们展示他们可能感兴趣的内容,即便他们没有关注。
事后来看,这是一个非常明智的决定。这都是后见之明 ——「哦,我当时多么领先。」事实上,我们当时做的大多数决定最后都有不错的结果,原因不过是我们之前搞砸过,不想再犯同样的错了。
何时决定 All in AGI?
Dwarkesh Patel:Facebook AI 研究院已经成立了很长时间了。现在它似乎已经变成了你们公司的核心。你们是从什么时候开始考虑将造就 AGI 作为自己的使命和关键优先事项?
Mark Zuckerberg:确实挺久了。FAIR 成立于大概十年之前。我们的想法是,在创造通用智能的道路上,我们会得到很多能改善方方面面的不同创新。因此我们并不是将其看作一个产品,它更像是一个研究团队。过去十年来,它创造了很多提升我们所有产品的东西。它也推动了 AI 领域的发展。
过去几年随着 ChatGPT 和扩散模型的出现,这一领域发生了重大转变,出现了很多会改变人们与应用的交互方式的东西。那时候我们成立了另一个团队:Gen AI 团队。其目标是将这些创新引入我们的产品并且构建支持所有这些不同产品的先进基础模型。
一开始我们想做的东西都与社交有关,比如帮助人们与创作者沟通、帮助人们与企业互动、帮助企业销售产品或提供客户服务。还有一些基础的助理功能,可以用于我们的应用以及智能眼镜和 VR 设备。
所以一开始的时候,我们并不完全清楚我们需要完整的 AGI 来支持所有这些用例。但经过多年的研究和实践之后,这方面变得清晰起来。举个例子,在我们开发 Llama-2 时,我们并没有将编程看作一个优先事项,因为人们并不会用 WhatsApp 向 Meta AI 提很多编程问题。
Dwarkesh Patel:现在他们会问这些了吗?
Mark Zuckerberg:我不知道。我不确定人们是否会使用 WhatsApp 或 Facebook 或 Instagram 作为 UI 来问与编程有关的问题,也许他们会使用我们刚上线的网站 meta.ai。但过去 18 个月的发展已经表明,编程对很多领域都很重要,而不仅仅是编程领域。
即便人们问的问题与编程无关,但训练模型学习编程依然有用 —— 这能帮助模型给出更严谨的回答,让模型可以在不同类型的领域执行推理。Llama-3 就是这样,编程能力是我们关注的一大重点,因为这能帮助模型的能力获得全面的提升。
另一个重点是推理。用户在与商家或企业等沟通时,不是一问一答就完成了,而是往往涉及到多步互动。很多时候客户只知道自己的需求,并不知道自己想要什么产品或服务。这时候光回答字面上的问题是不够的,还需要推理。
Llama-3 能取代程序员吗?
Dwarkesh Patel:所以 Llama-3 能解决所有这些用例吗?你认为这个版本足以替代程序员吗?
Mark Zuckerberg:我只是觉得这些能力都会随时间而进步。
Dwarkesh Patel:但最终能解决,比如 Llama-10?
Mark Zuckerberg:我认为这个问题不简单。我不确定这些模型是会替代人们更多,还是帮助人们更多。
Dwarkesh Patel:Llama-10 诞生后,程序员的生产力能提升 10 倍吗?
Mark Zuckerberg:我希望会更多。我相信人们的智能并不存在一个单一阈值,因为人们有不同的技能。我认为未来某个时候,AI 将在大多数事情上超过人类。但我认为这个过程是渐进式的,而且我认为 AGI 并不是一个单一存在,而实际上是不同功能的集合。
目前我们关注的一大关键功能是多模态,起先是照片、图像和文本,最后到视频。而且我们还很关注元宇宙,因此 3D 模态也很重要。另一个我非常关注的模态是情绪理解(emotional understanding)—— 我还没看到业界有很多人关注这方面。
人脑中有很大部分是专门用于理解别人的表情和情绪。我认为这是一个单独完整的模态。你也许会说这就是视频或图像,但很显然这是非常特别的视频或图像。
因此,模型不只是需要具备理解和记忆的能力,还有很多其它不同能力需要掌握。我认为未来我们解决复杂问题时并不会再以查询窗口为中心,通过输入上下文来处理。人们会有更加个人化的记忆数据和不同的定制化模型。
它们会有各自不同的能力,规模也有大有小。大小模型我们都很关注。Meta AI 这样的模型运行在大型服务器上,但我们也希望会有能运行在智能眼镜等小型设备上的模型。因此我们也需要非常高效的模型。
大模型将催生哪些产业级用例?
Dwarkesh Patel:你认为模型推理有什么百亿美元级乃至千亿美元级的市场?它有什么产业级的用例?模拟或者元宇宙?
Mark Zuckerberg:我们猜想这将能改变所有产品。我认为将会出现一种 Meta AI 通用助理产品。这种产品不再是只会问答的聊天机器人,而是可以完成更复杂任务的系统性模型。这就需要大量的推理和计算。
另一个重要方向是与其它智能体或人类交互,包括企业业务和创意工作。我的想法是,未来并不只有单一 AI。每家企业都会想要一个代表其利益的 AI。
创意工作也是一个重点。我们平台有大约 2 亿位创作者。他们与各自的社区互动时通常都有模式可循,但他们每天的时间有限。
如果我们能创造出可让创作者拥有的 AI,让他们以自己的方式去训练它与自己的社区交互,那必然会是一个非常棒的应用场景。这样的 AI 会赢得大量的互动参与。
这还只是消费者用例,我和妻子的基金会 Chan Zuckerberg Initiative 在科学方面做了很多工作,其中也包括很多与 AI 相关的工作,这些将能推动科学和医疗等领域的发展。我相信这些最终将能影响产品和经济的每个方面。
Llama-3 将带来哪些改进?
Dwarkesh Patel:你提到模型的进步是渐进式的,这是指模型变得更大吗?还是说使用更好的数据训练同样大小的模型让其变得更强大?
Mark Zuckerberg:我认为我们不知道这个问题的答案。我想一种发展模式是基于 Llama 这样的模型开发其它应用,也就是针对用例进行微调,比如让 Meta AI 可以使用 Google 或 Bing 等工具来获取实时知识。
基础 Llama 模型并不具备这种能力。Llama-2 具备一些,但这是人工设计开发的。Llama-3 开始具备一些类似智能体的能力。对于 Llama-4,我们的部分目标是让模型本身具备更多能力。
每一次进步都会出现新的可能性,解锁出新的用例。
Dwarkesh Patel:你说「让模型本身具备更多能力」,你是指在你希望模型完成的事情上训练模型吗?
Mark Zuckerberg:Llama-2 只能使用非常特定的工具,而 Llama-3 能使用好得多的工具。我们无需人工编程就能让其使用 Google 执行搜索。它本身就能做到。类似的功能还有编程和运行代码等。
模型既然能具备这样的能力,我们就能借此一窥未来。我们不必等到开发 Llama-4 时才去构建这些能力,我们现在就能探究它们。我们可以人工编写一些让产品更好用的工具,用以临时过渡。这有助于展现下一版本模型的开发方向。
Dwarkesh Patel:开源社区对 Llama-3 的微调,你最感兴趣的是什么?也许不是对你最有用的那个。
Mark Zuckerberg:我认为有价值的事情,我们可能都会着手构建。我认为你会得到精简版本、更小的版本。我认为 8B 参数对于很多用例来说还不够小。随着时间的推移,我很想得到一个 1-2B 参数的模型,甚至是一个 500M 参数的模型,然后看看你能做些什么。
如果使用 8B 参数,我们几乎能与最大的 Llama-2 模型媲美,那么使用 10 亿个参数,你应该能够做一些有趣且更快的事情。我们也在考虑优化模型,但现在 GPU 已经被用来训练 405B 模型了。
LLama-3 70B 模型还有待发掘的潜力
Dwarkesh Patel:关于 GPU,我记得你说到年底会有 35 万块。
Mark Zuckerberg:我们建造了两个集群, 每个集群大约有 22,000 或 24,000 个 GPU。由于我们服务的社区规模之大,我们所需的推理计算量与训练计算量的比例可能比其他公司高得多。
Dwarkesh Patel:在你们之前分享给我的材料中,我注意到你们用更多的数据来训练,你能具体谈一下吗?
Mark Zuckerberg:关于 70B 模型,我们发现了一件有趣的事情,我们训练 token 达到 15 万亿,但在训练的最后阶段模型仍然在学习。假如我们给它更多的 token,模型可能会变得更好。
但是经营一家公司,你需要有所取舍,我问自己是否想要调用 GPU 来进一步训练 70B 模型?还是准备测试 Llama-4 的一些前期假设?我们需要做出决定,我认为 70B 版本的模型已经取得了不错的平衡。
未来会有其他版本,例如 70B 多模态版本,会在未来推出。但最令人着迷的是,目前这些架构可以容纳如此多的数据。
Dwarkesh Patel:这真的很有趣。这对未来的模型意味着什么?你提到 Llama-3 的 8B 比 Llama-2 的 70B 更好。
Mark Zuckerberg:不,不,它几乎一样好。我不想过分夸大。它的数量级差不多。
除了能源瓶颈,还有架构瓶颈
Dwarkesh Patel:这是否意味着 Llama-4 70B 会和 Llama-3 405B 一样好?未来会是什么样子?
Mark Zuckerberg:这确实是一个很好的问题,我想没人会给出答案。世界上最棘手的事情之一就是指数曲线还能持续多久?我认为我们很可能会继续下去。我认为投资 100 亿美元,甚至 1000 亿美元来建设基础设施是值得的,这样的话,你将会得到一些真正令人惊奇的东西,从而创造出令人惊奇的产品。
一般来说,从历史来看,当你遇到瓶颈时会耗费大量的时间解决。但是现在,也许这些瓶颈很快就会被克服。
Dwarkesh Patel:如果没有这些瓶颈,世界会是什么样子?假设进展以这种速度继续下去。
Mark Zuckerberg:无论如何,都会遇到不同的瓶颈。在过去几年中,我认为 GPU 的生产是一个问题。即使有钱支付 GPU 的公司也不一定能够获得他们想要的数量,因为存在供应限制。现在我觉得这种情况正在减少。因此,你会看到很多公司现在考虑投资大量资金来构建这些设施。
我认为这种情况会持续一段时间。还有一个资本问题,在什么时候,投入更多的资本就不再具有性价比了。实际上我认为在我们达到这个点之前,你会遇到能源的限制。
据我所知,还没有人建立过一千兆瓦的单一训练集群。此外,获取能源许可会受到政府的严格监管。显然,如果你是在创办一家小公司,也许你会感觉到这种监管较少。我们与不同的政府和监管机构打交道,我们有很多规则需要遵循,以此确保我们在全球做好工作。但我认为能源无疑是一个巨大的限制。
Dwarkesh Patel:有没有什么东西,也许是人工智能相关的项目,也许不是,即使是像 Meta 这样的公司也没有资源?如果完成这项任务是研发预算或资本支出预算的 10 倍,你还会实施吗?
Mark Zuckerberg:我认为能源问题是其中之一,如果我们有足够的能源,我们可能会建立比现在更大的集群。
Dwarkesh Patel:这基本上是资金瓶颈的极限?如果你有 1 万亿美元……
Mark Zuckerberg:我认为现在是时候考虑这个问题了。这取决于指数曲线会走多远。目前,许多数据中心的规模大约是 50 兆瓦或 100 兆瓦,大型数据中心可能达到 150 兆瓦。如果把一个整个数据中心都用来进行训练,并建立最大的集群,我认为很多公司正在这样做。
但是当你开始建造像 300 兆瓦、500 兆瓦或 1 吉瓦这样规模的数据中心时,还没有人建造过 1 吉瓦的数据中心。我认为这迟早会发生,但不会在明年。有些事情需要花费数年时间才能建成。换个角度来看,我认为 1 吉瓦的规模相当于一个核电厂的能源供应仅用于训练模型。
Dwarkesh Patel:亚马逊有没有做过这个?他们有一个 950 兆瓦的……
Mark Zuckerberg:我不太确定他们做了什么。你得问他们。
Dwarkesh Patel:但是这种规模的数据中心不一定要建在同一个地方,对吧?如果分布式训练有效,也可以分布式进行。
Mark Zuckerberg:嗯,我觉得这是一个很大的问题,数据中心将如何运作。
Dwarkesh Patel:Llama-3,甚至可能是 Llama-4 之后的版本,能否遇到这种情况,也就是说,你发布了这个模型,如果有人有大量计算资源,他们就可以在你发布的模型的基础上,让这些模型变得更加智能。
Mark Zuckerberg:我认为这种可能性是存在的,但我也认为模型架构存在根本性的限制。用 Llama-3 架构训练的 70B 模型可以变得更好,它可以持续改进。正如我之前说的,如果我们继续给它提供更多的数据,或者再次通过 token 进行优化,它会变得更好,世界各地的许多不同公司基本上都采用了 Llama-2 70B 模型架构,然后构建了一个新模型。
但仍然存在这样一个情况,当你对像 Llama-3 70B 或 Llama-3 405B 这样的模型进行改进时,人们在此基础上可以构建的东西不能无限地进步。在达到下一个重要进展之前,可能只能在现有的基础上进行优化和改进。
AI 是有史以来最重要的技术吗?
Dwarkesh Patel:未来几十年人工智能会发生什么?它是否会让你感觉像是另一种技术,如虚拟宇宙或社交技术,或者是人类历史进程中根本不同的事物?
Mark Zuckerberg:我认为将人工智能形容为非常基础性的技术是非常合适的。它更像计算机的发明,将催生全新的应用。但我认为这是一个低层次的创新,我的感觉是,这更像是人们从没有计算机到拥有计算机的过程。
然而,我们很难预测 AI 如何发展。从宇宙尺度来讲,AI 变革会很快发生,需要几十年的时间。有些人会很担心 AI 真的会在一夜之间从有点聪明变成极其聪明,但我认为所有这些物理限制使得这种情况不太可能发生。不过我们必须承认,AI 确实会改变我们的工作方式,让人们做他们更想做的事情。
Dwarkesh Patel:也许不是一夜之间,但你认为在宇宙尺度上我们可以用这种方式来思考这些里程碑吗:人类进化了,然后人工智能出现了,然后他们进入了银河系,按照这个推理,这个过程也许需要几十年,也许需要一个世纪,AI 会是历史发展的重要一环吗?我指的是比如计算机甚至火在人类发展史上至关重要,但人工智能可以和这些发明相提并论吗?
Mark Zuckerberg:我认为这很难回答。人类历史上,人类的某些方面确实是独一无二的,然后认识到事实并非如此,但人类实际上仍然非常特殊。我们认为地球是宇宙的中心,但事实并非如此,但人类仍然非常伟大和独特,对吧?
我认为人们往往存在的另一个偏见是认为智能在某种程度上与生活有着根本的联系,但并非如此。我们还没有对意识或生命有清晰的定义来全面理解这个问题。很多科幻小说都是关于创造智能的,这些智能体开始承担所有这些类人行为和类似的事情。
但目前的趋势似乎正朝着一个方向发展,即智能可以与意识、能动性和类似的东西完全分开,这使得它成为一个超级有价值的工具。
虽然很难准确预测技术的发展方向,但开发者并不应该对开发计划或未来做出过于教条的承诺。在我们发布新版本时,都需要对模型进行重新评估。我们虽然倾向于支持开源,但并不一定会开源所有内容。
开源有利于社区和自身,因为大家可以从创新中受益。然而,如果技术的性质发生质变,演变为不负责任的行为,那我们可能会考虑不开源。整体来说,技术发展充满不确定性。
开源 vs. 闭源,哪个更危险?
Dwarkesh Patel:未来你们在训练 Llama-5 或 Llama-4 时,有没有可能出现质变情况?如果出现了,你们要不要把它开源?
Mark Zuckerberg:回答这个问题有点困难,因为任何产品都可能出现负面行为,只要加以缓解就可以了。我们也在为减少模型负面影响而努力,此前也在 Llama-2 上花费了大量时间确保它不会帮助人们实施暴力等不良行为。
但这并不意味着它已经成为智能主体,这只是意味着它拥有大量有关世界的知识,可以回答我们认为不应该回答的一系列问题。因此,我认为问题在于如何识别并缓解其潜在不良行为,而非行为本身。
我认为事物的好坏有很多方面,很难事先详尽列举出来。看看我们在社交媒体上所面对的问题,目前我们已经总结出了 18 或 19 种人类有害行为,然后构建了 AI 系统来识别这些行为,并尽可能确保在我们的网络上不会发生这些情况。随着时间的推移,我认为我们会更加细化问题分类。
Dwarkesh Patel:我认为广泛部署 AI 系统是非常重要的。如果将来 AI 系统没有被广泛部署,导致人们无法访问,我会感到失望。与此同时,我想更好地理解如何减轻模型潜在问题。
Mark Zuckerberg:这是一个复杂的问题。我认为大部分人会使用现成的模型,因而不会出现不良行为,而怀有恶意行为的人则会试图利用模型不良行为。所以这是个值得深思的问题。
另一方面,从哲学上讲,我支持开源的一个原因是,我认为未来 AI 的过度集中化会像它被不恰当的广泛应用一样危险。一个机构拥有比其他所有机构更强大的 AI 也可能是非常糟糕的。就像我们看到的,不同事物中都存在着安全漏洞。
我们是如何处理这个问题的呢?其中一个重要部分是开源软件,软件的升级迭代不再局限于一家公司,而且可以广泛部署到许多不同的系统中,无论是银行还是医院。随着软件变得更加完善,全世界范围的开源软件会按照新的基准得到升级。
随着时间的推移,在被人工智能广泛部署的世界,会逐渐变得更加坚固,所有不同系统都将在某种程度上得到控制。对我来说,这比 AI 更集中化更安全。然而,最让我担心的是,一个不可信赖的主体拥有超级强大的人工智能系统,这可能是一个更大的风险。
Dwarkesh Patel:是否会出现这种情况,当你正在训练 Llama-4 时,它可能出于一些原因对你撒谎了,因为它认为你没有注意到这个问题,之后你才后知后觉道发生了什么?尽管这种情况在 Llama-4 这种级别的系统中不太可能发生,但你有没有想过,假如这种欺骗行为正在以成千上万的副本在不安全的传播。
Mark Zuckerberg:现在,我们已经观察到许多幻觉现象,人们如何区分幻觉和欺骗会是一件有趣的事情。谈到欺骗,我最担心的形式是人们利用它来生成错误信息,然后通过网络或其他人传播该信息。我们打击此类有害内容的方法是构建比对手系统更智能的人工智能系统。
如果你仔细观察人们通过社交网络造成伤害的类型,就会发现有些伤害并非具有对抗性的。举例来说,仇恨言论没有超级对抗性,因为人们并没有因为网络言论而变得更加种族歧视。
我认为在这些问题上,人工智能通常比人类更成熟。其实我们双方都有问题,人会做坏事,无论他们是试图煽动暴力还是其他什么。但 AI 也会出现很多误报情况,比如审查了不该审查的东西,这会让很多人感到恼火,这是可以理解的。所以我认为随着时间的推移,人工智能在这方面会变得越来越准确,情况将会得到改善。
未来,无论是 Llama-4 还是 Llama-6,我们都需要认真观察模型行为,是每一个人都参与进来。我们开源的原因之一是有很多其他人也在研究这个领域。因此,我们想要看看其他人观察到了什么,我们自己观察到了什么,我们能够减轻什么,然后我们会评估是否可以将其开源。
在可预见的将来,我对此持乐观态度。但在短期内,我不想忽视我们今天正在努力解决的实际问题。即使它们不是生存性的问题,却是我们必须花费时间解决的大部分问题。
Dwarkesh Patel:关于合成数据,我发现一个非常有意思的事情。目前的模型使用合成数据可能会出现渐近情况,因为重复使用合成数据会达到一个极限。但是,如果模型变得更智能,并且使用了你们在论文或即将发布的博客文章中提到的技术,即能够找到最正确答案的思维链条。
为什么你认为这不会导致一个循环,模型变得更聪明,产生更好的输出。当然,这不会是一夜之间的事,但随着训练时间的延长,可能会出现一个更智能的模型。
Mark Zuckerberg:我认为无论模型架构是什么,它都可以在参数范围内实现。只是,对于今天的 8B 参数模型,我认为不会像最先进的数千亿参数模型一样好。
Dwarkesh Patel:但这些都是开源的,对吧?
Mark Zuckerberg:嗯,目前看来是的。但前提是我们必须解决上述讨论的那些问题。我认为,你可以用软件做很多事情,但在某种程度上你会受到芯片限制,继而受到物理方面的限制,此外还受到能源的限制。
Dwarkesh Patel:我认为保留选择余地是有意义的,因为有太多我们不知道的事情。很多事情看起来都是有可能的,考虑到所有这些因素,所以你保留选择余地似乎是合理的。
Mark Zuckerberg:是的。
为何笃信元宇宙?
Dwarkesh Patel:让我们来谈谈元宇宙。你最想进入人类历史的哪个时期?
Mark Zuckerberg:我对美国历史和古典历史非常感兴趣。我对科学史也很感兴趣。实际上,我认为看到并尝试更多地了解一些重大进步是如何产生的将非常有趣。我们所掌握的关于其中一些内容的著作非常有限。我不确定元宇宙是否能让你做到这一点,因为对于我们没有记录的东西,我们很难回溯。
实际上,我不确定回到过去是不是一件重要的事情。我认为这对历史课之类的东西来说很酷,但这可能不是我对元宇宙最感兴趣的用例。
我认为最重要的是,无论你身在何处,(元宇宙)都能让你感受到与人在一起。我认为这将是一个杀手锏。在我们进行的人工智能对话中,有很多内容都是关于物理约束的,而物理约束是这一切的基础。我认为技术的一个教训是,你要尽可能地将物理约束领域的东西转移到软件中,因为软件更容易构建和迭代。你可以让它更加大众化,因为不是每个人都有数据中心,但很多人都可以编写代码,并使用、修改开放的源代码。
元宇宙版本的软件是实现现实的数字存在。这将是一个绝对巨大的差异,这样人们就不会觉得有那么多的事情必须要大家聚集到一个物理空间去做。我认为,现在还有些事情是大家聚到一起做比较好。这些事情并不是二元对立的。它不会像「好吧,现在你不需要再那样做了」。但总的来说,我认为它在社交、与人沟通、工作、部分行业、医疗以及很多方面都会非常强大。
Dwarkesh Patel:对于元宇宙,你知道你要去做这件事,即使市场对你大加指责。我很好奇,这种笃定的来源是什么?你说「哦,价值观,我有这种直觉」,但每个人都这么说。如果让你说一些你特有的东西,你会怎么表达?你为什么如此相信元宇宙?
Mark Zuckerberg:我认为这是几个不同的问题。我的动力是什么?我们已经讨论过很多主题。我只是非常喜欢建造东西。我特别喜欢围绕人们如何交流、表达自己以及如何工作来构建事物。上大学时,我学的是计算机科学和心理学。对我来说,这一直是这两件事的交叉点。
这也是一种非常深刻的内在驱动力。我不知道该如何解释,但我就是觉得,如果我不构建一些新的东西,我就做错了什么。即使在我们为人工智能投资 1000 亿美元或为元宇宙投资巨额资金准备商业案例时,我们也制定了计划,我认为这些计划非常清楚地表明,如果我们的东西奏效,这将是一笔很好的投资。但你不能从一开始就确定。人们会与顾问或不同的人争论不休。
比如「你怎么有足够的信心做这个?」当我不再尝试创造新事物的时候,我就完了。我要去别的地方创造新事物。从根本上说,我无法在经营某件事或者我的生活时,不去尝试创造我认为有趣的新事物。对我来说,这甚至都不是一个问题,我就是没有办法不做。
我在生活的各个方面都是这样。我们家在考爱岛建了一个牧场,我负责设计所有建筑。我们开始养牛,我就想「好吧,我想养出世界上最好的牛。」「那我们该怎么设计呢?」这就是我。
把花 100 亿美元研发的模型开源,怎么赚钱?
Dwarkesh Patel :让我们回到投资者和开源话题上。100 亿美元的模型,假设它是完全安全的。你们已经做了这些评估,与此不同的是,评估者还可以对模型进行微调,希望未来的模型也能如此。你们会开源 100 亿美元的模型吗?
Mark Zuckerberg:只要它对我们有帮助,就会开源。
Dwarkesh Patel :花了 100 亿美元的研发费用,真的会开源?
Mark Zuckerberg:随着时间的推移,我们也将对这个问题进行评估。我们在开源软件方面有着悠久的历史。我们并不倾向于开源我们的产品。我们不会将 Instagram 的代码开源。我们会将许多底层基础设施开源。
在我们的历史上,最大的一个项目可能就是我们的开放计算项目(Open Compute Project),我们将所有服务器、网络交换机和数据中心的设计都开源了,结果对我们帮助很大。
虽然很多人都能设计服务器,但现在整个行业都以我们的设计为标准,这意味着供应链基本上都是围绕我们的设计建立起来的。因此,在起量之后,价格对每个人来说都变得更便宜了,而且为我们节省了数十亿美元,这真是太棒了。
因此,开源可以在很多方面为我们提供帮助。一个是人们是否能找到更便宜运行模型的方法。随着时间的推移,我们将在所有这些东西上花费几千亿美元或更多。
所以如果我们能提高 10% 的效率,我们就能节省数十亿甚至数百亿美元。它本身可能就值很多钱了。特别是如果有其他竞争模式存在,我们的东西并没有放弃某种疯狂的优势。
Dwarkesh Patel:那么,你认为训练会商品化吗?
Mark Zuckerberg:我认为有很多方法可以解决这个问题,这是其中之一。因此,「商品」意味着它将变得非常便宜,因为有很多选择。另一个可能的方向是质量改进。你提到了微调。目前,微调技术在其他主要模型上的应用非常有限。有一些选择,但一般不适合最大的那些模型。
我们可以做的是,针对不同的应用程序或特定的使用案例去微调,或将它们构建到特定的工具链中。我认为这不仅能提高开发效率,还能带来质的区别。
这里有一个类似的例子。我认为移动生态系统最糟糕的一点是,苹果和 Google 这两家守门人(gatekeeper)会告诉你你可以开发什么。从经济角度来看,我们构建了一些东西,他们就拿走你的一大笔钱。但还有一个定性的事情,实际上更让我不爽。有很多次,当我们推出或想要推出新功能时,苹果就会说「不行,你不能推出这个功能」。
这很糟糕,对吧?那么问题来了,我们是否也想要一个这样的 AI 世界?这个世界里只有几家运行这些封闭模型的公司,它们将控制 API,然后告诉你,你可以构建什么。
至于我们,我可以说,为了确保不陷入这种境地,我们自己去构建一个模型是值得的。我不希望任何其他公司来告诉我们,我们可以构建什么。从开源的角度来看,我认为很多开发者也不希望那些公司这么做。
那么问题来了,围绕这个问题建立起来的生态系统是什么样的?有哪些有趣的新事物?这能在多大程度上改善我们的产品?
我认为,在很多情况下,如果最终像我们的数据库、缓存系统或架构一样,我们将从社区获得有价值的贡献,从而使我们的产品变得更好。届时,我们所做的特定于应用的工作仍将非常与众不同,以至于并不重要。我们将能做我们该做的事。我们将从中受益。而所有的系统,无论是我们的还是社区的,都将因为开源而变得更好。
有一个世界也许并非如此。也许模型最终更像是产品本身。我认为这是一个更棘手的经济计算,无论你是否开放源代码。你把自己商品化了很多。但就我目前所见,我们似乎还没到那个地步。
Dwarkesh Patel:您是否希望通过将您的模型授权给云提供商来赚取可观的收入?这样一来,他们必须向您支付费用才能部署这个模型。
Mark Zuckerberg:我们希望有这样的安排,但我不知道会有多大意义。这基本上就是我们的 Llama 许可证的范围。在很多方面,它都是一个非常开放的开源许可证,只是我们对使用它的大公司有一个限制。这就是我们设置限制的原因。我们并不是要阻止他们使用。
我们只是希望,如果他们打算把我们构建的东西转卖并从中赚钱,那么他们应该来和我们谈谈。如果你是微软 Azure 或亚马逊,如果你打算转售我们的模型,那么我们应该有一些收入分成。所以,在此之前,请先和我们谈谈。
因此,对于 Llama-2,我们基本上与所有这些主要的云计算公司都达成了协议,Llama-2 可以作为托管服务在所有这些云上使用。
我认为,随着我们发布的模型越来越大,这将成为一件大事。这不是我们的重点所在,但我认为,如果这些公司要销售我们的模型,我们就应该以某种方式分享其中的好处。
Dwarkesh Patel:就开源而言,我很好奇你是否认为 PyTorch、React、Open Compute 等开源对世界的影响甚至超过了 Meta 的社交媒体方面。我和使用这些服务的人聊过,他们认为这是合理的,因为互联网的很大一部分都是基于这些东西运行的。
Mark Zuckerberg:这是一个有趣的问题。全世界几乎有一半的人都在使用我们的消费产品,所以这一点很难被超越。但我认为,开源作为一种新的构建方式,确实非常强大。我的意思是,超越是可能的。就像贝尔实验室一样,他们为了实现长途电话而研究晶体管。
他们做到了,并且最终因为能够实现长途电话而获得了丰厚的利润。5 到 10 年后,如果你问他们发明的最有用的东西是什么 他们会说「我们实现了长途电话,现在所有的人都在打长途电话」。但如果你问一个一百年后的人,也许答案就不一样了。
我认为我们正在构建的很多东西都是如此,包括现实实验室(Reality Labs)、一些人工智能的东西、一些开源的东西。具体的产品会不断演变,但人类的进步会持续下去,这是我们能做的一件很酷的事情。
Dwarkesh Patel:Llama 模型何时会在你们自己的定制芯片上进行训练?
Mark Zuckerberg:很快,但 Llama-4 不会。我们采取的方法是,首先构建定制芯片,处理排名和推荐类型的推理,如 Reels、News Feed 广告等。这需要消耗大量 GPU。当我们能够将其转移到我们自己的芯片上时,我们就可以只在训练时使用更昂贵的英伟达 GPU。
我们希望在未来的某一天,我们能用自己的芯片先训练一些简单的东西,然后再去训练真正的大模型。这个项目进展得相当顺利,我们只是在有条不紊地推进,我们有一个长期的路线图。
如果你被任命为 Google + 的 CEO,你能成功吗?
Dwarkesh Patel:如果你被任命为 Google + 的 CEO,你能成功吗?
Mark Zuckerberg:我不知道。这是一个非常困难的反事实问题。
Dwarkesh Patel:当 Gemini 推出时,办公室里是否有人说:「Carthago delenda est(迦太基必须毁灭)」(注:比喻性地表达对竞争对手的强烈敌意或决心要战胜对手)?
Mark Zuckerberg:没有,我觉得我们现在更平和了。问题是,Google+ 并没有 CEO。它只是公司内部的一个部门。你之前问过什么是最稀缺的商品,但你问的是以美元计价的。
实际上,我认为对于大多数公司来说,至少对于这种规模的公司来说,最稀缺的是专注力。当你是一家初创公司时,也许你的资金会更紧张。你只有一个想法,可能没有所有的资源。你在某一点上越过了你所做的事情的界限。你正在构建多个东西。你在它们之间创造了更多的价值,但你却受到了更多的限制。
总会有这样的情况,即组织里发生了一些令人惊奇的事情,而我却浑然不知。那些事情都很棒。但我认为,总的来说,组织的能力主要受限于 CEO 和管理团队的监督和管理能力。这一直是我们关注的重点。
正如 Ben Horowitz(硅谷著名风投公司 Andreessen Horowitz 联合创始人之一)所说,「keep the main thing, the main thing」,并努力专注于你的关键优先事项。
参考链接:https://www.dwarkeshpatel.com/p/mark-zuckerberg
微信扫码关注该文公众号作者