图灵奖得主Bengio：突破大模型当前局限，需要超越Scaling Law的新方法

国际科技财经移民娱乐民生时事体育

Bendi新闻

9月前

导读：

漫长的30年间，数度从主流方向的超然出走，是图灵奖得主Yoshua Bengio的制胜秘诀。这种不盲从主流的风格体现在他研究生涯的方方面面。

90年代末期，神经网络被打入冷宫，Bengio的论文多次遭拒，连学生们也开始担心，和他一起研究神经网络会导致毕业后找不到工作。

“那场有关神经网络的文化沙漠可能‘劝退’了很多研究者，但我有点固执，坚信我们应该坚持下去。”而时过境迁，如今神经网络早已成为主流，审稿人的看法也发生了翻天覆地的变化。

此时，Bengio却已经开始研究新方向，寻找新问题。“我认为不能把所有鸡蛋放在一个篮子里，我们应该探索更多不同的方法。在过去的七年里，我一直在努力探索当前神经网络方法的局限性，这样才能让未来的人工智能具备当前缺乏的能力。”

谈及现如今Scaling Law催生的模型性能大爆发，Bengio依然保持着客观审慎的思考，他认为“Scaling Law并不是理论定律，只是基于经验性观察总结的规律。为了解决大模型目前存在的问题，我们需要探索Scaling Law之外的新方法。”

在OpenAI等巨头纷纷为AGI的到来摩拳擦掌之时，Bengio更关心的是如何应对AI对人类的潜在风险。正如奥本海默所带来的核末日一样，AI引发的人类安全危机甚至比核武器更为沉重。Bengio坦言，假如有机会回到年轻时，会提醒当时的自己注意AI风险，而即便覆水难收，当下最重要的是明确，“我能做什么，我们每个人能为一个更好的世界做什么。”

以下为专访全文（为方便流畅阅读，作者进行了不改变原意的编辑）。

要点速览：

我们家里没有很严格的家规，无论是上学还是写作业，父母总是会关心我和弟弟想做什么。父母赋予了我自由和批判性思维，这对于科学家来讲非常重要，因为科学研究必须跳出思维的条条框框。
2000年代，学术界对神经网络已经不抱希望了。学生们也会担心，和我一起研究神经网络会导致他们“毕业即失业”。我有一种直觉，神经网络可以克服维数灾难。
我不想把人类的未来押注在对“Scaling Law”的盲从，扩大模型规模不是提升模型性能的唯一制胜法宝，为了解决大模型目前存在的问题，我们需要探索新的方法。
去做“第一个吃螃蟹的人”固然很难，因为没有即时的研究成果激励人坚持下去。因此需要建立探索新想法、新路径的社会机构，支持研究者在感兴趣的研究方向上花费大量时间，即使可能根本行不通。
经验丰富的人通常能发挥重要作用，但他们也可能因为固执己见而作出错误判断。作为科学家，你可以根据自己的经验、知识来采纳这些意见，通过实验研究来验证，也可以不予理睬，等待时间去证明事情的真相。
研究者要保持谦虚。你必须接受自己可能会犯错。在我的职业生涯中，想法改变了很多次，但这没关系。事实上，正是勇于承认错误才展现出你的聪明和谦逊，并且表明你充分认识到自身知识的局限性。
坚持阅读很重要。我认为更重要的是阅读的时间，而不是数量。（如果非要说时间的话）大概三小时左右。
我和Hinton、LeCun专注于不同的研究方向，但我们互相分享想法、观点、论据和结果，借鉴彼此的想法和思维方式，彼此都能从中获益，并且能以彼此的工作成果为基础，不断实现新的突破。我们从来不会评判谁是对的、谁是错的，也不会将自己的想法强加于其他人。
AI带来的灾难性后果可能比核武器更严重。少数核弹爆炸会造成数百万人死亡，但人类仍将继续存在。但如果我们‍‍创造了一个超越人类智能的AI，它可能会发明一种生物武器来杀死全人类。在这场AI带来的灾难中，将无人幸免。
如果全人类能够统一成一个人、一种思想，AI安全的问题就迎刃而解了。问题在于，这世界上的每个人都有不同的思想，有些人会尝试一些疯狂的事情，可能需要全人类来承担。

图灵奖得主Yoshua Bengio现任蒙特利尔学习算法研究所（Mila）创始人和科学主任、蒙特利尔大学教授。他不盲从主流的研究风格来源于父母早年侧重于自由探索和批判思维的家庭教育，近年来Bengio把研究重心转向了AI for science、系统2和AI安全。图源：维基百科

李梦佳 | 采访

李梦佳杨周锦 | 撰文

智源社区 | 来源

AI启蒙之路：阿西莫夫科幻小说、

可编程计算器、神经网络的新大陆

Q：你第一次接触到计算机科学是什么时候？如何发现自己的兴趣并走上这条道路的？

Bengio：我开始接触到这个领域时只有十几岁。在那个年代，可编程计算器非常流行，也吸引着我。后来，我逐渐对计算机产生了兴趣，学会了针对计算器上的汇编语言。

后来，我和弟弟（编者注：同哥哥一样，Samy Bengio也在深度学习方面颇有建树，他是谷歌杰出科学家，也是Google Brain首批员工之一。）一起攒钱买了我们的第一台电脑。当时还没有成熟的个人电脑软件产业，所以我们学习了一些简单的编程语言，自行编写软件程序让电脑执行，这些经历对我们来说非常宝贵。没有老师教我们，所以我们只能通过阅读和实践自学成才。

这些早期经历让我对计算机科学产生了浓厚的兴趣，最终在上大学时选择它作为我的专业。同时，我也对物理学和数学感兴趣，所以在研究生期间我也选修了一些偏理论性的研究方向。

Q：你是如何进入神经网络这个领域的？

Bengio：研究生入学之初，我读了几篇关于神经网络的论文。我觉得这个研究领域非常有趣，就像发现了一片新大陆一样兴奋，我想阅读更多神经网络相关的论文。

我读了几篇Hopfield和Hinton在1982年发表的论文，接着是1985年关于反向传播（back propagation）的论文。1986年，我读了Hinton和其他几位作者共同撰写的名为《并行分布式处理》（Parallel Distributed Processing）的一本书。那是神经网络研究的早期阶段，这些学者称自己为连接主义者（connectionist）。这些论文深刻地影响了我的研究视野、对神经网络的理解以及研究方向。

Q：有没有某一事件或某个时刻，给了你计算机将改变世界的灵感？

Bengio：十几岁的时候，我读了大量科幻小说，比如阿西莫夫的作品。早在上世纪40年代，人们已经开始思考变得更聪明的人工智能和计算机将会怎样。包括阿兰·图灵在内的许多计算机科学先驱都预见了，总有一天我们会制造出足够聪明的机器。这到底是创造伟大还是暗藏危机？早在70年前计算机科学家们已经在思考这些问题了。

发表于1942年的短篇小说《环舞》(Runaround)中，阿西莫夫第一次提出“机器人三定律”，以避免人类被自己创造出的机器伤害，该作品对机器人和人工智能领域的科学家产生了深远影响。

父母的人生课：

自由探索、批判思维和多样生活

Q：你的父母来自巴黎，一家人从法国搬到了加拿大。童年经历是如何影响你后来的生活经历和工作风格的？

Bengio：我们家没有很严格的家规，无论是上学还是写作业，父母总是会关心我和弟弟想做什么。我父亲常说，父母应该从孩子身上学习，而不是孩子对父母耳提面命。

我的父母赋予了我很多自由和批判性思维。这对于科学家来讲至关重要，科学家必须跳出思维的条条框框。你必须相信自己解决问题的能力、承担风险、表达出你不确定的想法。这种自由的氛围对我非常有帮助。在不同国家之间搬迁实际上也是了解观点多样性、文化和语言多样性的良好经历。

在科学领域我们需要格外谨慎，因为我们不能确保自己掌握的就是真理。我们必须允许自己犯错误，考虑与自己相悖的观点，因为我们很可能是错的。

因此，文化多样性对于研究者来说是一堂很好的人生课。

大模型前身，注意力机制，图灵奖

Q：你在过去几十年取得了许多重要的成就，你认为其中最重要、最有价值的工作有哪些？

Bengio：在NeurIPS 2000上，我发表了一篇关于使用神经网络构建语言模型的论文，这是大语言模型的前身，只不过规模更小，使用的语料库也更小，没有用到Transformer中的注意力机制。

2006年前后，深度学习复兴浪潮逐渐兴起。在NeurIPS 2007上，我发表了深度学习领域的经典论文《Greedy Layer-Wise Training of Deep Networks》并做现场学术报告。

在这篇论文中，我们首次找到了训练深层网络的方法，展示了如何使用多层神经网络获得更好的泛化效果。我们之前认为深层网络可能有用，但不知道如何训练，传统的训练方法并不奏效。

2014年，我们团队受到人类认知机制的启发，在论文《Neural Machine Translation by Jointly Learning to Align and Translate》中首次将注意力机制应用于自然语言处理领域，大大提升了机器翻译的性能。这篇发表在 ICLR 2015 上的论文引起了行业热议，启发了后续的一系列语言大模型研究。

就在论文发表的一年后，谷歌在2016年将这项技术应用于谷歌翻译中，它的性能突飞猛进，表现非常出色，这种大规模应用是学术界无法做到的，我们也看到了规模效应的影响。谷歌翻译在2016年取得的进步，得益于注意力机制带来的革命性改进。

到了2017年，Transformer正式提出，其基本架构是多层注意力机制的层层叠加，这项技术催生了现代大语言模型现代架构。

回顾过去几十年的工作，这些成果是比较突出的亮点，被图灵奖提名委员会认可，也是他们决定将2018年图灵奖授予我和Geoffrey Hinton、Yann LeCun的主要依据。当然在此之外，我还完成了许多其它的工作。

与Hiton、LeCun一起越过寒冬：

我的学生曾担心，和我一起研究神经网路

会让他们“毕业即失业”

Q：在注意力机制、Transformer等相关技术出现之前，神经网络经历了一场寒冬，在所有人都对神经网络失去信心的时候，是什么让你始终坚持这个研究方向？

Bengio：我有一种强烈的直觉，神经网络可以解决其他主流方法无法应对的泛化问题。

许多统计方法都会尝试使用不同单位或不同模式来覆盖可能的输入空间。问题在于，这种方法在低维度情况下效果很好，但是当数据维度增加时，传统的统计方法可能会迅速失效，发生“维数灾难”。

通过对维数灾难进行理论分析，我认为神经网络有可能克服这个问题。神经网络的多层结构使其能够逐层提取和转换输入数据的特征，从而能用较少的自由度表示非常复杂的函数。因此，神经网络的深度让它在处理高维度数据时具有巨大的优势。

2019年第7届海德堡桂冠论坛（Heidelberg Laureate Forum, HLF）中，Yoshua Bengio发表题为“面向人工智能的深度学习(Deep Learning for AI)”的演讲，演讲中围绕维数灾难(Curse of Dimensionality)问题展开探讨。

Q：在那段时间，你如何看待与其他研究人员发生冲突或不同意见？

Bengio：是的，但大家都会很礼貌地表达不同意见。当时在和审稿人沟通时有一些不愉快的经历。在2000年代，学术界对神经网络已经不抱希望了。我们收到了一些来自审稿人的反馈说：“为什么你们还提交神经网络的论文？这个方向已经被淘汰了。”我的学生们也会担心，跟我一起研究神经网络会导致他们毕业后找不到工作。

现在的情况与当时审稿人的看法大相径庭。现在，神经网络已经成为人工智能的主流方法。

但我认为把所有鸡蛋放在一个篮子里的做法是错误的，我们应该探索更多不同的方法。在过去的七年里，我一直在努力探索当前神经网络方法的局限性，这样才能让未来的人工智能具备当前缺乏的能力。

那场有关神经网络的文化沙漠可能“劝退”了很多研究者，但我有点固执，坚信我们应该坚持下去。那时，我和一小群对神经网络保持坚定信心的研究人员合作，包括我的同事Geoffrey Hinton、Yann LeCun，以及其他国家的几个研究组。我和他们每年见面两次，建立合作并交流想法，鼓励彼此在神经网络这个研究方向上持续探索。

如果你在某条道路上踽踽独行，可能会举步维艰。但是拥有一群志同道合的朋友，共同坚信我们走在正确的道路上，给我带来了很大的帮助。此外，得益于加拿大高级研究院CIFAR（编者注：CIFAR通过科学、技术、社会等领域科研项目合作的方式来吸引和资助世界各地的优秀科研人员）对神经网络研究的资助，我最终能够坚持下来并取得了一些有用的成果。

Q：与Geoffrey Hinton和Yann LeCun交流工作是什么样的体验？会经常发生思想上的碰撞吗？

Bengio：研究者之间想法各异是很正常的，这就是科学运作的方式，新想法通常在求同存异的过程中产生。我们都有自己的实验室、有自己的学生，可以自由地做任何想做的事情。所以，我们从来不会评判谁是对的、谁是错的，也不会将自己的想法强加于其他人。

通过互相分享想法、观点、论据和结果，借鉴彼此的想法和思维方式，我们都能从中获益，并且能以彼此的工作成果为基础，不断实现新的突破。

我和Hinton、LeCun专注于不同的研究方向、从事不同的研究工作，但我们享受这种交流。当我产生了一个新的想法，我会非常乐于和他们分享。

2023年10月22日，Yann LeCun在社交媒体平台X上发布合影，并发帖表示：提醒大家，人们可以在重要的事情上存在分歧，但仍然可以成为好朋友。合影中，Yoshua Bengio（左）、Geoffrey Hinton（中）、Yann LeCun（右）

Q：在当前的AI领域，你会推荐你的学生或合作者做什么研究？他们是否应该追随主流去从事改进大模型相关的工作，还是按照自己的兴趣探索一些不那么主流的研究问题呢？

Bengio：在AI领域，我们需要那些致力于改进现有成果的人，也需要自由探索全新思维方式的人，他们的研究贡献会共同促进AI的发展和进步。

去做“第一个吃螃蟹的人”固然很难，因为没有即时的研究成果激励他们坚持下去。因此，需要建立支持研究者探索新想法、新路径的社会机构，例如大学，它允许一些人在自己感兴趣的研究方向上花费大量时间，即使它们可能根本行不通。

这就是科学研究的意义所在。研究者们尝试各种方法，甚至将其作为终生事业，或许无法作出改变世界的成果，但也有许多重要的想法在这个过程中问世。尤其当未来充满不确定性时，我们需要这样的探索。

不能把大模型的未来全押注

在 Scaling Law之上，

对大模型和AGI保持谨慎乐观

Q：得益于Scaling Law，大模型性能持续提升。您如何看待大模型的未来发展？最终会通向何方？

Bengio：没有人能预测未来。顺便澄清一下，Scaling Law并不是理论定律，它只是基于经验性观察总结出的规律。好比我们将数据绘制成点图，并且拟合成一条直线，但我们不知道这条线会延伸多远、会在哪里停止。Scaling Law可能是一种可行的方法。但仅仅扩大模型规模可能不够，因为我们无法确保Scaling Law能持续发挥作用。

所以，我们很难预测大模型未来会如何发展。但通常情况下，当我们看到它呈现出良好的发展趋势时，可以对它抱以乐观的期待。我和大多数人都相信，我们会持续看到大模型的进步。不过当然了，我过去也曾做出过错误的判断，我没想到Scaling带来了ChatGPT，这是我未曾想到的。

关于如何提升大模型的性能，AI领域的研究者们仍然存在很大的分歧。有人认为，只需扩大模型规模、增加算力和数据、提升计算效率等，就可以让大模型达到与人类相同水平的能力。其他研究者则认为，我们还需要在方法层面取得一些根本性突破，才能弥合人工智能与人类之间的差距。我的看法是，为了解决大模型目前存在的问题，我们需要探索 Scaling Law 之外的新方法。

我不想把大模型的未来押注在一项尚且没有强有力证据来证明的事物（Scaling Law）之上。万一扩大模型规模不是提升模型性能的唯一法宝，我认为需要做更充分的准备。

无论如何，目前在全球范围内，数千亿美元的资金正在源源不断地投入在提升大模型性能的研究上。除了Scaling之外，研究者们也在不断改进算法、硬件和数据集。所以我相信，我们一定会不断取得进步。

在未来五年里，我们可能会面临很多挑战，研究进展可能会比较缓慢。但我认为从长远规划和风险规避的角度来看，我们需要考虑所有可能性，并做好所有准备工作。我们可以通过设立规章制度或开展学术研究，更好地了解大模型未来的发展方向，思考可能出现的问题以及如何减轻这些风险。

Q：最近Yann LeCun公开表示，根据他对世界模型的看法，AGI不存在。你怎么看Yann的这个观点？

Bengio：AGI 在现阶段当然不存在，但在未来我们很可能会实现 AGI，只是目前还没有实现罢了。这是两个不同的问题，Yann似乎在试图回避关于未来AGI是否会存在的问题。但当我问他时，他也公开表示，他认同我们正在朝着构建AGI的方向前进。

Yann不喜欢AGI这个词，他更喜欢称之为人类水平的AI。但重点是我们在不断取得进步，因此有理由相信，未来一定会创造出在许多任务上和人类能力相当的机器。现在在一些公开场合，Yann也认同在未来几年或几十年可能实现AGI。但他始终强调我们还没有发展到那个阶段，所以不愿意讨论风险问题。

问题在于，未来五年、十年或二十年AI会如何发展，以及这会给人类社会带来怎样的风险。

Q：Ilya Sutskever在去年的访谈中曾表示OpenAI在制造AGI，你认为这是在虚张声势吗？

Bengio：不，我不认为这是虚张声势。Ilya真的打算实现这个目标，而且他在最近几年取得了很多进展。我们应该认真看待他的计划。或许现在Ilya不知道能否实现AGI，但重点是，这是他的目标，并且许多其他公司也有相同的目标。所以我认为这是一个认真的目标，我们不应该轻易地认为这绝不可能实现，因为我们也不知道未来会如何发展。

所以这里形成了一个鲜明的对比，有些人把实现AGI视为他们的毕生目标，而另一些人则终生追求AI安全？

是的，人是多元化的。如果全人类能够统一成同一个人、同一种思想，AI安全的问题就迎刃而解了，我们只需对AI的发展保持谨慎。问题在于，这世界上有许多人，每个人都有不同的思想，有些人会尝试一些疯狂的事情，可能需要全人类来承担他们的行动带来的后果。这是一个很大的问题。

现阶段研究重点：

AI for science、系统2、AI安全

Q：你的团队目前主要关注的研究问题是什么？

Bengio：我关注的研究问题一直在转变。我的很多学生仍然致力于构建助力科学研究的人工智能，希望在医疗领域、应对气候变化，甚至是探索新的科学理论等方面发挥作用。我们利用人工智能来设计实验方案或建模，以便更好地理解现象或验证理论。这是我们过去一直致力于研究的问题。

大约七年前，我开始了一项关于系统 2 深度学习的研究，目前还有一些工作与这项研究相关（曾在智源大会介绍）。系统 1 类似于人类的直觉思维，当前的人工智能系统似乎已经掌握了这类能力，能够迅速地给出答案。这种未经深思熟虑给出的答案不一定是最理想的，但它的反应速度非常快。

系统 2 包括推理、因果关系、自我怀疑等思维能力，这些是当前的人工智能不太擅长，而人类非常擅长的。因为拥有这些能力，人类能够在“分布外”的新环境中很好地“泛化”。我们可以通过系统 2 探索全新的问题解决方案。

系统1、系统2是Daniel Kahneman在《思考，快与慢》中提出的概念。系统1是指人类的直觉与自动反应，易受到偏见和错误判断的影响；系统2则是人类的理性思考，负责处理复杂问题、计划和决策。

近期，我的研究重点是人工智能安全（AI safety）。换言之，我们正在探索如何构建不会伤害人类的AI系统。

事实上，很多论文或论据表明当前的技术可能被用于构建一些可能产生伤害人类动机的 AI 系统。

我们需要构建更安全的AI系统，让它与人类价值观、意图、法律、规范和道德保持一致，我们期待AI的行为符合人类的道德准则。

关于AI安全问题，目前还没有万全的应对之策。这很令人担忧，因为各大公司正在竞相加速开发更强大的AI系统，却没有对“如何确保AI系统不会与人类为敌”这个问题投入足够多的关注。

如果能回到20、30岁，

我会提醒年轻的自己注意AI风险

Q：在前段时间的“北京AI安全国际对话”会议中，您谈到AGI项目的扩散问题和核武器问题非常相似。在您看来，AI的监管和治理与核武器有何不同之处？

Bengio：首先，我之所以将人工智能与核武器进行对比，是因为两者都具有巨大的力量。核原料既可以用于能源生产，也可能成为非常危险的武器。AI也是这样，强大的AI可以用于造福人类，也可能被用作武器。由于AI存在被滥用或失控的风险，我们需要考虑如何避免重大灾难的发生。

AI与核武器的另一个相似之处在于，世界上核武器越多，发生不良事件的风险就越大，AI也是如此。与核不扩散机制类似，我们应该减少AGI项目的数量。但这很难实现，因为很多国家不愿放弃任何形式的主权。但我认为一旦各国政府意识到AI风险的严重程度，他们就会认真对待AI安全治理问题，并且会意识到我们都同舟共济，存亡与共。

我们共同恐惧的是一种核武器的末日，即拥有核武器的国家之间互相毁灭。AI的发展和竞争与之类似，无论你是哪个国家的公民，都将直面这场战争——这是人类与AI的战争，而非国家与国家之间的对抗。

到那时，无论你倾向于何种政治体制、信仰什么宗教、皮肤颜色如何，这些都无关紧要。我们都是人类，我们希望人类得以存续。为此，我们需要在所有国家之间找到协调一致的解决方案。

1945年原子弹在日本广岛和长崎爆炸后，原子弹之父奥本海默成为美国的“普罗米修斯”，他本人陷入深彻的反思与懊悔，对核武器滥用带来的灾难性后果深感忧虑。

Q：你是否想象过，如果AI或AGI达到超级智能状态后，真的做出了杀害人类这样的恶意行为，或者其滥用造成严重危害，我们应该采取何种应对措施来挽回这种局面？

Bengio：是的，我非常担心这个问题，因为我们目前还没有找到应对的方法。

AI带来的灾难性后果可能比核武器更严重。因为如果少数核弹爆炸，可能会造成数百万人死亡。尽管核武器带来了大规模的伤害，但人类仍将继续存在。但如果我们创造了一个超越人类智能的AI，并且它认为自己在没有人类干预的情况下能发展得更好，那么它可能会发明一种生物武器来杀死全人类。

在这场AI带来的灾难中，没有人可以幸免。我们不能坐以待毙，直至灾难降临才开始思考应对之策。

1945年原子弹在广岛爆炸以后，人们才开始感到恐慌，并终于意识到我们需要采取行动，以避免核武器造成更严重的后果。1946年，美国政府向联合国原子能委员会提出了一份名为“巴鲁克计划”(Baruch Plan)的提案。巴鲁克计划主张在国际层面统一管理核武器的研发工作，避免军备竞赛。不幸的是，这个方案经过几年的讨论和争议，最终被联合国安理会驳回了。‍

联合国原子能委员会于1946年6月14日举行会议，伯纳德·巴鲁克提出“巴鲁克计划”提案

在AI治理方面，我们需要达成类似的国际条约，在国际层面达成共识。各国不应毫无约束地自行研发人工智能技术，尤其不能将AI用于军事目的，而是应该把所有资源集中起来构建安全的AI，并确保它不会被用于对抗人类。

在此基础上，我们可以共享AI带来的好处。AI在医疗、环境、贫困问题等方面都可以带来积极的影响，它也有潜力推动科学领域的变革。因此，我们需要在享受AI带来的进步和避免AI带来的灾难之间寻求平衡。

在AI安全上，我们不能各自为政，必须携手同行。

Q：Geoffrey Hinton在AI安全方面与你持有相同的观点，他甚至曾表示对自己的毕生工作感到后悔，那么我们应该以悲观还是乐观的心态看待AI的发展？面对AI带来的风险和威胁，你会不会对自己的工作感到后悔或遗憾呢？

Bengio：我想，我应该在过去的工作中更加重视AI可能带来的风险。甚至在10年前，我就读过听过人们谈论AI的风险，但我并没有给予足够的重视。这是我曾犯下的错误。

过去的就让他过去吧，我们无法改变。总体而言，我是一个乐观主义者，但我也看到了AI可能带来的巨大风险。乐观还是悲观，其实无关紧要。重要的问题是，我能做什么，我们每个人能为一个更好的世界做什么。

每个公民都可以有所作为。因为如果更多的公民意识到了AI可能带来的风险，政府就会更加重视。在每个国家、每个政体中，政府都希望尽力获得更多民意支持。

我会尽力而为。幸运的是，我得到了很多认可和支持，并且能够在AI安全领域继续开展研究。因此，我正在将更多精力转移到这方面，尽我所能减少AI带来的风险。

Q：如果你有机会回到20岁或30岁，你想改变什么？

Bengio：如果这是真的，我肯定可以向年轻的自己传授很多经验，包括我对AI风险的认识。

经验丰富的人通常能发挥重要作用，但他们也可能因为固执己见而作出错误判断。作为科学家，你可以选择倾听人们的意见，然后根据自己的经验、知识来采纳这些意见；你也可以不予理睬，等待时间去证明事情的真相。

我们不必全然相信经验丰富之人给出的建议，但也不应该完全忽视它。我们可以考虑多种可能性并提出假设，然后通过实验研究来验证它们。这就是科学研究的工作方式。

Q：所以你会提醒年轻的自己注意AI安全的风险？

Bengio：是的，我会。

给年轻学者的建议：

善于发问，保持谦虚，持续阅读

Q：您在培养人工智能人才方面有非常丰富的经验。在教学方面，这些年来您积累了哪些宝贵的实践经验？

Bengio：这是一个有趣的问题。如果你是一个学生，有个教授在课堂上滔滔不绝了两三个小时，你的大脑会停止思考，你会跟不上老师讲的内容。如果只是让学生被动地听课和接收知识，很难刺激他们主动思考。反之，如果有一种教学方式让学生积极参与其中，迫使他们集中注意力倾听其他人的想法，学习效果会更好。

从我的教学经验来看，翻转课堂（flipped class）行之有效。我会给学生们布置作业，让他们在课前学习材料，在课堂上随机选择一些学生针对材料进行课堂展示，其他学生需要提出问题或回答问题。这样他们就帮我把活儿干了（笑）。

我的角色是确保学生们给出的答案是正确的，确保学生们真正理解了材料。而且过程里，大量任务由学生自主完成，这样也保证了课堂活跃度。

此外，当学生们在家里看视频或论文等材料自学，可以按照自己的节奏来，累了就喝杯茶或咖啡，过会儿再来学。但教室里听讲，即使学生们无法集中精力课程也会继续，就会因此错过老师们讲的内容。所以我认为传统的讲座并不是一种高效的教学方式。

相比之下，小组讨论是一种更好的教学方法。比如我和我的三五个研究生，可能还有其他教授一起开展小组讨论，更有助于我们互相学习和头脑风暴。

在教学过程中，我们必须摆脱“老师无所不知而学生一无所知，他们只需要吸收老师所给的学习材料”的传统观念。教学是一个对话的过程，需要由老师和学生共同参与。

Bengio在课堂教学中

对于处于职业发展和学术研究岔路口的年轻人，你会给他们哪些建议？

我有几个建议想分享给年轻学者。

首先，对于研究者而言，善于提问是很重要的技能。如果你想从事学术研究，你必须对你所研究和讨论的主题有深入的理解。有时我们读到一些文章，我们会理所当然地接受作者的观点，而不会去思考“它是如何运作的？为什么有效？”这类问题。

我们不应该未经思考而轻易接受他人的观点，而是应该试图证明为什么这个结论是正确的，为什么作者会这样写，他们是否有证据可以证明自己得出的结论。如果没有证据，我们应该持保留态度。也许有的人太自信了，比如Yann，他会非常笃定地讲一些事。听者会觉得，啊他一定是对的。人的直觉可能是错误的，你需要有说服力的论据、有力的证据或实验结果来证明自己的观点。研究的过程就是不断提出问题。

下一个建议是，保持谦虚。你必须接受自己可能会犯错。在我的职业生涯中，关于哪些AI方法论或基础理论会成功，我的想法改变了很多次，但这没关系。

事实上，正是勇于承认错误才展现出你的聪明和谦逊，并且表明你充分认识到自身知识的局限性。科学研究只有在你愿意改变想法、认真倾听并考虑他人观点时才能取得进展。也许其他人的观点与你相悖，但他们可能是对的。

很多时候，没有人知道正确答案，我们需要通过做实验或其他方法来寻找答案。如果无法确定，就不要笃信某一种观点或结论。从事科学研究的人要学会接受现实可能存在多种解释，所谓的认知谦逊（epistemic humility）正是如此。

还有很多问题，我们无法从现存理论中找到答案。因此，研究者必须培养自己的直觉。培养直觉的有效方法之一是亲身参与实践。

亲自动手去做研究或工程项目，尝试理解你正在运行的代码，甚至通过重新编写代码来帮助自己加深对程序逻辑和运行机制的理解，在大量的实践或失败中积累经验，从而建立更强的直觉，这是非常重要的。

最后一个建议是多阅读。在任何知识领域中，每个人都像是一个微型大脑，通过阅读可以了解他人的研究成果，研究思路和前沿进展，从而持续积累关于这个领域的知识。这是一种日常训练，每天都要做。

阅读论文很重要。面对领域中不断新增的海量论文，你可能会觉得手足无措。因此，你在选择论文的时候必须有所取舍，跟进最重要的研究进展。

Q：你现在每天仍然会阅读多少篇论文？

Bengio：现在我必须非常高效地读论文，因为要读的内容太多了，很多论文我甚至都不会完整地阅读，只是大致浏览一下，看一下摘要和图表。如果我对某篇文章的摘要很感兴趣，就会更深入地阅读这篇文章的内容。所以我很难准确计算每天阅读论文的数量，但我确实每天都在坚持读论文。

不仅是论文，现在还有很多方式可以了解前沿研究进展，比如通过博客文章等。我认为更重要的是阅读的时间，而不是数量。（如果非要说时间的话）三小时左右。

本文于2024年4月17日首发于微信公众号“智源社区”，原文标题为“Yoshua Bengio独家专访：我不想把大模型未来押注在Scaling Law上，AGI路上要'注意安全'”，《赛先生》获出版社授权转载。

欢迎关注我们，投稿、授权等请联系

[email protected]

合作请添加微信SxsLive2022

微信扫码关注该文公众号作者

来源：赛先生

图灵奖得主Bengio：突破大模型当前局限，需要超越Scaling Law的新方法

相关新闻