一文看懂斯坦福2024年AI指数报告十大趋势
最近,斯坦福以人为本人工智能研究所(Stanford HAI)发布了2024年的AI指数报告,用五百多页的篇幅说明了人工智能在2023年迎来了重要的一年。
这是Stanford HAI发布的第七份人工智能研究报告,该报告被视为全球人工智能数据和见解最可信、最权威的来源之一。
我的导师Erik Brynjolfsson也是该报告研究团队的主导者之一。
最新的报告扩大了研究的范围,增加了有关负责任人工智能的扩展章节和有关科学和医学领域人工智能的新章节,以及通常对研发、技术性能、经济、教育、政策和治理、多样性和公众舆论的综述。
报告共分为九个章节,并在前面列出了十大要点。
要点包括:
(1)AI还不能在所有事情上胜过人类。
(2)企业领先于学术机构,产业界继续主导AI前沿研究。
(3)训练AI的成本变得极高
(4)美国成为顶级AI模型的主要来源,其次是中国。
(5)严重缺乏健全、规范的LLM责任评估。
(6)生成式AI投资激增。
(7)AI提高了工作者的生产力和工作质量。
(8)AI加速科学进步。
(9)美国AI法规数量急剧增加。
(10)人们对AI的潜在影响有了更深的认识,也因此更加担忧。
下面是有关报告中的要点内容和相关图表的进一步梳理和解读,过程中会根据要点的相关性对其顺序进行调整,这样阅读和理解起来也更加顺畅。
首先,AI还不能在所有事情上胜过人类(1)。
这一点没什么新鲜的,可以对照Google的AGI级别一起看。
总的来说,AI在一些任务上的表现都优于人类,包括阅读理解和视觉推理。但在更复杂的任务上仍有不足,比如竞赛级数学、视觉常识推理和规划。
不过,由于AI已经突破了许多的基准测试,AI学者不得不创造新的、难度更大的挑战。今年的指数还跟踪了其中几项新的基准,包括编码、高级推理和代理行为方面的任务。
AI Index的研究人员Maslej指出,AI性能改进的步伐也在加快。尽管在复杂的认知任务中,人类的表现优于AI系统,但明年的情况或许又会有所不同。
第二点和第三点其实可以放到一起说,由于训练AI的成本变得更加高昂(3),所以在AI前沿研究方面,拥有更多资源的产业界势必占有更多的优势,也因此领先于学术机构并继续占主导地位(2),驱动着AI的发展。
训练AI模型通常需要大量资源,尽管AI公司很少透露训练模型所涉及的费用,但AI Index研究人员通过与人工智能研究组织 Epoch AI 合作进行了成本估算。
报告解释说,为了做出成本估算,Epoch 团队利用从出版物、新闻稿和技术报告中收集的信息“分析了训练持续时间以及训练硬件的类型、数量和利用率”。
有趣的是,谷歌 2017 年发布的Transformer模型,引入了支撑当今几乎所有大语言模型的架构,其训练费用仅为930美元。
而今,最先进的AI模型训练成本已经是以千万乃至上亿美元为基本单位。例如,OpenAI的GPT-4,据估计投入了7800 万美元,而谷歌的 Gemini Ultra 的计算成本则高达 1.91 亿美元。
训练大模型所需的巨量数据、计算能力和资金根本超出了学术机构的能力范围,指数级增长的成本成为学术界在此轮AI竞赛中难以跨越的鸿沟。
因此,作为头号玩家的产业界创造了大部分模型(108个),而学术界只提供了少量模型(28个)。
科技公司发布基础模型既是为了推动最新的技术发展,也是为了给开发人员提供一个构建产品和服务的基础。
报告指出,2023年全球发布了149个基础模型,是上一年的两倍多。其中65.7%为开源模型,较2022年有所增长,但迈向开源的模型似乎是以性能的降低为代价,性能最好的模型仍然是封闭的模型。
谷歌在2023年的基础模型竞赛中发布的内容最多,总共有 40 个,其次是 OpenAI,有 20 个(但风头几乎都被OpenAI抢走了)。
与AI模型高昂的训练成本相对应的,则是模型训练过程中大量资源的消耗会对环境造成的影响(碳排放量),这一点AI Index在报告中也给出了估算。
对于第四点,虽然Maslej 表示该报告并不是想要“宣布这场竞赛的获胜者”,但调查的数据显示,美国在几个方面处于领先地位,包括发布的基础模型数量以及被视为重大技术进步的AI系统数量(4)。
然而,作为美国最大的竞争对手,中国在一些方面也领先于美国,包括人工智能专利授权(61%)和工业机器人安装量。
同时,美国在人工智能领域的私人投资总额也以672亿美元占主导地位,约为中国的9倍。自2013年以来,美国的累计投资额为3352亿美元,其次是中国,为1037亿美元,英国为 223亿美元。
从全球投资的角度来看,2023年全球人工智能的整体投资总额有所下降。
尽管人工智能私人投资自2021年以来稳步下降,但生成式AI的私人投资却爆发式增长(6)。
2023年,生成式AI吸引了252亿美元的资金,占所有AI相关私人投资的四分之一以上,几乎是2022年投资的9倍,是2019年投资额的约30倍(称之为 ChatGPT 效应)。
了解完资本层面的现状与趋势,接下来就是应用层面了。
据统计和报道,越来越多的公司正在其业务的某些部分应用AI:在调查中,55% 的组织表示他们将在2023年使用AI,高于2022年的50%和2017年的20%。一些企业称,他们正在使用AI获取新客户,以及实现联络中心自动化、内容个性化。
AI Index还从市场情报公司Quid获得了有关Fortune 500强公司财报电话会议的数据,该公司使用自然语言处理工具扫描了所有提及“人工智能”、“AI”、“机器学习”、“ML”和“深度学习”的内容。结果显示,近80%的公司在电话中讨论了人工智能。
另外,报告中提到,2023年的多项研究评估了AI对劳动力的影响。其中,麦肯锡的一项调查显示,42%的组织报告称,AI的应用带来了成本的降低,59%的组织实现了收入的增长,高于上一年的32%和63%。
报告还强调了AI如何在低技能和高技能工人之间创造公平的竞争环境。哈佛商学院的研究发现,虽然两组工人在使用AI时的绩效都得到了提高(7),但对于低技能工人来说,收益更为可观。这一发现表明AI可以在促进社会流动性和减少收入不平等方面发挥作用。
此外,报告也指出,AI带来的生产力提升并不能得到保证。在没有足够的人工监督的情况下,过度依赖技术可能会导致次优结果。一项针对专业招聘人员的研究凸显了这种风险,表明那些未经验证而信任“好的AI”的人比那些使用“坏的AI”但更加勤奋的人表现更差。
随着AI在工作场景中变得越来越普遍,它对生产力的影响也变得更加明显,得益于此,科学进步也得以进一步加速(8)。
人工智能已经一次次证明它是科学发现领域非常有用的工具。
报告提到了 2023 年在该领域取得重大进展的一些与科学相关的AI应用:
AlphaDev:Google DeepMind 的AI系统,使算法排序更加高效。
FlexiCubes:一种 3D 网格优化工具,使用 AI 进行基于梯度的优化和自适应参数,从而改善视频游戏、医学成像等领域的各种场景。
Synbot:Synbot将AI规划、机器人控制和物理实验集成在闭环中,实现高产化学合成配方的自主开发。
GraphCast:一种天气预报工具,可以在一分钟内提供高度准确的10天内天气预报。
GNoME:促进材料发现过程。
报告还详细分析了一些在医学领域较有影响力的AI工具:
SynthSR:可将临床脑部扫描转换为高分辨率 T-1 加权图像。
Coupled Plasmonic Infrared Sensors:AI耦合等离子体红外传感器,可以检测帕金森氏症和阿尔茨海默氏症等神经退行性疾病。
EVEscape:能够预测病毒进化,以加强对大流行病的防范。
AlphaMIssence:能够更好地对 AI 突变进行分类。
Human Pangenome Reference:帮助绘制人类基因组图谱的AI工具。
报告还发现,高度智能的医疗人工智能已经出现并正在使用中。
过去几年,AI系统在 MedQA 基准测试中有了显著进步,这是评估AI临床专业知识的一项重要测试。
2023年最引人注目的模型GPT-4 Medprompt的准确率达到90.2%,比2022年的最高分提高了22.6个百分点。自2019年推出该基准以来,AI在MedQA上表现出来的性能几乎翻了三番。
此外,美国食品和药物管理局(FDA)也发现了AI的许多用途。2022年,FDA批准了139 种与AI相关医疗设备,比上年增长了12.9%。自2012年以来,获得FDA批准的AI相关医疗设备数量增加了四倍多。AI正越来越多地应用于实际医疗问题。
随着AI的应用越来越广泛,人们也对其影响有了更深刻的认识,在享受它带来便利的同时,必然也会担心潜在的风险(10)。从规范的角度看,可靠和标准化的评估(5)以及有关法律法规的监管(9)也被提上了议程。
报告中有关AI的舆情数据来自一项关于AI态度的全球调查,调查来自31个国家22816名成年人(16岁至74岁)。
超过一半的受访者表示AI让他们感到担忧,这一比例高于上一年的 39%。三分之二的人预计AI将在未来几年深刻改变他们的日常生活。
大多数人预计人工智能会改变他们的工作,超过三分之一的人预计人工智能会取代他们。
不同人群对AI的态度也有显著的差异,例如,与 X 世代和婴儿潮一代等老一代人相比,年轻一代(Z 世代和千禧一代)预计人工智能会带来更实质性的影响。
与此同时,收入较高、受教育程度较高、担任决策职务的个人预计人工智能会对他们的就业产生巨大影响。
还有一个有趣的点是,对AI的悲观情绪很多来自西方发达国家,而印度尼西亚和泰国等地的受访者则表示,AI的利大于弊。
除了个人层面对AI的担忧,企业也感知到了风险的存在,主要在于责任和规范问题。
AI Index团队对全球 1000 家收入至少 5 亿美元的公司进行了调查,以了解企业如何看待负责任的AI。
结果显示,隐私和数据管理被认为是全球最大的风险,而公平性(通常以算法偏见的形式讨论)仍未被大多数公司所重视。
当AI公司准备发布大型模型时,标准做法是根据该领域流行的基准对其进行测试,从而让AI社区了解模型在技术性能方面的对比。
然而,根据负责任的 AI 基准测试模型的情况并不常见,这些基准评估有毒语言输出(RealToxicityPrompts 和 ToxiGen)、响应中的有害偏差(BOLD和BBQ)以及模型的真实程度(TruthfulQA)等。
这种情况正在发生变化,因为人们越来越意识到,根据这些基准检查模型是一件负责任的事情。但是,报告中的另一张图表显示,这种检测缺乏标准化和一致性:开发人员正在根据不同的基准测试各自的模型,这使得比较和评估变得更加困难。
由于行业缺乏对AI模型可靠和标准化的评估以及一致性的规范,基于监管机构立法层面的法律法规也随之陆续出台,与AI相关的法规数量在过去五年中急剧上升。
AI Index发现,2016年至2023年间,有33个国家通过了至少一项与AI相关的法律,其中大部分发生在美国和欧洲;在此期间,总共通过了148项与AI相关的法案。
2023年,全球立法程序中有2175次提及了AI,约为上一年的两倍。
美国AI相关法规达到25项,较2016年的1项大幅增加。仅去年一年,AI相关法规就增加了56.3%。
研究人员还将法案分为旨在增强国家AI能力的扩张性法律和对AI应用和使用施加限制的限制性法律。结果发现,虽然许多法案都在继续促进AI的发展,但限制性立法已成为全球趋势。
微信扫码关注该文公众号作者