“小语言模型”或成为庞大人工智能选项的替代品
点击蓝字 关注我们
SUBSCRIBE to US
ISTOCK
科技公司已经陷入了建立大型语言模型(LLM,https://spectrum.ieee.org/ai-index-2024)的竞争中。例如,今年4月,Meta宣布了4000亿个参数Llama 3,其中包含的参数数量是OpenAI 2022年最初的ChatGPT模型的两倍,即决定模型如何响应查询的变量。虽然没有得到证实,但GPT-4的参数估计约为1.8万亿。
然而,在过去的几个月里,包括苹果和微软在内的一些最大的科技公司推出了小型语言模型。这些模型只是LLM模型的一小部分,但在许多基准测试中,它们在文本生成方面可以与LLM模型相匹配,甚至优于LLM模型。
6月10日,在苹果全球开发者大会上,该公司发布了其“Apple Intelligence”模型(https://www.apple.com/apple-intelligence/),其参数约为30亿。4月下旬,微软发布了其Phi-3 SLM系列,其型号包含38亿至140亿个参数。
在一系列测试中(https://arxiv.org/pdf/2404.14219),微软最小的模型Phi-3-mini可以与OpenAI的GPT-3.5(1750亿个参数)相媲美,后者为免费版本的ChatGPT提供了动力,并且优于谷歌的Gemma(70亿个参数)。测试通过提示模型提出数学、哲学、法律等问题来评估模型对语言的理解程度。更有趣的是,微软的Phi-3-small只有70亿个参数,但在许多基准测试中表现明显好于GPT-3.5。
Aaron Mueller在波士顿东北大学研究语言模型,他对SLM可以在选择函数中与LLM针锋相对并不感到惊讶。他说,这是因为缩放参数的数量并不是提高模型性能的唯一方法:在更高质量的数据上训练它也可以产生类似的结果。
Mueller说,微软的Phi模型是根据微调后的“教科书质量”数据进行训练的,这些数据具有更一致的风格,比LLM通常依赖的互联网上高度多样化的文本更容易学习。同样,苹果专门在更丰富、更复杂的数据集上训练SLM。
SLM的兴起正值LLM之间的性能差距迅速缩小之际,科技公司希望偏离标准的扩展定律,探索其他性能升级途径。在4月份的一次活动中,OpenAI首席执行官Sam Altman表示,他相信我们正处于巨型模型时代的末期。“我们会通过其他方式让它们变得更好”。
因为SLM消耗的能量远不如LLM,所以它们也可以在智能手机和笔记本电脑等设备上本地运行(而不是在云中),以保护数据隐私并针对每个人进行个性化设置。今年3月,谷歌在其Pixel智能手机系列中推出了Gemini Nano。SLM可以在没有互联网连接的情况下总结录音并对对话进行智能回复。苹果预计将在今年晚些时候推出类似功能。
Mueller说,更重要的是,SLM可以使语言模型的使用民主化。到目前为止,人工智能开发已经集中在几家有能力部署高端基础设施的大公司手中,而其他规模较小的公司和实验室则被迫以高昂的费用获得许可。
Mueller提到,由于SLMs可以在成本较低的硬件上进行训练,它们对资源有限的用户来说可及性更高,同时仍然具备特定应用所需的能力。
此外,虽然研究人员一致认为还有很多工作要做来克服幻觉(https://spectrum.ieee.org/ai-hallucination),但精心挑选的SLMs使他们朝着建设既负责又可解释的人工智能又近了一步,这可能允许研究人员调试特定的LLM问题并在源头上进行修复。
对于像苏黎世联邦理工学院计算机科学研究员Alex Warstadt这样的研究人员来说,SLM还可以为一个长期存在的科学问题提供新的、引人入胜的见解:儿童如何学习他们的第一语言。Warstadt与包括东北大学的Mueller在内的一组研究人员一起组织了BabyLM(https://babylm.github.io/),这是一项挑战,参与者在小数据上优化语言模型训练。
SLM不仅有可能解开人类认知的新秘密,而且有助于改善生成性人工智能。到13岁时,孩子们已经接触了大约1亿个词,并且在语言理解方面比聊天机器人更为出色,尽管他们只能访问到数据的0.01%。虽然我们还不知道为什么人类在小规模上的学习效率如此之高,但Warstadt认为,“小规模的逆向工程高效类人学习在扩展到LLM规模时可能会带来巨大的改进。”
微信号|IEEE电气电子工程师学会
新浪微博|IEEE中国
· IEEE电气电子工程师学会 ·
往
期
推
荐
微信扫码关注该文公众号作者