国产大模型,逼近GPT-4|甲子光年
国产“GPT Store”发布了。
作者|赵健
国产大模型与OpenAI还有多少差距?
在去年11月30日的「甲子引力」年终盛典上,智谱AI CEO张鹏给到的答案是,在单点或少量指标上可以逼近OpenAI,但总体平均能力还存在不小的差距,而这也是压力与动力的来源。
但在两个月后的今天,这个差距已经无限接近。
智谱AI在今天举办的技术开放日上,正式发布新一代基座大模型GLM-4,整体逼近GPT-4,大约是GPT-4 90%以上的能力。GLM-4基础能力全面升级,支持128K上下文、多模态更新,还正式发布了对标OpenAI GPTs的GLMs个性化智能体功能,以及GLMs商店。
智谱AI是国内“百模大战”中估值最高的明星大模型公司之一。2023年10月,智谱AI宣布完成超25亿人民币融资,投资方汇聚了国内一线明星机构,包括社保基金中关村自主创新基金(君联资本为基金管理人)、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss直聘、好未来、红杉、高瓴等。
在绝大多数人眼中,2023年是大模型元年,ChatGPT打响了“百模大战”的发令枪;但在张鹏看来,大模型的元年要追溯到2020年,这一年OpenAI发布了ChatGPT的“前身”GPT-3,刚成立一年的智谱AI开始全力投入大模型的研发。
提前3年的“抢跑”,让智谱AI有更多的技术储备。今天智谱AI在Hugging Face上的下载量超过1100万次,位居全球最受欢迎开源机构第五名,也是国内唯一上榜的公司;其对话模型ChatGLM在GitHub上获得了5万+颗星,超过Llama。
在2023年初,智谱AI设立了一个雄心勃勃的目标:用一年的时间追平OpenAI最先进的模型。
现在,这位大模型的优等生交卷了。
1.产学研结合,科学家创业
在介绍GLM-4的技术升级之前,首先回顾一下智谱AI的成立过程,这是一家典型的科学家创业的公司。
智谱AI的前身,是在2006年诞生于清华大学计算机系知识工程实验室(KEG)的明星产品AMiner——学术搜索与情报挖掘平台。清华大学教授、KEG主任唐杰,是AMiner的核心创立者之一。
2013年,AMiner平台的商业化应用提上日程。2019年,在国家相关政策的鼓励与支持下,清华大学教授李涓子、唐杰等人依托AMine为基础,共同成立智谱AI,致力于打造可解释、鲁棒、安全可靠、具有推理能力的新一代认知引擎的公司。
清华大学计算机系教授、中国科学院院士张钹担任智谱AI首席顾问。智谱AI CEO张鹏,是国内首个中英文平衡的跨语言知识图谱系统XLORE的设计和研发者。
在智谱AI成立的第一天,公司写下了“让机器像人一样思考”的愿景。
2020年6月,智谱AI一周年司庆日,恰好撞上了OpenAI发布GPT-3。当天,张鹏与受邀参加智谱AI座谈的张钹院士深入讨论了GPT-3的技术前景。GPT-3让张鹏隐隐意识到,大模型确实是未来的方向。张鹏说:“OpenAI做的这个事情,也是我们一直期待去做的,一定追寻去做的,更是一定要去做的。”
同一年,智谱AI把OpenAI作为自己的对标对象,全力进行大模型的研发。
当时业内主流的预训练算法框架有三个:GPT、BERT与T5。智谱AI没有选择既有算法框架,而是选择了自研。2021年,智谱AI团队联合清华大学提出了GLM(General Language Model)算法框架,结合了GPT与BERT两者的特点,既能从前文预测后文,也能从后文猜测前文。
智谱AI团队参与了智源研究院主导的“悟道”大模型项目。悟道团队先是训练出一个百亿参数的稠密模型,然后又通过“稀疏化”方法训练出一个1.75万亿稀疏模型。这个万亿大模型最终用硬盘拷下来的文件大小约为20T,需要超过500张A100才能做推理,成本太高且性能并不好。
经过几轮激烈的争论,智谱AI团队最终决定自己训练一个千亿参数的稠密模型,直接对标1750亿参数的GPT-3。
最大的挑战是高昂的训练成本。智谱AI团队算了一笔账,要训练一个千亿参数大模型,需要至少1000张A100不出错地连续跑两个月。而当时整个智源研究院,也只有480张A100。
智谱AI找到了济南超算中心。济南超算在2020年采购了一批A100,原本计划将算力提供给视频游戏公司,但因为市场变化,这批芯片当时处于闲置状态。
于是,智谱AI租用了1000张A100,并从底层算子重构,投入20多人训练了8个月,终于在2022年7月训练出了千亿大模型——GLM-130B,并将其开源。
在训练过程中,智谱AI遇到了很多挑战,预训练一个高精度的千亿模型与训练百亿模型完全不同。张鹏告诉「甲子光年」,从训练百亿模型到千亿模型,难度绝不止线性地增长10倍,挑战包括频繁的随机硬件故障、模型梯度爆炸、算法中意外的过多内存使用、新的 Megatron 和 DeepSpeed 框架中 3D 流水线的调试、无法从优化器状态中恢复、机器间TCP拥塞,以及许多许多意外的 “bug”。但最终这些问题都被一一攻克。
2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测,GLM-130B是亚洲唯一入选的大模型。
在推出GLM-130B的基座模型之后,智谱AI又先后在应用层推出了AIGC模型及产品矩阵,包括生成式AI 提效助手“智谱清言”、高效率代码模型CodeGeeX等。
从产品矩阵来看,智谱AI成了国内最像OpenAI的大模型公司。智谱AI也在2023年初定下了目标:用一年的时间,追平OpenAI最先进的模型,也就是后来发布的GPT-4。
2.逼近GPT-4
今天的技术开放日,智谱AI正式发布了新一代基座大模型GLM-4,这是智谱AI的交卷时刻。张鹏表示,GLM-4,已经超过GPT-3.5,整体逼近GPT-4。
GLM-4带来了5项重大升级,首先是基础能力的全面提升。
在权威的英文测试榜单中,GLM-4已经整体逼近GPT-4,平均能达到GPT-4 90%以上的水平,在个别项目上表现持平;而在国内企业更加看重的中文任务上,GLM-4的表现全面超过GPT-4。
第二项更新是更长的上下文窗口。
GLM-4将上下文从32K扩展到128K,与GPT-4 Turbo相当,单词提示词文本达到300页;同时不丢失精度,在被称为“大海捞针”的Needle test中几乎100%召回。
第三项更新是多模态能力,文生图与多模态能力都得到增强。
张鹏表示,CogView的文生图能力明显强于开源的Stable Diffusion XL模型,逼近OpenAI的DALL-E3,在对齐、保真、安全、组合布局等维度上达到DALL-E3 90%的水平。
第四项能力更新,则是把以上单点的能力进行“All in One”,推出GLM-4 All Tools工具。具体包括:
结合上下文语境进行AI绘画创作; 自动调用代码解释器进行复杂的方程或微积分求解; 实现文件处理、数据分析、图表绘制等复杂任务,支持Excel、PDF、PPT等文件; 模型自行规划检索任务;自行选择信息源;自行与信息源交互; 根据用户提供的function描述,自动选择所需function并生成参数,以及根据function的返回值生成回复; 多工具自动调用,网页浏监准确率超过 GPT-4。
智谱清言的GLMs商店界面
3.更加Open的AI战略
图片来自智谱AI CEO张鹏演讲PPT
图片来自智谱AI CEO张鹏演讲PPT
微信扫码关注该文公众号作者