国产大模型放大招:逼近OpenAI 的GPT-4
中国基金报记者 卢鸰
在大模型研发上,中国的大模型公司取得了重大突破。
据智谱AI CEO张鹏1月16日透露,相比上一代大模型,该公司最新推出的GLM-4的整体性能已大幅提升,逼近OpenAI 的GPT-4。
在当天上午的技术开放日上,在全面展示其投身大模型三年多来积累的技术成果时,智谱AI重磅发布了新一代基座大模型GLM-4。
国际科技竞争“必争之地”
在国内此轮“百模大战”中,智谱AI是估值最高的明星大模型公司之一。
2023年10月,智谱AI宣布完成超25亿元人民币融资,投资方包括社保基金中关村自主创新基金(君联资本为基金管理人)、阿里、腾讯、小米、红杉、高瓴等。据悉,目前智谱AI估值已超过100亿元人民币。
回溯过往,2018年至2020年是大模型的算法创新年,在此期间,智谱AI 研发了属于自己的算法GLM。
2020年到2022年迎来一场模型之争,基于各种预训练模型框架和开源项目,各种模型如雨后春笋般诞生。
“2020年的GPT-3,拥有1750亿参数,可以看作是此战的起点,它开启了基座模型的全新时代。”张鹏称。
随后,全球范围内掀起了一股大模型研究和研发的热潮,谷歌、Meta等国际领先公司开始不断发布百亿到千亿规模的大型语言模型。但这些模型都不开源,因此,开源大语言模型也开始受到关注。
2022年,智谱开源了其千亿基座模型GLM-130B,这引起了全世界范围的关注。
张鹏指出,作为ChatGPT等生成式人工智能技术产品的核心技术基座,大模型正在快速影响整个产业格局,甚至成为全新的用户交互方式,有助于形成舆论引导、社会治理、信息技术服务等方面的不对称优势。
在张鹏看来,人工智能大模型已成为国际科技竞争的“必争之地”,实现国产全自研、自主可控的人工智能基础模型是迫在眉睫的任务。
但另一方面,大模型的快速发展也给全球科技创新带来全新挑战,包括超大规模算力需求、超大规模数据需求、全新模型训练算法与框架、安全与可信的软硬系统;同时,大模型的应用需求也更加动态和多样化,要求对大模型的不同层次进行深入的研究。
“这是个全新的人工智能科学难题,但也是我们赶超国际领先水平的机会,发展媲美人类智能的人工智能系统已成为人工智能领域研究的国际共识。”张鹏说。
不过,张鹏承认,和国外大模型相比,国内的大模型发展起步晚一些。加上高性能算力的限制和数据质量的差距等,国内研发的大模型无论规模还是核心能力,与世界先进水平还存在一年左右的差距。
2023年初,智谱AI定下一个野心勃勃的目标:到2023年底,要推出逼近当时最先进的OpenAI 的GPT-4性能的全栈自主创新的GLM-4。
1月16日的技术开放日,智谱AI正式交卷,发布了新一代基座大模型GLM-4,“从标准的大模型评测角度看,整体上我们已经逼近了GPT-4”。
“仔细研究了ChatGPT之后,我们发现,其成功不是一蹴而就,而是经历了千亿基座模型训练、有监督指令微调和人类反馈的强化学习。我们的GLM系列模型基本对标着GPT系列模型,但我们更开放,Open AI的GPT-3及以后模型的技术细节不再公开,而我们所有的模型和技术细节都进行了发表和开源。”张鹏强调。
据其介绍,智谱AI不仅开发最大的模型商用版本,也有开源版本。到目前为止,开源的ChatGLM-6B模型全球下载量累计超过1000万次,在github上获得star数达到5万颗。在整个开源趋势榜单上,超过了meta的Llama;2023年团队获Hugging Face全球最受欢迎的开源机构第五名,超过OpenAI、Google、微软,也是国内唯一上榜的机构。
在商业上,智谱AI最早在市场上提出了MaaS的商业化落地路径,提供了开放API、云端私有化和本地私有化多种不同类型的商业解决方案。
通过上述商业化落地方案,目前智谱AI已经拥有2000多家合作伙伴,涵盖了金融、互联网、制造、能源等众多行业;其中,有200多家企事业单位与其进行了深度的模型共创和共建。
审核:许闻
《中国基金报》对本平台所刊载的原创内容享有著作权,未经授权禁止转载,否则将追究法律责任。
授权转载合作联系人:于先生(电话:0755-82468670)
微信扫码关注该文公众号作者