Bendi新闻
>
上来就是万亿模型,要单挑大厂的阶跃星辰就是中国版Inflection AI

上来就是万亿模型,要单挑大厂的阶跃星辰就是中国版Inflection AI

作者Yoky
邮箱[email protected]
生成式AI狂奔的2023年,美国在各个细分领域涌现出了一批独角兽公司。
其中,Inflection AI 凭借不到50人的规模,在两年内融资超15亿美元,估值近40亿美元,被称为“OpenAI最大的竞争对手”,不仅推出了基础语言模型Inflection-1和Inflection-2.5,旗下对话产品「Pi」在众多聊天机器人产品中脱颖而出,一度被认为是比ChatGPT更人性化的对话产品。
如今,中国版的Infection AI出现了。    
在蛰伏一年后,2024年初,由前微软全球副总裁姜大昕所创办的阶跃星辰正式对外公开亮相,一口气发布了Step系列通用大模型,包括Step-1千亿参数语言大模型,Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型预览版——这也是国内初创公司里面的首个万亿参数大模型。
这张来自创业公司交出的成绩单,无论放在去年还是今年,都称得上亮眼。
当我们对比了两家公司的创始人的传奇经历,技术思路、产品重心,还是独角兽公司的特质,阶跃星辰与Inflection AI都有着诸多的相似之处。


传奇创始人和团队

Inflection AI 被业界和投资人认可的一个重要原因,来自于他的创始人和创始团队。
Inflection AI的创始人Mustafa Suleyman(现任微软AI首席执行官),曾是DeepMind联合创始人。2010年,26岁的Suleyman 与几位好友共同创立了DeepMind,自己则担任DeepMind的首席产品官。而后便开始了在DeepMind漫长工作的10年。
另外两位Karén Simonyan、Reid Hoffman,其中Karén 是他这一代中最有成就的深度学习研究领导之一,曾在牛津大学完成博士学位和博士后毕业,曾任DeepMind首席科学家,建立并领导了大规模深度学习团队,开发现实世界数据的大型AI模型。
而Reid 则是一位出色的企业家,2003年,他与伙伴共同创立了世界最大的专业网络服务Linkedln,也曾任PayPal执行副总裁。
和Inflection AI 强大的团队背景相似,阶跃星辰的创始团队在创业前,也曾在微软“叱咤风云”。
2007年,阶跃星辰创始人姜大昕便加入微软亚洲研究院任首席研究员,自此开启了在微软长达16年的职业生涯。在机器学习、数据挖掘、NLP和生物信息学等方面拥有多年的研究和工程经验,也曾在2008年获得SIGKDD最佳应用论文奖。   
而后的2011年,姜大昕转入STCA(微软亚洲互联网工程院),并于2017年成为微软全球合伙人,担任STCA副院长及首席科学家。
姜大昕带领团队在2019年将Bing智能问答功能,包括十几种语言、扩展至全球100种语言和200个地区,为了提高Bing使用的包容性和可访问性,引导用户在网络文档中获得最简洁、最准确的答案,进一步节省用户的时间和精力。
直至2023年3月,姜大昕升任微软全球副总裁,全面负责微软必应搜索的技术研发工作。团队人数达到了400名,包括研究搜索、AI算法、应用程序和平台应用的科学家、工程师等,全面负责Bing的全球搜索体验工作。
不出什么意外的话,姜大昕几乎能在微软“养老”。
但他却选择了“激流勇退”。   
“我意识到ChatGPT是一个划时代的技术变革。一定要自己下场,以最快速、最灵活、最全面的方式来投身到变革中去。”在之后的采访中,姜大昕提到,ChatGPT的横空出世,是一个划时代的技术性变革,但如果继续待在微软,他只能在OpenAI的模型上去做一些应用尝试,但模型的「黑盒」并不会向他开放。
基于多年的算法经验,姜大昕想试试打开「黑盒」,从底层做出更大的颠覆。
但搞AI,只有算法和想法显然是不够的。
很快,姜大昕找到了微软Bing引擎核心搜索团队负责人焦斌星任阶跃星辰数据团队负责人,这位同样在微软工作了11年的“数据老炮”,在跨语言数据的积累上有独特积累,而这对于中国大模型训练的优化和训练效率与质量的提升,至关重要。
还在微软时,二人就听说过外界盛传大模型时代的“数据荒”,Scaling Law所需要的数据不够用了,当置身创业角色中时,发现不仅数据不够用,算力也不够用了。
姜大昕又瞄上了曾在微软研究院,拥有多次单集群万卡以上的系统建设和实战经验的朱亦博,任阶跃星辰系统负责人。
如此,这个脱胎于微软的创业团队,组成了一个集算法、数据和算力三大要素为一体的最强组合。
这种强,也体现在他的大模型和产品中。


模型训练,主打一个高效!

虽然Inflection AI和阶跃星辰都是创业公司,但他们的大模型性能还是“很能打”的,甚至直逼GPT-4。   
官方测试数据显示,Inflection-2.5在关键基准测试中与GPT-4并驾齐驱;中国大模型评估平台「司南」多模态模型评测榜单显示,阶跃星辰的Step-1V千亿参数多模态大模型位居第一名,性能比肩GPT-4V。
作为创业公司,为何能在极其有限的资源条件下达成这样的成绩?追本溯源,其原因都在于两家公司都在追求高效的大模型训练方式。
Inflection AI的整体思路是用尽可能少的训练计算量来达到同等的效果。比如,Inflection-1只用了GPT-4训练计算量的4%,Inflection-2.5仅用了GPT-4训练计算量的40%。但最后呈现的效果却十分惊艳,Inflection-1在不同的智商导向任务中,平均性能达到GPT-4水平的大约72%,Inflection-2.5平均性能则能达到GPT-4的94%以上。
秉承着“大力出奇迹”的基本宗旨,阶跃星辰把训练千亿级、万亿级的“巨无霸”工作量分解为了四个要素,分别为算力、系统、数据和算法,这也被其命名为“铁人四项”超级工程。众所周知,算力、算法和数据是AI的三要素,在此基础上阶跃星辰另外搭建了一个集群万卡管理系统,能够有效提升算力训练效率。据阶跃星辰官方称,训练千亿模型的 MFU(有效算力输出)达到 57%。          
尽管两者都在大模型训练过程中践行着相似的技术思考,但关于未来最终通往哪里,Inflection AI和阶跃星辰却有着不同的设想。
Infection AI认为无论未来呈现的是哪种大模型形态,对话都是必备的。所以,Infection AI将多轮对话的单点技术发挥到了极致,并进行不断地迭代更新。             
姜大昕则认为,AGI是未来,通往AGI会经历单模-多模-世界模型三个阶段。现如今,阶跃星辰推出的Step系列大模型被姜大昕视为“理解多模和生成统一的基础”。
在产品侧,Infection AI和阶跃星辰都不约而同地瞄准了C端方向。Infection AI推出了助手类应用产品「Pi」,以语音和情感对话为特色在消费用户市场打出了特色,一度成为了“明星AI产品”。阶跃星辰大模型刚面世,也带来了两款应用,一个是聊天类应用跃问,定位为个人效率助手。一个是AI开放世界平台冒泡鸭,提供海量智能体,内容形式类似国外的Character.AI,主打休闲娱乐的功能。
「Pi」的特点在于“情感”和“有趣”,而姜大昕则希望产品能有有趣的灵魂:“我把模型和产品的关系比喻成灵魂和皮囊。大家一定听过一句话,好看的皮囊千篇一律,有趣的灵魂万里挑一。我们希望灵魂能更加有趣一点才能显示出产品的不同。”
创始团队的过硬的背景、技术战略的相同选择、产品落地的共同期待,让阶跃星辰成为最像Inflection AI的中国公司。
不过,Infection AI如今已经“人去楼空”,创始团队被微软尽数挖走,希望阶跃星辰不会效仿这样的结局。
点个在看,再走吧👀

微信扫码关注该文公众号作者

来源:硅星人Pro

相关新闻

字节发布豆包大模型,内部人士回应微软中国AI团队赴美,TikTok创作者诉美联邦政府,长城炮回应事故,这就是今天的其他大新闻!高合创始人现身总部,传谷歌拟在印度生产手机,李一舟AI小程序暂停服务,老头环DLC预告播放量超570万,这就是今天的其他大新闻!内部人士回应飞书精简规模,阿里撤回菜鸟上市,抖音商城版App上架,知情人士称苹果与百度未达成AI合作,这就是今天的其他大新闻!中国电信开源星辰AI大模型:央企中首个完成LLM研发和开源的选手诞生百度文心一言用户破 2 亿,李彦宏:文心大模型已成中国最领先的 AI 基础模型OpenAI将终止对中国服务,宁德董事长回应网传896工作制,宝马将为电车加入模拟音效,AI冲上一本线,这就是今天的其他大新闻!京东被曝严查考勤,中对美采取反制措施,淘宝PC网页版升级,谷歌将在AI搜索结果中加入广告,这就是今天的其他大新闻!王小川评AI大模型“价格战”:在中国市场,API服务对创业公司是走不通的;科大讯飞:讯飞星火Lite版永久免费丨AIGC日报效果炸裂!OpenAI 发布首个视频生成模型,这就是 AI 视频的 GPT 时刻Windows全球大面积蓝屏,英国不对国产电车加收关税,奥迪不再用假排气管,谷歌等成立安全AI联盟,这就是今天的其他大新闻!iOS18新功能曝光,马斯克确认今年没Modle Y改款,柔宇科技破产清算,微信输入法内测AI功能,这就是今天的其他大新闻!AI眼中的新中式,这大概就是中国人才懂的审美吧!承诺10年不套现, 62岁的李开复要陪AI大模型“长跑”第四范式戴文渊:深耕行业大模型十年,这是中国AI市场的风口全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报北大袁粒:用户不会为只能“闲聊”的大模型买单 | 中国AIGC产业峰会第一个倒下的AI大模型硬件创企!Humane被曝10亿美元卖身,曾梦想干iPhoneICQ即将关闭,谷歌AI搜索翻车,魔兽回应改密短信,波音“星际客机”下月载人试飞,这就是今天的其他大新闻!盒马将恢复会员开通及续费,华为P70现货到总代,AI刘强东直播成交额超五千万,芒果TV起诉屏蔽广告软件,这就是今天的其他大新闻!华为官宣P系列升级为Pura,传特斯拉拟新一轮裁员,蔚来造车资质获批,苹果首批AI功能或运行于设备端,这就是今天的其他大新闻!阿里1688全面接入淘宝,小红书去年转盈,百度将为国行iPhone16提供AI功能,抖音治理伪成功学,这就是今天的其他大新闻!消息称字节洽购饿了么,Meta使用盗版资源训练AI,秘鲁外星人遗体鉴定为假,华为新车型即将登场,这就是今天的其他大新闻!《自然》子刊:50岁后,中国预期健康工作平均年数为6.87年;高被引AI论文排行榜出炉:中国大厂不敌谷歌微软 | 环球科学要闻上海AI lab开源LLaMAX,用3.5万小时的A100训练让大模型掌握上百种语言翻译
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。