国产大模型评测超GPT-4!李开复:十年内不会套现
智东西5月13日报道,今天,在成立一周年之际,国内AI大模型独角兽零一万物重磅发布系列产品升级。
https://huggingface.co/01-ai
https://www.modelscope.cn/organization/01ai
零一万物发布全球SOTA千亿参数闭源大模型Yi-Large,并同步开放API,允许开发者调用,在此基础上还发布了一站式AI工作平台万知。
李开复透露,经测试,Yi-Large评测结果已经至少达到对齐GPT-4,部分指标超越GPT-4。
在第三方测评结果中,Yi-Large在斯坦福英语测评中位居第二,仅次于GPT-4-Turbo,中文SuperCLUE结果中,位于国产大模型榜首。
此外,零一万物正在训练的基于MoE架构的更大模型Yi-XLarge MoE,目前初步训练结果显示,Yi-XLarge MoE的各个指标都已经超过Yi-Large,将冲击GPT-5的性能与创新性。
在此前开源的6B、34B模型之上,今天,该公司宣布Yi-1.5开源系列同步升级,开源了6B、9B、34B不同参数规模,以及预训练、Chat模型等,包括Yi-34B Base+Chat、Yi-9B Base+Chat、Yi-6B Base+Chat。
李开复称,Yi-1.5系列模型已经全面超越Gemma、Mistral以及Llama-3-8B模型,测评结果显示,Yi-1.5系列中34B模型在34B-50B模型中处于绝对领先地位,并且一些指标中表现甚至不逊色于70B模型。
那么,开源、闭源模型如何见用户?第一种方法是调用API,零一万物宣布面向国内市场一次性发布了包含Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark等多款模型API接口。
此外,还有价钱相对较低的API,包括基于开源34B模型微调出的Yi-Vision、多模态视觉模型Yi-Vision以及参数规模更小的Yi-Spark。
目前零一万物已经提供了免费的额度,供开发者使用,李开复透露说,初步接触的开发者中有80%选择从原来的模型转移到使用零一万物的模型。
速读超长文档,2分钟生成PPT
零一万物一站式AI工作站万知有微信小程序和PC网页版。用户通过使用万知既可以阅读海量数据、分析图表和文字,又可以在1-2分钟内生成PPT。
李开复谈道,所有应用都应该是AI原生,未来生产力工具的使用模式会彻底被颠覆,用户提出指令,大模型就可以生成各种内容。
他现场展示了万知的各项能力。
首先,当问到“我要做台湾卤肉饭,请给我食材表格、和做法时间步骤的思维导图”。万知通过表格呈现了卤肉饭的食谱,还通过思维导图呈现了制作的步骤。
在回答关于北京的热门演出时,万知给出了具体的活动时间、地点,还会有甘特图呈现出来,用户根据自己的时间空闲就能清晰看到演出的具体信息。
万知也可以快速阅读理解PDF文档、理解图表。将PDF文档上传后,万知在阅读完成后,右边就会生成总结和建议提问。
此外,万知作为生产力工具的场景中,还能快速生成PPT,当为学生介绍什么是AI,PPT内容需要深入浅出,还要有精彩的图片。万知首先会自动总结PPT内容应该涵盖的重点,然后直接生成PPT。用户如果对PPT中某一页图片不满意,也可以通过AI增强搜图快速换图。
李开复称,万知生成的PPT比微软Office Copilot的效果更好,一个PPT的制作时间大概在1-2分钟左右。
AI 2.0时代TC-PMF成关键
关于对未来的沉淀和展望,李开复谈道,最近有一个热门的讨论:一些人认为我们应该疯狂追求AGI,AGI一旦发生就会改写全部;另一部分人认为模型做得越大越难用,我们应该快速找到PMF(产品市场匹配度)。
他认为,这两种观点都对,但都不完整,没有一家公司可以只靠技术长期领跑所有公司,一定是靠非技术优势,也就是最终产品的胜出。
因此,企业不能忘记PMF重要性,但在AI 2.0时代还需要考虑TC-PMF(Product-Market-Technology-Cost Fit,技术成本 X产品市场契合度),其中T代表技术,C代表成本。
今天模型基于Scaling Law在快速演进,企业需要不断预测未来技术的走向,同时整个行业的推理成本过高,社交、电商、短视频等很多应用无法全面嵌入AI,企业需要不断降低推理成本。
在应用方面,一般来说要实现最佳的AI-First应用,需要顶级模型才能实现。但有时候一些应用会先爆发,可以在更小的模型上实现。
针对上述这些现象与行业的痛点,李开复剖析了零一万物一直以来坚持的4个发展原则。
首先,零一万物的产品面向全世界,其单一产品今年收入达到1亿人民币,产品ROI接近1,上线9个月海外产品用户数已经接近千万。
第二个特点是模基共建,李开复谈道,国外大厂的GPU数量达到国内创企的10倍以上,在这样的背景下,零一万物的模型和推理团队有基本一样的规模。
在训练方面,零一万物此前和英伟达合作,成为全球前三实现FP8训练的,也就是说可以从头到尾使用FP8精度实现更快速训练。他补充道,在这一技术的累积下, 其训练成本相比同行能低一半左右。
第三个特点是持续重视用户体验,模型的价值产生在对用户的价值,一个很典型的功能就是万知对于图表的分析,而不是普通照片的理解。
最后,对所有大模型玩家的一个考验是,企业需要考虑如何同时开发产品、了解市场和用户,还要关注技术发展的速度以及模型能力的演进、成本下降等。这里所需要的能力Know-How,包括足够的前瞻性,还需要是否可以以独立的力量实现、执行力等。
零一万物瞄准AI原生应用
微信扫码关注该文公众号作者