Meta、微软、Mistral AI、Hugging Face、通义、港中文六路进发开源大模型 | 大模型一周大事

8月前

大模型的快节奏发展，让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态，为广大读者提供全面的行业回顾和要点分析。现在，让我们回顾过去一周的大模型重大事件吧。

一、重点发现

本周，开源领域迎来多项技术成果更新：开源大语言模型迎来 Meta Llama3 和微软的 WizardLM 2，CodeQwen1.5-7B 加入开源代码领域，Mistral-22b-v0.2 在开源中探索 MOE 与稠密模型的转换，Mini-Gemini 和 Hugging Face 开源的视觉语言模型 Idefics2 则是在开源多模态模型中不断演进。

除了技术演进外，商业领域裁员与融资并存。之前占据融资热点的 AI 明星企业 Stability AI 和 Tome 相继宣布裁员计划，与之相对的则是大模型领域动辄数亿美元的融资。这也为诸多公司敲下了警钟，在应用淘汰赛中，如何在可控成本下，找寻能赚取稳定现金流的场景，是 AI 产品能否持续运营的关键。并且随着市场竞争的加剧，这一淘汰赛正在迅速展开。

二、具体内容

大模型持续更新

4 月 12 日，知识管理厂商印象笔记宣布其自研大语言模型被正式命名为「印象大模型」，并已根据《生成式人工智能服务管理暂行办法》及相关法律法规完成模型备案，其 AI 产品印象 AI 也迎来多项功能更新，未来将为更多用户提供包含阅读、总结在内的多项智能化知识管理服务。

4 月 14 日，OpenAI 在官宣日本办事处的同时，宣布推出针对日语优化 GPT-4 定制模型。Open AI 表示，以 Speak 为代表的本地企业已经可以使用自定义模型，该模型在翻译和总结日语文本方面提供了更高的性能。最重要的是，其运行速度比 GPT-4 Turbo 快三倍，这样的成本效益将成为满足当地各种需求的合适选择。

4 月 17 日，MiniMax 稀宇科技正式发布其 MoE 模型 abab 6.5 系列，该系列包含 abab 6.5 和 abab 6.5s，其中 abab 6.5 包含万亿参数，并支持 200k tokens 的上下文长度，abab 6.5s 同样支持 200k tokens 的上下文长度，但更高效，可以在 1 秒内处理近 3 万字的文本。

多模态领域

4 月 13 日，xAI 在其官网推文中宣布推出多模态模型 Grok-1.5 Vision，这也意味着，除了文本信息，Grok 现在还可以处理各种包含图表、表格、截图和照片在内的视觉信息，并将于近期邀请现有的 Grok 用户进行测试。
4 月 15 日，香港中文大学终身教授贾佳亚团队提出的开源多模态模型 Mini-Gemini 宣布其 130 亿参数的 demo 上线 Hugging Face。此前于 3 月 28 日，Mini-Gemini 即宣布其代码、模型、数据已经全部开源。
4 月 16 日，Hugging Face 更新了其视觉语言模型 Idefics2。该模型能够理解和生成基于图像和文本的文字回复，并且在 OCR 识别能力方面显著增强。

开源领域

4 月 13 日，Mistral AI 在发布 Mistral-22b-v0.1 仅仅两天之后，宣布开源 Mistral-22b-v0.2。该模型实现了从 MOE 到稠密（Dense）模型的转换，并且其训练数据是 v0.1 的 8 倍。相较于 v0.1， v0.2 在数学才能和编程能力获得明显提升，并且在多轮对话中也能保持高度的对话流畅性。Mistral AI 同时宣布 v0.3 已经在训练过程中，并将有更多 220 亿参数的模型发布，直到其找到将 MOE 压缩的最佳成果。
4 月 15 日，微软发布并开源其新一代大语言模型系列 WizardLM 2，此系列包括三个模型，分别是 WizardLM-2 8x22B（MOE）、WizardLM-2 70B 和 WizardLM-2 7B。但 4 月 16 日，微软宣布因为其不熟悉新模型的发布流程，未能对 WizardLM 2 进行毒性测试（toxicity testing），并已将代码文件从 Github 以及 Hugging Face 上删除，在完成测试后会尽快重新发布。
4 月 16 日，通义千问团队开源了基于 Qwen1.5 的代码模型 CodeQwen1.5-7B 及其对话模型。CodeQwen1.5-7B 支持 92 种编程语言，并且能够处理最长 64 K 的上下文输入，并展现出了优秀的代码生成、长序列建模、代码修改等能力。
4 月 17 日，AGI 公司 Zyphra Technologies 宣布推出其新一代开源基础模型 Zamba-7B。这个 70 亿参数的模型定位于 AI 设备的装载上，并声称在基准测试中优于 LLaMA 1、LLaMA 2-7B。同时其模型权重也即将开源，以供大家判断实际效果。
4 月 17 日，昆仑万维宣布其基座大模型——天工 3.0 开启公测。天工 3.0 拥有 4000 亿参数，是目前全球最大的开源 MoE 大模型（但目前在 Github 和 ModelScope 未见其开源项目）。同时，天工 3.0 新增了图表对比生成、研究模式、增强模式、扩图修图等功能。
4 月 18 日，Meta 正式发布 Llama3，目前已经上架官网和 Hugging Face。此次开源的 Llama3 共包括 2 个模型，Meta-Llama-3-8B 和 Meta-Llama-3-70B。在 MMLU、GPQA、HumanEval、GSM-8K、MATH 这五个评测集的表现上，不仅超过了 Mistral 7B，甚至部分评测集中，Meta-Llama-3-8B 模型的得分超过了 Meta-Llama-2-70B。而且在未来几个月内，Meta 还会推出更多的版本。

应用探索

新产品新功能 / 插件

4 月 16 日，Poe 宣布推出其 3.0 版本，并新增多机器人聊天功能，用户可以通过 @指令，在不同任务场景下调用多个大模型进行对话，以发挥不同大模型的优势。Poe 致力成为对话 AI 应用商店，提供变现工具和企业服务。
4 月 16 日，Adobe 宣布推出一款适配 Adobe Acrobat Reader 和 Adobe Acrobat 的 AI 助手——Adobe Acrobat AI Assistant，以帮助用户快速处理、检索、阅读和总结吸收 PDF 文档中的内容。目前，该功能仅支持英文，预计未来还会扩展至更多语言。
4 月 16 日，Adobe 宣布了 Premiere Pro 全新版本的更新计划，本次更新中包含了为第三方 AI 视频生成模型添加插件。这意味着在 Adobe Firefly 自身的能力之外，用户即将可以直接通过 Adobe 工具体系调用 OpenAI Sora、Runway Gen-2 和 Pika。
4 月 17 日，昆仑万维宣布基于天工 3.0 打造的天工 SkyMusic 登录天工 APP ，并开启全面公测。天工 SkyMusic 可以生成 80 秒 44100Hz 采样率双声道立体声歌曲，支持生成说唱、民谣、放克、古风、电子等多种音乐风格，还能学习颤音、歌剧、吟唱、男女对唱、自动和声等歌唱技巧。同时，也支持参考音乐与方言歌曲两种生成方式。
4 月 18 日，钉钉 AI 助理市场（AI Agent Store）正式上线，首批将推出超过 200 个 AI 助理，覆盖企业服务、效率工具、财税法务、教育学习等类别。根据钉钉披露，截至 2024 年 3 月底，钉钉 AI 已超过 220 万家企业使用，月活跃企业超过 170 万家。

终端 AI

4 月 12 日，蔚来宣布端云多模态大模型 NOMI GPT 正式启动推送。NOMI GPT 内置的认知中枢、情感引擎和端侧多模态感知架构赋予了 NOMI 与用户进行开放式问答的交互能力。本次升级后，用户可在车内体验到大模型百科、无限趣聊、魔法氛围、趣玩表情、用车问答、AI 场景生成在内的多项全新交互体验。
4 月 17 日，Rewind 宣布推出一款可穿戴 AI 设备 Limitless。Limitless 可以记录用户的日常对话内容，并利用 AI 进行会议准备、实时传译、记录和总结。这款产品预计在 2024 年 8 月份发货，预计售价为 99 美元。
4 月 18 日，联想在 TechWorld 2024 上发布了内嵌个性化 AI 智能体「联想小天」的 AI PC 系列产品，价格从 5999 到 17999 元不等，目前已开启预购。

其他

4 月 12 日，已发布大模型安全基座和 AI 生成内容检测基座的瑞莱智慧在其公众号宣布，已经完成新一轮战略融资。本轮融资由光源资本担任独家财务顾问，投资方包括北京市人工智能产业投资基金等。
4 月 13 日，估值 3 亿美元的 AI 初创公司 Tome 解雇了 12 名员工，在解雇之前该团队拥有 59 名员工。Tome 产品专注于 AI 生成 PPT，截至 4 月初，Tome 付费专业版每月收入约为 30 万美元。
4 月 15 日，微软在其官网宣布，其将向阿联酋 AI 公司 G42 投资 15 亿美元，并持有少数股权和董事会席位。G42 将在微软云计算平台 Azure 上运行其人工智能应用和服务，来为中东地区、中亚和非洲国家的各行各业提供先进的 AI 解决方案。
4 月 16 日，根据媒体消息，由王小川创立的百川智能正在进行新一轮数亿美元的融资，本轮融资也将成为今年以来国内 AI 领域最大的融资之一。
4 月 18 日，根据内部电子邮件，Stability AI 新任命的联席 CEO Shan Shan Wong 和 Christian Laforte 宣布，Stability AI 裁员 20 多名员工，这涉及这个 200 人团队的 10%。此前于 3 月 23 日，Stability AI 宣布其 CRO Emad Mostaque 离职，并退出董事会。

报告预告

Sora 来袭，国内如何迅速跟上？开源在大模型市场进程中的价值正在被重新定义吗？人型机器人重回视野，其能力是否有所提升和刷新？Devin 和智能编码助手是同一条赛道上的不同节点？多家企业宣布 All in AI，对市场意味着什么？InfoQ 研究中心即将发布的《2024 年第 1 季度大模型监测报告》，即将给出答案。

内容推荐

跳进 AI 的奇妙世界，一起探索未来工作的新风貌！想要深入了解 AI 如何成为产业创新的新引擎？好奇哪些城市正成为 AI 人才的新磁场？《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造，为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者，还是对生成式 AI 充满好奇的新手，这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI 前线」公众号，回复「开发者洞察」领取。