OpenAI发布新旗舰模型GPT-4o；字节跳动正式发布豆包大模型｜AIGC周观察第四十三期

8月前

整理｜吴莹

让我们一起来回顾一下吧。‍

OpenAI发布新旗舰模型GPT-4o；谷歌发布多款人工智能新产品；字节跳动发布豆包大模型；微软回应中国区AI团队“打包赴美”传闻；腾讯混元文生图模型全面开源；索尼音乐发700封警告信打击AI侵权；马斯克的xAI与甲骨文将达成服务器租用协议……

让我们一起来回顾一下吧。

‍

点击收听本期AIGC周观察

5月14日，OpenAI发布了新旗舰模型GPT-4o，GPT-4o可以在音频、视觉和文本中进行实时推理，接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出。它最短可以在232毫秒内响应音频输入，平均为320毫秒，接近人类在对话中的响应速度。新语音模式是一种语音聊天助手。据Business Insider（商业内幕）报道，它能够与用户进行自然的来回对话，能够读取人类情绪，表达出兴奋、友好，甚至讽刺。

当地时间5月14日晚，OpenAI联合创始人兼首席科学家伊利亚·苏茨克沃（Ilya Sutskever）在社交平台X上宣布，他将离开公司。原研究主管雅库布·帕乔基（Jakub Pachocki）将接替伊利亚担任首席科学家。伊利亚说，他将分享下一个项目的细节，称这个项目“对他个人非常有意义”。

5月15日凌晨，谷歌举办了年度I/O开发者大会，发布了众多有关人工智能的产品和服务。谷歌推出了新模型“Gemini 1.5 Flash”，以作为Gemini 1.5 Pro更具成本效益的替代方案，同时仍具有强大的功能。2月份公布的Gemini 1.5 Pro也将迎来升级，将会把100万Tokens的窗口进一步扩大至200万，这将使其能够同时处理2小时的视频、22小时的音频、超过60000行代码或超过140万个单词。

开源大模型Gemma也将有一系列的更新，定于下月推出的Gemma 2参数量将能达到270亿。最后，谷歌的第一个视觉语言模型PaliGemma也被添加到Gemma模型系列中。针对OpenAI的Sora，谷歌也推出了自己的视频生成模型“Veo”，可以根据文字、图片和视频的提示，生成各种风格的高质量1080P视频。从本周开始，谷歌搜索引擎将在美国推出“AI概览”（AI Overviews）的功能，搜索引擎会直接归纳总结搜索结果。

此外，谷歌还推出了第六代TPU（张量处理单元）“Trillium”，将在2024年底向云客户提供。公司表示，与上一代TPU v5e相比，每个芯片的计算性能提高了4.7倍。除了TPU，谷歌也会推出CPU和GPU来支持工作负载。谷歌CEO皮查伊也在大会上提到，谷歌云将成为首批提供英伟达Blackwell GPU的云提供商之一，他在演讲中强调了谷歌“与英伟达的长期合作伙伴关系”。

5月15日，字节跳动豆包大模型在火山引擎原动力大会上正式发布。据火山引擎总裁谭待介绍，豆包大模型目前日均处理1200亿Tokens文本，生成3000万张图片。豆包主力模型在企业市场的定价只有0.0008元/千Tokens，0.8厘就能处理1500多个汉字，比行业便宜99.3%。

5月15日，针对微软人工智能团队集体赴美传闻，微软方面向记者回应称，目前微软有一小部分员工得到可以选择国际轮岗的机会，员工可以选择接受轮岗，或者继续在现在的岗位工作，此前“打包赴美”传闻有夸张及不实之处。

此前有报道称，微软总部下发邮件，通知中国区负责人工智能研究的多个团队，如C+AI团队、做AI平台的Azure ML团队等，整体搬迁至美国或澳大利亚，涉及员工或达数百人，收到邮件的员工需要在6月7日前做决定，也可选择拿离职补偿，微软美国还可帮助解决家属签证。

5月14日腾讯全面开源最新的腾讯混元文生图模型，这是业内首个开源的中英文DiT架构模型，支持256字符中文理解，与腾讯混元现网版本文生图模型一致。

5月17日，在腾讯生成式AI产业应用峰会上，腾讯副总裁、腾讯混元大模型负责人蒋杰透露称，将在今年三季度开源混元最核心的文生文模型。蒋杰称，腾讯内部正在训练三种尺寸（S、M、L）的文生文模型供开源使用，S版主要部署在手机端，拥有3B参数量；M版主要部署在PC端，参数量为5B；L版主要部署在云/数据中心，是30B参数量的MOE架构模型。

5月17日，全球最大的唱片公司之一的索尼音乐集团（Sony Music Group）已经向全球700多家人工智能公司和流媒体平台发函，警告他们不得在没有获得明确授权的情况下使用索尼音乐来训练AI模型，并要求他们立刻停止侵权行为。

据知情人士透露，OpenAI、微软、谷歌、Suno和Udio等一众开发AI系统的公司已经收到了索尼的信。同时索尼还单独寄信给苹果公司和Spotify，要求流媒体平台采取最佳的措施，保护艺术家和词曲作者，避免那些未经授权的AI公司非法训练模型。索尼也明确要求这些互联网平台更新其服务条款，明确表示不允许对其内容进行爬虫和训练。

5月15日消息，据一位参与谈判的人士透露，马斯克旗下的人工智能初创公司xAI一直在与甲骨文高管谈判，打算在未来几年内斥资100亿美元从甲骨文租用云服务器。这笔交易将使xAI成为甲骨文最大的客户之一，因为马斯克试图迅速赶上竞争对手，这些竞争对手已经在训练和运行对话式人工智能所需的专用服务器上花费了数十亿美元。100亿美元的交易规模堪比两家领先的人工智能开发商OpenAI和Anthropic与比甲骨文规模更大的竞争对手达成的交易。

。END 。

值班编辑：王怡洁审校：张格格制作：董斌

关注“中国企业家”视频号

看更多大佬观点和幕后故事

[ 推荐阅读 ]

微信扫码关注该文公众号作者

来源：中国企业家杂志

OpenAI发布新旗舰模型GPT-4o；字节跳动正式发布豆包大模型｜AIGC周观察第四十三期

相关新闻