9家AI相关公司获融资；3大科技巨头被曝将面临反垄断调查；Vidu重大更新，生成32秒视频，支持音视频合成丨AI情报局

7月前

融资快报

透彻未来宣布完成近亿元A+轮融资：透彻未来致力于使用大数据及人工智能为病理图像提供的智能判别、诊断、预测，并提供最优化的解决方案。本轮融资由邦勤资本、中科天使领投，老股东启明创投、KIP资本、RY投资跟投。

深度原理科技获近千万美元种子轮融资：深度原理科技希望将人工智能、量子化学和高通量实验技术应用于化学材料领域。该轮投资由线性资本领投，真知创投和Taihill Venture跟投。晶泰科技与深势科技作为科技产业方参与本轮投资。

Eko Health获4100万美元D轮融资：Eko的人工智能算法组合能根据心跳和心电图数据检测心房纤维性颤动、心律失常和低射血分数等问题，该轮投资由ARTIS Ventures、Highland Capital Partners、NTTVC、Questa Capital投资。

Hoop获500万美元种子轮融资：Hoop应用程序可以从各种平台聚合任务，创建自动更新的待办事项列表。与其他加入会议以提供大量转录的AI平台不同，它可以识别并帮助优先排序任务，使与会者保持专注和响应。本轮融资由Index Ventures领投，Origin Ventures、Divergent Capital和Chingona Ventures参与投资。

Twelve Labs筹集5000万美元A轮融资：Twelve Labs开发了Marengo 2.6多模态嵌入模型，以及Pegasus-1视频-语言模型，可使视频变得智能且易于搜索和理解。本轮融资由新投资者New Enterprise Associates和NVIDIA的风险投资部门NVentures共同领投，此前的投资方Index Ventures、Radical Ventures、WndrCo和Korea Investment Partners也参与了这一轮融资。

LiveKit获2250万美元A轮融资：LiveKit提供开源技术栈，使任何开发者都能够构建任何类型的实时语音或视频基础的应用程序。LiveKit还向OpenAI和Character.ai的AI模型提供视觉、听觉和语言能力。本轮融资由Altimeter领投，Redpoint以及包括Jeff Dean、Elad Gil、Aravind Srinivas、Amjad Masad等专注于AI领域的杰出人士提供支持。

Testsigma获820万美元A轮融资：Testsigma为网站、原生Android和iOS应用程序以及API提供端到端的自动化测试服务，本轮融资由MassMutual Ventures领投，现有投资者Accel、STRIVE和BoldCap也参与了此轮融资。

Neural Concept获得2700万美元B轮融资：Neural Concept是一家采用深度学习算法改造工业工程流程的软件服务商。此轮融资由 Forestay Capital 领投，DE Shaw Group 和现有投资者 Alven、CNB Capital、HTGF 和 Aster Group 参投。

“法保网”完成数千万元A+轮融资：AI+法律服务领域企业“法保网”宣布完成数千万元A+轮融资，本轮融资由两山国控集团、安吉数智新经济基金领投。此次融资将用于法保网在法律服务大模型领域的深度学习及训练与企业级场景化legal agent产品的推出。

业界动态

国内情报

生数科技视频大模型Vidu重大更新，生成32秒视频，支持音视频合成：

生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性视频大模型Vidu，近期完成三个技术迭代，实现国内视频模型更大一步技术跨越。目前Vidu可以一键生成32s视频；支持音视频合成，即Vidu视频生成有声音了（Text-2-Audio）支持4D生成，可以从单一视频生成时空一致的4D内容。

号称效果对标 Sora，快手视频生成大模型“可灵”开放邀测：

快手“可灵”视频生成大模型正式上线。官方表示，可灵大模型为快手 AI 团队自研，其采用 Sora 相似的技术路线，号称结合多项自研技术创新、效果对标 Sora。可灵大模型已在快影 App 开放邀测体验。此外，基于“可灵”大模型，未来还将有更多应用方向即将落地，近期将首发“AI 唱跳”新玩法，可以同时驱动表情和肢体动作，仅需一张照片就能生成“唱跳”视频。

生图时间缩短 75%，腾讯混元文生图开源大模型加速库发布：

腾讯发布针对腾讯混元文生图开源大模型的加速库，官方称该加速库可以大幅提升推理效率，缩短生图时间 75%，同时降低了混元 DiT 模型的使用门槛，用户可以基于 ComfyUI 的图形化界面使用腾讯混元文生图模型能力，也可以在 HuggingFaceDiffusers 通用模型库中调用混元 DiT 模型。

OPPO 手机搭载生成式 AI，海外机型将接入谷歌 Gemini 大模型：

OPPO 将全面普及 AI 手机，OPPO 海外营销与服务总裁张洲川表示：“作为行业首个将生成式 AI 功能引入全产品线的手机厂商，OPPO 今年计划让约 5 千万用户的手机搭载生成式 AI 功能。”在海外市场，OPPO 宣布与谷歌合作，旗下 Reno12 系列和下一代 Find X 系列将接入 Gemini AI 大模型，带来包括文案生成、录音摘要在内的 AI 工具箱等功能。

高考AI搜索升级，夸克上线2024高考信息服务：

依托大模型技术，夸克高考AI搜索能在首条结果页中呈现由AI整理的回答，包括招录政策、院校专业、生活信息、升学就业等热门内容。这些回答均来源于权威官网、招生简章、专业书籍以及名师视频等优质渠道。

猿辅导旗下Motiff妙多公布定价方式，AI功能限时免费：

猿辅导旗下定位“AI时代设计工具”的Motiff妙多面向全球发布并公布定价，宣布首创AI复制、AI布局、AI设计系统创建、AI设计系统维护、AI一致性检查等多个AI功能，从界面设计流程中出发，提升界面设计效率。

周鸿祎称大模型发布一周年，但是离用户还是比较远：

周鸿祎表示，“手机App起来的原因，是因为它有一个明确的场景，让你想用的时候能够想起它来，而现在的大模型表面上啥都能干，但其实是找不到真正适用的场景。”周鸿祎称Kimi，“它很聪明的一个地方是没有说自己是一个万能助手，而是给了自己一个清晰的定位，在长文本方面做得很好，大模型其实也能做长文本分析，但是它能做的事情很多，反而人们的印象不那么深刻了。”

李稻葵谈AI，软硬件结合一定跑得比美国人快：

清华大学中国经济思想与实践研究院院长李稻葵表示，相比其他国家，中国有巨大的工程师红利，产业配套能力非常强，同时还有非常多的应用场景。“美国发展人工智能的优势是从0到1，但短板是从1到100太慢了，搞应用的人才严重不足，产业配套能力太差。”李稻葵指出，从0到1证明人工智能的路走得通、能成功，在工程师红利、产业配套和应用场景的加持下，中国的优势是从1到100万。李稻葵还预测，未来AI会有大分流，“五年以后再谈AI发展，会比今天更热闹。”

支付宝程序员研发AI毛发自测工具

6月6日消息，根据国家卫健委此前公布的数据，我国超过2.5亿人有脱发困扰，平均每6人中就有1人脱发，且近些年来，脱发群体呈年轻化趋势。为了帮助应对“秃”如其来的脱发问题，今日，支付宝发布“AI毛发自测”工具，用户只需上传几张头皮照片，即可通过AI大模型能力识别脱发类型、级别并给出健康建议，上支付宝搜索“毛发检测”即可体验。

国际情报

Stability AI 发布用于生成声音和歌曲的开放式AI模型：

Stability AI 推出了 Stable Audio Open，它可以基于用户输入的提示词生成高质量音频样本，最长可创建 47 秒的音乐，适合鼓点、乐器旋律、环境音和拟声音效。该开源模型基于 DiT，在自动编码器的潜在空间中操作，提高了生成音频的质量和多样性。目前已开源，用户可在 HuggingFace 上试用，它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。

Suno新功能被Udio抢跑，上传任意音频Udio自动帮延长创作：

Udio发布了一系列更新，用户只需上传任意音频片段，Udio就会帮你解析旋律和和弦，创作出一首美妙的音乐。提供丰富的提示词汇和灵感来源，帮助用户扩展音乐想法和寻求创作灵感。目前该功能仅对付费用户开放。

能在后台对话！iOS 版 ChatGPT App更新带来多任务交互体验：

ChatGPT 官方 iOS 应用迎来重大更新（1.2024.150），用户开启后台对话功能后，可以启动与 ChatGPT 的语音对话，然后离开应用并继续交谈。即使用户在使用其他应用，也能继续与 ChatGPT 语音助手进行对话。目前尚不清楚这项后台运行功能会对设备性能或电池续航带来多大影响。

Google Labs 发布两个与编程相关的创新成果：

数据科学助手利用 AI 技术自动生成 Colab 笔记本，以处理各种数据科学任务，包括数据清洗、数据探索、绘图、数据问答和预测建模。用户只需点击 “Check it out” 按钮，即可让数据处理变得更加简单和高效。

代码转换是一个实验性模型，能够接受现有 Python 代码的上下文和文本提示，并生成代码差异。可以帮助开发者在编辑代码时更高效地进行修改和优化。

英特尔推出 AI Playground 应用，帮助 AI 新手快速入门：

英特尔AI工具 AI Playground，帮助新手快速入门。该软件预计将在今年夏天免费提供下载，但需要搭配英特尔 AI XMX 引擎，因此需要使用 Arc 锐炬独显或集成 Arc GPU 的英特尔酷睿 Ultra 处理器。AI Playground 可以像其他 Windows 应用程序一样安装，并且具备一体化 AI 中心，初期提供图片生成、基于提示的图像编辑功能以及“答案”（本地聊天 LLM）三种 AI 功能。

办公协作平台 Asana 推出“AI Teammates”功能，可帮助团队布置和计划任务：

Asana表示，其人工智能模型可以利用存储的团队历史关系和过去项目信息，将工作分配给技能最匹配的人员，例如标记了解品牌风格的设计师来从事创意项目。名为“AI Teammates”的功能可以帮助团队布置任务并确定每个人承担了哪些责任，提出建议和计划。

Adobe更新隐私条款，有权将用户作品用于训练AI：

Adobe最近更新了隐私条款，引发用户关注和担忧。用户担心设计作品失去隐私，可能被用于训练人工智能或内容审查，可能导致设计师与客户信任破裂，影响职业发展。引发个人隐私权和知识产权保护讨论。

马斯克的xAI据称拟在孟菲斯开发超级计算机，为Grok提供算力：

马斯克xAI计划在美国孟菲斯建设一个新工厂，以容纳一台巨型超级计算机，大孟菲斯商会主席透露，自3月初以来，马斯克和xAI一直在与田纳西州官员一起规划新工厂。此前马斯克称希望在2025年秋天之前让超级计算机运行起来，可能会与甲骨文合作开发这台大型计算机。

美国对AI巨头出手！微软、OpenAI 和英伟达被曝将面临反垄断调查：

美国联邦监管机构将对微软、OpenAI 和英伟达在人工智能领域的主导地位展开反垄断调查。其中，司法部将调查英伟达，联邦贸易委员会则将审查 OpenAI 和微软。

挖角 Inflection 员工再获其 AI 软件许可，微软被曝遭调查：

美国监管机构正在调查微软公司与AI初创公司 Inflection 达成的一项协议，以确定该协议是否规避了监管审查。今年 3 月，微软同意向 Inflection 支付 6.5 亿美元以获得其AI软件的许可，此前微软挖走了 Inflection 的大部分员工。这笔交易类似于“收购挖人”，但却没有实际收购行为，因此可能会引发监管问题。

自研才是王道，Siri 联合创始人称苹果与 OpenAI 合作只是权宜之计：

苹果公司正与 OpenAI 合作，将生成式人工智能功能引入 Siri，但 Siri 联合创始人称，苹果可能正在研发自己的聊天机器人技术。该AI聊天机器人代号为“Apple GPT”，并已内部使用一年以上。

Meta因使用个人数据训练AI模型收到欧盟11起投诉：

Meta Platforms收到11起投诉，原因是该公司拟议的更改将使其在未经同意的情况下使用个人数据来训练其人工智能模型，这可能违反了欧盟的隐私规则。隐私权倡导组织NOYB敦促国家隐私监管机构立即采取行动，停止这种用途，并表示Meta最近对隐私政策的修改（将于6月26日生效）将允许其将多年的个人帖子、私人图像或在线跟踪数据用于其人工智能技术。

AI明星产品

ProductHunt热榜，将文本变成视频的AI工具Fliki

Fliki 是一个 AI 视频生成平台，可将文本等内容快速转换成带有 AI 语音和视频剪辑的视频。它提供每月 5 分钟的免费体验，支持超过 75 种语言的文本到语音转换，拥有超过 1300 种真实的 AI 语音，还支持语音克隆功能。

🔗https://fliki.ai/

Huggingface热榜，AI 音频生成Stable Audio Open

Stable Audio Open 是一个专门为生成短音频样本、声音效果和音乐制作元素设计的开源模型。用户可以通过文本提示生成高达 47 秒的音频数据，包括鼓点、乐器曲线、环境声音和 Foley 录音等。这个模型不仅支持音频变体和风格转换，还允许用户对其进行微调，以适应自己的定制音频需求。

与商业版本的 Stable Audio 不同，Stable Audio Open 专注于音频样本的生成，而不是完整的音乐作品。模型使用了来自 FreeSound 和 Free Music Archive 的音频数据进行训练，确保尊重创作者的权利。Stability AI 鼓励声音设计师、音乐家、开发者和音频爱好者下载模型，探索其功能并提供反馈，以推动开放和负责任的 AI 音频生成技术的发展。

🔗https://stability.ai/news/introducing-stable-audio-open

开发者推荐

1.字节跳动Seed-TTS：高质量、多功能的语音生成

字节跳动推出了一款名为 Seed-TTS 的大规模自回归文本到语音模型。这款模型能够生成与人类语音几乎无法区分的高质量语音，在扬声器相似性和自然性方面表现出色。Seed-TTS 还支持情感控制和零样本语音转换，并通过强化学习提升了模型的性能。此外，Seed-TTS 还提供了一个基于全扩散架构的非自回归变体 —— Seed-TTSDiT，它在不依赖预估音素持续时间的情况下，通过端到端的处理进行语音生成，在语音编辑和跨语言内容创作方面效果显著。

🔗https://bytedancespeech.github.io/seedtts_tech_report/

2.Ouroboros3D：单图像到 3D 模型生成

Ouroboros3D 是一个将单张图片转化为高质量的 3D 模型。它通过 3D 感知的递归扩散过程，将多视图图像生成和 3D 重建结合在一起，从而在单图像到 3D 模型生成任务上表现出色。在多视图去噪过程中，Ouroboros3D 利用上一个时间步长由重建模块渲染的 3D 感知映射作为额外条件，实现了更为精准的多视图生成。实验结果显示，Ouroboros3D 在生成质量方面显著优于现有的分离训练或结合训练的方法。

🔗https://arxiv.org/abs/2406.03184

3.GECO：秒级 3D 生成

GECO是一种创新的 3D 生成方法，致力于在不到一秒钟的时间内将高质量图像转换为 3D 模型。GECO 采用两阶段训练流程：第一阶段通过得分蒸馏训练一个单步多视角生成模型，第二阶段进行蒸馏以解决视图一致性问题。实验结果表明，GECO 在 GSO 数据集和现场数据上的表现显著优于现有方法，在质量和效率之间取得了良好的平衡。该方法不仅能快速生成高质量的 3D 模型，还在处理不确定性方面表现出色，为快速高质量的 3D 生成开辟了新的可能性。

🔗https://cwchenwang.github.io/geco/

4.NPC-Playground：与 LLM 驱动的 NPC 互动的 3D 游乐场

NPC-Playground 是一个由 Cubzh 和 Gigax 联合开发的 3D 平台，用户可以在浏览器中与基于大型语言模型的NPC进行互动。这些智能 NPC 能够进行逼真的对话、执行复杂的动作，并根据玩家的指令作出反应，显著提升了游戏体验。

🔗https://huggingface.co/blog/npc-gigax-cubzh

今日热议

a16z 新调研文章 AI 如何改变营销和销售

a16z 的最新调研文章指出，AI在营销领域的发展可以分为三个阶段。首先是营销协同工具阶段，AI辅助营销人员快速创建内容。随着技术的进步，AI将更好地利用第一方、第二方和第三方数据来生成与品牌一致的资产。然后是营销代理阶段，人工智能完成从 A/B 测试到广告投放优化的全套任务，使营销策略更加精准和高效。最后是自动化营销团队阶段，AI代理将能够完全取代或补充营销团队的功能，从市场研究到绩效营销和品牌活动的全方位策略和执行都能胜任。

文章还提到，随着这些技术的发展，营销团队的角色将会转变，更多地专注于战略规划和目标设定，而执行性工作则由AI Agent来完成。此外，文章强调了人工智能在营销领域的财务影响，例如 McKinsey 报告指出，生成式人工智能在营销和销售领域可能会带来 3.3 万亿美元的全球年产值增长。从生成文本、图像和视频内容，到提供高度个性化的服务，再到自动化的营销团队，人工智能在营销领域的应用前景广阔，不仅能提高效率和效果，还能带来显著的财务效益和生产力提升。