作者丨张凯然
来源丨midjourney
仅在2024年3月一个月,就有三个华人创立的AI视频生成创企获得了融资,而且融资额都过了千万美金。
3月7日,总部位于英国伦敦的Haiper宣布产品上线,并已经完成1380万美金融资。Haiper由两位曾供职于Google旗下DeepMind团队的华人工程师建立,提供免费的视频生成功能,最长可以生成2秒的高清视频,和最长4秒的标清视频。
3月13日,由前字节跳动视觉技术负责人创立的爱诗科技,完成一亿元人民币(约合1380万美金)左右的A1轮融资,而其视频生成产品Pixverse已在海外上线,生成视频的时长为4秒,2月份的网站流量已经达到120万。
3月24日,据The Information报道,去年下半年,凭借让霉霉说中文视频火起来的AI数字人产品HeyGen正在进行一轮6000万美元的融资,由曾经投资过Uber和Snap的知名VC Benchmark领投,完成此次融资后,HeyGen的总估值将达到4.4亿美元。
再加上之前估值已达2-3亿美金的Pika Labs。由华人建立的创企们纷纷入局AI视频赛道。
而其实,“AI视频融资热潮里华人密度尤其大”这个命题可以拆开去看,一个是AI视频的融资热,另一个是创业者里面的华人密度。
AI这一波的创业潮,给已经有点冷清的市场注入了活力。但一圈看下来,除了大模型驱动的Chatbot,基本上就没有新的产品形态了,AI只是在“赋能”各个领域,文字、图片、视频。a16z Top50 AI产品中的视频生成(蓝)和视频编辑产品(红)
而在上述几个领域中,AI视频生成产品的用户接受度最低。在a16z刚刚发布的2023下半年Top50 AI产品榜单中,上榜的5款AI 视频产品中,只有runway一款是以视频生成为核心功能的,其他都是刚需属性更强的视频编辑产品。而就算runway也在2023年12月网站流量达到峰值后,出现了明显下滑。这说明AI生成视频没市场吗,显然不是。按照赋能逻辑,AI在某个领域落地,其潜在机会和规模,应该参考其服务的赛道。显然,视频的市场规模不小,简单粗暴点,就互联网头部的产品来看,视频产品,也比图片和文字产品“值钱”。而当前这种流量的下滑,是因为产品确实拉胯。截至 2023 年年底的 AI 视频生成产品 图片来源:a16z根据a16z的统计,绝大多数产品都只能生成5秒钟以内的视频,而像Kaiber和Deforum虽然可以生成十几秒的视频,但只限于动画风格。Runway、Pika、Pixverse的对比视频 视频来源:微博而虽然,像Runway、Pika和后续切入市场的Pixverse生成的视频看上去很真实,也很酷炫。但是短短几秒钟时间+简单的镜头移动,对于绝大多数用户来说,除了体验一下之外,很难有使用场景。即便和一些创作者交流下来,他们也很难把这些AI产品融入工作流里面。在新鲜感过去后,访问量下滑也属合理。就网上的信息和与AI视频产品创始人的对话内容来看,大家普遍认为,目前的AI视频生成大概在GPT-2时代,也就是说,有一定技术突破,但是视频生成的时长和质量,还没有到能够落地应用和商业化的程度。市面上几款常见模型的推理运算量估算,注:横坐标是输出内容的量,纵坐标是所需运算量,采用对数形式作图 图片来源:知乎没落地,更别提商业化了,但硬币的另一面,“烧钱”却是实打实的。从成本来看,Sora的算力需求就比GPT-4高出了好几个数量级。有网友根据Sora的公开数据做出了保守估算,训练Sora需要1.4万张NVIDIA H100 GPU运行一个月,光这些芯片的价值就高达4.4亿美金......其他产品虽然可能不像Sora一样走“大力出奇迹”的路径,但是算力成本远超其他类别AI模型是肯定的。即便如此,赚不了钱、又烧钱的AI视频赛道仍受到了资本们的特别关注,2024年仅过了3个多月就有多达 7 款产品获得融资,总融资额达到2.18亿美金。背后的原因,也刚好如上所述。有市场、但供给都不太行,有心气的VC们还是愿意搏一把的,而3月份资本的密集出手,还多亏于Sora这样头部产品带来的“清晰信号”。具体来看的话,有市场,不只是上面说的AI落地到的视频赛道规模更大,还有AI视频模型更接近于AGI的一层逻辑。而很多从业者认为,AGI如果真正实现,则很多细分领域的应用层机会就消失了,也就是谁先做出来,可能会形成比较强的流量聚集效应,从风险投资的角度,资本肯定愿意搏一下,也就出现了AI视频融资热。视频生成任务流程示意图,注:AI在生成视频的过程中,一是要生成视频画面,这涉及 AI 视觉领域;二是需要理解并遵守 Prompt,这涉及自然语言处理;三是要保持视频的一致性、连贯性、合理性,这要求 AI 理解视频中的元素如何随时间变化及现实世界的物理规律,这考验 AI 综合学习及理解能力。此外,目前 Pika、Sora 等产品已经可以加入了声音生成的功能,AI 还需要保证画面、音频和文本描述的协调性。图片由 ChatGPT 生成而这个热潮出现在3月份,则是因为技术路径相较于之前清晰了不少。2024 年 AI 视频生成产品融资情况 数据来源:AI产品榜(aicpb.com),红色为创始人为华人的AI视频产品AI这一波的融资,其实集中出现在3月前后,这与Sora这样通过摸索技术路径、实现了远高于之前同类产品的惊艳效果强关联。根据对前谷歌VideoPoet项目负责人蒋路的一篇采访,AI 视频生成有两个主要的技术路径Diffusion和Transformer,前者是AI生图的主要技术路径,而后者则是GPT等大语言模型(LLM)的主要技术路径。在Sora出现前,在视频生成赛道中,两者被认为是泾渭分明的两条路径。90%的研究者都在进行Diffusion路径的研究,但也有少量的研究者在做Transformer路径的研究,但基本上逃不出这两个方向。而Sora的出现则让技术路线基本确定。Sora是Diffusion-Transformer模型,等于把上述两种技术路径整合起来了。其中Diffusion的作用是细化和完善视频画面,而Transformer则用来处理和解析复杂的文本输入,并控制视频的逻辑连贯性。通过这种技术架构,Sora可以按图像帧的时间序列来处理视频画面,就像ChatGPT按文字逻辑顺序处理文本一样。有创业者说,看过Sora的论文后发现,原来泾渭分明的两种路线完成了交汇。而Pixverse的创始人王长虎则说:“Sora让我们坚定了前进的方向。”由于AI视频赛道目前的技术路径已经日趋清晰,免去了选错技术路径带来满盘皆输的风险。VC虽然考虑收益,但更关注风险。AI视频产品华人创业者的履历 信息来源:谷歌、领英看几位创始人的履历,在创业之前就专注于AI或视觉相关技术,都有海外名校学习或国际化大厂供职的经验,拥有开阔的国际视野。除了这两项“基础素质”,作为华人的他们对视频赛道,也有着自己的理解。在上一波互联网创业大潮中,视频,尤其是短视频赛道,是中国互联网企业优势所在,TikTok已经成长为全球主流媒体之一,引得Google、Meta等社交巨头们竞相模仿。随着短视频占据了人们越来越多的注意力,互联网变现的2个印钞机也随之转动,广告和电商。根据2023年的数据,字节的广告收入折合553亿美元,排在国内主要互联网企业的第一位,总营收1200亿美元,排名第三。而在电商方面,2023年抖音电商的GMV在2.3万亿人民币左右(折合3220亿美元),在国内大概排在第四,海外的TikTok Shop有200亿美元。作为华人,对于此要更敏感一些。纵观几款三月份获得融资的几款华人AI视频产品,虽然发展阶段不太相同,但是都针对短视频相关的广告营销和电商生态进行了探索。Haiper与京东合作的海报,合作宣布时间 图片来源:Haiper
Haiper的产品于3月7日上线,而在产品还未正式上线时,Haiper就开始了应用场景的探索。首先,在1月24日,Haiper宣布与伦敦艺术大学时装学院展开合作,用AI的能力将时装草图转化为动态视频,在成衣制成之前预览上身效果。而在2月9日Haiper 宣布和京东展开合作,探索电商方向的应用场景。作为一款新生产品,Haiper已经在为技术找应用场景了。而对视频、尤其是短视频商业化路径更清晰的认知,让AI视频赛道华人创业者们的发展路径看起来更接地气。HeyGen 0-100W ARR数据和主要成就 图片来源:HeyGenHeyGen在众多“形而上学”的视频模型创业公司里面,商业化能力是非常强的。收入数据来看,从2022年7月底上线算起,ARR从0到100万美金,仅用时178天,而最近一次融资放出的消息,HeyGen 2024年2月的预期ARR已经达到2000万美元了。回头去看,HeyGen除了迭代技术之外,在场景上的探索也非常积极和接地气。HeyGen生成的AI演讲者 图片来源:HeyGenHeyGen的主要功能是AI数字人生成和视频翻译,服务的是AI演讲视频场景。在上线之前,HeyGen首先在线上协作平台 Fiverr 上提供演讲者视频制作服务来验证市场需求,在这个平台上,HeyGen提供的数字人演讲服务比真人服务价格降低了90%,交付时间从1天缩短为了10分钟。通过这样的方式,HeyGen找到了为服务买单的群体,电商卖家和内容创作者那样的小B用户。YouTuber小薇Official channel教电商卖家如何使用HeyGen的视频 图片来源:GoogleHeyGen SaaS服务的合作伙伴 图片来源:SaaS genius而后,HeyGen应该是想进一步去探索场景,锚定在企业宣传、内部管理和培训等能够用到AI视频的地方,来获取大客户。在2022年底,HeyGen开始建立大客户团队,根据官网显示,Salesforce、amazon、NVIDIA现都与HeyGen达成了合作。在验证需求并有小范围内传播后,而后才有我们看到的HeyGen在社媒上曝光(“让霉霉说中文”),进一步再引发媒体曝光,打响知名度。HeyGen产品介绍视频的案例 视频来源:HeyGen官网在发展的过程中,HeyGen将各项技术(Avatar、声音、视频翻译)设计成一个个模块,然后组合应用到不同场景里,而场景的探索也偏多样化,例如一些个性化的外联视频、教育类会用到比较多的相关视频、商品展示和宣传视频等等。“URL to UGC”功能海报(左),笔者生成的产品推广视频截图(右) 图片来源:X,HeyGen但从第一开始的市场验证到后期的场景探索,电商和推广也都被作为重点探索领域。例如,HeyGen在4月17日推出了基于商品页面生成商品介绍视频的功能。用户只需上传一个商品或App的网站链接,HeyGen就可以基于页面上的文字和图片,自行生成幻灯片和对应的视频脚本,在用户确认后,生成产品介绍视频,进一步简化工作流程。HeyGen订阅页面,注:免费版 HeyGen只能生成 1 个视频,基本无法满足使用需求你还知道,华人创业者们在哪些AI相关赛道更活跃吗?欢迎大家在评论区和我们互动,我们也会视情况继续发布相关选题。参考文献:
1、a16z 干货:Sora 统治之下,AI 生成视频还有哪些机会?
2、采访 VideoPoet 作者:视频模型技术会收敛,LLM 将取代 diffusion 带来真正的视觉智能
3、GenAI 这一波,华人创业者能出一些厉害的人物
4、深入剖析 Sora 原理:细节解读与技术洞见
5、AI生成视频比 ChatGPT 难在哪
6、为什么说 Sora 是世界的模拟器?
7、Sora 很强大,但也不必过度神话
8、用 AI 文生视频,到底有多难?
9、AI 到底如何生成视频?Sora 究竟为何能引爆科技圈?
10、OpenAI Sora:“原始版”世界模拟器,我们离黑客帝国还有多远?
11、Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024
12、The Top100 GenAI Consumer App
13、Sora 究竟有多烧钱?Sora 的推理与训练的计算成本被扒出来了
14、创业没被朱啸虎劝退,前字节 AI 老将王长虎“闯关”中国视频大模型
15、TikTok 电商大盘三位数增长,为什么赚钱的不是我?
16、7 个月 ARR 从 0 到 100 万刀,HeyGen 是怎么火起来的?