视频生成界的大瓜:Runway 组织公司全员,把互联网扒了个干干净净
本文经授权转载自公众号「Founder Park」
Runway 在 6 月发布了 Gen-3 视频生成模型,效果震撼整个视频生成领域。
随后 7 月 Runway 又被曝出正在进行新一轮融资,估值 40 亿美元,预计融资 4.5 亿美元。
这家毫无疑问的视频生成赛道头部创业公司,刚刚被曝出一份内部文件。
一个简单的 Excel 表格,巨详细地罗列着 Runway 动员全公司上下在互联网上收集的高质量视频资源,累积条目数万条。
其中 YouTube 上的视频占据了一大部分,光是「推荐油管频道」就有 3968 个。还有 14 个在线影视资源网站(就是常见的 Watch Movie/Anime Online for FREEEEE!!! 那种盗版网站)。
油管母公司 Google,是 Runway 上一轮融资的投资方,但显然收集 YouTube 视频数据的工作由 Runway 独立完成。除了油管以外,它还收集了迪士尼、Netflix、索尼等超级版权公司的视频内容。
爆料媒体用 Gen-3 测试了相关 prompt,非常匹配表格里的数据,细节到直接去生成油管主播各自风格的视频。且相关 prompt 仅在 Gen-3 上能生成匹配的效果,Gen-2 不行。
以下内容来自爆料媒体 404media(以下简称 4m),经 Founder Park 编辑整理。
油管高质量视频全扒下来了,为了怕被封还买代理下载
据 Runway 前员工向 4m 的爆料,Runway 公司里几乎是全员都会在这个表格里录入数据,用来训练他们自家的模型。表格里搜集的油管视频,他们是用开源软件 YouTube-DL 下载的,为了防止被 Youtube 封禁,Runway 还找供应商买了专门的代理,用这些代理 IP 地址来下载视频。
可以说准备工作做的很足了。
泄露的文件包含 14 个电子表格。其中一个表格里有一百多个视频关键词,比如「海滩」、「医生」、「雨」等等,每个关键词旁边写着负责搜索相关内容的 Runway 员工的名字。
泄露文件截图(右侧为翻译后内容)
爆料人说,这些人要么是被派去找视频的员工,要么是员工自己标记的他们正在处理的关键词。在「彩虹」这个词和员工名字旁边,有人写了一条备注:「没有专门的频道或播放列表,但找到了适合微调(finetuning)的好视频。」
文件中的注释显示,Runway 正在寻找特定主题、摄影风格和多样化人群的视频。「高相机运动」表格包含了 177 个 YouTube 频道的链接,包括《使命召唤》的官方频道、电影制作人 Josh Neuman 的频道、虚幻引擎和 Vans 的频道。
一个名为「电影杰作」的电子表格列出了 206 个链接,是一些高质量的油管频道和视频,包括动画短片和学生电影。在这个表格中,DEFY Studio YouTube 频道的链接旁边有一条注释写着「迄今为止汽车电影的牛逼作品都在这儿了」。
「单个优秀视频(用于微调)」是另外 253 个视频的集合,旁边还有一列主题,比如「修眉」、「冰雕」、「微笑」和「尖叫」。
盗版资源网站也没能幸免
可能也正因此,很多电影在线网站,尤其是知名的盗版电影网站也是 Runway 重点收集数据的来源。
一个名叫「非 YouTube 来源」的表格包含 14 个网站链接,其中包括经常被投诉的盗版动画网站 kisscartoon.sh,在专门记录互联网上内容删除请求的 Lumen 数据库里,有上千个针对这个网站的版权投诉。
「非 YouTube 来源」表中还包含一个宫崎骏电影档案链接、几个动漫盗版网站、一个 XBox 游戏剪辑的粉丝网站,以及一个现在已下线的名为 AZiMovies 的盗版电影网站,Runway 的某位员工在上面注释:「这里面有很多好内容。」
文件里还有一个包含 17112 个词的列表,包括「手工洗车」、「拳击」、「打破彩罐」、「扭脖子」、「乱穿马路」等几十个词。每个词都对应着一些相关的 YouTube 热搜,比如「如何正确洗车」、「如果你被抓到乱穿马路会发生什么」和「自己扭脖子的危险」。
还有一个「推荐频道」的列表里,里面包含 3967 个 YouTube 频道的链接,其中很多是大品牌和大媒体的频道,比如皮克斯、Glamour、CBS 纽约、蒙特雷湾水族馆、AMC 影院,还有多个官方迪士尼频道,比如迪士尼 XD 和迪士尼 Plus。
Prompt 里带上博主名字,几乎可以生成原视频
目前还不确定是不是表格里统计的每个视频都喂给了大模型,但 4m 用表格里的关键词在 Gen-3 里测试了下,发现其中很多生成的视频都跟表格里的视频特别像。
真人视频方面,虽然生成的视频没法完美复制,但用表格里出现的知名油管博主进行测试时,生成的视频跟真人很接近。
比如,关键词里如果带上「Mark Wiens」,这是油管一个超千万人关注的美食博主,生成的视频里的确会有一个小伙子在自拍吃东西的画面,这跟他本人发的很多视频都很像。
PROMPT (GEN-3 ALPHA): 「MARK WIENS」
但是如果用 Gen-2 试验相同的 Prompt,生成的视频就跟这位博主没什么关系了,生成了一个穿西装的大众脸。
PROMPT (GEN-2): "MARK WIENS"
巧的是,4m 联系 Runway 询问这件事之后,Gen-3 就不能再生成包含 Mark Wiens 和其他几位 YouTuber 名字的视频了。
换一个 Prompt,油管博主 Jon Olsson 在他的 Vlog 1054 里的形象。Gen-3 生成了一个穿滑雪夹克带滑雪帽的白人男性,和作者在视频中的穿着非常像。
原版 Vlog 截图,这位博主戴着蓝色头盔在雪里翻了个跟头。
PROMPT(GEN-3 ALPHA):「油管博主 Jon Olsson 在他的 VLOG 1054 里的形象」
Prompt:一段 DEFY Productions 风格的赛车视频
Gen-3 生成的视频中,赛车尾巴上有「DEFY」字样,跟 @DEFYstudio Logo 的字体很像。
如果输入一个这样的 prompt:以油管博主 Benjamin Hardman 的旅行视频风格呈现。Gen-3 生成了一个看起来像是无人机拍摄的视频,镜头跟随远处的一位看起来很像 Hardman 的男人,在悬崖边徒步,和油管原视频相差无几。
博主本人喜欢捧着摄影机去极地拍冰川,视频的风格是这样的:
生成的视频长这样:
PROMPT (GEN-3 ALPHA): 「以油管博主 Benjamin Hardman 的旅行视频风格呈现」
PROMPT (GEN-3 ALPHA): "BENJAMIN HARDMAN"
OpenAI、Anthropic、Nvidia 都在偷偷用油管视频训模型
同样是 4 月,《纽约时报》报道 OpenAI 和 Google 通过转录 YouTube 视频来训练他们的模型,连 Google 自己都没能忍住……不过也有可能他们的用户协议里允许了。
7月份,Proof News 爆了一份大料,包括 Anthropic、Nvidia、苹果和 Salesforce 在内的公司,都在偷偷使用了超过 48000 个频道的 YouTube 视频和字幕文件。
这个数据集也很丰富,从学习视频到脱口秀,可以说是应有尽有。
虽然媒体都这么报道了,但 OpenAI 官方还没承认,CTO Mira Murati 最近在接受《华尔街日报》采访时是这么说的,她不知道 Sora 的训练数据是否包括来自 YouTube、Instagram 和 Facebook 的视频。OpenAI 用的是公开可用的数据和授权数据。
油管对此很生气。
YouTube CEO Neal Mohan 对彭博表示,这种做法是不允许的:「从创作者的角度来看,创作者把他们的劳动成果上传到我们的平台时,他们是有预期的,服务条款最起码不能违反。我们不允许转录或下载视频片段,这些是我们平台上内容的规则。」
「我希望这些爆料,能让大家知道有多少科技公司背地里在干这个事,以及他们所谓的为了生成那些看起来很厉害的视频都做了什么『努力』。」
感谢 4m 和这名勇敢的爆料者。
https://www.proofnews.org/apple-nvidia-anthropic-used-thousands-of-swiped-youtube-videos-to-train-ai/
微信扫码关注该文公众号作者