Bendi新闻
>
英伟达投资的这家 AI 公司,要帮你做「未来的 PPT」

英伟达投资的这家 AI 公司,要帮你做「未来的 PPT」

6月前


我最喜欢就是那些你根本没听过,就像什么法国的混凝土公司,他们有 1500 人员工,完全不在乎 AI,只是想把工作做得更好。Synthesia 就是那个合适他们的工具。
Synthesia CEO Victor Riparbelli 在一次接受采访时说道。
他说描述的的确是不少 AI 创业公司想要的完美顾客 —— 有钱、有规模、有稳定需求,而他的公司 Synthesia 也真有不少这样的客户。
Synthesia 的愿景很好理解,就是要做出最「拟真」的生成式 AI 数字人(AI Avatar),但其商业化定位就有点「曲折」。
在成立后的前三年里,Synthesia 都在搭建配音对嘴型类 AI 工具,跟去年让泰勒·斯威夫特「讲中文」的 HeyGen 有点类似。
他们的产品挺不错,也带来了挺好的收益,但也让创始团队发现这很难做大,「我们就只能卡在做一家特效服务公司。很难想象能怎样创造更大影响力」。
Synthesia 意识到,他们要服务的不是那些视频内容创作者,而是完全没有任何条件和内部资源去做视频,但又有需要的企业。
到了现在,这家成立于 2017 年,获得英伟达投资的英国 AI 公司,去年 6 月估值已达到 10 亿美元,10 月已经拥有超过 5 万个企业用户,甚至连「财富 100」里的公司都有 47% 是它的付费企业用户。
近日,Synthesia 发布了新一代数字人技术 Expressive Avatars,主打可能生成相对更能表达情绪的数字人。

会做 PPT 就能做视频
当我打开 Synthesia 的视频编辑界面时,不禁感叹「这不就是 PPT 吗?」
这让我想起 Riparbelli 说过,他们的客户是那些「想做内容,但完全不知道要怎样起步去做的人。他们不知道怎样用摄影机,也没法获得内部预算支持」。
在这认知基础上,Synthesia 选择了打工人其中一个最熟悉(也憎恨)的软件 PPT 来做交互参考也真够贴心。
在一套模版下有很多不同情景「页」选择
左边每页都都代表一个场景,可以非常 PPT 地去修改场景中的文字、背景、配乐等设计,然后可以在内置的数字人库里选择合适的数字人角色(暂时只有两个数字人角色支持 Expressive Avatars 模式)和声音。
甚至,连视频的「台词」,也安排在一般 PPT 用来写备注的页面正下方,的确相当「直觉」。
如此同时,写下的台词也会成为视频的「时间轴」,用户可以直接插入演绎上的指令,譬如停顿、 用「标记(Marker)」增加动效,或者为特定单词指定发音(Diction)。
在正式生成影片前,用户可在软件中快速播放预览,快速过一次台词、背景音乐和其他视觉元素是否满意。为了保持足够高效,「数字演员」则会保持静止,只有在正式生成后才会「动起来」。
正式生成影片后,用户也还是可以随时编辑影片,重新生成,甚至也可以邀请伙伴加入一起编辑。
和前几代的数字人服务相比,Expressive Avatars 会在讲台词时同时「理解」台词蕴含的情绪,尝试以一种合适的情绪来「表演」。

我们生成的测试视频,数字人虽然表情多,但仍然可看出不自然
为了做到这个效果,Synthesia 实时生成中会涉及两种模型:1. 大语言模型帮助数字人理解脚本所意指的情绪;2. 深度扩散模型则负责根据理解生成影像。
不过,现在 Synthesia 的模型在理解该用什么情绪来表演上还是有限制。在 MIT Review 记者用它来朗读自己的文章时,数字人就以一种很欢快的方式演出了一句反讽评论。
Riparbelli 在线上沟通会上表示,公司在今年下半年还会推出另一个重要更新,将数字人生成推向更拟人的效果。
自发「严苛」,才能服务大公司
大公司愿意花钱,但也极度保守。
Synthesia 在交互上的简单直接,正好与其合规和审核机制的不断叠加相反。
Synthesia 的原则很「基本」 —— 在未获得明确同意前,不会生成任何人的数字化身 —— 这也是现在大部分网上 deepfake 做不到的。
训练数据方面,Synthesia 从 2020 年开始就聘请职业演员来创造高质量的人像数据,并创造了 225 个数字人角色供给用户选择。
为了训练出这代新的模型,Synthesia 去年请了大概 1000 名职业演员来提供数据。
之前,Synthesia 和演员的合作模式是该演员数字人角色每次被调用,前者都会向对应演员支付版权费用。现在,双方的合作改成了「限时一笔买卖」,单次支付费用来使用其肖像三年,三年后双方再商讨是否续约。
MIT Review 记者 Melissa Heikkilä 在 Synthesia 体验录制创造 AI 数字人
如果续约,Synthesia 会和演员重新签约,并录制新的数据,删除旧的;如果不续约,数据会直接被删除。
Synthesia 声称自己并不会出售这些数据,但表示会在一些学术研究项目上有部分展示。
对于更大的合作企业客户而言,Synthesia 也支持企业派人来订造专门的数字人角色。
大客户有独占服务,也得走更复杂的签约流程:和销售团队沟通,签好法规上的协议,进行安全审计 —— 以 Synthesia 的销售团队的话来说,类似于「银行业的流程」。
在生成内容上,Synthesia 也在构建一个越来越成熟的审核机制。
普通用户生成的内容只能是基于事实,而企业用户则可以生成包含有「意见」的内容。一切可疑或真假难辨的内容,都会直接被转到人工审核,而政治新闻类内容则一律不支持。
MIT Review 记者在测试文本时用到了政治新闻相关内容,结果被拒绝了
当然,生成后也都要走审核。其内部审核人员从最开始的 3 人已经增加到 30 人,占了整个团队人数 10%。此外,公司也专门聘请了一位工程师搭建基于 AI 的审核系统。
创始人 Riparbelli 开玩笑说,如果能放开这些审核机制那就是非常强有力的「增长策略」:
我们觉得,将这些技术推向社会最好的方式还是一开始「过度严格」点。
所幸在于,对于企业而言,这种限制带来的麻烦也不会太多。
现在,大部分企业用户都是用 Synthesia 的数字人来做内部培训视频,或者是市场营销介绍视频,「敏感信息」没那么刚需。
这些企业在寻找的,是在为未来和年轻员工和消费者沟通的方式。鉴于现在年轻人都习惯了从视频获取信息,所以到未来,「无聊」的入职说明、培训文档、年终汇报都可以采用数字人视频演绎的形式:
我们现在所做的更像是 PPT,而不是好莱坞的活。



微信扫码关注该文公众号作者

来源:APPSO

相关新闻

16家AI公司获融资;英伟达「年更」AI芯片;科大讯飞谈星火API免费:基本能力免费,其他企业做不了的收费丨AI情报局75亿元!今年自动驾驶领域最大融资来了:90后剑桥博士带队,微软、英伟达为其站台,这家英国 AI 独角兽被首相视为“全村的希望”75亿元!今年自动驾驶领域最大融资来了:90后剑桥博士带队,微软、英伟达为其站台,这家英国AI独角兽被首相视为“全村的希望”获大厂2000万美元投资,这家要研发的“空间生存游戏”长啥样?前谷歌CEO:AI崛起得靠“卷”和“抄”?朱啸虎三次投资的AI公司,引前员工围攻声讨;中国已有近8万家AI公司消失! | Q资讯英伟达已成大模型行业的“苹果”,无问芯穹要做一种更兼容的“安卓”堪比印钞机!AI总龙头业绩暴增六倍!黄仁勋:“下一场工业革命已开始”;连续20CM涨停!A股这家公司的天花板在哪里?“反英伟达联盟”背后,是AI的第三场战争这家对标英伟达的国产芯片公司,官宣退市创业内幕|PPIO派欧云姚欣:闲置算力也能被共享?这家公司想做云计算版的“滴滴”英伟达的新客户:AI“国家队”最新官宣!新西兰这5种钱,将发生重大变化!你手里的将成为“古董”!未来这款纽币可能也会换?!许多人都不知道……最近一年股市最火的AI“宠儿”是它,不是英伟达AI股不必只盯着微软、英伟达,这5间公司的业绩也有望大爆炸!“上市公司不是谁家的祖产!”这家公司前董事长欲罢免3名现董事,公司回应:企业家族传承是很自然的事情李沐创业这一年:张一鸣宿华给建议,黄仁勋帮忙搞卡,逃离地狱模式后要做“人类陪伴的智能体”从 AI 高管到犀利 CEO,贾扬清创业这一年:我们的目标是做AI时代的“第一朵云”从AI高管到犀利CEO,贾扬清创业这一年:我们的目标是做AI时代的“第一朵云”开源日报 | 构建一个类似英伟达CUDA的开源生态;“AI程序员”大杀四方,人类程序员开始反击;Podman 5.0发布​红杉中国投的这家美国公司,让蔚来ET9“翩翩起舞”华人注意!手上有这家银行账户的客户 支票账户要收“服务费”焦虑时炫的热量炸弹,可能会让你更焦虑;我国科学家发现“无摩擦的冰” | 环球科学要闻多地推出首付“极限优惠”,警惕这一风险;你期待苹果的AI手机吗?投资英伟达的人已经辞职躺平了!普通人如何投资AI独角兽公司?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。