Bendi新闻
>
AI刘强东007带货,背后大模型也就10亿参数,京东:我家数字人平均水平

AI刘强东007带货,背后大模型也就10亿参数,京东:我家数字人平均水平

8月前
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

京东创始人刘强东啊,他昨天又加班了。

准确来说,是他的AI数字人形象“采销东哥”,昨晚开启了自己生涯第四场直播。

这次东哥干的是图书采销工作。

与上两次直播不同,这一回直播间不仅有了数字人助理,还有多机位切换等展现方式。与此同时,和留言区及屏幕前观众的互动方式也有所增强。

量子位就此事询问了京东云言犀算法总监,得到答案是:

每一场想侧重表示的不一样。技术的手段比较丰富,很难一场里面都推出来。

不得不说,京东这回拿自家的京东云言犀数字人挤牙膏,还挺有自己的节奏(doge)

一周时间里,四场刘强东数字人连播,可谓出师大捷——

据公开的“战报”,其首秀不到1小时,直播间观看量超2000万,带货GMV超5000万。

难怪网上冲浪的时候,有人评价道,AI东哥真的是“数字人带货的天花板”了。

而且京东自己放话,这就是京东云言犀数字人的平均技术水平,且成本不到真人直播的1/10。

“自己的狗粮自己先吃”

刘强东AI数字人“采销东哥”上播第一天起,就有许多质疑。

质疑一,真的是数字人吗?真的不是让刘强东提前坐那儿,录好视频然后再播吗?

且看采销东哥的表现:

形象和真人刘强东几乎一毛一样,寸头、西装、左手腕带表,肉眼难辨真伪。

口音能较好贴合唇部动作,语速快、连音多,一般语句吐字较轻,一些重点会重音表强调,寻求认同时用“啊”来衔接;耳朵尖的朋友可能还能听出他的宿迁口音。

动作姿态不算僵硬,能有头部、手部的动态动作,且动起来后整个人也受光均匀。

但随着直播场数的增加,这种疑惑声渐渐下去了。

可能大家都觉得,是在没什么可能让刘强东忙中拨冗,每天坐在那儿提前录播吧。

质疑二,如果真的是数字人刘强东,那大伙儿看到的效果,会不会是面对自家一号位做的“特供版”?

换言之,其他公司如果同样想用京东云言犀数字人来做主播,是不是根本达不到这个效果?

就这个问题,京东云言犀负责人是站出来给了解释的:“刘总数字人技术,代表了我们现在的通用技术。”

大白话就是说,用了京东云言犀数字人,所有的大V/CEO主播都能有同样的这个效果,至少在120秒之内“惟妙惟肖”。

如果不信,可以亲自验证——前段时间京东618招商,给所有品牌商家免费开放了数字人基础版使用30天权益,都能用上。

京东云言犀负责人笑着表示,去年京东云就已经基于言犀大模型升级了数字人技术。

用句软件公司的梗,“Eat your own dog food”,自己的狗粮自己先吃,最开始团队内部先给京东云言犀负责人做了个AI数字人出来,但回头看和现在刘强东的数字人没法比。

2022年开始,京东云言犀数字人就已经开始商业化,目前有4000多家品牌使用。

去年双十一后,京东云言犀团队开始制作采销AI数字人,首先是在大时尚事业部测试,包括公众接受程度,停留时长,用户转换率,交互程度等。

团队心想,既然要追求刺激,那就把“Eat your own dog food”贯彻到底,干脆给公司老大也搞一个吧!

刘强东AI数字人“采销东哥”就这么诞生了。

10亿参数数字人大模型轻量上阵

采销东哥身后,是京东云言犀大模型团队,及其大模型做小后打造的10亿参数数字人大模型。

总的技术来看,言犀2年多前就选择了端到端的方式,即建模——驱动——渲染的一体化。以至于Sora出来后,团队惊喜发现端到端的技术方向是可取、可喜的。

不过,虽然和Sora是同一条路子,但最后应用的场景不太一样,言犀大模型数字人的赛道更聚焦,专注人物生成(原因是团队评估人物视频生成商业价值和社会影响力可能都更大)

而关于端到端的路线,这里展开说两句。

现在基本分为两大类,一类是完全端到端,中间不对任何环节进行显示的建模,完全是隐性的,都在一个空间里面做;另一类是对简单基本素材的人脸建3万多个点Mesh模型,再去控制人物的表情、唇型,然后做纹理的渲染。

京东云言犀说得很明白,2种方案会根据场景需求做不同使用。

京东云言犀负责人表示,其间比较得意的是人物大姿态的动作

“早期真人数字人,动作幅度比较小。基本上脸部不会怎么动,因为一旦头动了,可能就剩半个嘴唇了。”他透露,在大姿态方面做了较多技术投入,才有了现在AI刘强东的活动自如。

此外,身为主播,语音表达无疑也十分重要。

既要复现真人主播的语音、语调,又要学习真人说话的习惯,如语速、语调、重音、倒吸气。

就拿刘强东本人来说,他讲话很少有辅助词,也较少清晰读出连接词,如“跟着”的“着”字经常被一笔带过。

因为出生江苏宿迁,他的话语里还是会“露馅”,冒出宿迁口音来。比如“时间”中的“sh”会有更重的鼻音;后鼻音有时会被吞掉,变成前鼻音。

就,还挺有特色的。

原本呢,京东云言犀技术团队的计划是用刘强东2017年的一段演讲音频作学习素材,但测试发现,演讲时刘强东的语气太过正式了,和直播带货有点画风不搭。

团队无奈把刘强东“抓”到镜头前,录了30分钟的音视频,让他闲聊自己的经历什么的。

用这段音频为底提取出声学特征,就能通过已经被喂了5万小时语音数据训练的言犀语音大模型合成出人工语音。

不过据量子位了解,京东云言犀大模型团队的最新战绩,是使用6秒素材复现具体某个人的声音

团队成员还分享了其他一些关于AI数字人背后的事:

训练过程中,主赛道锚定人物向,因此不管是从数据的采集、清洗和各方面都做了精细化聚焦。

推理实现方面,除了模型代码压缩、量化等常规操作,还对INT4和INT8进行了精度调改。

团队下一步计划,是把语音、视频生成两块综合到一起。

当然,另一部分挑战是尝试用非常小样本或零样本学习的方式就能抓住真人本尊的特点,继而生成惟妙惟肖的数字人。

“采销东哥是京东数字人平均水平”

京东云言犀负责人表示,其实京东内部对数字人有一个分级。

第一级的数字人效果,可以做真人的补充工作,处于向真人看齐阶段。

第二级数字人可以媲美真人,真人不在,也可以承担重要场合、重要时间的主播工作。

并且播出后,会有人分不清主播是真是假——从这个角度来说,图灵测试应该算是通过了。

不过,虽然在形象、表情、语音、动作复刻尚佳,但是本尊的深度思想,大模型数字人还没有办法1:1同步。

到了第三阶段,本尊和数字人之间不是替代关系,更像是真人有了个数字分身,能够真正深度抓住本尊的思想、文化、知识背景、一些理念。

而且,京东自家直播间有一个120s战斗

简单说就是直播时,如果用户在120s之内都不觉得眼前的数字人让自己别扭,就会跨过恐怖谷效应,接受这个数字人,看他的展示、听他的解说。

而且看到120s,因为对主播产生了信任,往往很大概率会下单。

“目前来看,数字人直播带货有很大机会会成为一个大的爆点。”京东云言犀负责人解释道,“主要是内容层次达到了新的水准,大家的接受度和信任度已经过了关键点了。”

说回“采销东哥”,他现在几乎能很完美地被生成120s以上的形象,并且足以以假乱真。

也就是说,“采销东哥”现在处于京东数字人分级里的第二阶段,这也是京东云言犀数字人的平均水平。

团队还提到,其实目前AI大模型数字人大规模商用,技术已经不是难点了。

难点是什么呢?是主播个人的形象要跟整体调性相匹配,在选品、互动方面还需要下很多功夫。

One More Thing

聊着聊着,一个有趣的问题被抛出来。

问,未来在京东直播间,有没有可能诞生一个类似于董宇辉的AI数字人超级主播?

京东云言犀负责人和算法总监相视一笑,说:

(这件事)技术上是有可能的,但在伦理和感情上不一定能成立
比如很多丈母娘喜欢董宇辉,是因为这个人有很实在的特质,很文雅,有知识。
我不知道在伦理上到底之后会怎么解决……

— 联系作者 —

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

来源:量子位

相关新闻

刘强东AI数字人首播,30分钟观看破千万;雷军回应爽文人生:不是高考状元、没有40亿;特斯拉大裁员:员工对赔偿满意|AI周报AI刘强东带货,能给数字人带来商业化吗?刘强东AI数字人首场直播:观看量超2000万,成交超5000万刘强东AI数字人首场直播:不到1小时观看量超2000万,整场成交额超5000万!刘强东AI数字人首场直播成交额超5000万元;奥特曼:通用人工智能不该被秘密构建,GPT-6将成通用工具丨AIGC日报Meta发布Llama 3;山姆·阿尔特曼称GPT-6将成为通用工具;刘强东AI数字人开启直播|AIGC周观察第四十期观潮周报 | 华为Pura 70系列正式首销;刘强东AI数字人首场直播整场成交额超5000万保时捷中国总裁回应「米时捷」/华为 Pura 70 系列官宣/刘强东 AI 数字人今日直播AI搜索大乱斗第一题:为什么刘强东直播要用虚拟人?|AI横评微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”京东发行稳定币;AI服务器大厂豪气分红115.2亿;小米二期工厂附近挖出古墓?王化:假的|AI周报周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报中科曙光智能计算产品事业部胡晓东:大模型时代的AI全栈软件能力应用实践 | GenAICon 2024本科生县城平均月薪破5k;AI刘强东首秀15分钟观看人次破千万 | 金错刀日评“AI刘强东”直播首秀引热议:谁将无工可打?盒马将恢复会员开通及续费,华为P70现货到总代,AI刘强东直播成交额超五千万,芒果TV起诉屏蔽广告软件,这就是今天的其他大新闻!极越回应员工买小米SU7被辞退;AI刘强东直播观看量超1155万,可现场互动读留言;百川智能回应数亿美元融资传闻丨邦早报曝小扎写信“挖角”DeepMind;我国10亿级参数大模型超百个;Stability AI开源代码生成模型丨AIGC大事日报首个AI高考全卷评测结果发布:数学全不及格;严打虚拟主播?腾讯视频号拟限制数字人带货;马斯克:宁愿亲眼见证AI毁灭人类丨AI周报一周资讯|小红书内测跳转企业微信功能;抖音电商测试AI购物助手;京东开始使用短剧带货...傅盛的AI大课(4):企业专用大模型,百亿参数就够了56家出版机构抵制京东618大促;微软近50项AI功能上新;小米SU7智驾在高速两次失灵;月之暗面最新估值达30亿美元丨邦早报斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用京东宣布:涨薪30%;香港最大AI诈骗细节曝光:英国CFO被换脸,骗走公司2亿港币;斗鱼虎牙再传合并,最新回应丨雷峰早报
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。