对话阿里云何亚明:多媒体的未来,正迎面未知的高速列车
抓住已知的,迎面未知的。
Cloud
Imagine
编者按:大模型、降本、出海,是多媒体从业者交流的高频词,内容与交互的需求层出不穷,大模型与AI的演进目不暇接,让增速低走的视频云迎面新的机遇和挑战。作为一个跨越中美多媒体行业20年的亲历者(阿里云视频云负责人何亚明),与他的对话展现出一番场景,他没有否认多媒体生态当下的问题,但他说新的机会就在眼前,更重要的是,他对多媒体满怀希望。
策划 撰写 / LiveVideoStack、IMMENSE
以下是何亚明的对话实录:
二十年,
一场多媒体的缘分与螺旋
Q1
LiveVideoStack:我记得应该是2018年,亚明老师回国。我印象特别深刻。我接到了一封邮件,然后我一看,这个人好厉害:之前在Facebook、微软,目前在阿里巴巴,我当时在想,我们有这么大吸引力吗?当时特别欣喜,后来顺理成章地邀请亚明过来做2018 年LiveVideoStackCon北京的分享,后续也有陆陆续续的交流,现在想起来还有点梦幻。
我想从两个视角提问。
首先是全球的视角,你的(工作)经历基本上在流媒体这个圈子里,差不多20多年了,是行业的前辈。第二,从国内的视角看,你回国这几年正好赶上流媒体爆发式的增长,从千播大战、教育、社交、游戏等,包括疫情所带来的远程办公需求的暴增,但现在(生态)又进入到一个调整阶段,国内互联网的流量在下降,用户在逐步回归到混合或传统的线下交流,同时大环境又受到整个经济周期的影响。如果将这两个视角结合在一起,你怎么来回顾总结自己20多年与流媒体相爱相伴,简单地说说你的感受。
第三波是RTC时代。不管是Facebook的Messenger、Zoom、微信还是钉钉,特别是疫情以后,第三波RTC爆发把延迟从5到10秒降低到百毫秒级别,这也是我们过去经历的关键阶段。
从微软到Meta,
视频技术是创新必备的基础力
Q2
LiveVideoStack:你横跨中美,经历了20多年的行业发展,如果对比国外与国内多媒体生态,你有什么不同的感受?
可能你听说了微软把Azure media service“退役”了,Azure media service提供包括转码等各种基础多媒体能力,微软认为这是非常成熟的技术,很多供应商都可以来做。但微软并没有裁掉任何一个人,团队全体进入到Windows Copilot,让 Copilot与多媒体更好地结合。虽然(团队)仍然做多媒体的老本行,但是要面临Copilot AI这个新命题,这个是微软的例子。
我也和很多Meta的同事聊,他们也经历了非常多的变化,从All in元宇宙遇到各种挫折,但所有从事流媒体的人都还在,他们把媒体当作一项基本的能力,(鼓励)大家去做创新的小项目,比如带两个摄像头的手表,听起来挺无厘头的,但在不断地尝试(流媒体)跟硬件、AI结合,把视频技术用到各个小的创新点上,这个趋势跟国内的确不太一样。
Q3
LiveVideoStack:最近有本关于FFmpeg的新书,也许未来讲流媒体底层的书可能会越来越少,可能会出现“如何用Copilot做流媒体开发”,甚至通过自然语言,就可以做转码服务,推流,流媒体技术会更大众化。
AI的决策提效,
大模型的交互变革
Q4
LiveVideoStack:谈到人工智能大模型, 流媒体经过了一个快速发展期,现在进入到相对饱和的阶段。如果从信息论的角度看,视频编码我们已经接近信道理论的极限了,可能还有1%-2%需要突破,但遗留下来的问题,相对于我们的付出,回报已经很有限了。相较之下,大模型所带来的增益非常明显,甚至在某些场景下的编码效率已经超过了传统的编码框架,从业者们应该以什么样的心态来看待这个行业?
这里面有两个视角,一个是相对狭隘的视角,还在做流媒体技术栈的这些人该怎么办?还有更广义的视角,流媒体可以包容任何技术栈,无论是人工智能还是GPT,都可以为我所用,我们虽然做的是流媒体,但不会拘泥于自身的技术栈。从这个角度来看,是不是流媒体未来还有非常大的空间,你怎么看?
回到狭义的多媒体技术,我觉得视频从业者需要有更多的改变,因为我们经过这么多年的努力(开源、标准化),现在视频的使用门槛已经变得非常低了,所以要主动去拥抱这波AIGC。
多媒体与AI互渗式发展,
视频云尝到了甜头
Q5
LiveVideoStack:大模型结合流媒体的小模型,或者细分场景,你和你的团队最近在做哪些探索?有没有一些工程的落地?帮助客户在效率上有比较大的提升?
何亚明:对,实际上刚才讲的AI跟流媒体的结合很早就有了,以前我们有各种各样的算法,包括窄带高清视频增强的算法,超高清、插帧、超分和抠图等等。过去几年AI跟视频的结合一直在演进,但是这波AIGC的确是让我们看到了一些新机会。比如突破了一些技术瓶颈,比如利用大模型抠图的效果(比传统方式)会好很多,通过SAM、CLIP做视频的理解比以前传统的打标签精度和准确度会提高很多。
Q6
LiveVideoStack:有没有一些业务单点上可以看到比较明显的收益了?
何亚明:在2023年的云栖大会上我们展示了一些案例,其中一个,是在云导播台上利用大模型抠图,能够在多人复杂场景下实时抠图,现在已经落地到产品里了。广电传媒与电视台的很多的同事看了以后觉得非常好。以前大家都觉得广电传媒有自己专业的工具效果更好,同时担心数据安全问题不愿意上云,云导播台的实时抠图确实打开了一个突破口。
Q7
LiveVideoStack:数字人应用比较主流的场景是什么?电商直播带货、游戏、社交陪聊?
AI时代,
翻新视频云的每一环技术
Q8
LiveVideoStack:刚刚也提到,大模型带来的是交互方式的变革,也会降低流媒体从技术到应用的门槛。你们正在为未来做哪些准备?
悲观者是对的,
但乐观者会成功
Q9
LiveVideoStack:国内已经进入到存量市场,内卷严重。在去年结束的LiveVideoStack深圳大会上,约1/3的话题都和降本有关。很多企业也在出海寻找机会,你认为行业什么时候能够回暖?
阿里云视频云去年也做了大量的降本工作,包括降低直播带宽成本、服务器成本,刚刚也讲了端智能,CPU与GPU混合计算等。另外在业务侧,我们也通过技术让直播的架构从传统的三层到灵活的一层或两层,包括对冷流优化等进一步降本。
国内竞争环境还是比较激烈的,更多追求的还是眼前,国外的环境更能看到未来的很多东西,所以诚恳地讲,在中国做视频行业是比较难的。但还是希望商业环境能够越来越好,可能美国也经历过很粗暴的原始积累,但如今它的多媒体行业是有比较清晰的界限的,做CDN的、做流媒体的,大家都有自己focus的方向,行业规则也比较成熟、标准化。我相信中国各个互联网厂商未来一定会意识到,建立行业的一些标准来共同发展。
回到你的问题,关于多媒体行业的回暖爆发时间,我很难预测,但我感觉会很快。有时候科技的发展就像一辆高速驶来的列车,你远远地看着,疑惑怎么还不到?但当它真的从你旁边经过时,可能一不小心就过去了。现在不像以往可以很safe地说3到5年的发展,已经很难知道下一代技术爆发什么时候到来,也许就是2024。
Q10
LiveVideoStack:最后一个问题,国内非常卷。大量的企业包括个人都想去海外,或者已经在做出海的事情了。你怎么看出海?阿里云视频云出海面临怎么样的局面?
在音视频的技术领域,中国和美国是走在前列的,出海也能够把我们的技术输出,帮助当地把他想要的应用快速孵化出来。我觉得这是一个双赢的局面。我希望(多媒体企业出海)能像电动车那样,到海外有真正的定价权,因为我们拥有处于领导地位的质量和技术。这是一个长期的赛道,我们的行业需要更多的协同和规范,从纯粹的竞争到取得行业的共识,甚至形成真正的联盟,这需要大家共同去努力的。
微信扫码关注该文公众号作者