Bendi新闻
>
2D头像生成3D虚拟人开视频会,谷歌新作让人难绷
2D头像生成3D虚拟人开视频会,谷歌新作让人难绷
5月前
未来人与人的交流,难道是这个样?
ChatDirector 通过空间化视频头像、虚拟环境和自动布局转换,构建了一个拟真的虚拟环境。
DC1、通过空间感知可视化增强虚拟会议环境。处于同一个空间对于改善视频会议体验来说至关重要。好用的系统应采用典型的面对面会议形式,将与会者安排在指定座位的桌子周围,构建切实的共同存在感和空间定位感。 DC2、不能简单复制现实会议,而需要提供语音驱动的协助。鉴于小组对话中发言人频繁更换、话题快速转换,系统应提供额外的数字功能,让参与者跟进对话流程并积极参与会议。 DC3、重现面对面互动的视觉效果。在开虚拟会议时,参与者通常在电脑前保持静止。系统应增强他们在屏幕上的动作,以模仿头部转动和眼神接触等动态身体动作,这些动作可作为更有效地跟进对话的提示。 DC4、尽量减少认知负荷。系统应避免同时显示过多信息,或要求用户频繁操作。这种方法有助于防止分心,并允许参与者更有效地专注于倾听和说话。 DC5、确保兼容性和可扩展性。系统应与标准视频会议设备(如带摄像头的笔记本电脑)兼容,以促进广泛采用。这种兼容性还将促进其他生产力功能和工具(如屏幕共享和其他应用程序)的无缝集成,以增强系统的整体效用。
附带由 Web Speech API 识别的语音文本的音频输入 由 U-Net 神经网络推断的 RGB 图像和深度图像。
ChatDirector 的系统架构。
一个本地用户对具有 3D 肖像头像的空间感知视频会议环境的视角。
静默:与会者正在听取他人发言; 与某人交谈(Talk-to):与会者正在与特定人交谈;具体来说,通过侦测参与者的姓名(当他们加入会议室时所输入的结果)来检测使用是否在与某人交谈。 宣布(Announce):与会者正在向所有人发言。通过使用关键词检测(如「everybody」、「ok, everybody」),Web 语音 API 来进行识别此种类型的语音状态。
「一对一(One-on-One」,仅显示一个远程参与者,以便与本地用户进行直接互动; 「两两对话(Pairwise)」,将两个远程参与者并排排列,表示他们的一对一对话; 「全景(Full-view)」,默认设置显示所有参与者,表示一般讨论。
ChatDirector 的布局转换算法。
算法输出:布局状态。从左至右分别为:一对一(One-on-One)语音状态,两两对话(Pairwise)语音状态,全景(Full-view)语音状态。
会议环境的空间感知和语音驱动布局转换算法的用户研究结果(N=16)。( *:p<.05, **: p<.01, *** :p< .001)
Temple Presence Inventory(TPI)结果显示了 ChatDirector 系统的社交存在评级(N=16)。( *:p<.05, **: p<.01, *** :p< .001)
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
复旦哲学教授王德峰,解读紧绷的年轻人:休息是一种能力难绷!维州告急!大断电威胁又要来了!顶刊TPAMI 2024 | PERF:一张2D全景图可合成高质量的360度3D场景顶刊TPAMI 2024!PERF:一张2D全景图可合成高质量的360度3D场景AI 对「劳动节」的理解,让我没太绷住官网598元/瓶,叫板黑绷带的国货面霜!我们49元就能拿走,30%玻色因,让你“返老还童”!官网598元/瓶,叫板黑绷带的国货面霜!我们49元就能拿走,30%玻色因,让你美美美!1D导线可以缩小2D晶体管白天打工赚钱、晚上做独游,开发者集体吐槽:这日子真有点绷不住!这招聘环境,绷不住了。。中国两年建造八艘055,美国绷不住了:到底谁是海军第一强国?BBC最新发布起名排行榜,看了第一名绷不住了…在加拿大起这些名字能挣大钱!北美留学生的「至暗时刻」,看到最后一个绷不住了......绷不住了!亚当斯建议移民去当救生员 因为“他们是出色的游泳者”被中国外交降级3年后,立陶宛终于绷不住了,看来尝到了苦头磁性点缀2D拓扑绝缘体 | Ising专栏中国进口贴上“美国制造”,还用在美航母上,五角大楼绷不住了天涯自用多年,这款洗面奶建议人手一支!干净清透不紧绷~每周硅闻 | Meta净利$124亿;京东绷不住也下海;Dell、Supermicro紧急回应!买房送户口!强省会,也绷不住了小哥体验全球最好的客机头等舱,绷不住了,怎么比我家都大?!最航运 | 长荣:地缘政治紧绷 抵销舱位供需压力猫哥推荐n次的洗面奶,干净清透不紧绷,人手一支~唯一负增长!人口第一大市,绷不住了