Bendi新闻
>
顶刊TPAMI 2024!计算机学会像人脑一样“听话”了!清华苑克鑫/胡晓林团队实现混合语音分离技术突破!

顶刊TPAMI 2024!计算机学会像人脑一样“听话”了!清华苑克鑫/胡晓林团队实现混合语音分离技术突破!

2月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和扩散模型】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:brainnew


我们的大脑在处理声音信息时有一个特长:可以将注意力集中在感兴趣的对话或声音上,忽略其它无关的声音或者噪音。我们每天都在不知不觉地运用这种特长,在通勤的地铁上、嘈杂的餐厅里,广播声、音乐声、多人同时说话的声音,都不会妨碍你与同伴进行交流。早在70多年前,神经科学家就注意到大脑的这种神奇能力,并将其称为“鸡尾酒会效应”。


尽管我们可以轻松地在混合的声音中识别特定的目标声音,计算机要做到这一点却非常困难。在人工智能(AI)领域,要设计出与人类一样强大的语音分离系统是巨大挑战。


日前,来自清华大学的神经科学家和计算机科学家联手,基于哺乳动物丘脑和皮层整合多模态感觉信息的工作原理,构建了一款新的脑启发AI模型(CTCNet),实现了混合语音分离技术突破,让计算机进一步学会像人脑一样“听话”。这一创新性学科交叉研究成果于2024年4月5日线上发表于人工智能、模式识别和计算机视觉领域的顶级国际期刊Transactions on Pattern Analysis and Machine Intelligence(TPAMI)


文章题图


▲在两人同时说话的场景中,红框指示了计算机的目标人物,试图从混合语音中将其语音分离出来,迄今为止的其他方法仍无法使计算机有效分离两个人的声音,尤其是在我们看来非常简单的、对话内容单调的场景中(视频2)。使用了CTCNet的计算机系统成功地只“听到”红框中的目标声音(视频来源:研究团队提供)


该研究的负责人之一、神经科学家、清华大学生物医学工程学院的苑克鑫教授指出:新模型的语音分离性能大幅领先于现有方法,不仅为计算机感知信息处理提供了新的脑启发范例,而且在智能助手、自动驾驶等领域有潜力发挥重要作用。”


研究者介绍,现有的多模态语音分离方法大多只是模拟了哺乳动物的皮层通路,即从较低功能区域(例如初级视觉、听觉皮层区)到较高功能区域(例如高级视觉、听觉皮层区),然而实际上,听觉、视觉的信息整合中,以丘脑为代表的皮层下结构发挥了不可忽视的重要作用。


苑克鑫教授团队长期聚焦于脑的听觉处理机制,近年来的一系列工作逐渐揭示了高级听觉丘脑的联接、功能与工作机制。高级听觉丘脑作为处理听觉信息的关键中枢节点,具有听觉、视觉双模态的特性。其腹内侧在介导听觉、视觉刺激触发的危险感知中发挥关键作用(Neuron 2023;J. Neurosci. 2024;Featured Articles);其背侧既接收来自听觉皮层第5层的投射,也接收来自视觉皮层第5层的投射,且在整体上形成了皮层-丘脑-皮层(Cortico-thalamo-cortical,CTC)循环联接架构(Cereb. Cortex 2018a,2018b,2019)。这些工作提示,高级听觉丘脑可能通过特殊的联接模式整合听觉、视觉信息从而增强听觉感知。


在背侧高级听觉丘脑联接特点的启发下,苑克鑫团队与清华大学计算机系胡晓林团队合作提出了一种皮层-丘脑-皮层神经网络(CTCNet)来执行音频-视觉语音分离任务。


▲高级听觉丘脑-皮层联接模式启发视觉辅助的语音分离模型(CTCNet)

(图片来源:研究团队提供)


CTCNet模型包括三个模块——听觉子网络、视觉子网络和听-视融合子网络,分别模拟了听觉皮层、视觉皮层和背侧高级听觉丘脑。其基本工作原理为:首先,听觉信息(语音)和视觉信息(唇部运动)以自下而上的方式分别在独立的听觉和视觉子网络中处理;然后,经过处理的听觉和视觉信息通过自上而下的连接在听-视融合子网络中进行多时间分辨率尺度的融合;最后,融合后的信息被回传至听觉和视觉子网络。上述过程会重复数次,最终输出至听觉子网络。


在三个语音分离基准数据集上的测试结果显示,在参数极少的情况下,CTCNet能在视觉信息(唇部运动)的辅助下,高度准确地将混合在一起的语音分离开来


研究团队总结说,语音分离模型CTCNet是基于高级听觉丘脑的视、听融合能力及其皮层-丘脑-皮层循环联接架构构建的脑启发AI模型。通过多次融合和循环处理听觉和视觉信息,使AI能够更好地实现“鸡尾酒会效应”。


胡晓林团队硕士生李凯为该论文第一作者,苑克鑫团队博士后谢凤华和胡晓林团队博士生陈航为该论文第二和第三作者,苑克鑫和胡晓林为该论文共同通讯作者,他们均为清华大学麦戈文脑研究院、清华大学脑与智能实验室和清华大学类脑研究中心兼职研究员。该研究得到了国家自然科学基金、科技部经费的大力支持。

原文链接:doi: 10.1109/TPAMI.2024.3384034


参考文献

[1] Kai Li et al., An audio-visual speech separation model inspired by Cortico-Thalamo-Cortical circuits. Transactions on Pattern Analysis and Machine Intelligence (2024) doi: 10.1109/TPAMI.2024.3384034

    何恺明在MIT授课的课件PPT下载

    在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

    CVPR 2024 论文和代码下载

    在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


    Mamba和扩散模型交流群成立

    扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


    一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

    ▲扫码或加微信号: CVer5555,进交流群


    CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


    扫码加入星球学习


    ▲点击上方卡片,关注CVer公众号

    整理不易,请点赞和在看

    微信扫码关注该文公众号作者

    来源:CVer

    相关新闻

    清华计算双“王炸”登Nature!类脑芯片取得重大突破,量子模拟打破国际纪录清华官宣:首例无线微创脑机接口临床试验成功!实现自主喝水等脑控功能,手术后10天就出院!专家:有望比马斯克先“落地”清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律顶刊TPAMI 2024!北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法Kimi一度火到宕机!“90”后创始人、清华“学霸”杨植麟套现数千万美金?最新回应:不实顶刊TPAMI 2024!多模态图像修复与融合新突破!DeepM2CDL:多种任务实现SOTA性能复旦团队重大突破登Cell,破纪录复活「冰封」18个月人脑!三体云天明计划成真?清华“天眸芯”登Nature封面!全球首款类脑互补视觉芯片,施路平团队最新成果“就像下水道的老鼠一样!”南加蒙市走线人起居状况曝光;太惨了!南加蒙市一华女被撞飞数米,司机却肇事逃走了...突破摩尔定律极限!前谷歌量子计算团队首创「热力学计算机」,英伟达GPU「退役」?华男$3.6万没了!华人注意一定要这么做!“他们全家老小像蟑螂一样,悄悄搬进了我的房子”已达740元/克!有人没买金饰“肠子悔青”:买了一堆施华洛世奇,现在回收也没人要……顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器马斯克首位脑机接口人露面直播下棋!清华:我们也能做,同样能动鼠标!四肢瘫痪患者实现自主喝水!脑机接口技术重大突破→Neuralink劲敌破纪录,4096个电极微创植入人脑!脑机接口有望进入「5G」时代识别细胞也能用大模型了!清华系团队出品,已入选ICML 2024 | 开源申请吸引力增强?英伟达和佐治亚理工学院推出「AI超级计算机中心」,真“遥遥领先”了!清华寒假游学“大礼包”来了!这种鱼是孩子的「脑黄金」,但多数人买错了!警惕!小长假已有3人车祸死亡!后续来了!“辱华”车牌被撤销!有钱就能买?摄像头竟识别不出来这种黑牌……“人麻了!”澳洲网红公寓突发火灾,众多华人住户连带遭灾!曝有华女吸笑气,疑点燃被褥触发火警突破!脑机接口“打开脑世界的大门” ,安全和伦理风险几何?
    logo
    联系我们隐私协议©2024 bendi.news
    Bendi新闻
    Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。