小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon
随着大模型的广泛应用,多模态技术被认为是未来发展的方向。然而,尽管前景广阔,但其面临着诸多挑战和困难,如数据融合、模型融合、跨模态信息融合等方面的技术难题。在 AICon 全球人工智能开发与应用大会 暨 大模型应用生态展上,我们特别策划了多模态技术与应用专题,由小米 AI 实验室机器学习团队技术主管孟二利担任专题出品人,精心评选了以下四位专家来分享他们的见解:
首先,我们非常荣幸地邀请到王育军,他是小米的语音技术负责人,也是技术委员会 AI 实验室声学语音方向的负责人。在学术界和工业界从事声学语音方向已有 20 年之久,拥有丰富的经验。他的研究兴趣包括声音的感知、理解、生成与展现。他领导的声学语音团队于 2017 年成立,涵盖了语音理解、生成与测量三个领域,团队下设 17 个子方向,包括语音识别、声音分析还原、语音合成等。他们为小米的手机 AIoT 平台提供语音服务,日均提供服务 12.6 亿次,并先后获得 7 项国内外声学语音挑战赛冠军。
王育军将在演讲中重点介绍小米声音基础模型的演进,以及声音基础模型如何从编解码两侧精准助力声音的理解与生成。通过他的分享,听众将了解到声音基础模型在推动声音理解和生成方面的重要作用,以及当前面临的挑战和未来的展望。
其次,我们也荣幸地邀请到姚远,他是面壁智能的研究员,也是清华大学计算机系的博士后。他在多模态大模型、信息抽取和知识图谱等领域有着丰富的研究经验。他将分享关于迈向实用化多模态大模型的演讲,重点介绍了团队在这一领域的最新工作和成果。
在演讲中,他首先将分析了多模态大模型在实用化过程中所面临的挑战,包括参数规模、计算成本、图像感知分辨率、语言能力等方面的限制。随后,他会分享了团队近期的前沿探索,涵盖了端侧基座大模型构建、高清图多模态大模型、多模态能力跨语言泛化以及多模态人类反馈强化学习等方面。
其中,他会重点介绍了团队构建的高效端侧多模态大模型系 MiniCPM-V 2.0。这一系列模型总参数量为 2.8B,具备多项突出特点:性能领先,在常用评测基准上综合得分优于主流模型;OCR 能力突出,支持高清图像编码,并在双语支持和可信行为方面取得显著成绩。MiniCPM-V 2.0 在国际开源平台 HuggingFace 上表现优异,获得了广泛的关注和认可。
通过他的分享,听众将能够深入了解当前多模态大模型在实用化过程中所面临的挑战,并掌握针对这些挑战的优化策略和技术方法,从而更好地应用于实际场景中。
我们也荣幸邀请了周思霁,她是火山引擎的金融解决方案总监兼金融大模型负责人。她致力于推动人工智能在金融行业的落地应用,在自然语言处理、机器学习和计算机视觉等领域有着深入的研究和行业经验。她将分享关于多模态大模型在金融行业的实践和展望 的演讲,深入探讨了这一领域的关键问题和前景。
在演讲中,周老师将指出大模型从单模态向多模态的转变将为各行各业带来新的生产力工具,可能引发商业模式的革命性变革。特别是在金融行业,利用多模态方法综合处理文本、数字、表格和视觉数据,可以全面理解金融专业文件,从而提升技术在金融领域的应用效果。
此外,她还将深入分析了多模态大模型技术在金融领域的发展趋势和应用场景。她也将探讨海内外多模态大模型发展的趋势,深度解析了技术的机遇与挑战,并展望了金融多模态大模型在实践中的落地展望。
我们邀请到了李岩,他是快手「可图」大模型团队的负责人,也是中科院计算所的博士。他拥有超过 10 年的算法研发、业务落地及管理经验,在多模态内容理解与生成技术领域有着丰富的经验。他将分享关于快手「可图」文生图大模型应用实践 的演讲,向听众介绍快手首次公开发布的自研文生图大模型,以及在快手 APP 中的应用实践和效果收益,以此启发行业的发展。
在演讲中,李岩老师将回顾文生图大模型的行业发展历程,以及快手文生图大模型的研发之路,深入探讨了这一技术的技术路径和实现方式。他还将分享快手文生图大模型的周边插件能力,以及在快手 APP 中的落地应用与价值剖析,为听众提供了关于如何从零研发中文文生图基座大模型、如何准确客观评估一个文生图大模型的效果、如何选择 ROI 最高的文生图大模型落地场景、以及如何规避文生图大模型的应用风险等方面的建议和启发。
通过他的分享,听众将能够了解到文生图大模型在快手中的应用实践,以及如何在自己的工作中应用这一技术,实现更高效、更具价值的业务目标。
AICon 全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。
会议即将开幕,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。
微信扫码关注该文公众号作者