Bendi新闻
>
小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon

小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon

1月前

随着大模型的广泛应用,多模态技术被认为是未来发展的方向。然而,尽管前景广阔,但其面临着诸多挑战和困难,如数据融合、模型融合、跨模态信息融合等方面的技术难题。在 AICon 全球人工智能开发与应用大会 暨 大模型应用生态展上,我们特别策划了多模态技术与应用专题,由小米 AI 实验室机器学习团队技术主管孟二利担任专题出品人,精心评选了以下四位专家来分享他们的见解:

声音基础模型如何推动声音理解和生成

首先,我们非常荣幸地邀请到王育军,他是小米的语音技术负责人,也是技术委员会 AI 实验室声学语音方向的负责人。在学术界和工业界从事声学语音方向已有 20 年之久,拥有丰富的经验。他的研究兴趣包括声音的感知、理解、生成与展现。他领导的声学语音团队于 2017 年成立,涵盖了语音理解、生成与测量三个领域,团队下设 17 个子方向,包括语音识别、声音分析还原、语音合成等。他们为小米的手机 AIoT 平台提供语音服务,日均提供服务 12.6 亿次,并先后获得 7 项国内外声学语音挑战赛冠军。

王育军将在演讲中重点介绍小米声音基础模型的演进,以及声音基础模型如何从编解码两侧精准助力声音的理解与生成。通过他的分享,听众将了解到声音基础模型在推动声音理解和生成方面的重要作用,以及当前面临的挑战和未来的展望。

迈向实用化多模态大模型

其次,我们也荣幸地邀请到姚远,他是面壁智能的研究员,也是清华大学计算机系的博士后。他在多模态大模型、信息抽取和知识图谱等领域有着丰富的研究经验。他将分享关于迈向实用化多模态大模型的演讲,重点介绍了团队在这一领域的最新工作和成果。

在演讲中,他首先将分析了多模态大模型在实用化过程中所面临的挑战,包括参数规模、计算成本、图像感知分辨率、语言能力等方面的限制。随后,他会分享了团队近期的前沿探索,涵盖了端侧基座大模型构建、高清图多模态大模型、多模态能力跨语言泛化以及多模态人类反馈强化学习等方面。

其中,他会重点介绍了团队构建的高效端侧多模态大模型系 MiniCPM-V 2.0。这一系列模型总参数量为 2.8B,具备多项突出特点:性能领先,在常用评测基准上综合得分优于主流模型;OCR 能力突出,支持高清图像编码,并在双语支持和可信行为方面取得显著成绩。MiniCPM-V 2.0 在国际开源平台 HuggingFace 上表现优异,获得了广泛的关注和认可。

通过他的分享,听众将能够深入了解当前多模态大模型在实用化过程中所面临的挑战,并掌握针对这些挑战的优化策略和技术方法,从而更好地应用于实际场景中。

多模态大模型在金融行业的实践和展望

我们也荣幸邀请了周思霁,她是火山引擎的金融解决方案总监兼金融大模型负责人。她致力于推动人工智能在金融行业的落地应用,在自然语言处理、机器学习和计算机视觉等领域有着深入的研究和行业经验。她将分享关于多模态大模型在金融行业的实践和展望 的演讲,深入探讨了这一领域的关键问题和前景。

在演讲中,周老师将指出大模型从单模态向多模态的转变将为各行各业带来新的生产力工具,可能引发商业模式的革命性变革。特别是在金融行业,利用多模态方法综合处理文本、数字、表格和视觉数据,可以全面理解金融专业文件,从而提升技术在金融领域的应用效果。

此外,她还将深入分析了多模态大模型技术在金融领域的发展趋势和应用场景。她也将探讨海内外多模态大模型发展的趋势,深度解析了技术的机遇与挑战,并展望了金融多模态大模型在实践中的落地展望。

快手「可图」文生图大模型应用实践

我们邀请到了李岩,他是快手「可图」大模型团队的负责人,也是中科院计算所的博士。他拥有超过 10 年的算法研发、业务落地及管理经验,在多模态内容理解与生成技术领域有着丰富的经验。他将分享关于快手「可图」文生图大模型应用实践 的演讲,向听众介绍快手首次公开发布的自研文生图大模型,以及在快手 APP 中的应用实践和效果收益,以此启发行业的发展。

在演讲中,李岩老师将回顾文生图大模型的行业发展历程,以及快手文生图大模型的研发之路,深入探讨了这一技术的技术路径和实现方式。他还将分享快手文生图大模型的周边插件能力,以及在快手 APP 中的落地应用与价值剖析,为听众提供了关于如何从零研发中文文生图基座大模型、如何准确客观评估一个文生图大模型的效果、如何选择 ROI 最高的文生图大模型落地场景、以及如何规避文生图大模型的应用风险等方面的建议和启发。

通过他的分享,听众将能够了解到文生图大模型在快手中的应用实践,以及如何在自己的工作中应用这一技术,实现更高效、更具价值的业务目标。

活动推荐:

AICon 全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

会议即将开幕,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

微信扫码关注该文公众号作者

来源:InfoQ

相关新闻

华为、阿里、OPPO、喜马拉雅领衔专家深度解析 AI Agent 技术与应用|AICon清华、小米、华为、 vivo、理想等多机构联合综述,首提个人LLM智能体、划分5级智能水平大模型助力具身智能、电池研发与蛋白质研究,讯飞、深势科技、字节专家齐聚分享|AICon最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon乔布斯看了得哭!与小米、华为的AI 大模型应用打擂台,苹果盖不住的“安卓味儿”都上了热搜特斯拉是技术人心中的 TOP1、小米、问界等国产品牌尚有差距? | 问卷调研硅谷视野+中国实践,汇聚全球顶尖技术的 AI 科技盛会,更有生成式 AI 黑科技上手体验、蔚来试驾等你来!| AICon谷歌、阿里、字节、科大讯飞、月之暗面、智谱等大模型落地实践案例集结完毕|AICon 北京 2024 议程上线留学生请注意:美团、小米等数十家大厂春招即将截止...加码!加码!腾讯、美团、快手、小米……全都出手!今天,聊聊投资、新能源、人工智能、小米汽车…丨直播预告啄木鸟维修冲击港股IPO,小米、58同城与掌上通参投,中国最大的家庭维修平台探索 Copilot 创新实践:腾讯、字节跳动、PingCAP 与第四范式共聚 AICon一周回顾 | 我国将开展6G、区块链等核心标准研究 小米汽车上市27分钟大定突破5万台超级白菜!抢蒸馏加湿器、智能马桶盖、可视门铃、小米走步机、指纹门锁、颈椎按摩披肩!京东内部人士:将和小米汽车在整车、充电桩等方面进行深度合作探索 Copilot 创新实践:腾讯、字节跳动、PingCAP 与第四范式共聚 AICon小米汽车锁定配置等于锁定订单?专家、律师分析→邀你探索金融、教育、法律及医疗行业的大模型创新应用,AICon 2024 即将拉开帷幕财经早参|抖音限制发布时政、财经等内容?回应来了;中国恒大原总裁夏海钧拟被处分;小米回应SU7刹车故障:软件误识别,已修复小米SU7锁单量已超7万台,雷军:着急买车可以考虑智界、蔚来、小鹏等!网友:这格局也太大了​贾跃亭评小米汽车:山寨文化、走捷径令人担忧/小米汽车创始版追加开售再次售罄/马斯克称人工智能有一定几率毁掉人类试驾排到凌晨3点!小米汽车店员忙到飞起:从没见过这么多人!蔚来、问界突然亮出大动作,特斯拉:Model Y全系涨价5000元!贾跃亭谈小米造车:对标、抄袭和浅层次的创新无法带来根本性的技术变革;中国黄金将对北京富力广场店受害者进行垫付丨邦早报
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。