Bendi新闻
>
最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon

最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon

7月前

大型模型的出现为新的经济增长注入了新的动力,但在训练和推理方面,它们也面临诸多挑战。这些挑战包括计算资源的巨大需求、并行化限制、模型体积和训练难度、数据质量、能耗和推理速度、算力不足、数据处理难题、思维模式转变以及高昂的成本。

为了向业界提供更多思考和借鉴的机会,我们在 AICon 全球人工智能开发与应用大会上,特别设置了“大型模型推理优化”专题。这一专题由阿里巴巴的研究员林伟老师担任出品人,旨在为观众带来更严谨、更有启发的演讲。我们邀请了四位老师进行分享,他们的精彩演讲将为大家带来深刻的思考和丰富的收获。

BladeLLM 大模型高性能部署框架

我们很荣幸地邀请到阿里云的高级算法专家李深作为首个分享的嘉宾。作为阿里云人工智能平台 PAI 模型系统优化的 Tech Leader,他在模型压缩和推理优化等方面拥有超过 10 年的丰富经验。在本次大模型推理优化专题演讲中,李深将重点介绍阿里云的 BladeLLM 大模型高性能部署框架。BladeLLM 高性能部署框架是基于阿里云人工智能平台 PAI 的技术积累和实践经验构建的。该框架不仅应对了大模型在线服务部署中的场景特性、资源规模和性能指标等更高更复杂的要求,而且兼容了大模型主流生态,提供了灵活易用的接口。

在演讲中,李深将深入探讨大模型服务部署优化面临的主要挑战,以及 BladeLLM 架构与核心优化技术。这些技术包括高性能算子与 AI 编译优化、模型压缩与算法优化、长上下文优化等,将为听众呈现出多层次联合的极致性能优化方案。通过他的分享,听众将了解大模型服务部署中的主要瓶颈与技术挑战,探索大模型部署优化的主要技术手段,并且深入了解大模型在线服务的规模化生产部署的实践经验。

当大模型推理遇到算力瓶颈,如何进行工程优化?

本专题出席的第二位嘉宾是零一万物的资深算法专家李谋。他曾历任阿里达摩院和华为云 EI 服务产品部技术专家,目前担任零一万物大模型在线推理服务负责人。在本次专题演讲中,他将探讨当大模型推理遇到算力瓶颈时,如何进行工程优化。随着大语言模型的持续发展,其参数量和序列长度呈指数级增长,因此面临的算力挑战愈发严峻。他将结合大模型的算力需求和模型结构,详细介绍零一万物在构建 Yi 模型在线推理服务过程中所采用的优化技术手段。通过他的分享,听众将了解到大模型推理算力瓶颈及主要工程优化手段,以及大模型应用场景的未来发展趋势。

TensorRT-LLM: Past, Present and Future

我们很荣幸地邀请到英伟达的高级技术总监杨军作为我们的专题演讲嘉宾。作为英伟达 AI 计算架构部门的负责人,他主要关注于 AI 系统全栈优化技术。在本次大模型推理优化专题演讲中,他将分享关于 TensorRT-LLM 的主题:“TensorRT-LLM: 过去、现在与未来”。

TensorRT-LLM 项目源起于对大语言模型推理优化的迫切需求。在演进迭代过程中,团队不断进行设计思考,探索最佳方案以满足日益增长的需求。当前设计方案的核心原则将是他演讲的重点,将会深入探讨该方案背后的理念和技术实现。此外,杨军还将简要介绍 TensorRT-LLM 的未来规划,展望该项目在大模型推理优化领域的发展方向和趋势。通过他的分享,听众将获得对 TensorRT-LLM 项目的深入了解,探索其在过去、现在和未来的演进路径和价值。

太极 Angel 助力生成式大模型高效落地

我们邀请的第四位演讲的嘉宾是腾讯高级工程师刘凯。作为腾讯混元大模型推理方向负责人,他在大模型压缩优化及推理加速领域拥有丰富经验,曾带领团队完成了大模型压缩 & 推理框架的从零到一的构建。在本次大模型推理优化专题演讲中,刘凯将分享关于“太极 Angel 助力生成式大模型高效落地”的主题。

随着生成式 AI 技术的迅速发展,模型规模不断增大,结构也从 Dense 向 MoE 进化。在这一背景下,大模型应用的性能、吞吐、成本成为关注焦点。他将介绍腾讯太极机器学习平台所研发的 Angel-HCF 推理框架和 Angel-SNIP 压缩框架,以支持混元文生文、文生图、文生视频、多模态等 AI 生成领域的优化,助力腾讯混元大模型在公司内全面铺开应用。

刘凯将深入探讨生成式 AI 技术的挑战和常用优化方法,重点介绍太极 Angel-HCF 大模型推理框架和太极 Angel-SNIP 大模型压缩框架。通过他的分享,听众将了解生成式 AI 的技术难点和优化手段,大模型推理加速的技术细节,以及大模型压缩的技术方法和后续发展。

活动推荐:

AICon 全球人工智能开发与应用大会 暨 大模型应用生态展·2024 是由极客邦科技旗下 InfoQ 中国主办的技术盛会,主要面向工程师、产品经理、数据分析师的大模型会议,会议聚焦大模型训练与推理、AI agent、RAG、多模态大模型等热门方向,更多精彩话题可点击原文查看。

会议现已进入 9 折倒计时购票阶段,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

微信扫码关注该文公众号作者

来源:InfoQ

相关新闻

万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化钟睒睒等富豪信息遭泄露!移动、联通、电信回应;阿里、腾讯最新业绩发布|大公司动态大模型助力具身智能、电池研发与蛋白质研究,讯飞、深势科技、字节专家齐聚分享|AICon谷歌、阿里、字节、科大讯飞、月之暗面、智谱等大模型落地实践案例集结完毕|AICon 北京 2024 议程上线真·智能体峰会:MSRA、腾讯、网易、MILA 齐聚一堂 |AICon小米、面壁智能、火山引擎、快手等专家,联合解读多模态最新技术与应用|AICon开源模型进展盘点:最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好?英伟达、英特尔和高通,最新芯片路线图泄露摩根士丹利最新研究称:劳力士、百达翡丽和爱彼二手交易价的下跌趋势有所减缓探索 Copilot 创新实践:腾讯、字节跳动、PingCAP 与第四范式共聚 AICon探索 Copilot 创新实践:腾讯、字节跳动、PingCAP 与第四范式共聚 AICon肚子越大,脑子越傻?华西最新:肚子大、手臂粗的“苹果型身材”,患痴呆和帕金森的风险增13-18%AICon 2024 重磅开幕!60 余位大咖干货集结:20 年来云首次革命性变化、大模型才刚刚开始……最新大模型论文合集!谷歌/微软/Meta/苹果/英伟达/阿里最新研究报告!最新研究:大模型已涌现出欺骗能力!钻漏洞、偷偷篡改奖励函数,GPT-4欺骗人类高达99.16%生成式模型不只会「模仿」!哈佛、UCSB等最新成果:性能可超越训练集专家水平阿里、蚂蚁、昇腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon华为、阿里、OPPO、喜马拉雅领衔专家深度解析 AI Agent 技术与应用|AICon吴恩达最新 Ark Invest 洞察:AI 基础模型竞争激烈,训练成本每年下降75%,推理下降86%,大厂优势难长期保证蔚来汽车、哔哩哔哩、京东、携程携手为你分享大模型行业应用踩坑经验 |AICon晚讯|净利41.4亿元,京东健康最新财报出炉、软膏剂药店大卖超50亿,华润4大品牌亮眼如何高效部署大模型?CMU最新万字综述纵览LLM推理MLSys优化技术明日直播|2024年投行有哪些最新求职趋势与攻略?精通美国、香港和加拿大求职面试的导师为你解读!北岸“斧袭案”最新进展:不驱逐、不追究刑事责任!他被裁定关入精神病院!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。