Bendi新闻
>
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
5月前
基于 Transformer架构的大型语言模型在各种基准测试中展现出优异性能,但数百亿、千亿乃至万亿量级的参数规模会带来高昂的服务成本。例如GPT-3有1750亿参数,采用FP16存储,模型大小约为350GB,而即使是英伟达最新的B200 GPU 内存也只有192GB ,更不用说其他GPU和边缘设备。 大模型压缩,即将大模型“瘦身”后塞进资源受限的场景,以减少模型存储、访存和计算开销。在尽量不损失模型性能的前提下,提高大模型推理吞吐速度,使大模型在物联网边缘设备、嵌入式机器人、离线移动应用等边、端场景中保持优秀的推理性能和功耗表现。
原文链接:https://arxiv.org/pdf/2402.18158.pdf 仓库地址:https://github.com/thu-nics/qllm-eval
Prefill阶段的主要算子为矩阵-矩阵乘(GEMM),其推理速度受限于计算速度。 Decoding阶段的主要算子为矩阵-向量乘(GEMV),其推理速度主要受限于权重访存速度。 当处理涉及长文本或大批量大小的任务时,KV Cache的存储开销会超过权重的存储开销。
4、量化带来的加速效果
Efficient LLM survey(点击回顾:如何加速大模型推理?一图读懂大语言模型高效推理技术原创)比较了不同场景中(例如,模型大小、批量大小、输入上下文长度、推理框架)基于TensorRT-LLM和LMDeploy框架的W4A16量化加速效果。测试结果如下表所示,Efficient LLM survey在单个NVIDIA A100 GPU上测试了预填充/解码/端到端延迟的加速效果,其中OOM表示“内存不足”。从测试结果中可以得出以下几个关键观察:
Weight-only量化可以显著加速decoding阶段,从而改善端到端延迟。
关于prefill阶段,Weight-only量化可能实际上会增加延迟。
随着批量大小和输入长度的增加,Weight-only量化所带来的加速效果逐渐减小。
对于较大的模型,Weight-only量化提供了更大的益处,因为较大模型尺寸的内存访问开销显著增加。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化苹果大模型最新论文:AFM 模型多维度评测「出炉」英伟达一季净利暴增 6 倍,AI 芯片年更;王小川、李开复拒绝跟进大模型降价;ChatGPT 可引用多家报纸内容 | 极客早知道即插即用!美团提出整数量化系数方案:大模型细粒度量化的免费午餐多问医生:大模型浪潮中,第二医疗意见的转型之路ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3一文读懂多家厂商的大模型训练、推理、部署策略李飞飞:大模型不具备知觉,参数再多也不行零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare如何从多维度、多领域关注“新质生产力”之量子计算发展态势?大模型多烧钱?明星独角兽揭秘训练成本:明年或达100亿美元全球低轨卫星通信产业研究:现状与产业发展、布局分析、典型等多维度分析卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评中文得分世界第一,多项盲测并肩 GPT4o,这个国产大模型怎么就成了 AI 界的黑马?AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?字节、华科发布多语种视觉文本理解新基准,多模态大模型还有很长的路要走多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了试驾排到凌晨3点!小米汽车店员忙到飞起:从没见过这么多人!蔚来、问界突然亮出大动作,特斯拉:Model Y全系涨价5000元!智谱 AI 推出新一代基座大模型 GLM-4,能力逼近 GPT-4,配备多模态、长文本和智能体无问芯穹夏立雪:破解算力焦虑,我做了大模型算力领域的「淘宝」丨36氪专访夏天开什么花儿?多伦多8月周边赏花好去处:薰衣草、向日葵、大丽花