Bendi新闻
>
让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述
让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述
8月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
作者首先给出了加性微调、选择性微调、重参数化微调和混合微调的定义:
加性微调通过在预训练模型的特定位置添加可学习的模块或参数,以最小化适配下游任务时模型的可训练的参数量。 选择性微调在微调过程中只更新模型中的一部分参数,而保持其余参数固定。相较于加性微调,选择性微调无需更改预训练模型的架构。 重参数化微调通过构建预训练模型参数的(低秩的)表示形式用于训练。在推理时,参数将被等价的转化为预训练模型参数结构,以避免引入额外的推理延迟。
多 PEFT 训练:挑战包括如何管理内存梯度和模型权重存储,以及如何设计一个有效的内核来批量训练 PEFT 等。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
246篇文献!参数高效微调最新综述发布,让大模型不再「巨无霸」Meta最新进展!“超级外挂”RAG如何让大模型不再胡说八道?大神Karpathy强推,分词领域必读:自动钓鱼让大模型“发疯”的token,来自Transformer作者创业公司LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」港大发布XRec:首个让推荐系统「会说话」的智能大模型今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?复旦大学最新研究:如何让大模型敢回答“我不知道”?中科院张家俊团队最新综述,谈大模型研究的新领域:多模型协作今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器如何高效部署大模型?CMU最新万字综述纵览LLM推理MLSys优化技术从短剧到 AI 大模型,新兴行业如何让组织「跟上」业务?万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50如何让企业把大模型用起来?零一万物的答案是 API 开放平台11项指标击败GPT-4o!360攒局让16家大模型联手作战,组成最强“六边形战士”小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法今日arXiv最热大模型论文:北京大学最新综述:视觉大模型中的漏洞与攻防对抗上海AI lab开源LLaMAX,用3.5万小时的A100训练让大模型掌握上百种语言翻译如何加速大模型推理?万字综述全面解析大语言模型高效推理技术首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效250+篇文献!最新综述全面解析科学领域大模型及其在科学发现中的应用董宇辉的“分手大戏”,并没有让所有人都满意