Bendi新闻
>
让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述
让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述
2月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
作者首先给出了加性微调、选择性微调、重参数化微调和混合微调的定义:
加性微调通过在预训练模型的特定位置添加可学习的模块或参数,以最小化适配下游任务时模型的可训练的参数量。 选择性微调在微调过程中只更新模型中的一部分参数,而保持其余参数固定。相较于加性微调,选择性微调无需更改预训练模型的架构。 重参数化微调通过构建预训练模型参数的(低秩的)表示形式用于训练。在推理时,参数将被等价的转化为预训练模型参数结构,以避免引入额外的推理延迟。
多 PEFT 训练:挑战包括如何管理内存梯度和模型权重存储,以及如何设计一个有效的内核来批量训练 PEFT 等。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
246篇文献!参数高效微调最新综述发布,让大模型不再「巨无霸」Meta最新进展!“超级外挂”RAG如何让大模型不再胡说八道?大神Karpathy强推,分词领域必读:自动钓鱼让大模型“发疯”的token,来自Transformer作者创业公司LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」港大发布XRec:首个让推荐系统「会说话」的智能大模型今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?复旦大学最新研究:如何让大模型敢回答“我不知道”?今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器如何高效部署大模型?CMU最新万字综述纵览LLM推理MLSys优化技术万字综述大模型高效推理:无问芯穹与清华、上交最新联合研究全面解析大模型推理优化如何让企业把大模型用起来?零一万物的答案是 API 开放平台腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法如何加速大模型推理?万字综述全面解析大语言模型高效推理技术250+篇文献!最新综述全面解析科学领域大模型及其在科学发现中的应用让大佬疯狂的“脑科学”!想要学习脑科学,需要做什么准备?金庸的哪些「江湖规矩」让你大为受益?今日Arxiv最热NLP大模型论文:AllenAI最新研究:让AI从简单学起,竟然能解决难题?五种资源类别,如何提高大语言模型的资源效率,超详细综述来了这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单陶大程团队联合港大等发布最新综述:374篇文献全面解析大模型知识蒸馏东北让人“上头”的除了冰雪,还有大松子!让ChatGPT-4o写了一篇关于AI的高考作文,你猜国内的大模型会打几分?禁令再升级!拜登政府已不想让中国人在美从事AI工作了,套壳大模型的公司也危险了