Bendi新闻
>
大模型增量预训练新技巧-解决灾难性遗忘
大模型增量预训练新技巧-解决灾难性遗忘
7月前
目前不少开源模型在通用领域具有不错的效果,但由于缺乏领域数据,往往在一些垂直领域中表现不理想,这时就需要增量预训练和微调等方法来提高模型的领域能力。
但在领域数据增量预训练或微调时,很容易出现灾难性遗忘现象,也就是学会了垂直领域知识,但忘记了通用领域知识,之前介绍过增量预训练以及领域大模型训练技巧,详见:
今天给大家带来一篇增量预训练方法-Llama-Pro,对LLMs进行Transformer块扩展后,增量预训练过程中仅对新增块进行训练,有效地进行模型知识注入,并且极大程度地避免灾难性遗忘。
LLaMA Pro: Progressive LLaMA with Block Expansion
Paper: https://arxiv.org/abs/2401.02415
Github: https://github.com/TencentARC/LLaMA-Pro
块扩展方法
块扩展,顾名思义,就是在原始模型中每个Transformer块或者某几个Transformer块后增加一个Transformer块,但为了保持扩展后的模型输出保持不变,需要增加的块为恒等块(输入输出相同),如下图所示。
在构建恒等块过程中,主要是将多头注意力层和FFN层中的最后一个线性层(Linear)权重置为0变成Zero-Linear,即可保持经过该块的输入输出一致。
PS:论文附录A中写了大段的推导公式来证明,在此不做过多介绍。
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.float16)
ckpt = model.state_dict()
# original_layers是模型原始层数,layers是模型最后达到层数
split = int(original_layers / (layers - original_layers))
layer_cnt = 0
output = {}
for i in range(original_layers):
for k in ckpt:
if ('layers.' + str(i) + '.') in k:
output[k.replace(('layers.' + str(i) + '.'), ('layers.' + str(layer_cnt) + '.'))] = ckpt[k]
layer_cnt += 1
if (i+1) % split == 0:
for k in ckpt:
if ('layers.' + str(i) + '.') in k:
if 'down_proj' in k or 'o_proj' in k:
output[k.replace(('layers.' + str(i) + '.'), ('layers.' + str(layer_cnt) + '.'))] = torch.zeros_like(ckpt[k])
else:
output[k.replace(('layers.' + str(i) + '.'), ('layers.' + str(layer_cnt) + '.'))] = ckpt[k]
layer_cnt += 1
assert layer_cnt==layers
for k in ckpt:
if not 'layers' in k:
output[k] = ckpt[k]
torch.save(output, output_path)
实验细节
讨论分析
写在最后
目前来说mistral要好于llama,为啥不用mistral进行实验 不用恒定块,性能会差多少
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
来源:机器学习算法与自然语言处理
相关新闻
ICML 2024 | 大语言模型预训练新前沿:最佳适配打包重塑文档处理标准ICML 2024 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了探讨大模型预训练与微调之间的相互作用Meta等发布巨齿鲨Megalodon!无限上下文长度的高效大模型预训练和推理从专用到通用-预训练大模型和AI agent,浅谈人工智能的趋势和展望从头设计抗体,腾讯、北大团队预训练大语言模型登Nature子刊小米大模型提效新框架:训练最高提速34%,推理最高提速52%!Kaldi之父合作出品4 月 iPhone 中国出货量大涨 52%/OpenAI 宣布开始训练新模型/首个未成年游戏退费标准发布钟薛高创始人为偿还债务,开启直播带货之路/4 月份 iPhone 中国出货量大涨 52%/OpenAI 宣布开始训练新模型今日Arxiv最热NLP大模型论文:MIT推出新方法,大幅提升LLMs的连贯性、准确性和可更新性!苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源1块3090就能训7B大模型,山东大学低带宽低显存训练法,解决显卡限购卡脖子今日arXiv最热大模型论文:北大发布4维时空数据预训练,助力自动驾驶苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源苹果开源7B大模型,训练过程数据集一口气全给了,网友:开放得不像苹果港大和字节提出Groma:多模态大模型新范式!模拟人类先感知后认知,精确定位图中物体!港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024一张图看懂大模型性价比:能力、价格、并发量全面PK如何落地AI编程和可观测智能化?怎么从 0 到 1 训练大模型?阿里多位专家出席 ArchSummit 现身说法技术吃瓜:金句还是鸡汤,我们用大模型训练了一个报警器一文读懂多家厂商的大模型训练、推理、部署策略智算中心改造:网络成大模型训练瓶颈,节点内外多架构并存