NVIDIA把Llama-3的上下文长度扩展16倍，长上下文理解能力超越GPT-4

6月前

夕小瑶科技说原创
作者 | Richard

在 Llama-3.1 模型发布之前，开源模型与闭源模型的性能之间一直存在较大的差距，尤其是在长上下文理解能力上。

大模型的上下文处理能力是指模型能够处理的输入和输出 Tokens 的总数。这个长度有一个限制，超过这个限制的内容会被模型忽略。一般而言，开源大模型的上下文长度普遍较短，例如 Llama3 的上下文长度为 8K；而闭源模型的上下文长度则要比开源模型长的多，例如 OpenAI 的 GPT-4 Turbo 支持 128K 的上下文长度。这意味着闭源模型能够一次处理更多的信息，从而在复杂任务中表现出更强的能力。

最近 NVIDIA 研究团队在开源模型 Llama-3 的基础上，通过一系列创新技术，将其上下文长度从原来的 8K 扩展到了 128K，将 Llama-3 的上下文长度扩展到原始的 16 倍。在长上下文理解能力上，扩展之后的 Llama3-ChatQA-2-70B 模型甚至超越了 GPT-4。

研究团队使用经过处理的 SlimPajama 数据集生成了 100 亿个 token 的 128K 长度的数据集。为了适应较长的上下文，研究人员将 RoPE 的基频从 500K 提升到了 150M。在后训练阶段，研究团队设计三阶段的指令微调过程，增强模型的指令遵循能力、检索增强生成（RAG）性能和长上下文理解能力。

通过将这些技术结合，NVIDIA 将 Llama-3 的上下文长度从 8K 扩展到了 128K，极大提升了模型的理解能力。

论文标题：ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

论文链接：https://arxiv.org/pdf/2407.14482

为什么要提升大模型的上下文长度？

我们知道，大模型的上下文长度越长，其计算过程中消耗的资源也就越多，看起来扩展大模型的上下文是一件耗时耗力的工作。很多读者就会好奇，为什么要扩展大模型的上下文长度呢？

扩展上下问长度具有以下优势：

提升长文本理解能力：更长的上下文使模型能够处理和理解更长的文档、对话和代码段，对于文档摘要、长篇对话分析等任务至关重要。
增强多步骤推理：长上下文允许模型在单次推理中保持更多信息，有助于解决复杂的多步骤问题，例如数学证明或者复杂的逻辑推理任务。
提高生成内容的连贯性：对于长文本生成任务，更长的上下文让模型能够保持更好的主题一致性和逻辑连贯性。
减少信息丢失：短上下文模型在处理长文本时需要多次切分和处理，容易造成信息丢失。长上下文可以减少这种信息损失。

总之，扩展大模型的上下文长度能够让模型处理面对复杂任务时得心应手。

然而，开源模型和闭源模型在上下文长度上存在明显差距。例如开源的Llama-3 只支持 8K 的上下文长度，而闭源的 GPT-4 Turbo 已经达到了 128K。

为了缩小这一差距，NVIDIA 研究团队以开源模型 Llama-3 为基础，通过一系列技术创新，将其上下文长度从 8K 扩展到了 128K，使 Llama-3 的上下文长度获得了 16 倍的提升。

研究人员为扩展之后的模型命名为 Llama3-ChatQA-2-70B，该模型在长上下文理解能力上达到了 GPT-4 的水平，在某些任务上甚至超过了 GPT-4。

除此之外，研究团队还探索了长上下文模型和检索增强生成（RAG）技术的结合，为不同应用场景提供了更灵活的选择。

如何提升模型上下文长度？

NVIDIA团队采用了一系列创新技术来扩展Llama-3的上下文长度。

研究团队首先对模型进行继续预训练。味了提升预训练质量，其在 SlimPajama 数据集上采样并生成了总计 100 亿个 Token 的 128K 长度训练数据。

为了适应更长的上下文，研究人员将 RoPE 的基频从 500K 提升到 150M。

经过研究发现使用特殊字符 <s> 来分割不同文档比使用传统的 <BOS> 和 <EOS> 更有效。

在后训练（post-training）阶段，研究团队设计了一个三阶段的指令微调过程：

使用高质量的指令遵循数据集微调模型；
使用对话 QA 数据集微调模型；
专注于长上下文数据集，涵盖 32K 以下及 32K-128K。

为了进一步提升模型在实际应用中的表现，团队还探索了长上下文检索器与长上下文模型的结合。他们使用 E5-mistral embedding 模型作为检索器，通过实验发现，在总token数固定的情况下，使用更大的块大小（chunk size）能够获得更好的效果。

通过这些技术，NVIDIA 将 Llama-3 的上下文长度从 8K 提升到了 128K，弥补了开源模型在上下文长度方面和闭源模型的差距。不仅如此，扩展上下文长度之后，Llama3-ChatQA-2-70B 在上下文理解能力上的表现甚至超越了 GPT-4。

实验结果

NVIDIA 团队设计了一系列全面的实验来评估 Llama3-ChatQA-2-70B 模型的性能。这些实验涵盖了不同长度的上下文任务，从短文本到超长文本，并与多个顶级模型进行了对比。

首先，在"大海捞针"测试中，Llama3-ChatQA-2-70B 在 128K token 长度内实现了 100% 的准确率，证明了其出色的长上下文检索能力。

对于超过 100K token 的长上下文任务，团队使用了 InfiniteBench 基准测试，在长文本摘要(En.Sum)、长文本问答(En.QA)、长文本多项选择(En.MC)和长文本对话(En.Dia)四个任务上进行测试。

Llama3-ChatQA-2-70B 的平均得分为34.11，优于 GPT-4-Turbo-2024-04-09（33.16）和 Claude 2（33.96），仅略低于 Qwen2-72B-Instruct（34.88）。特别是在 En.QA 任务中，Llama3-ChatQA-2-70B 以 44.22 的得分领先于其他模型。

初次之外，研究团队还在 32K 以内的中等长度上下文任务上进行测试。Llama3-ChatQA-2-70B 的平均得分为 47.37，虽然低于 GPT-4-Turbo-2024-04-09（51.93）和 Qwen2-72B-Instruct（49.94），但仍优于 Llama-3-70B-Instruct-Gradient-262k（40.51）。