Meta表示Llama 3击败了包括Gemini在内的大多数其他人工智能模型

9月前

点击蓝字关注我们

SUBSCRIBE to US

Illustration by Nick Barclay / The Verge

该公司在一篇博客文章中表示（https://ai.meta.com/blog/meta-llama-3/），Meta的下一代大型语言模型Llama（https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival）将向AWS等云提供商和Hugging Face等模型库发布，其性能优于大多数当前的人工智能模型。

Llama 3目前有两个模型权重，分别为8B和70B参数（包含80亿参数的Llama 3 8B和包含700亿参数的Llama 3 70B。）。到目前为止，它只提供基于文本的响应，但Meta表示，这是对前一版本的“重大飞跃”（ https://ai.meta.com/blog/meta-llama-3/）。Llama 3在回答提示方面表现出更多的多样性，拒绝回答问题的错误拒绝更少，而且可以更好地推理。Meta还表示，Llama 3比以前理解了更多的指令，编写了更好的代码。

Meta在帖子中声称，在某些基准测试中，两种尺寸的Llama 3都击败了谷歌的Gemma和Gemini（https://www.theverge.com/2024/2/21/24078610/google-gemma-gemini-small-ai-model-open-source）、Mistral 7B和Anthropic的Claude 3等尺寸相似的型号。在通常衡量常识的MMLU基准中，Llama 3 8B的表现明显好于Gemma 7B和Mistral 7B，而Llama 2 70B的表现略好于Gemini Pro 1.5（https://www.theverge.com/2024/2/15/24073457/google-gemini-1-5-ai-model-llm）。

（值得注意的是，Meta 2700字的帖子中没有提到OpenAI的旗舰机型GPT-4。）

还应该注意的是，基准测试人工智能模型虽然有助于了解它们的强大程度，但并不完美（https://www.theverge.com/2024/4/15/24131097/measuring-ai-models-needs-an-overhaul）。用于对模型进行基准测试的数据集已被发现是模型训练的一部分，这意味着模型已经知道评估人员会问它的问题的答案。

Screenshot: Emilia David / The Verge

Meta表示，人类评估人员对Llama 3的评分也高于其他模型，包括OpenAI的GPT-3.5。Meta表示，它为人类评估人员创建了一个新的数据集，以模拟可能使用Llama 3的真实世界场景。这个数据集包括一些用例，如征求建议、总结和创造性写作。该公司表示，研究该模型的团队无法获得这些新的评估数据，也不会影响模型的性能。

Meta在其博客文章中表示：“该评估集包含1800个提示，涵盖12个关键用例：征求建议、头脑风暴、分类、封闭式问题回答、编码、创造性写作、提取、角色/伪装、开放式问题回答，推理、重写和总结。”

Llama 3有望获得更大的模型尺寸（可以理解更长的指令和数据串），并能够做出更多的多模式响应，如“生成图像”或“转录音频文件”。Meta表示，这些较大的版本参数超过400B，理想情况下可以比较小版本的模型学习更复杂的模式，目前正在训练中，但初步性能测试表明，这些模型可以回答基准测试提出的许多问题。

不过，Meta没有发布这些大型模型的预览，也没有将它们与GPT-4等其他大型模型进行比较。