上交举办“大模型奥林匹克竞赛”，GPT-4o仅得39分

6月前

夕小瑶科技说原创
作者 | 谢年年
大模型的奥林匹克竞赛来了！

最近，上交构建了一个全面、极具挑战性的奥赛级别的基准——OlympicArena，从来自62个不同奥林匹克竞赛中筛选出11,163个问题，涵盖数学、物理、化学、生物、地理、天文学和计算机科学等七个学科，细分为34个专业领域。除了8类逻辑推理任务外，还有5类视觉推理能力，分为13种答案类型（如表达式、区间）。

论文标题:
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

论文链接：
https://arxiv.org/pdf/2406.12753

奥林匹克竞赛，作为选拔拔尖青少年人才的竞赛，其难度与挑战性不言而喻。在奥赛中获得优异成绩的同学可以获得保送名牌大学和参加自主招生考试的资格。

那么大模型在奥赛中的表现如何呢？

作者提供了一套全面的资源来支持AI研究，包括基准数据集、开源标注平台、详细的评估工具和带有自动提交功能的排行榜：

https://github.com/GAIR-NLP/OlympicArena

数据提取与标注

该基准的数据来源于各种竞赛的URL，支持以PDF格式公开下载。作者使用Mathpix4工具将PDF文档转换为Markdown格式，以便与模型的输入要求兼容。对于计算机科学的编程问题，还额外收集了相应的测试用例。然后聘请了约30名具有科学和工程背景的学生进行标注。并开发了一个多模态数据标注界面：

https://github.com/GAIR-NLP/OlympicArena/tree/main/annotation

最终基准统计情况如下表所示：

作者使用GPT-4V作为标注器对问题进行难度分类，分为知识回忆、概念应用和认知推理三级，并与相关基准对比，该基准第三级难度（认知推理）的问题占大多数，而其他基准相对较少。

在简单了解了该基准的规模，我们进入正题，看一看大模型在奥赛上的表现吧！

GPT-4o的整体准确率仅为39.97%

目前最强大模型GPT-4o的整体准确率仅为39.97%，而其他开源模型更是只有20%左右。

在不同学科的任务中，数学和物理仍然是最具有挑战性的两个学科。另外计算机编程竞赛的难度同样不容忽视，部分开源模型的准确率甚至为0，反映出当前模型在复杂算法设计上的不足。

大模型在逻辑推理和视觉推理上表现各不相同

为了进行更好的细粒度分析，作者从逻辑和视觉两个角度对认知推理能力进行了分类。逻辑推理能力包括：演绎推理（DED）、归纳推理（IND）、假设推理（ABD）、类比推理（ANA）、因果推理（CAE）、批判性思维（CT）、分解推理（DEC）和定量推理（QUA）。视觉推理能力包括模式识别（PR）、空间推（SPA）、图表推理（DIA）、符号解释（SYB）和比较可视化（COM）。

从图中来看，几乎所有模型在各类逻辑推理能力上展现相似的表现趋势——即在归纳和因果推理方面表现出色，能准确识别信息中的因果关系；但在演绎和分解推理上则稍显不足，这主要由于奥赛级别问题的多样性和复杂性，非常需要分解问题的能力，而这也是大模型的短板。

对视觉推理，模型在模式识别和可视化比较上表现良好，但在处理空间和几何推理以及理解抽象符号的任务时则面临挑战。

大多数LMMs无法熟练利用视觉信息

如下图a所示，只有少数LMM（如GPT-4o和Qwen-VL-Chat）在有图像输入时相对于其文本版有显著提升。许多LMM在处理图像输入时并未表现出增强效果，甚至不升反降。

可能有以下原因：

LMM在处理文本和图像时可能过度关注文本，忽略了图像信息。
某些LMM在通过文本模型训练视觉能力时，可能丧失部分固有的语言能力（如推理能力）。
鉴于问题中复杂的文本与图像交错格式，部分模型难以有效处理和理解嵌入在文本中的图像位置信息。

大模型虽不能得出正确答案，但能正确执行部分中间步骤。

为了深入研究推理步骤的正确性，确保对模型认知能力的严格评估，作者还进行了过程级评估。从OlympicArena中随机选取96个有参考解法的问题。我们使用GPT-4将参考解（即黄金解法）和模型生成的解法转换为结构化的逐步解答格式。然后将这些解法提供给GPT-4V，对每个步骤的正确性打分，范围从0到1。

从下图b中，可以看到过程级评估与答案级评估通常高度一致。这说明当模型产生正确答案时，推理过程的质量大多较高。