谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力
新智元报道
新智元报道
【新智元导读】近日,来自谷歌DeepMind的研究人员,推出了专门用于评估大语言模型时间推理能力的基准测试——Test of Time(ToT),从两个独立的维度分别考察了LLM的时间理解和算术能力。
大语言模型的时间推理能力怎么样?
我们先来看一道幼儿园的题目:
给出切尔西历年的主教练名单,向模型提问:Pochettino之前的教练是谁?
此时,LLM能够给出正确的回答(Lampard),——貌似有点实力?
但是,如果我们把人名来个变量代换(E1~E5),其他内容保持不变,LLM瞬间就降智了:
事实上,在第一次的题干里,我们并没有说明Lampard教练叫什么名字,而答案里直接就出现了Frank。
所以LLM有可能只是碰到了原题?
于是小编用这两道题分别测试了Gemini 1.0 pro、Claude 3 Sonnet、Llama 3和ChatGPT。
从结果来看,上面被公开处刑的应该是ChatGPT。
而Gemini 1.0 pro和Claude 3 Sonnet甚至还不如ChatGPT,两题全错(虽然也给出了全名),估计是刷题的时候懈怠了。
相比之下,Llama 3的回答则呈现出智力上的优越:
在如此简单的问题上,不同的LLM却「各显神通」,看来是时候搞个权威的考核指导一下了。
近日,来自谷歌DeepMind的研究人员,推出了专门用于评估大语言模型时间推理能力的基准测试——Test of Time(ToT)。
论文地址:https://arxiv.org/pdf/2406.09170
值得注意的是,ToT是基准测试的名字,不是颜文字表情
ToT由两门考试组成:
第一关:ToT-semantic,考验LLM在进行时间推理时,对于语义和逻辑的理解。
第二关:ToT-arithmetic,考验LLM进行时间相关算术的能力。
ToT-semantic中的问题是合成的,保证LLM在考试中不会遇见原题;
而ToT-arithmetic采取众包的形式,保证了问题的深度和广度。
基准测试和数据集:https://huggingface.co/datasets/baharef/ToT
ToT的数据集分为三个子集:ToT-semantic包含1850个示例,ToT-arithmetic包含2800个示例,另外还有一个ToT-semantic-large,包含46480个示例,能够在更大的尺度上衡量时间理解的语义和逻辑。
ToT的使用方法很简单,先安装Huggingface数据集,然后两行代码导入即可:
from datasets import load_dataset
dataset = load_dataset("baharef/ToT")
数据格式
ToT-semantic和ToT-semantic-large数据集包含以下字段:
question:包含问题的文本。 graph_gen_algorithm:图生成器算法的名称。 question_type:对应于数据集中的7种问题类型之一。 sorting_type:对应用于事实的排序类型。 prompt:包含用于评估LLM任务的完整提示文本。 label: 问题的标准答案。
Test of Time
ToT-semantic
EventAtTimeT:询问在T时刻哪个实体与实体E有某种关系R EventAtWhatTime:询问两个实体E1和E2之间的关系R在什么时间开始/结束 NumberOfEventsInTimeInterval:询问有多少实体在T1到T2之间与实体E有关系R BeforeAfter:询问在E1之前/之后哪个实体与E2有关系R EventAtTimeOfAnotherEvent:询问当E1与E2有关系R1时,哪个实体与E3有关系R2 FirstLast:询问哪个实体是第一个与E建立关系R的实体 RelationDuration:询问E1和E2之间第k次建立关系R时,持续了多长时间 Timeline:要求按时间顺序对与E有关系R的实体进行排序
ToT-Arithmetic
AddSubtract:从日期或时间中添加或减去一个数字 Compare:按时间顺序比较以不同格式提供的日期/时间 Duration:计算两个日期/时间之间的差值 Schedule:在多块时间内找到相互空闲点 Timezone:涉及处理不同的时区 Trick:有一点脑筋急转弯 MultiOp:涉及需要上述多个操作的问题
实验分析
1:时间结构对LLM性能有什么影响? 2:什么样的时间问题更容易/更难回答? 3:模型提示中事实的顺序有多重要,对事实进行排序的最佳方式是什么? 4:前沿模型在时间推理的两个方面(语义和算术)的表现如何?
微信扫码关注该文公众号作者