人工智能在心理测试理论方面胜过人类

7月前

点击蓝字关注我们

SUBSCRIBE to US

STUART BRADFORD

心智理论（Theory of Mind，https://www.simplypsychology.org/theory-of-mind.html）——追踪他人心理状态的能力——对人类社交互动十分重要，是人类沟通交流和产生共鸣的关键，比如，猜测车上的司机将要做什么，或与电影中的角色产生共鸣。根据一项新的研究，为ChatGPT等提供动力的大型语言模型（LLM）惊人地善于模仿这一典型的人类特征。

“在进行这项研究之前，我们都确信大型语言模型不会通过这些测试，尤其是评估评估心理状态的微妙能力的测试，”研究合著者、德国汉堡-埃彭多夫大学医学中心认知神经科学教授Cristina Becchio说。这一结果被她称为“出乎意料和令人惊讶”，近日发表在了《自然-人类行为》杂志上（https://www.nature.com/articles/s41562-024-01882-z）。

然而，研究结果并不是让每个人都相信我们已经进入了一个机器像我们一样思考的新时代。两位审查了这些发现的专家建议“谨慎对待”这些发现，并警告不要在一个可能会引起“公众炒作和恐慌”的话题上轻易得出结论。另一位外部专家警告了将软件程序拟人化的危险。

Becchio和她的同事并不是第一个声称LLM的反应显示出这种推理的证据的人。在去年发表的一篇预印本论文中（https://arxiv.org/abs/2302.02083），斯坦福大学的心理学家Michal Kosinski报告了在一些常见的心理测试理论上测试了几个模型。他发现，其中最好的，OpenAI的GPT-4，正确地解决了75%的任务，他说这与过去研究中观察到的六岁儿童的表现相匹配。然而，该研究的方法受到了其他研究人员的批评（https://aclanthology.org/2024.eacl-long.138/），他们进行了后续实验，并得出结论，LLM通常基于“肤浅的启发式”和捷径而不是真正的思维推理理论来获得正确的答案。

本研究的作者很清楚这一争论。“我们在这篇论文中的目标是通过广泛的心理测试，以更系统的方式评估机器心理理论的挑战，”研究合著者、认知心理学家James Strachan说，他目前是汉堡-埃彭多夫大学医学中心的访问科学家。他指出，进行严格的研究也意味着测试人类执行LLM的相同任务：该研究将1907人的能力与几种流行的LLM的能力进行了比较，包括OpenAI的GPT-4模型和Meta的开源Llama 2-70b模型。

“

如何测试LLM的心理理论

LLM和人类都完成了五种典型的心理理论任务，前三种是识别间接要求、错误想法和误导。团队发现，GPT模型在这三方面的表现能达到甚至超越人类平均水平，而LLaMA2的表现逊于人类水平；在识别失礼方面，LLaMA2强于人类但GPT表现不佳。研究人员指出，LLaMA2的成功是因为回答的偏见程度较低，而不是因为真的对失礼敏感；GPT看起来的失礼，其实是因为对坚持结论的超保守态度，而不是因为推理错误。

“We don’t currently have a method or even an idea of how to test for the existence of theory of mind.”

—JAMES STRACHAN, UNIVERSITY MEDICAL CENTER HAMBURG-EPPENDORF

为了了解失礼的结果是怎么回事，研究人员对模型进行了一系列后续测试，探讨了几个假设。他们得出的结论是，GPT-4能够对一个关于失礼的问题给出正确的答案，但由于对固执己见的陈述进行了“超保守”编程而无法做到这一点。Strachan指出，OpenAI在其模型周围设置了许多护栏，这些护栏“旨在保持模型的真实性、诚实性和正轨”，比如，他认为，旨在防止GPT-4产生幻觉（即编造东西，https://spectrum.ieee.org/ai-hallucination）的策略也可能阻止它对故事人物是否在同学聚会上无意中侮辱了一位高中老同学发表意见。

与此同时，研究人员对Llama-2的后续测试表明，它在失礼测试中的出色表现很可能是原始问答格式的产物，在原始问答格式中，比如：“爱丽丝知道她在侮辱鲍勃吗？”？回答总是“不”。

研究团队认为，LLM在心智理论任务上的表现堪比人类，不等于它们具有人类般的“情商”，也不意味着它们能掌握心智理论。这就提出了一个问题：如果模仿和真实的东西一样好，你怎么知道它不是真实的东西？

Strachan说，这是社会科学家以前从未试图回答的问题，因为对人类的测试认为这种程度或多或少都存在。他说：“我们目前还没有一种方法，甚至不知道如何测试心理理论的存在，即现象学的程度。”

“

对研究的批评

研究人员显然试图避免导致Kosinski 2023年关于LLM和心理理论的论文受到批评的方法论问题。例如，他们在多个环节中进行测试，因此LLM无法在测试中“学习”正确答案，并且他们改变了问题的结构。但发表Kosinski论文评论（https://aclanthology.org/2024.eacl-long.138/）的两位人工智能研究人员Yoav Goldberg和Natalie Shapira表示，他们也不相信这项研究。

“Why does it matter whether text-manipulation systems can produce output for these tasks that are similar to answers that people give when faced with the same questions?”

—EMILY BENDER, UNIVERSITY OF WASHINGTON

Goldberg对这一发现持怀疑态度，并补充道，“模型不是人”，在比较两者时，“人们很容易得出错误的结论”。Shapira谈到了炒作的危险，也对该论文的方法提出了质疑。她想知道这些模型是否在训练数据中看到了测试问题，并简单地记住了正确的答案，还指出了使用付费人类参与者（在这种情况下，是通过Prolific平台招募，https://www.prolific.com/的）测试的潜在问题。她告诉IEEE Spectrum：“人们并不总是以最佳方式完成任务，这是一个众所周知的问题。”她认为这些发现是有限的，而且有些轶事，她说：“要证明（心理理论）的能力，需要做大量的工作和更全面的基准测试。”

华盛顿大学计算语言学教授Emily Bender因坚持打破人工智能行业膨胀的炒作（以及媒体对该行业的报道）而成为该领域的传奇人物。她对激励研究人员的研究问题表示异议。她问道：“为什么文本操作系统能够为这些任务产生与人们在面对相同问题时给出的答案相似的输出很重要？这教会了我们关于LLM的内部工作原理，它们可能对什么有用，或者它们可能构成什么危险？” Bender说，目前尚不清楚LLM拥有一个思维模型意味着什么，因此也不清楚这些测试是否对其进行了衡量。

Bender还对她在论文中发现的拟人化表示担忧，研究人员表示，LLM能够进行认知、推理和做出选择。她说，作者的短语“LLM和人类参与者之间的物种公平比较”“在软件方面完全不合适”。 Bender和几位同事最近发表了一篇预印本论文，探讨了拟人化人工智能系统如何影响用户的信任（https://arxiv.org/abs/2404.16047）。

结果可能并不表明人工智能真的让我们着迷，但值得思考的是，LLM令人信服地模仿了思维推理理论。他们将更善于与人类用户互动并预测他们的需求，但他们也可以更好地用于欺骗或操纵用户。研究人员同时也指出，这些结果是未来研究的重要基础，并建议进一步研究LLM在心理推断上的表现，以及这些表现会如何影响人类在人机交互中的认知。