Bendi新闻
>
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

2月前



  新智元报道  

编辑:Mindy
【新智元导读】图是组织信息的一种有用方式,但LLMs主要是在常规文本上训练的。谷歌团队找到一种将图转换为LLMs可以理解的格式的方法,显著提高LLMs在图形问题上超过60%的准确性。

在计算机科学领域,图形结构由节点(代表实体)和边(表示实体之间的关系)构成。
图无处不在。
互联网本身就像是一张庞大的网络图,甚至搜索引擎所使用的知识也是以图的形式进行组织和呈现。
但由于LLMs主要在常规文本上训练,并没有图的结构,将图转化为LLMs能理解的文本是一项非常复杂的任务。
在ICLR 2024上,一支来自谷歌的团队探索了如何将图形数据转换为适合LLMs理解的形式。

论文地址:https://openreview.net/pdf?id=IuXR1CCrSi

使用两种不同的方法将图形编码为文本,并将文本和问题反馈给LLM的过程
他们还创造了一个名为GraphQA的基准,用于研究不同的图推理问题解决方法,并演示了如何以一种让LLM能够解决图形相关问题的方式来表述图相关问题。
使用正确的方法,使得LLMs在图形任务上最高得以提升60%的性能。

GraphOA:一场对LLMs的「考试」

首先,谷歌团队设计了GraphQA基准测试,它可以被看作是一门考试,旨在评估LLM针对特定于图形问题的能力。
GraphOA通过使用多种类型的图表,确保广度和连接数量的多样性,以寻找LLMs在处理图形时可能存在的偏差情况,并使整个过程更接近LLMs在实际应用中可能遇到的情况。

使用GraphIQA对LLMs进行推理的框架
虽然任务很简单,比如检查边是否存在、计算节点或者边的数量等等,但这些任务都需要LLMs理解节点和边之间的关系,对于更复杂的图形推理至关重要。
同时,团队还探索了如何将图转换为LLMs可以处理的文本,比如解决了如下两个关键问题:
节点编码:我们如何表示单个节点?节点可以包括简单整数、常用名称(人名、字符)和字母。
边缘编码:我们如何描述节点之间的关系?方法可以包括括号符号、短语(如「是朋友」)和符号表示(如箭头)。
最终,研究人员通过系统地结合各种节点和边的编码方式,产生了像下图中展示的那些函数。

图形编码函数的例子

LLMs表现怎么样呢?


研究团队在GraphOA上进行了三个关键实验:
  1. 测试LLMs处理图形任务的能力
  2. 测试LLMs的大小对性能的影响
  3. 测试不同图形形状对性能的影响
在第一个实验中,LLMs表现平平,在大多数基本任务上,LLMs的表现并不比随机猜测好多少。
但编码方式显著影响结果,如下图所示,在大多数情况下,「incident」编码在大多数任务中表现出色。选择合适的编码函数可以极大的提高任务的准确度。

基于不同任务准确度的各种图编码器函数的比较
在第二个测试中,研究人员在不同大小的模型上测试了相同的图形任务。
就结论而言,在图形推理任务中,规模更大的模型表现更好,
然而有趣的是,在「边存在性」任务(确定图中两个节点是否相连)中,规模并不像其他任务那么重要。
即使是最大的LLM在循环检查问题上(确定图中是否存在循环)也无法始终击败简单的基线解决方案。这表明LLMs在某些图任务上仍有改进的空间。

模型容量对PaLM 2-XXS、XS、S和L的图推理任务的影响
在第三个测试中,对于图形结构是否会影响LMMs解决问题的能力,研究人员通过GraphOA生成不同结构的图形进行分析。

GraphQA不同图形生成器生成的图形示例。ER、BA、SBM和SFN分别是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。
结果得出,图的结构对LLMs的性能有很大影响。
例如,在一个询问循环是否存在的任务中,LLMs在紧密相连的图形中表现出色(这里循环很常见),但在路径图中表现不佳(循环从不发生)。
但同时提供一些混合样本有助于LLMs适应,比如在循环检测任务中,研究人员在提示中添加了一些包含循环和一些不包含循环的示例作为少样本学习的例子,通过这种方式提高了LLMs的性能。

在不同的图任务上比较不同的图生成器。主要观察结果是,图结构对LLM的性能有显著影响。ER、BA、SBM和SFN分别指的是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

这仅仅是让LLMs理解图的开始


在论文中,谷歌团队初步探索了如何将图形最佳地表示为文本,以便LLMs能理解他们。
在正确编码技术的帮助下,显著提高了LLMs在图形问题上的准确性(从大约5%到超过60%的改进)。
同时也确定了三个主要的影响因子,分别为图形转换为文本的编码方式、不同图形的任务类型、以及图形的疏密结构。
这仅仅是让LLMs理解图的开始。在新基准测试GraphQA的帮助下,期待进一步研究,探索LLMs的更多可能性。
参考资料:
https://blog.research.google/2024/03/talk-like-graph-encoding-graphs-for.html



微信扫码关注该文公众号作者

来源:新智元

相关新闻

ICML 2024 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”谷歌裁掉整个 Python 团队!PyTorch 创始人急得直骂人:“WTF!核心语言团队无可替换”11年“AI老兵”破局AMA:破解谷歌BERT大模型,吃AI红利拿offer,真香!腾讯 PCG 自研高性能大语言模型推理引擎「一念 LLM」正式开源腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源从「开城」到「无图」:大模型砸下来的钱好赚吗?大神Karpathy强推,分词领域必读:自动钓鱼让大模型“发疯”的token,来自Transformer作者创业公司Meta最新进展!大模型“超级外挂”:LLM RAG纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画何恺明“被拒”缺席、语言模型大行其道,今年的CVPR,彻底变了?被 Sora 抢了风头的谷歌“杀”回来了!谷歌的一群“书呆子”卷出了最强开放模型 Gemma被Sora抢了风头的谷歌“杀”回来了!谷歌的一群“书呆子”卷出了最强开放模型Gemma“印度 CEO 毁了谷歌!”大裁员引发谷歌元老集体怀旧:20 年前为梦想而战,20 年后混口饭吃70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024今日arXiv最热NLP大模型论文:NAACL24实锤语言学对大模型“负优化”,抽象语义表示+思维链有损表现大佬指责:“谷歌一半员工没干活”!冲上头条!2024傅盛开年大课:企业“私有化大模型的时代”来了?港大发布XRec:首个让推荐系统「会说话」的智能大模型欢迎报名,载歌在谷「云集」2024夏日音乐会期待您的加入!欢迎报名,载歌在谷「云集」2024新春音乐会期待您的加入!“我们坚持开源!”阿里云发布“地表最强”中文大模型:半年一迭代、性能翻倍?斯坦福15张图揭示最新AI 动态:开源风评又“被害”,谷歌、OpenAI争当基础模型“劳模”
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。