上交、清华联合发布rLLM，业界首个关系表格大模型算法库

国际科技财经移民娱乐民生时事体育

Bendi新闻

5月前

©PaperWeekly 原创 · 作者 | Jianwu Zheng

单位 | 上海交通大学

研究方向 | 数据管理与人工智能

以 ChatGPT 为代表的大语言模型（LLM）正引发新一轮人工智能技术发展浪潮，并受到全球的广泛关注。LLM 不光具有出色的文本理解与生成能力，还能领悟丰富的物理世界知识，从而有效解决各类复杂任务。因此，LLM 常常被认为是迈向通用人工智能的基础。

然而，LLM 面对现实世界的海量数据，其应用将带来难以承受的成本开销。上图展示了各种数据类型的增长趋势及其对应的 LLM token 开销。我们可以明显看到，LLM 所带来的开销是我们无法承担的（例如，2025 年 LLM 的总体开销接近 5000 万亿美元，是美国 2023 年国内生产总值 27.37 万亿美元的 214 倍）。另一个有趣的现象是，处理文本和结构化数据将占据主要开销，尽管这类数据的体量没有多媒体数据大。

由于关系数据库托管了全球大约 73% 的数据，本工作开发了 rLLM（relationLLM）项目，旨在提供一个能够快速搭建关系表格学习和 LLM 协同的算法平台。

论文链接：

https://arxiv.org/abs/2407.20157

代码链接：

https://github.com/rllm-project/rllm

如上图所示，它执行两个关键功能：1）将最先进的图神经网络（GNNs）、LLM 和表格神经网络（TNNs）分解为标准化模块；2）利用分解后的模块以 “Combine、Align、and Co-Train” 的方式构建新模型。据我们所知，目前这是全球唯一面向关系表格学习的算法库/平台。

本文还提供了一个基于 rLLM 算法库实现的一个非常简单的关系表格学习示例算法——BRIDGE。具体来说，此方法一方面使用 TNNs 处理表格数据，另一方面依托关系表格数据中的“外键”，构造表格样本之间的关联关系，进而使用 GNNs 进行分析。如此，该方法将多个表格以及它们之间的关联关系都考虑进来。

此外，由于目前关系表格学习处于新兴发展趋势，其数据集仍然较为欠缺。为此，本文贡献了三个多表格关系数据集：TML1M，TLF2K 和 TACM10K。对于每个数据集，我们都默认提供了一个非常简单、标准的分类任务。这几个数据集都是基于经典数据的二次抓取/扩充，因此非常适合用来设计 RTL 的核心算法。当然，后续研究者也可以基于这些数据集构建其他类型的任务。

我们可以明显的看到 BRIDGE 的优势。这是因为传统的单表格 TNNs 只能从单一表中提取信息，无法有效地利用多表格提供的信息以及表格之间的关系信息，因而其效果较差；相反地，BRIDGE 算法利用表格编码器和图编码器比较有效地从多个表格内部以及表格关系之间提取有效信息，效果得到了一定的提升。未来，可以在 BRIDGE 方法引入 LLM，进一步提升效能。

关系表格学习是近年来新兴的研究方向。该方向为学术界广泛研究的 GNNs 和 TNNs 找到了关系数据库这个绝佳的工业应用场景。另一方面，大语言模型正掀起新一轮的人工智能浪潮，潜在市场规模巨大。这两方面研究的结合将为数据库行业和人工智能行业构建一座沟通桥梁，具有重要的研究和应用意义。

更多阅读