250+篇文献!最新综述全面解析科学领域大模型及其在科学发现中的应用
在许多科学领域,大语言模型改变了我们处理文本和其他模态数据的方式,在各种应用中实现了卓越的性能,并辅助研究人员进行科学发现。然而,以往对科学领域大语言模型的综述通常集中在一两个领域或单一模态上。在本文中,我们旨在通过揭示科学领域大语言模型在架构和预训练技术方面跨领域和跨模态的相似之处,为该方面的研究提供更全面的视角。
下图展示了不同科学领域的大语言模型训练时的共通之处。图中共有 3 列,每一列对应一种预训练策略。对于每种策略我们给出 4 个示例(即,类型 A 到 D)。
在第 1 列中,遵循 BERT 和 RoBERTa,现有研究使用掩码语言建模(masked language modeling)来预训练编码器语言模型。在这里,输入数据可以是天然的序列(例如,论文标题和摘要,FASTA 格式表示的蛋白质、DNA 和 RNA)或人为序列化的(例如,SMILES 格式表示的分子,学术图谱中的会议、作者、论文等节点形成的序列)。
在第 2 列中,受 GPT 和 LLaMA 的启发,先前的研究采用下一个词预测(next token prediction)来预训练解码器语言模型,其中一些进一步采用指令调优和偏好优化。
除了纯文本输入(例如,来自知识库或考试的问题-答案对),我们看到更多序列化复杂科学数据的方法,例如展平表格单元格和使用粒子坐标描述晶体。即使对于更难以序列化的图像数据,在几何学和医学影像学中也分别有研究利用视觉编码器将图像投影到多个视觉 token 上,并将它们置于文本 token 之前,作为大语言模型的输入。
在第 3 列中,遵循 DPR 和 CLIP,两个编码器通过对比学习预训练,将一对相关数据在表示空间中映射得更近。当一对数据的两种模态都是天然的序列(例如,文本-文本或者文本-蛋白质),模型就建立在两个编码器之上。当我们希望保持一种模态的非顺序性质(例如,分子图、胸部 X 光片和航拍图像),可以使用相应的图或图像编码器。
模型综述
GitHub:
https://github.com/yuzhimanhua/Awesome-Scientific-Language-Models
在科学发现中的应用
针对不同领域,我们介绍大语言模型如何通过帮助科学发现过程中的不同方面和阶段(如假设生成、理论证明、实验设计、预测)来惠及科学。
首先,大语言模型在想法生成和评估中被广泛应用。之前的研究者(1)将它们整合到搜索引擎中,用于发现科学挑战和方向;(2)利用大语言模型生成基于先前文献的新科学理念;(3)依靠大语言模型为每篇提交论文寻找专家审稿人;(4)使用 GPT-4 为论文提供建设性的反馈以促进自动审稿生成。
具体到每个领域,数学大语言模型在提供证明方面具有巨大潜力。例如,AlphaGeometry 结合大语言模型和符号推理引擎解决了国际数学奥林匹克中的 30 个经典几何问题中的 25 个。
通过在 AlphaGeometry 中添加吴方法,可以进一步解决了 30 个问题中的 27 个,超越了人类金牌得主。FunSearch 将大语言模型与程序搜索集成,在组合优化中找到对 Cap Set 问题的新解决方案。这些生成的解决方案可以比人类专家设计的更快更有效。
化学大语言模型促进了自动的化学研究并帮助药物和催化剂设计。例如,Bran 等提出了一个化学大语言模型 Agent,ChemCrow,可以集成专家设计的有机合成、药物发现和材料设计工具。
Boiko 等开发了一种大语言模型赋能的智能系统 Coscientist,能够设计、计划和执行化学研究;ChatDrug 使用带有提示模块、领域反馈模块和对话模块的大语言模型进行药物编辑;DrugAssist 通过人机对话进行分子优化;Sprueill 等使用大语言模型作为 Agent,通过蒙特卡洛树搜索和原子神经网络模型的反馈寻找有效的催化剂。
生物和医学大语言模型也被用于自动化实验研究。例如,CRISPR-GPT 通过领域知识增强的大语言模型 Agent 改进 CRISPR 基因编辑实验的设计过程。此外,大语言模型可以编码生物序列以捕捉结构特性,指导蛋白质设计,并评估病毒变体的进化适应性。
例如,ESM-2 可以在没有昂贵且耗时实验的情况下准确预测蛋白质结构;Ferruz 和 Höcker 在蛋白质数据上微调大语言模型,可以生成高度分化但仍具有潜在功能的新序列;Hie 等开发了可以预测病毒逃逸突变的大语言模型。
总结
在这篇综述中,我们调研了科学领域大语言模型预训练所用的数据、架构和任务,并探讨了它们在科学发现中的下游应用。特别是,我们强调了在不同领域和模态中观察到的类似架构、任务和趋势。除了回顾先前的研究,我们还提出一些挑战以激发对这一主题的进一步探索。
深入细粒度的主题大多数现有的科学领域大语言模型针对的是粗粒度的领域(例如化学),而某些任务依赖于细粒度主题的专业知识(例如,铃木偶联反应)。当科学领域大语言模型在更粗粒度的语料库上进行预训练时,频繁出现的信号可能会主导模型参数空间,而领域特定的尾部知识可能会被抹去。我们认为,自动建立细粒度的、主题集中的知识图谱并使用它们来指导生成过程将是解决这一问题的一个有前途的方向。
推广到分布外的科学数据在科学领域,测试分布与训练分布发生偏移是常见的:新发表的论文中不断涌现新的科学概念;测试过程中可能出现具有分布外骨架的分子和具有分布外肽链数量的蛋白质。处理这种数据仍然是科学领域大语言模型的一个挑战。据我们所知,不变学习可以作为分布外分析的理论基础,而如何将其整合到大语言模型预训练中值得探索。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
微信扫码关注该文公众号作者