对话深势科技&北京科学智能研究院:AI for Science如何在学术界和产业界落地生根
邮箱|[email protected]
在本次直播对话中,我们邀请到了两位在AI for Science领域的杰出专家——深势科技生物医药工业软件负责人郑行和北京科学智能研究院算法研究员郑大也,一起聊了聊AI for Science的AI与传统AI的不同之处。
AI在科学领域的应用,比如在微观世界的模拟,新材料的设计,还有药物的研发,这些都让我们看到了AI for Science的巨大潜力,AI for Science正在推动跨学科的合作和创新。
我们讨论了AI在科研中面临的挑战,比如数据的质量和数量问题,以及我们如何用聪明的算法和强大的计算能力来解决这些问题。还有科研创新中数据驱动遇到的那些坑,以及我们怎么一一填平这些坑。
从实验室里的瓶瓶罐罐到产业界的大生产,学术界怎样迈出创新的第一步,产业界又如何让这些创新落地生根。
我们探讨了AI如何促进学术界和产业界的合作,以及它在解决数据共享和时效性问题上的妙用。
AI 和AI for Science的区别
郑行:在AI领域,图像和语音识别工具依赖大量数据来训练模型,这种方法在工业界应用广泛。然而,科学领域的数据通常来源于实验室,数据量和质量可能无法与工业界相比,使得传统依赖大数据的AI方法在科学领域不太适用。AI for Science的关键在于利用科学家总结的丰富规律和经验,这些通常以方程和公式形式存在,帮助AI理解世界的运作方式。
这样,AI for Science能够在数据量较少的情况下,训练出适用于特定科学场景的有效模型。与传统AI应用相比,AI for Science更侧重于学习科学原理,而不仅仅依赖数据驱动,这是它的主要区别和优势。
刘雨琦: 我们宏观世界是先有数据,然后标注、总结规律,再训练模型,但Science的领域,它刚好是反过来的流程。科学界会有一些沉淀,我们再把它反过来用一些少量标注的数据去训练模型就会更高效。
在AI for Science里AI 的难度在哪里?
郑大也: 在AI领域,目前最大的瓶颈并非技术本身,而是数据的缺乏。不同问题需要不同种类的数据,而这些数据的获取可能代价巨大。AI能够利用已知材料的数据,对未经过训练的新材料进行预测,并且取得了良好的结果。这表明AI工具在材料研究领域已经非常强大。尽管AI在泛化性方面已经取得了进步,但仍有进一步提升的空间。研究者们正在探索新的算法,以期实现更好的泛化性,使AI能够在更广阔的维度和更复杂的情况下有效工作。
郑行: 科学领域的实验室数据通常数量有限且质量不稳定,受环境条件影响可能出现偏差。这给AI for Science带来了小样本或zero-shot学习等挑战。为应对这些问题,我们采用物理知识融入AI模型设计,如在分子3D模型中加入不变性原理,以减少对大量数据的依赖。
此外,科学计算模拟可以生成大量多模态数据,尽管这些数据与实验室数据存在差异。构建和训练这些模型需要强大的算力,并且需要优化模型的推理精度和训练速度,以适应科学计算数据生成的缓慢性。
郑大也:AI for Science 可以帮我们解决科研数据问题,让我们能更深入地探索自然规律。虽然我们有很多科学知识,但把这些知识用在实际生产,特别是在微观层面,还是挺难的。
AI工具帮我们用低成本把基础规律用在模型上,国内也在这块创新,但我们需要一个强大的软件平台和社区来支持。实验室的数据和我们要预测的材料差距很大,有时候我们甚至不知道这些材料存不存在。我们想通过计算模拟来发现新材料,这就得用到第一性原理计算,用基本的物理方程来预测物理性质,好让新材料在实验中快速做出来。
ABACUS国产开源密度泛函软件就是一个典型的例子,作为高精度第一性原理数据生产工具,ABACUS已在近百种材料研究中发挥着作用。
刘雨琦: 现在实验室的数据和模拟的数据在整个AI应用的占比大概是什么样的比例?这两类的数据都在同样一种方法下面去做,还是说会被应用在不同的场景和方向?
郑大也: 实验室数据和模拟数据虽然都重要,但它们之间存在显著差异。模拟数据训练出的模型与实验数据训练的模型采用不同的方法,但可以协同解决科学问题。
大原子模型主要依赖模拟数据,用于预测元素周期表中的微观构型,这些在实验中难以实现。模拟的优势在于能快速产生大量数据,例如,利用超级计算机在几天内完成数百万次的模拟,远超实验能力。
刘雨琦: 我们现在有一些这样的案例,比如说它其实并不存在于实验室里,而是我们模拟推测出来的一些数据,然后我们又应用在了这样的大模型的训练的过程中,现在有没有一些这样的案例出来了?
郑大也: 现在这方面的案例还是比较少的,最大的瓶颈还是在于现在AI的工具还是不够。基于这样的瓶颈,我们才开发了这样的一个大原子模型。这个模型能够处理从几个原子到上万甚至百万原子的尺度,但即便如此,这个尺度对于实际的实验结果来说还是偏小。所以可能还会有一段的开发过程,我们才能够真正把它带到一些有限元分析的真正宏观的工具中去。
刘雨琦: 也有一个大原子模型吧,DPA有什么区别呢?
郑行: DPA这个项目是基于DeepModeling社区,经过北京科学智能研究院、深势科技、北京应用物理与计算数学研究所等 29 家单位的 42 位合作者的通力协作开展的。我之前说的大原子模型,英文名叫OpenLam,也就是Open Large Atomic Model,DPA就是这个模型的一个节点工作和重要组成部分。
我想再多补充一点的是,在工业设计,比如汽车和飞机制造,风洞模拟这些技术已经很成熟了,但微观领域的材料和分子模拟,大家就不太熟悉,因为它们不像宏观物体的气流那样直观。
实际上,从上个世纪开始,科学家就用计算机模拟来研究分子和原子,预测它们组成材料后的行为。这种研发模式是先在计算机上预测,然后选几个预测结果做实验验证。随着AI技术的发展,我们进入了一个新的时代。以前计算机搞不定的大计算,现在AI能搞定了。AI不仅能处理更大的体系,还能做更长时间的模拟,让我们能更深入地探索微观现象和宏观现实之间的关系。
生成式AI给AI for Science带来了什么?
郑大也: 生成式AI如GPT在技术路线上给予的启发可能比其直接应用更大。预训练大模型的概念和架构,例如transformer技术,为AI for Science领域带来了新的模型设计思路,并促进了模型在不同领域的应用和优化。同时,生成式大模型在解决人才瓶颈方面可能更有帮助。
AI for Science作为一个跨学科领域,需要AI与数学、物理、化学、生物等科学领域的结合。生成式AI能够快速提供背景知识,帮助来自不同领域的从业者快速了解新领域的基础知识,从而加速跨学科学习过程。生成式AI在日常开发和科研模式上带来的变化是巨大的。研究人员用GPT这样的工具,能快速获取新领域的背景知识和专家信息,了解领域常识,确定学习路径。
郑行: 生成式AI在科学领域的应用确实面临挑战。语言模型如GPT可能会产生幻觉或者不准确的答案,这对于科研的精确性要求来说是个问题。此外,计算模拟生成的虚拟数据需要在现实世界中得到验证,比如将模拟生成的材料或分子实际制造出来,这在化学合成中是一个挑战。
尽管如此,生成式AI在科学领域仍有发展潜力,它可以用于逆合成方法预测、实验条件预测,以及与自动化仪器结合进行批量合成。此外,生成模拟但有意义的数据来训练其他AI模型也是一个有趣的应用方向,比如将分子数据转化为图像数据,以辅助其他科学领域的AI模型训练。
在AI for Science的领域,是否会发展出通用大模型?
郑行: 科学计算需要在计算速度和结果精度之间找到平衡。目前,我们还不能同时兼顾两者。例如,在宏观尺度上,牛顿力学可以快速解决问题,但在微观尺度上,这种方法就不够用了。尽管未来我们可能会有足够的计算资源来构建高精度的大模型,但目前这还做不到。
郑大也: 尽管物理学家追求建立一个统一的大模型来解释自然界的所有现象,但这一目标一直没有做到。目前,我们只能在已知的领域内解决问题,并利用这些知识在实际应用中取得进步。尽管前路漫长,但我们已经取得的成就为未来的探索和应用奠定了基础。
数据驱动的科研创新有哪些痛点和解决方案?
郑行: 我们的工作更多是面向应用,比如为电池研发企业或药企打造所需的功能。这些企业并不直接需要大原子模型本身,而是需要高精度的计算方法来对应实验结果。我们使用大原子模型(DPA -2)进行分子离场的调优。这项工作已经发表。虽然简化的分子离域方法成本较低,但在精确度上不如量子计算。
为了解决这个问题,我们使用量化计算来调优分子离场,使其在特定场景下的计算结果接近量化计算的精度,提高推理速度,降低成本。通俗的讲,企业侧需要的是具备上述能力的“产品”。例如,我们看到的是代码数字,企业看到的是可视化的操作界面。
郑大也:我们研究院的主要工作还是在怎么去更好地去构建大原子模型。现在大原子模型已经可以覆盖合金、动态催化等领域,并且可以通过添加少量第一性原理数据,在特定场景下蒸馏出有用的简化小模型,以解决实际问题。对于尚未覆盖的场景,需要使用第一性原理计算软件来提供新数据,扩展大原子模型的能力边界。
为了将大原子模型应用到新场景,如磁性计算,必须确保模拟结果与实验结果一致,包括磁化曲线、各向异性、磁构型和磁畴动力学结果。
只有当模拟与实验数据完全匹配时,大原子模型才能成功应用于新领域。科学计算需要持续的软件支持和强大的硬件基础,即算力。软硬件的结合是生产高精度数据、推动AI与科学领域发展的关键。
刘雨琦: 是说我们先基于学术界的一些数据,把基础模型做出来,然后在产业里面去做实验,对这个模型进行调优么?
郑行: 模式有很多,也有企业愿意跟我们分享它的数据,但是其实对企业,比如说药企,其实每一个分子都是非常宝贵的,它有专利保护,所以不一定我们每一次都能够接触到。
从实际应用角度来说,第一个是文献专利,广泛收集我们能够使用到的数据,从里面去提取这些对应的数据进行研究。另外一方面,在大原子模型基础上,针对特定场景使用他们关心的数据进行调优。
郑大也: 学界相对于产业界来说,心态更加开放。开源软件和社区的建设有助于团结更多的人,促进知识的共享和协作。痛点主要还是来自于时效性的问题,研究者可能需要等待文章发表后才愿意公开数据,因为存在文章投稿和审稿周期。物理化学方向的审稿周期可能较长,而AI方向的审稿时间相对较短。文章发表后,公开相关数据的压力会小一些。
另一方面,学界产生的数据种类繁多,不同课题组的研究方向可能完全不同,很少有一份数据可以被所有课题组使用。这种多样性导致收集到的数据之间的差异性很大。使用大原子模型将这些数据集合在一起,学习其中的科学知识,并将其应用于新场景时,面临很大的挑战。
刘雨琦: 面对时效性等问题怎么解决?是否要构建类似于生态一样的东西,让研究者们可以通过这些工具来跟我们共享数据?
郑大也: 学术界对于时效性相对没有那么敏感,科学问题是客观存在的,数据即使过了一段时间仍然有价值,且包含了深厚的知识积累。学术研究中,数据收集和模型训练是个耗时的过程。研究者可以在这一过程结束后,选择适当时机公布数据。
同时,他们还可以利用这段时间迭代和优化AI算法,确保在数据公开时,算法和模型都是最优的。一旦这些经过优化的AI模型和数据公开,它们就能被更多的研究团队和企业使用,这样不仅推动了科学研究,也有助于科研成果在产业界的应用和推广。
刘雨琦: 我们现在和学界是怎么合作的,以及学界对于AI for science做研究的这件事情的态度和热情是怎么样的?
郑行: 从数据角度来看,数据安全是产业界非常重视的。例如,一个分子可能价值连城,因此大多数情况下数据分享比较“封闭”。合作通常从在内部数据或测试集上测试方法开始,只有在证明有效后,才可能讨论使用内部数据构建定制化模型或将方法部署以供对方使用自己数据训练模型。
产业界数据量有限且质量不一,如生物医药领域数据多样性和不一致性,以及实验条件变化导致的偏差,这些都给AI建模带来挑战。
此外,文献和专利中蕴含的大量数据尚未充分利用,国外数据库虽数据丰富但成本高昂,且存在使用限制。大模型的发展为从文本中提取数据提供了新途径,但也带来了分子式书写多样性和多模态数据提取的新问题。
从商业角度来看,产业界不太关心使用的是物理方法、AI方法还是人工标记方法,他们更关注结果的准确性和成本效益。只要AI方法在效果验证上是可行的,产业界就会更加开放接受。
刘雨琦: 数据底层比较复杂的时候,对于算法就提出了更高的要求,我们是怎么解决这个问题的?
郑行: 我们还是会尝试将物理知识融入建模里去。利用置换不变性和平移不变性等概念,即使在数据量有限的情况下也能训练出效果良好的模型。我们最近有个叫Uni-pKa的工作,它预测分子的质子化状态,即分子以不同形式存在的概率。这在物理上是一个能量分布问题,能量较低的结构更稳定,出现的概率也更高。
传统机器学习方法在建模时可能直接预测最可能的状态,这可能导致模型在训练数据偏向某一状态时无法准确预测其他状态,有时需要为不同状态单独建模。通过基于物理原理的建模方法,可以扩展模型的应用范围,如在不同pH条件下的预测。同时,确保物理守恒定律的满足对于模型的准确性和可靠性至关重要。
郑大也:关于数据方面的挑战,科研人员常从文献中寻找灵感,如果能够将文献中的实验结果或理论计算结果提取出来,并加入到AI模型中,会极大丰富数据资源和提升AI的能力。面对文献中可能仅有少量数据或描述的情况,可以使用第一性原理软件来模拟和复现实验结果。这样,可以确定需要何种量级精度的计算才能达到复现实验结果的要求。
刘雨琦: 产业界确实很需要学术界的帮助,但同时我们也好奇,为什么学术界要推动AI for Science商业化,让它落地,跟产业结合。站在学术界的角度,他们是怎么看待这件事的?
郑大也:AI for Science为学术界提供了强大的研究工具,尤其在微观领域,AI能高效地解决高精度模拟难题。产业界对这些工具感兴趣,但成本和实用性是其顾虑。学术界若能提供快速筛选有效方案的工具,将为产业界节省时间和成本。尽管产业界愿意尝试,但学术工具的实用性和工程化水平是关键。我们研究院正致力于解决这些问题,以确保软件在产业界的稳定应用,从理论到实践还需深入探索和工程化。
刘雨琦: AI是否有能力预测在实验室进行的重复实验过程中,例如在第640次实验时,可能出现的特定结果?这样的预测能力可以帮助研究人员提前优化实验方案,提高研发效率。从消费者的角度出发,我关心的是AI技术是否有可能降低目前高昂的制药成本。这虽然是一个商业问题,但它直接关系到消费者的利益。我想知道,AI技术会不会把很高昂的药物研发的成本降下来,让这些药物比较普适化,会不会带来一个整个产业链上的一个改变?
郑行: 我们的计算方法Uni-FEP,基于自由能微扰理论、分子动力学和增强采样算法,具有化学级别的精度,与实验室结果相匹配。这个方法的应用,并不是取代实验,而是通过模拟预测来提高实验的成功率和效率。例如,如果以往我需要进行100次实验来得到一个成功的结果,现在可以先用UP进行一万次模拟,筛选出最有潜力的100种药物进行实验,这样大幅提高了成功率。这种方法不仅提升了效率,也降低了成本。原本需要实验100次,现在可能只需要实验计算出的前10种,成本降低了十倍。
AI和物理模拟方法虽然有局限性,但它们作为工具,可以扩大我们的探索范围,减少实验成本,最终帮助提升研发效率。药物研发是一个复杂且耗时的过程,通常需要投入巨大的时间和资金。但现在,借助AI技术,一些公司已经能够显著缩短研发时间,从几年缩短到几个月。这表明AI技术在药物研发中发挥了积极作用,虽然还需要时间来验证其长期效果。
产业界关注的是结果,而不是使用的具体技术。只要AI能够带来实际效益,帮助企业推进研发进程,就是积极的信号,也是我们继续发展AI技术的强劲动力。
"目前在AI for Science的发展进程中,我们走到了哪个阶段,接下来的研究和发展计划包括哪些关键目标或步骤?"
郑大也: 我们现在在AI for Science领域确实遇到了一些挑战,特别是在底层的第一性原理计算上。我们的目标是找到一种方法,既能保持计算的高精度,又能尽量减少对算力的需求。简单来说,我们想要用更少的资源,得到更准确的结果。
我们正在做的,就是利用AI技术来提升我们的计算能力。比如说,我们希望能够用AI来预测电子的行为,比如它们的电荷密度的分布,自旋状态,或者它们的光学性质。这些都是非常精细的物理性质,对于理解材料的性能至关重要。
另外,我们还想看看材料在电场或磁场作用下的反应。这可以通过AI来模拟,帮助我们更好地理解材料在实际使用中的表现。
我们还有一个大计划,就是把我们通过AI得到的这些高精度数据,整合到我们的大原子模型中。这样,我们就能在更大的尺度上,更全面地模拟和预测材料的行为。
最后,我们当然要确保这些计算结果在实验中也能站得住脚,这样我们才能说我们的AI方法真正有效。
我们正在使用的ABACUS软件,是我们为AI提供大量第一性原理计算数据的一个强大工具。我们会继续优化它,让它能够产生更精确的数据,帮助我们训练出更好的材料模型。
郑行: 我觉得历史是留给后人评述的,我们现在可能很难站在现在这个时间点说AI for Science在历史上走到了什么程度。AI for Science是一个相对较新的领域,但已经在特定场景中得到应用并提升了工业生产和研发效率。然而,作为一个新兴领域,它在不同场景下的应用程度不一,仍有许多需要专攻和验证的地方。如果将AI for Science比作GPT模型的发展历程,目前可能处于GPT 2到2.5的阶段,意味着还在使用大量数据训练模型,并通过其他方法优化以适应特定应用。
AI技术的发展历史悠久,从早期的机器学习到深度学习,再到预训练模型,每一步都伴随着算力的提升和数据的积累。AI for Science虽然起步较晚,但发展迅速,已经在实践如大原子模型等先进技术。所以如果回溯到science的场景来说的话,我觉得现在其实已经走的很快了,我们不看绝对的发展水平,而看其发展速度(斜率),所以这个领域还是非常快速发展的。
AI for Science领域相比起AI来说需要更多的交叉的背景,这也意味着更大的机遇以及更多的兴趣。
微信扫码关注该文公众号作者