上海AI实验室欧阳万里:科学家为Al for Science提供了好的原材料,就看AI学者如何加工|MEET2024
编辑部 整理自 MEET2024
量子位 | 公众号 QbitAI
Nature今年的统计显示,有78%的科学家还没有将ChatGPT等AI工具纳入日常研究中来。
从某种意义上来说,Al for Science这一新的研究范式其实早就帮科学家们搭好了利用AI能力的桥梁。
就在MEET2024大会现场,上海人工智能实验室领军科学家欧阳万里教授也指出:
科学家们观测到的实验数据,相当于已经为Al for Science提供了好的原材料,而怎么加工这些原材料,就是AI学者能够参与的地方。
为了完整体现欧阳万里对AI以及AI学者助力科学研究(即Al for Science)的思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。希望也能给你带来新的启发。
关于MEET 智能未来大会:MEET大会是由量子位主办的智能科技领域顶级商业峰会,致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2024大会,吸引了超过300万行业用户线上参会,全网总曝光量累积超过2000万。
演讲要点
科学研究有四范式,现在来到了最新阶段:由人工智能驱动的数据密集型科学。
科学家们的优势和重点是高通量实验和计算,薄弱项是人工智能和机器学习,等于有了非常好的原材料但没有好的厨师。
Al for Science面临的挑战和其他AI领域类似,都有小样本、少标注、数据形式多样等问题。
人工智能是Al for Science关键的一环,但真正三足鼎立的是理论、实验以及计算。
(以下为演讲全文)
Al for Science有好的原材料,就看AI学者如何加工
大家好,今天主要给大家分享上海人工智能实验室的一些科研探索。
我们主要面向三大任务:
第一,前沿的基础理论;第二,基础系统;第三,关键的共性技术。
在这个实验室我主要负责AI for Science方向。
谈到AI for Science,我以前做的是计算机视觉,现在为什么又来从事这样一个新的方向呢?
这是因为,AI for Science在整个领域有很多应用以及很好的发展。
具体而言,我们的科学研究从最初的实验归纳到模型推演到计算机仿真,目前又来到了新的范式:
我们有了大量的数据积累,科研推理给我们的经验,以及计算机仿真给我们带来的利用计算机模拟世界的能力。
有了这样数据和理论,我们就可以利用人工智能对我们的数据进行分析,从里面找到合适的规律,从而进一步反演我们的世界,让我们能够利用计算机对世界做更好的预测,而且能够突破一些原来利用已有物理或者人们的知识而达不到的边界。
在这里面,人工智能是最关键的一环。
它另外一个有效的地方在于,中国在自然科学方面相比以前有了很好的进展,但相对于国外的话,我们仍然有很多地方需要改善。
而有了人工智能加持以后,我们希望跟中国科学家们一起合作,在自然科学研究方面实现弯道超车,在整个世界舞台上有更多的发展机会。
我们再回过头来看,来自于自然科学的学者们,他们有的优势是什么?
基础理论,自然科学家们在这方面有了非常深厚的积累,包括高通量实验以及计算经验的积累。
当一个科学家花了很多时间积累经验、积累高通量实验,在人工智能方面花的时间相对于本身做人工智能学者来说是少的,毕竟人的精力总是有限。
所以这方面,正是人工智能学者能够参与的地方。
总结来说,自然科学家们在这方面准备了好的实验数据、理论、和计算方法,相当于为AI for Science方向提供了好的原材料。
怎么对原材料进行加工,这成为了我们需要考虑的问题。
这好比我们做一道菜,有了好的原材料还要有好的厨师将原材料进行加工。
AI for Science领域希望AI学者加入进来和自然科学家一起合作,做出一道美味的佳肴。
在这方面不止我们实验室看到这样一个机会,国内很多高校以及企业也都看到了这个方向的重要性。
国外企业如大家知道的谷歌DeepMind,正在这方面发力;中国很多相应公司也开始往这方面进行相应的投入。
Al for Science面临的挑战和其他AI领域类似
再回到开始那个话题:对于我个人而言,我是一个学者,为什么我要从事AI for Science?
主要基于以下两个原因。
第一,问题本身很重要,第二个,问题本身有趣。
关于问题重要性,在我个人看来,首先是它与其他AI领域具有类似的问题,比如小样本、少标注。这在语音和视觉里面经常被提到的,到了自然科学里面,变得尤为严重。
举一个例子,大家都知道AI for Science有一个著名的工作是将蛋白质折叠进行预测,来自DeepMind。
很多学者说未来它能获得诺贝尔奖,它做的事情是什么:当我有了一维的序列,边可以此得到蛋白质在空间结构上的三维结构。
原来大家是怎么干的?需要用上千万的设备,大概花一年左右时间才能得到这样的结构。
当做好这件事情以后,很可能一个科学家就能发表一篇Nature或者Science的文章。
这证明这类研究不是普通人就能做的,它需要大量的投入以及真正的专家才行。
有了AI for Science能干什么呢?
利用人工智能模型,AI for Science的学者能将这件事情做得不错。
但是我们可以看到,要得到三维结构,可能需要一个学者投入一年时间才能得到一个样本标注。
这样一来,我们得到样本数目的效率远比语言模型、视觉模型的效率低很多,这必然让我们在很多类似的科学问题上面临少标注的问题。
样本量也会有少的问题,像我们模拟非常底层的分子动力学的时候,有时显微镜都得不到相应的样本,使得问题更加严重。
另一方面我们会面临数据表现形式多样性的问题。
自然科学从物理到生物到地球科学,有不同的表现形式,有非常底层的原子的表示、分子的表示,有基因蛋白等等的表示方式,如果来到地球科学又有大气的表示。
表达形式本身多样的形式下,怎么把数据处理好成为一个问题。
当然,AI for Science本身也有一些独特的挑战,我需要跟科学家进行更多的合作,让他们帮我们建立更多的知识背景。
同时需要注意,在这个领域,理论、实验以及计算三足鼎立,AI不完全最重要的,它是其中重要的能带来突破的一环。
我们跟科学家合作的时候需要尊重以及了解到他们在这方面已有的知识,从而在合作过程中建立互信,互相尊重做出更好的工作来。
两项Al for Science科研成果介绍
下面将介绍我们在实验室的工作。
RNA三维结构预测,显著提高样本利用率
在实验室,我们希望能够从微观原子分子层次看到最宏观的宇宙层次,我们这么做背后的原因是我们看到了自然科学本身是有共性的。
有一门科学建立了它们之间的关系:粒子天体物理学。
它利用的是在微观粒子中的理论来帮助研究非常宏观的宇宙天体的问题。
既然在科学上本身有共性,我们以AI眼光看待从微观到宏观的自然科学的时候,实际上它们也有共性的问题。比如我前面所提到的少样本少标注。
由于时间关系我们不会介绍所有的。拿少标注问题来说,我举其中一个例子:
在生命科学方面,我们希望利用各个不同组学信息让AI模型做各种各样的问题。
比如我们在RNA转录组方面的探索。RNA是一个AUCG一维的序列,我们有了这样的序列以后,希望从这样的输入信息对RNA本身有什么样的功能和结构进行预测。
这样一个看起来能够利用深度学习做的事情,我们面临什么样的问题呢?
我们做的是结构预测这件事情,但结构样本的数目目前不足六千,如果你能得到重要的RNA结构又是刚才说的故事,一年发一篇Nature文章。这意味着只有顶尖学者才能得到其中的1—2个样本,非常少。
如果要处理好这个问题——RNA本身有很多序列,不知道功能的序列很多。我们可以利用不知道的标签数据做无监督学习,把数据本身当成标注做个自监督的学习方法,就能够得到预训练的模型。
利用这个模型再去做下游任务的时候,因为有了自监督方法,会让我们下游任务做的更好。
实验发现,这个方法能在很多像结构功能这样的预测上达到很好的效果。
风乌气象大模型超越DeepMind
另外我们实验室的一个探索是地球科学方面,目前主要关注的是气象。
这个问题中国早在秦汉时期就开始尝试感知气象了,当时利用的设备叫做相风铜乌。首先感知到气象才能预测到气象。
中国古代预测气象依靠什么?观天象,钦天监就是干这件事情的,但在那个时候主要依赖的是人的判断,而不是利用科学模型。
来到现代,开始有人提出来我们是不是可以利用物理模型做这件事呢?
早在100多年以前,来自于欧洲和美国的两位学者确实提了,经过一百年的探索以后大家发现,每经过十年的研究,能够将有效预报的能力提高一天。
这说明两件事情:
第一,利用物理方法去做气象预报是可行的。
第二,随着物理方法的改善以及计算量能力的增长,预报能力在逐年提高。
在国内外,研究机构和高校相应地开设了研究部门来做这方面的研究。
我们的实验室也是,基于多任务学习的印度洋偶极子预测,首次将印度洋核心气候指标的可用预报技巧提前至7个月。
另外一个工作就是风乌模型,它的名字来自于我们刚才说的相风铜乌。
该模型输入全球当前时刻五个气象要素,温度、湿度、风速等,利用这些要素来预测下一个小时的温度、湿度等。然后把它的结果和数据放到风乌里面再预测下一个时刻,下下时刻。
这是风乌的整个运行模式,跟目前利用物理方法做这个事情是同一个逻辑。
利用这个模式我们可以预测未来1天、2天、10天、14天的结果。
并且还可以利用历史上的数据,比如前年的数据去预测去年。这个时候我们数据本身就是要预测的标注了,它的逻辑跟做疾病预测是类似的。
风乌模型的创新点包括基于多模态多任务的网络设计。
以往方法只是认为它们是跟图象里的RGB一样,直接把它们全部对接到一起,给到一个模型就行。然而我们利用多模态方法做这件事情,效果很好。
另一方面,我们认为既然这是多模态问题,那就可以类似地来看输出,让它成为多任务的问题,利用多任务学习方法可以自动调节各个不同要素的重要性。
最终对比DeepMind在Science上发表的GraphCast模型,我们的方法在80%指标上都获得了更好的性能。
此外,我们也是首次让有效预报天数超过10天的气象预报模型,利用我们的方法可以只用一张GPU一分钟生成未来14天全球所有的地区的高精度气象预报结果。
这是我们的方法在中国气象局实际操作预测的结果。
右上角是不同预报模型的结果,包括来自于欧洲、美国等等的,右下角结果是最终他们测定的真实结果。
可以看到,我们比较准确的预测到这个台风能走到雷州半岛,这个方法准确率最高。
另一方面,第三方机构对于前面一年和最近以来在中国登录的所有台风预测也做过统计,结果发现,我们方法相对已有的物理方法以及AI方法都是更好的。
总结而言,AI for Science是跟其他领域有着类似问题的领域,AI for Science在未来将会对于整个自然科学领域带来更深刻的影响。
在这方面我们希望能够与自然科学方面顶尖的学者进行合作,来做出来更多的突破工作,也欢迎大家联系我们进行合作,谢谢大家。
— 完 —
点这里👇关注我,记得标星哦~
微信扫码关注该文公众号作者