AlphaFold3 要帮人类解析生命,做得怎么样?
本月初,谷歌 DeepMind 和谷歌旗下药物发现子公司 Isomorphic Lab 联合发布了生物学预测模型 AlphaFold 的最新版本——AlphaFold 3。
消息一出,便引发学界和科技界的震动。AlphaFold 3 能够预测包括蛋白质在内的几乎所有生命分子的结构和相互作用。在预测蛋白质与其他分子的相互作用上,AlphaFold 3 比现有方法的准确率至少提高了 50%,针对部分相互作用类别,准确率甚至提高了一倍。
DeepMind 宣称,AlphaFold 3 会大幅缩短新药发现和临床测试的时间,靶点验证和药物设计阶段的时间可以减少一半。制药效率的提高,也为人类寿命延长创造了更多可能。张璐和徐魁分别来自学界和投资界,他们的分享会帮助我们更清楚认识 AlphaFold 3。
声动活泼
AlphaFold 3 与 AlphaFold 2 相比有哪些区别?
徐魁
AlphaFold 3 出来时,我和别人介绍的时候会说,这是「三体」来了。AlphaFold 3 确实有很大的突破,功能上有很多扩展,解决了 AlphaFold 2 不能处理抗体、不支持蛋白质与其他分子相互作用的问题,而且能处理蛋白质上各种共价修饰,如糖基化、甲基化等。
AlphaFold 3 的算法还引入了最新的扩散模型(Diffusion Model),修改了 AlphaFold 2 耗时比较长的模块,使预测效率大大提高,比如,预测 5000 个氨基酸的蛋白复合物,过去需要五六个小时甚至一天,现在大约 20 分钟就能完成,这能极大降低实验成本,加快各项研究的进程。
▲AlphaFold 3能对感冒病毒刺突蛋白(蓝色)与抗体(绿松石色)和单糖(黄色)相互作用时的结构预测,与真实结构准确匹配(灰色)。| 图源:36氪
张璐
AlphaFold 3 不仅能处理蛋白质,还能同时输入核酸、小分子和金属离子等,可以预测小分子、不同离子怎么和蛋白质结合。这种预测非常关键。因为蛋白质不能孤立地发生作用,它一定要和其他物质产生交流,而这种交流是药物设计、研发中比较重要的部分。
AlphaFold 3 的用户界面(UI)也非常友好,降低了使用门槛,没有编程背景的人也可以使用。这其中也有英伟达发挥的作用。
AlphaFold 3 还有一个重要进步是预测精准度的提升。AlphaFold 2 的技术虽然让人惊艳,但真的用于临床、药物研发时,精确度差了一点也用不了。精确度提高以后,一些结构就可以直接应用,而且是相对复杂的复合物的结构,对于整个产业的影响还是巨大的。
另外,我们研究发现,AlphaFold 3 在 CPU 上的表现,比在 GPU 上还好。这对于产业界来说是一个福音,因为 CPU 比 GPU 要便宜很多,对算力的需求也没有那么大,那么不可持续。
声动活泼
AlphaFold 3 在底层设计或模型上具体做了哪些优化,能让预测速度提高这么多?
徐魁
主要有两方面优化。首先,在网络结构设计上,AlphaFold 3 采用了新的模型架构。之前的 AlphaFold 2 主要用于蛋白质结构预测,需要输入蛋白质序列并进行同源序列搜索,即通常所说的 MSA。这一步可能会搜出十几万甚至上百万的序列,计算量非常大。AlphaFold 3 采用了 Pairformer 模块,对 MSA 进行了多方面改进,此外还减少了一些模块,使计算效率和内存大大提升。
另外,在 Relax 这一步,AlphaFold 3 也将原来的多步骤流程简化为一个端到端的模块。
张璐
简单来说,就是把流水线变成了一体化。流水线有多个步骤,每个步骤之间可能会出现错误,降低了准确性和速度。AlphaFold 3 采用一体化设计,既准确又高效。
扩散模块也很重要。通过扩散模块,先渲染分子结构,然后用去噪方式从原子云中由繁化简获得这个结构,过程非常高效。
此外,AlphaFold 3 还通过数据的预训练去提高准确率,降低了幻觉的可能性。
所以,AlphaFold 3 的提升不是依靠单一技术,而是先调整优化底层模型,又在底层模型上加入很多元素,再进行优化,再加上整体流程的优化,最终呈现出高效且准确的结果,覆盖范围也很广。
▲ AlphaFold 3 的架构。| 图源:《自然》
声动活泼
英伟达今年的开发者大会有很多药企员工参加,这是以前没有的。他们想把药物研发流程与英伟达的解决方案结合起来,但目前大部分人还没有清晰的路径。这是不是说明 AI 在药物研发的应用层面还处在比较早期的阶段?
徐魁
AlphaFold 3 在药物研发上是有巨大潜力的,特别是靶向蛋白的药物,目前的软件在处理蛋白和分子的结合上还非常受限。AlphaFold 3 在药物筛选上节约了很多时间,而且准确性也很高,在方法上是一种「降维打击」。
张璐
AlphaFold 3 在寻找新靶点方面效能提升显著,不仅更快,还能找到更多靶点。
不过从科技投资的角度看,我们也要非常现实地去考虑商业应用的前景以及周期。药物研发有两个阶段,一个是研究阶段,找到潜在的新药;另一个是临床阶段。AlphaFold 不能加快临床试验的速度。也就是说找到靶点的时间可能从两年缩短到几个月,但临床试验仍需 7 年 10 年。所以我们需要对技术的商业化周期有合理预期。并不是有了 AlphaFold 3 ,药物研发就会在两三年内完成。
我们在看 AI 技术在医疗和生物工程领域的应用时,需要保持客观态度。AI 不是万能的,最终还是需要人类的参与。比如,找到许多潜在的靶点后,选哪个推进,临床怎么设计,都需要人的判断。哪怕用 AI 进行临床模拟,和实际情况还是不同的,人体太复杂了。
徐魁
我同意 AI 在医药和其他行业应该被理性看待。但目前对 AI 的看法有一种倾向,就是短期内被高估,长期看被低估。
AlphaFold 3 也可能加快临床试验的进程。因为它的准确度更高,意味着筛选出的药物更准确,那么以前筛选出 10 种药,可能只有一种有效,现在可能大部分有效。这样也会降低临床试验的成本,减少临床试验的时间。
另外,DeepMind 的 创始人戴密斯·哈萨比斯(Demis Hassabis)曾说过,AlphaFold 的目标是 AIDD(AI Drug Discovery,人工智能药物发现),AlphaFold 3 只是其中的一步,可能需要 6 个版本的迭代才能真正实现完全的 AI 药物发现。
张璐
对,从更宏观的角度看,临床成功率确实提高了,这是很大的推进。
另外,除了药物研发,AlphaFold 还有一个非常巨大的市场——化工行业。化工行业用到很多蛋白质的酶,而且不需要临床验证,商业化也会更快。
声动活泼
有人说 AlphaFold 3 在药物开发方面可能有 500 亿的市场,也有人说是 1000 亿,它的规模到底有多大?化工市场呢?
张璐
医疗市场非常巨大。美国的医疗市场占美国 GDP 的 20%,而且这个比例还在增加,其中一大部分是与药物相关的。相比之下,中国的医疗市场占中国 GDP 的 5%,而美国的 GDP 又比中国大。此外,美国的药厂服务全球市场。
化工行业也是一个巨大的市场,涉及我们生活的方方面面。比如轮胎就是化工产品,很多日常用品都属于精细化工产业。化工行业随便一个领域都是万亿级别的。
而除了经济效益,在化工产业应用 AI,除了降低成本,增加效率,还能减少传统化工过程对环境的伤害。
声动活泼
现在药企已经把 AI 应用到药品研发中了吗?
张璐
大药企现在手头现金比较多,预算也在增加。药企的高层经常讨论如何建立自己的数字战略。药企手上有大量数据,需要用 AI 挖掘价值。不过由于药企内部没有合适的 AI 人才,而且药企是高监管行业,所以更倾向于找第三方公司处理敏感数据,这样风险更小。
这也造就了一个新的生态,那就是大型药企与初创企业的合作,以前这样的合作是很难建立的。另一方面可以看到,英伟达从 2017 年就开始布局医疗领域的 AI。AI 需要海量的、高质量的、多样性的数据,哪个行业有最多这样的数据?就是医疗行业。
很多药企选择 AI 模型时,不会选择通用大模型,尽管通用大模型有解决各种场景问题的潜力,但成本太高。像医疗医药这样专精的行业,更适合行业专属的、比较小的模型,还可以不断优化、迭代。对药企来说,成本是重要的考量因素,他们需要的是更好、更快、更便宜的解决方案。所以现在很多公司不是去和 AlphaFold 竞争,而是要在 AlphaFold 的基础上训练自己的行业专属模型,再应用于客户服务。
徐魁
目前生物界还没有类似 ChatGPT 这样的大一统模型。如果 AlphaFold 3 开源,大家可以基于它开展各种下游的迭代和优化,否则自己从头做,成本是巨大的。
声动活泼
来谈谈 AlphaFold 3 局限性吧。
徐魁
AlphaFold 3 的缺点包括冲突(clash)、幻觉等。
冲突是指有时模型会预测出两个原子靠得特别近,甚至两条链混在一起。这在物理和化学上都是不可能的。这种问题在训练过程中可以通过加惩罚项来解决,但在预测时无法保证。这也是 AlphaFold 2 就存在的问题。
幻觉指的是模型有时会预测出一些并不真实的结构。比如,通过电子显微镜或 X 射线解析蛋白质大的结构中的某一个区域时,其他区域的分辨率很低,看不到,但 AlphaFold 3 会给出一些结构,这可以认为是模型的「幻想」。为了解决这个问题,AlphaFold 3 花了很大力气训练,但问题依然存在,用户很难区分这一区域是真的,还是幻想的。
还有一个问题,蛋白体内有多个状态,大家想多拿到一些状态,但 AlphaFold 3 是做不到的。
另外,DeepMind 基于 AlphaFold 3 推出的免费平台 AlphaFold Server,所能使用的功能还是很有限的。
▲ AlphaFold Server 主页截图。
声动活泼
刚刚提到,可能要等到 AlphaFold 6 才会有革命性的变化。从现在到 AlphaFold 6 会是线性的过程吗?还是会集中爆发?我们能展望一下未来吗?
徐魁
我认为这会是指数级别的快速迭代过程。AlphaFold 2 出现时,学术界进行了大量探索,发现它有更多功能。等到 AlphaFold 3 出来,会有更多人参与进来,无论是蛋白质相互作用、抗体,还是小分子、修饰等各个领域,都会有爆发式增长。
当然, AlphaFold 3 也面临挑战,最大的限制是数据,目前能用的数据应该都已经用了。
张璐
我也认为未来会是指数级的增长。从 AlphaFold 2 到 AlphaFold 3 仅仅用了几年时间,进展速度非常快。随着更多资源和人才进入这一领域,跨学科的合作也在增加,我对未来非常乐观,相信接下来几年将是医疗和生物工程的大好机会。
虽然 AlphaFold 3 还有很多不完美的地方,但这无疑是通向完美的关键一步。
你对未来的医疗科技有怎样的期待?来评论区聊聊吧。
以上内容整理自
声动活泼旗下播客「科技早知道」
想更多了解 AlphaFold 3
欢迎点击收听
也可在各大音频、播客平台搜索本期节目
监制/徐涛
编审/东君
文字支持/KTzhou
设计/Mori
排版/Xinghan
运营/George
更多有趣问题
欢迎来声动活泼找答案
微信扫码关注该文公众号作者