低调又迷人,它完成了DNA和蛋白质都无法做到的事 | 西湖大学付向东教授对谈《环球科学》
RNA不只是DNA指导蛋白质合成的简单中介,它在各种基础生命活动的调控中所扮演的角色,经过数十年的研究,正以一系列出乎意料的方式出现在科学家的眼前。在《环球科学》2024年7月刊中,我们有幸邀请到西湖大学生命科学学院和医学院的讲席教授付向东老师翻译封面文章《RNA:掌握生命后台》。付老师主要研究RNA生物学与再生医学,并且曾经在ENCODE计划中参与RNA结合蛋白的表达和功能研究。于是,我们简短地采访了付老师,聊了聊RNA生物学领域的发展历程,以及他对这篇文章的看法。由于采访对象多年的工作习惯,对话中有多处中英夹杂。我们在音频文字稿中使用了相应的中文翻译,并将英文原文附在了括号内,以便大家能更好地理解。
黄雨佳(《环球科学》编辑):
付老师好!首先非常感谢您参与我们这一期非编码RNA相关的文章的翻译,也非常感谢您接受这次采访。我们也知道您在RNA生物学领域其实已经深耕了非常多年,在这个领域也享有盛誉。但是能不能给一些可能不太熟悉您的读者介绍一下您自己和您的研究工作的方向?
付向东(西湖大学教授):
这个话题挺长的,那我就简单说说吧。实际上我是从博士(PhD)阶段就开始接触RNA,当时是做劳斯肉瘤病毒(Rous sarcoma virus)。这是一种RNA病毒,我那时候研究它的复制。因为它的基因组是RNA嘛,我们研究这个RNA病毒的装配的机理。
实际上RNA一直挺火热的,一直是发现的中心,每隔几年就有一个突破。我做博士后时候的突破就是做到了体外剪接(in vitro splicing),这样所有的RNA加工都可以在体外进行了。所以那个时候才开始。你看现在几十年以后,所有的机制(machinery)不是都搞明白了?包括施一公的工作——剪接体的结构。当时是一无所知。
所以那个时候我就申请了汤姆·马尼亚蒂斯(Tom Maniatis)的实验室(lab),在美国哈佛大学(Harvard University)。他们实验室(lab)也是一直很前沿,做RNA加工的相关研究。同时那个实验室不光做剪接(splicing),也做转录(transcription),所以我觉得挺适合我的。实际上我就申请了那么一个实验室(lab)做博士后,然后他就录取我了。
我在他的实验室(lab)做了很多有意思的事情,包括鉴定了第一个剪接体的因子,后来导致了SR蛋白家族的发现,这个蛋白家族参与(involve)了组成型剪接(constitutive splicing)和选择型剪接(regulatory splicing)的RNA加工。后来这个工作做完了以后,我就很顺利地找到了工作。所以从1992年开始,我就加入了美国加利福尼亚大学圣迭戈分校(UC San Diego),继续做RNA的研究,一直到今天,算起来现在也有40年的耕耘了。所以我对RNA的加工,不管是编码(coding)RNA还是非编码(noncoding)RNA,以及RNA功能有一系列的研究。
回想起来,大概我主要的工作关注(focus)在:第一阶段的话主要是看剪接体、一些调控蛋白怎么来调控RNA的加工;因为这个里头就有很多RNA结合蛋白,于是就扩展(expand)到RNA结合蛋白去了。后来我们就发现RNA结合蛋白有很多很多不同的功能,不光是在RNA的加工方面,实际上在转录里也有很多作用,当然还有之后的翻译什么的。所以非编码(noncoding)RNA也接触了很多。
实际上,后来我们还发现,非编码(noncoding)RNA和编码(coding)RNA实际上也没有那么强的界定。编码(coding)RNA在真正作为信使RNA(mRNA)之前,在它加工的时候或者转录(transcription)的时候,它本来就是作为非编码RNA起作用(function as noncoding RNA)的,在细胞核里面。因为在细胞核里它也不编码,所以那个时候它们自己要起很多的作用。当时我们就强调,实际上是在RNA加工成熟、真正行使信使RNA(mRNA)功能之前,实际上起作用(function)的就是非编码(noncoding)RNA。
那当然不是说所有的都有功能了。这里牵涉到转录加工和转运的过程里,参与了一些基因表达的反馈调控、细胞核的3D基因组的形成和很多很多各种别的功能,你都没想到的,它们实际上在这个过程中都起到了作用。所以说,整个RNA这个过程,它是非编码(noncoding)还是编码(coding),那就取决于它是哪个时机。
那反过来,所谓的非编码(noncoding)RNA,现在也发现有很多的RNA它也编码(coding)。它只是在我们的认知范围以外,编码(coding)小的多肽(peptide),所以它也算编码(coding)。所以只要到细胞质里头来了,说明还有很多是编码(coding)的。但是大多数非编码(noncoding)RNA实际上主要是滞留在细胞核里。
黄雨佳:
虽然您说RNA生物学领域一直都很火,但是根据您参与翻译的这篇文章来看,它可能认为是ENCODE这个项目出来之后,大家才对RNA的认知逐渐多起来,才变得火起来。
付向东:
它是从ENCODE这个角度,因为ENCODE是第一次想系统地揭示人类基因组里面的功能。因为人类基因组计划主要是测序嘛,虽然花了10年,花了很多的钱,但是这也带来了一场革命。你拿到了这个基因组,也就是一个密码,这里头意味着什么,大家是不知道的,所以要有一个系统的工作(effort)。也是基于人类基因组计划完成以后,后续的一个非常里程碑的工作了,所以我也有幸参与这个工作。
但是从RNA的角度来说,这个非编码(noncoding)RNA、编码(coding)RNA并不是说从ENCODE开始,老早就有认识了。然后你要从RNA本身的角度来说,它实际上是有一波(wave)一波(wave)的发现(discovery),一直在引领分子生物学的前沿。
从最开始的RNA催化(catalysis)开始,大概就是八几年,托马斯·切赫(Thomas Cech)和悉尼·奥尔特曼(Sidney Altman)他们发现RNA有酶活性,因此得了诺贝尔奖。所以那个时候就已经非常地火热了。包括RNA的加工,RNA的加工跟II类核酶(class II ribozyme)实际上是用同一个机理。一个是要蛋白质来辅助,那就是必须要后面的剪接体;一个是根本不需要蛋白质,自己折叠(fold),只要有足够的镁离子浓度它就可以发生。
所以因此而产生了“RNA世界”假说(RNA world hypothesis),就是说我们的整个的生命体系大概是从RNA开始的。就是因为RNA是核糖核酸,它不是脱氧核糖核酸,所以它在第二位的那个地方是个羟基,而不是个氢。所以羟基就多了很多的内容,因为它有亲核能力来造成一些化学反应。所以最后就发现RNA既有储存遗传信息的功能,也有表达遗传信息的功能。因为蛋白质没有储存遗传信息的功能,DNA没有表达遗传信息的功能,所以说大家就认为,大概这个世界最开始是从RNA开始的。
黄雨佳:
对对对。但是就像您刚刚提到的,酶催化可能只是RNA功能的一个方面,但现在大家对RNA功能的认知大概有哪些方面呢?
付向东:
对,我接着刚才的说。就是说从RNA的催化,大家很快就过渡到RNA的加工。RNA的加工也是八十年代开始的,像菲利普·夏普(Phillip Sharp)还有理查德·罗伯茨(Richard Roberts)。实际上这里头还有一个中国人的贡献,实际上她贡献很大的,叫周芷(Louise Chow),是一个台湾省的女科学家,当时在美国冷泉港实验室(Cold Spring Harbor Laboratory)。实际上,断裂基因(split gene)这个RNA加工是她发现的。那个做得非常的好,然后因此也得了诺贝尔奖(注:菲利普·夏普和理查德·罗伯茨获得了诺贝尔奖,周芷并未获奖)。就是说信使RNA(mRNA)由不同的片段(fragment)来组成,最后拼接到一块。
这个东西大概跟进化有很大的关系,就是说我们的基因组怎么进化来的?所以说原来还有两个理论叫作“先有内含子”(intron first)和“后有内含子”(intron last)。“先有内含子”(intron first)就是说,我们的基因组实际上是一个随机复制(random duplication),很多的外显子(exon)插进去,然后以某种方式(somehow)连起来了。这样的话就可以让一些基因如果产生突变(mutation)以后不会产生很多移码突变。反过来,“后有内含子”(intron last)就是说,我们基因组大概是最小的单位,就像细菌(bacteria),它越小越好,利于它的生存和传递。然后这个内含子(intron,此处是口误)不断地加进去。所以这个内含子(intron)加进去以后把它分隔开了。
当然这是进化的理论,没办法证明(prove)。现在大家也不去争了,但是大部分认为还是应该是先有内含子(intron first),就是它原来就有,然后基因复制(duplication)以后慢慢把基因组扩大。所以加工剪接这个部分本身,对基因组怎么形成是有很多启示(implication)的。现在研究的时候大家不去注意它了,因为这个是个理论问题,是吧?
到了后来,你也知道,就开始发展微RNA(miRNA)了。这个微RNA(miRNA)本来就是非编码(noncoding)RNA嘛,所以在这个文章里头也写了很多。当然微RNA(miRNA)以后就是很多长非编码RNA(long noncoding RNA,lncRNA)。所以在这个时候,ENCODE也开始了,ENCODE无非就是更系统地来鉴定这些。
当然了,这些RNA相关研究的进步(evolution)一直到现在,包括CRISPR技术(technology),那也是RNA的东西。就是说,大概RNA领域每隔5年到10年就有一场革命。所以这就是为什么RNA领域过去几十年非常火热。
但是实际上你要更进一步地说,就从DNA双螺旋(double helix)开始,RNA就一直是一个信息传递链的中心位置了。因为它只有变成了RNA,它才能传递遗传信息。DNA双螺旋结构解析(double helix elucidated)了以后有很多的奇妙的猜想,我们做学生的时候就开始接触这个,就是说为什么遗传密码子都是3个。你想到没有?不管是在地球的任何一个角落得到的生物,它的密码子都是3个核苷酸(nucleotide)。你从来没听说过有2个或者有4个的吧。当然现在有的人就想打破这个特点。
黄雨佳:
非编码RNA这个领域它确实非常火,但是就像这个文章里说的,它也有很多的争议。就是有些人觉得,这个东西可能没有那么重要。我不知道您作为业内人士怎么看待这个问题。
付向东:
我也有自己的看法。实际上我觉得这个争议就是科学进步的本身。很多东西刚开始出来都是有争议的,而且越新颖的东西争议越大。你说的这个问题就是说,这个RNA产生是没问题的,但是有没有功能?有的人说它是一个转录(transcription)的噪音(noise),有的人说只要存在就有可能是有功能的。从某种意义来说,你可以举具体的例子,这两个都有。这就是一个哲学问题了,存在的意义。是有意义才存在,或者是存在才有意义。有的人他基本上就是认为,只要能够检测(detect)到,一定有点意思的。反过来你想想,任何一个机器(machine),不管有多精确,都会造成误差,会造成噪音(noise)。
所以说从噪音(noise)这个角度,我个人实际上是倾向于至少有一部分是噪音(noise)。因为这个机器不可能精确嘛。你看这个RNA加工,虽然我们知道内含子(intron)里头有很多调节性序列(regulatory sequence),但是加工完了以后,外显子(exon)拼起来了,内含子(intron)基本上都是降解掉了。所以,那些降解掉的一些片段,你说它是有用还是没用,对吧?就像你做一个机器,你总是有边角废料的嘛。你不能说是边角废料存在,这个就是有功能的,对不对?
再加上很多人也争论(argue)说,一个细胞里头平均起来不到一个分子,所以你这个很难想象它有什么具体的功能。当然反过来,这里头也争论(argue)了,就是托马斯·金格拉斯(Thomas Gingeras)。他就是说你这个是多个细胞的RNA序列(bulky sequence)得到的结果,谁知道哪一个细胞在某一个阶段它表达很多,然后它有功能,这也是有可能的。但是都是假设可能存在(hypothetical)的功能。
生物体的奇妙就在于,它每一个机器都有误差,加在一块非常的精确。只有有误差才有可能进化,因为误差才是进化的源泉嘛。你看我们人类的进化,大部分的基因或者突变都是有坏的,但是也是好东西的来源,它就可以选择(select)了嘛。你要是那么精确,一成不变,那就是个机器。那生物的奇妙就在这,所以我觉得争论每一个RNA是有意义还是没有意义,我觉得这个没必要这么争,是个无意义的争论,我是这样认为的(in my opinion)。只是随着我们的认识不一样,逐渐地深化,逐渐地认识到有一些新的东西是我们不知道的。
黄雨佳:
嗯。从一个学科角度来说,可能确实是这样,但是如果从制药的角度来说,这个RNA是不是有功能的,是不是还挺重要的?
付向东:
制药那就是应用范畴的东西了。制药离科学的发现那差得很远的,所以这个应用早着呢。你不管是噪音(noise)也好,有功能的也好,慢慢逐渐意识到这些功能以后,会逐渐变成一些可以应用的东西。
黄雨佳:
那所以您对非编码RNA相关的这些药物开发领域有一些什么样的看法或者了解吗?
付向东:
从我个人的角度来说,非编码RNA用在药物里,无非就是用微RNA(miRNA),或者更多是小干扰RNA(siRNA),就是基因沉默的一个方式。
这就牵扯到药物的几大类了。其中一大类就是小分子药物,主要是嵌合到蛋白质的某一些活性中心,来达到调节(modulate)蛋白质功能的一个方式作为药物,对吧?但是真正基因组里头能成药的蛋白质只有10%~15%,那剩下来的都是不能成药的(non-druggable),即使它是有很重要的功能。所以这个时候你要用大分子药物对这个基因沉默,或者是促进它高表达,那就可以作为药物了。这一类叫做大分子药物,就是包括信使RNA(mRNA)疫苗都属于大分子药物了。当然这个信使RNA(mRNA)疫苗是很大了,像那个小干扰RNA(siRNA),这就是可以来做药物的。那现在美国食品和药品管理局(FDA)也批准了一些,只是说现在还有很多挑战,主要是递送系统。
黄雨佳:
嗯,但是我看您自己的研究方向好像会更关注在RNA结合蛋白这方面。
付向东:
对,因为我觉得没有 RNA 可以单独起作用的。当然你可以推辞到“RNA世界”假说(RNA world hypothesis),在最原始的时候那可能是靠RNA来单独起作用。在细胞里头RNA几乎没有单独起作用这一说,总是跟蛋白质形成一个复合体来起作用。
我们不是在研究某一个东西,而是研究一类科学问题。所以这个科学问题就牵扯到了既有RNA也有RNA结合蛋白。因为现在看来。这个RNA结合蛋白实际上跟转录因子在基因组的数量是差不多的。所以为什么要强调这一点?因为这个行使生命功能,不是说转录完了就不管它了,下面还有很多过程。蛋白质当然有千千万万,实际上RNA也有千千万万,有很多不同的功能。然后你在每一个RNA的功能里头研究,那就太迷人(fascinating)了。就是说,它把蛋白质和DNA做不到的事情全做了。
黄雨佳:
对,我看到您的一些研究确实还是非常有意思。就比如说同一个基因编码的RNA是一种功能,但是它的基因和它的启动子(promoter)可能会有其他的功能。
付向东:
对。它把你想不到的、蛋白质做不到的事情、DNA做不到事情全做了。它既可以在某一个时期作非编码(noncoding)RNA,在某一个时期它也作一种传感器(sensor),在其他(other)时间它也作一个配体(ligand),然后甚至作激素(hormone)。
为了教课,我还专门总结了一下RNA的功能。后来我就发现,几乎蛋白质能做到的事情它都能做,只是说它分工不一样。蛋白质它因为有20个氨基酸,然后氨基酸的结构都不一样,这样折叠起来形成比较严谨的结构域。RNA不就那么几个嘛?4个核苷酸,然后再加上RNA修饰(modification),所以它的结构域不是那么精确。但是它有配对的原理,所以它就有各种各样的你想不到的构象,而且这个构象是有蛋白质的时候是一样,没蛋白质的时候是另一样,在不同的条件下它又可以不一样。所以这里头的变化特别多,实际上是挺难做的,是一个挑战。
黄雨佳:
所以这方面研究现在最大的难点主要是什么呢?
付向东:
科学每一个话题(topic)都有很大的难点。当然RNA的难点就是说,一个是数量巨大。你看那个蛋白质,是吧?原来是一个基因一个蛋白质的学说嘛,后来蛋白质也有一些异形体(isoform),但是毕竟有限呐。这个RNA的异形体(isoform)就很多了。它整个一个大的RNA里头切成多少个小块也算是异形体(isoform),或者是某一个功能形式差不多,但是它有共同的也有不同的区域或者模块。最大的问题是找到这些各种各样的RNA的功能。它完全打破了一个基因一个产物的这个概念。
黄雨佳:
对,而且你还要从那一堆异形体(isoform)里面找出来哪些是噪音(noise),哪些是真正需要的。
付向东:
对呀,很难搞啊。所以大家一个基因还是研究它其中的一个。对异形体(isoform)有深刻认识的,也就是几十上百个基因。但是我们基因组里头几万个,然后还要加上那么多非编码(noncoding)RNA,很多地方不是我们知道的。所以说,这个东西存在,真正把它搞明白还是很有一段距离的。
黄雨佳:
嗯。那您觉得就像现在比如说有一些人工智能(AI)相关的技术,比如说AlphaFold,它现在不是也能够预测蛋白质跟核酸的相互作用嘛,它会不会在这方面有一些推动的作用呢?
付向东:
那当然的。原来因为很多东西都是靠有了结构以后才能开始来做一些,现在有了人工智能(AI)以后,这个事情就变成正着反着都可以来做了,有了序列就可以预测结构。当然这个预测结构肯定要跟生物学功能的研究结合(couple)在一起,要不然你也不知道是真的是假的,或者你预测的是某一阶段的。所以现在蛋白质结构是远远高于蛋白质复合物的结构,然后蛋白质复合物和蛋白质加起来远远高于RNA的复合物的结构,这所有的东西加起来远远高于RNA本身的结构。
所以RNA本身的结构也是个挑战。体内你可以想一下,没有游离(free)的RNA的。我不觉得有任何的RNA是可以在细胞里裸露地存在的(naked),因为细胞里的密度(density)比外面大得多,有那么多RNA结合蛋白,各种各样的碰撞。你看现在慢慢进入到单细胞测序,你也可以到每一个RNA在每个细胞的表达之类的,但是每个RNA在细胞里的构象呢,你怎么测?那也是一个平均的状态(average)。
黄雨佳:
那听上去这样用软件预测的,其实……
付向东:
早着呢。这完全就是宣传的误导,以为有了AI以后就不需要我们干了,该干的事情都由机器干了。这是不可能的事情。
黄雨佳:
是,还是有非常多的工作需要做。
付向东:
对,因为机器是根据人的总结,当然它可以很多地方超越(overpower)人大脑能够实现的速度。你怎么算也算不过计算器,但并不是说计算器比人脑更精确或者更有创造力。
黄雨佳:
嗯。那您可以顺便再聊一下您对这篇文章的看法,或者有没有什么想说的吗?
付向东:
这篇文章这个作者还是挺不简单的。因为他是一个科普作者嘛,基本上把RNA的精华都放进去了。当然他不可能像一个严谨的科学的综述那样。因为综述里严格地要把科学的贡献跟人连在一块的,但是这里无非就是挑几个人、有代表性的人物,给人的印象是很多原始的发现都是他们发现的。实际上是有很多人贡献了这些概念(concept),所以这个不能说是某一个人,他们只是一个代表。
但是非编码(noncoding)RNA确实是非常迷人(fascinating),种类很多,功能所知甚少。所以很多的东西发表(publish)完了以后,回过头来一看到底有多重要,有时候也说不清。
然后这里有一个概念,就是说RNA是以集群的形式,而不是以一个RNA的形式发挥功能。这个东西也说得对也说得不对。好比说这个微RNA(miRNA),它就是一个也可以有功能(work)的,而不是说非要集群。但是反过来,像那种Piwi相互作用RNA(piRNA),因为它是从转座子、从重复序列产生的,所以它差一个差两个没多少关系的。没有人能够敲除单个的Piwi相互作用RNA(piRNA)的,因为它那个都是重复序列的。你敲多少,你把基因组全敲了?基因组里50%以上都是重复序列,对不对?好了,那个微RNA(miRNA)就可以敲了,它有的时候是单个的。那单个的也有功能,所以说并不是说一定要用群体,就是说“一定要成群体”这是他的想象。
黄雨佳:
嗯,可能是作者个人的观点。
付向东:
个人的观点,这个并不是大众都这么认为。当然微RNA(miRNA)以群体的形式来存在是可以的,但是并不是说微RNA(miRNA)因为以群体的形式存在,一个信使RNA(mRNA)有多个微RNA(miRNA)起作用,而忽略了它单个的微RNA(miRNA)也有功能。那个是肯定了的,就像那个里头引用的维克托·安布罗斯(Victor Ambros)那个,就是一个小的微RNA(miRNA)。那是第一次发现的,那个lin-4,那就是有很强的功能。
黄雨佳:
嗯,对。好,那我们这期节目就到这里。非常感谢付老师接受我们的采访。
本文来自微信公众号“环球科学”。如需转载,请在“环球科学”后台回复“转载”,还可通过公众号菜单、发送邮件到[email protected]与我们取得联系。相关内容禁止用于营销宣传。
戳图片或阅读原文
立即购买
微信扫码关注该文公众号作者