SCI干货|一文让你学会如何写孟德尔随机化分析!
时下,内卷plus的年代,生信爆炸式发文,分析方法不断升级,昔日医学发表论著的“救命稻草”如今沦为“鸡肋”,时代在进步,算法在更迭,2024年了,不做实验、不写meta分析,还有可能发表研究性论著(research article)吗?
有!
还真有!
去年“孟德尔随机化”爆火,相比其他临床分析,它分析简单发文快。单是通过PubMed数据库检索孟德尔就能发现,孟德尔随机化已然是SCI的又一片蓝海~
解螺旋早已第一时间为大家梳理了孟德尔随机化的前世今生,心动不如行动,感兴趣的同学,赶紧一起来看海,看这片发文的蓝海。
孟德尔随机化的定义
了解一样事物,我们通常从定义入手。
孟德尔随机化(Mendelian Randomization, MR)是流行病学研究中评估病因推断的数据分析技巧,它在非实验数据中,使用遗传变异作为工具变量(Instrumental Variable, IV)来估计感兴趣的暴露因素与所关注结局之间的因果关系。
其中,“暴露因素”指代假定的因果风险因素,也称作中间表型,它可以是生物标志物(Biomarker)、人体测量指标(Physical measurement)或任何可能影响解决的风险因素(Risk factor)。一般我们将疾病列为结局,但不限于某种具体疾病。而非实验数据涵盖了所有观察性研究,包括横断面研究、纵向系列研究、队列研究和病例对照研究。MR大致原理示意图如下,大家先花1min牢记下图,之后解说跟它密切相关。
MR使用背景tips:当我们无法确认暴露因素对于结局的效应时,譬如可能存在混杂因素影响,可能是“暴露”和“结局”的实际因果关系倒置了,也可能是常规的随机对照试验因为伦理风险而难以进行(比如上世纪震惊全球的反应停事件、日本水俁事件,已知用药有害还设置治疗组有违伦理,因此无法进行RCT研究),这些时候,我们就可以考虑采用MR进行因果推断。
孟德尔随机化的本质和原理
疾病发展是多基因及多因素(环境、饮食等)共同作用形成的结果。举个例子:冠心病患者多见于有心脏病家族史的人群中,除了先天家族史影响,出生后长期高盐高糖高脂饮食也会增加冠心病的患病风险。
目前全基因组关联分析(GWAS)已经发现数十万甚至百万的遗传变异与疾病结果相关联,这些数据就是MR分析的基础。MR本质是通过遗传数据来评估可改变的非遗传暴露因素所造成的因果效应的一项技术。
MR理论能够得以成立,是因为MR利用基因具有固定性及孟德尔第一和第二遗传定律,即减数分裂配子形成时,亲代的等位基因会随机分配给子代,基因与结局的关系不会受到出生后环境、社会经济、行为习惯等常见混杂因素的干扰,由此推导的因果关系时序具有合理性。听起来有点拗口,那我们来举个例子:
遗传位点在受精形成那一刻已经决定了,它不受后期生长发育、经济、文化等因素改变,这种确定性是MR采用遗传位点作为分析工具的最主要原因——不可改变性。如果我们发现位点A变异与肥胖有相关性,那么毫无疑问,是位点A变异影响了体型胖瘦。反过来说因为某个人肥胖,那他/她的遗传位点A变异了,也可能人家纯粹天天高脂高糖喂出来的肥胖,而遗传位点A是否变异在出生时已经决定了,所以由“肥胖”推理出“位点A变异”属于推理因果的方向反了,不大符合因果逻辑,属于颠倒了因果。
这样解释,是不是通俗易懂很多,瞬间明白啦~
MR使用要求tips:传统MR研究会运用大量遗传变异(genetic variants)来作为工具变量(IV),而遗传学研究的分子学性状(如基因表达或蛋白表达)通常只有少量遗传变异能作为IV,所以受多基因多生物通路影响的复杂表型(基因多效性,horizontal pleitropy),所相关的SNP也比较丰富。翻译成人话就是:MR想要玩得溜,受多因素影响的结局变量是上上签。进行分析时还要注意因果推理的方向。
孟德尔随机化的核心假设
单核苷酸多态性(Single Nucleotide Polymorphisms, SNP),是指在基因组上单个核苷酸的变异,包括转换、颠换、缺失和插入,形成的遗传标记。也是MR数据分析的基础。
那什么样的基因型能用于MR分析,是可以随便选的吗?
显然并不是,基因型(工具变量)还需要满足以下条件:
☑ 工具变量(基因型)需要与暴露因素X(表型)强相关(假设1,关联性假设,相关系数>0.8)。如果使用弱工具变量,所得结果容易出现偏倚。
☑ 工具变量不能与其它任何可能的混杂因素相关(假设2,独立性假设)。例如:性别、年龄、体重等用于人群分层的因素需要剔除。
☑ 工具变量(基因型)不能与结果直接相关(假设3,排他性限制,工具变量只可以通过暴露因素影响结局)。其他可能影响因素的包括多效性等。
☑ 其他假设:不存在选型交配。
孟德尔随机化分析流程
知道了MR分析原理、工具变量的选取,然后我们继续了解MR分析流程的步骤:
通常设置为P< 5×10-8,必要时进行clumping。
提取上述工具变量的SNP(变异频率大于1%的单核苷酸变异)。
对暴露因素与结局的GWAS数据进行预处理,使其格式统一化。
默认使用五种方法为MR Egger,Weighted median,Inverse variance weighted,Simple mode ,Weighted mode,多用效应值(β)或者风险值(OR)表示。
分析结果可视化
包括散点图、森林图和漏斗图等,散点图斜率代表暴露因素对结局的影响大小(causal effect)。
上述分析流程非常清晰明了,还有MR STROBE写作流程保驾护航,可谓人有多大胆,文有多大产。分析流程可参考下图
常见孟德尔随机化分析类型
孟德尔随机化与随机对照实验的异同
同为进行因果推断的方法,MR跟RCT之间有什么联系?对标循证医学中金字塔顶端的RCT,MR有什么一技之长,或者,我们可以通过下面的比较图来了解
传统研究暴露因素和结局之间的因果关系,通常高举前瞻性随机试验(RCT),但RCT费时、费力、费钱,同时部分RCT不被伦理支持。在许多不能进行RCT的情况下,我们可使用基因型来替代暴露因素进行因果关系推断,这种做法相当于自然界的RCT。采用RCT+MR这套组合拳,取长补短,大大提高了病因学研究的效率和可行性,现已成为后基因时代流行病学研究的热点。
孟德尔随机化的优势
孟德尔随机化以基因型作为工具变量,具有自身的独特优势:
遗传相关中的因果关系方向是确定的,遗传多样性可导致不同的表型,反之则不成立。
观察性研究当中所测量的环境暴露因素或多或少都受行为、社会、心理等因素相关,从而造成偏倚,而基因型代表的遗传变异不受此类因素影响。
相对其他类型而言,遗传变异与其效应的测量误差较小。
一个与因果SNP处于连锁不平衡(linkage disequilibrium, LD)的SNP即可满足假设条件。LD指两个或两个以上不同的基因变异同时出现在同一条染色体上,这些基因不是完全独立的,一起出现的几率比较高。
孟德尔随机化教程
解螺旋专业团队精心打造了孟德尔伴学营,专门针对小白,抽出几小时时间,2天0基础就能入门!
看这课程大纲就知道,孟德尔伴学营绝对是细节化梳理,系统化学习!
👇课程大纲👇
目前此伴学营报名超火爆,已经有上千学员通过这款课程迅速入门,不仅发表了高分SCI,还有更优秀的医学党成功中标了国自然!
最重要的是,这么靠谱的课程,目前只需1元!是的,你没看错!仅需一包纸巾的价格,就能给自己一个抢占热点、发高分SCI的机会!话不多说,先点击图片入营再说~
孟德尔随机化快速入门
教你抢占先机
发高分SCI
扫码添加班主任
即刻入营 抢占全新热点!
参考文献:
[1] Melinda C. Mills, Nicola Barban, and F. C. T. An Introduction to Statistical Genetic Data Analysis. (2020).
[2]Curr Epidemiol Rep . 2017;4(4):330-345. doi: 10.1007/s40471-017-0128-6. Epub 2017 Nov 22.
微信扫码关注该文公众号作者