Bendi新闻
>
里程碑式研究:UK Biobank全基因组测序项目揭示人类遗传多样性

里程碑式研究:UK Biobank全基因组测序项目揭示人类遗传多样性

10月前

在2023年12月13日举办的UK Biobank 2023科学会议上,有一篇发表在医学类论文预印本网站medRxiv的论文Whole-genome sequencing of half-a-million UK Biobank participants引发了学术界的广泛关注。

该研究对约50万人,包括了5个人种的参与者进行了全基因组测序,堪称人类基因探索的又一里程碑式研究。虽然此研究尚未正式通过同行评审正式发表,但我们也可以通过该预印本先睹为快。



研究背景


随着基因测序技术的不断发展,我们对于基因了解也越来越多。但了解越多,未知的领域也更多展现在人们眼前。为此,UK Biobank在之前的基因分型和全外显子组测序 (WES) 研究工作的基础上进行了一个涵盖近50万人的超大规模全基因组测序(WGS)工程,也是迄今为止最大规模的涵盖了5个人种的全基因组测序。

下图为研究框架图:

研究人员首先通过英国生物样本库收集患者样本,然后进行WGS。对测序结果使用 GraphTyper 和 DRAGEN 数据集进行质量控制,然后对 SNP、in/dels 和结构变体 (SV) 进行变体调用。此后,研究人员定义了与 SV、SNP 和基因水平相关的表型(二元和定量)(罕见变异分析),并得出结论。然后将五个人种——NFE(非芬兰欧洲人)、SAS(南亚人)、AFR(非洲人)、ASJ(阿什肯纳兹犹太人)和EAS(东亚人),和集体关联效应定义为跨祖先荟萃分析。


样本来源及方法


研究使用了Illumina因美纳NovaSeq™ 6000测序平台,对490,640名UK Biobank的参与者进行WGS。WGS的平均测序覆盖深度为32.5倍,并采用了重复样品作为质量控制。

之后,Illumina因美纳 的DRAGEN Bio-IT平台又成功调用了大量的SNP和indel变异(均处于高准确性范围),其中,SNP检测到的灵敏度是99.77%,精度为99.91%;indel灵敏度为99.70%,精度为99.83% 。

最后,对WSG测序结果、GraphTyper和DRAGEN系统的变异调用结果执行单变异测试、多祖源meta分析、罕见变异聚合分析和结构变异分析等。


结果


图1变异类型和频率的描述

Figure 1由多个子图组成,涉及到基因组变异的不同类型和频率分布:

a) 不同群体中各类型变异的密度/数目:这个子图展示了在五个不同祖先背景的群体中,每个个体识别出的变异数目。具体来说,变异类型包括了SNP(单核苷酸多态性)、indels(插入或缺失变异)、singleton SNPs/indels(仅出现一次的SNP/indels)、结构变异中的插入和重复(insertions/duplications)以及删除(deletions)。
b) 结构变异(SV)的长度分布:此子图中关注SVs的大小分布,并通过颜色代码区分不同频率的变异,其中红色区域代表变异大小的第25至75百分位数值,直线代表中位数,顶部横线表示95%置信区间。长度分布显示了结果趋向于更短的SVs。
c) 不同类型SVs数量:这里显示了按照变异类别(复制、插入、删除)分类的SV数量。
d) 插入和删除的大小分布:此子图指明了插入(insertions)和删除(deletions)的尺寸范围,从50bp到1,000bp、10,000bp甚至100,000bp的变异大小进行了分类说明。

图2样本量的变异增加分析

Figure 2描述了如何通过不同样本量(从1000到490,541)揭示不同等位基因频率范围内的变异数。具体地,横轴表示随机下采样分析中的样本数量,纵轴表示识别出的变异量。
从Figure 2可以看出:对于常见变异(如,>1%频率),即使样本数量增大,我们也只观察到了变异数量较小的增加。对于稀有变异(如,<=0.001%频率),随着样本量的增加,变异数量显著增长,并且在样本量最大时仍未看到增长平稳,这表明继续进行大规模测序工作对于发现新的和高影响力的稀有变异具有重要价值。

图3跨祖先的 GWS(全基因组显着性)关联的扰乱图

Figure 3是一个UpSet交互图,常用来展示多个集合之间交集和独特元素的分布。这里显示了全基因组显著性(GWS)关联的分布情况,包括跨不同祖先(种族群体)的meta-analysis以及特定祖先内的关联。横轴标签按照GWS关联数量进行排序:meta-analysis、NFE(非芬兰欧洲人)、SAS(南亚人)、AFR(非洲人)、ASJ(阿什肯纳兹犹太人)和EAS(东亚人)。
根据Figure 3显示,最多的GWS关联发现在非芬兰欧洲人群体中,紧随其后的是meta-analysis,这表明某些基因与性状的关联横跨多个种族群体。非欧洲人群中的相对少量GWS发现亦表明研究仍有进一步挖掘这些群体特异性遗传关联的空间。

图4HBB-HBE1基因座与贫血相关疾病的关联

Figure 4的左半边展示了HBB-HBE1与溶血性贫血(D55-59)在非芬兰欧洲人(NFE)、非洲人(AFR)、南亚人(SAS)中的关联,右半边展示了HBB-HBE1与地中海贫血(Thalassaemia, D56)在NFE、AFR、SAS种族中的关联。
Figure 4显示了针对特定性状——贫血的关联信号在不同人群中的分布。图中突出了某些单核苷酸变异(SNPs),如rs334。该变异是SCD(镰状细胞病)的一个常见原因,并与HBB基因的一个错义突变有关。这些关联揭示了基因变异与疾病表型之间的联系,以及这些关联如何因不同种族而具有不同的流行病学特征。rs334在非洲人群中较为常见,但在非芬兰欧洲人和南亚人中较为稀少。研究结果依据不同群体种系特有的基因频率揭示了天然选择的痕迹,例如特定基因座的变异对抗疟疾的保护作用可能导致在某群体中变异频率较高。rs334还与其他生化指标(如肌酐、尿素)有关联,与镰状细胞病的临床表象一致。同样,地中海贫血相关性状的关联研究提供了进一步针对基因影响疾病表型的证据。

图5携带有害pLoF/P/LP变异基因的人数

Figure 5描述了在全基因组测序(WGS)和全外显子测序(WES)数据集中发现携带有害变异的基因的数量。pLoF是预测的失功能变异(putative Loss-of-Function variants),P/LP是临床上认定的致病/可能致病变异(Pathogenic/Likely Pathogenic variants)。横坐标X轴显示了参与者的数量,纵坐标Y轴表示具有至少一个特定数量(1,25,50,100)携带者的自体染色体基因的数量。
Figure 5显示,WGS检测到的具有至少100个携带有害变异的基因数量超过了WES数据集中的基因数量。Figure 5突出了WGS与WES数据集在揭示有害变异方面的比较,证明了WGS对于发现并理解构成特定遗传疾病风险的罕见和可能有害的遗传变异的重要性。通过WGS,我们能够在更广泛的基因组区域内发现之前可能在WES中未被检测到的有害变异,这在病因学研究及潜在的靶向治疗中极为重要。

图6 UTR基因型与表型的关联

Figure 6是一个塌陷分析图,展示了通过合并分析罕见UTR变异与表型关联的情况。图片的上半部分展示了二进制性状(binary phenotypes)的关联分析结果,下半部分展示了定量性状(quantitative traits)的关联分析结果。不同的颜色代表不同的UTR模型(5’ UTR、3’ UTR和两者结合),且图中对P值 < 1e-30的显著关联信号进行了标注。
Figure 6说明了稀有的UTR变异对于一些生物学性状和疾病表型确实具有重要的关联性,在某些情况下,纯UTR变异与特定表型的联合分析可导致新的统计学上显著关联。说明UTR变异在转录后调控以及相关疾病过程中可能存在重要作用,这些关联和作用在以前基于WES技术进行的研究中可能被忽视了。对于那些仅在蛋白质编码区有信号而UTR变异未被考虑的性状,这一发现意味着应扩大对罕见变异和非编码区域的探索,以更好地理解疾病机制。


总结


在这个研究中,WGS检测到约1.5亿个变异,包括单核苷酸多态性(SNP)、插入缺失变异(indels)和结构变异(SV),这在观察到的人类变异中较基因芯片插补和WES增加了18.8倍和40倍以上。相比仅通过WES能发现的变异,WGS能覆盖更多的蛋白编码区以及5’ 和3’ 未翻译区(UTR)序列的变异。大规模的WGS数据带来了对稀有非编码变异在健康和疾病中作用的扩展理解潜力,例如:

WGS数据显示,在所有注释类别中捕获的变异数量都超过了WES。构变异(SV)发现,虽然数量少于SNP和indels,但平均影响的碱基对数与SNP和indels相当。通过多祖源meta分析,发现细胞色素C反应蛋白降低与APOE基因突变rs429358-C有关,而通常认为这种突变会增加老年痴呆症的风险。发现结构变异的检测能够揭示基因与性状之间的新关联,例如,PCSK9基因中的SV与非高密度脂蛋白胆固醇水平显著相关。

这项研究提升了我们对人类遗传变异及其疾病发生影响的认识,并将为新的诊断方法、更有效和更安全的疗法的发现,以及为可能改善全球健康的精准医学策略开发打下基础。此外,这项研究也为探寻“选择作用”在致病变异和保护性变异塑造人类遗传多样性的过程中,扮演了何种角色奠定了研究基础。

UK Biobank这一项目所开展的全基因组测序(WGS)采用了因美纳NovaSeq™ 6000测序平台,测序地点包括冰岛deCODE Genetics和英国维康桑格研究所。对此 英国生物样本库副首席执行官Mark Effingham博士也曾表示:“如此大规模的全基因组测序对技术的精确度和灵敏度都有着极高的要求。”因美纳成为英国生物样本库当时首选的技术合作伙伴。此外,同时值得关注的是,该项目的分析亦采用了以高效和准确著称的因美纳DRAGEN Germline分析流程。这一分析流程与其他大规模群体基因组学计划所采用的分析流程相一致,以便今后对数据进行交叉分析。其他大型群体基因组学计划包括新加坡国家精准医学项目PRECISE、英国Genomics England十万人基因组计划、由美国国立卫生研究院支持的百万自然人群队列研究项目All of Us,以及由Nashville Biosciences牵头的基因组发现联盟(Alliance for Genomic Discovery)。

本论文的原文链接:
https://www.medrxiv.org/content/10.1101/2023.12.06.23299426v1

END


微信扫码关注该文公众号作者

来源:解螺旋

相关新闻

为什么女朋友又双叕生气了?最新研究揭示:两性基因的神经环路不同,导致共情行为存在性别差异!Nat Genet | 冯园庆等发现人类肤色进化和多样性的遗传机制「“梨”型曲线更健康」研究证实:腰臀比与全因死亡率的相关性最强,腰臀比越小,死亡风险越低!Adv. Mater.:飞秒电子衍射技术揭示热电SnSe体系中局部无序和局部非谐性思想的多样性:均值回归的谬误哈佛新增文书问题:从多样性中学习,促进思想自由!相当炸裂!里程碑式判决:美国这州允许白人从黑人区分裂,独立建造自己的城市!里程碑式判决:美国这个州允许白人,从黑人区分裂,独立建造自己的城市!里程碑式判决:美国这个州允许白人从黑人区分裂,独立建造自己的城市!相当炸裂!里程碑式判决:美国第一个“白人城市”诞生啦!破译大脑密码!Nat Neurosci|绘制出首张全面RNA异构体图谱,揭示神经多样性与疾病奥秘医疗里程碑!遗传性聋病儿童接受新疗法,五位患者中四人成功重获听力近一半人视力明显改善,Editas公布基因编辑治疗遗传性失明I/II期数据遗传性耳聋基因治疗有哪些好消息?还面临什么问题?温西首个“一改多”项目Harlowe House,里程碑式的创时代宜居典范!为何同性恋没有在进化中消失?张建之/宋斯亮团队揭示双性恋基因有助于繁衍后代|让大脑做做白日梦,有助于学习和记忆|本周论文推荐STTT、PHARMACOL RES 中山大学高国全团队揭示非酒精性脂肪肝病发生发展和阿尔兹海默病的关键调控分子首个RNA编辑疗法临床试验获批,一次反应「纠正」大尺寸、多个基因突变,率先治疗遗传性青少年视力障碍人类里程碑!马斯克宣布:脑机接口芯片首次植入大脑,可用意念操作手机一夜淘汰700人!ChatGPT之母:AI自动化取代人类,创意性工作可能消失性萧条时代来临:这才是人类真正的危机实证研究 | 针对女研究生的高校性骚扰:特征、现状、成因与应对机制测序读长达25000碱基,准确性达99.9%之后,PacBio如何开启下一步破局?Nat Med:携带这个基因,或难逃老年性痴呆结局
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。