科研前沿揭秘：碱基不平衡文库，简直是基因测序的极限挑战！

8月前

导语：自1980年代第一代基因测序技术被发明以来，基因测序技术一直在飞速发展。对基因的检测也已经从全基因组测序向单细胞测序、空间组学等维度进发。

自从1980年代第一代基因测序技术问世以来，这个领域经历了令人瞩目的革新和进步。当前的生物科学领域正经历着一场由快速发展的基因测序技术驱动的变革。一系列尖端技术的出现开辟了新的研究维度，并助推我们向着更加个性化的医学以及更深层次的生物学理解前进。而基因测序在现代科学中的角色，正从单纯的序列解读转变为一个全方位的生物信息解码过程，不仅仅限于基因的原始序列，还包括基因如何、何时和在什么环境下发挥作用，以及其如何与疾病等生物学问题相互作用。

然而近年来我们发现我们所熟悉的基因组、转录组等组学对于中心法则的诠释仍有欠缺，研究人员开始进一步探讨更多维度的调控机制，表观遗传和转录调控就成为了研究热点。DNA甲基化测序（Whole Genome Bisulfite Sequencing，WGBS）、和翻译组测序（Ribosome sequencing，Ribo-Seq）也引起了大家的热议。

数据来源于：pubmed

随着WGBS和Ribo-seq研究的热潮不断高涨，研究人员开始注意到，与更传统的全基因组或外显子组测序相比，这些测序方法在文库制备上提出了更为严格的要求，并且在读取过程中更容易遭遇失败或产生质量较低的数据。造成这一现象的主要原因其实是相同的——碱基不平衡文库。

那么何为碱基不平衡文库？为何不碱基平衡文库会影响到测序准确性？在研究中能否让不碱基平衡文库被稳定读取呢？

这需要从NGS的原理说起。

技术介绍

在生物学中，碱基组成平衡是一种描述DNA或RNA中四种碱基——腺嘌呤（A）、胸腺嘧啶（T, 在RNA中为尿嘧啶U）、胞嘧啶（C）和鸟嘌呤（G）——出现频率相近的特征。这种均衡性被认为是基因组稳定性和复杂性的一种指标。在一个平衡的碱基组成中，理想状况下，每种碱基都占总序列的大约25%。然而，实际上不同物种和不同的基因区间内碱基组成可能存在差异。由这种碱基组成占比差异过大的DNA/RNA所构成的测序文库就被称为碱基不平衡文库（Unbalanced library或low diversity library）。

目前，已经商业化的主流测序平台均使用荧光标记的可逆终止子结合dNTP，通过不同的荧光信号对四种不同的核苷酸进行成像和识别。A/T/C/G将会被各拍摄一张“照片”，并通过软件处理将这4张荧光片叠加成一张。因此在碱基不平衡的情况下，往往出现4张片子中的一张乃至多张存在信号强度不够乃至没有信号的情况。这样的片子在图像叠加的过程中就会出现因信号强度不够被判定为质量低而被软件自动去除数据的情况，最终导致了碱基不平衡文库的检出质量可能偏低和序列误检率较平衡文库更高。^（1）

且随着对DNA和RNA研究的深入，研究人员需要对更多的分子生物学层次进行准确和高效地测序分析。因此，在此背景下，研究人员遇到了越来越多的碱基不平衡文库类型。使用更加具有兼容性的方案进行更高难度的测序，从而获得更多新的分子数据，这种策略越来越受到科学界的青睐。据统计，涉及碱基不平衡文库的科研文献在近几年呈爆炸式增长，目前已累积至1615篇之多。而除了大家普遍熟知的不平衡文库，如甲基化测序、扩增子测序外，单细胞和翻译组测序也越来越多地应用于科研研究当中。

应用场景

实际上除了基因本身的碱基组成差异，测序方法本身也会导致测序使用的是不平衡文库。例如检测DNA甲基化情况的金标准——亚硫酸氢盐测序法^（2）。其受到青睐主要因为单核苷酸水平的分辨率较高、适用范围广（跨越多个生物体和模型系统），以及对样本起始数量的要求极低，仅需10-100 pg的基因片段就足以进行测序^（2）。因此，尽管在文库制备过程中C碱基会转化为U碱基，随后在PCR扩增中进一步被替换为T碱基，从而造成文库中C的极度匮乏，最终导致碱基组成严重失衡^（2），这也是甲基化测序结果不理想的原因之一。尽管难度较高，但该技术却仍然是当前DNA甲基化检测中的主流方法。

另一方面，研究人员还注意到，测序平台采用的软件版本差异对测序结果的影响不容忽视。例如，一项于来自日本的研究曾发现Illumina HiSeq平台上HCS软件版本 HCS v2.0.5在当时是执行全基因组DNA甲基化测序（WGBS）的最优选项^（1）。该版本能够较好地应对检测不平衡文库时G碱基的不准确调用问题。这是在其他软件版本中经常遇到的难点。由于甲基化测序必然是碱基不平衡文库，这就导致了在平衡文库的测序中是可以被有效规避的G碱基不准确调用问题成为了影响测序结果质量的痛点。

问题及对策

为减少碱基不平衡的影响，研究人员可以采取多种策略：

首先就是优化实验设计。如果能选择能带来更好文库平衡性的样本提取和扩增方法当然是最好的。毕竟有些测序平台为了保证测序结果的可靠性，规定研究人员只能使用每种碱基含量不低于12.5%，不高于62.5%的文库。这样可以直接从源头掐灭文库不平衡导致的种种问题。然而，像亚硫酸氢盐测序法这种已经是检测DNA甲基化的金标准了，在测序平台突破不平衡文库限制以前，很难有其他方法在检测DNA甲基化方面取代亚硫酸氢盐测序法。

因此，科研人员往往会去寻求更为简便的处理方法：例如illumina提供的通过添加校准文库PhiX来降低待检测文库的碱基不平衡性的方案。校准文库的基因序列是已精确知晓的，但基因序列又与人类的基因序列相去甚远，能够比较容易的在检测结果中去除。因而最常见也是最常用的校准文库就是来自Illumina的PhiX对照文库。PhiX文库的GC 比例约为 40% ，与人类、哺乳类的基因组的 GC 比例接近，但它是来源于病毒基因的文库，与人类基因有明显区别且不含有index。所以在进行测序时，科研人员可以通过基因序列比对或数据拆分等方法将检测结果中由校准文库带来的结果偏差尽可能消除。

此外，使用生物信息工具对碱基不平衡文库的原始测序数据进行质量控制和校正也是一个减少碱基不平衡文库不良影响的处理方法。高级算法能有效考虑和校正不平衡带来的影响，为生物信息学分析提供更精确的计算框架。这些方法的应用可能涉及机器学习技术，以自动识别和消除测序数据中的偏差。

最后成本最高，但也是最行之有效的方法：结合使用不同的测序技术。根据来自英国的科研人员发表在Nature Biotechnology（IF=46.9）上的研究结果显示，5种常见的商业测序平台在靶向 DNA 甲基化检测上各有优劣。

这其中 NuGen RRBS 提供最短、最简单的DNA甲基化测序方案，仅需要 100 ng DNA，适合使用稀缺临床样本的高通量应用^（4）。

而Illumina 的DNA甲基化测序方案可以在 2 天内完成，并且通过复用四个样本，使每个样本所需的 DNA 量减少了一半 (500ng)^（4）。在5个测序平台中具有最高的目标捕获效率。故科研人员可以根据需求选择最合适的测序平台或者结合使用不同的测序平台，对测序结果进行插补整合，以获得更加精确完整的测序结果。

结尾

除了文中介绍的两种应用，近几年大热的单细胞测序、扩增子测序、转录组和ChIP测序的测序文库都是碱基不平衡文库。得益于现代测序技术的进步，科研人员可以更精细地处理不平衡文库的问题。未来的研究工作和行业合作将进一步深化对不平衡文库的理解和处理，提高科研和应用领域的质量标准。业界专家普遍认为，在未来几年内，通过机器学习和人工智能的辅助，不平衡文库测序技术将实现更快的迭代与完善，为生命科学研究揭开新的一页。

参考文献：

1. Naik T, Sharda M, C P L, Virbhadra K, Pandit A. High-quality single amplicon sequencing method for illumina MiSeq platform using pool of 'N' (0-10) spacer-linked target specific primers without PhiX spike-in. BMC Genomics. 2023 Mar 23;24(1):141.

2. Singer BD. A Practical Guide to the Measurement and Analysis of DNA Methylation. Am J Respir Cell Mol Biol. 2019 Oct;61(4):417-428.

3. Toh H, Shirane K, Miura F, Kubo N, Ichiyanagi K, Hayashi K, Saitou M, Suyama M, Ito T, Sasaki H. Software updates in the Illumina HiSeq platform affect whole-genome bisulfite sequencing. BMC Genomics. 2017 Jan 5;18(1):31.

4. Tanić, M., Moghul, I., Rodney, S. et al. Comparison and imputation-aided integration of five commercial platforms for targeted DNA methylome analysis. Nat Biotechnol 40, 1478–1487 (2022).

—END—

微信扫码关注该文公众号作者

来源：解螺旋

科研前沿揭秘：碱基不平衡文库，简直是基因测序的极限挑战！

相关新闻