Bendi新闻
>
平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法

7月前

ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯


编辑 | 萝卜皮

使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定,可在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极度稀疏性,scATAC-seq 的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上,而没有充分利用底层的基因组序列。

在这里,中山大学与重庆大学的研究人员提出了一种方法 SANGO,通过在 scATAC 数据中的可及性峰周围整合基因组序列来进行准确的单细胞注释。SANGO 在跨样本、平台和组织的 55 个配对 scATAC-seq 数据集上始终优于竞争方法。SANGO 还能够通过图 Transformer 学习到的注意力边缘权重来检测未知的肿瘤细胞。

该研究以「Deciphering cell types by integrating scATAC-seq data with genome sequences」为题,于 2024 年 4 月 10 日发布在《Nature Computational Science》。

单细胞ATAC-seq(scATAC-seq)技术是一种用于探究单个细胞内转座酶可接近性染色质的测序方法,它为理解基因调控机制与表观遗传异质性提供了前所未有的单细胞分辨率。

虽然 scATAC-seq 数据蕴含丰富的生物学信息,但由于其高维度(大量开放染色质峰)和极端稀疏性(每个细胞仅有一小部分峰有读数),使得从这些数据中准确地识别和分类细胞类型面临较大困难。

当前主流的细胞注释方法多聚焦于细胞峰矩阵,但这些方法往往未能充分挖掘和利用与这些峰相关的基因组序列信息。这种忽略可能导致对细胞特异性调控模式的识别不充分,限制了单细胞表型解析的深度与精度。

中山大学与重庆大学的研究人员提出了一种名为 SANGO(Single-cell Annotation by Integrating Genome Sequences around Open Chromatin Peaks)的新方法,旨在克服现有方法的局限性,通过整合 scATAC-seq 数据中的开放染色质峰及其周围基因组序列信息,提升单细胞类型的注释准确性。

SANGO 的核心假设是,基因组序列信息能提供额外的生物物理和调控线索,有助于更准确地识别细胞类型和揭示潜在的调控模式。

图示:SANGO 框架的示意图,用于通过整合基因组序列来注释 scATAC-seq 数据中的细胞。(来源:论文)

SANGO方法主要包括两个关键步骤:

首先,利用深度学习模型(如CA-CNN)从 scATAC-seq 数据中提取低维、信息丰富的细胞表示,这些表示充分考虑了每个开放染色质峰所处的基因组上下文。

其次,通过图 Transformer 网络(graph transformer network)处理这些表示,消除批次效应,传播相似细胞间的共享信息,并依据参考数据中已知细胞类型的标签对模型进行微调,进而用于预测查询数据中的细胞类型。

对内部数据集进行单细胞类型注释的性能

通过对 14 组内部数据集(每对包含已注释参考数据与未注释查询数据)进行评估,SANGO 平均准确率达到 96.4%,明显优于其他竞争方法。SANGO 的优势主要源于其对基因组序列信息的有效利用,当去除序列信息(SANGO-noseq)时,准确率下降 6.4%,进一步证实了序列信息的重要性。

图示:内部数据集的细胞类型注释的性能。(来源:论文)

此外,针对粗略细胞类型识别,SANGO 在 EpiAnno 选择的数据集上也表现出色,优于其他五种方法。总体来看,SANGO 在各类内部数据集上的稳健性能证明了其在单细胞类型注释任务上的优越性。

跨平台与跨组织数据集上的单细胞类型注释效果

面对来自不同测序平台(如10x Genomics、snATAC-seq、sciATAC-seq)的 19 对配对数据集,SANGO 取得了最高的平均准确率 77.6%,较次优方法高出约 10%。

图示:跨平台或组织数据集的性能。(来源:论文)

UMAP 可视化显示,SANGO 成功分离了原始数据中混杂的内皮细胞和小胶质细胞,而竞争方法则未能将内皮细胞与星形胶质细胞有效区分。

此外,针对跨越七种组织(骨髓、肝脏等)的 22 对跨组织数据集,SANGO 以平均 86.3% 的准确率显著超越所有竞争方法,揭示了其在处理不同来源及组织背景下细胞类型识别任务的强大通用性和准确性。

在使用不同参考数据源进行单细胞类型注释时的性能

当以多源组织(如脑、肠)数据作为参考时,SANGO 在 7 组多参考与查询数据集上的平均准确率为 93.2%。通过分析相关基因(如 TCL1A、FCGR2B、TEX9)周边的峰值信号,SANGO 的标注得到了确认,显示了其在不同参考数据来源下的稳定性和可靠性。

图示:以多源数据或图集数据为参考的性能。(来源:论文)

在单细胞ATAC-seq数据细胞类型注释中的优势及潜在应用

首先,SANGO 凭借对基因组序列信息的整合,有效克服了数据高维度与稀疏性难题,显著提升了注释准确性。其次,SANGO 对未知肿瘤细胞的识别能力及对细胞类型特异性开放染色质峰的发现,为揭示肿瘤微环境中的细胞异质性及探索潜在治疗靶点提供了新途径。

SANGO 作为一种高效、可扩展的细胞类型鉴定方法,通过整合 DNA 序列信息解决了 scATAC-seq 数据的复杂性,不仅在多种实验场景中展现卓越性能,还能揭示未知肿瘤细胞并提供细胞类型特异性生物学信号,为 scATAC-seq 数据分析开辟了新路径。

论文链接:https://www.nature.com/articles/s43588-024-00622-7

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

微信扫码关注该文公众号作者

来源:机器之心

相关新闻

中山大学杨建华/屈良鹄/李斌团队开发新方法发现新结构型RNA及其调控功能科学家打造AI超材料逆向设计法,测试集平均准确率达98.92%,助力实现机械智能新突破单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight23届毕业生平均年薪55w!中国留学生最多的美国大学—纽约大学,商学院起薪高达66W!加州大学毕业生平均收入 list 出炉!你喜欢的未来专业值得你投资吗?ICLR 2024 Oral | 应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法药物-靶标亲和力预测,上科大团队开发了一种Transformer编码器和指纹图谱相结合的方法浙江大学蒋超实验室在Briefings in Bioinformatics上发表可用于复杂多组学数据的功能富集新方法加拿大上大学太难!平均背债3万!大批人想退学准确率比现有方法高50%!谷歌DeepMind全新深度学习模型AlphaFold 3重磅论文登上《自然》每年躺赚100亿!年年都分红​!平均股息率超6%的千亿白马股,被金融央企举牌!释放了什么信号?KCL夏教授1v1科研-基于AI的疾病快速诊断方法研究|收获一作论文与导师推荐信!今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法2025年QS世界大学排名最新预测!排名方法公布,结果将会大洗牌?神笔马良画出三维世界,基于线稿的3D生成编辑方法SketchDream来了EMBO Mol Med | 开发出新方法来评估短期培养的 CAR-T 细胞的安全性今日Arxiv最热NLP大模型论文:MIT推出新方法,大幅提升LLMs的连贯性、准确性和可更新性!英国王室受伤紧急住院!爱丁堡大学被诈骗300多万英镑!英国平均每天取消681趟火车...NAACL 2024 | 基于LLM的问答系统:表格转文本方法为什么能成功?【一对一介绍】87年男生,日本前30国立大学博士,大学、教学兼行政、编制内,月收入平均2万+,已购车,未婚,无宗教信仰,广州白云牛津大学公布经管专业23/24cycle申录数据!录取学生GCSE平均9A*!彻底根除“论文工厂”的方法,只会是“更简单的论文发表方式”;文献计量分析,让医生彻底解脱开发论文的桎梏!国家药监局关于适用《Q2(R2):分析方法验证》《Q14:分析方法开发》国际人用药品注册技术协调会指导原则的公告员工离职率高?如何做让员工不反感的“劳动力管理”,盖雅有自己的方法论|投资笔记
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。