Bendi新闻
>
Cell Genomics | 同济大学刘琦教授团队开发面向TCR和T细胞转录谱多模态整合的免疫数字解码AI框架

Cell Genomics | 同济大学刘琦教授团队开发面向TCR和T细胞转录谱多模态整合的免疫数字解码AI框架

1月前


适应性免疫系统是人体防御机制中至关重要的一环,解析T淋巴细胞的功能对于疾病诊治具有重要启示。随着单细胞转录组及T细胞受体(TCR)配对测序技术的发展,研究者得以从多模态的视角深入解析T细胞对病原体和重大疾病(如肿瘤)的复杂应答机制。如何整合免疫细胞的多模态组学数据以对于免疫系统进行数字化解码,是该领域的重要科学问题。


针对单细胞转录组和TCR配对数据,已有的多模态分析方法提供了更为全面的T细胞和TCR克隆型视图。然而,当前研究尚未为免疫系统全景化解析提供系统和可扩展的分析框架。同时,单细胞转录组和TCR配对测序的数据低质性(low-resource-data)也为免疫细胞多模态整合带来了巨大的挑战。因此,领域内亟待开发普适、有效的计算模型,对多模态场景下的免疫组学数据进行有效整合和表征,以一种统一的视角来解决诸多免疫数字解码相关的下游任务。


近日,同济大学生命科学与技术学院生物信息学系、同济大学-上海自主智能无人系统科学中心刘琦教授课题组,严刚教授课题组Cell Genomics上合作发表了题为:Unified cross-modality integration and analysis of T cell receptors and T cell transcriptomes by low-resource-aware representation learning的研究论文。


该论文提出了一种前沿、普适、低质数据适配(Low-resource-aware)的多模态整合AI框架——UniTCR,旨在推动T细胞转录组和TCR的跨模态整合分析,以进行组学驱动的免疫系统数字化解码和定量化解析。


T细胞转录组和TCR配对测序通常存在测序样本稀缺、数据模态缺失、数据噪音大等低质数据特点,为其有效整合和解析带来巨大挑战。面向上述挑战,UniTCR通过创新性地设计了双模态对比学习模块(Contrastive learning module)和单模态信息保持模块(Modality preservation module)(图1),从而在低质数据场景下,巧妙地将TCR序列与基因表达谱嵌入至同一隐空间,同时保留各自的模态属性。


其中,双模态对比学习模块通过将TCR序列和基因表达谱进行隐空间嵌入,生成融合了基因表达信息的TCR嵌入表征和融合了TCR信息的表达谱嵌入表征。而单模态信息保持模块则可以在训练的过程中保持各单一模态内部的模态属性,有效地防止了低质数据场景下的过拟合,提升了模型在数据低质场景下的泛化性能,从而可以实现低质数据场景下的TCR序列和基因表达谱的有效整合和表征,进而面向免疫数字解码的多个相关下游任务提出了一个统一、可拓展的AI解析策略。


图 1. UniTCR框架


该工作中,研究团队将UniTCR应用于四种典型的免疫数字解码场景:

(1)单模态分析:在保持各模态内在属性的前提下,UniTCR分别将TCR序列信息整合至基因表达谱表征中,以及将基因表达谱信息整合至TCR序列表征中,从而生成新的嵌入表征。研究结果表明,相较于基于传统的单一模态的数据分析(例如基于T细胞转录组分析以及基于TCR序列的分析),UniTCR生成的嵌入表征可以用于识别更加精细尺度下的T细胞亚群和TCR克隆型,这些细胞亚群和克隆型均无法通过单一模态进行有效识别,从而进一步揭示了免疫细胞的功能异质性;

(2)多模态分析:UniTCR提出了一种免疫系统模态间隙(Modality gap)的定量指标,用于评估免疫细胞基因表达与TCR序列两个模态的错配程度,并首次提出利用该计算指标识别处于特殊功能状态的免疫细胞,克服了传统实验识别耗时费力的瓶颈;

(3)TCR-表位结合预测:通过利用UniTCR预训练得到的TCR编码器来构建TCR-表位结合预测模型,预测TCR与表位的特异性结合。结果显示,相较于传统的TCR-表位结合预测模型,UniTCR通过将表达谱信息融合至TCR表征中,可以显著提升TCR-表位特异性识别的性能;(4)TCR-表达谱跨模态生成:免疫组学的跨模态生成可以有效节省配对组学测序的成本,并为免疫系统的多模态解析提供了一种有效的方法学支撑。


已有研究表明,相同TCR克隆型的细胞基因表达水平相似。基于这一假设,研究团队首先利用先验神经网络将TCR表征映射至T细胞表达谱表征上,再利用基因表达谱解码器对T细胞表达谱表征进行解码,从而实现了TCR序列到基因表达谱的跨模态生成,并在多种场景下验证了预测表达谱的准确性,为免疫组学的跨模态生成提供了一种创新性的方法学策略。


综上所述,UniTCR提出了一种低质跨模态场景下的免疫组学有效整合和表征的AI框架,以赋能诸多免疫数字解码相关的下游任务分析,为我们从多组学和多模态视角系统理解免疫系统的复杂性和异质性提供了一个统一的AI解析策略。


刘琦教授课题组长期致力于组学数据的AI智能解析和精准干预,进行数据驱动的精准医学研究和转化。该论文第一作者是同济大学高溢骋、董科竟博士,通讯作者是刘琦教授和严钢教授。本项目受到国家自然科学基金,上海市人工智能专项基金以及国家重点研发计划BT&IT专项资助。


原文链接:

https://life.tongji.edu.cn/1a/d9/c12615a334553/page.htm


本文仅用于学术分享,转载请注明出处。若有侵权,请联系微信:bioonSir 删除或修改!

微信扫码关注该文公众号作者

来源:生物谷

相关新闻

Dev Cell|山东大学刘峰教授团队揭示转分化的炎性驱动力同济大学章小清/刘玲/房玉江团队Cell Metabolism发现胞内pH-Smad5信号通路控制胰岛素加工与分泌新机制传微软组建新团队开发更小、更便宜AI模型;Pika联手北大斯坦福开源文生图框架;传和硕独家拿下Ai Pin代工订单丨AIGC日报今日arXiv最热大模型论文:首个面向AI的python编程框架,提升大模型编程能力新思路视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架LAMM:多模态指令微调数据集、框架、评测基准西湖大学提出AIGC检测框架,精准识别AI撰写的文稿Rust编写的Web开发框架——同时支持Node和Python上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升我们是如何在 IDE 中设计 AutoDev 的 AI 编程开发智能体语言与框架?Cell重磅:香港中文大学于君教授团队证实,不止幽门螺杆菌,这种细菌也会导致胃癌等胃病多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键红杉资本入局,马斯克的AI公司接近达成60亿美元融资;苹果发布基于开源训练和推理框架的语言模型OpenELM丨AIGC日报Cell Discov|陆路/姜世勃/夏帅/朱赟:揭示新冠变异株的膜融合特征和对原核表达的融合抑制剂多肽的敏感性「助纣为虐的高手——乳酸」Cell最新研究表明:乳酸可促进癌细胞的侵袭、转移、血管生成以及免疫逃逸LangChain与Semantic Kernel,大模型开发应用的框架,都用上了吗?免疫疗法也有黄金时间窗!Cell | 揭示免疫系统的昼夜节律性对于肿瘤生长的重要性阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地实践新加坡AI治理测试框架和工具包:AI Verify阿里通义实验室薄列峰:从兵马俑跳“科目三”到照片唱歌,四大框架让AI生成的人物活起来丨GenAICon 2024ICLR 2024 | LLM Agent领域第一高分论文,全网Star数最高的多智能体框架Cell:中国肿瘤药物开发和临床研究中的挑战与机遇Cell | 新研究发现自闭症和多动症等儿童神经发育障碍与幼年时肠道菌群紊乱有关「人车交互」新突破!普渡大学发布Talk2Drive框架:可学习/定制的「指令识别」系统
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。