CellAgent:LLM Agent 助力单细胞测序数据分析的重要突破丨AI 4 Science
单细胞转录组测序技术自2013年被《Nature Methods》杂志评为年度技术以来,已快速发展十余年。
随着技术成本降低和研究推进,该技术在临床和生物学研究中的应用变得更加广泛,涵盖疾病监测、新药靶点开发、辅助生殖与产前诊断、基因调控和细胞通讯等领域。单细胞转录组测序数据分析已成为这些领域的必要步骤。
然而,目前的单细胞数据分析存在门槛较高、难度大等问题,它要求研究人员同时具备相应的生物医学知识背景和较高的编程能力、数据分析能力。整个分析流程涉及专业知识指导下的复杂工具选择和参数调节,过程繁琐且耗时,对广大研究者们形成了巨大挑战。
为了解决这一难题、打破专业壁垒,来自西北工业大学和天津大学的研究者近期共同提出一个专为单细胞数据分析任务设计的自动化LLM Agent——CellAgent。用户只需输入数据及分析需求,无需编程或单细胞数据分析基础,CellAgent即可通过多个专家级大语言模型的有效协作,实现高质量、自动化的单细胞数据分析。
CellAgent显著降低了单细胞数据分析的门槛和工作量,标志着大语言模型驱动的AI智能体在科学领域应用的又一重要突破,推动了“Agent for Science”新时代的快速发展。
单细胞RNA测序(scRNA-seq)技术允许以前所未有的规模和精度分析转录组数据,彻底改变了分子生物学。这一进步推动了计算方法的大规模创新,目前已有超过1400种工具可用于从各种角度分析scRNA-seq数据。
然而,scRNA-seq数据分析涉及相当的复杂性,需要专业的知识和技能。分析步骤包括预处理、批次校正、聚类、寻找标记基因、细胞类型注释、轨迹推断等。研究人员必须执行相应的代码或工具,并配置适合生物数据特定特征的参数和模型,这不仅需要高级编程技能,还需要坚实的生物医学背景。因此,迫切需要一种智能Agent,能够理解用户意图,自动化执行scRNA-seq数据分析任务并生成结果。
CellAgent多智能体
scRNA-seq数据分析的复杂性和多样性需要手动选择工具和优化参数。CellAgent利用大型语言模型(LLM)来自动化整个分析流程。它通过三种LLM驱动的生物专家角色——Planner(规划者)、Executor(执行者)和Evaluator(评估者),实现高效协作。Planner负责高层次规划和任务分解,Executor执行具体任务,而Evaluator评估执行结果并促进自我优化。通过这种分层决策和自迭代优化的协作机制,CellAgent能够有效处理scRNA-seq数据分析任务,并在大多数情况下超过其他现有工具的表现。
CellAgent在50多个单细胞数据集上进行了测试,涵盖数十种组织和数百种不同的细胞类型,包括正常和疾病样本。在20多个具有专家注释标签的数据集上的实验结果表明,CellAgent表现稳健,任务完成率和分析质量均为优秀。
CellAgent实现了
研究评估了CellAgent在批次校正方面的性能,使用了九个涵盖人体主要组织或器官的数据集。CellAgent内部整合了多种优秀去批次算法,CellAgent根据数据集具体特性,选择合适的算法,通过内部迭代机制和Evaluator(基于GPT4v,可以有效提取图像信息)的评估结果,选择最优结果作为输出。
与scVI、LIGER、Scanorama、Harmony、Combat等去批次算法相比CellAgent在批次校正和生物效应保留方面表现出色,并取得了最高的平均综合得分0.68。通过Heart数据集的UMAP图可以观察到,CellAgent成功去除了批次效应,同时保留了真实的细胞类型。
CellAgent提高了
细胞类型注释是单细胞数据分析中的重要一环。针对细胞类型注释任务,传统的单一工具注释结果通常具有一定的局限性,无法很好地泛化到不同的数据集中。人工手动注释同时要求研究人员有专业的知识、通常需要大量时间。
CellAgent能自动寻找细胞各个簇的差异表达基因,以及调用不同细胞类型注释工具获得答案,并综合这些不同信息完成细胞类型注释。对比七种不同方法在多个数据集上进行了性能基准测试,结果显示CellAgent在平均准确率上表现优异,并且在一些数据集(如人类外周血单个核细胞)上的注释结果与专家标注高度一致。
CellAgent实现了
细胞轨迹推断在解码细胞发育和分化方面发挥着关键作用。CellAgent集成了Dyno(一个专门适用于单细胞轨迹推断的R包),CellAgent可以数据集大小、用户指定算法运行时间等信息选出潜在的不同轨迹推断算法作为备选,通过迭代机制,选出其中Top n个算法执行,然后利用Evaluator的多模态能力和专家知识,针对推测轨迹的图像进行打分,选出最优结果。
在造血干细胞、人类胚胎细胞等9个数据集上,与Slingshot、Paga等五种方法进行了比较。结果显示,CellAgent在多个指标上表现出色,并在上取得了最高的平均整体得分。CellAgent在造血干细胞数据集上成功揭示了细胞的发育轨迹,并展示了其基因表达模式的变化。这表明CellAgent能够帮助科学家理解决定细胞命运和相关生物过程的机制。
CellAgent是一种通用、可扩展、自动化的scRNA-seq数据分析工具。它采用了分层决策和自我迭代优化机制,有效保证了数据分析的质量。CellAgent不依赖于人工干预,大大降低了数据分析的难度和成本。
此外,其开放式架构使用户能够提供特定的新知识和工具,使CellAgent能够更好地符合用户的期望,成为研究人员的理想助手。CellAgent的出现不仅为生物信息学开辟了新的研究方向,而且扩展了生成式人工智能在科学中的应用,助力新发现和更深入的生物系统理解。
文章链接:https://www.biorxiv.org/content/10.1101/2024.05.13.593861
作者团队:
西北工业大学彭佳杰团队:团队致力于研究面向生物医学数据分析的人工智能方法,开发生物信息算法、发现重要生物学机制、助力疾病早筛与智能化药物设计,主要研究方向为单细胞测序数据分析、脑疾病早筛与风险评估、智能药物设计等,在生物医学、生物信息学、人工智能等多领域期刊与会议发表论文80余篇。成员包括肖弋杭(硕士生)、谢晓涵(硕士生)等。
天津大学郝建业团队:团队主要研究方向为具身智能、LLM Agent、强化学习与多智能体系统等,发表人工智能领域国际会议和期刊论文100余篇,专著2部。研究成果荣获国际会议最佳论文奖3次,NeurIPS20-22大会竞赛冠军4次。相关成果在工业基础软件智能化、自动驾驶、游戏AI、广告及推荐、5G优化、物流调度等领域落地应用。成员包括刘金毅(博士生)、郑岩(副教授)等。
微信扫码关注该文公众号作者