华中科技大学生命学院张珞颖/薛宇团队利用大型语言模型助力解析睡眠等群体活动的分子特征
在自然界中,动物很少孤立行动。它们与同伴的相互作用对它们的行为和生理状态产生重要影响。尽管30多年前已提出社交关系的数量和质量是影响人类和其他动物健康的主要风险因素的假说,但其潜在机制仍然大部分不清楚。果蝇是社交型动物,呈现出动态社交互动网络和集体行为,并且这些行为对多种生命过程产生重要影响。
睡眠也是受到社交信号影响的一个不可或缺的生理过程。白天的社交经验能改变果蝇夜间的睡眠需求和结构,而长期的社交孤立会导致睡眠减少并伴随进食的增加。果蝇群体水平的睡眠和运动也与孤立个体不同,但在群体环境中,个体的睡眠和运动如何受到调节以及它们如何与社交活动相互作用尚不清楚。
最近,基于大型语言模型的生成式人工智能技术取得了巨大突破,特别是“生成式预训练转换器”(Generative pre-trained Transformer, GPT)模型及其后续更新版。GPT模型的设计与开发是基于具有注意力或自注意力机制的Transformer神经网络架构,而提示词工程(Prompt Engineering)已被证明能从大型语言模型中高效提取知识的前沿技术。特别值得注意的是,思维链(Chain of Thought, CoT)提示方法能激活大型语言模型并做出复杂推理。尽管机器能够提取和生成语言知识,然而如何利用大型语言模型便利于科学研究仍有待深入研究。
2024年5月1日,来自华中科技大学生命科学与技术学院张珞颖团队和薛宇团队在Nature Communications杂志上合作发表了题为“Large-language models facilitate discovery of the molecular signatures regulating sleep and activity”的研究论文,利用大型语言模型GPT-3.5与提示词工程技术,结合基于多目标视频追踪的果蝇表型定量装置,对果蝇基因组进行系统解释与功能筛选,预测并验证了758个果蝇基因参与调控群体/个体睡眠和活动。尤其是使用基于思维链提示方法的机器推理,发现了仅在同伴存在情况下发挥睡眠调节功能的mre11基因,揭示了MRE11可能通过调节多巴胺信号通路而影响睡眠、运动和社交活动。
因此,本项工作通过利用大型语言模型生成的上下文信息进行计算解释和推理,结合使用多目标视频跟踪范式进行基因筛选,系统揭示了调节睡眠、运动和社交活动的分子机制。
在该工作中,研究者们首先使用标准提示词方法从大型语言模型GPT3.5中获得知识,对参与果蝇睡眠、运动和社交活动的分子进行了全基因组的解读,发现分别有12.5%、13.8%和10.2%的果蝇蛋白同源异构体可能参与这3种行为。
在此基础上,构建了参与3种活动的标准基因数据集,并对GPT3.5产生的预测结果进行准确性评估。分析结果显示模型的灵敏性为18.4%-25.1%,而特异性为92.8%-92.9%,表明尽管GPT-3.5答案中的假阴性率较高,但低假阳性率能体现大型语言模型在搜索和总结文献方面的实用性。同时,开发了基于多目标视频跟踪的果蝇群体行为监测装置,能长期实时追踪群体中个体的活动,并利用该装置进行了全基因组的RNA干扰(RNA i)筛选,鉴定了可能参与调节睡眠、运动和社交活动的285、310和359个基因。
结合进一步的分子、药理等多种实验方法,发现了仅在群体条件下时发挥促睡眠作用的mre11基因,以及无论在群体和孤立条件下都参与促睡眠的NELF-B基因。为了进一步研究调控睡眠、运动和社交行为的分子之间作用关系,利用大型语言模型推理和思维链提示词方法,构建了一个由86个功能基因组成的信号调控网络。结合机器推理结果,验证了MRE11可能通过调节多巴胺受体Dop1R1来调节睡眠。
图示为该项目的总体研究流程图
综上,该研究不仅提供了大型语言模型辅助科学探索的研究方式,而且解码了参与睡眠和活动调控的分子特征。本论文通讯作者为华中科技大学生命科学与技术学院张珞颖教授和薛宇教授,第一作者为华中科技大学生命科学与技术学院彭迪博士,博士研究生郑刘彬、刘丹和韩诚。该研究获得了科技部重点研发计划、重大项目以及国家自然科学基金等项目支持。
文章链接:
https://www.nature.com/articles/s41467-024-48005-w
原文链接:
https://life.hust.edu.cn/info/1886/6755.htm
微信扫码关注该文公众号作者