admin管理员组

文章数量:1444661

ICLR|基于LLM智能体和知识检索的基因集功能发现工具

引言:基因集分析的现状与挑战

多组学数据为揭示基因功能和疾病机制提供了前所未有的机会。然而,如何从海量数据中提取有意义的生物学见解仍是重大挑战。传统工具如基因集富集分析(GSEA)和过表达分析(ORA)在关联基因集与已知生物通路方面表现良好,但其依赖现有数据库的局限性使其难以发现未知机制。此外,这些工具通常要求用户具备一定的编程能力,并需手动整合文献信息,这增加了应用门槛。近年来,大型语言模型(LLM)因其强大的文本处理能力受到关注,但其“黑箱”特性、知识更新滞后以及与生物信息工具的割裂限制了其在科研中的直接应用。

为应对这些问题,纽约大学团队开发了Discovera——一种融合LLM推理、知识检索和生物信息学工具的多模态智能系统。该工具旨在自动化基因集功能探索并生成可解释的机制假说。本文将以子宫内膜癌研究为例,系统介绍Discovera的设计理念、功能特点及其潜在价值。

Discovera的设计与创新

系统架构

Discovera基于ReAct模型构建智能体,整合三大核心模块:

  1. 生物信息工具链:包括GSEApy用于富集分析、INDRA知识库用于提取基因互作关系,以及自定义函数用于计算基因表达和突变数据的相关性等;
  2. 知识检索引擎:通过INDRA数据库实时检索基因间相互作用(如激活、抑制、复合体形成等)并关联文献证据;
  3. LLM交互界面:以聊天式交互方式引导用户操作,支持动态生成代码、结果可视化及机制假设的提炼。

核心创新

  • 自动化分析流程:用户只需输入基因列表或表型数据,系统即可自动完成数据加载、富集分析和知识检索,显著降低技术门槛;
  • 透明化推理:每一步操作均展示底层工具调用和文献支持,减少LLM可能产生的“幻觉”风险;
  • 灵活扩展性:支持用户自定义工具和参数,适应不同研究场景的需求。

Discovera通过协调这些模块,将复杂的分析任务转化为结构化的流程,并以易懂的方式呈现结果,使不具备编程背景的生物学家也能高效利用。

应用案例:子宫内膜癌机制探索

为验证Discovera的实用性,研究团队以Dou等人(2020)的子宫内膜癌蛋白质组数据集为例,展示了其工作流程。

第一步:数据加载与富集分析

用户上传与β-catenin突变表型相关的基因表达数据后,Discovera自动调用run_gsea()工具,基于KEGG 2016、GO生物过程2023、Reactome通路2024和MSigDB标志2020等通路库进行分析。结果显示,“Wnt信号通路的负调控”(GO:0030178)是最显著的通路(FDR q-val=0.006),涉及关键基因如LRP4、NOTUM、APCDD1、DKK4、CTNNBIP1、WIF1和CSNK1A1。系统同时生成可视化结果,便于用户直观理解。

第二步:基因关系挖掘

用户进一步筛选与β-catenin突变高度相关的基因(如CTNNB1、AMOT、MSX2),并要求系统检索其互作关系。Discovera通过INDRA数据库提取证据:

  • CTNNB1与AMOT:3篇文献支持“激活”关系,3篇描述“复合体形成”;
  • CTNNB1与MSX2:9篇文献支持“激活”,6篇提示“表达量增加”。 这些关系均标注文献来源和证据类型,用户可追溯原始论文。

第三步:机制假说生成

结合富集分析和基因互作证据,Discovera提出假设:CTNNB1(β-catenin)通过与AMOT的相互作用可能影响Wnt和Hippo信号通路的协同调控,进而促进细胞增殖和迁移——这是子宫内膜癌发生发展的关键特征。此外,MSX2的上调可能进一步放大Wnt信号效应。系统建议针对这些通路进行实验验证,以探索潜在治疗靶点。

优势与可靠性保障

  1. 证据透明性:所有基因关系和假设均基于文献证据,并标注来源和类型,确保结果可追溯;
  2. 置信度评估:系统为未经验证的互作标注低置信度(<0.6),已验证关系则评分高于0.7,提示用户谨慎解读;
  3. 纠错与优化:支持用户反馈修正分析流程,提升结果的科学性和可重复性。

这些特性使Discovera在提供创新见解的同时,保持了较高的可靠性。

未来发展方向

研究团队计划从以下方面优化Discovera:

  1. 文献整合能力:扩展至摘要和全文检索,提供更丰富的上下文支持;
  2. 交互性提升:开发动态查询功能,允许用户实时调整分析参数;
  3. 跨领域应用:与临床专家合作,验证其在肿瘤免疫、神经退行性疾病等领域的适用性;
  4. 评估体系完善:制定严格协议,评估系统输出的准确性和科学价值。

结论

基因集功能分析正在从依赖静态注释向动态发现转变,通过整合LLM的推理能力、生物信息工具和知识检索功能,实现从数据处理到机制推测的全流程自动化,为研究人员提供了高效、可解释的分析平台。

参考

Veizaga, D.P., Santos, A., Freire, J., Liu, W., Keegan, S. and Fenyo, D., Gene Set Function Discovery with LLM-Based Agents and Knowledge Retrieval. In ICLR 2025 Workshop on Machine Learning for Genomics Explorations.

本文为BioAI实验盒对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读部分内容由BioAI实验盒撰写,如需转载,请提前通过私信联系。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-20,如有侵权请联系 cloudcommunity@tencent 删除LLM自动化工具数据系统

本文标签: ICLR|基于LLM智能体和知识检索的基因集功能发现工具