admin管理员组

文章数量:1437553

GenePT:用ChatGPT辅助基因功能分析/细胞状态与表型分析/基因程序探索

Basic Information

  • 英文标题:Simple and effective embedding model for single-cell biology built from ChatGPT
  • 中文标题:基于ChatGPT构建的简单有效的单细胞生物学嵌入模型
  • 发表日期:06 December 2024
  • 文章类型:Article
  • 所属期刊:Nature Biomedical Engineering
  • 文章作者:Yiqun Chen | James Zou
  • 文章链接:

Abstract

Para_01
  1. 大规模基因表达数据正在被利用来预训练模型,这些模型隐式地学习基因和细胞功能。
  2. 然而,这样的模型需要大量的数据整理和训练。
  3. 在这里,我们探索了一个简单得多的替代方案:基于文献的基因ChatGPT嵌入。
  4. 我们使用GPT-3.5从单个基因的文本描述中生成基因嵌入,然后通过加权每个基因的表达水平来平均基因嵌入,从而生成单细胞嵌入。
  5. 我们还通过仅使用按表达水平排序的基因名称为每个细胞创建了一个句子嵌入。
  6. 在用于评估预训练单细胞嵌入模型的许多下游任务中——特别是基因属性和细胞类型分类任务上——我们的模型,命名为GenePT,实现了与从数百万个细胞的基因表达谱预训练的模型相当或更好的性能。
  7. GenePT表明,文献的大语言模型嵌入提供了一条简单而有效的编码单细胞生物学知识的途径。

Main

Para_01
  1. 最近,单细胞生物学领域对开发‘基础模型’的兴趣和努力激增,这些模型旨在学习基因和细胞的嵌入表示,以促进各种下游分析。
  2. 最近提出了几种方法,如scBERT1、Geneformer2和scGPT3来应对这一挑战。
  3. 在概念层面上,它们采用了相似的方法,包括以下步骤:
  • 采用深度学习架构(通常来自 transformer 家族)。
  • 收集大规模单细胞基因表达数据集,以自监督方式预训练模型(即通过填补某些被掩盖的表达值)。训练好的编码器将输入的基因和细胞映射到一个高维嵌入向量,封装底层生物学信息。
  • 对于下游任务,可以选择使用适量的任务特定数据对模型进行微调,以提升其预测能力。
Para_02
  1. 值得注意的是,上述方法仅从基因表达数据集衍生嵌入,而不利用关于基因的文献和已有知识。虽然这种方法在应用于单细胞转录组学数据和任务方面取得了一些成功,但它有几个局限性。
  2. 首先,收集、处理并训练大规模单细胞转录组学数据需要大量的努力。
  3. 此外,提取嵌入信号严重依赖于第2步中使用的基因表达数据,这没有充分利用大量研究和文献总结的基因功能,可能导致样本效率低下并在某些应用中产生次优结果。
  4. 因此,在本研究中,我们引入了GenePT——一种替代且互补的方法,通过利用OpenAI的ChatGPT文本嵌入模型来表示基因和细胞,并探讨了使用自然语言编码基因和细胞生物学的可行性(见图1a-c概述)。

Fig. 1: An overview of the GenePT framework.

- 图片说明

◉ 对于每个基因,我们从NCBI提取其相应的文本摘要,并使用GPT-3.5文本嵌入作为其表示。◉ 在GenePT-w细胞嵌入框架中,我们对步骤a中的基因嵌入进行加权平均,权重为其细胞表达水平,并将这些细胞嵌入归一化到单位ℓ2范数。◉ 在GenePT-s细胞嵌入框架中,根据排名的基因表达,输入的单细胞数据中的每个细胞被转化为一个自然语言句子,然后使用整个句子的GPT-3.5嵌入来表示该细胞。

Para_03
  1. 我们方法的直觉如下:大型语言模型(如GPT-3.5和GPT-4)已经使用大量的计算资源在广泛的文本语料库上进行了训练,包括生物医学文献,并且在理解、推理甚至生成生物医学文本方面表现出非凡的能力。
  2. 因此,我们假设从广泛实验和研究中整理出来的基因摘要和功能的大型语言模型衍生嵌入可以更直接地捕捉底层生物学。
Para_04
  1. 我们评估了生成的嵌入在几个生物驱动的任务上的表现;我们的研究发现,GenePT 在各种下游任务中的表现与专门设计的模型如 Geneformer 相当,有时甚至超越。
  2. GenePT 为现有的单细胞 RNA 测序数据嵌入模型提供了几个优势:(i) 它在几个生物学任务上表现更好;(ii) 它不需要大量的数据集整理处理,也不需要对基因组数据进行额外的预训练;(iii) 使用起来非常简单,并且可以生成基因和细胞嵌入。
  3. 特别地,GenePT 使用基于大型语言模型的嵌入,这是一种与基于表达量的表示不同的信息来源,我们的研究结果表明,结合这两种方法是一个有前景的新方向。
Para_05
  1. 基础模型经过广泛的训练数据,并适用于广泛的应用场景,在诸如自然语言处理和计算机视觉等领域通过学习输入的信息表示,称为嵌入,已经实现了革命性的变化。
  2. 令人印象深刻的结果激发了将此类模型应用于生物学的努力,特别是在单细胞转录组学领域。
  3. 这些模型背后的愿望是打造一个类似于‘基础模型’的东西用于单细胞转录组学,希望由此产生的模型能够在一系列生物任务中展现出广泛的能力,而不仅仅是某一项特定任务。
Para_06
  1. 有前途的应用包括细胞类型注释(基于细胞的生物身份进行标记);
  2. 基因功能和调控网络推断(检查单个基因和基因簇的功能性);
  3. 样本整合(目标是处理转录丰度主要受技术噪声而不是基础生物学影响的情况);
  4. 以及组织药物反应预测。
  5. 例如,使用变压器架构,Geneformer2 使用了广泛的预训练,通过掩码标记预测在来自Gene Expression Omnibus的3000万细胞中对基因表达水平的等级进行了预训练。
  6. 该模型在从理解网络动态到解析网络层次结构的任务中表现出色。
  7. 类似地,scGPT3 使用生成预训练(任务是标准化的基因表达预测)在CELLxGENE集合中的3300万细胞上进行训练。
  8. scGPT的有效性在其下游应用中得到体现,如扰动预测、批次整合和细胞类型注释。
  9. 其他创新努力包括scBERT,作者将BERT模型应用于单细胞RNA测序数据表示,并在细胞类型注释和新型细胞类型发现方面展示了最先进的性能,
  10. 以及scFoundation,作者扩展了训练至5000万细胞,并利用非对称编码器-解码器架构来适应数据的高度稀疏性。
Para_07
  1. 开创性的工作将自然语言处理技术应用于基因和细胞生物学,旨在通过训练基于共现的神经网络嵌入来表示生物医学术语的语义,这些嵌入将单个术语(即基因名称)映射到向量上。
  2. 最近,研究人员开始探索使用大型语言模型(LLM)进行专注于生物医学的任务,利用它们从整个输入文本中编码信息的能力。
  3. 这种方法允许更细致和动态的表示。
  4. 例如,Hou 和 Ji 使用 ChatGPT 进行细胞类型注释;Wysocki 等人研究了 BioBERT 和 BioMegatron 嵌入编码的生物医学意义;Ye 等人则利用指令微调使 LLM 在图数据任务基准测试中获得具有竞争力的结果。
  5. 我们的提议 GenePT 直接受益于生物医学自然语言处理社区的广泛先前工作以及 ChatGPT 家族模型在生物医学任务中的有效性。
  6. 与以前直接查询 LLM 进行生物任务的方法相比,我们的方法利用了每个基因的输入描述,这些描述可以从高质量的数据库(如美国国家生物技术信息中心 NCBI)获取,并且 LLM 的嵌入模型较少受到幻觉等问题的影响。
  7. 当我们的论文正在准备时,Levine 等人独立地开始了与我们概念上相关的研究,他们将每个细胞转换成一系列按表达水平排序的基因名称,并截取前 100 个基因。
  8. 然而,他们的论文重点在于根据细胞类型生成新的细胞。
Para_08
  1. 我们的工作对文献做出了以下贡献:我们证明了一种简单的方法,使用基因功能描述的自然语言嵌入——例如可以从像NCBI基因数据库这样的来源轻易获得的摘要——在评估生物学相关的预测任务时,可以概括出与基因相关的潜在生物学关系和见解。GenePT方法的优势在于它的简单性、有效性和广泛适用性。
  2. The strength of our GenePT approach lies in its simplicity, effectiveness and broad utility.

Results

GenePT embeddings capture underlying gene functionality

GenePT嵌入捕捉潜在的基因功能

Para_01
  1. 在图2a中,我们展示了使用text-embedding-ada-002模型的超过34,000个基因的GenePT嵌入的二维UMAP。
  2. 这些基因属于最常见的前15个功能类别(有关详细分类,请参阅在线补充信息)。
  3. UMAP按各种基因功能组着色时显示出明显的聚类,这表明GenePT嵌入编码了基因的功能。
  4. 这证实了语言模型嵌入保留了关键的生物学信息,因为功能通常出现在NCBI基因总结中。
  5. 为了更定量地评估图2a中的观察结果,我们将基因进一步分为70%/30%的训练/测试集,并使用ℓ2正则化的逻辑回归对15个类别进行了预测准确性评估。
  6. 预测的功能类别与真实注释很好地吻合,总体准确率为96%,并且具有较高的类别特定准确率,只有轻微的错误分类发生在紧密相关的功能组之间,如lincRNA、lncRNA和加工转录物(图2b)。
  7. 为了更定量地评估图2a中的观察结果,我们将基因进一步分为70%/30%的训练/测试集,并使用ℓ2正则化的逻辑回归对15个类别进行了预测准确性评估。
  8. 预测的功能类别与真实注释很好地吻合,总体准确率为96%,并且具有较高的类别特定准确率,只有轻微的错误分类发生在紧密相关的功能组之间,如lincRNA、lncRNA和加工转录物(图2b)。

Fig. 2: GenePT gene embeddings encode underlying biology.

- 图片说明

◉ a, 基因PT嵌入的二维UMAP可视化,按不同的基因功能组着色。◉ b, 利用基因PT嵌入进行基因功能预测的混淆矩阵,结合ℓ2正则化的逻辑回归,在一个随机保留的30%测试集上进行。◉ c, 基于GEO表达数据20的GGI基准数据集上的预测准确性。◉ d, 高质量二元文献数据集49验证的PPIs的预测准确性。◉ e, 人类二元蛋白质相互作用数据集48上的预测准确性。◉ f, 人类心脏组织蛋白质-蛋白质功能相互作用数据集50上的预测准确性。◉ g, 在一个人类免疫组织数据集中,基于基因PT嵌入提取的基因程序在细胞类型特异性激活中的表现(每种程序显示了一组基因的随机子集)。识别出的基因程序在不同细胞类型的平均基因表达模式与Cui等人3先前确定的一致。

Para_02
  1. 我们进一步评估了 GenePT 嵌入在预测基因间相互作用(GGI)方面的有效性,如图 2c 所示。
  2. 我们将三种方法在 Du 等人提供的测试 GGI 数据集上的接收者操作特征曲线下面积(ROC-AUC)进行了比较,该数据集来源于共享的基因本体注释:
  3. (i)两个基因的 GenePT 嵌入之和与一个 ℓ2 正则化的逻辑回归分类器(LR)相结合,得到的 AUC 为 0.80;
  4. (ii)Gene2vec/scGPT/Geneformer 预训练嵌入之和与一个 LR 分类器相结合(得到的 AUC 为 0.63 至 0.66);
  5. (iii)两个随机嵌入(维度 d = 1,536,与 GenePT 相同)之和与一个 LR 分类器相结合,作为负对照(AUC 为 0.53)。
  6. 如图 2c 所示,与使用相同下游分类器的其他嵌入模型相比,GenePT 嵌入显著提高了性能。
  7. 即使与更复杂的下游分类器相比(例如,在 Du 等人报告的测试集 AUC 为 0.88 的深度神经网络),GenePT 在此任务中仍然具有竞争力。
Para_03
  1. 接下来,我们评估了使用GenePT基因嵌入预测蛋白质-蛋白质相互作用(PPIs)的能力,如图2d至f所示。
  2. 我们将三种方法在三个不同的PPI数据集上的ROC-AUC进行了比较(有关精确度-召回率曲线,请参阅在线补充信息),这三个数据集分别来自文献(面板d)、综合测定(面板e)和生物物理接触注释(面板f)。
  3. 对于所有三个数据集,将两个基因的GenePT嵌入之和作为输入,并结合ℓ2正则化的逻辑回归,结果比考虑的所有其他模型表现更好。
  4. 这些结果表明,基于文献的GenePT嵌入捕获了与基因和蛋白质相互作用相关的信息;一个有前景的未来方向是将GenePT嵌入与从3D结构或蛋白质语言模型中学到的蛋白质嵌入结合起来。
Para_04
  1. 最后,我们通过‘零样本’方法深入研究了GenePT衍生的基因程序在人类免疫组织数据集中的细胞类型特异性激活。
  2. 我们首先基于GenePT嵌入之间的余弦相似性构建了一个相似性图,在两个基因之间放置一条边如果它们的余弦相似度大于0.9,并在分辨率为20的情况下对得到的图应用Leiden聚类。
  3. 如图2g所示,随机抽取了包含10个或更多基因的20个基因程序。
  4. 这里展示了这些基因程序的平均表达水平,并按细胞类型进行分层。
  5. 观察到的这些程序的选择性激活与已建立的生物学知识一致,其中识别出的基因集是功能上不同的,并且在不同细胞类型中差异表达(例如,基因集8包括组织蛋白酶家族和基因集24包括整合素(ITG)家族)。
  6. 这些发现表明,GenePT推断出的基因程序有效地捕捉到了生物相关的功能组;不同相似性阈值下的附加结果可以在在线补充信息中找到。

GenePT embeddings enable accurate predictions of chromatin dynamics and dosage sensitivity

GenePT嵌入能够实现对染色质动态和剂量敏感性的准确预测

Para_01
  1. 在这一部分,我们深入探讨了基因在网络动力学中的作用预测的具体生物学任务,这些任务的数据集由Theodoris等人从文献中精心挑选:剂量敏感型与剂量不敏感型转录因子(TFs),双价与非甲基化基因,仅赖氨酸4甲基化与非甲基化基因,以及长程与短程TFs。
  2. 这些任务被用来展示Geneformer的效用。我们通过五折交叉验证的ROC-AUC评估了GenePT和Gene2vec嵌入的表现,使用了scikit-learn29默认参数的ℓ2惩罚逻辑回归(LR)或随机森林(RF)分类器。
  3. 相比之下,Theodoris等人报告的Geneformer结果是基于一个经过微调的变压器模型。
  4. 我们还报告了一些GenePT框架的变体:基因摘要的BioLinkBert嵌入;或者只有基因名称(没有上下文或描述)的GPT-3.5嵌入;以及与GenePT维度相匹配的随机嵌入(d = 1,536)。
Para_02
  1. 表1表明GenePT嵌入始终取得了具有竞争力的结果,有时甚至超过了Geneformer,尽管后者受益于一个大规模的预训练数据集和一个更复杂的分类头。
  2. 有趣的是,仅包含基因名称的GPT-3.5嵌入在某些任务中也显示出了较高的准确性。
  3. 这可能是由于两个方面:(1)基因命名法试图用相似的符号来表示功能相关或同源的基因,以便进行分组;(2)GPT-3.5的基础语言模型和标记器可能由于在科学文本上的广泛预训练而理解这些基因符号的生物学意义。
  4. 开源嵌入也显示出具有竞争力的表现:LLama-7B基本上与基于GPT-3.5的嵌入结果相匹配,BioLinkBert和Gene2vec紧随其后。
  5. 正如预期的那样,随机嵌入的表现类似于随机猜测。
  6. GenePT和随机嵌入之间预测性能的巨大差异表明,GenePT的性能不太可能仅仅是由于较大的嵌入维度(d = 1,536)。
  7. 此外,由于我们使用了低复杂度的现成的ℓ2正则化逻辑回归和随机森林,并且根据五折交叉验证报告了结果,因此性能不太可能由于模型过拟合。
  8. 总之,这些结果突显了我们多功能的GenePT方法的潜力,该方法与专门为单细胞RNA测序数据设计的最先进深度学习模型相比具有竞争优势。

Table 1 Cross-validated AUC for GenePT predictions versus alternative embeddings for downstream tasks 表1 基因PT预测在下游任务中的交叉验证AUC与替代嵌入的比较

Para_03
  1. 最后,至关重要的是确认有希望的结果并不是信息泄露的结果,比如测试集数据被包含在作为GenePT输入的原始NCBI基因摘要中。
  2. 我们在在线补充信息中详细展开了这些担忧。

GenePT learns representations that reflect cell biology

GenePT学习反映细胞生物学的表征

Para_01
  1. 在这一部分,我们证明了‘零样本’GenePT嵌入方法能够捕捉单细胞数据集的生物学特性。
  2. 我们首先评估了使用GenePT嵌入在六个不同的单细胞RNA测序数据集上的监督学习和非监督学习结果,这些数据集代表了来自循环系统(主动脉和动脉)、骨组织(骨头、髓系)、胰腺以及从健康个体和多发性硬化症患者中收集的免疫细胞的细胞。
  3. 此外,我们还展示了可以非常高效地利用预训练基因嵌入生成的GenePT-w嵌入,可以通过有限的任务特定数据进一步微调到多样化的细胞层面任务上,从而提高预测准确性。
Para_02
  1. 我们量化了生物注释(即,细胞类型、癌症类型和供体年龄)与从(i)预训练的Geneformer嵌入、(ii)预训练的scGPT嵌入、(iii)如图1b所示的GenePT-w嵌入和(iv)如图1c所示的GenePT-s嵌入推断出的k均值聚类标签之间的一致性。
  2. 我们在表2中使用调整互信息(AMI)和调整兰德指数(ARI)来量化这种一致性。
  3. 我们看到,通过GenePT-w和scGPT获得的潜在表示在AMI和ARI度量方面普遍优于GenePT-s和Geneformer嵌入:在九项任务中,scGPT和GenePT分别在五项和四项任务上提供了最多的生物学信号。
  4. 这表明GenePT细胞嵌入捕获的生物学变异与两个领先的单细胞基础模型相当。
  5. 一个重要的注意事项是,与细胞类型和注释的一致性是对嵌入效用的有限衡量指标,尽管它被广泛使用。
  6. 我们还在在线补充信息中包括了通过最近邻方法在这组数据集上的细胞类型注释任务的额外分类结果。
  7. 这一分析得出了类似的结果,即GenePT-w和scGPT是在这种设置下表现最好的两种方法,并且在预测准确性方面两者都持续优于Geneformer和GenePT-s(除一个数据集外)。
  8. 有趣的是,由不同嵌入(GenePT-w、GenePT-s和scGPT)检索到的不同最近邻的简单集成增强了预测性能(详见在线补充信息)。
  9. 这表明,诸如GenePT这样的自然语言嵌入可以为基于表达的基础模型(例如scGPT)在单细胞生物学任务中提供互补的见解。

Table 2 Assessing the association between different latent cell representations and biological annotations 表2 评估不同潜在细胞表示与生物注释之间的关联

Para_03
  1. 此外,我们探索了是否可以通过在心肌细胞和红斑狼疮数据集上进行微调来进一步改进GenePT嵌入以适应特定的下游任务。
  2. 心肌细胞数据集最早由Chaffin等人在文献33中发布,包含来自非衰竭心脏(n=9)或受肥厚型(n=11)或扩张型(n=9)心肌病影响的心脏样本。
  3. 红斑狼疮数据集包括120名红斑狼疮患者和22名健康对照者,研究的重点问题是通过单细胞RNA测序数据从个体患者水平预测临床表型。
Para_04
  1. 为了预测心肌病,我们首先在患者层面划分了数据集(14个用于训练,5个用于验证和5个用于测试),并在测试集上报告了表型预测准确性,因为科学问题是要区分非衰竭心脏中的心肌细胞与肥厚性或扩张性心肌病样本中的心肌细胞。
Para_05
  1. 我们在训练患者上微调了GenePT-w嵌入以预测三种表型:肥厚性、扩张性和非衰竭性。
  2. 然后我们评估了针对保留患者细胞的微调嵌入的表现。
Para_06
  1. 对于狼疮数据集,我们将数据分为训练集和验证集(72名狼疮患者和13名健康参与者)以及测试集(48名狼疮患者和9名健康参与者)。
  2. 我们在训练患者上对GenePT-w进行了微调,并通过为每位患者生成伪批量表达来报告患者级别的分类。
  3. 我们还通过在1%的训练数据上进行微调来评估细胞类型微调指标,以检查细胞类型的预测性能,从而在高质量细胞类型注释难以获得的情况下评估从微调GenePT-w嵌入中获得的收益。
Para_07
  1. 我们报告了表3中的表型分类结果:类似于正文中的细胞类型注释结果,预训练的GenePT-w嵌入在scGPT和Geneformer上表现出竞争力。此外,进一步微调GenePT数据在两个数据集上的表现提高了相当大的幅度。
  2. 对于心肌细胞任务,我们在图3a中提供了更详细的可视化和逐类预测准确性,在该图中可以看到,微调主要有助于改善NF(非衰竭心脏)和HCM(肥厚性心肌病的心脏)样本之间的区分。这与已建立的临床观察一致,即HCM是一种异质性疾病,范围从无症状诊断到严重心力衰竭,并且致病基因突变也引起了很大的兴趣。

Table 3 Test set performance on disease phenotype prediction tasks 表3 疾病表型预测任务上的测试集性能

Fig. 3: Fine-tuned GenePT embeddings improve downstream disease and cell type annotations.

- 图片说明

◉ a, 心肌病数据集中不同嵌入的 t 分布随机邻域嵌入可视化,按疾病表型着色,如原始研究33中所提供。◉ b, 系统性红斑狼疮数据集中不同嵌入的 t 分布随机邻域嵌入可视化,按注释的细胞类型着色,如原始研究58中所提供。

Para_08
  1. 此外,在狼疮数据集中,除了改进了患者级别的表型预测外,我们还考虑了细胞类型注释是否有所改善。
  2. 在图3b中,我们绘制了使用不同嵌入预测细胞类型的混淆矩阵,颜色按注释的细胞类型区分。
  3. 我们注意到,仅用1%的数据微调GenePT-w就提高了预测性能(总体准确率从86%提高到91%),
  4. 最显著的改进是在正确区分树突状细胞与B细胞和CD14+单核细胞方面,这对狼疮患者来说是一个具有挑战性的任务,因为免疫系统动力学发生了变化,尤其是在树突状细胞群体、亚群频率和定位方面。
  5. 特别是在树突状细胞群体中,亚群频率和定位方面,这些因素使得这项任务尤为困难。

GenePT embedding removes batch effect while preserving underlying biology

GenePT嵌入消除了批次效应同时保留了潜在的生物学特性

Para_01
  1. 我们接下来评估 GenePT 嵌入是否对批次相关的技术性伪影具有鲁棒性,例如患者变异性。
  2. 我们使用心肌病数据集中 10% 的随机样本和包含健康和扩张主动脉细胞的主动脉数据集中 20% 的随机样本,比较了 GenePT、预训练的 Geneformer 和 scGPT 的性能。
Para_02
  1. 回想一下,我们关注的主要变化是衰竭心脏中心肌细胞与肥厚型或扩张型心肌病样本中心肌细胞之间的差异。
  2. 然而,在实践中,这种效应可能会受到非生物学变异的影响,例如技术性伪影。
  3. 我们进行了以下分析来量化患者级别的批次效应:(i) 首先,我们将数据(无论是原始的RNA测序数据还是预训练嵌入之一)投影到前50个主成分上;
  4. (ii) 然后,我们应用了k均值聚类算法,其中k=42,这是不同患者的数量;
  5. (iii) 接着,我们计算了细胞簇和患者簇之间的ARI(调整兰德指数)。较高的ARI值表明存在更多的患者级别批次效应。
  6. 原始的单细胞RNA测序数据显示出较高的ARI值0.33,表明存在强烈的批次效应。
  7. 使用GenePT-s、Geneformer和scGPT,ARI分别下降到了0.07、0.01和0.01,这表明这些嵌入方法对批次效应具有鲁棒性。
Para_03
  1. 我们还调查了这些嵌入是否能够保留从采集细胞的患者那里获得的基础疾病表型(即,非衰竭与心肌病)。
  2. 为此,我们将心肌细胞随机分为80%/20%的训练/测试集,并使用以下预训练嵌入进行了预测性能评估:(i) GenePT-s,(ii) scGPT 和 (iii) Geneformer。
  3. 总体而言,GenePT-s 和 scGPT 在预留的测试集上几乎实现了相同的表现(两种嵌入对疾病标签进行预测的准确率为88%,精确率为88%,召回率为88%),而预训练的 Geneformer 表现稍逊(准确率为71%,精确率为72%,召回率为71%)。
Para_04
  1. 我们随后在同一组分析中对胸主动脉的数据集进行了分析。回想一下,这些细胞是从11名患者身上收集的,具有四种不同的表型:健康、仅升主动脉ATAA、升主动脉和降胸主动脉瘤ATAA、以及升主动脉和根部动脉瘤ATAA。
  2. 在图4中,我们展示了原始数据(上图)和GenePT-s嵌入(下图),分别按患者表型(左图)、注释的细胞类型(中图)和患者身份(右图)着色。
  3. 虽然原始数据主要按患者身份分组,并且即使对于相同的细胞类型也显示了不同的簇,但GenePT-s嵌入主要按细胞类型以及疾病表型进行聚类。
  4. 特别是,GenePT-s嵌入能够区分仅从升主动脉动脉瘤患者身上收集的细胞与包括根部的动脉瘤患者身上的细胞(使用图4最左列中的绿点和紫点表示)。

Fig. 4: GenePT-s embeddings lead to better batch integration while preserving biological information for scRNA-seq data.

- 图片说明

◉ 顶部:UMAP可视化子采样的主动脉数据集,根据三种不同的疾病表型(左),注释的细胞类型(中)和患者身份(右)着色,如原始研究37所提供。◉ 底部:UMAP可视化GenePT-s嵌入对于相同的一组细胞,根据疾病表型(左),注释的细胞类型(中)和患者身份(右)着色。

Para_05
  1. 聚类分析证实了视觉显示:患者身份与原始scRNA-seq数据上估计的k均值聚类(k=11)之间的ARI为0.24,而使用Geneformer、GenePT-s和scGPT时分别为0.11、0.10和0.18。
  2. 我们还评估了表型标签(三个ATAA亚型和一个对照)与从嵌入和原始scRNA-seq数据中得出的聚类之间的一致性。结果的ARIs分别是:Geneformer嵌入的0.12,GenePT-s嵌入的0.11,scGPT嵌入的0.12和scRNA-seq数据的0.12。
  3. 这些发现表明,GenePT-s、Geneformer和scGPT在对抗批次效应的同时保留了疾病表型的信息。这通过训练逻辑回归模型预测表型得到了进一步证实:在随机保留的20%测试集中,GenePT-s的准确率为73%(精确度为68%,召回率为74%),与scGPT的准确率(75%)、精确度(75%)和召回率(75%)相似,并且比Geneformer的准确率(69%)、精确度(68%)和召回率(69%)略好。

Discussion

Para_01
  1. 随着大规模测量基因和细胞功能的技术进步,嵌入模型作为一种吸引人的方法,开始被用来理解底层生物学。
  2. 在这项工作中,我们介绍了GenePT,这是一种简单但有效的嵌入模型,它利用GPT-3.5等自然语言模型,通过使用它们的文本摘要和排名的表达值来表示基因和细胞。
  3. 在各种背景下,包括区分基因功能组和预测GGI(基因-基因相互作用),这种方法即使与基于大规模单细胞转录组学数据训练的最先进的基础模型相比也证明是非常有效的。
  4. 我们的工作强调了用一种简单、由自然语言引导的表示方式来补充那些特别设计的基础模型的潜力,这可能是更加资源和数据高效的。
Para_02
  1. 需要注意的是我们工作的局限性,主要是因为当前的GenePT框架只利用了可用的基因摘要和描述。
  2. 这可能会忽略数据库中未记录的不太知名的功能和新的生物学见解,例如NCBI。
  3. 此外,与基于表达数据训练的嵌入不同,GenePT嵌入可能不适用于特定的组织和细胞类型,因为它们是从预训练的语言模型中得出的。
  4. 这可能在捕捉这些环境中基因和细胞的动态和上下文依赖角色方面构成挑战。
  5. 最后,嵌入的有效性受到所用语言模型的限制,即GPT-3.5。
  6. 虽然我们证明了微调是GenePT细胞嵌入的有效策略,但探索直接微调底层语言模型的机会(例如,生成基于LLama-7B的上下文相关基因嵌入)可以进一步增强所提出的方法。
Para_03
  1. 未来研究有几个有希望的方向。首先,将当前的GenePT方法扩展为更加动态和依赖于上下文的方法,可以增强其在实际应用中的实用性。
  2. 此外,调查如何在不同模态和模型之间整合不同的嵌入方式,以及改进GenePT-s中基因名称的简单有序表示,以获得更具生物学意义的表示,可以进一步提高嵌入模型在单细胞生物学中的可用性。
  3. 在这方面,我们推荐使用GenePT-w,因为它更自然地集成了基因表达信息,并且在大多数任务上优于GenePT-s。
  4. 此外,很自然地去研究GenePT在其他下游任务(如扰动预测和药物-基因相互作用)中的性能也是合理的。
  5. 最后,尽管本文主要关注基因和细胞嵌入,但探索利用LLMs嵌入的自然语言描述的方法是否可以应用于其他生物领域和挑战(如蛋白质序列建模、全基因组关联研究以及其他计算生物学任务)将是十分有趣的。

Methods

Data collection and transformation

数据收集与转换

Para_01
  1. 为了获得与单细胞转录组学研究最相关的基因嵌入,我们首先统一了Geneformer2和scGPT3中提供的基因名称列表。
  2. 这些基因的选择基于它们在预训练数据集中的表达水平。
  3. 在Geneformer的情况下,基因被表示为Ensembl ID而不是基因名称,我们使用mygene包进行转换,成功查找了超过90%的Ensembl ID。
  4. 此外,我们将下游应用数据集中检测到的基因纳入其中,总计约33,000个基因。
  5. 对于每个基因,我们在删除超链接和日期信息后从NCBI基因数据库的摘要部分提取其信息。
  6. 通过GPT-3.5(text-embedding-ada-002)获取了每个基因摘要的嵌入(平均,73个单词;四分位间距,25-116)。
  7. 每个嵌入具有1,536维,作为基因表示。
  8. 此外,我们使用HGNC数据库映射了大约60,000个额外的基因名称别名到NCBI摘要嵌入。
  9. 我们进行了敏感性分析,使用了四种不同来源的内容输入用于基因摘要(仅基因名称,基因名称加基因摘要,所有摘要卡信息和ChatGPT生成的基因摘要)。
Para_02
  1. 除了使用GPT-3.5嵌入基因摘要外,我们还比较了替代的嵌入方法,例如使用开源生物医学语言模型如BioLinkBert47进行基因摘要嵌入,以及基于基因表达的嵌入方法如Gene2vec20和Geneformer2。 错误!!! - 待补充
Para_04
  1. 为了构建GenePT-w嵌入,我们首先对GenePT基因嵌入进行加权平均,其中权重由每个基因的归一化表达量决定,然后将嵌入归一化为单位ℓ2范数。
  2. 这种方法利用了每个基因嵌入的丰富上下文信息,但受限于加权平均的简单性。
  3. 作为替代方案,受到最近工作2,3中通过表达值排序的基因表示细胞的方法的启发,我们通过创建一个按降序排列的基因名称序列(省略计数为零的基因)来表示细胞。
  4. 然后,我们将这种句子表示传递给GPT-3.5以获得GenePT-s嵌入。
  5. 虽然GenePT-s不直接利用基因表达信息,除了通过基因排序外,使用这种方法的经验实验可以提供有关此类基因排序方法有效性的见解。

Downstream gene-level and cell-level applications

下游基因层面和细胞层面的应用

Para_01
  1. Geneformer 和 scGPT 通过几个下游基因层面和细胞层面的任务展示了模型中编码的生物学知识。
  2. 在这篇论文中,我们在可能的情况下评估了 GenePT 在相同下游应用中的表现,以便将 GenePT 与其他用于基因和细胞的嵌入模型进行比较,例如 Geneformer、Gene2vec 和 scGPT。
Gene-level tasks

基因级别任务

  • 基因功能类别预测:这是一个基于15个最常见功能基因类别的多类别预测挑战。这些类别的标签是在Geneformer论文中整理的。
  • 基因属性预测任务:这包括使用Theodoris等人提供的开源数据进行的四个二分类任务——区分先前识别的剂量敏感转录因子(TFs)与剂量不敏感转录因子;区分双价基因与非甲基化基因;区分仅Lys4甲基化基因与非甲基化基因;区分长程与短程转录因子。
  • 基因相互作用(GGI)预测:我们使用了Du等人发布的基于共享Gene Ontology注释的GGI基准。训练和测试数据集包括超过20万个样本对,格式为(基因1,基因2,标签),其中二元标签指示一对基因是否已知存在相互作用。
  • 蛋白质相互作用(PPI)预测:我们使用GenePT嵌入评估预测PPI的能力,采用了以下三个数据集——(i)Luck等人通过多种PPI检测方法筛选收集的人类二元蛋白质相互作用(HuRI)数据集;(ii)至少有两条可追溯证据支持的全面二元PPI(Lit-BM);(iii)Greene等人推导的组织特异性蛋白质-蛋白质功能交互网络。这些PPI数据集包含格式为(蛋白质1,蛋白质2,二元标签)的样本。二元标签指示两个蛋白质之间是否存在观察到的相互作用。我们首先使用UniProt转换工具将蛋白质的蛋白组标识符转换为基因名称。如果返回多个基因,我们随机选择一个。由于HuRI和Lit-BM数据集中仅报告了正向相互作用,我们通过随机采样Luck等人检查但未报告为相互作用对的蛋白质对,构建了等量的负向数据。我们在补充信息中探讨了通过为PPI任务提供依赖上下文的基因描述来创建依赖上下文嵌入的潜在用途。
  • 基因程序的无监督探索:为了检查基因之间的相互作用,我们使用来自人类免疫组织数据集的GenePT嵌入构建了GGI相似性网络。我们的验证过程遵循Cui等人,包含以下步骤:(1)基于高变基因之间的余弦相似性构建基因网络;(2)应用无监督Louvain聚类以推导基因程序;(3)将突出显示的基因程序的趋势与它们在细胞特异性表达水平上的趋势进行定性比较。
Cell-level tasks

细胞级任务

  • 评估嵌入与底层细胞状态的关联:我们考虑了以下测试数据集,代表循环系统(主动脉,Li等人原始发表数据的随机20%子集,包含11种细胞类型;动脉,含10种细胞类型)、骨组织(骨骼,含7种细胞类型;骨髓,含3种注释癌症类型和13,468个细胞中的11种细胞类型)、胰腺(含4,218个细胞中的11种注释细胞类型)以及从健康个体和多发性硬化症患者收集的免疫细胞(共3,430个细胞,含18种注释细胞类型和12名捐献者)。对于每个数据集及其相关的元数据注释,我们对预训练的GenePT、Geneformer或scGPT嵌入应用k均值聚类,以获得与元数据注释中的类别匹配的簇。我们选择簇数量k以匹配元数据注释中的类别数量。然后,我们计算ARI和AMI以评估推导的簇标签与真实元数据标签之间的一致性。推断标签与实际标签之间更高的对齐(由更高的ARI或AMI值指示)表明嵌入捕获了更多的生物结构和信号。我们还使用原始样本的真实注释计算ASW,以评估簇的内聚性和分离性。
  • 疾病表型预测:我们旨在预测心肌细胞(NF,非衰竭心脏;HCM,肥厚型心肌病心脏;DCM,扩张型心肌病心脏)和狼疮(疾病或健康)数据集中的表型特征。结果在心肌病数据集上按细胞水平报告,在狼疮数据集上按患者水平报告。我们在scGPT、Geneformer、GenePT-w的预训练嵌入以及微调后的GenePT-w嵌入上应用了ℓ2正则化逻辑回归。
  • 通过微调增强GenePT嵌入:我们研究了我们的预训练嵌入是否可以通过在特定下游任务上进行微调来增强预测性能,这一技术在单细胞基础模型中已取得成功。为了微调GenePT-w嵌入,我们训练了一个带有leaky ReLU激活函数的两层MLP(多层感知器)。以疾病表型和细胞类型预测为例,我们展示了从预训练文本基因嵌入高效生成的GenePT-w嵌入也可以通过微调来提升下游任务的性能。
  • 上下文感知和批次整合:预训练单细胞嵌入模型已显示出对常见的批次依赖技术伪影具有鲁棒性,同时仍能编码底层的生物上下文。我们评估了GenePT-s嵌入是否受到常见批次效应的影响,例如Theodoris等人使用的两个数据集中患者变异性:Chaffin等人原始发表的心肌细胞数据集和上述主动脉数据集。

Reporting summary

报告摘要

Para_01
  1. 关于研究设计的更多信息,请参阅本文链接的Nature Portfolio报告摘要。
  2. ,

Data availability

Para_01
  1. 本研究中使用的所有数据集以前均已发表,并在;本工作中生成的嵌入可以在。
  2. ,

Code availability

Para_01
  1. 源代码可在 获取。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-24,如有侵权请联系 cloudcommunity@tencent 删除性能chatgpt程序模型数据

本文标签: GenePT用ChatGPT辅助基因功能分析细胞状态与表型分析基因程序探索