评估大型语言模型在基因集功能发现中的应用

基于大语言模型探索基因集合功能发现:GPT-4的表现优异

学术背景

在功能基因组学(functional genomics)领域,基因集合富集分析(gene set enrichment analysis)是理解基因功能及其相关生物学过程的重要方法。然而,当前的富集分析主要依赖于文献整理的基因功能数据库,例如Gene Ontology (GO)等,这些数据库存在一定的局限性:数据不完整且更新速度有限。这导致了许多基因集合无法通过传统工具有效解析,这些未曾被明确标注的基因集合正是潜在产生重要生物学新见解的源泉。

在这种背景下,近年来生成式人工智能(generative artificial intelligence),尤其是诸如GPT-4的“大语言模型”(large language models, LLMs)的兴起,为功能基因组学提供了新的可能性。这些模型能够从大规模文本数据中捕捉深层语义信息,可应用于识别和总结基因集合的共享功能。然而,人工智能模型的科学性和性能是否足够可靠,用于如此复杂的生物学问题?本次研究的目的便是回答这一问题。

论文来源

该论文题为《Evaluation of large language models for discovery of gene set function》,由Mengzhou Hu、Sahar Alkhairy、Ingoo Lee、Rudolf T. Pillich等科研人员共同完成。作者分别来自University of California San Diego(加州大学圣地亚哥分校)的医学系、计算机科学与工程系及物理系。该研究发表于《Nature Methods》2025年1月第22卷。该研究评估了五种主流大语言模型在基因集合功能发现中的表现,重点比较了其对验证集的功能恢复能力以及模型自主置信度评估的可靠性。


研究流程

a)研究设计与工作流

研究团队设计了一种基于LLM的全自动基因集合功能分析管道。具体而言,该管道以用户提供的一组基因或蛋白质作为输入,并生成以下输出:

  1. 短生物学描述名称(Proposed Name): 描述基因集合的主要生物学功能。
  2. 支持性分析文章(Analysis Essay): 解释名称的依据,包含基因的具体功能或生物学过程。
  3. 置信度评分(Confidence Score): 模型对以上分析结果的信心水平,范围为0到1分。

研究中使用了五种大语言模型:GPT-4、GPT-3.5(均来源于OpenAI)、Gemini Pro(Google)、Mixtral Instruct(MistralAI)以及Llama2 70b(Meta)。此外,作者为每个模型设计了标准化Prompt(指令模板)以提高生成文本的一致性。这些Prompt结构分为七大部分,包括任务描述、信心水平指令及示例参考等内容。

为了测试模型性能,研究团队首先构建了两类基因集合数据集: 1. 文献整理的基因集合(Literature-curated gene sets): 从Gene Ontology生物学过程分支(GO-BP)中随机抽取了1000个基因集合。 2. 组学数据衍生的基因集合(Omics-derived gene sets): 从转录组和蛋白质组数据中获取了300个基因集合。

b)实验方法

  1. 语义相似度量化(Semantic Similarity Measure):
    作者通过SapBERT模型评估LLM生成名称与GO术语名称之间的语义相似度,该指标取值在0到1之间,值越高表示两个名称之间的语义越接近。

  2. 置信度与数据污染检测:
    为评估LLM对不相关基因集合的识别能力,研究设计了“污染”基因集合(即部分随机基因被插入到真实基因集合中)和完全随机基因集合,测试模型在处理这些集合时的置信度变化及表现。

  3. 组学数据功能探索:
    通过对300个组学基础的基因集合进行分析,研究比较了GPT-4与传统功能富集分析工具(如g:Profiler)的表现。


研究发现

a)验证文献基因集合

在使用GO基因集合的测试任务中,研究发现: - GPT-4性能突出: GPT-4在73%的情况下生成的名称与文献中的GO术语具有高度语义相似性,且其赋予的高置信度分数与实际准确率显著相关(相关性系数r达0.92)。 - 与其他LLM对比: GPT-4、Gemini Pro、GPT-3.5和Mixtral表现接近(中位语义相似度约为0.45-0.50),但Llama2表现明显较差(为0.40)。 - 科学结论一致性: 人工审查发现GPT-4生成的分析文章88%的描述都能在文献中找到支持,其科学性和可靠性相对较高。

b)组学数据功能发现

在300个真实从组学数据中提取的基因集合中: - 精准功能捕获能力: GPT-4为135个集合生成了信心较高的名称,占比45%。相比之下,传统富集分析工具g:Profiler命名了229个集合,但其特异性低且容易对随机基因集合生成虚假富集。 - 逻辑性与创造力: GPT-4不仅生成高质量名称,还能通过分析关联多个基因的潜在功能。例如,在蛋白质交互数据Nest:2-105中,GPT-4生成了结构明确的名称“Cullin–Ring E3泛素连接酶复合物(CRL)的调控”,并详细论述了关键基因网络的验证数据。

c)拒答能力对比

GPT-4与其他模型的一个重要区别在于其主动拒绝生成随机基因集合名称的能力。在87%的完全随机集合测试中,GPT-4直接输出“系统由不相关基因组成”,并赋予0分置信度。这种显著的保守行为远优于GPT-3.5和其他模型。


研究结论和意义

d)研究亮点

  1. 深层生物知识的捕获:
    GPT-4在功能发现、文献关联与逻辑推导中展现出超强表现,证明了LLM在功能基因组学中的适用价值。

  2. 新颖方法与工具:
    引入置信度评估、高效Prompt设计以及自动化的文献引用验证模块(Citation Module)为未来相关实验的再现性与可信度提供了强大工具。

  3. 新功能发现的潜力:
    在Gene Ontology数据库之外,GPT-4通过整合文献与非结构化数据,能够准确捕捉未被GO覆盖的功能,展现了辅助科学家探索未知领域的潜力。

e)科学和应用价值

该研究证明了大语言模型可作为功能基因组学的有力助手,在解析组学数据和发现潜在新功能上具有重要应用价值。此外,GPT-4提供置信度评分的方法对数据噪声与不相关性分析具有强大意义,为生命科学研究提供了创新模式。

新一代语言模型将人工智能与生命科学深度融合,这不仅解决了实证科学研究中的瓶颈问题,还开辟了生物医学的全新研究方向。