遺伝子セット機能の発見における大規模言語モデルの評価
大規模言語モデルを用いた遺伝子集合機能発見の探求:GPT-4の優れた性能
学術的背景
機能ゲノミクス(functional genomics)の分野では、遺伝子集合の富化解析(gene set enrichment analysis)が遺伝子の機能と関連する生物学的プロセスを理解するための重要な方法となっています。しかし、現在の富化解析はGene Ontology (GO) などといった文献に基づいて整理された遺伝子機能データベースに依存しており、これらのデータベースには不完全性や更新の遅れといった課題があります。このため、多くの遺伝子集合が従来のツールでは効果的に解析できず、これらの未定義の遺伝子集合が新たな生物学的知識の源泉となる可能性があります。
こうした背景のもと、近年、生成型人工知能(generative artificial intelligence)、特にGPT-4などの「大規模言語モデル」(large language models, LLMs)の台頭が機能ゲノミクス分野に新たな可能性をもたらしました。これらのモデルは、大規模なテキストデータから深層的な意味情報を捉える能力を持ち、遺伝子集合の共有機能を識別し要約する用途に適用可能です。しかし、人工知能モデルが科学的な問題を扱うに十分な信頼性と性能を備えているのかを検証することが重要です。本研究は、この疑問に答えることを目的としています。
論文の出典
本論文は、《Evaluation of large language models for discovery of gene set function》(「遺伝子集合機能発見のための大規模言語モデルの評価」)と題され、Mengzhou Hu、Sahar Alkhairy、Ingoo Lee、Rudolf T. Pillichらの研究者によって執筆されました。著者らは全員、カリフォルニア大学サンディエゴ校(University of California San Diego)の医学部、コンピュータサイエンス&エンジニアリング学部および物理学部に所属しており、この研究は2025年1月発行の《Nature Methods》第22巻に掲載されています。本研究では、5つの主要な大規模言語モデルを用い、検証用データセットにおける機能回復能力およびモデル自身の信頼性評価能力を比較検討しました。
研究プロセス
a) 研究設計とワークフロー
研究チームは、LLMベースの全自動遺伝子集合機能解析パイプラインを設計しました。本パイプラインの具体的内容は、ユーザーが提供する一連の遺伝子もしくはタンパク質を入力として以下の出力を生成します:
- 短い生物学的記述名(Proposed Name): 遺伝子集合の主要な生物学的機能を表したもの。
- 支持的分析エッセイ(Analysis Essay): 名称提案の根拠を説明し、遺伝子の具体的な機能や生物学的プロセスを含むもの。
- 信頼度スコア(Confidence Score): 上記の分析結果に対するモデルの自信レベル(0から1の範囲で評価)。
研究には5つの大規模言語モデルが使用されました:GPT-4、GPT-3.5(いずれもOpenAIによるもの)、Gemini Pro(Googleによるもの)、Mixtral Instruct(MistralAIによるもの)、およびLlama2 70b(Metaによるもの)。さらに、各モデルに対して標準化されたプロンプト(指示テンプレート)を設計し、生成されるテキストの一貫性を向上させました。これらのプロンプトは、タスクの説明、信頼度スコア付与の指示、例示など、7つの構造に分類されます。
モデル性能をテストするため、研究チームは以下の2種類の遺伝子集合データセットを構築しました:
1. 文献に基づく遺伝子集合(Literature-curated gene sets): Gene Ontology生物学プロセス分岐(GO-BP)からランダムに抽出された1000個の遺伝子集合。
2. オミクスデータから得られた遺伝子集合(Omics-derived gene sets): トランスクリプトミクスおよびプロテオミクスデータから得られた300個の遺伝子集合。
b) 実験方法
意味的類似性の定量化(Semantic Similarity Measure):
SapBERTモデルを用いてLLMが生成した名称とGO用語名称の間の意味的類似性を評価しました。この指標は0から1までの値を取ります。値が高いほど、二つの名称の意味が近いことを示します。信頼度とデータ汚染検出:
関連性のない遺伝子集合を認識するモデル性能を評価するため、「汚染」遺伝子集合(実際の遺伝子集合にランダム遺伝子が一部挿入されたもの)と完全にランダムな遺伝子集合を設計し、モデルがこれらを処理する際の行動および信頼度スコアの変化を記録しました。オミクスデータの機能探索:
トランスクリプトミクス、プロテオミクスに基づく300個の遺伝子集合を解析し、GPT-4と従来の機能富化解析ツール(例:g:Profiler)の性能を比較しました。
研究成果
a) 文献整理された遺伝子集合の検証
Gene Ontology遺伝子集合を用いたテストでは、以下のような結果が得られました:
- GPT-4の卓越した性能: GPT-4は73%のケースで生成した名称が文献におけるGO用語と高い意味的類似性を示しました。また、GPT-4が付与した高い信頼度スコアは実際の正確率と明確な相関(相関係数r = 0.92)を示しました。
- 他LLMとの比較: GPT-4、Gemini Pro、GPT-3.5、Mixtralの性能はほぼ同等で(中央値の意味的類似性は約0.45-0.50)、Llama2は明らかに劣る(中央値は0.40)。
- 科学的結論の一貫性: 人手による審査では、GPT-4の生成した分析文の88%が文献で裏付けが得られ、その科学性と信頼性は比較的高いことが示されました。
b) オミクスデータに基づく機能発見
オミクスデータから得られた300個の遺伝子集合において:
- 正確な機能捕捉能力: GPT-4は135個の集合に対し高信頼度で名称を生成し、全体の45%を占めました。一方で、従来の富化解析ツールであるg:Profilerは229個の集合で名称を生成しましたが、その特異性は低く、ランダム遺伝子集合にも虚偽の富化名称を生成する場合がありました。
- 論理性と創造性: GPT-4は高品質な名称生成に加え、複数の遺伝子の潜在的機能を関連付ける分析を行いました。例えば、タンパク質相互作用データ(Nest:2-105)では、“Cullin–Ring型E3ユビキチンリガーゼ複合体(CRL)の調節”という具体的で正確な名称を生成し、重要な遺伝子ネットワークを検証データ付きで論じました。
c) 回答拒否能力の比較
GPT-4は、他モデルと異なり、無関係なランダム遺伝子集合に対して名称生成を拒否する能力が顕著でした。ランダム集合の87%のケースで、GPT-4は「システムは無関連な遺伝子で構成されている」と出力し、信頼度スコアを0としました。このような保守的行動は、GPT-3.5や他モデルを大きく上回りました。
研究の結論と意義
d) 研究のハイライト
深層生物学知識の捕捉:
GPT-4は機能発見、文献の関連付け、論理的推論において卓越した性能を発揮し、LLMが機能ゲノミクスにおいて有用であることを証明しました。新規手法とツール:
信頼度評価、高効率なプロンプト設計、自動化された文献引用検証モジュール(Citation Module)を導入することで、今後の再現性の向上に大きく貢献しました。新たな機能発見の潜在能力:
Gene Ontologyデータベース外の領域においても、GPT-4は文献や非構造化データを統合することで、GOに未登録の機能を正確に捕捉し、未知の分野を探求する科学者を補佐する可能性があります。
e) 科学と応用への価値
本研究は、大規模言語モデルが機能ゲノミクスにおける強力なアシスタントとして機能する可能性を示しました。特に、オミクスデータの解析や潜在的な新機能発見において重要な応用価値を持っています。また、GPT-4による信頼度スコア付与の手法は、データノイズと不関連性の評価において強力な意義を持ち、生命科学研究の革新的なモデルを提供します。
新世代の言語モデルは人工知能と生命科学を深く融合させました。このことは、実証科学研究における課題解決に寄与するだけでなく、生物医学の新たな研究方向性を切り開くものです。