EvoAIによるタンパク質配列空間の極端な圧縮と再構築

タンパク質配列空間の極端圧縮と再構築:EvoAIによる革新的な研究

背景紹介

タンパク質の設計と最適化は、バイオテクノロジー、医学、合成生物学分野における主要な課題の一つです。タンパク質の機能は、その配列および構造によって決定されますが、この機能性配列空間(sequence space)は非常に複雑で高次元であり、大量の可能性を含んでいます。この領域の探求における重要な課題は、このほぼ無限といえる配列空間をどのように効果的に解析し、圧縮し、機能に密接に関連する特徴を識別するかという点にあります。従来のアプローチには、直接進化(directed evolution)、深度変異スキャン(deep mutational scanning, DMS)、部位飽和変異(site-saturation mutagenesis)といった実験的手法が含まれ、遺伝子型と表現型の関係を解明する上で重要な知見を提供してきました。しかし、これらの方法は配列空間のカバレッジ、正確性、そして高次元分析能力の面で顕著な制約を受けています。一方、計算方法では、配列や構造に基づくモデリングが行われますが、利用可能なトレーニングデータに依存しており、実験では完全に探索できない高次元の配列空間をカバーすることが困難です。

そのため、本研究では、新しい方法を開発することで、現行の実験および計算方法のさまざまなボトルネックを克服することを試みました。特に、次の問題に取り組みました:高速なスキャンと配列空間の圧縮、特に高次元空間での実施方法の確立と、それを用いた圧縮データに基づく新しい高性能タンパク質の予測と設計です。この目的のために、研究チームは新しい実験と計算を組み合わせた手法、「EvoAI」を提案しました。

論文情報

この革新的な研究は、清華大学、Broad Institute of MIT and Harvard、Williams College、Massachusetts Institute of Technology (MIT) などのトップレベルの研究機関の科学者たちによって共同で実施されました。第一著者はZiyuan Maらで、責任著者はShuyi Zhangです。この研究は2024年11月11日に『Nature Methods』に掲載されました。

研究プロセス

本研究は、EvoAIの開発と検証を中心に展開され、実験技術「EvoScan」と深層学習を基盤とする計算的方法を統合し、タンパク質配列空間の探求と再構築に新たな流れを提案しました。

1. EvoScan:実験的進化スキャンシステム

EvoScanは、改良型噬菌体支援非連続進化(Phage-Assisted Noncontinuous Evolution, PANCE)技術を基盤に、CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)誘導型DNAポリメラーゼ変異システムEvolvRを組み合わせて、高速かつ効率的な「進化スキャン」(Evolutionary Scanning)技術を開発しました。

  • システムの構築と設計
    EvoScanの核となるアイデアは、標的遺伝子を噬菌体ゲノムに導入し、特定のガイドRNA(gRNA)によって分割変異を誘導することを通じて、複雑な高次元配列空間を低次元のサブスペースに分割することにあります。この実験では、M13噬菌体をキャリアとして使用し、標的調節回路と組み合わせることで、特定の機能を持つ変異のスクリーニングを実現しました。例えば、EGFP(Enhanced Green Fluorescent Protein, 増強型緑色蛍光タンパク質)-Nanobody相互作用実験では、EGFPの結合領域をCRISPR抑制タンパク質と融合させ、gIII遺伝子の発現制御と噬菌体の増殖をリンクさせました。この実験では、変異設計および循環式の通路伝達方法を活用して、遺伝的空間を段階的に探査しました。

  • 検証と実行
    EGFP-Nanobody相互作用をモデルとして、実験ではEvoScanの迅速かつ効果的な機能関連アンカー(「基点」)の特定能力を検証しました。例えば、E103K変異を導入した場合、わずか2回の伝代で変異が元の状態に回復しました。

2. 高次元探索と詳細ケース分析

EvoScanの多用途性は、次の3つの主要なタンパク質システムを使用して検証されました:

  • タンパク質-配体相互作用:SARS-CoV-2の主要タンパク質分解酵素(Mpro)をモデルに、薬剤阻害剤GC376やNirmatrelvirを組み合わせて使用し、薬剤耐性を引き起こす可能性のある重要変異地点(例えばE166VやS144Aなど)の一群を明らかにしました。

  • タンパク質-核酸相互作用:Tetrファミリーの転写調節因子AmeRについて、効率的なスキャンを通じて、高機能性82種のアンカー変異を生成し、52個の重要な変異地点を特定しました。また、変異間の相乗効果(エピスタシス)の複雑性も明らかにしました。

3. 深層学習によるサポート:EvoAIでの設計と予測

EvoAIは先行した実験結果を基に学習を行い、タンパク質設計における高い予測精度と配列空間再構築能力を示しました:

  • モデル構造
    事前に学習されたGeoFitnessモデルとタンパク質言語モデルESM-2(Evolutionary Scale Modeling)を組み合わせて使用し、複雑な変異の相互作用効果を予測しました。得られたモデルは、訓練データにおいてSpearman相関係数0.91の高い精度を示しました。

  • 新規タンパク質設計と検証
    モデルによる新しい高得点予測変異体を10種クローン化し、野生型と比較して10〜38倍の向上した性能を実験的に確認しました。

研究結論

本研究では、EvoScanによる実験的スクリーニングとEvoAIによる計算的再構築を組み合わせることで、~10^50の規模を持つ理論的設計空間を、優れた性能を持つ82個のアンカー地点まで圧縮できることを実証しました。この研究は、タンパク質設計の新しい道を切り拓くだけでなく、生物進化における潜在的な簡略化メカニズムも明らかにしました。

研究の意義とポイント

  1. 極端な圧縮性:高次元タンパク質配列空間が少数のアンカーで代表される可能性を発見。
  2. 広範な汎用性:EvoScanは、タンパク質-タンパク質、タンパク質-配体、およびタンパク質-核酸間の相互作用において有効であることを証明。
  3. 高度な予測能力:EvoAIで設計された変異体はタンパク質機能を大幅に向上。
  4. 進化理論への示唆:遺伝子型空間の圧縮メカニズムを自然選択が使用する可能性を支持する実験結果。

この技術的ブレークスルーは、タンパク質工学および合成生物学、さらには進化生物学のさらなる探求に向けて、強力なツールを提供するだけでなく、深い研究の可能性を切り開くものです。