条件付きタンパク質拡散モデルにより、活性が強化された人工プログラム可能エンドヌクレアーゼ配列を生成

深層学習を活用したタンパク質設計:条件付き拡散モデルによる機能的タンパク質配列の生成

タンパク質は生命科学研究および応用の中心的要素であり、その多様性と機能の複雑性は科学者に無限の可能性を提供します。深層学習技術の発展により、タンパク質設計は新たな高みに到達しつつあります。上海交通大学やケンブリッジ大学など複数の機関の科学者が共同で発表した研究「A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity」は、「条件付きタンパク質拡散モデル」(Conditional Protein Diffusion Model、CPDiffusion)という新しい方法を用いて、機能が向上した人工タンパク質配列を設計する手法を紹介しました。この研究は《Cell Discovery》誌に掲載され、タンパク質工学や生物医学分野に大きな突破口をもたらしました。

背景と研究目標

近年、深層学習はタンパク質の機能設計において強力な可能性を示しています。従来のタンパク質設計手法は、複雑な実験や理論モデルに依存しており、大量のデータ要件、高いトレーニングコスト、長い最適化サイクルなどの課題があります。特に多機能ドメインを持つ複雑なタンパク質を扱う場合、従来の手法では多くの困難が伴います。一方、深層学習モデルはデータ駆動型の手法を提供し、タンパク質配列の潜在設計空間を迅速に探索することが可能です。

研究チームは原核アルゴノート(PAgos)タンパク質に着目しました。このタンパク質は、正確なDNA切断機能により、遺伝子編集や分子診断で注目を集めています。しかし、既存のPAgosは低温での切断活性や酵素活性の低さに制限されており、その潜在能力を十分に活用できていません。このため、研究者たちは深層学習モデルを用いて、活性や安定性が向上した人工PAgos配列を生成することで、より広範な応用ニーズに応えることを目指しました。

手法と技術革新

1. 条件付き拡散モデルの設計

この研究の核心は、CPDiffusionと呼ばれる条件付き拡散モデルを使用したタンパク質配列生成にあります。このモデルの基本原理は、「拡散-ノイズ除去」プロセスを通じて、ランダム分布から特定の条件を満たすタンパク質配列を段階的に復元することです。具体的には以下の特徴があります:

  • モデル構造:生化学的性質とトポロジー構造情報を組み合わせた等変グラフ畳み込みネットワーク(Equivariant Graph Convolutional Network)を採用。
  • 条件制約:トレーニング時にタンパク質の二次構造、テンプレート骨格、高度に保存されたアミノ酸部位を組み込むことで、生成される配列が機能要件により適合するように誘導。
  • トレーニングデータ:近700個の天然PAgosタンパク質と20,000個の多様なタンパク質ファミリー配列を基にモデルをトレーニング。「配列-構造-機能」の関係を学習し、新しい多機能ドメイン長配列タンパク質を生成。

2. 配列生成と選別

研究者たちは、2種類のPAgosタンパク質(Kurthia massiliensis Ago(KmAgo)およびPyrococcus furiosus Ago(PfAgo))をテンプレートとして使用し、それぞれ27種類と15種類の人工配列を生成しました。生成プロセスには以下が含まれます:

  • 初期選別:AlphaFold2を用いた構造予測を基に、局所構造類似性(PLDDTスコア)や全体構造一致度(TMスコア、RMSD値)で配列を選別。
  • 実験的検証:候補タンパク質に対する発現、溶解性テスト、DNA切断活性評価、熱安定性テストを実施。

主な研究結果

1. 機能強化型人工タンパク質

実験の結果、生成された人工KmAgoとPfAgoはいずれも顕著な機能向上を示しました:

  • KmAgoシリーズ:生成された27種類の人工KmAgo(Km-APs)のうち24種類が単鎖DNA(ssDNA)の切断活性を示し、そのうち20種類が野生型(WT)を上回る活性を示しました。最良のタンパク質はWTの9倍の切断活性を有します。
  • PfAgoシリーズ:生成された15種類の人工PfAgo(Pf-APs)は45°Cで全て切断活性を示し、そのうち6種類は高温条件下でのWT PfAgoを超える活性を示しました。

2. 熱安定性と機能特性

  • Km-APs:人工KmAgoのうち10種類がWTよりも優れた熱安定性を示し、高温条件下でのDNA切断活性を維持しました。
  • Pf-APs:生成されたPfAgoタンパク質はWTより低い融解点(50°C対100°C)で、向上した機能特性を示し、中温条件下での応用可能性を示唆しています。

3. 配列多様性と保存性

生成された人工配列は、重要な触媒部位を維持しながら、高い配列多様性を示しました。テンプレートWTタンパク質との配列類似性は50%-70%であり、他の野生型タンパク質との類似性は40%未満であることが確認されました。これにより、モデルの配列革新性探索能力が証明されました。

研究の意義と応用の展望

この研究の成功は、深層学習に基づくタンパク質設計が新たな段階に入ったことを示しています。CPDiffusionは、大量の注釈データを必要とせず、効率的に多機能ドメインを持つ複雑なタンパク質を設計する手法を提供し、以下の潜在的応用があります:

  1. 分子診断と疾患検出:機能強化されたPAgosタンパク質は、病原体やがん関連変異の早期診断のための正確な核酸検出に使用可能。
  2. 遺伝子編集と治療:生成されたPAgosタンパク質は、特定のDNA/RNA配列を標的とする効率が向上しており、遺伝子編集や標的治療に大きな支援を提供。
  3. 環境および産業用途:優れた安定性と活性を持つ人工タンパク質は、複雑な環境でのバイオ触媒としての利用が期待されます。

結論

CPDiffusionは革新的なタンパク質設計アプローチを提示し、その効率性、正確性、多様性は、今後のタンパク質工学研究の道を開くものです。技術がさらに発展することで、深層学習を活用した機能性タンパク質設計は、生物医学、環境科学、産業技術などの分野でさらなる可能性を引き出すことが期待されます。