FlowPacker: トーショナルフローマッチングを用いたタンパク質側鎖パッキング
タンパク質の三次元構造はそのアミノ酸配列によって決定され、タンパク質の機能はその三次元構造に大きく依存しています。タンパク質の側鎖構造(side-chain conformations)は、タンパク質の折り畳み、タンパク質-タンパク質相互作用、およびタンパク質設計(de novo protein design)において重要な役割を果たします。正確にタンパク質側鎖の構造を予測することは、タンパク質の折り畳みメカニズムを理解し、新しいタンパク質を設計し、タンパク質相互作用を研究するための鍵となります。しかし、従来の物理ベースのモデル(physics-based modeling)は、経験的なスコアリング関数(empirical scoring functions)、離散的なロタマーライブラリ(discrete rotamer libraries)、およびマルコフ連鎖モンテカルロ(MCMC)サンプリングに依存しており、これらの方法は検索効率の低さやスコアリング関数の不正確さのため、理想的な結果を得ることが難しい場合があります。
近年、人工知能はタンパク質構造予測と設計の分野で著しい進歩を遂げています。特に、AlphaFoldやDiffPackなどの深層学習モデルは、タンパク質側鎖パッキング(side-chain packing)タスクで優れた性能を示しています。それにもかかわらず、既存の方法は実行時間と精度の面でまだ改善の余地があります。そのため、Jin Sub LeeとPhilip M. Kimは、ねじれ流マッチング(torsional flow matching)と等変グラフアテンションネットワーク(equivariant graph attention networks)に基づくFlowPackerを開発し、タンパク質側鎖構造予測の精度と効率を向上させることを目指しました。
論文の出典
この論文は、Jin Sub LeeとPhilip M. Kimによって共同執筆されました。彼らはそれぞれカナダのトロント大学の分子遺伝学科とコンピュータサイエンス学科に所属しています。論文は2025年1月9日に「Bioinformatics」誌に掲載され、タイトルは「FlowPacker: Protein Side-Chain Packing with Torsional Flow Matching」です。論文のコードとデータはGitLabで公開されており、学術界と産業界で利用可能です。
研究のプロセス
1. モデル設計
FlowPackerの核心は、ねじれ流マッチング(torsional flow matching)と等変グラフアテンションネットワーク(equivariant graph attention networks)です。ねじれ流マッチングは、新しい生成モデルのパラダイムであり、シミュレーションなしで連続正規化フロー(continuous normalizing flows, CNFs)を訓練することができ、従来の拡散モデル(diffusion models)よりも強力な性能とより速い訓練収束速度を持っています。FlowPackerは、高次元トーラス(high-dimensional torus)上でねじれ流マッチングフレームワークを定義し、タンパク質側鎖の構造を生成します。
2. データセットの準備
研究では、訓練用に2つのデータセットを使用しました:BC40データセットとPDB-S40データセットです。BC40データセットは40%の配列相同性を持つPDB構造を含み、PDB-S40データセットは2023年7月28日のPDBスナップショットから抽出された単量体タンパク質構造で、同じく40%の配列相同性でクラスタリングされています。テストセットには、CASP13、CASP14、およびCASP15のターゲットタンパク質構造が使用されました。
3. モデルの訓練
FlowPackerのモデルアーキテクチャはEquiformerV2に基づいており、最大角運動量(lmax)が3、チャネル次元が256で、合計1800万の訓練可能なパラメータを含んでいます。モデルは4つのNVIDIA A100 GPUで300エポック訓練され、総訓練時間は約6日でした。訓練プロセスでは、モデルは条件付きベクトル場(conditional vector field)を予測することで損失関数を最適化し、最終的にタンパク質側鎖の構造を生成します。
4. 推論戦略
推論フェーズでは、FlowPackerは指数スケジュール(exponential schedule)とオイラーソルバー(Euler solver)を使用して側鎖構造を生成します。研究ではまた、信頼度モデル(confidence model)を開発し、予測誤差が最小のサンプルを選択するために使用しました。
主な結果
1. 性能評価
FlowPackerは、CASP13、CASP14、およびCASP15のテストセットで、物理ベースのRosettaや深層学習のAttnPackerやDiffPackを含む他のベースラインモデルを上回る性能を示しました。FlowPackerは、角度平均絶対誤差(angle MAE)、角度精度(angle accuracy)、および原子根平均二乗偏差(atom RMSD)などの指標で最高の成績を収めました。
2. 側鎖修復
FlowPackerは、部分的な側鎖修復(inpainting)タスクでの能力も示しました。5%から75%の残基をランダムにマスクすることで、FlowPackerは提供された構造コンテキストに基づいて正確な側鎖構造を生成し、タンパク質設計における潜在的な応用価値を示しました。
3. 多量体複合体
FlowPackerは主に単鎖タンパク質に対して訓練されましたが、研究では抗体-抗原複合体(antibody-antigen complexes)での性能もテストしました。結果は、FlowPackerがCDRH3および全可変鎖(full variable chain, FV)の側鎖パッキングタスクでRosettaを上回り、多量体複合体の側鎖予測に拡張できることを示しました。
結論と意義
FlowPackerは、ねじれ流マッチングと等変グラフアテンションネットワークを導入することで、タンパク質側鎖構造予測の精度と効率を大幅に向上させました。このモデルは単鎖タンパク質だけでなく、部分的な側鎖修復や多量体複合体の予測タスクも処理でき、タンパク質設計と構造生物学における幅広い応用の可能性を示しています。
研究のハイライト
- 新しいねじれ流マッチングフレームワーク:FlowPackerは初めてねじれ流マッチングをタンパク質側鎖パッキングタスクに適用し、より効率的な生成モデリング手法を提供しました。
- 等変グラフアテンションネットワーク:EquiformerV2を使用することで、FlowPackerはタンパク質構造の対称性をより良く捉え、モデルの表現力を向上させました。
- 多タスク能力:FlowPackerは単鎖タンパク質だけでなく、部分的な側鎖修復や多量体複合体の予測タスクも処理でき、その幅広い応用の可能性を示しました。
将来の展望
研究チームは、無監督または教師あり学習を使用して変異効果の予測を改善すること、好みデータ(preference data)を使用して生成モデルを調整し生物物理学的妥当性を高めること、および新しい側鎖構造表現方法を探求することなど、複数の将来の研究方向を提案しました。さらに、FlowPackerの性能は、自己回帰サンプリング(autoregressive sampling)と不確実性分析(uncertainty analysis)によってさらに向上させることができます。
FlowPackerは、タンパク質側鎖パッキングタスクに対して効率的で正確な解決策を提供し、将来のタンパク質設計と構造生物学研究の基盤を築きました。