DeepES: ディープラーニングに基づく酵素スクリーニングによるオーファン酵素遺伝子の特定
学術的背景
シーケンシング技術の急速な進展により、科学者たちは大量のタンパク質配列データを取得できるようになり、その中には多くの酵素配列も含まれています。しかし、京都遺伝子とゲノム百科事典(KEGG)やBRENDAのような大規模な酵素データベースが構築されているにもかかわらず、多くの酵素の配列情報は依然として欠落しています。これらの配列情報が欠如している酵素は「オーファン酵素」(orphan enzymes)と呼ばれています。オーファン酵素の存在は、配列類似性に基づく機能アノテーションを著しく妨げ、配列と酵素反応の間の関係を理解する上で大きな空白を生んでいます。
オーファン酵素の問題は、配列情報の欠如に限らず、生物学的プロセスの理解にも影響を及ぼしています。例えば、ヒト腸内細菌叢における多くの代謝プロセス、特に短鎖脂肪酸(short-chain fatty acid, SCFA)の生成は、腸内炎症やがんの進行と密接に関連しています。しかし、これらの反応の多くはオーファン酵素が関与しており、関連する遺伝子を特定することが困難です。したがって、配列類似性に依存しない方法で酵素活性を予測するツールの開発は、この空白を埋めるために極めて重要です。
論文の出典
「DeepES: 深層学習に基づく酵素スクリーニングツールによるオーファン酵素遺伝子の特定」と題されたこの論文は、Keisuke Hirota、Felix Salim、Takuji Yamadaらによって執筆されました。研究チームは東京科学研究所生命科学技術学部(School of Life Science and Technology, Institute of Science Tokyo)に所属し、Metagen Inc.、Metagen Therapeutics Inc.、およびDigzyme Inc.などの企業と協力しています。この論文は2025年2月6日に『Bioinformatics』誌に掲載され、オープンアクセス記事として公開されました。
研究のプロセス
1. 研究目標とフレームワーク設計
DeepESの中核的な目標は、オーファン酵素遺伝子を特定するための深層学習ベースのツールを開発することです。研究チームは、酵素活性の分類基準として「反応クラス」(Reaction Class, RClass)を採用しました。RClassは、基質と生成物の化学変換パターンに基づいて分類されるため、従来の酵素委員会番号(EC number)と比べて不完全な反応を処理するのに適しており、オーファン酵素の識別に適しています。
DeepESのワークフローは、以下の3つの主要なステップに分かれています: 1. 遺伝子配列の入力:ゲノムから連続した遺伝子配列を抽出します。 2. RClass分類器による予測:事前学習済みの深層学習モデル(ESM-2)を使用してタンパク質配列をベクトル表現に変換し、多層パーセプトロン(MLP)を通じて各遺伝子が特定のRClassに対応するかどうかを予測します。 3. 生物合成遺伝子クラスター(BGC)の評価:連続した遺伝子の幾何平均確率を計算し、これらの遺伝子が標的酵素をコードしている可能性を評価します。
2. データセットとモデル開発
研究チームはKEGGデータベースから原核生物の遺伝子配列とRClassデータを取得し、4,413,823のデータポイントを含むトレーニングおよびテストデータセットを構築しました。RClassのクラス不均衡に対処するために、研究チームは加重損失関数を採用し、各RClassに対して独立したバイナリ分類器をトレーニングしました。
モデル開発プロセスでは、ESM-2モデルを使用し、タンパク質配列を高次元ベクトル表現に変換しました。その後、多層パーセプトロンを使用して各RClassを予測しました。モデル性能を最適化するために、学習率、隠れ層のサイズ、ドロップアウト率などのハイパーパラメータの調整を行いました。
3. モデル検証と性能テスト
DeepESが低配列相同性環境での予測能力を検証するために、研究チームは小規模な非冗長検証データセットを構築しました。Leave-one-outクロスバリデーションを通じて、研究チームはDeepESが配列類似性に依存せずに、高精度で酵素活性を予測できることを発見しました。
さらに、研究チームは生物合成遺伝子クラスター(BGC)検出テストを実施し、既知の酵素を「疑似オーファン酵素」として処理し、DeepESがこれらの酵素の候補遺伝子を識別できるかどうかをテストしました。その結果、DeepESはBGCの識別において優れた性能を示し、特に高閾値では予測結果の信頼性が大幅に向上しました。
4. 応用例:ヒト腸内微生物のオーファン酵素
研究チームはDeepESを4744のヒト腸内微生物由来のメタゲノムアセンブリゲノム(MAGs)に適用し、236のオーファン酵素の候補遺伝子を特定しました。これらのオーファン酵素は、特に短鎖脂肪酸の生産に関連する代謝経路を含む多様な経路に関与しています。研究チームはまた、いくつかのオーファン酵素遺伝子の予測結果が、既知の代謝機能と高い一致を示すことを発見しました。例えば、芳香族化合物やイソプレノイドに関連する代謝経路が挙げられます。
研究結果と結論
DeepESの開発は、オーファン酵素遺伝子の特定に新たな方法を提供しました。深層学習モデルと生物合成遺伝子クラスターの情報を組み合わせることで、DeepESは配列類似性に依存せずに効率的に候補遺伝子をスクリーニングできます。研究結果は、DeepESがオーファン酵素遺伝子の識別において高い精度と信頼性を有しており、特に低配列相同性のデータを扱う際に優れた性能を発揮することを示しています。
さらに、DeepESの成功した応用は、ヒト腸内微生物における多くの未知の代謝経路の潜在的な遺伝子を明らかにし、特に短鎖脂肪酸の生産に関連する酵素を特定しました。これらの発見は、腸内微生物の代謝機能を理解するだけでなく、関連疾患の治療に新しい研究方向を提供するものです。
研究のハイライト
- 革新的な深層学習フレームワーク:DeepESは初めて深層学習モデルと生物合成遺伝子クラスター情報を組み合わせ、オーファン酵素遺伝子の特定に新たな解決策を提供しました。
- 効率的なRClass分類器:独立したRClassバイナリ分類器により、DeepESは配列類似性に依存せずに高精度で酵素活性を予測できます。
- 広範な応用可能性:DeepESは原核生物だけでなく、植物や真菌にも適用可能であり、今後の研究に広大な応用の可能性を提供します。
- 配列と機能の間の空白を埋める:DeepESの成功した応用は、特にオーファン酵素遺伝子を扱う際に、配列データと生物学的機能の間の関係を理解する重要なツールを提供しました。
研究の価値と意義
DeepESの開発は、科学的価値だけでなく、生物技術や医学研究に新たなツールを提供します。オーファン酵素遺伝子を特定することで、科学者たちは代謝経路の複雑さをより深く理解し、特にヒト腸内微生物などの分野で重要な知見を得ることができます。さらに、DeepESの成功した応用は、薬剤開発や疾患治療に新しい研究方向を提供し、特に代謝に関連する疾患(腸内炎症やがんなど)において重要な役割を果たす可能性があります。
DeepESは、配列データと生物学的機能の間の空白を埋める重要な解決策を提供し、今後の研究に新たな道を開くものです。