MostPlas: プラスミド宿主範囲予測のための自己修正多ラベル学習モデル

プラスミド(plasmid)は、細菌の染色体DNAとは独立した小型の環状二本鎖DNA分子であり、水平遺伝子伝達(horizontal gene transfer)を通じて宿主細菌が抗生物質耐性や金属耐性などの有益な特性を獲得するのを助けます。一部のプラスミドは、複数の微生物間で転移、複製、または持続することが可能であり、これらは広宿主範囲プラスミド(broad-host-range plasmids, BHR plasmids)と呼ばれます。BHRプラスミドの宿主範囲を正確に予測することは、プラスミドがどのように細菌の進化を促進し、耐性遺伝子を広めるかを理解するだけでなく、組換えベクターの開発においても重要な意義を持ちます。しかし、現在のところ、BHRプラスミドの詳細な宿主範囲ラベルを提供するデータベースが不足しており、機械学習モデルに基づく宿主範囲予測は課題に直面しています。十分なアノテーションサンプルがないため、モデルが効果的な特徴表現を抽出することが難しく、予測精度が制限されています。

この問題を解決するために、香港城市大学電気工学科のWei Zou、Yongxin Ji、Jiaojiao Guan、Yanni Sunのチームは、プラスミド宿主範囲予測のためのMostPlasという自己修正型マルチラベル学習モデルを提案しました。この研究は2025年2月17日に《Bioinformatics》誌に掲載され、タイトルは「MostPlas: A Self-Correction Multi-Label Learning Model for Plasmid Host Range Prediction」です。

研究の流れと方法

1. 研究目標と課題

MostPlasの目標は、特にBHRプラスミドを対象として、マルチラベル学習モデルを用いてプラスミドの宿主範囲を予測することです。研究が直面する主な課題は以下の通りです: - データアノテーションの不完全性:既存のデータベース(例:NCBI RefSeq)では、プラスミドの分離宿主のラベルのみが提供されており、完全な宿主範囲情報が不足しています。 - ラベルの不均衡:各プラスミドの非宿主細菌の数が実際の宿主数を大きく上回るため、モデルトレーニング中に負のラベルに過度に注目し、正のラベルの識別が疎かになるという問題があります。

2. MostPlasモデルの設計

MostPlasの核心的な革新点は、疑似ラベル生成アルゴリズム自己修正非対称損失関数を設計し、上記の課題に対処することです。

2.1 疑似ラベル生成アルゴリズム

疑似ラベル生成アルゴリズムは、プラスミドがコードするタンパク質の分布情報を掘り下げ、トレーニングサンプルに追加の信頼性のある宿主ラベルを割り当てます。具体的な手順は以下の通りです: 1. データ準備:NCBI RefSeqデータベースからすべてのプラスミド配列をダウンロードし、完全なゲノムレベルの配列を選び、非細菌宿主およびサンプル数が10未満の属(genus)を除外します。 2. タンパク質クラスタリング:Prodigalを使用して遺伝子予測と翻訳を行い、その後CD-HITを使用してタンパク質配列をクラスタリング(類似性閾値0.9)し、タンパク質クラスター(protein cluster, PC)を生成します。 3. 有意性スコアリング:TF-IDFを改良したTF-IDFproというスコアリング方法を設計し、各PCが異なる宿主属に対してどの程度重要かを評価します。 4. 疑似ラベル割り当て:プラスミドがコードするタンパク質のTF-IDFproスコアに基づいて、トレーニングサンプルに追加の宿主ラベルを割り当てます。

2.2 自己修正非対称損失関数

従来の二値クロスエントロピー損失関数は、トレーニング中に正ラベルと負ラベルの貢献を均等に扱いますが、自己修正非対称損失関数は以下の方法でモデルトレーニングを調整します: - 正ラベルの優位性:正ラベルの重みを増やし、負ラベルの影響を減少させます。 - 欠損ラベルの自立的認識:モデルトレーニング中に、欠損している可能性のある正ラベルを自立的に認識し、モデルの決定境界を最適化します。

3. 実験と結果

研究チームは、NCBI RefSeqデータベース、PLSDB 2025データベース、実験的に決定された宿主範囲を持つプラスミド配列、Hi-Cデータセット、DoriCデータセットなど、複数のデータセットで実験を行いました。実験結果は、MostPlasが高い精度を維持しながら、より多くの宿主ラベルを識別できることを示しました。

3.1 多宿主プラスミドテストセット

NCBI RefSeqおよびPLSDB 2025データベースでは、MostPlasの再現率(recall)とF1スコアが他のツールを大幅に上回りました。たとえば、RefSeqデータセットでは、MostPlasの再現率が5.7%向上し、F1スコアが5.0%向上しました。

3.2 実験的に決定された宿主範囲のプラスミド

MOB-suiteデータセットでは、MostPlasの予測結果は他のツールと89.2%の重複率を示し、その予測結果の信頼性が高いことを示しました。

3.3 生物学的特性の分析

DoriCデータセットの分析により、複数の宿主属ラベルを持つプラスミドはしばしば複数の複製起点(replicon)を持つことがわかり、プラスミドの宿主適応メカニズムをさらに理解するための手がかりを提供しました。

研究の結論と意義

MostPlasは、プラスミド宿主範囲予測にマルチラベル学習モデルを適用した最初の研究であり、その革新点は、疑似ラベル生成アルゴリズムと自己修正非対称損失関数を用いて、データアノテーションの不完全性とラベルの不均衡の問題を解決した点にあります。実験結果は、MostPlasが複数のデータセットで優れたパフォーマンスを示し、特に多宿主プラスミドの識別において顕著な利点を持っていることを示しています。

科学的価値と応用価値

  • 科学的価値:MostPlasは、プラスミドの宿主適応メカニズム、水平遺伝子伝達、および耐性遺伝子の伝播を研究するための新しいツールと方法を提供します。
  • 応用価値:このモデルは、新しく発見されたプラスミドの宿主範囲を予測し、プラスミドベースの組換えベクターの開発や環境微生物群集の分析に活用できます。

研究のハイライト

  • 疑似ラベル生成アルゴリズム:プラスミドがコードするタンパク質の分布情報を掘り下げ、高品質の疑似ラベルを生成し、モデルの性能を大幅に向上させました。
  • 自己修正非対称損失関数:正ラベルと負ラベルの重みを調整することで、ラベルの不均衡問題を解決し、欠損ラベルを自立的に認識します。
  • 複数データセットでの検証:複数の公開データセットで広範な検証を行い、モデルの堅牢性と汎用性を証明しました。

今後の研究の方向性

MostPlasはプラスミド宿主範囲予測において大きな進展を遂げましたが、まだ改善の余地があります。例えば、プラスミドの複製起点(origin of replication)、トランスポゾン(transposon)、その他の可動遺伝子がプラスミドの宿主適応にどのように影響するかを研究し、予測精度をさらに向上させることができます。さらに、MostPlasを不完全なプラスミド配列(例:プラスミドcontigs)に適用する方法も今後の研究課題です。