9つのモダリティにわたる生物医学的オブジェクトの共同セグメンテーション、検出、認識のための基盤モデル

生物医学画像解析の未来を解読:多モダリティの統合分割、検出、認識の基盤モデル

背景紹介

生物医学研究において、画像解析は、生物医学発見を推進する重要なツールとなっており、細胞小器官から器官レベルに至るまでの多スケール研究を可能にしています。しかし、従来の生物医学画像解析手法は、分割(segmentation)、検出(detection)および認識(recognition)を独立したタスクとして個別に処理することが主流でした。この分断的なアプローチは、タスク間の情報共有の機会を削減し、複雑かつ多様な生物医学画像データの取り扱いを困難にしています。

例えば、従来の分割手法は対象物の領域を指定するために手動の境界ボックス(bounding box)に依存することが一般的ですが、形状が不規則または対象物が多数存在する場合(病理全体のスライドイメージにおける全細胞など)には大きな課題となります。さらに、対象検出と意味的認識(メタデータ的な情報)の相互関係を無視することにより、分割性能の最適化も限定されてしまいます。

これらの課題に対処するため、Microsoft Research、Providence GenomicsおよびUniversity of Washingtonの研究チームは、BiomedParseという生物医学基盤モデル(biomedical foundation model)を提案しました。このモデルは、これらの三大タスクを統合された枠組みで解決し、9種類の主要な画像モダリティを横断的に解析することを目指しています。本研究は2025年1月に《Nature Methods》で発表され、生物医学画像を効率的に解析するための革新的なワークフローの提供を目指しています。


研究概要とワークフロー

本研究で提案された「BiomedParse」は、画像解析(image parsing)の革新的な枠組みであり、分割、検出及び認識のタスクを統一的に実行する能力を持っています。このアプローチは従来の手法にある限界を効果的に解決します。モデルを訓練するために、研究チームは「BiomedParseData」という大規模な生物医学データセットを構築しました。このデータセットは、CT(Computed Tomography、コンピュータ断層撮影)、MRI(Magnetic Resonance Imaging、磁気共鳴画像)、病理画像(pathology)、超音波(ultrasound)などの9つの画像モダリティを網羅しています。以下は研究の詳細なプロセスの説明です:

データ構築と前処理

研究チームは、45件の公開可能な生物医学分割データセットを統合し、約340万件の画像–分割マスク(segmentation mask)–意味ラベル(三つ組)を生成しました。さらに、GPT-4言語モデルを用いることで、各データセットに含まれる雑然とした自然言語の記述(自由形式のアノテーションなど)を、生物医学オブジェクトオントロジー(ontology)に適合させました。このオントロジーは以下を含みます:

  1. 三大カテゴリ:器官(organ)、異常(abnormality)、組織学(histology)。
  2. 15種類の「メタオブジェクトタイプ」(Meta-object types):例として「右腎臓」や「腫瘍」など。
  3. 82種類の具体的なオブジェクトタイプ

さらに、研究チームはGPT-4を用いて、同義の記述テキスト(synonymous text descriptions)を生成し、言語記述の多様性とロバスト性を向上させました。これにより、異なる表現に対してもモデルが正確に対象を認識できるようになりました。

三次元画像モダリティ(CTやMRIなど)の解析ニーズに対応するため、これらの画像を前処理して2次元スライス(2D slices)に変換し、他のモダリティと一貫性を持つ入力構造を保持しました。

BiomedParseモデルのアーキテクチャ設計

BiomedParseはモジュラー設計を採用しており、以下の主要なコンポーネントを持っています:

  1. 画像エンコーダ(Image Encoder):入力された高解像度画像の特徴を抽出します。このモデルは高度なFocal Modulation Network(Focal)またはSegment Anything Model Vision Transformer(SAM-ViT)を基盤としています。

  2. テキストエンコーダ(Text Encoder):ユーザーが提供したテキストプロンプト(text prompt)を処理し、テキスト埋め込み(text embedding)を生成します。テキストエンコーダはPubMedBERTに基づいて初期化可能です。

  3. マスクデコーダ(Mask Decoder):画像とテキスト埋め込みから分割マスクを生成し、各ピクセルが対象物に属する確率分布(0–1の間)を予測します。

  4. メタオブジェクト分類器(Meta-object Classifier):対象物のセマンティクスを分類します。

BiomedParseは学習時に統合学習(joint learning)を導入し、分割とセマンティクス分類間で情報を共有することで複雑な対象物の予測能力を向上させました。

モデル訓練と最適化

BiomedParseの訓練にはBiomedParseDataデータセットが使用され、訓練データセットとテストデータセットにランダムに分割(訓練80%、テスト20%)されました。訓練中には以下の損失関数が最適化されました:

  • 分割タスク向けの二項クロスエントロピー損失(Binary Cross-Entropy Loss)とDice損失。
  • セマンティック分類タスク向けのクロスエントロピー損失(Categorical Cross-Entropy Loss)。

全訓練プロセスには高性能デバイスが必要であり、16台のNVIDIA A100 GPUで58時間かけて完了しました。


研究結果と主な発見

多モダリティ画像分割の精度とスケーラビリティ

102,855個のテストサンプルに対する大規模テストにより、BiomedParseは分割タスクで新たな性能記録を達成し、平均Diceスコアは0.857に達しました。最良の競合アルゴリズムMedsamと比較して39.6%の向上を実現しました。特に形状が複雑な対象物(異常細胞や腫瘍領域など)において、BiomedParseは従来手法よりも顕著な優位性を示しました。

さらに、BiomedParseはテキストプロンプトだけで分割を実行でき、MedsamやSAMがそれぞれの対象物ごとに正確な境界ボックスを必要とするのに比べて、操作負担を大幅に削減します。42枚の結腸病理画像を含むテストでは、ユーザーが「結腸組織内の腺構造」(glandular structure in colon pathology)という1つのテキストプロンプトを提供するだけで、中央値Diceスコア0.942を達成しました。一方でMedsamは430個の境界ボックスを手動で指定しても同精度には達しませんでした。

不規則形状の対象物に対する検出能力

BiomedParseが不規則形状の対象物処理での性能を検証するため、研究チームは以下の3つの定量的指標を提案しました:凸率比(Convex Ratio)、境界ボックス比(Box Ratio)、回転慣性率(Rotational Inertia)。実験の結果、BiomedParseの性能向上はこれらの指標と高い相関があることが判明し、特に小型または形状が複雑な対象物の検出時により顕著な性能向上を示しました。

全目標認識タスクの成果

認識タスクにおいて、BiomedParseは内蔵された分割オントロジー(segmentation ontology)を活用して、画像内の全てのオブジェクトタイプを逐一検出することができました。各対象物を同時に分割およびラベリングすることに成功し、テストで加重平均Diceスコア0.94を達成しました。これは境界ボックスのみを生成できるGrounding DINOを大きく上回り、複数オブジェクトが存在する場合ではさらに差が顕著でした。

加えて、統計的手法により無効なテキストプロンプト(例えば「肌鏡画像で左心室を認識する」といったもの)を排除することも可能であり、誤認識による分割エラーを回避できました。


研究意義と注目点

  1. 統一的な枠組みの革新:BiomedParseは初めて分割、検出、認識タスクを統合的学習で実現し、従来手法の分断処理による制約を克服しました。

  2. 境界ボックス入力の不要:テキストプロンプトだけで高精度分割が可能となり、特に大量の対象物を含む画像で操作負担を大幅削減しました。

  3. 形状が複雑な対象物への優位性:不規則な分布を持つ細胞や異常腫瘍のような対象物に対して高い汎化能力を発揮しました。

  4. スケーラビリティと実用性:Providence Health Systemでの実世界データテストにおいて、免疫細胞やがん細胞を正確にラベル付けできたことは、臨床への実用化の可能性を示しています。

BiomedParseは、生物医学画像解析に対して効率的、正確かつ汎用的なソリューションを提供するだけでなく、大規模な画像駆動型生物医学発見への道を拓きました。今後、3次元画像や対話型会話システムへの拡張が進むにつれ、本モデルはさらに多くの臨床・研究シーンでの応用が期待されます。