放射学におけるGPT-4Vの多モードおよび多解剖領域能力の定量的評価

大規模視覚言語モデル(GPT-4V)の放射線学における多モード・多解剖領域能力の定量的評価

学術的背景

近年、OpenAIのChatGPTのような大規模言語モデル(Large Language Models, LLMs)は、テキスト生成の分野で大きな進歩を遂げています。これらのモデルはTransformerアーキテクチャに基づいており、膨大なテキストデータを学習することで、少ない例(few-shot learningやzero-shot learning)でも信頼性の高いテキストを生成することができます。LLMsは医学分野でも広く応用されており、自由形式の放射線レポートを標準化されたテンプレートに変換したり、肺癌のCTレポートからデータをマイニングしたりするのに使用されています。さらに、LLMsは放射線学の試験においても一定の「知識」を持っていることが示されており、放射線レポートを簡略化するのにも役立っています。

GPT-4V(GPT-4 with Vision)の登場により、モデルはテキストだけでなく画像入力も処理できるようになりました。このような大規模視覚言語モデル(Large Vision-Language Models, LVLMs)は、基礎モデル(Foundation Models)としてさまざまなタスクに応用される可能性があります。GPT-4Vが単一の医療画像から放射線レポートを生成する際に有望な性能を示したという研究もありますが、モデルの限界、特に放射線画像の解釈における一貫性の欠如も指摘されています。それにもかかわらず、これらのモデルの広範な利用は、意図しない用途での誤用というリスクも伴います。

GPT-4Vの潜在能力とリスクを考慮すると、これらのモデルを徹底的に分析することが重要です。しかし、GPT-4Vに関する査読済みの文献はまだ少ないのが現状です。そのため、本研究では、GPT-4Vが未見のデータを解釈する際の性能を定量的に評価することを目的としています。

論文の出典

本論文は、Quirin D. Strotzer、Felix Nieberle、Laura S. Kupkeらによって執筆され、著者らはドイツのレーゲンスブルク大学医学センター放射線学研究所、ハーバード大学医学部マサチューセッツ総合病院神経放射線科など複数の機関に所属しています。論文は2024年11月に『Radiology』誌に掲載されました。

研究の流れ

データ収集

本研究は後ろ向き研究であり、神経放射線学、心胸放射線学、筋骨格放射線学からの単一の代表的な異常画像と健康対照画像(CT、MRI、X線)を含んでいます。画像はOpenAIのAPIを介してレポートを生成し、自由形式のレポートの事実の正確性と二値分類タスクにおける異常検出の性能を評価しました。研究では、GPT-4Vの性能を1人の非放射線科医と4人の認定放射線科医の性能と比較しました。

実験方法

研究では、一般的な病理学的所見と画像モダリティを意図的に選択し、神経放射線学(虚血性脳卒中、脳出血、脳腫瘍、多発性硬化症)、心胸放射線学(気胸、肺塞栓症、肺炎、肺癌)、筋骨格放射線学(骨折)を含んでいます。各カテゴリーには少なくとも25枚の画像が含まれており、画像は病院の放射線情報システムからクエリされ、利用可能なすべての情報(スキャンレポート、フォローアップ画像、医療記録)に基づいて手動で診断が確認されました。

タスク設計

  1. 自由形式レポート生成:画像が与えられると、モデルは放射線レポートを生成するように促され、画像モダリティ、解剖学的領域、主な急性病理学的所見とその位置、最も可能性の高い診断、および5つの最も可能性の高い鑑別診断を含みます。レポートの正確性は手動で二値評価されます。
  2. 一貫性テスト:25枚の画像をランダムに選択し、モデルは3回レポートを生成し、モデル出力の変動性を評価します。
  3. 分類タスク:二値分類タスクを設定し、モデルと人間の読者が異常を検出する性能を比較します。モデルは「はい」または「いいえ」と答えるように促され、短い説明を添えます。

統計分析

すべての評価は二値で行われ、自由形式レポートの正確性、感度、特異性が計算されます。ランダム一貫性テストとCohen κ統計量を使用して、人間の読者間の一貫性を評価します。

主な結果

全体的な結果

研究では、515枚の画像が含まれ、470人の患者(中央値年齢61歳)が対象となりました。GPT-4Vはすべての画像で画像モダリティを正しく識別し、解剖学的領域の識別精度は99.2%でした。自由形式レポートでは、診断の正確性は病理学的所見と画像モダリティによって異なり、例えば気胸の診断精度は0%、脳腫瘍の診断精度は90%でした。二値分類タスクでは、GPT-4Vの感度は56%から100%の範囲で、特異性は8%から52%の範囲であり、過剰診断の傾向が明らかでした。

自由形式レポートの結果

モデルは画像モダリティと解剖学的領域の識別において優れていましたが、主な病理学的所見と診断の識別では不十分な性能を示しました。例えば、モデルはすべての気胸症例を識別できませんでしたが、脳腫瘍の診断では良好な性能を示しました。モデルは正常な画像を識別するのにも苦労し、特にCT画像では困難でした。

分類タスクの結果

GPT-4Vは二値分類タスクで全体的に低い性能を示し、全体的な精度はランダムな推測をわずかに上回る程度でした(55.3%)。一方、人間の読者はモデルを大幅に上回る性能を示し、ほとんどすべてのタスクで完璧な一貫性を達成しました。

結論

GPT-4Vはその初期バージョンにおいて、医療画像のモダリティと解剖学的領域を確実に識別することができましたが、異常の検出、分類、または除外においては不十分な性能を示しました。モデルが生成するレポートは説得力があるように聞こえますが、医療画像の解釈における信頼性はまだ限られています。それでも、大規模視覚言語モデルは放射線学における基礎モデルとしての可能性を秘めています。今後の研究では、三次元医療データの処理や特定分野への微調整など、モデルのさらなる最適化に焦点を当てるべきです。

研究のハイライト

  1. 革新性:本研究は、GPT-4Vの放射線画像解釈における性能を初めて定量的に評価し、関連分野の空白を埋めました。
  2. 広範性:研究は複数の解剖学的領域と画像モダリティをカバーし、包括的な性能評価を提供しました。
  3. 実用性:研究結果は、今後の医療画像分析モデルの開発、特にモデルの最適化と臨床応用において重要な指針となります。

研究の意義

本研究は、大規模視覚言語モデルの放射線学への応用に関する重要な知見を提供しました。GPT-4Vは画像モダリティと解剖学的領域の識別において優れていますが、病理学的検出と診断における限界は、モデルがさらなる最適化を必要とすることを示しています。今後の研究では、複雑で稀な異常におけるモデルの性能向上と、臨床現場での実際の応用価値の探求に焦点を当てるべきです。