放射線画像解釈における多モーダル大規模言語モデルの精度評価

大規模言語モデルの放射線画像解釈における性能:人間の読者との比較研究

学術的背景

近年、大規模言語モデル(Large Language Models, LLMs)は、特に自然言語処理の分野で強力な能力を発揮しています。マルチモーダルLLMsの発展により、これらのモデルはテキストだけでなく、音声、視覚、ビデオなど多様な入力形式を処理できるようになりました。代表的なマルチモーダルLLMsには、OpenAIのGPT-4 Turbo with Vision(GPT-4V)、Google DeepMindのGemini 1.5 Pro、そしてAnthropicのClaude 3があります。これらのモデルは、放射線学分野での応用も増えており、特に放射線レポートの生成や構造化において優れた性能を示しています。しかし、LLMsがテキスト入力において優れている一方で、放射線画像を解釈する能力については依然として疑問が持たれています。これまでの研究では、患者の病歴と放射線画像に基づく診断タスクにおいて、LLMsの精度は認定された放射線科医よりも有意に低いことが示されています。したがって、本研究は、LLMsが放射線画像を解釈する際の精度を評価し、異なる経験レベルを持つ人間の読者と比較するとともに、LLMsの精度に影響を与える要因を探ることを目的としています。

論文の出典

本研究は、韓国の延世大学医学部放射線学科、ソウル峨山医療センター放射線学科、および複数の研究機関の研究者たちによって共同で行われました。主な著者には、Pae Sun Suh、Woo Hyun Shim、Chong Hyun Suhなどが含まれます。この研究は2024年12月に『Radiology』誌に掲載され、タイトルは「Comparing Large Language Model and Human Reader Accuracy with New England Journal of Medicine Image Challenge Case Image Inputs」です。

研究のプロセスと結果

研究のプロセス

本研究では、2005年10月13日から2024年4月18日までに『ニューイングランド医学雑誌』(NEJM)の画像チャレンジ欄に掲載された症例を回顧的に分析しました。研究では964症例をスクリーニングし、最終的に272症例の放射線画像を含む症例を選びました。これらの症例は、神経放射線学、消化器放射線学、胸部放射線学、筋骨格放射線学、小児放射線学、心血管放射線学、泌尿生殖器放射線学など、さまざまなサブ分野に分類されました。研究では、視覚能力を持つ4つのLLMs(GPT-4V、GPT-4 Omni、Gemini 1.5 Pro、Claude 3)を使用してこれらの症例に回答し、11名の人間の読者(7名の初級放射線科医、2名の臨床医、1名の研修放射線科医、1名の医学生)の精度と比較しました。

実験結果

研究結果によると、GPT-4 OmniはLLMsの中で最も優れた性能を示し、全体の精度は59.6%(162/272)で、医学生(47.1%;128/272;p < 0.001)を有意に上回りましたが、初級放射線科医(80.9%;220/272;p < 0.001)および研修放射線科医(70.2%;191/272;p = 0.003)には及びませんでした。LLMsの精度は画像入力の影響を受けませんでしたが、長いテキスト入力の場合、LLMsの精度は有意に向上しました(p < 0.001)。一方、人間の読者の精度はテキストの長さに影響されませんでした。

サブ分野の分析では、初級放射線科医はほとんどのサブ分野でLLMsよりも高い精度を示し、特に神経放射線学、消化器放射線学、筋骨格放射線学の分野で優れていました。しかし、小児放射線学の分野では、GPT-4 Omniの精度(88%;22/25)が初級放射線科医(76%;19/25)をわずかに上回りましたが、その差は有意ではありませんでした。

画像モダリティの面では、LLMsはMRIスキャン入力においてCTやX線モダリティよりも高い精度を示しました。GPT-4 OmniはMRIスキャンにおいて初級放射線科医と同等の精度を示しましたが、X線およびCTモダリティでは、初級放射線科医の精度がLLMsを有意に上回りました。

結論

研究結果から、LLMsはテキストと画像入力に基づく放射線画像の解釈において一定の精度を示すことが明らかになりました。特に長いテキスト入力の場合、LLMsの精度は大幅に向上しました。しかし、LLMsの精度は経験豊富な放射線科医には及ばず、特に短いテキスト入力の場合にその差が顕著でした。さらに、LLMsは画像情報(画像モダリティ、平面、解剖学的部位、造影剤の使用など)を提供する際に高い精度を示しましたが、視覚的評価や画像解釈の能力については依然として不確実性が残っています。

研究のハイライト

  1. LLMsの放射線画像解釈における性能:GPT-4 OmniはLLMsの中で最も優れた性能を示しましたが、その精度は経験豊富な放射線科医には及びませんでした。
  2. テキストの長さがLLMsの精度に与える影響:LLMsは長いテキスト入力の場合に精度が大幅に向上し、テキスト情報の豊富さに依存していることが示されました。
  3. 画像モダリティの影響:LLMsはMRIスキャンにおいてCTやX線モダリティよりも優れた性能を示し、複雑な画像解釈における潜在能力を示しました。
  4. LLMsの画像情報提供における精度:LLMsは画像情報(画像モダリティ、平面、解剖学的部位、造影剤の使用など)を提供する際に高い精度を示しましたが、視覚的評価や画像解釈の能力については依然として不確実性が残っています。

研究の意義と価値

本研究は、LLMsの放射線学分野での応用において重要な参考資料を提供しています。LLMsはテキストと画像入力に基づく放射線画像の解釈において一定の精度を示す一方で、視覚的評価や画像解釈の能力には限界があることが明らかになりました。したがって、LLMsは短期的には放射線科医を完全に置き換えることはないと考えられます。しかし、技術のさらなる発展により、LLMsは特に大量のテキスト情報や複雑な画像を処理する際に、放射線診断の補助的な役割を果たす可能性があります。

その他の価値ある情報

本研究では、LLMsが画像情報を提供する際の性能についても検討し、GPT-4 OmniがMRIシーケンス情報を生成する際に他のLLMsよりも高い精度を示すことが明らかになりました。さらに、研究では、LLMsが多肢選択問題に回答する際の性能が過大評価される可能性があることも指摘されています。これは、放射線科医が臨床診断を行う際に多肢選択問題に依存しないためです。

本研究は、LLMsの放射線学分野での応用に関する重要な実証データを提供するとともに、その実際の応用における限界も指摘しています。今後の研究では、LLMsの放射線画像解釈における性能を最適化する方法や、実際の臨床環境での応用可能性をさらに探求することが期待されます。