CTおよびMRI自由テキスト放射線レポートを複数言語に翻訳する大規模言語モデルの能力

大規模言語モデルによるCTおよびMRI自由記述放射線レポートの多言語翻訳能力

学術的背景

グローバル化が進む中、患者の移動性が高まり、放射線レポートは疾患の診断と管理において重要なツールとなっています。しかし、言語の壁がこれらのレポートの有効な使用を妨げ、患者の適切な管理を損なう可能性があります。特に、遠隔医療の普及により、患者が遠隔地の専門家に相談したり、セカンドオピニオンを求めたりするケースが増え、言語の壁がさらに深刻化しています。適切な翻訳がなければ、これらのレポートは誤解されたり無視されたりし、診断の遅れや誤診につながる可能性があります。

医学的専門知識を持つ人間の翻訳者が常に利用可能とは限らないため、人工知能ベースのモデル、特に大規模言語モデル(LLMs)が有望な代替手段として注目されています。これらのモデルは当初、一般的な言語処理タスク向けに設計されましたが、翻訳などの応用でも良好な結果を示しています。しかし、LLMsが放射線レポートを翻訳する能力については、特に低リソース言語において、十分に検証されていません。既存のモデルは主に英語データに基づいて訓練されているため、非英語テキストに対する効果が限られていることが課題です。

研究の目的

本研究は、さまざまなLLMsが放射線レポートを翻訳する際の正確性と品質を評価することを目的としています。高リソース言語(英語、イタリア語、フランス語、ドイツ語、中国語)と低リソース言語(スウェーデン語、トルコ語、ロシア語、ギリシャ語、タイ語)の両方を対象としています。

研究方法

データセットと翻訳プロセス

研究では、2024年1月14日から5月2日までの間に、18人の放射線科医によって100件の合成CTおよびMRI自由記述放射線レポートが9つのターゲット言語に翻訳されました。翻訳には、GPT-4(OpenAI)、Llama 3(Meta)、Mixtralモデル(Mistral AI)を含む10種類のLLMsが使用されました。翻訳の正確性と品質は、BLEUスコア、翻訳エラーレート(TER)、文字レベルFスコア(CHRF++)などの指標を用いて評価されました。統計的有意性は、対応のあるt検定とHolm-Bonferroni補正を用いて評価されました。さらに、放射線科医は標準化されたアンケートを使用して翻訳の質的評価を行いました。

定量的評価

定量的評価では、BLEUスコア、TER、CHRF++の3つの言語指標が使用されました。BLEUスコアは翻訳と人間の翻訳の類似性を測定し、スコアが高いほど正確性が高いことを示します。TERは機械翻訳を参照翻訳に変換するために必要な編集回数を測定し、TERが低いほど翻訳品質が高いことを示します。CHRF++は文字レベルと単語レベルでn-gramの類似性を評価し、スコアが高いほど翻訳が参照翻訳に近いことを示します。

質的評価

質的評価は、構造化されたアンケートを使用して行われ、評価基準には医学用語の正確性、臨床使用の適切性、明瞭性と読みやすさ、元の意味との一貫性、文法と構文が含まれました。各基準は1から5点のLikertスケールで評価され、1点は低いパフォーマンス、5点は優れたパフォーマンスを示します。

研究結果

定量的評価結果

GPT-4は複数の言語で最も優れた翻訳品質を示し、特に英語からドイツ語、ギリシャ語、タイ語、トルコ語への翻訳で顕著な結果を出しました。GPT-3.5は英語からフランス語への翻訳で最も高い正確性を示し、Qwen1.5は英語から中国語への翻訳で優れた結果を出しました。Mixtral 8x22bはイタリア語から英語への翻訳で最も良い結果を示しました。

質的評価結果

質的評価では、LLMsは明瞭性、読みやすさ、元の意味との一貫性の点で優れていましたが、医学用語の正確性については中程度の結果でした。

結論

LLMsは放射線レポートの翻訳において高い正確性と品質を示しましたが、モデルと言語ペアによって結果にばらつきがありました。GPT-4は複数の言語で最も優れた結果を示し、GPT-3.5やMixtral 8x22bも特定の言語ペアで優れたパフォーマンスを発揮しました。しかし、すべての言語ペアに適用できる万能なモデルは存在せず、特に低リソース言語では翻訳品質の向上が求められています。

研究のハイライト

  1. 重要な発見:GPT-4は複数の言語ペアで最も高い翻訳品質を示し、特に高リソース言語で顕著な結果を出しました。
  2. 方法の革新:本研究は初めて、LLMsが放射線レポートを翻訳する能力を体系的に評価し、高リソース言語と低リソース言語の両方をカバーしました。
  3. 応用価値:研究結果は、LLMsが医学レポートの翻訳において大きな可能性を秘めていることを示しており、特に人間の翻訳者が不足している状況で、グローバルな医療をサポートする可能性があります。

研究の意義

本研究は、LLMsが医学翻訳分野で応用されるための重要な実証データを提供し、特に多言語放射線レポートの処理においてその有用性を示しました。研究結果は、低リソース言語の翻訳品質と医学用語の正確性を向上させるためのさらなる開発と最適化の必要性を強調しています。また、将来の多言語医学翻訳ツールの開発に対する重要な指針を提供しています。

著者と所属機関

本研究は、Charité–Universitätsmedizin Berlin、Technical University of Munich、University of Naples Federico IIなどの国際的な機関からなる専門家チームによって行われました。主な著者にはAymen Meddeb、Sophia Lüken、Felix Buschなどが含まれます。論文は2024年12月に「Radiology」誌に掲載されました。

参考文献

研究では、LLMsが医学翻訳に応用されることに関する複数の関連文献を引用しています。これらは、多言語翻訳の課題や放射線レポートの構造化翻訳に関する研究など、研究の理論的基盤と背景知識を提供しています。

データ共有

研究で生成または分析されたデータは、要求に応じて対応著者から入手可能です。

利益相反の声明

すべての著者は、関連する利益相反がないことを宣言しています。


本研究を通じて、LLMsが放射線レポートの翻訳において持つ可能性が検証され、将来の多言語医学翻訳ツールの開発に向けた重要な指針が提供されました。