多模态大语言模型在放射学图像解释中的准确性评估

大型语言模型在放射学图像解读中的表现:与人类读者的比较研究

学术背景

近年来,大型语言模型(Large Language Models, LLMs)在多个领域展现了强大的能力,尤其是在自然语言处理方面。随着多模态LLMs的发展,这些模型不仅能够处理文本,还能够处理音频、视觉和视频等多种输入形式。代表性的多模态LLMs包括OpenAI的GPT-4 Turbo with Vision(GPT-4V)、Google DeepMind的Gemini 1.5 Pro以及Anthropic的Claude 3。这些模型在放射学领域的应用也逐渐增多,尤其是在生成和结构化放射学报告方面。然而,尽管LLMs在文本输入方面表现出色,其在解读放射学图像方面的能力仍然受到质疑。此前的研究表明,LLMs在基于患者病史和放射学图像的诊断任务中,准确性显著低于经过认证的放射科医生。因此,本研究旨在评估LLMs在解读放射学图像方面的准确性,并与不同经验水平的人类读者进行比较,同时探讨影响LLMs准确性的因素。

论文来源

本研究由来自韩国延世大学医学院放射学系、首尔峨山医学中心放射学系以及多家研究机构的学者共同完成。主要作者包括Pae Sun Suh、Woo Hyun Shim、Chong Hyun Suh等。该研究于2024年12月发表在《Radiology》期刊上,题为《Comparing Large Language Model and Human Reader Accuracy with New England Journal of Medicine Image Challenge Case Image Inputs》。

研究流程与结果

研究流程

本研究回顾性分析了2005年10月13日至2024年4月18日期间发表在《新英格兰医学杂志》(NEJM)图像挑战栏目中的病例。研究共筛选了964个病例,最终纳入了272个包含放射学图像的病例。这些病例涵盖了神经放射学、胃肠道放射学、胸部放射学、肌肉骨骼放射学、儿科放射学、心血管放射学和泌尿生殖放射学等多个子领域。研究使用了四种具有视觉能力的LLMs(GPT-4V、GPT-4 Omni、Gemini 1.5 Pro和Claude 3)对这些病例进行回答,并与11名人类读者(包括7名初级放射科医生、2名临床医生、1名实习放射科医生和1名医学生)的准确性进行比较。

实验结果

研究结果显示,GPT-4 Omni在LLMs中表现最佳,总体准确率为59.6%(162/272),显著高于医学生(47.1%;128/272;p < 0.001),但低于初级放射科医生(80.9%;220/272;p < 0.001)和实习放射科医生(70.2%;191/272;p = 0.003)。LLMs的准确性不受图像输入的影响,但在长文本输入的情况下,LLMs的准确性显著提高(p < 0.001)。人类读者的准确性则不受文本长度的影响。

在子领域分析中,初级放射科医生在大多数子领域中的准确性均高于LLMs,尤其是在神经放射学、胃肠道放射学和肌肉骨骼放射学领域。然而,在儿科放射学领域,GPT-4 Omni的准确性(88%;22/25)略高于初级放射科医生(76%;19/25),但差异不显著。

在图像模态方面,LLMs在MRI扫描输入中的准确性高于CT或X射线模态。GPT-4 Omni在MRI扫描中的准确性与初级放射科医生相当,但在X射线和CT模态中,初级放射科医生的准确性显著高于LLMs。

结论

研究表明,LLMs在基于文本和图像输入的放射学图像解读中表现出一定的准确性,尤其是在长文本输入的情况下,其准确性显著提高。然而,LLMs的准确性仍然低于经验丰富的放射科医生,尤其是在短文本输入的情况下。此外,LLMs在提供图像信息(如成像模态、平面、解剖位置和对比剂使用)方面表现出较高的准确性,但在视觉评估和图像解读方面的能力仍然存在不确定性。

研究亮点

  1. LLMs在放射学图像解读中的表现:GPT-4 Omni在LLMs中表现最佳,但其准确性仍低于经验丰富的放射科医生。
  2. 文本长度对LLMs准确性的影响:LLMs在长文本输入的情况下准确性显著提高,表明其依赖于文本信息的丰富性。
  3. 图像模态的影响:LLMs在MRI扫描中的表现优于CT和X射线模态,表明其在复杂图像解读中的潜力。
  4. LLMs在提供图像信息方面的准确性:LLMs在提供图像信息(如成像模态、平面、解剖位置和对比剂使用)方面表现出较高的准确性,但在视觉评估和图像解读方面的能力仍然存在不确定性。

研究的意义与价值

本研究为LLMs在放射学领域的应用提供了重要的参考。尽管LLMs在基于文本和图像输入的放射学图像解读中表现出一定的准确性,但其在视觉评估和图像解读方面的能力仍然存在局限性。因此,LLMs在短期内不太可能完全取代放射科医生。然而,随着技术的进一步发展,LLMs有望在放射学诊断中发挥辅助作用,尤其是在处理大量文本信息和复杂图像时。

其他有价值的信息

本研究还探讨了LLMs在提供图像信息方面的表现,发现GPT-4 Omni在生成MRI序列信息方面的准确性显著高于其他LLMs。此外,研究还指出,LLMs在回答多选题时的表现可能被高估,因为放射科医生在临床实践中通常不会依赖多选题进行诊断决策。

本研究为LLMs在放射学领域的应用提供了重要的实证数据,同时也指出了其在实际应用中的局限性。未来的研究可以进一步探讨如何优化LLMs在放射学图像解读中的表现,并评估其在真实临床环境中的应用潜力。