GPT-4V在放射学中的定量评估:多模态和多解剖区域能力
大型视觉语言模型在放射学中的应用:GPT-4V的多模态与多解剖区域能力定量评估
学术背景
近年来,大型语言模型(Large Language Models, LLMs)如OpenAI的ChatGPT在文本生成领域取得了显著进展。这些模型基于Transformer架构,通过海量文本数据进行训练,能够在无需大量示例的情况下生成可信的文本输出(few-shot learning和zero-shot learning)。LLMs在医学领域的应用也日益广泛,例如将自由文本的放射学报告转换为标准化模板,以及从肺癌的CT报告中挖掘数据。此外,LLMs在放射学考试中的表现也显示出其具备一定的“知识”储备,并能够帮助简化放射学报告。
随着GPT-4V(GPT-4 with Vision)的推出,模型不仅能够处理文本,还能够处理图像输入。这种大型视觉语言模型(Large Vision-Language Models, LVLMs)有望成为基础模型(Foundation Models),广泛应用于各种任务。尽管有研究表明GPT-4V在从单一医学图像生成放射学报告方面表现出色,但也指出了模型的局限性,特别是在解读放射学图像时存在不一致性。尽管如此,这些模型的广泛应用也带来了潜在的风险,尤其是在未经授权的应用中。
鉴于GPT-4V的潜力和风险,对其进行全面分析至关重要。然而,目前关于GPT-4V的同行评审文献仍然稀缺。因此,本研究旨在定量评估GPT-4V在解读放射学图像中的表现,特别是在处理未见过的数据时的准确性。
论文来源
本论文由Quirin D. Strotzer、Felix Nieberle、Laura S. Kupke等作者撰写,作者来自德国雷根斯堡大学医学中心放射学研究所、哈佛医学院马萨诸塞州总医院神经放射科等多个机构。论文于2024年11月发表在《Radiology》期刊上。
研究流程
数据获取
本研究为一项回顾性研究,纳入了来自神经放射学、心胸放射学和肌肉骨骼放射学的单张代表性异常和健康对照图像(CT、MRI、X光片)。图像通过OpenAI的API生成报告,评估了自由文本报告的事实正确性以及在二元分类任务中检测异常的表现。研究比较了GPT-4V与一名非放射科医生和四名获得认证的放射科医生的表现。
实验方法
研究选择了常见的病理发现和成像模态,包括神经放射学(缺血性卒中、脑出血、脑肿瘤、多发性硬化症)、心胸放射学(气胸、肺栓塞、肺炎、肺癌)和肌肉骨骼放射学(骨折)。每个类别至少包含25张图像,图像从医院的放射学信息系统中查询,并通过所有可用信息(包括扫描报告、随访影像和医疗记录)手动确认诊断。
任务设计
- 自由文本报告生成:给定一张图像,模型被提示生成放射学报告,包括成像模态、解剖区域、主要急性病理发现及其位置、最可能的诊断以及五个最可能的鉴别诊断。报告的正确性通过手动注释进行二元评分。
- 一致性测试:随机选择25张图像,模型生成三次报告,评估模型输出的变异性。
- 分类任务:设置二元分类任务,比较模型与人类读者在检测异常方面的表现。模型被提示回答“是”或“否”,并附上简短描述。
统计分析
所有评分均进行二元评估,计算自由文本报告的准确性、敏感性和特异性。通过随机一致性测试和Cohen κ统计量评估人类读者之间的一致性。
主要结果
总体结果
研究共纳入了515张图像,涉及470名患者(中位年龄61岁)。GPT-4V在所有图像中正确识别了成像模态,解剖区域的识别准确率为99.2%。在自由文本报告中,诊断准确性因病理发现和成像模态而异,例如,气胸的诊断准确性为0%,而脑肿瘤的诊断准确性为90%。在二元分类任务中,GPT-4V的敏感性在56%至100%之间,特异性在8%至52%之间,显示出明显的过度诊断倾向。
自由文本报告结果
模型在识别成像模态和解剖区域方面表现出色,但在识别主要病理发现和诊断方面表现不佳。例如,模型未能识别所有气胸病例,但在脑肿瘤的诊断中表现较好。模型在识别正常图像时也存在困难,特别是在CT图像中。
分类任务结果
GPT-4V在二元分类任务中的表现较差,总体准确率略高于随机猜测(55.3%)。相比之下,人类读者的表现显著优于模型,几乎在所有任务中达到了完美的一致性。
结论
GPT-4V在其早期版本中能够可靠地识别医学图像的成像模态和解剖区域,但在检测、分类或排除异常方面的表现不佳。尽管模型生成的报告听起来令人信服,但其在医学图像解读中的可靠性仍然有限。尽管如此,大型视觉语言模型在放射学中作为基础模型的潜力仍然值得关注。未来的研究应进一步优化模型,特别是在处理三维医学数据和特定领域的微调方面。
研究亮点
- 创新性:本研究首次对GPT-4V在放射学图像解读中的表现进行了定量评估,填补了相关领域的空白。
- 广泛性:研究涵盖了多个解剖区域和成像模态,提供了全面的性能评估。
- 实用性:研究结果对未来的医学图像分析模型开发具有重要的指导意义,特别是在模型优化和临床应用方面。
研究意义
本研究为大型视觉语言模型在放射学中的应用提供了重要的参考。尽管GPT-4V在识别图像模态和解剖区域方面表现出色,但其在病理检测和诊断方面的局限性表明,模型仍需进一步优化。未来的研究应关注如何提高模型在复杂和罕见异常中的表现,并探索其在临床实践中的实际应用价值。