人工智能解释类型对胸部X光诊断性能及医生信任度的影响

人工智能解释类型对医生诊断表现和信任的影响

学术背景

近年来,人工智能(Artificial Intelligence, AI)在医疗保健和放射学领域的诊断系统发展迅速,尤其是在辅助超负荷工作的医疗提供者方面,AI系统展现了改善患者护理的潜力。截至2022年,美国食品药品监督管理局(FDA)已批准了190个放射学AI软件程序,且批准率逐年上升。然而,AI从概念验证到实际临床应用的整合仍存在巨大鸿沟。为了弥合这一差距,培养对AI建议的适当信任至关重要。尽管高准确性的AI系统已在真实临床环境中证明了其提升医生诊断表现和患者结果的能力,但错误的AI建议可能会降低诊断表现,这无疑导致了AI在临床中的延迟应用。

医生们呼吁AI工具应具备透明性和可解释性。在医学影像领域,AI工具可以提供两类解释:局部解释(local explanations)和全局解释(global explanations)。局部解释基于特定输入解释为何做出某个预测(例如,在X光片上突出显示信息丰富的图像特征),而全局解释则解释AI工具的整体功能(例如,描述AI工具基于与每个诊断类别的典型图像比较的决策标准)。此外,医生们通常还希望了解AI输出的置信度或不确定性,以决定是否采纳AI建议。然而,医生和AI开发者对这两类解释在医疗应用中的实用性存在分歧,尤其是关于AI解释在放射学诊断中的可解释性研究较少。

研究目的与背景

本研究旨在测试AI解释类型、AI建议的正确性以及置信度是否会影响医生在胸部X光片诊断中的表现、对AI建议的感知以及对其的信任。研究假设不同类型的AI解释、AI建议的正确性和置信度会影响医生的诊断准确性、效率、诊断信心以及对AI建议的感知。

论文来源

本论文由Drew Prinster、Amama Mahmood、Suchi Saria、Jean Jeudy、Cheng Ting Lin、Paul H. Yi和Chien-Ming Huang共同撰写,分别来自约翰霍普金斯大学计算机科学系、贝叶斯健康公司、马里兰大学医学院放射诊断科、圣裘德儿童研究医院放射科以及约翰霍普金斯大学医学院放射科。论文于2024年11月发表在《Radiology》期刊上,得到了美国国家科学基金会的支持。

研究方法与流程

研究设计

本研究为一项多中心、前瞻性随机研究,于2022年4月至2022年9月进行。研究采用了两种在医学影像中常见的AI解释类型:局部解释(基于特征的解释)和全局解释(基于原型的解释)。AI建议的正确性和置信度为参与者内因素,而AI解释类型为参与者间因素。研究对象包括放射科医生(任务专家)和内科或急诊科医生(任务非专家),他们需要阅读胸部X光片并接受模拟的AI建议。研究使用广义线性混合效应模型分析实验变量对诊断准确性、效率、医生对AI建议的感知以及“简单信任”(即与AI建议对齐或偏离的速度)的影响。

研究对象与数据收集

研究招募了220名医生(中位年龄30岁,146名男性),其中132名为放射科医生,88名为内科或急诊科医生。每位医生需要阅读8个胸部X光片案例,并接受模拟的AI建议。AI建议的正确性和置信度在案例中随机变化,每个参与者被随机分配6个正确建议和2个错误建议的案例。AI解释类型在参与者间随机分配,局部解释通过标注的边界框突出显示X光片中的异常区域,而全局解释则通过将案例图像与AI训练数据集中的典型图像进行比较来解释。

数据分析

研究使用广义线性混合效应模型分析数据,控制变量包括医生的AI知识、人口统计学特征和任务专业知识。Holm-Sidak校正用于调整多重比较的显著性水平。

研究结果

诊断准确性

研究结果显示,当AI建议正确时,局部解释显著提高了医生的诊断准确性(β = 0.86,p < 0.001),而全局解释的效果较差。当AI建议错误时,解释类型对诊断准确性的影响不显著(β = -0.23,p = 0.39)。此外,AI置信度和医生任务专业知识之间存在交互作用,任务非专家在高置信度时从局部解释中获益更多,而任务专家在低置信度时从局部解释中获益更多。

诊断效率

局部解释显著减少了医生考虑AI建议的时间(β = -0.19,p = 0.01),表明局部解释提高了诊断效率。AI建议的正确性对诊断效率没有显著影响(β = -0.06,p = 0.17)。

医生对AI建议的感知

AI解释类型和AI置信度对医生对AI建议的感知没有显著影响(β = 0.35,p = 0.07;β = -0.16,p = 0.22)。然而,医生任务专业知识和AI建议正确性之间存在交互作用,任务专家对正确和错误AI建议的感知差异更大(β = 0.84,p < 0.001)。

简单信任机制

局部解释显著增加了医生对AI建议的“简单信任”(β = 1.32,p = 0.048),即医生更快地与AI建议对齐。这一机制在AI建议正确时有助于提高诊断准确性,但在AI建议错误时可能导致过度依赖。

结论

本研究表明,AI解释类型显著影响了医生的诊断表现和对AI的信任,即使医生自身并未意识到这些影响。局部解释在AI建议正确时提高了诊断准确性和效率,但也可能增加对错误建议的过度依赖。未来的AI决策支持系统开发应充分考虑不同解释类型的影响,尤其是在AI不确定性和用户经验水平方面。

研究亮点

  1. 局部解释的优势:局部解释在AI建议正确时显著提高了医生的诊断准确性和效率。
  2. 简单信任机制:局部解释增加了医生对AI建议的“简单信任”,这可能有助于减少对正确建议的“低估依赖”,但也可能增加对错误建议的过度依赖。
  3. 任务专业知识的交互作用:任务非专家在高置信度时从局部解释中获益更多,而任务专家在低置信度时从局部解释中获益更多。

研究意义与价值

本研究为AI在放射学诊断中的应用提供了重要见解,强调了AI解释类型在医生与AI协作中的关键作用。研究结果表明,设计AI系统时应充分考虑解释类型、AI置信度和用户经验水平,以优化AI在临床中的应用效果。未来的研究可以进一步探索其他解释类型和AI不确定性表示方式,以提升AI在医疗决策中的透明性和可解释性。