分享自:

基于皮肤镜图像的卷积神经网络在临床黑色素瘤图像分类任务中与145名皮肤科医生的表现相当

期刊:european journal of cancerDOI:10.1016/j.ejca.2019.02.005

这篇文档属于类型a,即报告了一项单一原创研究的学术论文。以下是针对该研究的详细学术报告:


作者与机构
本研究的核心作者包括Titus J. Brinker、Achim Hekler、Alexander H. Enk等,他们分别来自德国癌症研究中心(DKFZ)、海德堡大学医院皮肤科、埃森大学医院皮肤科等多家德国顶尖医疗机构。研究发表于2019年3月的《European Journal of Cancer》期刊,题目为“A convolutional neural network trained with dermoscopic images performed on par with 145 dermatologists in a clinical melanoma image classification task”。

学术背景
皮肤癌是西方人群中最常见的恶性肿瘤,其中黑色素瘤(melanoma)是导致皮肤癌相关死亡的主要原因。尽管皮肤科医生经过专业训练并使用皮肤镜(dermoscope)进行检查,但其临床检测的敏感性(sensitivity)通常难以超过80%。近年来,卷积神经网络(Convolutional Neural Networks, CNNs)在图像分类任务中表现出色,尤其是在皮肤癌诊断领域。2017年,Esteva等人首次报道了一种深度学习CNN,其在识别恶性皮肤病变图像方面的表现与21位经过认证的皮肤科医生相当。然而,此前的研究主要基于临床和皮肤镜图像进行训练,且测试集与训练集图像类型一致。本研究首次探索了一种仅使用皮肤镜图像训练的CNN在临床图像分类任务中的表现,并将其与145位德国皮肤科医生的诊断结果进行了直接对比。

研究目标
本研究的主要目标是评估一种仅使用皮肤镜图像训练的CNN在临床图像分类任务中的表现,并将其与大量皮肤科医生的诊断结果进行比较。具体而言,研究旨在回答以下问题:在没有临床图像训练的情况下,CNN是否能够在临床图像分类任务中达到皮肤科医生的水平?此外,研究还探讨了CNN在敏感性和特异性(specificity)方面的表现,以及其结果的稳定性。

研究流程
研究分为以下几个主要步骤:

  1. 数据集准备
    研究使用了来自国际皮肤影像协作组织(ISIC)图像库和HAM10000数据集的皮肤镜图像进行CNN训练。训练集包括12,378张皮肤镜图像,其中2,169张为黑色素瘤,18,566张为不典型痣(atypical nevi)。所有黑色素瘤的诊断均通过活检病理学验证,而不典型痣的诊断则通过病理学检查、专家共识或其他方法确认。
    为了评估CNN在临床图像分类任务中的表现,研究使用了MClass-benchmark数据集,该数据集包含100张临床图像(80张痣图像和20张黑色素瘤图像)。这些图像由12家德国大学医院的皮肤科医生进行评估,每位医生通过电子问卷对图像进行分类,并提供管理决策(治疗/活检或安抚患者)。

  2. CNN模型开发
    研究使用了ResNet50 CNN模型进行分类。模型参数通过ImageNet数据集的预训练权重进行初始化。为了提高模型的性能,研究采用了多种增强训练技术,包括分层学习率(differential learning rates)、余弦退火(cosine annealing)和随机梯度下降重启(stochastic gradient descent with restart)。CNN的训练过程包括10次重复训练,每次训练包含13个周期(epochs)。

  3. 性能评估
    CNN的输出为每张图像的黑色素瘤概率(0到1之间的连续值)。研究通过调整操作值(operating value)来平衡敏感性和特异性。具体而言,研究选择了两个操作值:第一个操作值对应于皮肤科医生的平均特异性(69.2%),第二个操作值对应于高敏感性(76.7%)。
    为了评估CNN的表现,研究绘制了接收者操作特征曲线(ROC curve),并将其与皮肤科医生的结果进行对比。

主要结果
1. 皮肤科医生的表现
145位皮肤科医生在临床图像分类任务中的平均敏感性为89.4%(范围:55.0%-100%),平均特异性为64.4%(范围:22.5%-92.5%)。其中,主治医生(attendings)的平均敏感性最高(92.8%),但特异性较低(57.7%)。

  1. CNN的表现
    在与皮肤科医生相同敏感性(89.4%)的情况下,CNN的平均特异性为68.2%(范围:47.5%-86.25%)。在高敏感性(92.8%)的情况下,CNN的平均特异性为61.1%,略高于主治医生的57.7%。
    CNN的结果方差较小,表明其在皮肤图像分类任务中具有更高的鲁棒性。

结论
本研究首次证明,仅使用皮肤镜图像训练的CNN在临床图像分类任务中可以达到皮肤科医生的水平。CNN在敏感性和特异性方面的表现与皮肤科医生相当,且结果更加稳定。这一发现表明,计算机视觉在皮肤图像分类任务中具有显著优势,尤其是在缺乏临床图像训练的情况下。

研究亮点
1. 创新性训练方法
本研究首次探索了仅使用皮肤镜图像训练的CNN在临床图像分类任务中的表现,突破了以往研究中使用相同类型图像进行训练和测试的限制。

  1. 大规模对比研究
    研究涵盖了145位皮肤科医生,是迄今为止规模最大的CNN与皮肤科医生对比研究。

  2. 增强训练技术
    研究采用了分层学习率、余弦退火和随机梯度下降重启等增强训练技术,显著提高了CNN的性能。

  3. 高鲁棒性
    CNN的结果方差较小,表明其在皮肤图像分类任务中具有更高的稳定性和鲁棒性。

研究意义
本研究为人工智能在皮肤癌诊断中的应用提供了重要证据。CNN在临床图像分类任务中的优异表现表明,其在未来可能成为一种高效、可靠的辅助诊断工具。此外,研究还为深度学习算法的训练方法提供了新的思路,尤其是在跨图像类型任务中的应用。未来的研究可以进一步探索CNN在罕见黑色素瘤亚型(如无色素性黑色素瘤)和深色皮肤患者中的应用。


这篇报告详细介绍了研究的背景、方法、结果和意义,为读者提供了全面的理解。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com