半监督超声视频中的甲状腺结节检测

半监督超声视频中甲状腺结节检测的研究报告

研究背景

甲状腺结节是常见的甲状腺疾病,甲状腺结节的早期筛查和诊断通常依赖于超声检查,超声检查是一种常见的无创检测方法,可用于检测包括甲状腺结节、乳腺癌和动脉斑块在内的多种疾病。然而,由于甲状腺结节在超声图像中的分辨率低、病变形态不规则且复杂等原因,超声检查高度依赖放射科医生的经验,误诊和漏诊时有发生,特别是在欠发达地区和国家更为常见。因此,开发基于计算机辅助诊断(Computer-Aided Diagnosis,CAD)的自动化精准方法显得尤为重要。

近年来,深度学习技术被引入到超声图像的计算机辅助诊断中。尽管现有的甲状腺结节检测方法在静态超声图像上取得了一些进展,但这些方法未能充分利用诊断过程中随时间变化的空间和时间信息。在临床筛查和诊断过程中,放射科医生需要仔细查看多个连续的帧以定位结节、分析其特性并最终完成诊断。因此,基于视频的超声图像检测可以比单独图像提供更多的空间和时间信息。

研究构建的神经网络结构示意图 由于甲状腺结节形态多样且超声图像标注复杂,现有的检测解决方案在很大程度上依赖大量的训练样本。然而,低分辨率的超声图像中复杂多样的结节只能由经验丰富的放射科医生完成标注工作,标注这些超声图像较单张影像的标注更加费时费力。因此,在有限标注的情况下,充分利用超声视频进行甲状腺结节检测仍然是一项挑战性任务。

论文来源

本文的研究由Xiang Luo、Zhongyu Li、Canhua Xu、Bite Zhang、Liangliang Zhang、Jihua Zhu、Peng Huang、Xin Wang、Meng Yang、Shi Chang等人完成,作者隶属于西安交通大学、第四军医大学、湘雅医院、中南大学等机构。该论文于2024年1月1日发表于IEEE Transactions on Medical Imaging。

研究目的

本文旨在解决以下问题: 1. 如何利用超声视频的空间和时间信息对甲状腺结节进行更准确的检测。 2. 如何在有限标注数据的情况下,通过半监督学习方式提高结节检测的准确性。

研究方法

本文提出了一种基于视频的半监督框架,用于超声视频中的甲状腺结节检测。该框架包含两个主要创新点: 1. 邻帧引导检测骨干网络(Adjacent Frame Guided Network, AFGN):通过使用相邻帧对当前帧进行推断,从而提高检测的空间一致性。 2. 伪标签自适应策略:通过伪标签的生成及其在未预测帧中的自适应策略,充分利用未标注视频,减少人工标注工作量。

数据预处理和标注

  1. 数据收集:从1316个病人中收集了1648个横向视图和1622个纵向视图的超声视频。
  2. 数据清洗:剔除质量较差的视频,并裁剪去除视频边界中的设备信息,得到996个横向视图视频和1088个纵向视图视频。
  3. 帧选择和标注:通过计算相邻帧的相似度,去除相似帧,减少标注工作量,剩余的图像由两位有十年以上经验的放射科医生进行标注,并由另一名具有二十年以上经验的放射科医生复查标注结果,最终得到4730张横向视图和4939张纵向视图的超声图像。

半监督超声视频检测框架

为了减少人工标注工作量,提出了一个半监督的视频检测框架。该框架包含如下主要步骤: 1. 初始化:用相同的超参数配置对学生AFGN(Student-AFGN)和教师AFGN(Teacher-AFGN)网络进行初始化。 2. 伪标签生成:教师AFGN首先在标注视频上进行训练和优化,生成未标注视频的伪标签,采用非极大值抑制去除重复检测结果,并使用置信度阈值过滤不确定的边界框。 3. 训练学生网络:学生AFGN利用带有伪标签的未标注视频进行训练,同时用带有真实标签的标注视频进行监督学习,通过引入一个参数λ平衡监督学习和无监督学习。

伪标签自适应策略

生成伪标签过程中,由于甲状腺结节形态多样,预训练检测骨干网络不能很好地预测所有帧。对此,提出了一种基于相邻帧伪标签的自适应策略来填补未标注帧的标签。具体包括三个案例: 1. 开头/结尾的未预测帧:计算最接近的两个帧与未预测帧的结构相似度指数,若均大于设定阈值,则将两个帧的标签平均分配成未预测帧标签。 2. 中间帧但前后帧已赋予伪标签:计算未预测帧与前后两帧的相似度指数,以同样方法生成伪标签。 3. 中间帧且前后帧也未预测:为未预测帧计算其与所有赋予伪标签帧的相似度指数,并使用最高的两个相似度分数进行计算,若均大于阈值,则用这两个帧的标签平均生成未预测帧伪标签。

超声视频检测骨干网络

为了充分利用空间和时间信息,本文设计了一个基于邻帧引导检测的骨干网络AFGN,通过选择和聚合相邻帧的特征来增强当前帧的检测结果。具体步骤如下: 1. 候选区域选择:为当前帧和相邻帧生成候选区域,并设计了三个指标(候选区域置信度得分、帧距离得分和候选区域重叠得分)来筛选与当前帧相关性强的候选区域。 2. 多帧注意力模块:引入关系模块,利用相邻帧的特征增强当前帧候选区域的特征,提高当前帧的检测结果。

框架训练细节

学生AFGN的优化损失包括监督和无监督部分,损失函数定义为: [ L_{total} = L_s + \lambda L_u ] 其中,( L_s )和( L_u )分别表示监督和无监督学习的损失。

实验结果

为了验证本文提出的方法,进行了多组对比实验: 1. 不同数量标注视频的影响:在不同数量的标注视频下,本文的方法均显示出良好的性能,且在标注视频数量较少的情况下,半监督框架的优势更为明显。 2. 与其他检测模型的对比:在100个横向视图和100个纵向视图的标注数据上,本文的方法比最佳的竞争对手TransVOD++提高了8.20%和5.75%。在使用全部标注视频进行五折交叉验证的实验中,本文的方法在mAP上比最佳对手RDN有0.26%-1.03%的改善。

结论

本文提出了一个针对超声视频中甲状腺结节检测的半监督框架。通过引入邻帧引导检测骨干网络(AFGN)以及伪标签自适应策略,本文的方法在少量标注数据的情况下也能取得良好的检测效果,并比现有方法有显著提升。实验结果显示,本文框架在甲状腺结节检测任务中具有重要的应用价值和科学价值。