超音波動画における半教師付き甲状腺結節検出

半监督超声视频中甲状腺结节检测的研究报告

研究背景

甲状腺结节は一般的な甲状腺疾患であり、甲状腺結節の早期スクリーニングと診断は通常、超音波検査に依存しています。超音波検査は、甲状腺結節、乳がん、動脈プラークなど、さまざまな疾患を検出するための一般的な非侵襲的検査方法です。しかし、甲状腺結節は超音波画像において解像度が低く、病変の形態が不規則かつ複雑であるため、超音波検査は高度に放射線科医の経験に依存しており、誤診や見落としが発生しやすいです。特に発展途上地域や国ではこれが顕著です。したがって、コンピューター支援診断(Computer-Aided Diagnosis, CAD)に基づく自動化された正確な方法の開発が特に重要です。

近年、深層学習技術が超音波画像のコンピューター支援診断に導入されました。既存の甲状腺結節検出方法は静的超音波画像でいくつかの進展を見せていますが、これらの方法は診断過程での時間的変化情報を十分に活用できていません。臨床スクリーニングと診断の過程では、放射線科医は複数の連続したフレームを注意深くチェックして結節を特定し、その特性を分析し、最終的な診断を行います。したがって、ビデオベースの超音波画像検出は、個々の画像よりも多くの空間および時間の情報を提供できます。

研究构建的神経网络结构示意図
甲状腺結節の形態が多様で、超音波画像のラベリングが複雑なため、既存の検出ソリューションは主に多くのトレーニングサンプルに依存しています。しかし、低解像度の超音波画像における複雑で多様な結節は、経験豊富な放射線科医によってのみラベリングされることが可能であり、これらの超音波画像のラベリングは単一の画像以上に時間と労力がかかります。したがって、限られたラベリングの状況下で超音波ビデオを十分に活用して甲状腺結節を検出することは依然として挑戦的な課題です。

论文来源

この研究は、Xiang Luo、Zhongyu Li、Canhua Xu、Bite Zhang、Liangliang Zhang、Jihua Zhu、Peng Huang、Xin Wang、Meng Yang、Shi Changらによって行われました。著者らは西安交通大学、第四軍医大学、湘雅医院、中南大学などの機関に所属しています。本文は2024年1月1日にIEEE Transactions on Medical Imagingに発表されました。

研究目的

本文は以下の問題を解決することを目的としています: 1. 超音波ビデオの空間および時間情報を利用して甲状腺結節をより正確に検出する方法。 2. 限られたラベリングデータの状況下で、半教師あり学習方式を通じて結節検出の精度を向上させる方法。

研究方法

本文では、超音波ビデオにおける甲状腺結節検出のためのビデオベースの半教師ありフレームワークを提案します。このフレームワークには2つの主要な革新点があります: 1. 隣接フレームガイド検出骨幹ネットワーク(Adjacent Frame Guided Network, AFGN):隣接フレームを使用して現在のフレームを推定し、検出の空間的一貫性を向上させます。 2. 擬似ラベルの自適応戦略:擬似ラベルの生成と未予測フレームにおける自適応戦略を通じて未ラベリングのビデオを最大限に活用し、手動ラベリングの作業量を減らします。

データ前処理とラベリング

  1. データ収集:1316人の患者から1648個の横断ビューと1622個の縦断ビューの超音波ビデオを収集しました。
  2. データクリーニング:質の低いビデオを除外し、ビデオの境界からデバイス情報を切り取り、996個の横断ビューのビデオと1088個の縦断ビューのビデオを得ました。
  3. フレームの選択とラベリング:隣接フレームの類似度を計算し、類似フレームを除去してラベリングの作業量を減らし、残った画像を10年以上の経験を持つ2人の放射線科医がラベリングし、20年以上の経験を持つ別の放射線科医がラベリング結果を再確認し、最終的に4730枚の横断ビューと4939枚の縦断ビューの超音波画像を得ました。

半教師あり超音波ビデオ検出フレームワーク

手動ラベリングの作業量を減らすために、半教師ありのビデオ検出フレームワークを提案しました。このフレームワークは以下の主要なステップを含みます: 1. 初期化:同じ超パラメータ構成で学生AFGN(Student-AFGN)と教師AFGN(Teacher-AFGN)ネットワークを初期化します。 2. 擬似ラベルの生成:教師AFGNはまずラベリングビデオで訓練と最適化を行い、未ラベリングビデオの擬似ラベルを生成し、非極大値抑制を使用して重複検出結果を除去し、信頼度閾値で不確定な境界ボックスをフィルタリングします。 3. 学生ネットワークの訓練:学生AFGNは擬似ラベルの付いた未ラベリングビデオを使用して訓練し、ラベリングビデオを使用して教師あり学習を行い、パラメータλを導入して教師あり学習と無教師あり学習をバランスさせます。

擬似ラベル自適応戦略

擬似ラベルの生成過程で、甲状腺結節は形態が多様であり、事前訓練された検出骨幹ネットワークではすべてのフレームをうまく予測できないことがあります。これに対し、隣接フレームの擬似ラベルに基づいた自適応戦略を提案し、未ラベリングフレームのラベリングを補完します。具体的には以下の3つのケースがあります: 1. 始め/終わりの未予測フレーム:最も近い2つのフレームとの構造類似度指数を計算し、両方が設定閾値を超えた場合、その2つのフレームのラベルを平均分配して未予測フレームのラベルとします。 2. 中間フレームだが前後フレームはすでに擬似ラベルが付与されている場合:未予測フレームと前後のフレームの類似度指数を計算し、同じ方法で擬似ラベルを生成します。 3. 中間フレームで前後フレームが未予測のままのフレーム:未予測フレームとすべての擬似ラベル付きフレームの類似度指数を計算し、最高の2つの類似度スコアを使用して計算し、両方が閾値を超えた場合、その2つのフレームのラベルを使って未予測フレームの擬似ラベルを平均生成します。

超音波ビデオ検出骨幹ネットワーク

空間および時間情報を最大限に活用するために、隣接フレームガイド検出の骨幹ネットワークAFGNを設計し、隣接フレームの特徴を選択して統合することで現在のフレームの検出結果を強化します。具体的なステップは以下の通りです: 1. 候補領域の選択:現在のフレームと隣接フレームの候補領域を生成し、3つの指標(候補領域信頼度スコア、フレーム距離スコア、候補領域重複スコア)を設計して現在のフレームとの関連性が強い候補領域を選別します。 2. マルチフレーム注意モジュール:リレーションシップモジュールを導入し、隣接フレームの特徴を利用して現在のフレームの候補領域の特徴を強化し、現在のフレームの検出結果を向上させます。

フレームワークの訓練詳細

学生AFGNの最適化損失は教師ありと無教師あり部分を含む。損失関数は次のように定義されます: [ L_{total} = L_s + \lambda L_u ] ここで、( L_s )と( L_u )はそれぞれ教師あり学習の損失と無教師あり学習の損失を意味します。

実験結果

本文の提案した方法を検証するため、多数の対比実験を行いました: 1. ラベリングされたビデオの数量が異なる場合の影響:異なる数量のラベリングビデオにおいて、本文の方法は優れた性能を示し、ラベリングビデオの数量が少ない場合、半教師ありフレームワークの優位性がより顕著になります。 2. 他の検出モデルとの比較:100個の横断ビューと100個の縦断ビューのラベリングデータを使用した実験では、本文の方法は最適な競合相手であるTransVOD++よりも8.20%と5.75%の改善を示しました。全ラベリングビデオを使用した五つ折り交差検証の実験では、本文の方法はmAPにおいて最適な対抗手RDNよりも0.26%-1.03%の改善を示しました。

结论

本文では、超音波ビデオにおける甲状腺結節検出のための半教師ありフレームワークを提案します。隣接フレームガイド検出骨幹ネットワーク(AFGN)および擬似ラベル自適応戦略を導入することで、少量のラベリングデータの状況でも良好な検出結果を得ることができ、既存の方法に比べて顕著な向上を示しました。実験結果は、本文フレームワークが甲状腺結節検出タスクにおいて重要な応用価値と科学的価値を持つことを示しています。