前背景時空モデリングによる動画からの心拍数及び呼吸数の推定

ビデオベースの心拍数および呼吸数推定の新しい手法

背景と研究動機

心拍数(Heart Rate, HR)と呼吸数(Respiratory Rate, RR)は、心肺機能を反映する重要な生理学的指標であり、医学、健康モニタリング、心理学や行動研究などで広く利用されています。従来、これらの指標は接触型センサーで測定されてきました。たとえば、心拍数は心電図(Electrocardiography, ECG)や光電容積脈波記録法(Photoplethysmography, PPG)、呼吸数は呼吸ベルトや気流測定装置を用いて評価されます。しかし、接触型手法は、装着時の快適性や皮膚刺激の懸念を含む制約があり、特に遠隔モニタリングのような特定のシナリオでは適用が困難です。

近年、非接触型のビデオベース生理信号推定が研究者の注目を集めています。この方法は、ビデオを通じて皮膚の微妙な色の変化や身体の動きを検出することで、HRとRRを接触することなく推定できます。しかし、既存のビデオベース手法では、環境照明の変化に対する耐性が不十分なため、精度と信頼性が制限されています。本研究の著者たちは、この課題に対応するため、前景‐背景時空間モデリング(Fore-Background Spatiotemporal Modeling, FBST)を提案しました。この手法は、前景と背景の照明をモデル化して外部照明の影響を効果的に排除し、ビデオベースのHRおよびRR推定の精度と適応性を向上させます。

論文の出典と著者

本研究論文は、「Estimation of heart rate and respiratory rate by fore-background spatiotemporal modeling of videos」と題され、四川大学電気工学部および電子情報工学部のXiujuan Zheng、Wenqin Yan、Boxiang Liu、Yue Ivan Wu、Haiyan Tuによって執筆されました。この論文は、2025年2月1日に「Biomedical Optics Express」誌(Vol. 16, No. 2)で公開されました。本研究は、中国国家自然科学基金(62271333)および四川省科学技術支援計画(2022YFS0032)の助成を受けて実施されました。

研究手法とプロセス

本研究では、FBSTに基づく新しい手法を提案し、HRとRRを同時に推定しながら環境照明の変化をモデル化しました。研究の主なプロセスは以下の通りです。

1. 関心領域(ROI)の定義と信号収集

まず、著者たちはビデオ内の前景と背景の関心領域(Regions of Interest, ROIs)を定義しました。前景領域には顔面と胸部を含み、それぞれ脈拍信号(顔面)と呼吸信号(胸部)の抽出に使用されます。一方、背景領域では人体を含まない部分を選択しました。本研究では、SeetaFaceアルゴリズムを使用して前景領域を自動的にセグメント化し、生体信号の正確な抽出を保証しました。

さらに、精度を高めるため、顔の領域は小さな複数のROIに分割され、ノイズが多い四隅の領域は除去されました。また、胸部領域では信号品質に基づいて最適なROIを信号対雑音比(SNR)を用いて選択しました。背景領域の複数のROIは主成分分析(PCA)により、背景の照明変化信号を抽出しました。

2. 時空間モデリングと画像生成

著者たちは二色反射モデル(Dichromatic Reflection Model)に基づいて、前景と背景のモデルを構築しました。このモデルはそれぞれ、顔面および胸部領域における光の反射の時間変化特性を記述します。具体的には、顔面領域の拡散反射は血液量の変化を通じて心拍数情報を反映し、胸部の鏡面反射の変化は呼吸による胸部の上下運動に起因します。

その後、構築したモデルを利用して前景と背景の時空間マップ(Spatiotemporal Maps)を生成しました。これらのマップは行列形式で時間と空間の情報をキャプチャし、データの詳細な表現を確保します。

3. 自適応時空間層(ST Layer)の設計と応用

照明の干渉を効果的に排除するため、本研究では軽量な時空間ネットワークモジュール(Spatiotemporal Layer, ST Layer)を導入しました。このモジュールは、線形ST層(Linear ST Layer)と非線形ST層(Nonlinear ST Layer)の2種類に分かれています。線形ST層は全結合ニューラルネットワークを通じて単純な照明シナリオに適応し、非線形ST層は畳み込み層(1×1畳み込みカーネル)と活性化関数(ReLU)を組み合わせ、複雑な背景干渉に対応します。

4. ResNet-18を用いたパラメータ推定

最後に、著者たちは軽量なResNet-18ニューラルネットワークを使用してモデル化を行い、光照明変化の干渉を排除した後の特徴マップをネットワークに入力し、HRとRRを推定しました。本研究では転移学習(Transfer Learning)を採用し、ResNet-18モデルを事前学習した後、L1損失関数とピアソン相関係数によって結果を最適化しました。

研究結果と発見

心拍数の推定

本研究は、3つの公開データベース(UBFC-rPPG、PURE、COHFACE)および著者が収集したプライベートデータベースを使用してFBST手法の推定性能を評価しました。

  • 結果のパフォーマンス: UBFC-rPPGデータセットにおいて、FBST手法の二乗平均平方根誤差(RMSE)は2.79であり、PhysNetの3.70を大きく上回りました。また、プライベートデータセットではRMSEが2.41を記録し、高精度を示しました。従来の手法(ICAやPCAなど)と比較して、FBSTは複雑な照明条件下でも正確なHR推定を実現しました。
  • 信号の分析: 抽出された脈拍信号の可視化分析により、推定結果が実際の信号と一致しており、FBST手法が時間領域で心拍信号のリズム情報を正確に捕捉する能力を持つことを証明しました。

呼吸数の推定

RR推定に関して、FBST手法はCOHFACEデータセットでRMSEが3.62、プライベートデータセットでは5.27を達成し、既存の深層学習手法(PhysNet、TS-CANなど)を上回るパフォーマンスを示しました。さらに、FBSTは初めて公開データセット(例:COHFACE)を使用し、10秒間の短いウィンドウでRRを推定しました。これにより、リアルタイム呼吸モニタリングの可能性を提供しました。

データの均衡処理

被験者のHR分布分析により、UBFCやPUREデータセットにデータの偏りがあることが分かりました。本研究ではリサンプリング戦略を導入してデータ分布の均衡を最適化し、その結果、MAEおよびRMSEが大幅に減少しました。特に、低HR分布データセグメントにおいて顕著な効果を発揮しました。

意義と展望

科学的価値と応用の前景

  1. 照明モデリングの革新: 本研究は、前景‐背景照明モデルの革新的設計により、複雑な環境下でのビデオ生理信号測定の課題を解決し、照明に敏感な生体信号処理に新たなアプローチを提案しました。
  2. リアルタイムモニタリング: FBSTと軽量なニューラルネットワークを組み合わせることで、深層学習モデルの計算資源ニーズを大幅に削減し、より効率的なリアルタイム心肺機能モニタリングを可能にしました。
  3. 普遍的応用: 遠隔医療や心理ストレスモニタリングなどの非侵襲的シナリオを対象としたFBST手法は、理想的な技術ソリューションとして期待されます。

今後の研究方向

しかし、本研究にはいくつかの制約があります。たとえば、大幅な頭部運動や大規模な動的光源シナリオに関する詳細な検討は行われていません。また、背景のROI検索方法をさらに最適化し、動的環境へのモデルの適応能力を強化する必要があります。さらに、複雑な非線形モデルの選択は現在、定性的分析に依存していますが、将来的には定量的分析を通じて最適なモデル構造の自動決定を目指すべきです。

結論

本研究は、ビデオベースの心拍数および呼吸数推定における照明変化の干渉問題の解決に焦点を当て、FBSTを用いた新しい推定手法を提案しました。本手法は、背景干渉の排除、推定精度の向上、およびリアルタイムモニタリング応用の促進において重要な進展を示しました。本研究は、学術界に効率的な理論と実践的なツールを提供するだけでなく、非接触型医療モニタリングの発展においても重要な推進力をもたらします。