通过前背景时空建模的视频心率与呼吸率估算方法

基于视频的心率与呼吸率估算的新方法

背景与研究动机

心率(Heart Rate,HR)和呼吸率(Respiratory Rate,RR)是反映心肺功能的重要生理指标,被广泛应用于医学、健康监测以及心理与行为研究中。传统上,这些参数常通过接触式传感器测量,例如使用心电图(Electrocardiography,ECG)或光电容积描记法(Photoplethysmography,PPG)测量HR,通过呼吸带或气流测量仪测量RR。然而,接触式方法在日常生活中使用受到诸多局限,包括设备佩戴的舒适性、可能的皮肤刺激以及不适合某些场景的应用需求(如远程监测)。

近年来,基于视频的非接触式生理信号估算逐渐吸引了研究者的关注,这种方法通过视频捕捉皮肤颜色细微变化或身体运动变化,无需接触即能估算HR和RR。但现存视频方法在应对环境光照变化时的鲁棒性不足,限制了实际应用中的精度和可靠性。本研究作者针对这一挑战,提出了一种前景-背景时空建模(Fore-Background Spatiotemporal Modeling,FBST)方法,通过结合前景和背景光照建模,创新性地消除外界光照干扰,为基于视频的HR和RR估算提供更高的准确性和更强的适应性。

论文来源与作者

本文题为《Estimation of heart rate and respiratory rate by fore-background spatiotemporal modeling of videos》,由来自四川大学电气工程学院和电子信息工程学院的Xiujuan Zheng、Wenqin Yan、Boxiang Liu、Yue Ivan Wu和Haiyan Tu撰写。文章于2025年2月1日发表在《Biomedical Optics Express》(Vol. 16, No. 2)期刊上。研究得到了中国国家自然科学基金(62271333)及四川省科技支撑计划(2022YFS0032)的资助。

研究方法与流程

此次研究提出了一种基于FBST的创新方法,同时估算HR和RR,并实现对环境光照变化的有效建模。研究的主要流程如下:

1. 定义感兴趣区域(ROI)与信号采集

首先,作者定义了视频中的前景和背景感兴趣区域(Regions of Interest, ROIs)。前景区域包括面部和胸部,分别用于提取脉搏信号(面部)与呼吸信号(胸部);背景区域则选择视频中不包含人体的部分。本研究通过使用SeetaFace算法实现对前景区域的自动化分割,确保体征信号的准确提取。

此外,为了提高准确性,面部区域被分割为多个小的ROI,并移除噪声较大的四个角点区域。而胸部区域则根据信号质量,通过信噪比(Signal-to-Noise Ratio,SNR)选择最优ROI。背景区域的多个ROI通过主成分分析(PCA)提取背景光强变化信号。

2. 时空建模与图像构造

作者基于双色反射模型(Dichromatic Reflection Model)建立了前景-背景模型,分别描述了脸部与胸部区域光反射的时间变化特性。具体而言,面部区域的漫反射通过血液量变化体现心率信息,而胸部的镜面反射变化则来源于呼吸引起的胸腔起伏。

随后,利用构建的模型生成前景和背景的时空图(Spatiotemporal Maps),通过叠加矩阵形式捕捉时间和空间信息,确保数据的详细表达。

3. 自适应时空层(ST Layer)的设计与应用

为有效消除照明干扰,研究引入了一种轻量级的时空网络模块(Spatiotemporal Layer, ST Layer)。该模块分为线性ST层(Linear ST Layer)和非线性ST层(Nonlinear ST Layer)两种类型。其中,线性ST层通过全连接神经网络适应简单照明场景,而非线性ST层结合卷积层(1×1卷积核)和激活函数(ReLU)专用于处理复杂的背景干扰。

4. 使用ResNet-18的参数估算

最后,研究者基于轻量级的ResNet-18神经网络建模,消除光变化干扰后的特征图被输入网络中完成HR和RR估算。本研究采用了一种迁移学习策略,将ResNet-18模型预训练,并通过L1损失函数和皮尔逊相关系数优化估算结果。

研究结果与发现

心率估算

研究使用了三个公开数据库(UBFC-rPPG、PURE、COHFACE)以及作者采集的私有数据库,评估了FBST方法的估算性能。

  • 结果表现: 在UBFC-rPPG数据集,FBST方法的均方根误差(RMSE)为2.79,显著优于PhysNet的3.70;在私有数据集上,FBST方法也以2.41的RMSE成绩展现出高精度。相比传统方法(例如ICA,PCA等),FBST在复杂光照条件下表现尤为突出,均能达到更高的HR估算精度。
  • 信号分析: 通过对提取的脉搏信号可视化分析,其估测结果与真实信号保持一致性,证明了FBST方法在时域中对心率信号节律信息的准确捕获能力。

呼吸率估算

对于RR估算,FBST方法在COHFACE数据集上RMSE达到3.62,在私有数据集上RMSE则为5.27,均优于现有深度学习方法(PhysNet,TS-CAN等)。此外,FBST是首次在公开数据集(如COHFACE)上使用10秒短窗口完成RR估算的研究,为实时呼吸监测提供了可行性。

数据均衡处理

通过对受试者HR的分布分析,发现UBFC和PURE数据集存在数据不均衡问题。研究引入重采样策略进行数据分布的平衡优化,结果显示显著降低了估算的MAE和RMSE,特别是在低HR分布数据段中效果极为显著。

意义与展望

科学价值与应用前景

  1. 光照建模创新: 本研究通过创新设计的前景-背景光照模型,满足了复杂环境下视频生理信号测量的核心需求,对照明敏感的生物信号处理提出了全新方案。
  2. 实时监测: 基于FBST和轻量级神经网络的实现,大幅度降低了深度学习模型对计算资源的需求,支持更高效的实时心肺功能监测。
  3. 普适性应用: 针对如远程医疗、心理应激监测等非侵入场景,FBST方法表现为一种理想技术方案。

未来研究方向

然而,研究仍存在局限性,如未对剧烈头部运动或大范围动态光源场景展开深入探讨。未来研究应进一步优化背景ROI搜索方法,并增强模型对动态环境的自适应能力。此外,复杂非线性模型的选择目前依赖定性分析,未来或可通过定量分析自动确定最优模型结构。

总结

本文的研究聚焦解决视频心率和呼吸率估算中光照变化带来的干扰难题,提出了一种使用FBST的新型估算方法。在消除背景干扰、提高估算精度及推动实时监测应用等方面,展现了重要的突破性进展。这项研究不仅为学界提供了高效的理论和实践工具,同时为非接触式医疗监测的发展带来重要推动。