DVMark:基于多尺度深度学习的视频水印框架

DVMark:基于多尺度深度学习的视频水印框架

视频水印技术通过在覆盖视频中嵌入信息来实现数据隐藏。本文提出的DVMark模型是一种基于深度学习的多尺度视频水印解决方案,具有较高的鲁棒性和实用性,能够在保证视频质量的前提下,抵抗各种可能的失真和攻击。

背景与动机

视频水印框架细节

视频水印技术涉及在覆盖视频中嵌入消息,可以是可见的也可以是不可见的。不可见水印因其不会干扰原始内容且难以被攻击者检测到而具有优势。水印可以应用于多种场景,如包含视频创建元数据、时间戳以及创作者信息等。此外,水印也广泛用于信息监控和追踪,这是因为水印即便在视频传播过程中遭受一定程度的失真和修改后仍然可以恢复。

目前,评估视频水印系统的主要因素包括不可见性(质量)、鲁棒性和有效载荷(消息比特数量)。传统的水印方法多依赖于手工设计特征,通常无法同时处理各种失真类型,并且性能不够理想。为了克服这些局限,本文提出了DVMark模型,一种基于深度学习的端到端可训练的视频水印解决方案。

论文来源

本文由Xiyang Luo, Yinxiao Li, Huiwen Chang, Ce Liu, Peyman Milanfar, 和Feng Yang等学者撰写,隶属于Google Research - Mountain View, California。论文已被IEEE Transactions on Image Processing接收,2023年发表。

研究流程

本文详细介绍了研究的总体流程,包括四个主要模块:编码器、解码器、失真层和视频鉴别器(discriminator)。以下是每个模块的具体介绍及算法实现:

1. 编码器

编码器接收输入视频和待嵌入的二进制消息,输出带有水印的视频。编码器由两部分组成:变换层和嵌入层。变换层将输入视频序列转换为特征图,然后嵌入层将水印残差r输出,该残差加上原始视频后形成最终的水印视频。

vw = vin + r * α

变换层采用四层3D卷积操作,每层包含64个输出通道,通过学习最优变换将消息嵌入视频特征中。嵌入层采用两级多尺度网络,将消息在空间和时间上重复融合到特征图中,以提高鲁棒性。

2. 解码器

解码器接收可能被失真的水印视频并输出解码的消息。解码器采用多头设计,使用一个“小网络”(weightnet)预测每个视频输入的权重矩阵,实现内容自适应的分配策略。解码头负责区分水印帧和未水印帧,利用四层3D卷积操作形成同各尺度解码块的全局平均池化输出。

3. 失真层

框架通过在训练过程中加入常见失真来提高鲁棒性。失真层包括时间失真(如帧丢失)、空间失真(如高斯模糊和随机裁剪)、以及可微分的视频压缩模拟(compressionnet)。该层随机选择失真类型,训练过程中注入失真,使编码器和解码器同时对多种失真类型保持鲁棒性。

4. 视频鉴别器

为了提高时间一致性的视觉质量,采用了一个多尺度视频鉴别网络。该鉴别网络由四个3D残差网络组成,处理不同时间和空间分辨率的视频输入。

主要结果

实验部分系统地评估了本文提出的方法,与传统视频水印方法和当前最先进的深度学习图像水印方法进行了对比。

1. 鲁棒性评估

在多种常见失真下,本文的方法在比特精确度(bit accuracy)上远超传统的3D-DWT方法和深度学习图像水印方法Hidden。测试包括标准的视频压缩、帧丢失、空间裁剪和高斯噪声等键失真情况。实验结果表明,DVMark模型在几乎所有测试失真中均表现出色。

2. 视觉质量评估

通过PSNR、MSSIM、LPIPS、和TLP等视觉质量指标以及用户评分,评估水印视频的质量。结果显示,DVMark模型在所有质量指标上优于对比方法。

3. 整体性能评估

深入探讨了鲁棒性、质量及有效载荷之间的权衡关系。在固定有效载荷或质量的情况下,DVMark模型在鲁棒性上的表现均优于传统和深度学习图像水印方法。

4. 更大视频上的性能

为了验证模型的实用性,实验在不同视频分辨率和长度的视频上测试了DVMark模型的性能。结果显示,不同于被训练集限制的片段长度,DVMark在较大视频上的性能并未出现明显下降。

结论

DVMark模型通过多尺度设计和优化,提出了一种鲁棒的端到端视频水印框架。通过严谨的评估,证明其在现实应用中具有很高的实用性。未来的研究方向可能包括更精确的视频压缩可微分代理和对应不同失真的模型训练等。本文为视频水印领域提供了重要的进展,展示了深度学习在多样化失真条件下,如何实现更高的鲁棒性和视觉质量。