dvmark: un cadre multicouche profond pour les filigranes vidéo

DVMark : Cadre de filigrane vidéo basé sur l’apprentissage profond multi-échelle

La technologie de filigrane vidéo cache des données en intégrant des informations dans la vidéo hôte. Le modèle DVMark proposé dans cet article est une solution de filigrane vidéo basée sur l’apprentissage profond multi-échelle, offrant une robustesse et une praticité élevées, capable de résister à diverses distorsions et attaques tout en garantissant la qualité vidéo.

Contexte et motivation

Détails du cadre de filigrane vidéo

La technologie de filigrane vidéo consiste à intégrer des messages dans des vidéos, qui peuvent être visibles ou invisibles. Les filigranes invisibles présentent l’avantage de ne pas interférer avec le contenu original et sont difficiles à détecter par les attaquants. Les filigranes peuvent être appliqués dans divers scénarios, tels que l’inclusion de métadonnées de création vidéo, des horodatages et des informations sur le créateur. De plus, les filigranes sont largement utilisés pour la surveillance et le suivi de l’information, car ils peuvent être récupérés même après que la vidéo ait subi des distorsions et modifications pendant sa diffusion.

Actuellement, les principales évaluations des systèmes de filigrane vidéo incluent l’invisibilité (qualité), la robustesse et la capacité de charge utile (quantité de bits de message). Les méthodes de filigrane traditionnelles reposent souvent sur des caractéristiques conçues manuellement, qui ne peuvent généralement pas gérer divers types de distorsion simultanément et leur performance est souvent insuffisante. Pour surmonter ces limitations, cet article propose le modèle DVMark, une solution de filigrane vidéo basée sur l’apprentissage profond, entièrement entraînable de bout en bout.

Source de l’article

Cet article est rédigé par Xiyang Luo, Yinxiao Li, Huiwen Chang, Ce Liu, Peyman Milanfar, et Feng Yang, appartenant à Google Research - Mountain View, Californie. L’article a été accepté par IEEE Transactions on Image Processing et publié en 2023.

Processus de recherche

Cet article décrit en détail le processus global de la recherche, comprenant quatre modules principaux : l’encodeur, le décodeur, la couche de distorsion et le discriminateur vidéo. Voici les détails de chaque module ainsi que la mise en œuvre de l’algorithme :

1. Encodeur

L’encodeur reçoit la vidéo d’entrée et les messages binaires à intégrer, et produit une vidéo portant le filigrane. L’encodeur est constitué de deux parties : la couche de transformation et la couche d’insertion. La couche de transformation convertit la séquence de vidéos d’entrée en cartes de caractéristiques, puis la couche d’insertion produit le résidu de filigrane r, qui, ajouté à la vidéo originale, forme la vidéo finale filigranée.

vw = vin + r * α

La couche de transformation utilise quatre couches de convolution 3D, chaque couche contenant 64 canaux de sortie, apprenant la transformation optimale pour intégrer les messages dans les caractéristiques vidéo. La couche d’insertion utilise un réseau multi-échelle à deux niveaux, fusionnant les messages dans les cartes de caractéristiques à travers l’espace et le temps afin d’améliorer la robustesse.

2. Décodeur

Le décodeur reçoit la vidéo filigranée potentiellement distordue et produit le message décodé. Le décodeur adopte une conception à plusieurs têtes, utilisant un “petit réseau” (weightnet) pour prédire la matrice de poids pour chaque entrée vidéo, réalisant une stratégie d’allocation adaptative au contenu. La tête de décodeur différencie les images filigranées des non-filigranées, en utilisant quatre couches de convolution 3D pour former une sortie de mise en commun moyenne globale à travers des blocs de décodage multi-échelles.

3. Couche de distorsion

Le cadre améliore la robustesse en intégrant des distorsions courantes lors de l’entraînement. La couche de distorsion comprend des distorsions temporelles (comme la perte de trames), des distorsions spatiales (comme le flou gaussien et le recadrage aléatoire), et une simulation de compression vidéo différentiable (compressionnet). Cette couche sélectionne aléatoirement les types de distorsion et les injecte pendant l’entraînement, permettant ainsi à l’encodeur et au décodeur de rester robustes face à divers types de distorsion.

4. Discriminateur vidéo

Pour améliorer la qualité visuelle de la cohérence temporelle, un réseau de discrimination vidéo multi-échelle est utilisé. Ce réseau se compose de quatre réseaux résiduels 3D, traitant les entrées vidéo de différentes résolutions temporelles et spatiales.

Résultats principaux

La section des expériences évalue systématiquement la méthode proposée, en la comparant aux méthodes traditionnelles de filigrane vidéo ainsi qu’aux méthodes de filigrane d’image basées sur l’apprentissage profond de pointe.

1. Évaluation de la robustesse

Sous diverses distorsions courantes, la méthode proposée surpasse de loin les méthodes 3D-DWT traditionnelles et les méthodes de filigrane d’image basées sur l’apprentissage profond comme Hidden en termes de précision des bits. Les tests incluent la compression vidéo standard, la perte de trames, le recadrage spatial et le bruit gaussien parmi d’autres distorsions clés. Les résultats expérimentaux montrent que le modèle DVMark est performant dans presque toutes les distorsions testées.

2. Évaluation de la qualité visuelle

À l’aide de mesures de qualité visuelle telles que PSNR, MSSIM, LPIPS, et TLP, ainsi que des scores des utilisateurs, la qualité des vidéos filigranées est évaluée. Les résultats montrent que le modèle DVMark dépasse les méthodes comparatives dans toutes les mesures de qualité.

3. Évaluation des performances globales

Une analyse approfondie des compromis entre robustesse, qualité et capacité de charge utile est réalisée. Avec une charge utile fixe ou une qualité fixe, le modèle DVMark montre des résultats de robustesse supérieurs aux méthodes traditionnelles et aux méthodes de filigrane d’image basées sur l’apprentissage profond.

4. Performances sur de plus grandes vidéos

Pour vérifier la praticité du modèle, des tests sont effectués sur des vidéos de différentes résolutions et longueurs. Contrairement aux modèles limités par la longueur des segments d’entraînement, DVMark montre des performances stables sur des vidéos plus grandes.

Conclusion

Le modèle DVMark propose un cadre de filigrane vidéo robuste de bout en bout à travers une conception et une optimisation multi-échelle. Une évaluation rigoureuse démontre sa haute praticité dans les applications réelles. Les orientations futures de la recherche pourraient inclure une simulation de compression vidéo plus précise et un entraînement du modèle pour différentes distorsions correspondantes. Cet article représente une avancée importante dans le domaine du filigrane vidéo, montrant comment l’apprentissage profond peut réaliser une robustesse et une qualité visuelle supérieures dans des conditions de distorsion variées.