監視ビデオにおける異常行動検出のための確率的メモリオートエンコーディングネットワーク

確率メモリオートエンコーディングネットワークを用いた監視カメラ映像の異常行動検出研究

学術的背景

インテリジェント監視システムにおいて、異常行動検出は、テロ対策、社会の安定維持、公共の安全確保など、極めて重要な機能です。しかし、異常行動検出には核心的な課題があります。それは、通常の行動データと異常行動データの極端な不均衡です。通常の行動データは大量に入手可能ですが、異常行動データは少なく、予測が困難です。この不均衡により、従来の教師あり学習手法では効果的なモデルの訓練が難しくなっています。そのため、大量の通常行動データを活用して通常行動の分布をモデル化し、それに基づいて異常行動を検出する方法の研究が重要な方向性となっています。

近年、深層学習に基づく手法が異常行動検出において顕著な進展を遂げています。特に、ビデオフレームの再構築や将来フレームの予測に基づく手法は、従来の再構築手法よりも優れた性能を示しています。しかし、既存の手法は、複雑なシーンや多様な通常行動を扱う際に限界があります。これらの問題を解決するため、本研究では、確率メモリオートエンコーディングネットワーク(Probabilistic Memory Auto-Encoding Network, PMAE)に基づく半教師あり異常行動検出アルゴリズムを提案しました。

論文の出典

確率メモリオートエンコーディングネットワークを用いた監視カメラ映像の異常行動検出モデル

本論文は、武漢大学電子情報学院のJinsheng XiaoJingyi WuShurui WangQiuze Yu、湖北工業大学電気電子工程学院のHonggang Xie、およびカリフォルニア大学サンタバーバラ校コンピュータサイエンス学部のYuan-Fang Wangによって共同執筆されました。論文は2025年の『Neural Networks』誌に掲載され、タイトルは『Probabilistic Memory Auto-Encoding Network for Abnormal Behavior Detection in Surveillance Video』です。

研究の流れ

1. 研究設計

本研究の目的は、通常行動の分布を学習し、その分布から逸脱したデータを検出することで、異常行動を検出することです。そのため、研究チームはオートエンコーディングネットワーク(Auto-Encoding Network)を基盤としたフレームワークを設計し、確率モデルとメモリモジュールを組み合わせて通常行動パターンのモデル化を支援しました。

2. オートエンコーディングネットワーク

オートエンコーディングネットワークは、ビデオフレームから時空間特徴を抽出するためのバックボーンネットワークとして使用されます。将来の情報漏洩を防ぐため、研究チームは因果的3次元畳み込み(Causal 3D Convolution)と時間次元共有の全結合層を採用しました。オートエンコーディングネットワークは、エンコーダ、デコーダ、フレーム予測器の3つの部分で構成されています。エンコーダは入力されたビデオフレーム群を隠れベクトルにマッピングし、デコーダは隠れベクトルを多次元時空間特徴マップに再構築し、フレーム予測器はこれらの特徴マップを最終的な予測フレームに変換します。

3. 確率モデル

入力データの分布をフィットするため、研究チームは自己回帰条件付き確率推定モデル(Autoregressive Conditional Probability Estimation Model)を設計しました。このモデルは、自己回帰プロセスを通じて出力データの潜在確率分布を再帰的に計算し、ネットワークが通常行動データに直面した際に低エントロピー状態に収束することを可能にします。具体的には、モデルは順序付けられた全結合層を使用して各隠れベクトル要素の条件付き確率密度を推定し、手動での順序付けの不確実性を回避します。

4. メモリモジュール

メモリモジュールは、履歴データ内の通常行動特徴を保存し、注意メカニズムを通じてメモリベクトルと現在の入力データを融合します。メモリモジュールの読み取り操作は注意メカニズムに似ており、クエリベクトルとメモリベクトル間のコサイン類似度を計算して融合重みを生成し、新しいクエリベクトルを形成します。メモリモジュールの更新操作は、重み付き平均を使用して現在の入力情報をメモリベクトルに注入し、メモリベクトルの継続的な更新を実現します。

5. 目的関数と異常スコア

研究チームは、再構築誤差、確率エントロピー、メモリ特徴の3つの観点から目的関数と異常スコアを定義しました。再構築誤差は、平均二乗誤差(MSE)を使用して予測フレームと実際のフレーム間の差異を測定します。確率エントロピーは、交差エントロピー損失を使用して隠れベクトルの確率分布を測定します。メモリ特徴は、特徴の緊密性損失と特徴分離損失を使用してクラス内の差異を減らし、クラス間の差異を増やします。最終的に、異常スコアは各モジュールの貢献を重み付き平均して算出されます。

主な結果

1. 実験設定

研究チームは、UCSD Ped2とShanghaiTechの2つの公開データセットで性能テストを実施しました。UCSD Ped2データセットには16のトレーニングビデオと12のテストビデオが含まれており、解像度は240×360です。ShanghaiTechデータセットには437のキャンパス監視ビデオが含まれており、解像度は856×480です。実験はPython 3.6とPyTorch 1.1.0フレームワークを使用し、NVIDIA Tesla V100 GPU環境でトレーニングとテストを実施しました。

2. アブレーション実験

各モジュールの役割を探るため、研究チームはUCSD Ped2データセットでアブレーション実験を実施しました。実験結果は、スキップ接続(Skip-Layer Connection)がネットワークの再構築能力を大幅に向上させることを示しました。確率モデルは、ビデオフレーム群の長さが短い場合に効果的であり、メモリモジュールはビデオフレーム群の長さが長い場合に優れた性能を発揮しました。全体として、各モジュールの追加はネットワークの性能向上に寄与しました。

3. 古典的アルゴリズムとの比較

研究チームは、PMAEアルゴリズムを複数の古典的アルゴリズムと比較しました。UCSD Ped2データセットでは、PMAEアルゴリズムは0.958のAUC値を達成し、ShanghaiTechデータセットでは0.729のAUC値を達成し、ほとんどの比較アルゴリズムを上回りました。さらに、PMAEアルゴリズムの推論速度は96.3 FPSに達し、リアルタイム監視の要件を満たしています。

結論と意義

本研究では、確率メモリオートエンコーディングネットワークに基づく半教師あり異常行動検出アルゴリズムを提案し、通常行動の分布を学習することで、その分布から逸脱したデータを検出し、異常行動を検出することを実現しました。研究結果は、このアルゴリズムが複数の公開データセットで優れた性能を示し、高い検出精度とリアルタイム性を備えていることを示しています。さらに、アルゴリズムの設計は、通常行動の多様なモード特性を十分に考慮しており、異常フレームの再構築を効果的に回避し、検出率を向上させることができます。

研究のハイライト

  1. 確率メモリオートエンコーディングネットワーク:確率モデルとメモリモジュールを組み合わせることで、通常行動データと異常行動データの不均衡問題を効果的に解決しました。
  2. 自己回帰条件付き確率推定モデル:自己回帰プロセスを通じて入力データの分布をフィットし、ネットワークが低エントロピー状態に収束することを可能にし、通常行動のモデル化能力を強化しました。
  3. メモリモジュール:複数の通常行動モードを保存し、多様な通常行動データの共存を実現し、異常フレームの再構築を回避しました。
  4. リアルタイム性:アルゴリズムの推論速度は96.3 FPSに達し、リアルタイム監視の要件を満たしています。

その他の価値ある情報

研究チームは、実際の監視ビデオでのアルゴリズムのパフォーマンスを可視化する実験も実施しました。実験結果は、PMAEアルゴリズムが異常行動を効果的に識別し、複数のシーンで優れた性能を示すことを示しています。さらに、研究チームはt-SNE法を使用して各モジュールの特徴分布を可視化し、アルゴリズムの有効性をさらに検証しました。

本研究は、監視ビデオにおける異常行動検出の問題を解決するための効果的な方法を提供し、重要な科学的価値と応用の可能性を持っています。