汎用可能な神経レンダリングを用いた3D指紋特性認識の改善

FingerNeRFを用いた3D指生体認証に関する研究レビュー 背景と研究の意義 バイオメトリクス技術の発展に伴い、三次元(3D)バイオメトリクスはその高い精度、優れた偽装防止能力、撮影角度の変化に対するロバスト性から、主流な研究分野の一つとなっています。中でも、指紋、静脈、指関節といった生体特徴の取得が容易で広く利用されているため、3D指バイオメトリクスは学術界や産業界で注目されています。しかし、現行の3Dバイオメトリクス手法は主に明示的な3D再構築技術に依存しており、以下の課題に直面しています。 情報の欠落: 明示的な再構築プロセスでは、一部の詳細情報が失われるため、認証タスクのパフォーマンスに直接的な影響を及ぼします。 ハードウェアとアルゴリズムの密結合: 再構築アルゴリズムは特定のハ...

カリキュラム予測を備えたメモリ支援型知識転送フレームワークを用いた弱教師ありオンライン活動検出

研究背景と研究意義 近年、ビデオ理解分野における弱教師ありオンライン活動検出(Weakly Supervised Online Activity Detection, WS-OAD)は、高度なビデオ理解の重要な課題として広く注目されています。この課題の主な目標は、安価なビデオレベルのアノテーションのみを利用して、ストリーミングビデオ内で進行中の活動をフレーム単位で検出することです。このタスクは、自動運転、公共安全監視、ロボットナビゲーション、拡張現実など、多くの実用的な応用分野で重要な価値を持っています。 完全教師あり手法(Fully Supervised Methods)はオンライン活動検出(OAD)で顕著な進展を遂げましたが、フレームレベルの密なアノテーション(Frame-level A...

人物再識別のための動的注意ビジョン・言語トランスフォーマーネットワーク

動的注意機構を持つ視覚言語Transformerネットワークを用いた歩行者再識別に関する研究報告 近年、マルチモーダルベースの歩行者再識別(Person Re-Identification、以下ReID)はコンピュータビジョンの分野で注目を集めています。ReIDは、異なるカメラの視点間で特定の歩行者を識別することを目的としており、行方不明者の捜索や犯罪者の追跡といったセキュリティ・監視アプリケーションにおいて重要な役割を果たします。しかし、マルチモーダルReID技術では、視覚情報とテキスト情報を統合する際に大きな課題が存在し、特に特徴統合の偏りや、モデル性能に影響を与えるドメインギャップ(分布の違い)が問題となっています。 本研究は、江西財経大学コンピュータと人工知能学院およびニューカッスル...

日中と夜を超える擬似教師付き活動認識

学術論文報告 研究ハイライト:低照度活動認識のための擬似教師あり学習と適応型音声-映像統合 学術的背景 本研究では、低照度環境での活動認識の課題を中心に取り組んでいます。既存の活動認識技術は、十分な照明条件下では優れた性能を発揮しますが、暗所環境で記録された映像に対してはほとんど機能しません。この制約は主に以下の2つの理由に起因します:1) 訓練用の低照度映像の不足、2) テスト時の視覚情報の損失を引き起こす低照度でのコントラスト低下。また、従来の映像強調に基づく解法では、映像品質が一定程度向上するものの、色歪みや映像フレーム間の不連続性を引き起こし、活動認識タスクに対して逆効果をもたらすことが多いです。 低照度活動認識は、スマートホーム、自動運転、セキュリティ監視、野生動物観察など、多くの...

高効率デレイン+: 高効率のデレインのためのRainMix拡張による不確実性認識フィルタリングの学習

高効率画像除雨手法:RainMix増強を活用した高効率深層除雨ネットワーク 背景紹介 降雨は、コンピュータビジョンシステムによってキャプチャされた画像や動画の品質に大きな影響を与えます。雨滴や雨筋は画像の鮮明さを低下させ、歩行者検出、物体追跡、セマンティックセグメンテーションなどのタスクに悪影響を及ぼします。全天候対応の視覚システムを実現するためには、画像除雨が重要な要件となります。 しかしながら、従来の除雨手法は雨モデルの経験的仮定に基づいており、複雑な最適化または反復解法を必要とするため、計算コストが高く、リアルタイム性に欠けます。また、これらの仮定は実際の雨景の複雑な多様性を十分にカバーできず、除雨品質を制約します。 この問題を解決するために、本研究では、除雨問題を予測フィルタリング問...

可視光と赤外線の人物再識別のための適応的中間モダリティ整合学習

可視光と赤外線の人物再識別のための適応的中間モダリティ整合学習

可視光と赤外線を用いたクロスモダリティ学習に基づくAdaptive Middle-Modality Alignment Learning手法の研究 研究背景と課題 スマート監視システムの需要に伴い、可視光と赤外線を利用した人物再識別(Visible-Infrared Person Re-identification, VIReID)は注目を集める研究分野となっています。本課題は、異なるスペクトルモダリティ(可視光と赤外線)に基づいた人物画像をマッチングさせ、24時間対応の人物識別を実現することを目的としています。可視光画像と赤外線画像は異なる光スペクトルから生成されるため、照明、テクスチャ、色などに大きなモダリティ差が存在し、このクロスモダリティマッチングが大きな課題となっています。 従来の...

手順認識に向けた弱教師あり協調手順整列フレームワークの研究

弱教師あり協調手順整列フレームワーク:手順動画の相関学習への応用と評価 近年、動画分析分野の急速な発展に伴い、指示動画はその目的指向の特性と人間の学習プロセスとの内在的な関連性により、研究者の関心を集めています。一般動画と比較して、指示動画には複数の細かな手順が含まれ、これらの手順は異なる期間と時間的配置を持ち、より複雑な手順構造を形成します。本研究では、手順動画における手順認識型の相関学習を実現するために、弱教師あり協調手順整列(Collaborative Procedure Alignment, CPA)というフレームワークを提案しました。このフレームワークの主な特長は、高価な手順レベルのアノテーションに依存せず、動画間の内部相関性を利用して手順情報を協調的に抽出し、その手順一致性を定量...

3D生成敵対ネットワークにおけるワンショット生成ドメイン適応

One-shot Generative Domain Adaptation in 3D GANs 近年、生成対抗ネットワーク(Generative Adversarial Networks, GANs)は、画像生成分野で顕著な進歩を遂げました。従来の2D生成モデルは、多くのタスクで極めて高い能力を発揮しています。しかし、この技術を3次元(3D-aware image generation)の分野に拡張し、2D画像を生成しながら3D構造を同時に学習することは、依然として多くの課題に直面しています。本稿は、International Journal of Computer Vision に掲載された、Ziqiang Li、Yi Wu、Chaoyue Wangらの研究「One-shot Gener...

CNNにおける帰属マップの信頼性評価:摂動ベースのアプローチ

深層学習の解釈可能性研究:摂動に基づく帰属マップ評価手法 背景と研究動機 深層学習モデルは多くのタスクで顕著な成功を収めていますが、これらのモデルの解釈可能性と透明性への関心が高まっています。特に、モデルの高精度な予測と同時に、その意思決定プロセスを人間が直感的に理解できるようにする能力が不足しています。この欠如は、多くの実世界のアプリケーションにおけるモデルの採用を制限しています。 コンピュータビジョン分野では、帰属法(Attribution Methods)が神経ネットワークの解釈可能性研究に広く利用されています。これらの方法は、入力画像中のどの領域がモデルの意思決定に最も寄与しているかを示す帰属マップ(Attribution Maps、AMs)を生成します。しかし、帰属マップの定性的性...

画像分類のためのクロススケール共起局所二値パターン

クロススケール共起局所バイナリパターンを用いた画像分類法の研究 画像分類技術はコンピュータビジョン分野で重要な位置を占めており、画像特徴抽出はこの分野の核心的研究対象です。近年、局所バイナリパターン(Local Binary Pattern, LBP)は、その効率性と優れた記述能力により、テクスチャ分類や顔認識などの視覚タスクで広く利用されています。しかし、従来のLBP手法は幾何変換(回転やスケーリング)や画像ノイズに対して制約があり、その記述能力が劣化しやすいという課題がありました。これらの課題に対処するため、重慶郵電大学の肖斌らの研究チームは、学術誌「International Journal of Computer Vision」に「CS-COLBP: Cross-Scale Co-O...