FP-AGE:野生環境における顔の年齢推定のための顔解析注意の活用

FP-AGE:野生環境における顔の年齢推定のための顔解析注意の活用

FP-Age:顔解析注意メカニズムを利用した自然環境における顔年齢推定 研究背景 顔画像での年齢推定は、計算機視覚における重要なタスクです。それは法医学、セキュリティ、健康福祉、ソーシャルメディアなど幅広い実際の応用において大きな可能性を秘めています。しかし、頭部の姿勢、顔の表情そして遮蔽など多様な要因の存在により、深層学習モデルの顔年齢推定分野での性能はまだ向上の余地があります。特に、自然環境(”in-the-wild”)の顔画像においてこれらの問題は一層顕著です。異なる条件下でのモデルのロバスト性と精度を向上させるため、著者は顔の意味情報を年齢推定プロセスに組み込む新しい方法を提案しました。これにより、モデルが最も情報量の多い顔領域に効果的に注目できるようになります。 研究者と発表情報 ...

TGFuse:トランスフォーマと生成対向ネットワークに基づく赤外線および可視画像融合アプローチ

TGFuse:トランスフォーマと生成対向ネットワークに基づく赤外線および可視画像融合アプローチ

TGFuse:Transformerと生成対抗ネットワークに基づく赤外線と可視光画像の融合方法 背景紹介 イメージング機器と分析方法の発展に伴い、多環境ビジュアルデータが急速に出現し、多くの実際の応用を持っています。これらの応用の中で、画像融合は多環境データの情報関連を人間の目で理解するのに重要な役割を果たしています。特に赤外線と可視光画像の融合は、軍事、安全、視覚追跡などの分野で重要な応用があります。このため、画像融合任務の重要な一環となっています。自然かつ効果的な画像融合アルゴリズムを設計することができれば、全体的な画像の知覚を向上させ、複雑なシーンの融合要求に適応することができます。しかし、既存の畳み込みニューラルネットワーク(CNN)ベースの融合方法は、遠距離依存性を直接無視してしま...

監督なしの時間的一致性学習を用いた統一的なビデオオブジェクト除去

監督なしの時間的一致性学習を用いた統一的なビデオオブジェクト除去

ビデオオブジェクトの一貫性削除における非監督型時間一致性学習 研究背景と動機 ビデオ編集と修復の分野において、ビデオオブジェクト削除(Video Object Removal)は重要なタスクです。その目標は、ビデオ内の目的のオブジェクトを消去し、合理的な内容で穴を埋めることです。既存のソリューションは主に2つのサブタスクに分かれます:(1) マスク追跡(Mask Tracking)と (2) ビデオ補完(Video Completion)。しかし、これらは通常独立した問題と見なされ、それぞれ別個に処理されます。このような分割はシステムを過度に複雑にし、複数のモデルの協同作業が必要となり、トレーニングとデプロイの難易度を増し、実際の応用に不利です。 論文は、マスク追跡とビデオ補完がピクセルレベ...

CLASH: 歩行認識のためのニューラルアーキテクチャ検索を使った補完学習

CLASH: 歩行認識のためのニューラルアーキテクチャ検索を使った補完学習

CLASH:補完学習とニューラルアーキテクチャ検索に基づく歩容認識フレームワーク 研究背景 歩容認識は、個人の歩行パターンを通じて身元を識別するバイオメトリクス技術である。この技術は、遠距離から個人の協力を必要とせずに行うことができるため、セキュリティチェック、ビデオ検索、身元識別などの分野で広く応用されている。しかし、人影の輪郭に基づく識別方法にはいくつかの問題がある。二値化されたスパースな境界表現は豊富な時空間情報を欠いており、輪郭の大部分のピクセルが歩容パターンに対して敏感ではない。このため、識別のロバスト性を維持しつつ、歩容パターンに対する感度を高めるために、本文ではニューラルアーキテクチャ検索に基づく補完学習(Complementary Learning with Neural A...

タグベースのコンテンツ記述子を使用した透過的な深部画像美学評価に向けて

タグベースのコンテンツ記述子を使用した透過的な深部画像美学評価に向けて

タグ内容記述に基づく透明な深層画像美学評価 学術背景 InstagramやFlickrといったソーシャルメディアプラットフォームが普及するにつれ、画像美学評価(Image Aesthetics Assessment, IAA)モデルの需要がますます高まっています。これらのモデルは、ソーシャルネットワークサービス提供者が画像のソートや推薦結果を最適化するのを助けるだけでなく、一般ユーザーがアルバムを管理したり、最適な写真を選んだり、撮影や編集の際にガイダンスを提供します。しかし、オブジェクトや撮影技術など複数の要因を含む画像美学の複雑さから、堅牢なIAAモデルの構築は依然として課題となっています。 研究動機 既存の深層学習法はIAAにおいて高い性能を示していますが、その内部分析が不明瞭です。ほ...

少数ショット分類のための特徴揃えと均一のバランス

少数ショット分類のための特徴揃えと均一のバランス

バランス特性の対応と均一性による少数ショット分類問題の解決 背景と動機 少数ショット学習(Few-Shot Learning, FSL)の目標は、少数の新しいカテゴリ(novel classes)サンプルの条件下で、新しいサンプルを正確に認識することです。既存の少数ショット学習方法は、主に特徴表現とその対応するラベルとの情報を最大化することで、基礎カテゴリ(base classes)から転移可能な知識を学習します。しかし、この方法は「監督の崩壊」(supervision collapse)という問題が発生する可能性があり、基礎カテゴリに対して偏りが生じることがあります。本論文では、データの内在構造を保ち、新しいカテゴリに適した一般化モデルを学習することで、これを解決する方法を提案します。本研...

負の決定論的情報に基づく多インスタンス学習を用いた弱教師付きの物体検出とセグメンテーション

負の決定論的情報に基づく多インスタンス学習を用いた弱教師付きの物体検出とセグメンテーション

ネガティブ決定論的情報に基づく多重インスタンス学習の弱監督物体検出とセグメンテーションへの応用 背景紹介 過去10年間において、コンピュータビジョン分野は特に物体検出(Object Detection)とセマンティックセグメンテーション(Semantic Segmentation)で顕著な進歩を遂げてきました。しかし、大部分のアルゴリズムとモデルは正確なアノテーションデータに大きく依存しており、実際の応用において大量の人力と時間を消費します。弱監督学習(Weakly Supervised Learning, WSL)は、粗粒度のアノテーションデータ(例:画像レベルのアノテーション)のみを必要とすることでこの問題を解決します。この背景から、弱監督物体検出(Weakly Supervised O...

ハイパースペクトルおよびマルチスペクトル画像融合の進展:情報認識トランスフォーマーに基づく展開ネットワーク

ハイパースペクトルおよびマルチスペクトル画像融合の進展:情報認識トランスフォーマーに基づく展開ネットワーク

情報認識に基づくTransformer展開ネットワークの高次元・多次元画像融合の促進 背景紹介 高次元画像(Hyperspectral Image, HSI)は、多くの波長帯のスペクトル情報を含むため、物質識別、画像分類、ターゲット検出、環境モニタリングなどのリモートセンシング用途で重要な役割を果たしています。しかし、センサーのハードウェアの制約により、実際のイメージングプロセスでは空間分解能とスペクトル分解能の間のトレードオフが存在します。具体的には、イメージングセンサーは豊富なスペクトル情報を提供する画像(低分解能のHSI、LR-HSI)か、空間分解能が高くスペクトル情報が少ない画像(高分解能の多次元画像、HR-MSI)のいずれかしか提供できません。高分解能のHSI(HR-HSI)を得る...

グラフ最適化問題のためのグラフニューラルネットワーク駆動ソルバーフレームワーク

グラフ最適化問題のためのグラフニューラルネットワーク駆動ソルバーフレームワーク

グラフニューラルネットワークに基づくグラフ最適化問題解決フレームワーク 背景と研究動機 制約充足問題(CSPs)および組み合わせ最適化問題(COPs)を解決する際、バックトラック法と分枝ヒューリスティックの組み合わせが一般的です。特定の問題に対して設計された分枝ヒューリスティックは理論上効率的ですが、その複雑さと実装の難しさのために実用化が制限されています。一方で、汎用的な分枝ヒューリスティックは適用範囲が広いものの、通常は最適性能を示しません。本稿の著者は、分枝ヒューリスティックにシャノンエントロピー(Shannon Entropy)を導入することで、汎用性と特定性のバランスを取る新しい解決フレームワークを提案しました。具体的には、グラフニューラルネットワーク(GNN)モデルを使用して、確...

代替セルフデュアル教育による弱教師ありセマンティックセグメンテーション

代替セルフデュアル教育による弱教師ありセマンティックセグメンテーション

代替二重教師自己調整学習による弱監督セマンティック画像分割実現 背景紹介 コンピュータビジョンの分野の発展に伴い、セマンティック分割はその中で重要かつ活発な研究方向の一つとなっています。従来のセマンティック分割方法は手動でラベリングされたピクセルレベルのラベルに依存していますが、これらの精密なアノテーションの取得には通常多大な人力と時間コストがかかります。この問題を解決するために、近年、弱監督セマンティック分割(Weakly Supervised Semantic Segmentation, WSSS)が提案され、これは人工アノテーションを最小限に抑えつつ、弱いアノテーション情報(画像ラベル、バウンディングボックス、塗りつぶしなど)を利用して効率的なセマンティック分割を実現することを目指して...