二重空間映像歩行者再認識です

双空間ビデオ人物再識別に関する研究 背景紹介 人物再識別(Person Re-Identification, ReID)技術は、異なるカメラで撮影された画像やビデオシーケンスから特定の個人を識別することを目指しています。近年、深層学習技術の急速な発展に伴い、ReID技術は都市のセキュリティ、行方不明者の捜索、容疑者の追跡などの分野で大きな応用可能性を示しています。しかし、既存のReID手法は主にユークリッド空間に基づいて特徴表現学習を行い、遮蔽、背景の混雑、複雑な時空間情報モデリングといった問題に対して多くの課題に直面しています。 これらの問題を解決するために、重慶郵電大学の研究チームは「双空間ビデオ人物再識別」(Dual-Space Video Person Re-Identificati...

TryOn-Adapter:高忠実度バーチャルトライオン向けの効率的な細粒度衣類識別適応

TryOn-Adapter:高忠実度バーチャルトライオン向けの効率的な細粒度衣類識別適応

TryOn-Adapter——高効率な細粒度衣装アイデンティティ適応の高忠実度仮想試着 研究背景と課題 近年、仮想試着(Virtual Try-On)技術が広く注目を集めています。その核心的な目標は、与えられた衣服を特定の人物にシームレスに調整し、同時に衣服のパターンやテクスチャを歪めないようにすることです。しかし、現在の拡散モデル(Diffusion Model)に基づいた方法は、衣服のアイデンティティの一貫性を維持する点で顕著な限界があり、全パラメータの微調整を行っても完全に制御するのは困難です。さらに、これらの方法は通常、高いトレーニングコストを必要とするため、その幅広い応用が制限されています。 これらの問題を解決するために、本研究では新しいフレームワーク「TryOn-Adapter」...

音声保存顔面表情操作のための対照的な分離表現学習と正則化

対照的分離表現学習を用いた音声保存型顔表情操作への応用 背景紹介 近年、バーチャルリアリティや映像制作、そしてヒューマンコンピュータインタラクション技術の急速な発展に伴い、顔表情操作(Facial Expression Manipulation)はコンピュータビジョンおよびグラフィックス分野で注目される研究テーマとなっています。特に、音声保存型顔表情操作(Speech-Preserving Facial Expression Manipulation, SPFEM) は、話し手の口の動きと音声との同期を維持しつつ、顔の感情表現を変更することを目指しています。この技術は人間の表情の表現力を大幅に向上させるだけでなく、仮想キャラクタ生成や映画のポストプロダクションなどの実用的なアプリケーションに...

DiffuVolume: ボリュームベースのステレオマッチングのための拡散モデル

 

DiffuVolume——拡散モデルに基づくステレオマッチングの新手法 研究背景と問題提起 ステレオマッチング(Stereo Matching)はコンピュータビジョン分野における重要なタスクであり、自動運転やロボットナビゲーションなどに幅広く応用されています。その中核となる目標は、一対の補正済みステレオ画像から密な視差マップ(Disparity Map)を生成することです。近年、コストボリューム(Cost Volume)に基づく手法がステレオマッチングで顕著な成功を収めています。コストボリュームは左右の画像特徴からの幾何学的情報を集約し、視差予測に豊富な文脈情報を提供します。しかし、コストボリュームには大量の冗長情報が含まれており、この冗長情報はモデルの学習を妨害し、さらなる性能向上を制限し...

姿勢を意識したコントラスティブフェイシャル表現学習のサンプル結束

自己教師あり顔表現学習における姿勢認識能力の向上 研究背景と問題提起 コンピュータビジョン分野において、顔表現学習(Facial Representation Learning)は重要な研究課題です。顔画像を分析することで、身元、感情、姿勢などの情報を抽出でき、顔表情認識(Facial Expression Recognition, FER)、顔認識(Face Recognition, FR)、頭部姿勢推定(Head Pose Estimation, HPE)といった下流タスクに役立てることができます。近年、深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks, DCNNs)は顔理解タスクで顕著な成果を挙げていますが、これらの手法は通常、大...

参照表現セグメンテーションと生成のための相互監視フレームワーク

参照表現セグメンテーションと生成のための相互監視フレームワーク

指表現セグメンテーションと生成のための相互監督フレームワーク 研究背景と問題提起 近年、視覚と言語の相互作用技術は人工知能分野で顕著な進展を遂げています。その中で、指表現セグメンテーション(Referring Expression Segmentation, RES)と指表現生成(Referring Expression Generation, REG)という2つのコアタスクは、それぞれ自然言語記述に基づいて画像内の対象オブジェクトを特定し、そのセグメンテーションマスクを生成する、または特定の対象に対して明確かつ正確な言語記述を生成することを目指します。これらのタスクは本質的に逆の関係にありますが、研究は通常別々に行われており、どのように相互に促進できるかを体系的に議論する方法が欠けています...

ゼロショット分布外検出のためのグローバルおよびローカル最大概念マッチング

ゼロショット分布外検出のためのグローバルおよびローカル最大概念マッチング

GL-MCM: ゼロショット分布外検出のためのグローバルとローカル最大概念マッチング 研究背景と問題提起 現実世界では、機械学習モデルが適用される環境には、新しいクラスのデータが自然に出現するなど、データ分布が変化することがよくあります。この現象は「分布外検出」(Out-of-Distribution Detection, OOD)と呼ばれています。未知のデータに対するモデルの信頼性を確保するために、OOD 検出は重要なタスクとなっています。しかし、従来の単一モーダルな教師あり学習手法は特定のタスクで良好なパフォーマンスを示しますが、そのトレーニングコストが高く、多様なアプリケーションシナリオに対応するのが難しいという欠点があります。 近年、CLIP(Contrastive Language...

Lidarガイドによる視覚中心の3D物体検出のための幾何学的事前学習

Lidarガイドによる視覚中心の3D物体検出のための幾何学的事前学習

LiDARガイドによる幾何学的プレトレーニング法が視覚中心の3D物体検出性能を向上 背景紹介 近年、マルチカメラ3D物体検出は自動運転分野で広く注目を集めています。しかし、視覚ベースの手法はRGB画像から正確に幾何学的情報を抽出する際に依然として課題があります。既存の手法では通常、深さに関連するタスクで事前学習された画像バックボーンを使用して空間情報を取得しますが、これらの方法は視点変換における重要な問題を無視しており、画像バックボーンと視点変換モジュール間での空間知識のミスマッチによりパフォーマンスが低下しています。この問題を解決するために、本論文では新しい幾何学的認識型プレトレーニングフレームワーク「GAPretrain」を提案します。 論文の出典 本論文は、林麟彦、王会杰、曾佳らによっ...

マスク画像モデリング事前学習による強力な軽量ビジョントランスフォーマーの探索に関する実験的研究

軽量級ビジョンTransformerの強力な探索のためのマスク付き画像モデリング事前学習に関する実験的研究 学術的背景 近年、自己教師あり学習(self-supervised learning, SSL)はコンピュータビジョン分野で顕著な進展を遂げています。特に、マスク付き画像モデリング(masked image modeling, MIM)事前学習法は大規模なビジョンTransformer(vision transformers, ViTs)への応用において成功し、これらのモデルに基づく下流タスクのパフォーマンスが大幅に向上しました。しかし、既存の研究は主に大規模ViTsに焦点を当てており、軽量級ViTsに対する事前学習方法とその効果についての研究は比較的少ないです。さらに、多くの研究は複...

AlphaFoldを用いた阻害性タンパク質フラグメントのハイスループット発見

高精度で蛋白フラグメントの抑制活性を予測する新方法:FragFoldの応用 学術背景 蛋白質間相互作用は細胞生命活動において重要な役割を果たし、ペプチド(peptides)や蛋白フラグメント(protein fragments)は特定の蛋白質界面に結合して、蛋白質機能を調節したり、甚至抑制剤として機能したりします。近年、高スループット実験技術の発展により、生細胞中での大量の蛋白フラグメントの抑制活性を測定することが可能になりました。しかし、これまで計算方法が存在せず、どの蛋白フラグメントが目標蛋白質と結合し、抑制作用を発揮するか、さらにはその結合モードを予測することはできませんでした。この研究領域の空白を埋めるために、研究者は新しい計算ツールを開発しました。 AlphaFoldの登場は蛋白質...