CSFRNet: 長期人物再識別のための服装状態認識の統合

概要 長期人物再識別(LT-ReID)における服装の変化に対応するため、従来の手法から離れる必要があります。従来のLT-ReID戦略は、主に生体認証ベースとデータ適応ベースの2つに分かれていますが、それぞれに欠点があります。前者は高品質な生体データが不足する環境では機能せず、後者は服装の変化が最小または微妙な場合に効果を失います。これらの課題を克服するため、我々は服装状態認識特徴正則化ネットワーク(CSFRNet)を提案します。この新しいアプローチは、服装状態認識を特徴学習プロセスにシームレスに統合し、服装が完全に変化する場合、部分的に変化する場合、または全く変化しない場合においても、明示的な服装ラベルを必要とせずにLT-ReIDシステムの適応性と精度を大幅に向上させます。我々のCSFRNe...

疑似平面正則化符号付き距離場を用いたニューラル室内シーン再構築

疑似平面正則化符号距離場を用いたニューラル室内シーン再構築 学術的背景 室内シーンの3D再構築は、コンピュータグラフィックスや仮想現実など、幅広い応用が期待されるコンピュータビジョン分野の重要な課題です。従来の3D再構築手法は、高価な3Dグラウンドトゥルースデータに依存していましたが、近年、ニューラル放射場(NeRF)を用いた暗黙的なニューラル表現手法は、複数の画像のみを使用して優れた3D表面再構築能力を示しています。しかし、NeRFは主に色のボリュームレンダリングに基づいて最適化されるため、床や壁などの低テクスチャ領域での再構築品質が低いという問題があります。これらの低テクスチャ領域は室内シーンに広く存在し、通常は平面構造に対応しています。したがって、追加の監督信号を導入せず、部屋のレイア...

AutoStory:最小限の人的努力で多様なストーリーテリング画像を生成する

AutoStory:最小限の人的努力で多様なストーリーテリング画像を生成する

学術的背景と問題提起 ストーリービジュアライゼーション(Story Visualization)は、テキストで記述されたストーリーから一連の視覚的に一貫した画像を生成することを目的としたタスクです。このタスクでは、生成された画像が高品質であるだけでなく、テキストの記述と一致し、異なる画像間でキャラクターのアイデンティティやシーンが一貫している必要があります。ストーリービジュアライゼーションは、芸術創作、児童教育、文化継承などの分野で幅広い応用が期待されていますが、その複雑さから、既存の手法は特定のキャラクターやシーンのみを考慮したり、ユーザーに画像ごとの制御条件(スケッチなど)を提供することを要求したりすることで問題を大幅に簡略化しています。これらの簡略化により、既存の手法は実際のアプリケー...

汎用代理モデルを用いたサンプル選択によるラベルノイズの対処

学術的背景と問題提起 ディープニューラルネットワーク(Deep Neural Networks, DNNs)の急速な発展に伴い、視覚知能システムは画像分類、物体検出、動画理解などのタスクで顕著な進歩を遂げています。しかし、これらのブレークスルーは高品質な注釈付きデータの収集に依存しており、注釈プロセスは時間がかかり、コストがかかります。この問題に対処するため、研究者は大規模なウェブデータを活用してトレーニングを行うようになりましたが、これらのデータにはノイズラベル(label noise)が含まれることが多く、これがディープニューラルネットワークの性能に悪影響を及ぼします。ノイズラベルの存在は、トレーニングデータとテストデータの分布の不一致を引き起こし、クリーンなテストデータに対するモデルの...

無監督可視光-赤外線人物再識別のための均質および異質一貫性ラベル関連の探求

同質および異質一貫性ラベル関連付けを探索する教師なし可視光-赤外線人物再識別 背景紹介 可視光-赤外線人物再識別(Visible-Infrared Person Re-Identification, VI-ReID)は、コンピュータビジョン分野における重要な研究テーマであり、異なるモダリティ(可視光と赤外線)の画像から同一人物を検索することを目的としています。このタスクは、特に夜間や低照度条件下での監視システムにおいて重要な応用が期待されています。しかし、既存のVI-ReID手法の多くはアノテーションデータに依存しており、アノテーションデータの取得には時間と労力がかかります。そのため、教師なしのVI-ReID手法が重要な研究テーマとなっています。 既存の教師なしVI-ReID手法は、主にモダ...

Aniclipart:テキストからビデオへの事前知識を用いたクリップアートアニメーション

学術的背景と問題提起 Clipart(クリップアート)は、事前に作成されたグラフィックアートの一種であり、ドキュメント、プレゼンテーション、ウェブサイトなどの視覚的なコンテンツを迅速に強化するための効率的な手段として広く利用されています。しかし、静的なクリップアートを動的なシーケンスに変換する従来のワークフローは非常に煩雑で時間がかかり、リギング、キーフレームアニメーション、中間フレーム生成などの複雑なステップを必要とします。近年、テキストからビデオを生成する技術(text-to-video generation)の進歩により、この問題を解決する新たな可能性が生まれています。しかし、既存のテキストからビデオ生成モデルを直接適用すると、クリップアートの視覚的な特徴を保持したり、カートゥーン風の...

LaVie: カスケード潜在拡散モデルを用いた高品質ビデオ生成

LaVie: カスケード潜在拡散モデルを用いた高品質ビデオ生成

カスケード潜在拡散モデルに基づく高品質ビデオ生成:LaVie 学術的背景 近年、拡散モデル(Diffusion Models, DMs)が画像生成分野で画期的な進展を遂げる中、テキストから画像(Text-to-Image, T2I)生成技術は大きな成功を収めています。しかし、この技術をテキストからビデオ(Text-to-Video, T2V)生成に拡張することは、依然として多くの課題を抱えています。ビデオ生成では、視覚的にリアルな画像を生成するだけでなく、時間的な一貫性を保ちつつ、事前学習されたT2Iモデルの創造的な生成能力を維持する必要があります。既存のT2V生成手法は、ゼロからシステム全体を訓練することを前提としており、これには膨大な計算リソースが必要であり、ビデオ品質、訓練コスト、モデ...

SLIDE: 幾何制御とマルチビュー一貫性を強化した統一メッシュおよびテクスチャ生成フレームワーク

SLIDE: 幾何制御とマルチビュー一貫性を強化した統一メッシュおよびテクスチャ生成フレームワーク

学術的背景 ゲーム、建築、ソーシャルメディアなどの業界で高品質な3Dコンテンツの需要が増加する中、手動での3Dアセット作成は時間がかかり、技術的に要求が高く、コストもかかります。特にゲーム業界では、キャラクターや家具などのアセットの審美的な品質がゲーム環境の没入感に大きく影響します。建築業界では、視覚化、シミュレーション、計画のための正確で詳細な建物モデルが不可欠です。また、ソーシャルメディアプラットフォームでは、拡張現実(AR)や仮想現実(VR)体験のために3Dコンテンツを活用するケースが増えています。しかし、3Dモデルのリアリズムは、頂点、辺、面、テクスチャなどの詳細なメッシュ表現に依存しています。そのため、制御可能で高品質なテクスチャ付きメッシュの自動生成が急務となっています。 既存の...

非小細胞肺癌における選択的スプライシングのグローバルプロファイリングは、新しい組織学的および人口学的差異を明らかにする

非小細胞肺癌における選択的スプライシングのグローバルプロファイリング:新たな組織学的および人種間の差異を明らかにする 学術的背景 肺癌は米国で最も頻繁に診断されるがんの一つであり、特に非小細胞肺癌(NSCLC)がその大部分を占めています。その中でも、肺腺癌(LUAD)と肺扁平上皮癌(LUSC)が最も一般的なサブタイプです。肺癌の分子メカニズムに関する研究は大きく進展していますが、アフリカ系アメリカ人(AA)などの少数派集団は、肺癌研究において十分に代表されていません。アフリカ系アメリカ人男性は、ヨーロッパ系アメリカ人男性(EA)に比べて肺癌を発症しやすく、発症率と死亡率も高いことが知られています。この差異は、医療資源へのアクセスや治療決定の違いに一部起因しています。 近年のゲノム研究では、選...

メバロン酸キナーゼは、マイクロサテライト不安定性大腸癌における腫瘍細胞固有のインターフェロン応答を損なうことで抗腫瘍免疫を抑制する

メバロン酸キナーゼは腫瘍細胞内のインターフェロン応答を損なうことで微小衛星不安定性大腸癌の抗腫瘍免疫を抑制する 学術的背景 免疫チェックポイント阻害療法(Immune Checkpoint Blockade, ICB)、特に抗PD-1モノクローナル抗体は、微小衛星不安定性大腸癌(Microsatellite Instability Colorectal Cancer, MSI CRC)の治療に承認されています。しかし、臨床研究によると、約半数のMSI CRC患者は単剤または併用免疫療法に対して限定的な効果しか示しません。腫瘍細胞内のインターフェロン応答(Interferon Response)は、抗腫瘍免疫抵抗性および免疫療法の効果に重要な役割を果たしています。インターフェロンγ(IFN-γ...