LDTrack: 拡散モデルを用いたサービスロボットによる動的人物追跡

拡散モデルを用いたサービスロボットによる動的人物追跡 学術的背景 複雑で混雑した人間中心の環境における動的人物の追跡は、ロボット技術における重要な課題です。特に、遮蔽、姿勢の変化、照明の変化などのクラス内変動が存在する場合、従来の追跡手法では正確な識別と追跡が困難です。既存のロボット追跡手法は、独立した検出と追跡システムに依存しており、計算効率とリアルタイム性の面で課題があります。特に、クラス内変動が大きい場合、検出器の失敗が追跡の中断を引き起こす可能性があります。 これらの問題を解決するため、本論文では、条件付き潜在拡散モデル(Conditional Latent Diffusion Models)に基づく新しいディープラーニングアーキテクチャ——潜在拡散追跡(Latent Diffusi...

AutoStory:最小限の人的努力で多様なストーリーテリング画像を生成する

AutoStory:最小限の人的努力で多様なストーリーテリング画像を生成する

学術的背景と問題提起 ストーリービジュアライゼーション(Story Visualization)は、テキストで記述されたストーリーから一連の視覚的に一貫した画像を生成することを目的としたタスクです。このタスクでは、生成された画像が高品質であるだけでなく、テキストの記述と一致し、異なる画像間でキャラクターのアイデンティティやシーンが一貫している必要があります。ストーリービジュアライゼーションは、芸術創作、児童教育、文化継承などの分野で幅広い応用が期待されていますが、その複雑さから、既存の手法は特定のキャラクターやシーンのみを考慮したり、ユーザーに画像ごとの制御条件(スケッチなど)を提供することを要求したりすることで問題を大幅に簡略化しています。これらの簡略化により、既存の手法は実際のアプリケー...

LaVie: カスケード潜在拡散モデルを用いた高品質ビデオ生成

LaVie: カスケード潜在拡散モデルを用いた高品質ビデオ生成

カスケード潜在拡散モデルに基づく高品質ビデオ生成:LaVie 学術的背景 近年、拡散モデル(Diffusion Models, DMs)が画像生成分野で画期的な進展を遂げる中、テキストから画像(Text-to-Image, T2I)生成技術は大きな成功を収めています。しかし、この技術をテキストからビデオ(Text-to-Video, T2V)生成に拡張することは、依然として多くの課題を抱えています。ビデオ生成では、視覚的にリアルな画像を生成するだけでなく、時間的な一貫性を保ちつつ、事前学習されたT2Iモデルの創造的な生成能力を維持する必要があります。既存のT2V生成手法は、ゼロからシステム全体を訓練することを前提としており、これには膨大な計算リソースが必要であり、ビデオ品質、訓練コスト、モデ...

RADIFF: 電波天文マップ生成のための制御可能な拡散モデル

RaDiff: ラジオ天文学マップ生成のための制御可能な拡散モデルに関するレポート (和訳版) 背景紹介 平方キロメートルアレイ (Square Kilometer Array, SKA) 望遠鏡の建設が終盤を迎え、宇宙研究における革新的な進展が期待されています。SKAはこれまでにない感度と空間分解能を実現する一方で、既存の望遠鏡が生み出す膨大なデータは、効率的に処理可能な手法を必要としています。特に、背景ノイズが顕著で形状が複雑な電波画像 (例えば銀河面) を扱う場合は、効率的な自動化と科学情報抽出が重要です。 ここ数年で、深層学習 (Deep Learning) はラジオ天文学にも多様な形で活用されています。一方で、この手法は大量の高品質なアノテーションデータセットを必要とするため、デー...

拡散モデルに基づく特徴増強を用いた全スライド画像における多インスタンス学習

拡散モデルに基づく特徴拡張:全視野病理画像における多数例学習の新手法 学術的背景と研究の動機 計算病理学(computational pathology)の分野では、全視野スライド画像(Whole Slide Images, WSIs)の効果的な分析方法が現在の研究課題として注目されています。WSIsは超高解像度の画像であり、広範囲な視野を持ち、がん診断に広く利用されています。しかし、ラベル付きデータの不足や巨大な画像データがもつ計算負荷の問題から、WSIの自動解析における深層学習手法、特に多数例学習(Multiple Instance Learning, MIL)には多くの課題があります。 MILは典型的な弱教師あり学習手法であり、WSI全体を「バッグ」に見立て、その中の小領域(パッチ)を...

StyleAdapter:統一されたスタイライズド画像生成モデル

StyleAdapter: 統一的なスタイル化画像生成モデル 近年、テキストから画像生成(Text-to-Image, T2I)技術および深層学習モデルの急速な発展により、人工知能による画像生成分野での研究が大きく進展しました。しかし、参照画像の特定のスタイルをテキスト生成された高品質画像に統合することは、いまだに大きな課題です。この課題に対応するため、Zhouxia Wangらは「StyleAdapter」と呼ばれる統一的なスタイル化画像生成モデルを提案しました。本論文は、International Journal of Computer Vision に発表され、香港大学、Tencent ARC Lab、マカオ大学、および上海人工知能研究所の研究者たちによって共同執筆されました。 研究背...

拡散に基づく深層学習法による超微細構造イメージングと体積電子顕微鏡の拡張

拡散に基づく深層学習法による超微細構造イメージングと体積電子顕微鏡の拡張

拡散モデルベースの深層学習アルゴリズムを用いた超解像度イメージングと体積電子顕微鏡の強化 背景紹介 電子顕微鏡(Electron Microscopy、略してEM)は高解像度のイメージングツールとして、細胞生物学の重大な突破口を開いた。従来のEM技術は主に2次元のイメージングに使用されていたが、ナノスケールの複雑な細胞構造を明らかにしてきた一方で、3次元(3D)構造の研究には一定の限界があった。より高度な技術である体積電子顕微鏡(Volume Electron Microscopy、略してVEM)は、連続切片と断層走査技術(透過電子顕微鏡TEMやスキャニング電子顕微鏡SEMなど)を用いて、細胞や組織の3Dイメージングを実現し、細胞、組織、さらには小型のモデル生物のナノスケールの3D構造を抽出...

深層学習による拡散モデルの最適化

深層学習による拡散モデルの最適化

Dimond: 深層学習による拡散モデルの最適化に関する研究 学術的背景 脳科学および臨床応用において、拡散磁気共鳴イメージング(Diffusion Magnetic Resonance Imaging, dMRI)は、非侵襲的に脳組織の微細構造や神経連結性を描くための重要なツールです。しかし、拡散信号モデルのパラメーターを正確に推定する計算コストは高く、画像ノイズの影響を受けやすいです。既存の多くの深層学習に基づく教師あり推定法は、効率と性能の向上の可能性を示していますが、これらの方法は通常追加のトレーニングデータを必要とし、汎化性が不足しているという問題があります。 論文の出典 この研究はZihan Li、Ziyu Li、Berkin Bilgic、Hong-Hsi Lee、Kui Yi...