拡散モデル-用語-FmRead学術フロンティア

スペクトル拡散後続サンプリングに基づく多材料分解に関する研究背景紹介医用画像分野では、CT（コンピュータ断層撮影）技術が疾患診断や治療計画に広く利用されています。近年、スペクトルCT（spectral CT）はエネルギー依存の減衰情報を提供できることから注目を集めています。スペクトルCTは複数のエネルギーチャネルの投影データを使用して、異なる材料の密度分布を再構成します。このプロセスは材料分解（material decomposition）と呼ばれます。しかし、材料分解は高度に非線形な逆問題であり、従来の分解方法である解析的分解（analytical decomposition）や反復モデル分解（iterative/model-based decomposition）には計算効率の低さ、...

TryOn-Adapter：高忠実度バーチャルトライオン向けの効率的な細粒度衣類識別適応

TryOn-Adapter——高効率な細粒度衣装アイデンティティ適応の高忠実度仮想試着研究背景と課題近年、仮想試着（Virtual Try-On）技術が広く注目を集めています。その核心的な目標は、与えられた衣服を特定の人物にシームレスに調整し、同時に衣服のパターンやテクスチャを歪めないようにすることです。しかし、現在の拡散モデル（Diffusion Model）に基づいた方法は、衣服のアイデンティティの一貫性を維持する点で顕著な限界があり、全パラメータの微調整を行っても完全に制御するのは困難です。さらに、これらの方法は通常、高いトレーニングコストを必要とするため、その幅広い応用が制限されています。これらの問題を解決するために、本研究では新しいフレームワーク「TryOn-Adapter」...

脳インスパイア型低エネルギー生成モデル——Spiking Diffusion Models研究評述背景概説近年、人工知能分野で多くの先端技術が登場しており、その中でも深層生成モデル（Deep Generative Models, DGMs）は画像やテキストなどのデータ生成において顕著な能力を示しています。しかし、これらの生成モデルは人工ニューラルネットワーク（Artificial Neural Networks, ANNs）を骨格ネットワークとして依存しており、計算リソースとメモリ消費に高度に依存する特性が大規模応用における消費エネルギー問題を顕著化させています。一方で、約20ワットの消費電力で動作する人間の脳と比較して、ANNsのエネルギー効率は明らかに及びません。この点がより高エネル...

拡散モデルを用いたサービスロボットによる動的人物追跡学術的背景複雑で混雑した人間中心の環境における動的人物の追跡は、ロボット技術における重要な課題です。特に、遮蔽、姿勢の変化、照明の変化などのクラス内変動が存在する場合、従来の追跡手法では正確な識別と追跡が困難です。既存のロボット追跡手法は、独立した検出と追跡システムに依存しており、計算効率とリアルタイム性の面で課題があります。特に、クラス内変動が大きい場合、検出器の失敗が追跡の中断を引き起こす可能性があります。これらの問題を解決するため、本論文では、条件付き潜在拡散モデル（Conditional Latent Diffusion Models）に基づく新しいディープラーニングアーキテクチャ——潜在拡散追跡（Latent Diffusi...

学術的背景と問題提起ストーリービジュアライゼーション（Story Visualization）は、テキストで記述されたストーリーから一連の視覚的に一貫した画像を生成することを目的としたタスクです。このタスクでは、生成された画像が高品質であるだけでなく、テキストの記述と一致し、異なる画像間でキャラクターのアイデンティティやシーンが一貫している必要があります。ストーリービジュアライゼーションは、芸術創作、児童教育、文化継承などの分野で幅広い応用が期待されていますが、その複雑さから、既存の手法は特定のキャラクターやシーンのみを考慮したり、ユーザーに画像ごとの制御条件（スケッチなど）を提供することを要求したりすることで問題を大幅に簡略化しています。これらの簡略化により、既存の手法は実際のアプリケー...

カスケード潜在拡散モデルに基づく高品質ビデオ生成：LaVie 学術的背景近年、拡散モデル（Diffusion Models, DMs）が画像生成分野で画期的な進展を遂げる中、テキストから画像（Text-to-Image, T2I）生成技術は大きな成功を収めています。しかし、この技術をテキストからビデオ（Text-to-Video, T2V）生成に拡張することは、依然として多くの課題を抱えています。ビデオ生成では、視覚的にリアルな画像を生成するだけでなく、時間的な一貫性を保ちつつ、事前学習されたT2Iモデルの創造的な生成能力を維持する必要があります。既存のT2V生成手法は、ゼロからシステム全体を訓練することを前提としており、これには膨大な計算リソースが必要であり、ビデオ品質、訓練コスト、モデ...

RaDiff: ラジオ天文学マップ生成のための制御可能な拡散モデルに関するレポート (和訳版) 背景紹介平方キロメートルアレイ (Square Kilometer Array, SKA) 望遠鏡の建設が終盤を迎え、宇宙研究における革新的な進展が期待されています。SKAはこれまでにない感度と空間分解能を実現する一方で、既存の望遠鏡が生み出す膨大なデータは、効率的に処理可能な手法を必要としています。特に、背景ノイズが顕著で形状が複雑な電波画像 (例えば銀河面) を扱う場合は、効率的な自動化と科学情報抽出が重要です。ここ数年で、深層学習 (Deep Learning) はラジオ天文学にも多様な形で活用されています。一方で、この手法は大量の高品質なアノテーションデータセットを必要とするため、デー...

拡散モデルに基づく特徴拡張：全視野病理画像における多数例学習の新手法学術的背景と研究の動機計算病理学（computational pathology）の分野では、全視野スライド画像（Whole Slide Images, WSIs）の効果的な分析方法が現在の研究課題として注目されています。WSIsは超高解像度の画像であり、広範囲な視野を持ち、がん診断に広く利用されています。しかし、ラベル付きデータの不足や巨大な画像データがもつ計算負荷の問題から、WSIの自動解析における深層学習手法、特に多数例学習（Multiple Instance Learning, MIL）には多くの課題があります。 MILは典型的な弱教師あり学習手法であり、WSI全体を「バッグ」に見立て、その中の小領域（パッチ）を...

StyleAdapter: 統一的なスタイル化画像生成モデル近年、テキストから画像生成（Text-to-Image, T2I）技術および深層学習モデルの急速な発展により、人工知能による画像生成分野での研究が大きく進展しました。しかし、参照画像の特定のスタイルをテキスト生成された高品質画像に統合することは、いまだに大きな課題です。この課題に対応するため、Zhouxia Wangらは「StyleAdapter」と呼ばれる統一的なスタイル化画像生成モデルを提案しました。本論文は、International Journal of Computer Vision に発表され、香港大学、Tencent ARC Lab、マカオ大学、および上海人工知能研究所の研究者たちによって共同執筆されました。研究背...

拡散モデルベースの深層学習アルゴリズムを用いた超解像度イメージングと体積電子顕微鏡の強化背景紹介電子顕微鏡(Electron Microscopy、略してEM)は高解像度のイメージングツールとして、細胞生物学の重大な突破口を開いた。従来のEM技術は主に2次元のイメージングに使用されていたが、ナノスケールの複雑な細胞構造を明らかにしてきた一方で、3次元(3D)構造の研究には一定の限界があった。より高度な技術である体積電子顕微鏡(Volume Electron Microscopy、略してVEM)は、連続切片と断層走査技術(透過電子顕微鏡TEMやスキャニング電子顕微鏡SEMなど)を用いて、細胞や組織の3Dイメージングを実現し、細胞、組織、さらには小型のモデル生物のナノスケールの3D構造を抽出...

スペクトル拡散後方サンプリングを用いた多材料分解

TryOn-Adapter：高忠実度バーチャルトライオン向けの効率的な細粒度衣類識別適応

スパイキング拡散モデル

LDTrack: 拡散モデルを用いたサービスロボットによる動的人物追跡

AutoStory：最小限の人的努力で多様なストーリーテリング画像を生成する

LaVie: カスケード潜在拡散モデルを用いた高品質ビデオ生成

RADIFF: 電波天文マップ生成のための制御可能な拡散モデル

拡散モデルに基づく特徴増強を用いた全スライド画像における多インスタンス学習

StyleAdapter：統一されたスタイライズド画像生成モデル

拡散に基づく深層学習法による超微細構造イメージングと体積電子顕微鏡の拡張