Moonshot:モーションを意識したマルチモーダル条件による制御可能なビデオ生成と編集

MoonShot——運動認識マルチモーダル条件に基づく制御可能なビデオ生成と編集への一歩 研究背景と問題提起 近年、テキストからビデオへの拡散モデル(Video Diffusion Models, VDMs)は顕著な進展を遂げ、高品質で視覚的に魅力的なビデオの生成が可能になりました。しかし、既存のVDMの多くはテキスト条件に依存しており、視覚コンテンツを正確に記述する能力には限界があります。具体的には、これらの手法は通常、生成されたビデオの外観や幾何学的構造に対する細かい制御が困難であり、結果としてランダム性や偶然性に大きく依存しています。 この問題を解決するために、研究者たちは微調整拡散モデル(例:DreamBooth)を通じてパーソナライズされた生成を試みましたが、この方法では各入力画像...

LaVie: カスケード潜在拡散モデルを用いた高品質ビデオ生成

LaVie: カスケード潜在拡散モデルを用いた高品質ビデオ生成

カスケード潜在拡散モデルに基づく高品質ビデオ生成:LaVie 学術的背景 近年、拡散モデル(Diffusion Models, DMs)が画像生成分野で画期的な進展を遂げる中、テキストから画像(Text-to-Image, T2I)生成技術は大きな成功を収めています。しかし、この技術をテキストからビデオ(Text-to-Video, T2V)生成に拡張することは、依然として多くの課題を抱えています。ビデオ生成では、視覚的にリアルな画像を生成するだけでなく、時間的な一貫性を保ちつつ、事前学習されたT2Iモデルの創造的な生成能力を維持する必要があります。既存のT2V生成手法は、ゼロからシステム全体を訓練することを前提としており、これには膨大な計算リソースが必要であり、ビデオ品質、訓練コスト、モデ...