Moonshot:モーションを意識したマルチモーダル条件による制御可能なビデオ生成と編集

MoonShot——運動認識マルチモーダル条件に基づく制御可能なビデオ生成と編集への一歩 研究背景と問題提起 近年、テキストからビデオへの拡散モデル(Video Diffusion Models, VDMs)は顕著な進展を遂げ、高品質で視覚的に魅力的なビデオの生成が可能になりました。しかし、既存のVDMの多くはテキスト条件に依存しており、視覚コンテンツを正確に記述する能力には限界があります。具体的には、これらの手法は通常、生成されたビデオの外観や幾何学的構造に対する細かい制御が困難であり、結果としてランダム性や偶然性に大きく依存しています。 この問題を解決するために、研究者たちは微調整拡散モデル(例:DreamBooth)を通じてパーソナライズされた生成を試みましたが、この方法では各入力画像...