LaVie: カスケード潜在拡散モデルを用いた高品質ビデオ生成

LaVie: カスケード潜在拡散モデルを用いた高品質ビデオ生成

カスケード潜在拡散モデルに基づく高品質ビデオ生成:LaVie 学術的背景 近年、拡散モデル(Diffusion Models, DMs)が画像生成分野で画期的な進展を遂げる中、テキストから画像(Text-to-Image, T2I)生成技術は大きな成功を収めています。しかし、この技術をテキストからビデオ(Text-to-Video, T2V)生成に拡張することは、依然として多くの課題を抱えています。ビデオ生成では、視覚的にリアルな画像を生成するだけでなく、時間的な一貫性を保ちつつ、事前学習されたT2Iモデルの創造的な生成能力を維持する必要があります。既存のT2V生成手法は、ゼロからシステム全体を訓練することを前提としており、これには膨大な計算リソースが必要であり、ビデオ品質、訓練コスト、モデ...