Stable Video Diffusionのモデル種類とライセンスについて
先日リリースされ世界中で話題となった、Stable Video Diffusion。 Stable Diffusionベースで動画が生成できる動画生成AIモデルとして2つのモデルがリリースされました。今回は公開されたモデルの種類の解説と、モデルのライセンスなどについて解説したいと思います。
Stable Video Diffusionについて
Stability AIが、Stable Video Diffusion を公開。画像モデル Stable Diffusion をベースにした動画生成用の初のモデルで単一画像からのマルチビュー合成など、様々なタスクに簡単に適応させることが可能です。詳しい情報は「Stable Video Diffusion のご紹介」からご覧いただけます。
Stable Video Diffusionの2つのモデル
Stable Video Diffusionのモデルデータは、14フレームおよび25フレームを生成できる2種類のモデルがリリースされており、どちらも3~30フレーム/秒のカスタマイズ可能なフレームレートで生成が可能です。
モデルデータについては以下からダウンロードが可能です。
svd(14 frames generation NEED 15GB VRAM)
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid
svd_xt(25 frames generation NEED 18GB VRAM)
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt
SVDモデルデータのライセンスについて
現在、Stable Video Diffusionのモデルデータについては、現段階では、商用アプリケーションでの使用を意図していないとされており、各モデルのライセンスについては、STABLE VIDEO DIFFUSION NON-COMMERCIAL COMMUNITY LICENSE AGREEMENTとなっており、非商用のライセンスとなっております。
LLMなども発表の時点では研究目的のことも多々ありましたので、今後研究が進み、オープンソースでかつ商用利用可能となることを期待しています。
Stable Video Diffusionで動画を生成するには?
SVDはモデルが公開されているだけですので、このモデルを用いた環境を構築する必要があります。次回はwindows環境でStable Video Diffusionの環境を構築する方法については「SVD(Stable-Video-Diffusion)をローカル環境にインストール」をご覧ください。