音楽生成AI「MusicGen(audiocraft)」のモデルによるアウトプットの違いを検証
Metaが開発し、オープンソースとしてリリースされている「MusicGen(audiocraft)」。MusicGenにはいくつかモデルがありますが、今回はそのモデルの違いを、実際に楽曲を生成しながら試してみたいと思います。
モデルの種類
1.melody(1.5B)
テキストプロンプトによる生成指示+参考になる音源が指定可能なモデル
https://youtu.be/jMwonrmEPyk
2.small
300Mのモデル。テキストプロンプトによる生成指示のみで、音源指定はできません。
https://youtu.be/jMwonrmEPyk?t=30
3.medium
1.5Bのモデル。テキストプロンプトによる生成指示のみで、音源指定はできません。
https://youtu.be/jMwonrmEPyk?t=60
4.large
3.3Bのモデル。テキストプロンプトによる生成指示のみで、音源指定はできません。
https://youtu.be/jMwonrmEPyk?t=90
モデルデータは初回指定時に自動でダウンロードされるため別途用意する必要はありません。これらのモデルデータの違いを理解するために、同一のプロンプトで30秒の音楽を生成してみます。
生成に利用したプロンプト
アンビエントミュージックとネオクラシカルの要素を組み合わせたスタイリッシュな曲を作ってください。
Create a stylish song that combines elements of ambient music and neo-classical music
こうして同一プロンプトで聴き比べてみると、明らかにモデルのサイズによって音の厚みが異なる感じがします。適切なモデルを選択して理想の音楽を生成してみましょう。