音楽生成AI「MusicGen（audiocraft）」のモデルによるアウトプットの違いを検証

2023年7月6日
AI All Technology

Metaが開発し、オープンソースとしてリリースされている「MusicGen（audiocraft）」。MusicGenにはいくつかモデルがありますが、今回はそのモデルの違いを、実際に楽曲を生成しながら試してみたいと思います。

モデルの種類

1.melody（1.5B）
テキストプロンプトによる生成指示＋参考になる音源が指定可能なモデル
https://youtu.be/jMwonrmEPyk

2.small
300Mのモデル。テキストプロンプトによる生成指示のみで、音源指定はできません。
https://youtu.be/jMwonrmEPyk?t=30

3.medium
1.5Bのモデル。テキストプロンプトによる生成指示のみで、音源指定はできません。
https://youtu.be/jMwonrmEPyk?t=60

4.large
3.3Bのモデル。テキストプロンプトによる生成指示のみで、音源指定はできません。
https://youtu.be/jMwonrmEPyk?t=90

モデルデータは初回指定時に自動でダウンロードされるため別途用意する必要はありません。これらのモデルデータの違いを理解するために、同一のプロンプトで30秒の音楽を生成してみます。

アンビエントミュージックとネオクラシカルの要素を組み合わせたスタイリッシュな曲を作ってください。
Create a stylish song that combines elements of ambient music and neo-classical music

こうして同一プロンプトで聴き比べてみると、明らかにモデルのサイズによって音の厚みが異なる感じがします。適切なモデルを選択して理想の音楽を生成してみましょう。