RVCを利用して学習した音声モデルの使い方を解説
「声の機械学習をRVCで実施する方法」という記事でRVCを使った音声学習についてお伝えしましたが、今回は生成した音声モデルを利用して学習された音声を使う方法を紹介します。
大きく分けて、既存の音声から音声モデルを使って推論する形と、リアルタイムにボイスチェンジャーを利用して音声変換する方法がありますが、今回はまず、既存の音声データを書き換える方法をご紹介します。
※RVC v2についての解説は「音声学習のRVCに、新たな学習モデルRVC v2が追加」をご覧ください。
RVCを起動しモデル推論タブを選択
1.モデルデータの読み込み
普通に起動すると、「モデル推論」タブになっていると思います。ここで右上の音源推論に生成した音声モデルを選択します。特にフォルダ構成などは意識せず、RVCで学習を行っているのであれば、自動的に読み込まれます。もし学習してすぐに利用したい場合は、音源リストを更新を押すとモデルデータを読み込んでくれます。
2.ピッチの変更
ピッチについてはベースの音源と学習モデルの声によって調整になりますが、同性間の変換の場合は、そこまで大きく触らずで問題ないですが、男性→女性と変換する場合は+12キーと大きく設定する必要があります。
3.変換する音声を指定
変換する元のデータを指定します。パスをコピーしてコピペすればOKです。ディフォルトで例が表示されています。シンプルに音声データのパスをコピーすればOKです。
4.ピッチ抽出のアルゴリズムを選択
「pm」か「harvest」を選択します。歌唱などは「pm」で変換しないとうまくいきませんでした。音声の声質によって変更してみましょう。
5.特徴量検索データベースのファイルパス
こちらは選択してもしなくても音声変換は可能ですが、学習した際に同時に出力される.indexファイルへのパスを設定しましょう。
6.检索特征占比
大きいとモデルの声に近くなる代わり、に滑舌などが悪くなります。推論する元データに応じて変更してみるのが良いと思います。一定のリズムでの読み原稿などではそこまで高くする必要はありません。
7.変換
変換ボタンを押せば変換が開始され、出力音声欄に音声が出力されます。ダウンロードも可能なので上手く行ったファイルがあればダウンロードしておきましょう。
次回はリアルタイムに音声を変換する方法について解説したいと思います。
※当サイトに掲載されている商標、一部画像、スクリ-ンショット、文章に置いては著作権侵害を目的に利用しておらず、第三十二条で定められる引用の範囲で使用しています。万が一問題があれば、お問い合わせからご連絡ください。即刻削除いたします。また、本ブログは業務の研究開発のためのものとなり、一部、弊社に関連性が無いものも掲載しております。
RVC-beta/RVC webui 最新情報
tazikuでは、少ない素材数で音声を高品質で学習するRVC-beta/RVC webuiの最新情報、機能紹介、様々なTipsを発信中!RVC-beta/RVC webuiに関するまとめ記事、記事一覧は以下のリンクからご覧ください。
生成AI・AIの導入・研修・DXの支援はtazikuへ
生成AI・LLMなど、AIを活用したAIの導入・DXコンサルティング、AI領域の研修・講演などのご相談はお気軽にお問い合わせフォーム、もしくは生成AIソリューションDXAIから、ご相談・お問い合せください。