RVC web UIの機械学習についての学習用データの準備
前回「声の機械学習が短時間で、効率的にできるRVC WebUIをインストール方法まとめ」と言う記事で、RVC web UIのインストールについてまとめましたが、インストールした、RVC web UIを使って、使いたい声を機械学習してモデルデータを創る手前の学習用の素材データについての注意事項などを紹介したいと思います。
まずは音声データの収集
ここが一番面倒かもしれません。自分自身でセミナーや公演などを行っていたり喋る機会があって音声データがあればいいのですが、なかなか自分で原稿読んでというのは大変です。
音声データ著作権の観点で勝手に利用していいというわけではないので、まず試したいという方は著作権がフリーだったりパブリックドメインだったり、権利クリアを意識して素材を探しましょう。また必ず規約などについても確認しましょう。
多くの作業がwavでの作業になるため、最初からwavデータで録音しておくと良いかもしれません。
音声を学習データに最適化
音声素材は可能であれば以下の条件を満たしていると、音声モデルが高品質になると言われています。いくつかの処理はアップデートが進み、RVC web UI内で処理が可能です。
1.モノラルデータ
2.無音が含まれていないデータ
3.ノイズが含まれていないデータ
4.BGMや音楽が流れていない声単体のデータ(RVC内で可能)
5.数秒など短く言葉ごとのファイル分割(RVC内で可能)
1〜3については処理ができないため、音声収集ソフトなどで編集する必要があります。音声加工についてはAudacityが便利です。
Audacity
https://forest.watch.impress.co.jp/library/software/audacity/
モノラルに変更後、ノイズ低減、無音の切り詰めなどが可能です。WAV書き出しも行ってくれます。
音声ファイルの加工ができたら次は音声の学習に進みます。次回は用意した音声ファイルを基に実際モデルデータを生成するところまでをご紹介したいと思います。