RVC web UIの機械学習についての学習用データの準備
前回「声の機械学習が短時間で、効率的にできるRVC WebUIをインストール方法まとめ」と言う記事で、RVC web UIのインストールについてまとめましたが、インストールした、RVC web UIを使って、使いたい声を機械学習してモデルデータを創る手前の学習用の素材データについての注意事項などを紹介したいと思います。
まずは音声データの収集
ここが一番面倒かもしれません。自分自身でセミナーや公演などを行っていたり喋る機会があって音声データがあればいいのですが、なかなか自分で原稿読んでというのは大変です。
音声データ著作権の観点で勝手に利用していいというわけではないので、まず試したいという方は著作権がフリーだったりパブリックドメインだったり、権利クリアを意識して素材を探しましょう。また必ず規約などについても確認しましょう。
多くの作業がwavでの作業になるため、最初からwavデータで録音しておくと良いかもしれません。
音声を学習データに最適化
音声素材は可能であれば以下の条件を満たしていると、音声モデルが高品質になると言われています。いくつかの処理はアップデートが進み、RVC web UI内で処理が可能です。
1.モノラルデータ
2.無音が含まれていないデータ
3.ノイズが含まれていないデータ
4.BGMや音楽が流れていない声単体のデータ(RVC内で可能)
5.数秒など短く言葉ごとのファイル分割(RVC内で可能)
1〜3については処理ができないため、音声収集ソフトなどで編集する必要があります。音声加工についてはAudacityが便利です。
Audacity
https://forest.watch.impress.co.jp/library/software/audacity/
モノラルに変更後、ノイズ低減、無音の切り詰めなどが可能です。WAV書き出しも行ってくれます。
音声ファイルの加工ができたら次は音声の学習に進みます。次回は用意した音声ファイルを基に実際モデルデータを生成するところまでをご紹介したいと思います。
※当サイトに掲載されている商標、一部画像、スクリ-ンショット、文章に置いては著作権侵害を目的に利用しておらず、第三十二条で定められる引用の範囲で使用しています。万が一問題があれば、お問い合わせからご連絡ください。即刻削除いたします。また、本ブログは業務の研究開発のためのものとなり、一部、弊社に関連性が無いものも掲載しております。
RVC-beta/RVC webui 最新情報
tazikuでは、少ない素材数で音声を高品質で学習するRVC-beta/RVC webuiの最新情報、機能紹介、様々なTipsを発信中!RVC-beta/RVC webuiに関するまとめ記事、記事一覧は以下のリンクからご覧ください。
生成AI・AIの導入・研修・DXの支援はtazikuへ
生成AI・LLMなど、AIを活用したAIの導入・DXコンサルティング、AI領域の研修・講演などのご相談はお気軽にお問い合わせフォーム、もしくは生成AIソリューションDXAIから、ご相談・お問い合せください。