RVC web UIの機械学習についての学習用データの準備

2023年4月27日
AI BLOG Technology

前回「声の機械学習が短時間で、効率的にできるRVC WebUIをインストール方法まとめ」と言う記事で、RVC web UIのインストールについてまとめましたが、インストールした、RVC web UIを使って、使いたい声を機械学習してモデルデータを創る手前の学習用の素材データについての注意事項などを紹介したいと思います。

まずは音声データの収集

ここが一番面倒かもしれません。自分自身でセミナーや公演などを行っていたり喋る機会があって音声データがあればいいのですが、なかなか自分で原稿読んでというのは大変です。

音声データ著作権の観点で勝手に利用していいというわけではないので、まず試したいという方は著作権がフリーだったりパブリックドメインだったり、権利クリアを意識して素材を探しましょう。また必ず規約などについても確認しましょう。

多くの作業がwavでの作業になるため、最初からwavデータで録音しておくと良いかもしれません。

音声を学習データに最適化

音声素材は可能であれば以下の条件を満たしていると、音声モデルが高品質になると言われています。いくつかの処理はアップデートが進み、RVC web UI内で処理が可能です。

1.モノラルデータ
2.無音が含まれていないデータ
3.ノイズが含まれていないデータ
4.BGMや音楽が流れていない声単体のデータ（RVC内で可能）
5.数秒など短く言葉ごとのファイル分割（RVC内で可能）

1〜3については処理ができないため、音声収集ソフトなどで編集する必要があります。音声加工についてはAudacityが便利です。

Audacity
https://forest.watch.impress.co.jp/library/software/audacity/

モノラルに変更後、ノイズ低減、無音の切り詰めなどが可能です。WAV書き出しも行ってくれます。

音声ファイルの加工ができたら次は音声の学習に進みます。次回は用意した音声ファイルを基に実際モデルデータを生成するところまでをご紹介したいと思います。

Stable Diffusion web UI v1.6がリリース新機能まとめ

「GPTs」や「Assistants」で利用する最適なKnowledgeファイル

ChatGPTのブラウジングモードを使って、最新の情報を参照

Clip skipをStable Diffusion WebUIで設定する

ControlNet – Normal Mapの特性や使い方を解説 / Stable Diffusion web UI

ChatGPT/OpenAIで問題が発生した場合に見ておくべき3つのサイト

進化するMidjourney v7が描く次世代のAI画像生成

Claude 3.5の新機能新モデル登場とPC操作機能

Claude 3 の連鎖プロンプト「プロンプトチェーン」を試す

Claude 3 で画像をピクセル化するプログラムを生成

Claude 3で登場人物の会話を生成する

Claude 3 でXMLタグを利用する

Back to list

投稿検索
ABOUT US?

tazikuは東京・名古屋を拠点に活動するクリエイティブスタジオです。

AI・生成AI・LLMとクリエイティブを掛け合わせ、新しいクリエイティブを提供します。

Works

Service

Contact
AI CREATIVE BASE

デザイン、ビジュアル、音声、空間演出。生成AIでクリエイティブワークフローに革新を与え、ビジネスの成果を最大化します。

詳細を見る
MENU
- BLOG
  - Think
  - Creative
  - Technology
    - AI
    - メタバース
- Project
  - AIアニメプロジェクト
  - どうくつたんけん
NEW POST