音声学習・再現のGPT-SoVITS トレーニング・推論編
わずか5秒の音声データがあれば、声を再現でき、なおかつ多言語にも変換可能なTTS、GPT-SoVITSを試しながら、その設定方法などをまとめていきたいと思います。今回はトレーニング・推論編。
インストール編は「音声学習・再現のGPT-SoVITS インストール編」をご覧ください。
GPT-SoVITSの特徴
ゼロショットでTTS
5秒のボイスサンプルがあれば音声変換可能
ファーショットTTS
1分のトレーニングデータでモデルをファインチューニングし、声の類似性をさらい向上
クロスリンガル
トレーニングセットとは異なる言語で推論し英語、日本語、中国語に変換
WebUI ツール
統合されたツールには、音声伴奏の分離、トレーニングセットの自動セグメンテーション、中国語 ASR、テキストラベリングが含まれ、初心者がトレーニングデータセットと GPT/SoVITS モデルを作成するのを支援。
起動
GPT-SoVITSフォルダ内のgo-webui.batをダブルクリックで起動します。その後「1-GPT-SoVITS-TTS」のタブを開き、さらに「1-C推論」タブを開き、下部の「TTS推理WebUIを開始しますか?」をチェックを入れます。しばらく待つと、ブラウザの別タブが開き以下のような画面が表示されれば推論の準備は完了です。
推論
参考音声をアップロード、音声のテキストを転記、合成するテキストを入力して音声合成を行えば音声が合成されます。
今回はサンプルを制作する上で、「つくよみちゃんコーパス│声優統計コーパス(JVSコーパス準拠)」というフリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。を利用させていただきました。
推論結果は?
わずか8秒の音声から生成されたとは思えない、超高精度な再現となりました。これは様々なコンテンツに利用できそうです。
GPT-SoVITS
https://github.com/RVC-Boss/GPT-SoVITS
生成AI・AIの導入・研修・DXの支援はtazikuへ
生成AI・LLMなど、AIを活用したAIの導入・DXコンサルティング、AI領域の研修・講演などのご相談はお気軽にお問い合わせフォーム、もしくは生成AIソリューションDXAIから、ご相談・お問い合せください。
※当サイトに掲載されている商標、一部画像、スクリ-ンショット、文章に置いては著作権侵害を目的に利用しておらず、第三十二条で定められる引用の範囲で使用しています。万が一問題があれば、お問い合わせからご連絡ください。即刻削除いたします。また、本ブログは業務の研究開発のためのものとなり、一部、弊社に関連性が無いものも掲載しております。