音声学習・再現のGPT-SoVITS　トレーニング・推論編

2024年1月25日
AI BLOG Technology

GPT-SoVITS 生成AI

わずか5秒の音声データがあれば、声を再現でき、なおかつ多言語にも変換可能なTTS、GPT-SoVITSを試しながら、その設定方法などをまとめていきたいと思います。今回はトレーニング・推論編。

インストール編は「音声学習・再現のGPT-SoVITS　インストール編」をご覧ください。

GPT-SoVITSの特徴

ゼロショットでTTS
5秒のボイスサンプルがあれば音声変換可能

ファーショットTTS
1分のトレーニングデータでモデルをファインチューニングし、声の類似性をさらい向上

クロスリンガル
トレーニングセットとは異なる言語で推論し英語、日本語、中国語に変換

WebUI ツール
統合されたツールには、音声伴奏の分離、トレーニングセットの自動セグメンテーション、中国語 ASR、テキストラベリングが含まれ、初心者がトレーニングデータセットと GPT/SoVITS モデルを作成するのを支援。

起動

GPT-SoVITSフォルダ内のgo-webui.batをダブルクリックで起動します。その後「1-GPT-SoVITS-TTS」のタブを開き、さらに「1-C推論」タブを開き、下部の「TTS推理WebUIを開始しますか？」をチェックを入れます。しばらく待つと、ブラウザの別タブが開き以下のような画面が表示されれば推論の準備は完了です。