• TOP
  • NEWS
  • ABOUT
  • SERVICE
  • WORKS
  • PROJECT
  • BLOG
  • CONTACT
taziku
  • TOP
  • NEWS
  • ABOUT
  • SERVICE
  • WORKS
  • PROJECT
  • BLOG
  • CONTACT

音声学習・再現のGPT-SoVITS トレーニング・推論編

2024年1月25日
AI BLOG Technology
GPT-SoVITS 生成AI

わずか5秒の音声データがあれば、声を再現でき、なおかつ多言語にも変換可能なTTS、GPT-SoVITSを試しながら、その設定方法などをまとめていきたいと思います。今回はトレーニング・推論編。

インストール編は「音声学習・再現のGPT-SoVITS インストール編」をご覧ください。

GPT-SoVITSの特徴

ゼロショットでTTS
5秒のボイスサンプルがあれば音声変換可能

ファーショットTTS
1分のトレーニングデータでモデルをファインチューニングし、声の類似性をさらい向上

クロスリンガル
トレーニングセットとは異なる言語で推論し英語、日本語、中国語に変換

WebUI ツール
統合されたツールには、音声伴奏の分離、トレーニングセットの自動セグメンテーション、中国語 ASR、テキストラベリングが含まれ、初心者がトレーニングデータセットと GPT/SoVITS モデルを作成するのを支援。

起動

GPT-SoVITSフォルダ内のgo-webui.batをダブルクリックで起動します。その後「1-GPT-SoVITS-TTS」のタブを開き、さらに「1-C推論」タブを開き、下部の「TTS推理WebUIを開始しますか?」をチェックを入れます。しばらく待つと、ブラウザの別タブが開き以下のような画面が表示されれば推論の準備は完了です。

推論

参考音声をアップロード、音声のテキストを転記、合成するテキストを入力して音声合成を行えば音声が合成されます。

今回はサンプルを制作する上で、「つくよみちゃんコーパス│声優統計コーパス(JVSコーパス準拠)」というフリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。を利用させていただきました。

推論結果は?

わずか8秒の音声から生成されたとは思えない、超高精度な再現となりました。これは様々なコンテンツに利用できそうです。

GPT-SoVITS
https://github.com/RVC-Boss/GPT-SoVITS

※当サイトに掲載されている商標、一部画像、スクリ-ンショット、文章に置いては著作権侵害を目的に利用しておらず、第三十二条で定められる引用の範囲で使用しています。万が一問題があれば、お問い合わせからご連絡ください。即刻削除いたします。また、本ブログは業務の研究開発のためのものとなり、一部、弊社に関連性が無いものも掲載しております。

AIの最新情報を随時発信中

Xやnoteでは、AI・生成AI・LLMなどの最新情報や、ChatGPTやMidjourneyのプロンプトテクニックを連載中!フォローよろしくお願いします。

生成AI・AIの導入・研修・DXの支援はtazikuへ

生成AI・LLMなど、AIを活用したAIの導入・DXコンサルティング、AI領域の研修・講演などのご相談はお気軽にお問い合わせフォーム、もしくは生成AIソリューションAI CREATIVE BASEから、ご相談・お問い合せください。

PREV 音声学習・再現のGPT-SoVITS インストール編
NEXT MidJourney v6で「OutZoom」を試す
Related Post
価格から機能までChatGPTの有料版ChatGPT Plusについて調査
MidJourney v6で「Vary(Region)」を試す
小さなクリエイティブスタジオのWEBサイトの情報設計/整理
ChatGPTでプログラム:Three.jsでクリエイティブコーディング
Novel AIのストーリーテラーで物語を書いてみる
ChatGPTプロンプトINDEX note連載終了|100個のプロンプトを作成してみて
Related Post
進化するMidjourney v7が描く次世代のAI画像生成
Claude 3.5の新機能 新モデル登場とPC操作機能
Claude 3 の連鎖プロンプト「プロンプトチェーン」を試す
Claude 3 で画像をピクセル化するプログラムを生成
Claude 3で登場人物の会話を生成する
Claude 3 でXMLタグを利用する

« PREV

Back to list

NEXT »

  • 投稿検索

  • ABOUT US?

    tazikuは東京・名古屋を拠点に活動するクリエイティブスタジオです。
    AI・生成AI・LLMとクリエイティブを掛け合わせ、新しいクリエイティブを提供します。
    Works
    Service
    Contact
  • AI CREATIVE BASE

    デザイン、ビジュアル、音声、空間演出。生成AIでクリエイティブワークフローに革新を与え、ビジネスの成果を最大化します。

    詳細を見る

  • MENU

    • BLOG
      • Think
      • Creative
      • Technology
        • AI
        • メタバース
    • Project
      • AIアニメプロジェクト
      • どうくつたんけん
  • NEW POST

    • 進化するMidjourney v7が描く次世代のAI画像生成
    • Claude 3.5の新機能 新モデル登場とPC操作機能
    • Claude 3 の連鎖プロンプト「プロンプトチェーン」を試す
    • Claude 3 で画像をピクセル化するプログラムを生成
    • Claude 3で登場人物の会話を生成する
© 2021 taziku / 株式会社タジク Based in Tokyo and Nagoya | プライバシーポリシー