• TOP
  • NEWS
  • ABOUT
  • SERVICE
  • WORKS
  • PROJECT
  • BLOG
  • CONTACT
taziku
  • TOP
  • NEWS
  • ABOUT
  • SERVICE
  • WORKS
  • PROJECT
  • BLOG
  • CONTACT

日本語セリフも読める音声AI「Style-Bert-VITS2」で音声合成を試す

2024年2月17日
AI BLOG Technology
StyleBertVITS2 生成AI

先日、「日本語セリフも読める音声合成AI「Style-Bert-VITS2」をインストール」と言う記事で、Style-Bert-VITS2のインストール方法について紹介しましたが、今回はStyle-Bert-VITS2を利用して音声合成を行う手順をまとめていきたいと思います。

Style-Bert-VITS2を起動

Style-Bert-VITS2をインストール時には自動的に立ち上がってきましたが、2回目以降の起動は「Style-Bert-VITS2」フォルダ内の「App.bat」を実行して起動します。

「App.bat」を実行した後に表示される、 local URLをクリックすれば起動が完了です。

音声のモデルを選択・ロード

起動したら、音声モデルを選択しロードします。ディフォルトでは、4種類のモデルが用意されており、jvnv-F1-jp、jvnv-F2-jpが女性、jvnv-M1-jp、jvnv-M2-jpが男性となります。UIにも記載されていますが、初期からあるjvnvのモデルは、JVNVコーパス(言語音声と非言語音声を持つ日本語感情音声コーパス)で学習されたモデルです。ライセンスはCC BY-SA 4.0となりますのでご注意ください。

読み込みたいモデルが決まったらロードボタンを押してモデルをセットします。

読み上げたいテキストを入力

読み上げるセリフはテキストボックスに入力します。特別なことはありませんが、改行で分けて生成にチェックをいれておくとより感情を載せて読み上げてくれます。

スタイルの設定

画面右側でスタイルについて調整可能です。プリセットまたは音声ファイルから読み上げの声音・感情・スタイルのようなものを制御できます。デフォルトのNeutralでも、十分に読み上げる文に応じた感情で感情豊かに読み上げが可能です。

強さを大きくしすぎると発音が変になったり声にならなかったりと崩壊することがあり、どのくらいに強さがいいかはモデルやスタイルによって異なるようです。音声ファイルを入力する場合は、学習データと似た声音の話者(特に同じ性別)でないとよい効果が出ないとも記載されています。

プリセットは以下の7つがセットされています。

・Neutral
・Angry
・Disgust
・Fear
・Happy
・Sad
・Surprise

音声合成

ここまでセットができたら、あとは音声合成ボタンを押すだけです。4090の環境では1行程度だと数秒で合成が完了します。音声ファイルは書き出すことも可能でダウンロードボタンを押せばwav形式で保存可能です。

Style-Bert-VITS2
https://github.com/litagin02/Style-Bert-VITS2

※当サイトに掲載されている商標、一部画像、スクリ-ンショット、文章に置いては著作権侵害を目的に利用しておらず、第三十二条で定められる引用の範囲で使用しています。万が一問題があれば、お問い合わせからご連絡ください。即刻削除いたします。また、本ブログは業務の研究開発のためのものとなり、一部、弊社に関連性が無いものも掲載しております。

AIの最新情報を随時発信中

Xやnoteでは、AI・生成AI・LLMなどの最新情報や、ChatGPTやMidjourneyのプロンプトテクニックを連載中!フォローよろしくお願いします。

生成AI・AIの導入・研修・DXの支援はtazikuへ

生成AI・LLMなど、AIを活用したAIの導入・DXコンサルティング、AI領域の研修・講演などのご相談はお気軽にお問い合わせフォーム、もしくは生成AIソリューションAI CREATIVE BASEから、ご相談・お問い合せください。

PREV 日本語セリフも読める音声合成AI「Style-Bert-VITS2」をインストール
NEXT 「アイノサキ」の二次創作ガイドラインを制定 AI学習用の素材データも配布
Related Post
令和5年度著作権セミナーを受けてのAIと著作権まとめ
New Bing/AI Chat にジェネレーティブAIについて色々質問してきた
Midjourney v5のパラメータについてまとめ
ChatGPTのGPT-4の知識範囲が2022年1月までにアップデートされたので検証してみた
GPT4に進化したChatGPTにメタバースについて色々質問してきた
映像からDansePoseを抽出できる「Vid2DensePose」
Related Post
進化するMidjourney v7が描く次世代のAI画像生成
Claude 3.5の新機能 新モデル登場とPC操作機能
Claude 3 の連鎖プロンプト「プロンプトチェーン」を試す
Claude 3 で画像をピクセル化するプログラムを生成
Claude 3で登場人物の会話を生成する
Claude 3 でXMLタグを利用する

« PREV

Back to list

NEXT »

  • 投稿検索

  • ABOUT US?

    tazikuは東京・名古屋を拠点に活動するクリエイティブスタジオです。
    AI・生成AI・LLMとクリエイティブを掛け合わせ、新しいクリエイティブを提供します。
    Works
    Service
    Contact
  • AI CREATIVE BASE

    デザイン、ビジュアル、音声、空間演出。生成AIでクリエイティブワークフローに革新を与え、ビジネスの成果を最大化します。

    詳細を見る

  • MENU

    • BLOG
      • Think
      • Creative
      • Technology
        • AI
        • メタバース
    • Project
      • AIアニメプロジェクト
      • どうくつたんけん
  • NEW POST

    • 進化するMidjourney v7が描く次世代のAI画像生成
    • Claude 3.5の新機能 新モデル登場とPC操作機能
    • Claude 3 の連鎖プロンプト「プロンプトチェーン」を試す
    • Claude 3 で画像をピクセル化するプログラムを生成
    • Claude 3で登場人物の会話を生成する
© 2021 taziku / 株式会社タジク Based in Tokyo and Nagoya | プライバシーポリシー