• TOP
  • NEWS
  • ABOUT
  • SERVICE
  • WORKS
  • PROJECT
  • BLOG
  • CONTACT
taziku
  • TOP
  • NEWS
  • ABOUT
  • SERVICE
  • WORKS
  • PROJECT
  • BLOG
  • CONTACT

RVCによる音声学習の改善履歴

2023年5月16日
AI BLOG Technology
RVC ジェネレーティブAI

「声の機械学習をRVCで実施する方法」という記事で、音声のトレーニング方法について紹介しましたが、今回は、実際に音声データを学習・改善履歴をある程度のレベル感まで持っていった時の学習のパラメーターや結果などの履歴を紹介したいと思います。

もっと良い方法あるとか、こうしたほうが上手くいったという、コメントやアドバイスありましたら「Twitter」のDMなどで教えていただけますとありがたいです。

前提条件

・学習する声は面識のある人間(ご本人にAI学習許可済)
・教師データ:コーパスに基づいたデータ
・歌唱も行える音声データが目標

暫定結果

2023年5月16日時点ではv10からのアップデートの音源でほぼ本人の声を生成できた。現時点ではv11が最も精度が高いものとなっている。引き続き素材データなどの収集や学習モデルのアップデートがあった時点で実験を重ねていきたい。

現時点での課題

かなりキレイな音声収録データを用いても、高音でかすれてしまったり、セリフではなくて呼吸や歌唱限定の表現は少し苦手。また機械音声っぽい一面が出てしまうこともある。

これは異なる学習データを用いれば解決するのか?などを含め引き続き探っていきたい。

実行履歴と精度(上に行くほど最新)

v12

サンプリングレート48K 高音ガイド:是 hervest epoch 100 バッチサイズ4 素材データ 数秒の音声データ500ファイルほど

output
v11とほとんどかわらないが、全く違いがわからないレベル

v11

サンプリングレート48K 高音ガイド:是 hervest epoch 50 バッチサイズ4 素材データ 数秒の音声データ500ファイルほど

output
v10とほとんどかわらないが、わずかに安定した感じがするが、判断がつきづらい。

v10

サンプリングレート48K 高音ガイド: hervest epoch 25 バッチサイズ4 素材データ 数秒の音声データ500ファイルほど

output
アップデートしたら、劇的に精度が上がった、ほぼ本人の声を再現できるようになった。学習方法や効率が変わった可能性。

以降 RVC-4.28版にアップデート

v9

サンプリングレート48K 高音ガイド:是 hervest epoch 5 バッチサイズ4 素材データ 数秒の音声データ500ファイルほど。学習の習熟度をチェック エポック減らしてみる

output
精度は特に上がらず。

v8

サンプリングレート48K 高音ガイド:否 hervest epoch 100 バッチサイズ4 素材データ 数秒の音声データ300ファイル少しファイルを減らして試す 高音ガイドは外す。

output
精度は特に上がらず。

v7

サンプリングレート48K 高音ガイド:否 hervest epoch 100 バッチサイズ4 数秒の音声データ500ファイルほど。高音ガイドは外す。

output
精度は特に上がらず。

v6

サンプリングレート48K 高音ガイド:否 hervest epoch 100 バッチサイズ4 素材データ 数秒の音声データ500ファイルほど

output
かなり本人に近いところまで来ている。過学習な感じはしない
检索特征占比でアクセントの自然さは変わる 0に近いほどアクセントは自然。0-1とあまり再現度変わらない気がする。声の再現性はv5と変わらないけど、声の揺れは少なくなった気がする。

v5

サンプリングレート48K 高音ガイド:否 hervest epoch 50 バッチサイズ4 素材データ 数秒の音声データ200ファイルほど

output
高音ガイド、有り・無しでものすごく変る。 本人には近づいたと思うが音が割れている。

v4

サンプリングレート48K 高音ガイド:是 hervest epoch 100 バッチサイズ8 素材データ 数秒の音声データ200ファイルほど

output
少し本人に近づいた気がする

v3

サンプリングレート48K 高音ガイド:是 hervest epoch 100 バッチサイズ1 素材データ 数秒の音声データ100ファイルほど

output
バッチサイズを極端に下げた、どうなるか?そこまで大きく変わらない

v2

サンプリングレート48K 高音ガイド:是 hervest epoch 100 バッチサイズ8 素材データ 数秒の音声データ100ファイルほど

output
全く似てない声のものが出来上がっ た v1との差はほぼ無い

v1

サンプリングレート48K 高音ガイド 是 hervest epoch 50 バッチサイズ8 素材データ 数秒の音声データ100ファイルほど

output
全く似てない声のものが出来上がった

※当サイトに掲載されている商標、一部画像、スクリ-ンショット、文章に置いては著作権侵害を目的に利用しておらず、第三十二条で定められる引用の範囲で使用しています。万が一問題があれば、お問い合わせからご連絡ください。即刻削除いたします。また、本ブログは業務の研究開発のためのものとなり、一部、弊社に関連性が無いものも掲載しております。

RVC-beta/RVC webui 最新情報

tazikuでは、少ない素材数で音声を高品質で学習するRVC-beta/RVC webuiの最新情報、機能紹介、様々なTipsを発信中!RVC-beta/RVC webuiに関するまとめ記事、記事一覧は以下のリンクからご覧ください。

RVC-beta/RVC webui関連記事まとめ

RVC-beta記事一覧

RVC webui記事一覧

AIの最新情報を随時発信中

Xやnoteでは、AI・生成AI・LLMなどの最新情報や、ChatGPTやMidjourneyのプロンプトテクニックを連載中!フォローよろしくお願いします。

生成AI・AIの導入・研修・DXの支援はtazikuへ

生成AI・LLMなど、AIを活用したAIの導入・DXコンサルティング、AI領域の研修・講演などのご相談はお気軽にお問い合わせフォーム、もしくは生成AIソリューションAI CREATIVE BASEから、ご相談・お問い合せください。

PREV ChatGPT3.5、GPT4、Bardに同一の質問を投げかけて比較
NEXT 誰でも簡単にAIで楽曲が生成可能な「SongR」
Related Post
画像生成AI「Midjourney(ミッドジャーニー)」を使って店舗デザインしてみた
ComfyUI AnimateDiff×ControlNetでアニメの中割りを創る
Bing AIチャットとChatGPTと考えるWEBサイト戦略
画像生成AI「MidJourney」がv6にアップデート
Midjourney(ミッドジャーニー)でロゴマーク制作に挑戦
Midjourney パラメータで画角を調整する方法
Related Post
進化するMidjourney v7が描く次世代のAI画像生成
Claude 3.5の新機能 新モデル登場とPC操作機能
Claude 3 の連鎖プロンプト「プロンプトチェーン」を試す
Claude 3 で画像をピクセル化するプログラムを生成
Claude 3で登場人物の会話を生成する
Claude 3 でXMLタグを利用する

« PREV

Back to list

NEXT »

  • 投稿検索

  • ABOUT US?

    tazikuは東京・名古屋を拠点に活動するクリエイティブスタジオです。
    AI・生成AI・LLMとクリエイティブを掛け合わせ、新しいクリエイティブを提供します。
    Works
    Service
    Contact
  • AI CREATIVE BASE

    デザイン、ビジュアル、音声、空間演出。生成AIでクリエイティブワークフローに革新を与え、ビジネスの成果を最大化します。

    詳細を見る

  • MENU

    • BLOG
      • Think
      • Creative
      • Technology
        • AI
        • メタバース
    • Project
      • AIアニメプロジェクト
      • どうくつたんけん
  • NEW POST

    • 進化するMidjourney v7が描く次世代のAI画像生成
    • Claude 3.5の新機能 新モデル登場とPC操作機能
    • Claude 3 の連鎖プロンプト「プロンプトチェーン」を試す
    • Claude 3 で画像をピクセル化するプログラムを生成
    • Claude 3で登場人物の会話を生成する
© 2021 taziku / 株式会社タジク Based in Tokyo and Nagoya | プライバシーポリシー