RVCによる音声学習の改善履歴
「声の機械学習をRVCで実施する方法」という記事で、音声のトレーニング方法について紹介しましたが、今回は、実際に音声データを学習・改善履歴をある程度のレベル感まで持っていった時の学習のパラメーターや結果などの履歴を紹介したいと思います。
もっと良い方法あるとか、こうしたほうが上手くいったという、コメントやアドバイスありましたら「Twitter」のDMなどで教えていただけますとありがたいです。
前提条件
・学習する声は面識のある人間(ご本人にAI学習許可済)
・教師データ:コーパスに基づいたデータ
・歌唱も行える音声データが目標
暫定結果
2023年5月16日時点ではv10からのアップデートの音源でほぼ本人の声を生成できた。現時点ではv11が最も精度が高いものとなっている。引き続き素材データなどの収集や学習モデルのアップデートがあった時点で実験を重ねていきたい。
現時点での課題
かなりキレイな音声収録データを用いても、高音でかすれてしまったり、セリフではなくて呼吸や歌唱限定の表現は少し苦手。また機械音声っぽい一面が出てしまうこともある。
これは異なる学習データを用いれば解決するのか?などを含め引き続き探っていきたい。
実行履歴と精度(上に行くほど最新)
v12
サンプリングレート48K 高音ガイド:是 hervest epoch 100 バッチサイズ4 素材データ 数秒の音声データ500ファイルほど
output
v11とほとんどかわらないが、全く違いがわからないレベル
v11
サンプリングレート48K 高音ガイド:是 hervest epoch 50 バッチサイズ4 素材データ 数秒の音声データ500ファイルほど
output
v10とほとんどかわらないが、わずかに安定した感じがするが、判断がつきづらい。
v10
サンプリングレート48K 高音ガイド: hervest epoch 25 バッチサイズ4 素材データ 数秒の音声データ500ファイルほど
output
アップデートしたら、劇的に精度が上がった、ほぼ本人の声を再現できるようになった。学習方法や効率が変わった可能性。
以降 RVC-4.28版にアップデート
v9
サンプリングレート48K 高音ガイド:是 hervest epoch 5 バッチサイズ4 素材データ 数秒の音声データ500ファイルほど。学習の習熟度をチェック エポック減らしてみる
output
精度は特に上がらず。
v8
サンプリングレート48K 高音ガイド:否 hervest epoch 100 バッチサイズ4 素材データ 数秒の音声データ300ファイル少しファイルを減らして試す 高音ガイドは外す。
output
精度は特に上がらず。
v7
サンプリングレート48K 高音ガイド:否 hervest epoch 100 バッチサイズ4 数秒の音声データ500ファイルほど。高音ガイドは外す。
output
精度は特に上がらず。
v6
サンプリングレート48K 高音ガイド:否 hervest epoch 100 バッチサイズ4 素材データ 数秒の音声データ500ファイルほど
output
かなり本人に近いところまで来ている。過学習な感じはしない
检索特征占比でアクセントの自然さは変わる 0に近いほどアクセントは自然。0-1とあまり再現度変わらない気がする。声の再現性はv5と変わらないけど、声の揺れは少なくなった気がする。
v5
サンプリングレート48K 高音ガイド:否 hervest epoch 50 バッチサイズ4 素材データ 数秒の音声データ200ファイルほど
output
高音ガイド、有り・無しでものすごく変る。 本人には近づいたと思うが音が割れている。
v4
サンプリングレート48K 高音ガイド:是 hervest epoch 100 バッチサイズ8 素材データ 数秒の音声データ200ファイルほど
output
少し本人に近づいた気がする
v3
サンプリングレート48K 高音ガイド:是 hervest epoch 100 バッチサイズ1 素材データ 数秒の音声データ100ファイルほど
output
バッチサイズを極端に下げた、どうなるか?そこまで大きく変わらない
v2
サンプリングレート48K 高音ガイド:是 hervest epoch 100 バッチサイズ8 素材データ 数秒の音声データ100ファイルほど
output
全く似てない声のものが出来上がっ た v1との差はほぼ無い
v1
サンプリングレート48K 高音ガイド 是 hervest epoch 50 バッチサイズ8 素材データ 数秒の音声データ100ファイルほど
output
全く似てない声のものが出来上がった