Azure Custom Neural Voiceで日本語のAIボイスモデルを作成する

本日はAzure調査枠です。

　先日Azure Custom Neural Voiceを見たら今まではPro版でのみ可能であった日本語のトレーニングがLite版でも可能になっていたため早速日本語のAIボイスを作成していきます。

AzureはMicrosoft社が提供するクラウドサービスです。

　仮想マシンからAI、データベースなど様々なサービスを使用することができますが、Azure Custom Neural Voiceは、ある個人の声を学習することで声のDeepFakeとも呼べるようなAIボイスを創り上げることができるサービスです。

Lite版は最低20、最高50の学習データを使用して簡単に声のモデルを作成するバージョンです。

上限数が限られているものの、学習用のデータも表示される文字を読み上げるだけで行えるため素早くAIモデルを構築できます。

トレーニング時間は50個のデータを使用して1時間と少しほどです。

Pro版は業務用に使用を想定されており、スタジオなどで本格的な設備を使用して記録した音声をもとにトレーニングを行うことができます。

Liteに比べより高度なトレーニングが行えるものの後述するMicrosoftに対しての使用申請が最初から必要であったり、トレーニングを行うための準備が大変であったりと、ハードルはやや高いものとなっています。

Azure Custom Neural Voiceはその性質上存在する特定の個人の声を学習させ、利用するため、本人が意図していない発言や、大きく名誉を傷つけること、詐欺などに利用することができてしまいます。

これはDeepFakeと呼ばれ、近年のネット社会においての非常に深刻な問題となることがあります。

　例えば22年のウクライナでのロシアの攻撃に対してのウクライナ大統領、ゼレンスキー氏が自国の民に対して降伏を呼びかけるようなビデオが出回ることや、アメリカのオバマ元大統領による戦争を肯定する発言がDeepFakeとして出回る時間がありました。

　声のAIを作成することで政治利用やスキャンダルの捏造などに使用できてしまうため、Azure Custom Neural Voiceはデフォルトの状態でモデルの確認用に用意されたテキスト以外の、任意のテキストを読ませることができないという制限がかかっています。

　また、トレーニング済みのモデルに関しても学習させた声の本人による声によるモデルの利用に関する許諾を行わない限り90日で削除されます。

　筆者が前回取り組んだ22年6月はトレーニングに使用する学習用音声として英語や中国語は使用できたのですが、日本語はLite版では使用できず、Pro版のみ使用できるものでした。

今回Azure Custom Neural Voiceの更新が行われたようで、Lite版でも日本語のトレーニング用学習音声が使用できるようになりました。

①Azure Speech Studioを開き、[+プロジェクトの作成]を選択します。

②Lite版を選択します。

③プロジェクトの名前や説明などを選択します。またトレーニングデータの言語に日本語を指定します。

　今までは日本語は使用できませんでしたが、最近のアップデートで日本語も選択可能になったようです。

④英語版同様に表示されるテキストを読み上げます。

日本語の場合認識精度が日本語に最適化されていない問題か通常に読み上げても発音で×が出ることがありました。

特にいう（ゆう）、っ、かなどの文字と発音が異なる日本語独自の箇所は認識されずらかったです。

　そのため、『本当、に、そ、う、い、う、こと、が、ある、の、でしょう、か』など文字で区切ってゆっくり発音すると認識されたりしました。

また、文では『人々』とありますが、『人人』と認識されてしまい、逆に『人は』と発音することで正常に認識されたりと使い勝手はまだまだと感じました。

必要数の音声を録音することでトレーニングが行われます。

　トレーニング後の音声と以前作成した英語の音声の比較です。

Unityでの使用自体は以前の記事のコードを使用しています。　

以上で日本語でAzure Custom Neural Voiceが使用できました。

夜風のMixedReality