夜風のMixedReality

xRと出会って変わった人生と出会った技術を書き残すためのGeekなHoloRangerの居場所

Azure Custom neural Voice で声のDeepFakeを作る

本日はAzure AI学習枠です。

Azureでは様々なサービスが展開されていますが、今回はAzure Cognitive ServicesSpeech ServiceからAzure Custom neural Voiceを触っていきます。

〇Azure Cognitive Services

Azure Cognitive ServicesはAzureの提供するAIサービス群で、主に次のカテゴリーで構築済みのモデルを使用することで、開発者はゼロからモデルを構築することなくAIの機能を使用することができます。

・視覚

・音声

・言語

・Decision

docs.microsoft.com

Azure Custom neural VoiceSpeech(音声)サービスで提供されているサービスで、アプリケーション内で使用できる文字読み上げの音声をカスタマイズする機能です。

 Azure Custom neural Voiceを使用することでiPhoneのSiriなどのような音声読み上げの機械ボイスを自身もしくはボイスタレントの声に使用することができます。

〇Azure Custom neural Voiceの使用

Custom Voiceのページへアクセスします。

speech.microsoft.com

ここではサンプルを聞くことができます。

②Azureのアカウントでサインインを行いSpeechStudioからCustom Voiceを選択します。

この際Azureのリソースグループに紐づけるor新たにリソースグループを作成する必要があります。

③ここではすでに作成されているプロジェクトを見ることができます。最初は[+プロジェクトの作成]から新規でプロジェクトを作成します。

④現在2種類のプロジェクトタイプを選択できます。今回はLiteを使用します。

ProLiteに比べ必要なデータサイズの下限が大きく、またトレーニングに使用する言語で日本語を使用できるようです。

 しかしながらアクセス権を申請し、この申請が通る必要があります。

このアクセス権とは、Microsoft の責任のあるAIの観点から設けられているセキュリティで、Azure Custom neural Voiceを使用することでDeepFake音声が使用することができ、例えば政治利用や犯罪などに使用することもできるほか、声という個人が特定されるプライバシーを扱うため、そのプロジェクトがアプリでどのように使用され、アプリ内でエンドユーザーにどのようにその音声がAIによるものだと伝えるのかなど詳細をアクセス権申請として申請する必要があります。

ガイドラインはこちらになります。

docs.microsoft.com

⑤プロジェクトの名前と説明、ボイスタレントの性別そしてトレーニングデータで使用する言語を入力します。

トレーニングデータで使用する言語はLiteでは日本語は使用できませんが数多くの言語に対応しています。

プロジェクトが作成されると次のような画面に移動します。

⑥最低20の英文を録音します。

⑦最低限必要なデータがそろったら[モデルのトレーニング]を選択します。

 20このデータでは0.8時間ほどでトレーニングが完了します。

Azure Custom neural Voice の課金はこのトレーニングの際の時間課金とその後の出力された音声を使用する際の通信で発生するようです。

 筆者の場合0.8時間のトレーニングで50$程の料金が発生していました。

⑧トレーニングが完了するとモデルの確認タブでタレントの声で次のステップへの音声が読み上げられます。

Liteではアクセス権が得られるまでここで表示されている音声に制限されています。

本日は以上です。

思ったよりも簡単にそして筆者自身の声で音声が再現されており非常に驚きました。

 近年ではウクライナのゼレンスキー大統領のDeepFakeが作られたり、AIによるFakeの存在は驚異的なものになっていますが、これだけ簡単に声のDeepFakeを作れるからこそ、アクセス権などでしっかりと管理されているのだと感じます。