Azure Custom neural Voice で声のDeepFakeを作る

本日はAzure　AI学習枠です。

Azureでは様々なサービスが展開されていますが、今回はAzure Cognitive ServicesのSpeech ServiceからAzure Custom neural Voiceを触っていきます。

〇Azure Cognitive Services

Azure Cognitive ServicesはAzureの提供するAIサービス群で、主に次のカテゴリーで構築済みのモデルを使用することで、開発者はゼロからモデルを構築することなくAIの機能を使用することができます。

・視覚

・音声

・言語

・Decision

docs.microsoft.com

Azure Custom neural VoiceはSpeech(音声)サービスで提供されているサービスで、アプリケーション内で使用できる文字読み上げの音声をカスタマイズする機能です。

　Azure Custom neural Voiceを使用することでiPhoneのSiriなどのような音声読み上げの機械ボイスを自身もしくはボイスタレントの声に使用することができます。

〇Azure Custom neural Voiceの使用

①Custom Voiceのページへアクセスします。

speech.microsoft.com

ここではサンプルを聞くことができます。

②Azureのアカウントでサインインを行いSpeechStudioからCustom Voiceを選択します。

この際Azureのリソースグループに紐づけるor新たにリソースグループを作成する必要があります。

③ここではすでに作成されているプロジェクトを見ることができます。最初は[+プロジェクトの作成]から新規でプロジェクトを作成します。

④現在２種類のプロジェクトタイプを選択できます。今回はLiteを使用します。

ProはLiteに比べ必要なデータサイズの下限が大きく、またトレーニングに使用する言語で日本語を使用できるようです。

　しかしながらアクセス権を申請し、この申請が通る必要があります。

このアクセス権とは、Microsoft の責任のあるAIの観点から設けられているセキュリティで、Azure Custom neural Voiceを使用することでDeepFake音声が使用することができ、例えば政治利用や犯罪などに使用することもできるほか、声という個人が特定されるプライバシーを扱うため、そのプロジェクトがアプリでどのように使用され、アプリ内でエンドユーザーにどのようにその音声がAIによるものだと伝えるのかなど詳細をアクセス権申請として申請する必要があります。

ガイドラインはこちらになります。

docs.microsoft.com

⑤プロジェクトの名前と説明、ボイスタレントの性別そしてトレーニングデータで使用する言語を入力します。