数秒の単独ボイスデータから話者の特徴を認識して入力したテキストに声として反映させるVALL-E-Xを触る

本日はAI枠です。

〇VALL-E-Xとは？

Microsoftは音声生成系のAIとしてVALL-EというAIを発表しています。

VALL-Eは、未知の話者（任意のスピーカー）の3秒程度の録音データをプロンプトとして使用してその人の合成音声を作成することができます。

VALL-Eは、特徴として単なるTextToSpeech(音声読み上げ機能)にとどまらず、感情や起伏などを考慮したより自然な音声を合成することができます。

www.microsoft.com

VALL-E-XはVALL-Eを拡張し、基言語（日本語・英語など）の音声と合成したい言語のテキストをプロンプトとして使用して使用できるようにしたものです。

つまりVALL-E-Xを使用することで日本語の話者の声を英語にすることなどができます。

筆者自身詳細の情報を得られていないので推測ではあるのですがMicrosoftのAzureで提供されているAzure Custom VoiceではVALL-Eを使用しているものと思われます。

〇VALL-Eの社会的、倫理的な問題点

VALL-Eはその性質上声のディープフェイクを作成することができます。

従来であればある程度以上の音声データを用いてその人の声をワンオフモデルとして作成していました。

有名な例としてNHKの美空ひばりさんのAIによる歌唱があります。

www.youtube.com

しかしVALL-E-Xを用いることで限りなく少ないデータ数でその人の声を再現すると言ことが可能になります。

こういった点から悪用されることでオレオレ詐欺やSNSによるデマ等の流用も考えられます。また、学習データに用いられることで声にまつわる仕事の需要減少や、勝手に学習データに使用することによる肖像権、著作権といった倫理的な問題が伴います。

こういった問題に対してMicrosoftは以下の倫理表明を行っています。

〇Microsoft の倫理表明

VALL-E /X could synthesize speech that maintains speaker identity and could be used for educational learning, entertainment, journalistic, self-authored content, accessibility features, interactive voice response systems, translation, chatbot, and so on. While VALL-E /X can speak in a voice like the voice talent, the similarity, and naturalness depend on the length and quality of the speech prompt, the background noise, as well as other factors. It may carry potential risks in the misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agrees to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model. If you suspect that VALL-E /X is being used in a manner that is abusive or illegal or infringes on your rights or the rights of other people, you can report it at the Report Abuse Portal.

VALL-E/Xは発話者の同一性を維持した音声合成が可能で、教育学習、エンターテイメント、ジャーナリスティック、自作コンテンツ、アクセシビリティ機能、対話型音声応答システム、翻訳、チャットボットなどに利用できます。VALL-E /Xは声優のような声で話すことができますが、類似性や自然さは、音声プロンプトの長さや質、背景雑音、その他の要因に依存します。そのため、このモデルを悪用したなりすましや、特定の話者へのなりすましなどの危険性があります。本実験では、ユーザが音声合成の対象話者となることに同意していることを前提に実験を行った。このモデルを実世界の見知らぬ話者に一般化するのであれば、話者が自分の声と合成音声検出モデルの使用を承認することを保証するプロトコルを含める必要があります。 VALL-E /Xが悪用されたり、違法に使用されていると思われる場合、またはあなたや他の人々の権利を侵害していると思われる場合は、悪用報告ポータルから報告することができます。