夜風のMixedReality

xRと出会って変わった人生と出会った技術を書き残すためのGeekなHoloRangerの居場所

数秒の単独ボイスデータから話者の特徴を認識して入力したテキストに声として反映させるVALL-E-Xを触る

本日はAI枠です。

〇VALL-E-Xとは?

Microsoftは音声生成系のAIとしてVALL-EというAIを発表しています。

VALL-Eは、未知の話者(任意のスピーカー)の3秒程度の録音データをプロンプトとして使用してその人の合成音声を作成することができます。

VALL-Eは、特徴として単なるTextToSpeech(音声読み上げ機能)にとどまらず、感情や起伏などを考慮したより自然な音声を合成することができます。

www.microsoft.com

VALL-E-XはVALL-Eを拡張し、基言語(日本語・英語など)の音声と合成したい言語のテキストをプロンプトとして使用して使用できるようにしたものです。

つまりVALL-E-Xを使用することで日本語の話者の声を英語にすることなどができます。

筆者自身詳細の情報を得られていないので推測ではあるのですがMicrosoftのAzureで提供されているAzure Custom VoiceではVALL-Eを使用しているものと思われます。

〇VALL-Eの社会的、倫理的な問題点

VALL-Eはその性質上声のディープフェイクを作成することができます。

従来であればある程度以上の音声データを用いてその人の声をワンオフモデルとして作成していました。

有名な例としてNHK美空ひばりさんのAIによる歌唱があります。

www.youtube.com

しかしVALL-E-Xを用いることで限りなく少ないデータ数でその人の声を再現すると言ことが可能になります。

こういった点から悪用されることでオレオレ詐欺SNSによるデマ等の流用も考えられます。また、学習データに用いられることで声にまつわる仕事の需要減少や、勝手に学習データに使用することによる肖像権、著作権といった倫理的な問題が伴います。

こういった問題に対してMicrosoftは以下の倫理表明を行っています。

Microsoft の倫理表明

VALL-E /X could synthesize speech that maintains speaker identity and could be used for educational learning, entertainment, journalistic, self-authored content, accessibility features, interactive voice response systems, translation, chatbot, and so on. While VALL-E /X can speak in a voice like the voice talent, the similarity, and naturalness depend on the length and quality of the speech prompt, the background noise, as well as other factors. It may carry potential risks in the misuse of the model, such as spoofing voice identification or impersonating a specific speaker. We conducted the experiments under the assumption that the user agrees to be the target speaker in speech synthesis. If the model is generalized to unseen speakers in the real world, it should include a protocol to ensure that the speaker approves the use of their voice and a synthesized speech detection model. If you suspect that VALL-E /X is being used in a manner that is abusive or illegal or infringes on your rights or the rights of other people, you can report it at the Report Abuse Portal.

VALL-E/Xは発話者の同一性を維持した音声合成が可能で、教育学習、エンターテイメント、ジャーナリスティック、自作コンテンツ、アクセシビリティ機能、対話型音声応答システム、翻訳、チャットボットなどに利用できます。VALL-E /Xは声優のような声で話すことができますが、類似性や自然さは、音声プロンプトの長さや質、背景雑音、その他の要因に依存します。 そのため、このモデルを悪用したなりすましや、特定の話者へのなりすましなどの危険性があります。本実験では、ユーザが音声合成の対象話者となることに同意していることを前提に実験を行った。このモデルを実世界の見知らぬ話者に一般化するのであれば、話者が自分の声と合成音声検出モデルの使用を承認することを保証するプロトコルを含める必要があります。 VALL-E /Xが悪用されたり、違法に使用されていると思われる場合、またはあなたや他の人々の権利を侵害していると思われる場合は、悪用報告ポータルから報告することができます。

〇VALL-E-Xを使用する。

VALL-Eを使用する場合は前述の問題点をよく読み、あくまで個人的利用の範囲で使用することを強くお勧めします

8月28日にVALL-E-Xを使用したゼロショットTTSモデルがGitHubで公開されました。

これはMicrosoftによるものではなくPlachtaa氏らのチームがVALL-Eの論文を基に独自で再現したものになります。(もともとVALL-Eに関してMicrosoftはコードや学習済みトレーニングデータの公表を行っていません。)

github.com

HuggingFaceではノーコードでウェブ上でDALL-Eを使用することができます。

huggingface.co

今回はこちらの方法を触っていきます。

HuggingFaceのページを開くと次のような画面になります。

今回は筆者自身の声を使用することも考えたのですがあまり声に自信がないので、効果音ラボからフリーで使用できる音源を使用します。

soundeffect-lab.info

ダウンロードした音源ファイル(今回はmp3)をHuggingFaceのUploaded Audio Pronptドラッグアンドドロップします。

次に合成したい言葉をテキストで入力し、言語及びアクセントを選択します。

最後にGenerateボタンを押すことで処理が開始されます。

生成には時間がかかることがありますが大体の場合1分以内に結果が出ます。

結果が不安定や破断している場合は再度Generate!を押すことで違うデータとして出力が行われます。

入力した音源の環境、声質や感情に大きく左右されるようなので、例えば怒っている音声を合成したい場合は元の音源も怒っているようなものを選ぶなどすればより自然になりそうです。