夜風のMixedReality

xRと出会って変わった人生と出会った技術を書き残すためのGeekなHoloRangerの居場所

ZyphraのZonosのAPIに関して調べる その②

本日はAI枠です。

先日新型のTextToSpeechサービスのZyphraのZonosを触っていました。

redhologerbera.hatenablog.com

サイドメニューを見るとSettingsの中にAPIKeysおよびAPI Documentationが存在しました。

今回はこのAPIを使用すれば何ができるのか?見ていきます。

API DocumentにはPythonとTypeScriptのサンプルコードが掲載されています。

前回はUnityで動かそうとして失敗しました。

redhologerbera.hatenablog.com

今回はまずクイックスタートに倣いPythonで実行していきます。

〇環境

・Windows11PC

・Anaconda

・Python3.11

〇クイックスタート

Zyphraではpip install zyphraでモジュールが提供されています。

今回はAnaconda Promptを使用して仮想環境から立ち上げていきます。

まずは仮想環境を作ります。

conda create --name zonos311 python=3.11
conda activate zonos311

次にzyphraモジュールをインストールします。

pip install zyphra

これだけで環境構築は完了です。

Pythonファイルを作成します。

from zyphra import ZyphraClient

client = ZyphraClient(api_key="APIキー")

# Text-to-speech
audio_data = client.audio.speech.create(
    text="Hello, world!",
    speaking_rate=15,
    mime_type="audio/wav"
)

# 音声データを 'output' フォルダに 'speech.wav' として保存
with open("output/speech.wav", "wb") as f:
    f.write(audio_data)

ここでは公式ドキュメントのコードを改良しています。

具体的には公式のドキュメントのクイックスタートではただ実行するだけで受け取ったデータを再生することができなかったので今回はwav形式でoutputフォルダにエクスポートしています。

これを実行するとHellow World!という音声が生成されます。

本日は以上です。

次回は言語変更を行っていきます。