TTS 比較 google, openai, azure


 

項目とかでの比較ではないです。
3つ使ってみた主観です。

最初はgoogleのTTSを使っていました。
そこで少し気になったのは、話者を変えても、どうも納得するようなギスギスしない音声が手に入らないことでした。
Pythonでノイズリダクションなどもしてみましたが、どうもなかなか。

次にopenaiのTTSを試そうとしました。英語はとてもいい声でいいと思います。
日本語はまるで使えないので、パスでした。

検索してみるとAzureのTTSがなかなか良さそうで、やってみました。
確かに、なかなかよいです。
googleと比較すると、ssmlなどでも設定することもできるし。
ただ、連続的にAPIで音声作成してみたところ、1000ファイル過ぎたあたりから、エラー。
おそらく連続にはなんらかの制限ありますね。
時間を置くと、エラー解除になるので。
プランの制限とは別ですね。
あと、話者ごとにエラーになったり、ならなかったりです。

AzureとgoogleでTTSでmp3を作ると、Azureの方がサイズが10倍くらいになります。
その分音質がいいのでしょう。
googleはサイズが小さい分、音質にソフトさが足りないですね。
もとが足りないので、ノイズリダクションしてもしれています。
すこしエコをかけるような処理ができればいいのかもれしません。

ただ、googleは連続作成でとくに制限やエラーにもならずです。

というわけで、やはりgoogleのTTSに戻りました。

TTSはイントネーション、音質、価格ですね。

あと、google TTSでは音量設定があるのですが、
「”volumeGainDb”:10」とかで設定するとエラーになります。
「”volume_gain_db”:10」が正しいようです。
公式サイトの説明ちがうじゃん。

WEBプログム、WEBデザインなどの制作については、以下を御覧ください。

WEBプログム、WEBデザインなどの制作