[AWS] Amazon Pollyという読み上げサービスがあるらしい

はじめに


今回の記事で紹介するAmazon Pollyについては、「こんなサービスがあったのか!?」という驚きと感動から思わず記事にしたものなので、ユースケースや機能についての深堀はしていません。

そのためAmazon Pollyの機能についてやユースケースを深く知りたい方には情報量の少ない記事となってしまいますのでご了承ください。

Amazon Pollyとは

Amazon Polly は、文章をリアルな音声に変換するサービスです。テキスト読み上げができるアプリケーションを作成できるため、まったく新しいタイプの音声対応製品を構築できます。

参考:https://aws.amazon.com/jp/polly/

公式ドキュメントの説明にあるようにAmazon Pollyは合成音声のサービスです。
ディープラーニングで学習したデータと元に自然な音声での読み上げを可能にしています。
日本語を含む8ヶ国語に対応しており、生成したデータをS3にアップロードする機能もあるため音声データを扱うアプリケーションやサービスにも使えそうですね。

お試しの使用は簡単


AWSアカウントを持っていれば、Amazon Pollyを開始すると面倒な設定もなくすぐに利用できます。

今回は触れていませんが、発音に気になる部分があれば「レキシコン」というものを読み込ませて正しい発音に直したりもできるようです。

実際にプレーンテキストでの読み上げを試してみたものがこちらとなります。

日本語の発音は難しいかなと思ったのですが、想定していたよりもずっと自然的な発音で読み上げてくれていますね!

SSMLタグで詳細な設定


SSMLタグを使うことで、特定の単語を強調してゆっくりと読ませたり、段落ごとに一呼吸置いたり、早口にしたりと複雑な設定を行うことができます。
ただ、軽く触ってみた感じだと日本語への対応はできていないタグも多いようです。

サポートされているSSMLタグは公式ドキュメントから確認できます。
種類が多いのでこの記事では取り上げませんが、強調と段落だけ入れてみたテキストが次のような感じです。

正直なところ、これだけだとプレーンテキストでの読み上げと大差なさそうですね。
他にも色々なタグがあるので、うまく設定すればより自然的な読み上げに近づけることができるかも知れませんが、そこまでするくらいならタグを使わずにバンバン読み上げさせてしまった方が良いかも知れませんね。

おわりに

今回はAWSに文章読み上げサービスがあることを知ったので思わず試してみました。
無料で利用できる合成音声での読み上げソフトはたくさんあるので、単なる読み上げだけの目的でわざわざAWSの合成音声サービスを利用する必要性は薄いかもしれません。

AWS上で音声読み上げを利用するサービスを開発する場合には、Amazon Pollyで生成した音声データをS3に保存してCloudFrontを経由して配信するなどのケースが必要であればこのサービスを扱う意味も大きくなりそうですね。

なんにせよ、普段使わないサービスを触れてみる良い機会となりました。
お試しで使用する分には手間はかからないので、興味がある方は試してみましょう!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)