Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

クラウドサービス、AWS/Azure/GCP それぞれの Text to Speechを比べてみた

365 views

Published on

2020年2月1日に開催された「Burikaigi 2020」で発表した内容です。
AWS/GCP/Azure それぞれの Text to Speechを比べてみました。

Published in: Technology
  • Be the first to comment

クラウドサービス、AWS/Azure/GCP それぞれの Text to Speechを比べてみた

  1. 1. クラウドサービス AWS/Azure/GCP それぞれのText to Speechを 比べてみた @Neri78
  2. 2. ツイート、ツイート! #burikaigi #burikaigi2020 #burikaigiB
  3. 3. 自己紹介 池原大然(いけはらだいぜん) Twitter: @Neri78 富山県の入善町出身 Developer Evangelist @ Twilio
  4. 4. 元EverQuest(MMORPG)廃人
  5. 5. セッションアジェンダ ● Text to Speech(tts)とは? ● くらべてみよう:AWS/GCP/Azure ● ttsにおける違和感 ● まとめ
  6. 6. Text to Speech(tts) とは?
  7. 7. テキスト文字から音声を再生させること ● https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90 ● 1950年代終盤から取り組まれていた...らしい ● 日常生活の中に入り込んでいる ○ 電話の自動応答(IVR) ○ ATM、複合機 ○ 工場の構内放送 ○ 駅・バスターミナル・空港 ● 逆方向として、音声の内容をテキストとして認識する Speech to Textも存在する
  8. 8. 他の技術との連携も ● 録音と違ってリアルタイムで合成 できるのが魅力 ○ というか、そうでなかったら、 録音で良いし... ● 例:LINE BRAIN - DUET ○ https://youtu.be/SwZLp5Y-Z4g
  9. 9. Text to Speech APIを提供している主要なクラウドベンダー 多くが複数の言語に対応している ● AWS - Amazon Polly https://aws.amazon.com/jp/polly/ ● Google Cloud - Cloud Text-to-Speech https://cloud.google.com/text-to-speech/?hl=ja ● Microsoft Azure - Cognitive Services Text-to-Speech https://azure.microsoft.com/ja-jp/services/cognitive-services/text-to-speech/ ● IBM Watson - Text to Speech https://www.ibm.com/watson/jp-ja/developercloud/text-to-speech.html
  10. 10. 日本語の実力、確かめたるぜ!
  11. 11. くらべてみよ う:AWS/GCP/Azure
  12. 12. 生成する音声の仕様 ● ほぼ固定文(違いを感じるため) ● 女性話者 ● 標準設定。とくに変更は加えない ● mp3ファイルを作成 ● サンプリングレートとビットレートは 統一できなかった... ○ 22,050khz / 32kbps くらい
  13. 13. 基本的にやることは似ている let polly = new AWS.Polly({ apiVersion: '2016-06-10', region:'ap-northeast-1'}); polly.synthesizeSpeech({ Engine: 'standard', OutputFormat: 'mp3', VoiceId: 'Mizuki', Text: 'AmazonのMitsukiだよ。' + baseText, SampleRate: '22050', TextType: 'text' }, (err, data) => { //生成されたデータを取得 .. data.AudioStream }); 1. サービスの有効化、 2. アクセストークン など取得 3. オプション設定 4. 合成!
  14. 14. 今日のデモはこんな感じ
  15. 15. Demo Let’s 聴き比べ
  16. 16. より自然な音に近づけるには?(1) ● 音声合成マークアップ言語(SSML)を用いて抑揚や スピードなどを細かく指定できる 基本は同じだが、ベンダーごとの独自設定が... ○ AWS https://docs.aws.amazon.com/ja_jp/polly/latest/dg/supportedtags.html ○ GCP https://cloud.google.com/text-to-speech/docs/ssml?hl=ja ○ Azure https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/speech-synthesis-markup
  17. 17. より自然な音に近づけるには?(2) ● 自然な音声を選択する ○ Amazon Polly: ニューラル音声を提供(日本語NG) https://docs.aws.amazon.com/ja_jp/polly/latest/dg/voicelist.html ○ GCP: WaveNetモデルを使用した音声(日本語OK) https://cloud.google.com/text-to-speech/docs/voices?hl=ja ○ Azure: ニューラル音声を提供(日本語NG) https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/language-support
  18. 18. 良いと思った サービスをツイート! #burikaigi #burikaigi2020 #burikaigiB
  19. 19. ttsにおける違和感
  20. 20. 違和感の原因 ● 発音 ● イントネーション ● 抑揚 日本語ではそれが顕著
  21. 21. 日本語が得意(または特化した)WebAPIも AITalk Web API ● 標準語や関西弁など ● 感情調整に対応した 音声も提供 https://www.ai-j.jp/cloud/webapi/
  22. 22. Demo より自然にできるかしら?
  23. 23. まとめ
  24. 24. まとめ ● ttsを利用することで、これまで人手が必要だった 業務をシステム化できる(かもしれない) ● メジャーどころのクラウドベンダーは 軒並みサービスを提供している ● 今後、より自然に近づくと思われる。 ○ AI美空ひばりみたいなやつ
  25. 25. リソース ● tts - wikipedia https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90 ● AWS - Amazon Polly https://aws.amazon.com/jp/polly/ ● Google Cloud - Cloud Text-to-Speech https://cloud.google.com/text-to-speech/?hl=ja ● Microsoft Azure - Cognitive Services Text-to-Speech https://azure.microsoft.com/ja-jp/services/cognitive-services/text-to-speech/ ● AiTalk Web API https://www.ai-j.jp/cloud/webapi/ ● Twilio Programmable Voice https://www.twilio.com/ja/voice
  26. 26. 最後に
  27. 27. Twilio Meetup @ DevSumi 2020 https://connpass.com/event/162110
  28. 28. 北陸でTwilioをからめた ミートアップ、勉強会、UGを 開催しませんか? ご興味があれば@Neri78まで!
  29. 29. ありがとうございました!

×