Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

COTOHA API ハンズオンセミナー「自然言語処理の基礎とCOTOHA API」

269 views

Published on

人間の言葉をコンピュータに理解させる技術を自然言語処理といいます。
これから自然言語処理をさわってみようと考えている方、はやりのAIに触れてみたい方、OSSに何か加えてみたい方などに向けて、自然言語処理の基本から解説したセミナー用資料です。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

COTOHA API ハンズオンセミナー「自然言語処理の基礎とCOTOHA API」

  1. 1. Copyright © NTT Communications Corporation. All rights reserved. COTOHA API ハンズオンセミナー 「自然言語処理とCOTOHA API」 NTTコミュニケーションズ株式会社 アプリケーション&コンテンツサービス部 AI推進室
  2. 2. Copyright © NTT Communications Corporation. All rights reserved. アジェンダ 2  オープニング  自然言語処理とは  自然言語処理の基礎技術紹介  COTOHA APIの紹介  COTOHA APIを使ってみた
  3. 3. Copyright © NTT Communications Corporation. All rights reserved. 日本語の難しさ 3 「私は母と焼肉を食べた」
  4. 4. Copyright © NTT Communications Corporation. All rights reserved. 日本語の難しさ 4 「私は母と焼肉を食べた」
  5. 5. Copyright © NTT Communications Corporation. All rights reserved. 日本語の難しさ 5 「私は母と焼肉を食べた」
  6. 6. Copyright © NTT Communications Corporation. All rights reserved. 日本語の難しさ 6 「私は母と焼肉を食べた」
  7. 7. Copyright © NTT Communications Corporation. All rights reserved. 日本語の難しさ 7 「花子は太郎と公園で遊んだ。 」
  8. 8. Copyright © NTT Communications Corporation. All rights reserved. 日本語の難しさ 8 「花子は太郎と公園で遊んだ。 」 「彼女はそこで彼と縄跳びをした」
  9. 9. Copyright © NTT Communications Corporation. All rights reserved. 日本語の難しさ 9 「花子は太郎と公園で遊んだ。 」 「彼女はそこで彼と縄跳びをした」
  10. 10. Copyright © NTT Communications Corporation. All rights reserved. 日本語の難しさ 10 「花子は太郎と公園で遊んだ。 」 「彼女はそこで彼と縄跳びをした」
  11. 11. Copyright © NTT Communications Corporation. All rights reserved. 日本語の難しさ 11 「花子は太郎と公園で遊んだ。 」 「彼女はそこで彼と縄跳びをした」
  12. 12. Copyright © NTT Communications Corporation. All rights reserved. 12 自然言語処理の基礎と COTOHA API @自然言語処理API(COTOHA API) ハンズオンセミナー 「初級編」
  13. 13. Copyright © NTT Communications Corporation. All rights reserved. はじめに 13 女の子 大きな瞳 の黒 い nmod amod aux case amod I read a book 私 は 本 を 読ん だ I read a BOS 東京都 (名詞) 京 (名詞) 東 (名詞) 都 (名詞) に (助詞) に (動詞) 住む (動詞) EOS 京都 (名詞)
  14. 14. Copyright © NTT Communications Corporation. All rights reserved. はじめに 14 女の子 大きな瞳 の黒 い nmod amod aux case amod I read a book 私 は 本 を 読ん だ I read a 本日の内容はこっち BOS 東京都 (名詞) 京 (名詞) 東 (名詞) 都 (名詞) に (助詞) に (動詞) 住む (動詞) EOS 京都 (名詞)
  15. 15. Copyright © NTT Communications Corporation. All rights reserved.  言語処理の基礎技術のイメージをつかむ  言語処理の面白さを知ってもらう 今回の目標 15
  16. 16. Copyright © NTT Communications Corporation. All rights reserved. アジェンダ 16  オープニング  自然言語処理とは  自然言語処理の基礎技術紹介  COTOHA APIの紹介  COTOHA APIを使ってみた
  17. 17. Copyright © NTT Communications Corporation. All rights reserved.  人間の言葉をコンピュータで自動的に処理させる技術 • インターネットの普及 • 大量のテキストデータがwebに溢れている →高速・自動的・適切に大量のテキストを処理したい 自然言語処理とは 17 ・自然言語 ・私達が使う言語 ・解釈が様々、曖昧 ・人工言語 ・プログラミング言語など ・解釈が1通りに決まる 母と焼肉を食べた。 [私,母] eat (焼肉) [私] eat ([母,焼肉])
  18. 18. Copyright © NTT Communications Corporation. All rights reserved.  自然言語は解釈が様々、曖昧 • 「黒い瞳の大きな女の子」 ⇛ 解析することでその解釈を示す 自然言語処理とは 18
  19. 19. Copyright © NTT Communications Corporation. All rights reserved.  結構身近に存在する 自然言語処理とは 19
  20. 20. Copyright © NTT Communications Corporation. All rights reserved.  結構身近に存在する 自然言語処理とは 20 ・検索
  21. 21. Copyright © NTT Communications Corporation. All rights reserved.  結構身近に存在する 自然言語処理とは 21 ・検索 ・メールフィルタ
  22. 22. Copyright © NTT Communications Corporation. All rights reserved.  結構身近に存在する 自然言語処理とは 22 ・検索 ・メールフィルタ ・チャットボット
  23. 23. Copyright © NTT Communications Corporation. All rights reserved.  検索 • シソーラスの利用によりあいまいな単語でも検索可能 • 関連語に対応 • 表記ゆれに対応  ヴァーチャル=バーチャル  引越 =引っ越し • タイポの訂正  もしかして「〇〇」ですか? 自然言語処理事例 23 道具 器具 文房具 文具農具 筆記具 筆記用具 同義 下位・狭義 上位・広義 シソーラス : 単語を上位/下位関係・ 部分/全体関係・同義関係や類義関係 などによって分類、体系づけた語彙集
  24. 24. Copyright © NTT Communications Corporation. All rights reserved.  メールフィルタ • メール中の単語の分布から怪しいメールを分類する • 大量のOKメールとNGメールから単語分布を学習 自然言語処理事例 24 「恋愛」 「出会い」 ・ ・ ・ OK NG
  25. 25. Copyright © NTT Communications Corporation. All rights reserved.  チャットボット • ユーザの発言からIntentとEntityを抽出  Intent:ユーザの発言が、どういった意図を持っているのか  Entity:ユーザの発言中に含まれる、意味のある単語 自然言語処理事例 25 Intent: アラームをセット Entity: 明日、7時 明日の朝7時に起こして わかりました。 明日の7時にアラームを セットしますね。
  26. 26. Copyright © NTT Communications Corporation. All rights reserved.  紹介したほかにも 自然言語処理事例 26 あ A などなど応用先多数 ・翻訳 ・レコメンド ・文書分類
  27. 27. Copyright © NTT Communications Corporation. All rights reserved. アジェンダ 27  オープニング  自然言語処理とは  自然言語処理の基礎技術紹介  COTOHA APIの紹介  COTOHA APIを使ってみた
  28. 28. Copyright © NTT Communications Corporation. All rights reserved. 要素技術の紹介 入力文 私は母と焼肉を食べた
  29. 29. Copyright © NTT Communications Corporation. All rights reserved. 要素技術の紹介 入力文 私は母と焼肉を食べた 形態素解析 私 は 母 と 焼肉 を 食べ た
  30. 30. Copyright © NTT Communications Corporation. All rights reserved. 要素技術の紹介 入力文 私は母と焼肉を食べた 形態素解析 私 は 母 と 焼肉 を 食べ た 構文解析 私 は 食べ た母 と 焼肉 を nsubj case cc case nmod dobj aux
  31. 31. Copyright © NTT Communications Corporation. All rights reserved. 要素技術の紹介 入力文 私は母と焼肉を食べた 形態素解析 私 は 母 と 焼肉 を 食べ た 構文解析 私 は 食べ た母 と 焼肉 を nsubj case cc case nmod dobj aux 意味解析 私 は 食べ た母 と 焼肉 を agent coagent object
  32. 32. Copyright © NTT Communications Corporation. All rights reserved. 要素技術の紹介 入力文 私は母と焼肉を食べた 形態素解析 私 は 母 と 焼肉 を 食べ た 構文解析 私 は 食べ た母 と 焼肉 を nsubj case cc case nmod dobj aux 意味解析 私 は 食べ た母 と 焼肉 を agent coagent object 文脈解析 私は母と焼肉を食べた。 それは美味しかった。
  33. 33. Copyright © NTT Communications Corporation. All rights reserved.  文を最小の意味を持つ言語単位にまで分解し、それら の単位の性質を明らかにする処理  日本語や中国語など、単語の切れ目がない言語で必要 • 「すもももももももものうち」 • スモモ も 桃 も 桃 の 内  「東京都に住む」 形態素解析 33 BOS 東 (名詞) 東京都 (名詞) 京 (名詞) 都 (名詞) に (助詞) に (動詞) 住む (動詞) EOS 京都 (名詞) 形態素解析 構文解析 意味解析 文脈解析
  34. 34. Copyright © NTT Communications Corporation. All rights reserved. 構文解析 34 形態素解析 構文解析 意味解析 文脈解析  係り受け解析 単語のつながりを解析 単語をまとめた文節を認識  句構造解析 句としてのまとまりを解析 私 は 食べ た母 と 焼肉 を nsubj case cc case nmod dobj aux は私 母 と 焼肉 を 名詞句 動詞句 文 食べ た 名詞句 名詞句 動詞句 動詞句 依存関係ラベル 説明 nsubj 主格で述語に係る名詞句 nmod 名詞による修飾 dobj 目的格で述語に係る名詞句 amod 形容詞による修飾 case 格助詞による格の表示 cc 等位接続詞 aux 助動詞 … …
  35. 35. Copyright © NTT Communications Corporation. All rights reserved. 構文解析 35 形態素解析 構文解析 意味解析 文脈解析  係り受け解析 単語のつながりを解析 単語をまとめた文節を認識  句構造解析 句としてのまとまりを解析 私 は 食べ た母 と 焼肉 を nsubj case cc case nmod dobj aux は私 母 と 焼肉 を 名詞句 動詞句 文 食べ た 名詞句 名詞句 動詞句 動詞句
  36. 36. Copyright © NTT Communications Corporation. All rights reserved. 構文解析 36 形態素解析 構文解析 意味解析 文脈解析  係り受け解析 単語のつながりを解析 単語をまとめた文節を認識  句構造解析 句としてのまとまりを解析 私 は 食べ た母 と 焼肉 を nsubj case cc case nmod dobj aux は私 母 と 焼肉 を 名詞句 動詞句 文 食べ た 名詞句 名詞句 動詞句 動詞句 語順が自由な日本語で よく用いられる 語順が自由な日本語 には向かない
  37. 37. Copyright © NTT Communications Corporation. All rights reserved.  述語項構造解析 述語から見たときの主語・目的語を明らかにする 意味解析 37 形態素解析 構文解析 意味解析 文脈解析 私 は 焼き肉 を 食べ た  意味役割解析 述語から見たときの各項の意味役割を明らかにする 私 は 公園 で 食べ た母 と 焼き肉 を 3時 に agent coagent place object time 意味関係ラ ベル 説明 agent 動作主 coagent 動作主と一緒に 動作する主体 object 対象 place 場所 time 時間
  38. 38. Copyright © NTT Communications Corporation. All rights reserved.  文章全体での文間の関係を明らかにする  照応解析 • 文章中で指示代名詞の示す対象を明らかにする 文脈解析 38 形態素解析 構文解析 意味解析 文脈解析 「花子は太郎と公園で遊んだ。」 「彼女はそこで彼と縄跳びをした」  談話構造解析 • 文間の役割関係を明らかにする 「自然言語処理は人間の言葉を処理する技術である」 ↓ 例示 「形態素解析や構文解析などがある」
  39. 39. Copyright © NTT Communications Corporation. All rights reserved. 要素技術の紹介 入力文 私は母と焼肉を食べた 形態素解析 私 は 母 と 焼肉 を 食べ た 構文解析 私 は 食べ た母 と 焼肉 を nsubj case cc case nmod dobj aux 意味解析 私 は 食べ た母 と 焼肉 を agent coagent object 文脈解析 私は母と焼肉を食べた。 それは美味しかった。
  40. 40. Copyright © NTT Communications Corporation. All rights reserved. アジェンダ 40  オープニング  自然言語処理とは  自然言語処理の基礎技術紹介  COTOHA APIの紹介  COTOHA APIを使ってみた
  41. 41. Copyright © NTT Communications Corporation. All rights reserved. COTOHA API  様々な自然言語処理技術を扱うAPI  無料で試せるのでぜひ以下のリンクから  https://api.ce-cotoha.com COTOHA APIの紹介 41 とは?
  42. 42. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (1/5) 42 # API名 機能概要 1 構文解析 日本語テキストの構造と意味を解析します。 ・文の構造と意味を解析するRESTful API です。 ・入力された文を文節・形態素に分解し、文節間の係り受け関係や形態素間の係り 受け関係、品詞情報等の意味情報等を付与します。 ・「誰(何)が」「どうした」という情報を形態素と呼ばれる単語単位で切り出すこと ができるため、多数のテキストデータに対して情報を抽出・解析するデータマイニ ングなどに応用することが可能です。 2 固有表現抽出 人名や地名などの固有表現を抽出します。 ・人名や地名、日付表現(時間、日付)、組織名、量的表現(金額 、割合)、人工物の8 種類 の固有表現と、「関根の拡張 固有表現 階層」に基 づいた200種類 以上のクラス 数を持つ拡張 固有表現を出力するRESTful APIです。 ・入力文から、人名や地名などフレーズを抽出することができるため、テキスト データ中の話題を解析するアプリケーションなどに応用が可能です。 3 固有名詞(企業名) 補正 テキストから固有名詞(企業名)を抽出・正規化します。 ・正規化された企業名を抽出するRESTful APIです。 ・表現の誤りや揺れを含む企業名に対して正規化された企業名情報を付与します。 ・入力文から一意の企業名を抽出することができるため、企業名を含む多数のテキ ストデータについて企業ごとの集計・解析に応用することが可能です。 「私は母と焼肉を食べた」
  43. 43. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (1/5) 43 # API名 機能概要 1 構文解析 日本語テキストの構造と意味を解析します。 ・文の構造と意味を解析するRESTful API です。 ・入力された文を文節・形態素に分解し、文節間の係り受け関係や形態素間の係り 受け関係、品詞情報等の意味情報等を付与します。 ・「誰(何)が」「どうした」という情報を形態素と呼ばれる単語単位で切り出すこと ができるため、多数のテキストデータに対して情報を抽出・解析するデータマイニ ングなどに応用することが可能です。 2 固有表現抽出 人名や地名などの固有表現を抽出します。 ・人名や地名、日付表現(時間、日付)、組織名、量的表現(金額 、割合)、人工物の8 種類 の固有表現と、「関根の拡張 固有表現 階層」に基 づいた200種類 以上のクラス 数を持つ拡張 固有表現を出力するRESTful APIです。 ・入力文から、人名や地名などフレーズを抽出することができるため、テキスト データ中の話題を解析するアプリケーションなどに応用が可能です。 3 固有名詞(企業名) 補正 テキストから固有名詞(企業名)を抽出・正規化します。 ・正規化された企業名を抽出するRESTful APIです。 ・表現の誤りや揺れを含む企業名に対して正規化された企業名情報を付与します。 ・入力文から一意の企業名を抽出することができるため、企業名を含む多数のテキ ストデータについて企業ごとの集計・解析に応用することが可能です。 田中は昨日富士山に登った。 「昨日」 時間 「富士山」 地名 「田中」 人名
  44. 44. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (1/5) 44 # API名 機能概要 1 構文解析 日本語テキストの構造と意味を解析します。 ・文の構造と意味を解析するRESTful API です。 ・入力された文を文節・形態素に分解し、文節間の係り受け関係や形態素間の係り 受け関係、品詞情報等の意味情報等を付与します。 ・「誰(何)が」「どうした」という情報を形態素と呼ばれる単語単位で切り出すこと ができるため、多数のテキストデータに対して情報を抽出・解析するデータマイニ ングなどに応用することが可能です。 2 固有表現抽出 人名や地名などの固有表現を抽出します。 ・人名や地名、日付表現(時間、日付)、組織名、量的表現(金額 、割合)、人工物の8 種類 の固有表現と、「関根の拡張 固有表現 階層」に基 づいた200種類 以上のクラス 数を持つ拡張 固有表現を出力するRESTful APIです。 ・入力文から、人名や地名などフレーズを抽出することができるため、テキスト データ中の話題を解析するアプリケーションなどに応用が可能です。 3 固有名詞(企業名) 補正 テキストから固有名詞(企業名)を抽出・正規化します。 ・正規化された企業名を抽出するRESTful APIです。 ・表現の誤りや揺れを含む企業名に対して正規化された企業名情報を付与します。 ・入力文から一意の企業名を抽出することができるため、企業名を含む多数のテキ ストデータについて企業ごとの集計・解析に応用することが可能です。 私はNTTに入社しました。 ↓ 私は日本電信電話に入社しました。
  45. 45. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (2/5) 45 # API名 機能概要 4 照応解析 「あれ」「彼/彼女」「同○○」「その○○」等の指示語を検知し、指し示す対象を 特定します。 ・「そこ」「それ」などの指示詞や「彼」「彼女」などの代名詞、「同○○」等の 照応詞に対応する先行詞(複数単語からなる先行詞を含む)を抽出し、同一のものとし てまとめて出力するRESTful APIです。 ・対話エンジンとユーザとの対話ログの解析において、代名詞を含む文とその前後 の文脈から、代名詞が指し示す単語を抽出することで、「彼」や「彼女」などのロ グ解析にあまり意味のない単語を先行詞に置き換え、より精密なログ解析を実現す ることが可能です。 5 キーワード解析 文章からキーワードを抽出します。 ・特徴的なフレーズ・単語をキーワードとして抽出するRESTful APIです。 ・算出される特徴的スコアに基づいて、指定した数のフレーズ・単語を降順に出力 します。 ・抽出したフレーズをニュース記事のタグとして用いることで、検索を容易にする アプリケーションなどに利用することが可能です。 6 類似度算出 2つの文章の類似性を数値化し出力します。 ・文の構造と意味を解析するRESTful API です。 ・入力された文を文節・形態素に分解し、文節間の係り受け関係や形態素間の係り 受け関係、品詞情報等の意味情報等を付与します。 ・文章に含まれる単語の意味情報を用いて類似度を算出しているため、異なった単 語を含むテキスト間の類似性も推定することができます。 ・検索システムやFAQ自動回答システム等の言語処理において、多様なユーザの質問 に対し最も類似しているテキストやFAQ中の回答等を抽出・返答するアプリケーショ ンなどに応用が可能です。 「太郎は花子と公園で遊んだ。」 「彼はそこで彼女と縄跳びをした」
  46. 46. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (2/5) 46 # API名 機能概要 4 照応解析 「あれ」「彼/彼女」「同○○」「その○○」等の指示語を検知し、指し示す対象を 特定します。 ・「そこ」「それ」などの指示詞や「彼」「彼女」などの代名詞、「同○○」等の 照応詞に対応する先行詞(複数単語からなる先行詞を含む)を抽出し、同一のものとし てまとめて出力するRESTful APIです。 ・対話エンジンとユーザとの対話ログの解析において、代名詞を含む文とその前後 の文脈から、代名詞が指し示す単語を抽出することで、「彼」や「彼女」などのロ グ解析にあまり意味のない単語を先行詞に置き換え、より精密なログ解析を実現す ることが可能です。 5 キーワード解析 文章からキーワードを抽出します。 ・特徴的なフレーズ・単語をキーワードとして抽出するRESTful APIです。 ・算出される特徴的スコアに基づいて、指定した数のフレーズ・単語を降順に出力 します。 ・抽出したフレーズをニュース記事のタグとして用いることで、検索を容易にする アプリケーションなどに利用することが可能です。 6 類似度算出 2つの文章の類似性を数値化し出力します。 ・文の構造と意味を解析するRESTful API です。 ・入力された文を文節・形態素に分解し、文節間の係り受け関係や形態素間の係り 受け関係、品詞情報等の意味情報等を付与します。 ・文章に含まれる単語の意味情報を用いて類似度を算出しているため、異なった単 語を含むテキスト間の類似性も推定することができます。 ・検索システムやFAQ自動回答システム等の言語処理において、多様なユーザの質問 に対し最も類似しているテキストやFAQ中の回答等を抽出・返答するアプリケーショ ンなどに応用が可能です。 「昨日は久しぶりに懐かしい友人と レストランで昼食を食べた。」 ↓ 友人 レストラン 昼食
  47. 47. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (2/5) 47 # API名 機能概要 4 照応解析 「あれ」「彼/彼女」「同○○」「その○○」等の指示語を検知し、指し示す対象を 特定します。 ・「そこ」「それ」などの指示詞や「彼」「彼女」などの代名詞、「同○○」等の 照応詞に対応する先行詞(複数単語からなる先行詞を含む)を抽出し、同一のものとし てまとめて出力するRESTful APIです。 ・対話エンジンとユーザとの対話ログの解析において、代名詞を含む文とその前後 の文脈から、代名詞が指し示す単語を抽出することで、「彼」や「彼女」などのロ グ解析にあまり意味のない単語を先行詞に置き換え、より精密なログ解析を実現す ることが可能です。 5 キーワード解析 文章からキーワードを抽出します。 ・特徴的なフレーズ・単語をキーワードとして抽出するRESTful APIです。 ・算出される特徴的スコアに基づいて、指定した数のフレーズ・単語を降順に出力 します。 ・抽出したフレーズをニュース記事のタグとして用いることで、検索を容易にする アプリケーションなどに利用することが可能です。 6 類似度算出 2つの文章の類似性を数値化し出力します。 ・文の構造と意味を解析するRESTful API です。 ・入力された文を文節・形態素に分解し、文節間の係り受け関係や形態素間の係り 受け関係、品詞情報等の意味情報等を付与します。 ・文章に含まれる単語の意味情報を用いて類似度を算出しているため、異なった単 語を含むテキスト間の類似性も推定することができます。 ・検索システムやFAQ自動回答システム等の言語処理において、多様なユーザの質問 に対し最も類似しているテキストやFAQ中の回答等を抽出・返答するアプリケーショ ンなどに応用が可能です。 文1:「近くのレストランはどこですか」 文2:「この辺りの定食屋はどこにありますか」 → 類似度:0.91079
  48. 48. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (3/5) 48 # API名 機能概要 7 文タイプ判定 挨拶や同意、約束などの発話行為のタイプを判定し、同時に、叙述文、命令文、質 問文などの文タイプを出力します。 ・人名や地名、日付表現(時間、日付)、組織名、量的表現(金額 、割合)、人工物の8 種類 の固有表現と、「関根の拡張 固有表現 階層」に基 づいた200種類 以上のクラス 数を持つ拡張 固有表現を出力するRESTful APIです。 ・疑問文であるか命令文であるかを判断できるため、ロボットや対話エンジンにお ける言語処理において、ユーザ発話に対する返答モジュールを適切に選択するアプ リケーションなどに応用が可能です。 8 ユーザー属性推定 (β) 文章からユーザの年代、職業などの属性を推定します。 ・年代、性別、趣味、職業などの人物に関する属性を推定するRESTful API です。 ・twitterにおけるユーザのtweetやprofileの入力を前提とするようにチューニングを しています。 9 言い澱み除去(β) ユーザからの音声入力時に含まれる言い淀みを除去します。 ・音声認識結果を受け取り、テキスト中の「あの」「えーと」などの言い淀みを抽 出・除去するRESTful APIです。 ・音声認識によって書き起こされた議事録などのテキストについて言い淀み除去を 適用することで、認識後のデータ活用の精度向上に利用することが可能です。 「食べました」→ 宣言文 / 情報提供 「食べましたか」→ 疑問文 / 情報獲得 「食べなさい」→ 命令文 / 命令
  49. 49. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (3/5) 49 # API名 機能概要 7 文タイプ判定 挨拶や同意、約束などの発話行為のタイプを判定し、同時に、叙述文、命令文、質 問文などの文タイプを出力します。 ・人名や地名、日付表現(時間、日付)、組織名、量的表現(金額 、割合)、人工物の8 種類 の固有表現と、「関根の拡張 固有表現 階層」に基 づいた200種類 以上のクラス 数を持つ拡張 固有表現を出力するRESTful APIです。 ・疑問文であるか命令文であるかを判断できるため、ロボットや対話エンジンにお ける言語処理において、ユーザ発話に対する返答モジュールを適切に選択するアプ リケーションなどに応用が可能です。 8 ユーザー属性推定 (β) 文章からユーザの年代、職業などの属性を推定します。 ・年代、性別、趣味、職業などの人物に関する属性を推定するRESTful API です。 ・twitterにおけるユーザのtweetやprofileの入力を前提とするようにチューニングを しています。 9 言い澱み除去(β) ユーザからの音声入力時に含まれる言い淀みを除去します。 ・音声認識結果を受け取り、テキスト中の「あの」「えーと」などの言い淀みを抽 出・除去するRESTful APIです。 ・音声認識によって書き起こされた議事録などのテキストについて言い淀み除去を 適用することで、認識後のデータ活用の精度向上に利用することが可能です。 「私は昨日田町駅で飲みに行ったら奥さんに怒られた。」 ↓ 年齢:40~49歳 既婚:yes 習慣:飲酒 職業:会社員 通勤手段:電車 趣味:動物、料理、釣り、ギャンブル…
  50. 50. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (3/5) 50 # API名 機能概要 7 文タイプ判定 挨拶や同意、約束などの発話行為のタイプを判定し、同時に、叙述文、命令文、質 問文などの文タイプを出力します。 ・人名や地名、日付表現(時間、日付)、組織名、量的表現(金額 、割合)、人工物の8 種類 の固有表現と、「関根の拡張 固有表現 階層」に基 づいた200種類 以上のクラス 数を持つ拡張 固有表現を出力するRESTful APIです。 ・疑問文であるか命令文であるかを判断できるため、ロボットや対話エンジンにお ける言語処理において、ユーザ発話に対する返答モジュールを適切に選択するアプ リケーションなどに応用が可能です。 8 ユーザー属性推定 (β) 文章からユーザの年代、職業などの属性を推定します。 ・年代、性別、趣味、職業などの人物に関する属性を推定するRESTful API です。 ・twitterにおけるユーザのtweetやprofileの入力を前提とするようにチューニングを しています。 9 言い澱み除去(β) ユーザからの音声入力時に含まれる言い淀みを除去します。 ・音声認識結果を受け取り、テキスト中の「あの」「えーと」などの言い淀みを抽 出・除去するRESTful APIです。 ・音声認識によって書き起こされた議事録などのテキストについて言い淀み除去を 適用することで、認識後のデータ活用の精度向上に利用することが可能です。 「私は、えー、あの、そのようなことは申してお りません。」 ↓ 「私は、そのようなことは申しておりません。」
  51. 51. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (4/5) 51 # API名 機能概要 10 音声認識誤り検知 (β) 音声認識処理後のテキストに対して、認識ミスの恐れがある単語を検知・抽出しま す。 ・音声認識結果における誤りのある個所を抽出するとともに、誤り箇所に関して訂 正候補を提示するRESTful APIです。 ・誤り個所は0-1のスコアとともに抽出され、1に近いほど誤りの可能性が高いこと を示します。 ・音声認識によって書き起こされた議事録などのテキストについて音声認識誤り検 知を適用することで、人手による修正が必要な個所のみを抽出することができるた め、効率的に仕上げの作業を行うことが可能です。 11 感情分析 文章作成時の書き手の感情をポジティブまたはネガティブで判定します。さらに文 章に含まれる「喜ぶ」や「驚く」といった特定の感情も認識します。 ・文の感情極性(Positive/Negative/Neutral)と文中の感情語を抽出するRESTful APIです。 ・入力文がポジティブな文であるかネガティブな文であるかを判断できるため、自 社製品のユーザからの口コミやレビュー等に対して、当該製品の評価されている点 や不満がある点を分析するアプリケーションなどに応用することができます。 12 音声認識 ユーザからの音声入力をテキスト化します。 ・ファイル形式またはストリーミング形式で音声データを受け取り、テキスト化す るAPIです。 ・音声認識専用のユーザ辞書登録・削除を行うAPIを合わせてご利用いただけます。 「温泉認識は誤りを起こす」 ↓ 「音声認識は誤りを起こす」 “P”
  52. 52. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (4/5) 52 # API名 機能概要 10 音声認識誤り検知 (β) 音声認識処理後のテキストに対して、認識ミスの恐れがある単語を検知・抽出しま す。 ・音声認識結果における誤りのある個所を抽出するとともに、誤り箇所に関して訂 正候補を提示するRESTful APIです。 ・誤り個所は0-1のスコアとともに抽出され、1に近いほど誤りの可能性が高いこと を示します。 ・音声認識によって書き起こされた議事録などのテキストについて音声認識誤り検 知を適用することで、人手による修正が必要な個所のみを抽出することができるた め、効率的に仕上げの作業を行うことが可能です。 11 感情分析 文章作成時の書き手の感情をポジティブまたはネガティブで判定します。さらに文 章に含まれる「喜ぶ」や「驚く」といった特定の感情も認識します。 ・文の感情極性(Positive/Negative/Neutral)と文中の感情語を抽出するRESTful APIです。 ・入力文がポジティブな文であるかネガティブな文であるかを判断できるため、自 社製品のユーザからの口コミやレビュー等に対して、当該製品の評価されている点 や不満がある点を分析するアプリケーションなどに応用することができます。 12 音声認識 ユーザからの音声入力をテキスト化します。 ・ファイル形式またはストリーミング形式で音声データを受け取り、テキスト化す るAPIです。 ・音声認識専用のユーザ辞書登録・削除を行うAPIを合わせてご利用いただけます。 「 iPhoneXの画面は綺麗だ」 ↓ 文全体の評価:Positive “P”
  53. 53. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (4/5) 53 # API名 機能概要 10 音声認識誤り検知 (β) 音声認識処理後のテキストに対して、認識ミスの恐れがある単語を検知・抽出しま す。 ・音声認識結果における誤りのある個所を抽出するとともに、誤り箇所に関して訂 正候補を提示するRESTful APIです。 ・誤り個所は0-1のスコアとともに抽出され、1に近いほど誤りの可能性が高いこと を示します。 ・音声認識によって書き起こされた議事録などのテキストについて音声認識誤り検 知を適用することで、人手による修正が必要な個所のみを抽出することができるた め、効率的に仕上げの作業を行うことが可能です。 11 感情分析 文章作成時の書き手の感情をポジティブまたはネガティブで判定します。さらに文 章に含まれる「喜ぶ」や「驚く」といった特定の感情も認識します。 ・文の感情極性(Positive/Negative/Neutral)と文中の感情語を抽出するRESTful APIです。 ・入力文がポジティブな文であるかネガティブな文であるかを判断できるため、自 社製品のユーザからの口コミやレビュー等に対して、当該製品の評価されている点 や不満がある点を分析するアプリケーションなどに応用することができます。 12 音声認識 ユーザからの音声入力をテキスト化します。 ・ファイル形式またはストリーミング形式で音声データを受け取り、テキスト化す るAPIです。 ・音声認識専用のユーザ辞書登録・削除を行うAPIを合わせてご利用いただけます。 音声をテキストに “P”
  54. 54. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (5/5) 54 # API名 機能概要 13 音声合成 テキストから音声を人工的に生成します。 ・テキストを受け取り、音声を人工的に生成するRESTful APIです。 ・音声合成専用の単語辞書及び文辞書の登録、一覧取得、更新、削除を行うRESTful APIを合わせてご利用いただけます。 ・文脈を考慮して読み分けられることに加え、複数の話者選択、話速や抑揚などを 調整することができるため、ユースケースに応じた合成音声を生成することが可能 です。 14 要約(β) 日本語で記述された文章を要約します。 ・日本語で記述された文章を入力すると抽出型の要約文を出力するRESTful APIです。 ・要約として出力したい文数を指定すると、重要度を判定し、指定された文数の要 約文を出力することができます。 入力されたテキストを音声に
  55. 55. Copyright © NTT Communications Corporation. All rights reserved. リリース済みAPIの紹介 (5/5) 55 # API名 機能概要 13 音声合成 テキストから音声を人工的に生成します。 ・テキストを受け取り、音声を人工的に生成するRESTful APIです。 ・音声合成専用の単語辞書及び文辞書の登録、一覧取得、更新、削除を行うRESTful APIを合わせてご利用いただけます。 ・文脈を考慮して読み分けられることに加え、複数の話者選択、話速や抑揚などを 調整することができるため、ユースケースに応じた合成音声を生成することが可能 です。 14 要約(β) 日本語で記述された文章を要約します。 ・日本語で記述された文章を入力すると抽出型の要約文を出力するRESTful APIです。 ・要約として出力したい文数を指定すると、重要度を判定し、指定された文数の要 約文を出力することができます。 前線が太平洋上に停滞しています。一方、高気圧が千島近海にあって、北日本から東日本を ゆるやかに覆っています。関東地方は、晴れ時々曇り、ところにより雨となっています。 東京は、湿った空気や前線の影響により、晴れ後曇りで、夜は雨となるでしょう ↓ 東京は、湿った空気や前線の影響により、晴れ後曇りで、夜は雨となるでしょう。
  56. 56. Copyright © NTT Communications Corporation. All rights reserved. 56 現状のCOTOHA APIのカバー範囲 形態素解析 構文解析 意味解析 文脈解析 ・形態素解析 ・固有表現抽出 ・句構造解析 ・係り受け解析 ・述語項構造解析 ・意味役割解析 ・照応解析 ・談話構造解析
  57. 57. Copyright © NTT Communications Corporation. All rights reserved.  オープニング  自然言語処理ってなに  自然言語処理の基礎技術紹介  COTOHA APIの紹介  COTOHA APIを使ってみた アジェンダ 57
  58. 58. Copyright © NTT Communications Corporation. All rights reserved.  あるお題に対してコンピュータに連想される語を答え させたい 自然言語処理を使って連想ゲーム 58 黄色 バナナ 赤色 赤 青 空 地面 ・ ・ ・・ ・ ・
  59. 59. Copyright © NTT Communications Corporation. All rights reserved. 1. 大量のテキストから事前に連想関係を抽出する 2. キーワードに対してその中から答える 連想ゲームの方針 59 解析結果 解析結果から 連想関係を抽出 キーワード この中から 答える
  60. 60. Copyright © NTT Communications Corporation. All rights reserved.  返すべき語 • 同じ種類の単語 赤ー青 • 対応する語 空ー地面 • 名詞ー動詞 鳥ー飛ぶ • 名詞ー形容詞 バナナー黄色 • クラスーインスタンス 電車ー山手線 → 構文情報から連想関係を抽出する 自然言語処理を使って連想関係の抽出 60
  61. 61. Copyright © NTT Communications Corporation. All rights reserved.  同じ種類の語、対応する語 「赤と青が好き」 赤ー青 → “conj” 2つの単語が 並列関係であることを表す 構文情報から連想関係を抽出 61
  62. 62. Copyright © NTT Communications Corporation. All rights reserved.  名詞ー動詞 「鳥が飛ぶ」 鳥ー飛ぶ → “agent” 動詞から見たときの主語を表す 構文情報から連想関係を抽出 62
  63. 63. Copyright © NTT Communications Corporation. All rights reserved.  名詞ー形容詞 「黄色いバナナを食べる」 バナナー黄色い → “amod” 形容詞による修飾 構文情報から連想関係を抽出 63
  64. 64. Copyright © NTT Communications Corporation. All rights reserved.  Wikipediaのテキストから自動的に作成 • 138,937文(全体の2%ほど) 連想関係ネットワーク 64
  65. 65. Copyright © NTT Communications Corporation. All rights reserved. 自然言語処理による連想ゲームのデモ 65 COTOHA APIでマジカルバ・ナ・ナ!! https://qiita.com/gossy5454/items/f7866da89d761f020e1f をご覧ください。
  66. 66. Copyright © NTT Communications Corporation. All rights reserved.  少しでも自然言語処理について少しでも興味を持って いただけたら嬉しいです。 ぜひCOTOHA APIを使ってみてください。  COTOHA APIはQiitaに記事も投稿されています。 よろしければそちらも読んでみてください。 まとめ 66

×