Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Jimuc watson iugc2020

175 views

Published on

IBM User Group Conference 2020 Watson Discoveryによる回答の適切性改善 JIMUC API & Watsonナレッジベース分科会 Elementum Consulting LLC 増田 和紀

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

Jimuc watson iugc2020

  1. 1. IBM ミドルウェア・ユーザー研究会 IBM User Group Conference 2020 Watson Discoveryによる回答の適切性改善 JIMUC API & Watsonナレッジベース分科会 Elementum Consulting LLC 増田 和紀 2020年6月25日
  2. 2. IBM ミドルウェア・ユーザー研究会 Japan IBM Middleware User Community (JIMUC) IBM ミドルウェア・ユーザー研究会(JIMUC) は、 Cloud Software 製品とそのソリューションの有効活用を指向して、 ユーザー間および日本アイ・ビー・エムとの情報交換を通して研鑚と交流を図り、会員相互の共通の利益を追求する ために結成した非営利団体です。 IBMミドルウェア・ユーザー研究会 紹介 利用 ユーザー 取扱 パートナー IBM クラウド ソフトウェア 総会 テーマ別分科会 海外研修派遣 オープン・セミナー Webサイト News配信 分科会ー毎月開催 ・先進IT運用管理分科会(15 名/13社) ・API & Watson ナレッジベース分科会(26名/15社) 英語塾-毎月2回 IBM Champion 21名 50社 約600 名
  3. 3. IBM ミドルウェア・ユーザー研究会 Discoveryテストについて 80点の適切性で、結果・回答が出来るか。
  4. 4. IBM ミドルウェア・ユーザー研究会 80点とは? 質問 回答 回答6 回答7 回答8 回答9 回答10 回答1 回答2 回答3 回答4 回答5 • 平均して、回答2に、欲しい情報が返される。 Watson Discovery プリウスの適正な空気圧 を教えてください。 前輪 260 後輪 250
  5. 5. IBM ミドルウェア・ユーザー研究会 KGI KPI KPI KPI KPI KPI KPI 業務を改善するWatson • Discoveryの業務改善を測定可能にする。 ヘルプデスク 平均応答時間が1/2に 適切な個所が表示されるまで の操作時間は、30秒以内 自然文の質問から、文書の 適切な個所が3番目以内に 表示される。
  6. 6. IBM ミドルウェア・ユーザー研究会 • オープンデータを使って、Discoveryのテスト • オープンデータの投入 • テスト方法の検討 • テストの分担 • テストの記録方法(KPI) • Prius取扱書を使用し、質問と回答のセットを手分けして作成、 Discovery上でテストを実施した。 KPIを測定する。 PRIUS取扱書 688 Page
  7. 7. IBM ミドルウェア・ユーザー研究会 •50点 100問の平均 •実用化には、30点不足している! テスト結果(11/20) 50点 80点 ギャップ 誰が質問する かによって、大 きく異なる。
  8. 8. IBM ミドルウェア・ユーザー研究会不適切な回答に着眼 原因と対策協議 Discoveryで 用意されている対策 照会拡張 言葉を言い換える ストップワード 不要な用語を使わない Smart Document Understanding ドキュメントの目次、タイトル、 本文などを認識 Watson Knowledge Studio 専門用語を認識 機械学習 (Relevancy Training) Q&A関連性を学習させる
  9. 9. IBM ミドルウェア・ユーザー研究会 • 両方向 • 単一方向 Discoveryで用意された対策 照会拡張 IBM International Business Machines Big Blue りんご シナノゴールド フルーツ https://cloud.ibm.com/docs/services/discovery?topic=discovery-query-concepts&locale=ja ※JSONで定義可能 { "expansions": [ { "expanded_terms": [ "ibm", "international business machines", "big blue" ] } ] } 表現の揺れを カバーする。
  10. 10. IBM ミドルウェア・ユーザー研究会 • ストップワードとは、ほとんど意味がないので照会から除外するワードのことです。 例えば、a、an、the などです。 ストップワード・リストに一般的なワードを追加す ると、自然言語照会に対する結果の関連性も向上します。 • Japanese default stopword list の、に、は、を、た、が、で、て、と、し、れ、さ、ある、いる、も、する、から、な、こと、として、い、や 、れる、など、なっ、ない、この、ため、その、あっ、よう、また、もの、という、あり、まで、られ、なる 、へ、か、だ、これ、によって、により、おり、より、による、ず、なり、られる、において、ば、なかっ、 なく、しかし、について、せ、だっ、その後、できる、それ、う、ので、なお、のみ、でき、き、つ、にお ける、および、いう、さらに、でも、ら、たり、その他、に関する、たち、ます、ん、なら、に対して、特 に、せる、及び、これら、とき、では、にて、ほか、ながら、うち、そして、とともに、ただし、かつて、そ れぞれ、または、お、ほど、ものの、に対する、ほとんど、と共に、といった、です、とも、ところ、ここ ※おそらく、“~について、知りたい。 ~を教えてください。”なども意味がない。 Discoveryで用意された対策 ストップワード https://cloud.ibm.com/docs/services/discovery?topic=discovery-query-concepts&locale=ja
  11. 11. IBM ミドルウェア・ユーザー研究会 Smart Document Understanding SDU では、文書内のフィールドに注釈を付けることでカスタム変換モデルをトレーニ ングします。 ユーザーが注釈を付けることで、Watson は学習を行い、注釈の予測 を開始します。 SDU モデルは、エクスポートして他のコレクションで使用することがで きます。 https://cloud.ibm.com/docs/services/discovery?topic=discovery-sdu&locale=ja
  12. 12. IBM ミドルウェア・ユーザー研究会 • 目的 • 質問とドキュメントの関連性を学習させ、適切性を改善する。 • 手法 1.ツールを使用した結果関連性の改善 2.API を使用した結果関連性の改善 • 考え方 • Retrieve & Rankと同じ 機械学習(Relevancy Training) 回答f 回答g 回答h 回答i 回答j 回答a 回答b 回答c 回答d 回答e 質問:パノラミックビュー モニターを使用するときの 注意点を教えてください。
  13. 13. IBM ミドルウェア・ユーザー研究会 •66.4点 110問の平均 •目標は達成できず。 •実用化には、あと13.4点不足! 最終テスト結果(6/17時点) 50点 80点 ギャップ 54点 11/20 12/18 62.3点 1/22 64.2点 4/15 66.4点 6/17
  14. 14. IBM ミドルウェア・ユーザー研究会 Discoveryで 用意されている対策 照会拡張 言葉を言い換える 効果あり ストップワード 不要な用語を使わない 実施せず (影響が小さい。) Smart Document Understanding ドキュメントの目次、タイトル、 本文などを認識 実施できず (ドキュメントが大きすぎる。) Watson Knowledge Studio 専門用語を認識 実施せず (次年度のテーマ) 機械学習 (Relevancy Training) Q&A関連性を学習させる 効果あり 110問中、25問については、三位以内に回答を上げることは出来なかった。 対策後の状況 × -
  15. 15. IBM ミドルウェア・ユーザー研究会 Briana Walker 2020-03-27 05:34:43 Hello Kazuki-san, I am today to provide an update on the status of this issue. The investigation into your problem experience is still on-going, and we are continuing to work with the development team towards a fix/resolution. As more details become available, we will communicate them to you directly via the support ticket. Thank you for your patience as we pursue resolution on this matter. Rich Langan 2020-04-22 22:55:37 Close notes: Hello - This issue is being prioritized by our internal technical teams for a future release. Tracked internally via - https://github.ibm.com/Watson-Discovery/disco-support/issues/164 不要なSPACEの対応状況 ここに入れない。 (^^;
  16. 16. IBM ミドルウェア・ユーザー研究会 • Synonymで言葉をむりやり言い換えることはしなかった。 • 質問文をマニュアルの記述に近づけれることはしなかった。 • 不要なスペースの問題が、解決されれば、おそらく点数は上がる。 • 機械学習により、三位を一位、二位に上げることが恐らくできる。 • 一回の対話だけで、80点を出すことは難しく、関連するキーワードを表示するなどして、複数の対話で、 必要な情報を三位以内に上げるなどAP上の考慮が必要となる。 • 専門分野を扱うデータの場合は、Knowledge Studioの辞書、エンティティ、リレーションがさらに有効に 機能する。 振り返り
  17. 17. IBM ミドルウェア・ユーザー研究会 • 企業の中で埋もれている専門知識と、Discovery+Watson Knowledge Studioの利用 • 企業の中には、コールセンターのQ&A、工場の機械故障・原因・対策、事故情 報・原因・対策など、RDB化されたり、エクセルシートで格納された半構造化デー タが蓄積されている。 • ここで言う半構造化データとは、PDFやワード文書ではない、一件一葉のレコード としての構造化データではあるが、事故、原因、対策等は、テキストとしての非構 造化データであり、組み合わせて使われているものを指す。 • このような半構造化データを、自動的にNLCなどを使って分類し、統計的にデータ を抽出できるようにし、自然言語検索で、事故情報から、原因を抽出することがで きるはずである。 2020年度 API & Watson Knowledgebase分科会
  18. 18. IBM ミドルウェア・ユーザー研究会 API & Watsonナレッジベース分科会

×