1 日本情報通信株式会社
廣川 陣
1年目がWatsonを調べてみた!
~Discovery編~
1
Speaker
2
日本情報通信株式会社
ソリューションビジネス本部 ソフトウェアテクニカルセールス部
先進テクノロジーグループ
廣川 陣(Jin Hirokawa)
入社1年目
チームの戦力になるために日々奮闘中
出身地:大田区
Discoveryの概要
3
大量のデータを検索するとともに、データからパターン
や傾向を読み取り、適切な意思決定を支援します。
いろいろな形式の文書を解釈して良い感じに情報を付加
してくれるから、検索精度を上げてくれるし洞察も与え
てくれる素敵な検索エンジン
Discoveryの主機能
4
• 文書取込機能:HTML/PDF/WORD/JSONに対応
• エンリッチ機能:取り込んだ文書に対してタグ付けを行う
• ストレージ機能:データをクラウド上に保存する
• 検索機能:タグ付けした情報を含め、類似度スコア付きのデータ検索が可能
Discovery主機能(Crawler)
5
文書取込方法
・管理UI
Drag&Dropで取込可能
・API
API経由でファイルアップロード可能
・クローラ
javaベースのクローラがあり、自動文書取込が可能
Document Conversionと同等の機能を持った文書取込機能
管理UI
HTML/PDF/WORD/JSONに対応
TEXT/HTML/DBデータなどに対応
Discovery主機能(Enrich)
6
・概念(Concepts)
・エンティティ(Entities)
・キーワード(Keywords)
・カテゴリー(Categories)
・評判(Sentiment)
・感情(Emotion)
・関係(Relations)
・意味役割(Semantic Roles)
・その他(Metadata)
NLUを呼出し、その結果をメタ情報の一つとして登録
エンリッチ(抽出する単語の意味)を指定
・現在は英語とスペイン語が対応
・認識できるエンティティとカテ
ゴリーは事前に定義された項目
・Watson Knowledge Studioと
組み合わせる事でエンリッチし
たいフィールドを自由にカスタマ
イズする事が可能
※EntityとRelationのみ日本語可
NLUによる追加可能情報
Discovery主機能(Query)
7
• Discovery Query Language
エンリッチされたカラムに対して検索可能
• 自然文検索 (Natural Language Query)
従来のキーワードによる検索及び自然文での検索が可能
• 関連性学習 (Relevancy Training)
質問と回答候補の関連性を学習させることにより、最適なランキングモ
デルに育てる事が可能(自然文検索のみ)
エンリッチ機能で付加された情報を含めてデータ検索が可能
Top10やsumなどの集約関数
対象文書を絞り込む
Visual Query Builder
8
UIツールで検索方法を指定
Discovery Query Language
9
エンリッチ機能で抽出したカラムに対して検索
DQL
自然文検索
10
自然文検索に対してスコア付きで回答する
関連性学習
11
トレーニング画面
自然文検索の回答に対して適・不適を選択
所定の品質になるとトレーニング可能になる
Discovery News
12
• データの登録が必要なく、すぐに活用可能
• 10万のニュースソースから毎日約 30万件の記事とブロ
グを追加して常に更新され、過去60日間の履歴を保持
• NLUによるエンリッチ済のデータセットが用意されてい
る
Retrieve and Rankとの違い
13
• NLU、WKSの機能が利用可能なので、抽出したカラムに対して検索す
る事ができる
• 文書の形式変更や初期設定が不要
• UI画面がついた
• API経由で検索をかける際にPOSTではなくGETを使うため文字制限があ
る※
• 辞書登録ができないため、専門的な用語がとれない※
• 全文検索のためシステムによって付与される情報も検索対象となる※
※私が確認した限りでは
まとめ
14
• 1年目のWatson初心者でも簡単に使えるUI
• Retrieve and Rankの機能を持ち合わせてい
るが制約がある。
• エンリッチされた情報を使えるので、通常の検索エンジ
ンと⽐較して⾼度な検索が可能

一年目がWatsonを調べてみた Discovery編

Editor's Notes

  • #3 Bluemix築地のコンセプトである初心者でも発表できる場というところで私にはうってつけ 至らない点も多々あると思いますが、ここ違うよっていうものがあればもし後ほど教えていただければと思います。 それでは
  • #4 解釈 Discoveryはシンプルな構成で、より多くの機能を実現
  • #5 ストレージ・サイズの上限は1TB位
  • #7 エンリッチ機能は文書を取り込む エンリッチされたメタ情報を検索条件として使えるので、通常の検索エンジンと⽐較してはるかに⾼度な検索が可能 概念 Concepts ⼊⼒テキストが関連付けられている概念を、そのテキストに存在する他の概念とエンティティに基づいて識別します。 エンティティ Entities ⽂中に記載されている⼈物、場所、イベント、その他のエンティティを検索します。 キーワード Keywords ⽂中に繰り返し出てくる重要なキーワードを抽出します。 カテゴリー Categories 対象⽂書を最⼤5レベルの分類基準に従って分類します。カテゴリーの⼀覧は下記リンクにあります。 評判 Sentiment ⽂章全体及び特定のフレーズに対して、その評判をpositive, negative, nutral の3値で分析します。 感情 Emotion ⽂章全体及び特定のフレーズに対して、その感情をjoy, anger, disgust, sadness, fearの5つの観点で分析します。 関係 Relations 2つのエンティティ間の関係を⾒つけ、その関係性を判別します。 意味役割 Semantic Roles 構⽂解析により⼊⼒⽂を「主語(Subject)」「動詞(Action)」「⽬的語(Object)」に分解します。 その他 Metadata HTMLファイルまたはURLを⼊⼒とし、そのHTMLの著者、タイトル、発⾏⽇を分析します。
  • #8 検索結果のフィルターや集計を行うことが可能 こちらにもUIがあります それが
  • #9 VQBという検索UIツールでここで様々なオプションを付けて検索を行う事ができます Search for document で自然文を使うかDQLを使うかの指定を行います。 集約関数やフィルタの設定もここでできます。 2つの検索方法のうちのまずDQLから Discovery query language
  • #10 DQLでは検索対象をカラムで絞り込んで検索を行います。 UIを使うと自動でDQLを生成してくれるのでそれを使って検索する事ができる 右がsummaryで表示した結果です
  • #11 こちらは自然文検索の結果をJSONで出力したもので、スコア付きで回答されている事がわかります。 文面だけでなく「意味」を判断するため、人間が話し言葉で打った質問に回答を返してくれます。 どのような条件で検索するとどういう結果がかえってくるかが確認 次にその回答をより適切なものにするための関連性学習について
  • #12 質問文をいれるとその回答がでるので回答毎にその回答が正解か正解じゃないかを選択して 所定の品質 最低でも49個の質問について選択しなければならない
  • #13 Discoveryのインスタンスを作るとデフォルトで表示されています データの保存先
  • #14 テキストデータではなくファイル名でHITしてしまう場合がある 2000文字程度
  • #15 まだ未熟ですがこれから成長していきたいと思います。