More Related Content Similar to 一年目がWatsonを調べてみた Discovery編 (20) 一年目がWatsonを調べてみた Discovery編7. Discovery主機能(Query)
7
• Discovery Query Language
エンリッチされたカラムに対して検索可能
• 自然文検索 (Natural Language Query)
従来のキーワードによる検索及び自然文での検索が可能
• 関連性学習 (Relevancy Training)
質問と回答候補の関連性を学習させることにより、最適なランキングモ
デルに育てる事が可能(自然文検索のみ)
エンリッチ機能で付加された情報を含めてデータ検索が可能
13. Retrieve and Rankとの違い
13
• NLU、WKSの機能が利用可能なので、抽出したカラムに対して検索す
る事ができる
• 文書の形式変更や初期設定が不要
• UI画面がついた
• API経由で検索をかける際にPOSTではなくGETを使うため文字制限があ
る※
• 辞書登録ができないため、専門的な用語がとれない※
• 全文検索のためシステムによって付与される情報も検索対象となる※
※私が確認した限りでは
Editor's Notes Bluemix築地のコンセプトである初心者でも発表できる場というところで私にはうってつけ
至らない点も多々あると思いますが、ここ違うよっていうものがあればもし後ほど教えていただければと思います。
それでは 解釈
Discoveryはシンプルな構成で、より多くの機能を実現 ストレージ・サイズの上限は1TB位 エンリッチ機能は文書を取り込む
エンリッチされたメタ情報を検索条件として使えるので、通常の検索エンジンと⽐較してはるかに⾼度な検索が可能
概念
Concepts
⼊⼒テキストが関連付けられている概念を、そのテキストに存在する他の概念とエンティティに基づいて識別します。
エンティティ
Entities
⽂中に記載されている⼈物、場所、イベント、その他のエンティティを検索します。
キーワード
Keywords ⽂中に繰り返し出てくる重要なキーワードを抽出します。
カテゴリー
Categories
対象⽂書を最⼤5レベルの分類基準に従って分類します。カテゴリーの⼀覧は下記リンクにあります。
評判
Sentiment ⽂章全体及び特定のフレーズに対して、その評判をpositive, negative, nutral の3値で分析します。
感情
Emotion ⽂章全体及び特定のフレーズに対して、その感情をjoy, anger, disgust, sadness, fearの5つの観点で分析します。
関係
Relations 2つのエンティティ間の関係を⾒つけ、その関係性を判別します。
意味役割
Semantic Roles 構⽂解析により⼊⼒⽂を「主語(Subject)」「動詞(Action)」「⽬的語(Object)」に分解します。
その他
Metadata HTMLファイルまたはURLを⼊⼒とし、そのHTMLの著者、タイトル、発⾏⽇を分析します。 検索結果のフィルターや集計を行うことが可能
こちらにもUIがあります
それが VQBという検索UIツールでここで様々なオプションを付けて検索を行う事ができます
Search for document で自然文を使うかDQLを使うかの指定を行います。
集約関数やフィルタの設定もここでできます。
2つの検索方法のうちのまずDQLから
Discovery query language DQLでは検索対象をカラムで絞り込んで検索を行います。
UIを使うと自動でDQLを生成してくれるのでそれを使って検索する事ができる
右がsummaryで表示した結果です こちらは自然文検索の結果をJSONで出力したもので、スコア付きで回答されている事がわかります。
文面だけでなく「意味」を判断するため、人間が話し言葉で打った質問に回答を返してくれます。
どのような条件で検索するとどういう結果がかえってくるかが確認
次にその回答をより適切なものにするための関連性学習について 質問文をいれるとその回答がでるので回答毎にその回答が正解か正解じゃないかを選択して
所定の品質 最低でも49個の質問について選択しなければならない
Discoveryのインスタンスを作るとデフォルトで表示されています
データの保存先 テキストデータではなくファイル名でHITしてしまう場合がある
2000文字程度 まだ未熟ですがこれから成長していきたいと思います。