Recommended
PDF
PDF
Solrで多様なランキングモデルを活用するためのプラグイン開発 #SolrJP
PDF
Elasticsearch勉強会#44 20210624
PPTX
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
PDF
PPTX
オンライン物理バックアップの排他モードと非排他モードについて ~PostgreSQLバージョン15対応版~(第34回PostgreSQLアンカンファレンス...
PPTX
PDF
Fess/Elasticsearchを使った業務で使える?全文検索への道
PDF
Azureを頑張る理由と頑張り方(Cloud Skills Challenge 2022 winter 発表資料)
PDF
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
PPTX
Azure サービスを活用して作るフルマネージドな全文検索アプリケーション
PDF
PDF
MonotaRO のデータ活用と基盤の過去、現在、未来
PDF
Demystifying Identities for Azure Kubernetes Service
PDF
どうする計画駆動型スクラム(スクラムフェス大阪2023 発表資料)
PPTX
LIFULL HOME'SでのSolrの構成と運用の変遷
PDF
コンテナとimmutableとわたし。あとセキュリティ。(Kubernetes Novice Tokyo #15 発表資料)
PDF
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
PPTX
JAZUG12周年 俺の Azure Cosmos DB
PPTX
AWS reInvent 2023 re:Cap services Slide deck
PDF
PDF
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
PDF
PPTX
グラフ構造のデータモデルをPower BIで可視化してみた
PDF
PDF
Swagger ではない OpenAPI Specification 3.0 による API サーバー開発
PDF
ストリーム処理プラットフォームにおけるKafka導入事例 #kafkajp
PDF
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
PPTX
Solr から使う OpenNLP の日本語固有表現抽出
PDF
Learning-to-Rank meetup Vol. 1
More Related Content
PDF
PDF
Solrで多様なランキングモデルを活用するためのプラグイン開発 #SolrJP
PDF
Elasticsearch勉強会#44 20210624
PPTX
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
PDF
PPTX
オンライン物理バックアップの排他モードと非排他モードについて ~PostgreSQLバージョン15対応版~(第34回PostgreSQLアンカンファレンス...
PPTX
PDF
Fess/Elasticsearchを使った業務で使える?全文検索への道
What's hot
PDF
Azureを頑張る理由と頑張り方(Cloud Skills Challenge 2022 winter 発表資料)
PDF
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
PPTX
Azure サービスを活用して作るフルマネージドな全文検索アプリケーション
PDF
PDF
MonotaRO のデータ活用と基盤の過去、現在、未来
PDF
Demystifying Identities for Azure Kubernetes Service
PDF
どうする計画駆動型スクラム(スクラムフェス大阪2023 発表資料)
PPTX
LIFULL HOME'SでのSolrの構成と運用の変遷
PDF
コンテナとimmutableとわたし。あとセキュリティ。(Kubernetes Novice Tokyo #15 発表資料)
PDF
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
PPTX
JAZUG12周年 俺の Azure Cosmos DB
PPTX
AWS reInvent 2023 re:Cap services Slide deck
PDF
PDF
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
PDF
PPTX
グラフ構造のデータモデルをPower BIで可視化してみた
PDF
PDF
Swagger ではない OpenAPI Specification 3.0 による API サーバー開発
PDF
ストリーム処理プラットフォームにおけるKafka導入事例 #kafkajp
PDF
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
More from Koji Sekiguchi
PPTX
Solr から使う OpenNLP の日本語固有表現抽出
PDF
Learning-to-Rank meetup Vol. 1
PPTX
Lucene 6819-good-bye-index-time-boost
PPTX
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
PDF
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
PDF
PDF
PDF
コーパス学習による Apache Solr の徹底活用
PDF
PDF
LUCENE-5252 NGramSynonymTokenizer
PDF
PPTX
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
PPTX
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
PPTX
PPTX
PPTX
Visualize terms network in Lucene index
PPTX
WikipediaからのSolr用類義語辞書の自動生成
PPTX
PPTX
PPTX
OpenNLP - MEM and Perceptron
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf 1. 2. 3. 内容
● デモ https://demo.rondhuit.com/
● セマンティックサーチの応用例
● キーワード検索との比較
○ キーワード検索の限界とセマンティックサーチによる改善
● キーワード検索との技術比較
○ Semantic vs. Bag-of-Words
○ Sparse vs. Dense
○ Boolean vs. ANN Vector
● 他社製検索エンジンの「セマンティック検索」との比較
● キーワード検索の今後
● まとめ
3
4. セマンティックサーチの応用例
● ECサイト
○ 街中で見た商品を写真に撮って、普段使っている ECサイトで写真から商品を検索して購入
● チャットボット
○ ドメイン特有のキーワードを知らないユーザーでも、ズバリの答え( FAQリンク等)を探し当てやすく
なる ⇒ 利用者のイライラを解消
● 辞書・慣用句・ことわざなどの表現検索
○ 書き物をしている際、表現したいことを端的に記述する慣用句などを検索
■ (クエリ例)「当人より冷静な周りの人の方が状況判断できる」
⇒「岡目八目」:第三者は当事者よりも情勢が客観的によく判断できるということ。〔人の碁を
わきから見ていると,打っている人より八目も先まで手が読めるということから〕
● 社内知識共有/ナレッジマネジメント
○ 従来型のキーワード検索では実現できない検索が実現可能(次ページ参照)
4
5. ナレッジマネジメント(企業内検索システム)の限界
● 日本生命 沼田課長よりヒアリング
○ 調べたいこと:「損金を計上するメリットとは?」
○ 現状のキーワード検索だと、「損金」「計上」「メリット」というキーワードで検索することになる。 ⇒
キーワードをバラバラに含む文書が多数ヒットして、探したいものが見つからない。
○ 調べたいこと:「契約者と被保険者が別人の時の保全の手続き」
○ 調べたいこと:(年齢によって異なる)「 30歳の本人確認書類」
5
… … … … … … … メリット … … … … … … …。 … … … …
… …… … … … … … …… … … … … … …… … … … … …
… 損金 … … 。 … … … …… … … … … … …… … … … …
… …… … … … … … … … … … … … … …… … … … … …
…… … … … … … …。 … … … … … …… … … … … …
…… … … … … … …… … … … … … … 計上 … … 。 …
6. 7. 従来型のキーワード検索との比較
● 従来のキーワード検索では文書に含まれるキーワードを入力しないと検索できない
○ ある程度業務ドメインの知識がないと検索できない
○ ドメイン知識があっても、同じ意味を持つキーワードは複数存在するので、類義語辞書のメンテナンスが欠かせない
● セマンティックサーチでは必ずしもクエリのキーワードはヒットする必要がない
○ 業務ドメインの知識がなくても、調べたいことを自分なりの表現にすれば検索できる
■ (例)ECサイトで「机を組み立てるのに必要な工具」
■ (例)辞書・慣用句・ことわざを調べるのに、意味から調べられる
■ (例)法令・判例検索システムを法科大学院の学生や新人の判事・検事・弁護士の研修に用いる
○ コーパス収集時期とクエリ時期が離れていても検索できる
■ (例)古い文献を現代の表現で検索できる(かも)
● 従来のキーワード検索における検索性能 *1
を向上させるための施策
○ 文字等さまざまな正規化
○ 形態素解析と文字
N-gramの使い分けや組み合わせ
○ キーワードの表記揺れ対策やシノニム定義
○ フィールドの重み付け
○ クエリサジェスチョンetc.
● セマンティックサーチは上記従来テクニックを一切不要にする破壊的な技術
7
*1: 情報検索における精度(
Precision)と再現率(Recall)のことを指します。
8. 9. 技術要素比較:Bag-of-Words vs. Semantic
● Bag-of-Words: 各単語が何回文書に
出現したか。語順、文の構造などは文
書に現れない。Tokenizer。
9
● Semantic: 検索対象(テキスト・画像
等)の意味を考慮したベクトル表現を
用いる。ニューラルネットワーク。
○ テキスト:BERT
○ 画像:CNN
10. 技術要素比較:Sparse vs. Dense
● 従来型のキーワード検索では、1単語をベク
トル空間の1次元に対応させる。
○ コーパスの単語種類数がベクトル空間の次元数と
なるので、検索対象文書とクエリとも、多くの要素が
0(ゼロ)となるベクトルで表現される。⇒Sparse
(疎) Vector
10
O’Reilly Applied Text Analysis - Chapter 4. Text Vectorization and Transformation Pipelines
● セマンティックサーチでは、クエリや文書の意
味・意図を固定次元のベクトルで表現する。
○ 上記と比べて低次元の、ほとんど全ての要素が
0
(ゼロ)でないベクトルで表現される。⇒Dense(密)
Vector
Hariom Gautam - Word Embedding: Basics (https://medium.com/@hari4om/word-embedding-d816f643140)
11. 技術要素比較:Boolean vs. ANN Vector
● Boolean: 転置インデックスを右図のよう
なアルゴリズムで探索し、ヒットした文書集
合をBM25などのスコア関数を用いてクエ
リとの類似度順にソートして返却
11
Information Retrieval: Implementing and Evaluating Search Engines by Stefan Buettcher, Charles L. A. Clarke, Gordon V. Cormack
● ANN Vector: 全文書に対してスコア計算
(内積やコサインなど)を行うわけにいか
ないので、近似最近傍探索(ANN)を行
い、得られた限定的な文書セットについて
スコア計算を行い、TOP-Kの文書を返却
12. 13. 14.