Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
Uploaded by
Shinsuke Sugaya
PDF, PPTX
12,148 views
社内ドキュメント検索システム構築のノウハウ
企業内検索システムを作る際に遭遇するような課題を紹介します。
Technology
◦
Read more
5
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 27
2
/ 27
Most read
3
/ 27
4
/ 27
5
/ 27
6
/ 27
7
/ 27
8
/ 27
9
/ 27
10
/ 27
11
/ 27
12
/ 27
13
/ 27
14
/ 27
15
/ 27
16
/ 27
17
/ 27
18
/ 27
Most read
19
/ 27
20
/ 27
21
/ 27
22
/ 27
Most read
23
/ 27
24
/ 27
25
/ 27
26
/ 27
27
/ 27
More Related Content
PDF
Fess/Elasticsearchを使った業務で使える?全文検索への道
by
Shinsuke Sugaya
PDF
SolrとElasticsearchを比べてみよう
by
Shinsuke Sugaya
PDF
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
by
Takahiko Ito
PDF
PlaySQLAlchemy: SQLAlchemy入門
by
泰 増田
PDF
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
by
NTT DATA Technology & Innovation
PPTX
ビッグデータ処理データベースの全体像と使い分け 2018年version
by
Tetsutaro Watanabe
PDF
Dockerイメージの理解とコンテナのライフサイクル
by
Masahito Zembutsu
PPTX
Azure Search 大全
by
Daiyu Hatakeyama
Fess/Elasticsearchを使った業務で使える?全文検索への道
by
Shinsuke Sugaya
SolrとElasticsearchを比べてみよう
by
Shinsuke Sugaya
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
by
Takahiko Ito
PlaySQLAlchemy: SQLAlchemy入門
by
泰 増田
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
by
NTT DATA Technology & Innovation
ビッグデータ処理データベースの全体像と使い分け 2018年version
by
Tetsutaro Watanabe
Dockerイメージの理解とコンテナのライフサイクル
by
Masahito Zembutsu
Azure Search 大全
by
Daiyu Hatakeyama
What's hot
PPTX
SPAセキュリティ入門~PHP Conference Japan 2021
by
Hiroshi Tokumaru
PPTX
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
PDF
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
by
NTT DATA Technology & Innovation
PPTX
グラフデータベース入門
by
Masaya Dake
PDF
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
by
NTT DATA Technology & Innovation
PDF
ナレッジグラフ/LOD利用技術の入門(後編)
by
KnowledgeGraph
PDF
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
by
Yahoo!デベロッパーネットワーク
PPTX
Databricksを初めて使う人に向けて.pptx
by
otato
PDF
PostgreSQLアンチパターン
by
Soudai Sone
PDF
マイクロにしすぎた結果がこれだよ!
by
mosa siru
PDF
Apache Kafka 0.11 の Exactly Once Semantics
by
Yoshiyasu SAEKI
PPTX
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
by
NTT DATA Technology & Innovation
PDF
クラウドのためのアーキテクチャ設計 - ベストプラクティス -
by
SORACOM, INC
PDF
Javaのログ出力: 道具と考え方
by
Taku Miyakawa
PDF
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
by
Takuto Wada
PDF
実践!Elasticsearch + Sudachi を用いた全文検索エンジン
by
S. T.
PDF
チームメイトのためにdocstringを書こう! pyconjp2019
by
cocodrips
PDF
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
by
Takahiro Inoue
PDF
オープンソースで構築するWebメタバース ~Mozilla Hubsで学ぶUX開発から運用コスト最小化まで #CEDEC2022
by
GREE VR Studio Lab
PDF
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
by
Trainocate Japan, Ltd.
SPAセキュリティ入門~PHP Conference Japan 2021
by
Hiroshi Tokumaru
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
by
NTT DATA Technology & Innovation
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
by
NTT DATA Technology & Innovation
グラフデータベース入門
by
Masaya Dake
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
by
NTT DATA Technology & Innovation
ナレッジグラフ/LOD利用技術の入門(後編)
by
KnowledgeGraph
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
by
Yahoo!デベロッパーネットワーク
Databricksを初めて使う人に向けて.pptx
by
otato
PostgreSQLアンチパターン
by
Soudai Sone
マイクロにしすぎた結果がこれだよ!
by
mosa siru
Apache Kafka 0.11 の Exactly Once Semantics
by
Yoshiyasu SAEKI
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
by
NTT DATA Technology & Innovation
クラウドのためのアーキテクチャ設計 - ベストプラクティス -
by
SORACOM, INC
Javaのログ出力: 道具と考え方
by
Taku Miyakawa
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
by
Takuto Wada
実践!Elasticsearch + Sudachi を用いた全文検索エンジン
by
S. T.
チームメイトのためにdocstringを書こう! pyconjp2019
by
cocodrips
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
by
Takahiro Inoue
オープンソースで構築するWebメタバース ~Mozilla Hubsで学ぶUX開発から運用コスト最小化まで #CEDEC2022
by
GREE VR Studio Lab
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
by
Trainocate Japan, Ltd.
Similar to 社内ドキュメント検索システム構築のノウハウ
PDF
Ossaj seminar usi 20120118 print
by
Open Source Software Association of Japan
PDF
オフィスに1台!全文検索Fess
by
Shinsuke Sugaya
PPT
Apache Solrで実現する共創のエコ システム ‒検索、クロール、自然言語処理‒
by
MasayukiIke
PPTX
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
by
SORACOM,INC
PDF
メディアコンテンツ向け記事検索DBとして使うElasticsearch
by
Yasuhiro Murata
PPT
It業界の優良企業の見つけ方 20140502 黒田
by
Yusuke Kuroda
PDF
OSS ソースコードサーチツールの効能、有効活用方法
by
Open Source Software Association of Japan
PDF
Elasticsearchベースの全文検索システムFess
by
Shinsuke Sugaya
PDF
ライフエンジンを支える検索エンジンの作り方
by
Chiaki Hatanaka
PPTX
(2017.8.27) Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見
by
Mitsutoshi Kiuchi
PDF
JJUG CCC リクルートの Java に対する取り組み
by
Recruit Technologies
PDF
20180922 jazug8 cosmosdb_search
by
Kazuhiro Wada
PDF
自然言語処理紹介(就職編)
by
長岡技術科学大学 自然言語処理研究室
PDF
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
by
株式会社MonotaRO Tech Team
PDF
大規模データ時代に求められる自然言語処理
by
Preferred Networks
PPTX
Elasticsearch+nodejs+dynamodbで作る全社システム基盤
by
Recruit Technologies
PDF
AWS Black Belt Tech Webinar 2016 〜 Amazon CloudSearch & Amazon Elasticsearch ...
by
Amazon Web Services Japan
PDF
[AC08] 新世代のアーキテクチャに移行せよ。富士フイルムの事例に学ぶ、クラウドネイティブソリューションのビジョンと設計
by
de:code 2017
PDF
全文検索入門
by
antibayesian 俺がS式だ
PDF
(Best) practices for working globally in IT industry - DMM.Study Night
by
Eiji Shinohara
Ossaj seminar usi 20120118 print
by
Open Source Software Association of Japan
オフィスに1台!全文検索Fess
by
Shinsuke Sugaya
Apache Solrで実現する共創のエコ システム ‒検索、クロール、自然言語処理‒
by
MasayukiIke
IoT と時系列データと Elasticsearch | Data Pipeline Casual Talk Vol.4
by
SORACOM,INC
メディアコンテンツ向け記事検索DBとして使うElasticsearch
by
Yasuhiro Murata
It業界の優良企業の見つけ方 20140502 黒田
by
Yusuke Kuroda
OSS ソースコードサーチツールの効能、有効活用方法
by
Open Source Software Association of Japan
Elasticsearchベースの全文検索システムFess
by
Shinsuke Sugaya
ライフエンジンを支える検索エンジンの作り方
by
Chiaki Hatanaka
(2017.8.27) Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見
by
Mitsutoshi Kiuchi
JJUG CCC リクルートの Java に対する取り組み
by
Recruit Technologies
20180922 jazug8 cosmosdb_search
by
Kazuhiro Wada
自然言語処理紹介(就職編)
by
長岡技術科学大学 自然言語処理研究室
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
by
株式会社MonotaRO Tech Team
大規模データ時代に求められる自然言語処理
by
Preferred Networks
Elasticsearch+nodejs+dynamodbで作る全社システム基盤
by
Recruit Technologies
AWS Black Belt Tech Webinar 2016 〜 Amazon CloudSearch & Amazon Elasticsearch ...
by
Amazon Web Services Japan
[AC08] 新世代のアーキテクチャに移行せよ。富士フイルムの事例に学ぶ、クラウドネイティブソリューションのビジョンと設計
by
de:code 2017
全文検索入門
by
antibayesian 俺がS式だ
(Best) practices for working globally in IT industry - DMM.Study Night
by
Eiji Shinohara
More from Shinsuke Sugaya
PDF
LastaFluteでKotlinをはじめよう
by
Shinsuke Sugaya
PDF
PredictionIOでSparkMLを使った開発方法
by
Shinsuke Sugaya
PDF
PredictionIOのPython対応計画
by
Shinsuke Sugaya
PDF
PredictionIO構築入門
by
Shinsuke Sugaya
PDF
ESFluteによるElasticsearchでのO/Rマッパーを用いた開発
by
Shinsuke Sugaya
PDF
LastaFluteに移行したFessとElasticsearch+ESFluteによるDBFlute環境
by
Shinsuke Sugaya
PDF
Elasticsearchで作る形態素解析サーバ
by
Shinsuke Sugaya
PDF
ElasticsearchとTasteプラグインで作るレコメンドシステム
by
Shinsuke Sugaya
PDF
Elasticsearchプラグインの作り方
by
Shinsuke Sugaya
PDF
全文検索サーバ Fess 〜 全文検索システム構築時の悩みどころ
by
Shinsuke Sugaya
PDF
Elasticsearch Authプラグインでアクセスコントロール
by
Shinsuke Sugaya
PDF
DBFlute Mavenプラグインを用いてCRUD作成
by
Shinsuke Sugaya
PDF
DBFluteを用いて開発されている全文検索システムFess
by
Shinsuke Sugaya
PDF
elasticsearchプラグイン入門
by
Shinsuke Sugaya
PDF
Solrベースの全文検索サーバ Fess
by
Shinsuke Sugaya
PDF
Sc2009autumn s2robot
by
Shinsuke Sugaya
LastaFluteでKotlinをはじめよう
by
Shinsuke Sugaya
PredictionIOでSparkMLを使った開発方法
by
Shinsuke Sugaya
PredictionIOのPython対応計画
by
Shinsuke Sugaya
PredictionIO構築入門
by
Shinsuke Sugaya
ESFluteによるElasticsearchでのO/Rマッパーを用いた開発
by
Shinsuke Sugaya
LastaFluteに移行したFessとElasticsearch+ESFluteによるDBFlute環境
by
Shinsuke Sugaya
Elasticsearchで作る形態素解析サーバ
by
Shinsuke Sugaya
ElasticsearchとTasteプラグインで作るレコメンドシステム
by
Shinsuke Sugaya
Elasticsearchプラグインの作り方
by
Shinsuke Sugaya
全文検索サーバ Fess 〜 全文検索システム構築時の悩みどころ
by
Shinsuke Sugaya
Elasticsearch Authプラグインでアクセスコントロール
by
Shinsuke Sugaya
DBFlute Mavenプラグインを用いてCRUD作成
by
Shinsuke Sugaya
DBFluteを用いて開発されている全文検索システムFess
by
Shinsuke Sugaya
elasticsearchプラグイン入門
by
Shinsuke Sugaya
Solrベースの全文検索サーバ Fess
by
Shinsuke Sugaya
Sc2009autumn s2robot
by
Shinsuke Sugaya
社内ドキュメント検索システム構築のノウハウ
1.
社内ドキュメント検索システム構築のノウハウ Search Engineering Tech
Talk 2019 Spring
2.
Search Engineering Tech
Talk 2019 Spring ■ 名前: 菅谷信介 ■ 仕事 ➔ 検索やAIに関する開発や技術コンサルティング ■ オープンソース活動 ➔ Fess, Apache PredictionIO, DBFlute関連,... ■ IT Search+で連載中 ➔ 「簡単導入! OSS全文検索サーバFess入門」 自己紹介 2
3.
Search Engineering Tech
Talk 2019 Spring 今回は 検索エンジンの中身的な話ではなく 企業内検索における検索システムの話 3
4.
Search Engineering Tech
Talk 2019 Spring 企業内検索とは 4
5.
Search Engineering Tech
Talk 2019 Spring ■ 企業内の様々な情報を検索するシステム 企業内検索(エンタープライズサーチ) 5 検索システム利用者 社内(外)サイト 業務システム (クラウドサービスも含む) 検索 クロール ファイルサーバ 複数のデータソースを対象として横断検索を実現する
6.
Search Engineering Tech
Talk 2019 Spring Fessで学んだ 企業内検索を作るための話 6
7.
Search Engineering Tech
Talk 2019 Spring Fessとは 7
8.
Search Engineering Tech
Talk 2019 Spring 8 Fessとは ■ オープンソースの全文検索システム ➔5分で構築できるくらい簡単に利用可能 ■ Apacheライセンスで提供 ■ Javaベースのアプリケーションサーバ ■ Elasticsearchを検索エンジンとして利用 ■ 様々な検索シーンで利用可能 ■ 現在の最新バージョンは12.6 ➔今年で開発10年目! https://fess.codelibs.org/
9.
Search Engineering Tech
Talk 2019 Spring 9 デモ環境: https://search.n2sm.co.jp/ 検索画面 PC版 スマホ版
10.
Search Engineering Tech
Talk 2019 Spring 10 管理画面 adminユーザーでログイン
11.
Search Engineering Tech
Talk 2019 Spring 11 検索分野での立ち位置 検索関連の知識なくても利用可能(すぐに使える) 検索関連の知識が必要(開発が必要) 検索システム ➔ Fess、商用検索システム 検索サーバ+クローラ ➔ Hyper Estraier、Namazu、Nutchなど 検索サーバ ➔ Solr、Elasticsearch、groongaなど 検索ライブラリ ➔ Luceneなど
12.
Search Engineering Tech
Talk 2019 Spring 企業内検索を 構築するときの課題 12
13.
Search Engineering Tech
Talk 2019 Spring ■ クロール対象の大規模化 ■ セキュア検索 ■ シングルサインオン ■ 業務システムとの連携 ■ ファイルの種類 よくでる課題 13
14.
Search Engineering Tech
Talk 2019 Spring ■ クロール対象のファイル数の増加 ➔数千万ファイル以上の案件が増えた ■ クラスタにして分散検索 ➔Elasticsearchで実現できる(運用ナレッジは必要) ➔できるだけ運用リスクを減らす ■ クロールする方法も工夫が必要 ➔通常のファイルシステムのクロールでは無理 ➔更新ファイルリストを生成しクロール クロール対象の大規模化 14 Fess データストアクロール 更新されたファイルの ファイルパス一覧 ファイルサーバなど 更新されたファイルだけ クロールする
15.
Search Engineering Tech
Talk 2019 Spring 15 セキュア検索(ロール検索) ■ 認証状態により検索結果を出し分ける ➔ログインしているユーザー情報を利用する ➔AD連携して認証情報を取得するなど ■ クロール時に権限情報を付加する ➔Sambaクロールの場合はファイルの権限を利用する 営業部 技術部 Fess 部門別や役職別に検索結果を 出し分けることが可能 営業資料 検索条件に 部署を追加 ドキュメントに 部署を追加
16.
Search Engineering Tech
Talk 2019 Spring ■ 検索システムにも自動でログインする ➔Windows統合認証 ➔リバースプロキシ型認証 ➔OpenID Connectなど ■ Active DirectoryだとWindows統合認証 ➔今後はAzureADでOpenID Connectと増えるかも シングルサイオン 16 利用者 Fess認証サーバ 利用者 Fess認証サーバ Windows統合認証 OpenID Connect リバースプロキシ型
17.
Search Engineering Tech
Talk 2019 Spring ■ いろいろな業務システムがある ■ とはいえ、データはデータベースにある ➔SQLで取得してインデックスすれば良い ➔JDBCドライバがあればだいたい何とかなる 業務システムとの連携 17 Fess データストアクロール DBサーバ SQLのSELECT文 1行1ドキュメントとして 加工してインデックスする
18.
Search Engineering Tech
Talk 2019 Spring ■ 検索するためにはテキスト化が必要 ■ MS Office: POI ■ PDF: PDFBox ■ DocuWork: IFilter or xdw2text ■ 一太郎: IFilter (消えつつある気がする…) ■ AutoCAD: libdxfrw ■ その他もろもろ: Tika ➔Tikaはいろいろなことをいい感じにテキスト化する ➔場合によっては微調整は必要 ファイルの種類 18
19.
Search Engineering Tech
Talk 2019 Spring その他の細々とした課題 19
20.
Search Engineering Tech
Talk 2019 Spring 20 ■ http://〜の検索結果ページでfile://〜のリンクが機 能しない ➔セキュリティポリシーの設定で有効な場合もある? ■ 対応方法としては… ➔WebDAVでhttp://〜等でアクセス可能にする ➔Fessではプロキシとして対象ファイルを返却 file://〜問題
21.
Search Engineering Tech
Talk 2019 Spring 21 ■ zipファイル爆弾 ➔展開すると数Gのファイルになる ➔展開時には展開後のサイズの考慮が必要 ➔Tikaは対策をしている ■ excelファイル爆弾 ➔何でもExcelにコピペする人がいる… ➔無駄な単語が膨大にあり、Analyzerで高負荷に… ➔Fessは単語の切り捨てや重複除去対応での対策 〜爆弾ファイル
22.
Search Engineering Tech
Talk 2019 Spring 22 ■ PDFのフォーマットにも複数のバージョン ■ テキスト抽出ならJavaだとPDFBoxとか ■ PDFBoxは古いバージョンで文字化けする ➔古いバージョンなので気にする必要はない ■ その他ではOCRのPDFとかの場合 ➔無駄なスペースが入るので、独別な処理が必要 PDF文字化け
23.
Search Engineering Tech
Talk 2019 Spring 23 ■ クリック数やLike数をドキュメントに保持する ■ クリック数は検索結果クリック時に集計 ➔リンクを書き換えてリダイレクト ■ 検索状況を集計してレポートする ■ Function Score Queryでスコアに反映する 検索の集計や反映 利用者 Fess 検索結果を表示 検索結果をクリック 検索結果へリダイレクト 検索結果のサイト ここでクリック情報を取得
24.
Search Engineering Tech
Talk 2019 Spring 24 ■ Google Search Applianceが保有する機能なので 普通に要求される場合が多い ■ Analyzerで同義語辞書で対応可能な場合もある ➔リアルタイムな反映が求められると☓ ■ 特定のクエリーのときに登録語を展開する ➔Fessでは実装済み ➔関連コンテンツ的な機能もあったり… 関連クエリー(同義語)
25.
Search Engineering Tech
Talk 2019 Spring 25 ■ クロールとは別に画像生成処理を実行 ■ HTMLであればページ内で指定された画像 ➔metaタグのthumbnailかog:imageなど ➔ページ内のimgタグで正方形に近い画像など ➔PhantomJSなどでがんばる必要はない ■ PDFであればImageMagickのconvertコマンド ■ MS Officeはunoconvとconvertの合せ技 サムネイル画像の表示
26.
Search Engineering Tech
Talk 2019 Spring まとめ 26
27.
Search Engineering Tech
Talk 2019 Spring ■ 企業内検索を作る際にはいろいろと課題がある ■ 今後はクラウドの対象も増えそう ■ Fessは数々の課題を乗り越えてきた! ➔ 何か作るならFessをベースに考えると良いはず まとめ 27
Download