Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Shinsuke Sugaya
19,580 views
全文検索サーバ Fess 〜 全文検索システム構築時の悩みどころ
FessはSolrベースの全文検索システムです。 Solrベースの全文検索システムを構築する上で遭遇する問題などを含めて、Fessについてご紹介します。
Software
◦
Read more
18
Save
Share
Embed
Embed presentation
Download
Downloaded 59 times
1
/ 31
2
/ 31
3
/ 31
4
/ 31
5
/ 31
6
/ 31
7
/ 31
8
/ 31
9
/ 31
10
/ 31
11
/ 31
Most read
12
/ 31
13
/ 31
14
/ 31
15
/ 31
16
/ 31
17
/ 31
18
/ 31
Most read
19
/ 31
20
/ 31
21
/ 31
22
/ 31
23
/ 31
24
/ 31
Most read
25
/ 31
26
/ 31
27
/ 31
28
/ 31
29
/ 31
30
/ 31
31
/ 31
More Related Content
PDF
社内ドキュメント検索システム構築のノウハウ
by
Shinsuke Sugaya
PDF
Fess/Elasticsearchを使った業務で使える?全文検索への道
by
Shinsuke Sugaya
PDF
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
by
Toru Makabe
PDF
AWS BlackBelt AWS上でのDDoS対策
by
Amazon Web Services Japan
PDF
webエンジニアのためのはじめてのredis
by
nasa9084
PDF
マイクロサービス 4つの分割アプローチ
by
増田 亨
PDF
Infrastructure as Code (IaC) 談義 2022
by
Amazon Web Services Japan
PDF
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
by
Trainocate Japan, Ltd.
社内ドキュメント検索システム構築のノウハウ
by
Shinsuke Sugaya
Fess/Elasticsearchを使った業務で使える?全文検索への道
by
Shinsuke Sugaya
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
by
Toru Makabe
AWS BlackBelt AWS上でのDDoS対策
by
Amazon Web Services Japan
webエンジニアのためのはじめてのredis
by
nasa9084
マイクロサービス 4つの分割アプローチ
by
増田 亨
Infrastructure as Code (IaC) 談義 2022
by
Amazon Web Services Japan
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
by
Trainocate Japan, Ltd.
What's hot
PDF
SolrとElasticsearchを比べてみよう
by
Shinsuke Sugaya
PDF
20200422 AWS Black Belt Online Seminar Amazon Elastic Container Service (Amaz...
by
Amazon Web Services Japan
PDF
MySQL 5.7にやられないためにおぼえておいてほしいこと
by
yoku0825
PDF
雑なMySQLパフォーマンスチューニング
by
yoku0825
PDF
日本のお客様におけるAmazon Auroraへの移行・検証事例と技術ポイント
by
Amazon Web Services Japan
PDF
20201111 AWS Black Belt Online Seminar AWS CodeStar & AWS CodePipeline
by
Amazon Web Services Japan
PDF
なぜディスクレスハイパーバイザに至ったのか / Why did we select to the diskless hypervisor? #builde...
by
whywaita
PDF
Apache Arrow - データ処理ツールの次世代プラットフォーム
by
Kouhei Sutou
PDF
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
by
Amazon Web Services Japan
PDF
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
by
Amazon Web Services Japan
PDF
webSocket通信を知らないiOSエンジニアが知っておいて損はしない(経験談的な)軽い話
by
Yuhei Miyazato
PDF
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
by
Amazon Web Services Japan
PDF
とある診断員とSQLインジェクション
by
zaki4649
PPTX
LIFULL HOME'SでのSolrの構成と運用の変遷
by
LIFULL Co., Ltd.
PPTX
AWSで作る分析基盤
by
Yu Otsubo
PDF
REST API のコツ
by
pospome
PDF
AWSのログ管理ベストプラクティス
by
Akihiro Kuwano
PDF
分散トレーシング技術について(Open tracingやjaeger)
by
NTT Communications Technology Development
PPTX
Azure API Management 俺的マニュアル
by
貴志 上坂
PPTX
20220409 AWS BLEA 開発にあたって検討したこと
by
Amazon Web Services Japan
SolrとElasticsearchを比べてみよう
by
Shinsuke Sugaya
20200422 AWS Black Belt Online Seminar Amazon Elastic Container Service (Amaz...
by
Amazon Web Services Japan
MySQL 5.7にやられないためにおぼえておいてほしいこと
by
yoku0825
雑なMySQLパフォーマンスチューニング
by
yoku0825
日本のお客様におけるAmazon Auroraへの移行・検証事例と技術ポイント
by
Amazon Web Services Japan
20201111 AWS Black Belt Online Seminar AWS CodeStar & AWS CodePipeline
by
Amazon Web Services Japan
なぜディスクレスハイパーバイザに至ったのか / Why did we select to the diskless hypervisor? #builde...
by
whywaita
Apache Arrow - データ処理ツールの次世代プラットフォーム
by
Kouhei Sutou
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
by
Amazon Web Services Japan
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
by
Amazon Web Services Japan
webSocket通信を知らないiOSエンジニアが知っておいて損はしない(経験談的な)軽い話
by
Yuhei Miyazato
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
by
Amazon Web Services Japan
とある診断員とSQLインジェクション
by
zaki4649
LIFULL HOME'SでのSolrの構成と運用の変遷
by
LIFULL Co., Ltd.
AWSで作る分析基盤
by
Yu Otsubo
REST API のコツ
by
pospome
AWSのログ管理ベストプラクティス
by
Akihiro Kuwano
分散トレーシング技術について(Open tracingやjaeger)
by
NTT Communications Technology Development
Azure API Management 俺的マニュアル
by
貴志 上坂
20220409 AWS BLEA 開発にあたって検討したこと
by
Amazon Web Services Japan
Viewers also liked
PPTX
広く知ってほしいDNSのこと ―とあるセキュリティ屋から見たDNS受難の10年間―
by
Tomohiro Nakashima
PDF
Scala警察のすすめ
by
takezoe
PDF
ESFluteによるElasticsearchでのO/Rマッパーを用いた開発
by
Shinsuke Sugaya
ODP
Guide To AGPL
by
Mikiya Okuno
PDF
Elasticsearchプラグインの作り方
by
Shinsuke Sugaya
PDF
Elasticsearchベースの全文検索システムFess
by
Shinsuke Sugaya
PDF
LastaFluteに移行したFessとElasticsearch+ESFluteによるDBFlute環境
by
Shinsuke Sugaya
PDF
はてなブックマークに基づく関連記事レコメンドエンジンの開発
by
Shunsuke Kozawa
PDF
Tensor Decomposition and its Applications
by
Keisuke OTAKI
PPTX
AI社会論研究会
by
Hiroshi Nakagawa
PDF
elasticsearchプラグイン入門
by
Shinsuke Sugaya
PDF
ElasticsearchとTasteプラグインで作るレコメンドシステム
by
Shinsuke Sugaya
PDF
Elasticsearchで作る形態素解析サーバ
by
Shinsuke Sugaya
PDF
ElasticSearchでいろいろやってる話
by
Shinya Takara
PPTX
検索のダウンタイム0でバックアップからindexをリストアする方法
by
kbigwheel
PDF
Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題
by
Yasushi Hara
PDF
PredictionIOでSparkMLを使った開発方法
by
Shinsuke Sugaya
PDF
Novius os chiba の紹介
by
Fumito Mizuno
PDF
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
by
Shunsuke Kozawa
PDF
Elasticsearchを用いたはてなブックマークのトピック生成
by
Shunsuke Kozawa
広く知ってほしいDNSのこと ―とあるセキュリティ屋から見たDNS受難の10年間―
by
Tomohiro Nakashima
Scala警察のすすめ
by
takezoe
ESFluteによるElasticsearchでのO/Rマッパーを用いた開発
by
Shinsuke Sugaya
Guide To AGPL
by
Mikiya Okuno
Elasticsearchプラグインの作り方
by
Shinsuke Sugaya
Elasticsearchベースの全文検索システムFess
by
Shinsuke Sugaya
LastaFluteに移行したFessとElasticsearch+ESFluteによるDBFlute環境
by
Shinsuke Sugaya
はてなブックマークに基づく関連記事レコメンドエンジンの開発
by
Shunsuke Kozawa
Tensor Decomposition and its Applications
by
Keisuke OTAKI
AI社会論研究会
by
Hiroshi Nakagawa
elasticsearchプラグイン入門
by
Shinsuke Sugaya
ElasticsearchとTasteプラグインで作るレコメンドシステム
by
Shinsuke Sugaya
Elasticsearchで作る形態素解析サーバ
by
Shinsuke Sugaya
ElasticSearchでいろいろやってる話
by
Shinya Takara
検索のダウンタイム0でバックアップからindexをリストアする方法
by
kbigwheel
Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題
by
Yasushi Hara
PredictionIOでSparkMLを使った開発方法
by
Shinsuke Sugaya
Novius os chiba の紹介
by
Fumito Mizuno
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
by
Shunsuke Kozawa
Elasticsearchを用いたはてなブックマークのトピック生成
by
Shunsuke Kozawa
More from Shinsuke Sugaya
PDF
DBFluteを用いて開発されている全文検索システムFess
by
Shinsuke Sugaya
PDF
オフィスに1台!全文検索Fess
by
Shinsuke Sugaya
PDF
Elasticsearch Authプラグインでアクセスコントロール
by
Shinsuke Sugaya
PDF
DBFlute Mavenプラグインを用いてCRUD作成
by
Shinsuke Sugaya
PDF
Solrベースの全文検索サーバ Fess
by
Shinsuke Sugaya
PDF
LastaFluteでKotlinをはじめよう
by
Shinsuke Sugaya
PDF
PredictionIOのPython対応計画
by
Shinsuke Sugaya
PDF
PredictionIO構築入門
by
Shinsuke Sugaya
PDF
Sc2009autumn s2robot
by
Shinsuke Sugaya
DBFluteを用いて開発されている全文検索システムFess
by
Shinsuke Sugaya
オフィスに1台!全文検索Fess
by
Shinsuke Sugaya
Elasticsearch Authプラグインでアクセスコントロール
by
Shinsuke Sugaya
DBFlute Mavenプラグインを用いてCRUD作成
by
Shinsuke Sugaya
Solrベースの全文検索サーバ Fess
by
Shinsuke Sugaya
LastaFluteでKotlinをはじめよう
by
Shinsuke Sugaya
PredictionIOのPython対応計画
by
Shinsuke Sugaya
PredictionIO構築入門
by
Shinsuke Sugaya
Sc2009autumn s2robot
by
Shinsuke Sugaya
全文検索サーバ Fess 〜 全文検索システム構築時の悩みどころ
1.
全文検索サーバ Fess 全文検索システム構築時の悩みどころ
第14回Solr勉強会
2.
名前: 菅谷信介 所属:
N2SM, Inc. (http://www.n2sm.net/) オープンソース活動: Apache Portals コミッタ Seasarプロジェクトコミッタ CodeLibsプロジェクト運営 (https://github.com/codelibs) などなど・・・ Github: https://github.com/codelibs Blog: http://www.chazine.com/ Twitter: https://twitter.com/shinsuke_sugaya/ 自己紹介
3.
アジェンダ 検索ソフトウェアについて Fessとは
全文検索システム構築の悩みどころ Fessの今後
4.
FessはSolrベースの 全文検索サーバです。 検索関連のソフトウェアは
いろいろとあるけど まずは全体的なところから…
5.
検索システム Fess、商用検索システム(GSAとか) 検索サーバ+クローラ
Hyper Estraier、Namazu、Nutchなど 検索サーバ Solr、Elasticsearch、groongaなど 検索ライブラリ Luceneなど 検索関連のソフトウェア 検索関連の知識が必要(ガッツリ作りこみが必要) 検索関連の知識なくても利用可能(すぐに使える) ざっくりと個人的な観点で分類してみました
6.
つまり、 FessはSolrと競合するものでは ありません
(ターゲットユーザーが異なります)
7.
Fessとは
8.
簡単に構築可能なオープンソースの全文検索サーバ Javaがあれば、すぐに利用できます! Fess
9.2ではSolr 4.8.1を採用(同梱してます) Web、共有フォルダ、DBなどのクロール可能 MS Office、PDF、圧縮ファイルもサポート 独自の実装&Tikaで読めるだけ読む 検索画面はPCからスマホまで最適化された画面で検索 ブラウザによる管理画面 ActiveDirectory等の認証情報で検索結果の出し分け可能 登録したカテゴリごとに検索可能 ファセット検索やジオ・サーチにも対応 検索ログやクリックログで集計 サジェストや関連表示などにも対応 スクリーンショット表示機能 Fessとは
9.
すぐに利用できるようにオールインワンで提供 アーキテクチャ Solr
インデックス管理 Fess クローラ 設定情報管理 検索画面 Tomcat (アプリケーションサーバなど)
10.
Fessの検索結果画面 デモ:http://search.n2sm.co.jp/
11.
Fessの管理画面
12.
N2SMではFess(Solrを含む)に関する商用サポートを提供 導入支援からカスタマイズ開発まで いろいろな質問等の対応
商用製品としては、N2 Searchとして提供 基本はFessと同じ(ブランチ管理されている) 設定を最適化したパッケージを利用 ApacheやMySQLなど含めて提供 管理ユーザなどを管理するコンソール ASPとしても提供 その他 いろいろとお問い合わせをいただいています 入札要件にFessが指定されていたりも… 商用サポート
13.
全文検索システム構築時の 悩みどころ Solrベースの検索システムを作る際のご参考になれば…
14.
Fessのコミュニティや Fess案件を通して 遭遇する事象ベースに
考えてみる…
15.
ケース1 ファイルシステムをクロールして 検索結果をクリックしても
表示されないのですけど…
16.
概要 http://~ の検索結果ページで、検索結果の
file://~ の リンクが機能しない Fessを作った当初はブラウザで機能していたが、時間と ともに file://~ の扱いが厳しくなった 汎用的な解決策がない Fessでの対応 デスクトップ検索 ローカル環境でしか利用できない ファイルランチャー Java Web Startを利用→いろいろと面倒… コンテンツプロキシ (デフォルト) Fessがプロキシとして動作してコンテンツを返却 場合によりロール検索と組み合わせが必要 file://~問題
17.
ケース2 社内の数百万ドキュメントを 夜間バッチで更新したいです
でも、1台くらいで…
18.
概要 社内ドキュメント検索の場合によくある話 数台のサーバ環境かつ夜間バッチ等で、数百万ドキュメン
トを超えるドキュメントを更新する要件 差分クロールで解決できる範囲ではない ファイルサイズやネットワークに依存するが、1台でク ロールすると、1時間あたり数万ドキュメントくらい 実際には全件更新する必要がない Fessでの対応 ファイルサーバの更新ファイル一覧生成機能と連携 データストアクロールで対応 CSVなどの更新ファイル一覧情報を元にクロール 更新ファイルだけを効率よくインデックス化 クロール時間問題
19.
ケース3 Webは月曜、 共有フォルダは水曜、
DBは金曜に クロールしたいのだけど…
20.
概要 複雑なスケジュールでクロールやインデックスのコミット などを組みたい
昔のFessでは基本は1つのスケジュールを組んで、クロー ルからインデックスまで行う方式でした Fessでの対応 ジョブ管理機能を実装しました ログのパージなどもジョブとして処理 Groovyで任意のジョブを組むことができます 他のスクリプト言語も対応可能ですが、現時点では Groovyだけをサポート クロールジョブ問題
21.
ケース4 クロールが止まるのですけど…
22.
概要 クロールのスレッドが止まる事象が発生する Javaのバグ
Zip爆弾(Excelも?) Fessでの対応 昔のFessではTomcat上のスレッドでクロールを実行してい たがスレッドを停止できないため、現在は別のプロセスと してクロールを実行 Zip爆弾等は利用するライブラリを更新したり、独自の拡張 したりして対応 クロール停止問題
23.
ケース5 PDFをクロールしたのですが 文字化けしているようです…
24.
概要 FessではPDFBoxでPDFからテキスト抽出を行っている PDF仕様の古いバージョンなどで文字化けする
Fessでの対応 テキスト抽出処理はS2Robotで管理している 設定ファイルでMIMEタイプごとに処理をカスタマイズ可能 対応はケースバイケースですが、コマンド呼び出しや IFilterなど、要件に応じた対応が必要 MS Office系のファイルのテキスト抽出はPOIを利用してい るが、抽出できないものがあれば同様の対応 PDF文字化け問題
25.
ケース6 クリック数やお気に入り数で リアルタイムに
ソートしたいです…
26.
概要 そのときのクリック数やお気に入り数でソートしたい クリック数やお気に入り数はSolr内でドキュメントに含ま
れている ドキュメントを更新して、コミットしないと情報が 反映されない クリックされるたびにコミットするのは微妙… Fessでの対応 クリック数やお気に入り数の数値はDocValueのフィールド として格納する Solrで更新するインターフェースがなかったため、Fessで は数値のDocValueを更新するSolrプラグインを提供 リアルタイム更新問題
27.
ケース7 辞書ファイルを更新するのに 再起動が必要なの?
28.
概要 形態素解析やシノニムなどの辞書はインデックスで初回に 読み込まれる
辞書の反映に再起動&再インデクシングが必要 政治的な要件な気がする Fessでの対応 辞書を動的に再読み込みをする拡張 Tokenizerのインスタンスを動的に差し替える 再インデクシングは必要 積極的に採用するかは置いておいて… 辞書反映問題
29.
まとめ Fessの今後
30.
Fessの今後 Solrの更新と共に、今後も更新していきます! 検索ログを利用したサジェストも導入
現在はコンテンツベース キーマッチ機能 独自のQuery Elevation Go for Global! 検索ログの表示や分析方法の改善
31.
Q&A
Download