Solrベースの全文検索サーバ Fess
  全文検索サーバ Fessで何ができるのか?
自己紹介
    名前: 菅谷信介
    所属: N2SM, Inc.
      最近、また大学院生になってみた
    オープンソース活動:
       – Apache Portals (Jetspeed2など) コミッタ
       – Seasarプロジェクトコミッタ(S2Container, Teeda,
         SAStruts, DBFlute, S2Portlet, S2Robot..)
       – Fessプロジェクト運営
       などなど・・・
    Blog: http://d.hatena.ne.jp/shinsuke_sugaya/
    Twitter: https://twitter.com/shinsuke_sugaya/

Confidential & Proprietary
アジェンダ
  Fessの概要
  Fessでできること
  FessとSolrの関係
  FessとS2Robotの関係
  デモ (時間があれば…)
  Fessの今後




Confidential & Proprietary
前回は?
  第2回Solr勉強会でご紹介させていただきま
   した!
  当時のバージョンはFess 3.0
  5分でインストールできました
  だいたい基本機能は実装済み(だったと思う)
  その後もFessの開発を続ける…




Confidential & Proprietary
Fessとは
  Full Text Search System
  簡単に導入できるOSS全文検索システム
  Apacheライセンス
  最新バージョンは5.0
  Solrは3.5を採用
  商用サポート:N2 Search




Confidential & Proprietary
Fessでできること (その1)
  Webサイトのクロール
  ファイルシステムのクロール
  データベースのクロール
  Windows共有フォルダ(samba)をクロール
  ブラウザによる管理画面
  差分クロール
  MS Office、PDF、圧縮ファイルもサポート
  3大キャリア端末で検索可能
  ログイン状態で検索結果の出し分け可能
  登録したカテゴリごとに検索可能

Confidential & Proprietary
Fessでできること (その2)
  デスクトップ検索
  検索ログ&クリックログの統計情報
  Basic認証、Digest認証、NTLM認証に対応
  XML、JSON、JSONPのレスポンス
  ファセット対応
  (Geo)Spatial Search対応
  MySQL対応 (Oracleは近々対応)




Confidential & Proprietary
アーキテクチャ
  標準でオールインワンで提供
  Tomcatにfess.warとsolr.warを配備

                                  fess.war                         solr.war

                S2Robot                S2Chronos

                                                      H2Database
                SAStruts                DBFlute        (MySQL)        Solr
                                                        (Oracle)
                             Seasar2



                                             Tomcat



Confidential & Proprietary
FessとSolrの関係
  Fess↔Solr間はSolrJでアクセス
  fess_solr.diconでSolrサーバを管理
  solrserver.propertiesにSolrサーバ状態保存
  shardsはapp.diconのQueryHelperImpl
                                     Solr Server Manager
                       Solr Group                 Solr Group

                       Solr Server                Solr Server


                       Solr Server                Solr Server
                                                                ・・・

                             :                        :


Confidential & Proprietary
FessとS2Robotの関係
  クロール処理はS2Robotに依存
  S2RobotはTika、POI、PDFBoxなどを利用
  コンテンツタイプ判定にTikaを利用
  Tikaベースから直接対象ライブラリを呼ぶよ
   うにしていきたい
  Seasar2ベースなのでコンポーネントを差し
   替えやすい
  s2robot_*.diconで各種設定




Confidential & Proprietary
S2Robotの仕組み
                                   アクセス先のフィルタ定義

               S2Robot                  UrlFilter      Web
                                                        Web
                                                       FSWeb
                                                        FS
                                                          FS
                                 アクセス先よってクライアント選択

        S2RobotThread                 S2RobotClient
         S2RobotThread                  (Web,FS)
          S2RobotThread
                                   コンテンツの処理ルール

                                      RuleManager
       ResponseProcessor
                                   コンテンツ種類にあったテキスト抽出
                                       Transformer
                                            &
                                        Extractor
             S2Robot DB
                             Solrにドキュメント追加
Confidential & Proprietary
デモ (時間があれば)
  検索画面
  管理画面
   などなど・・・

     http://fess.sourceforge.jp/ja/downloads.html




Confidential & Proprietary
今後
  デザイン(見た目)の変更
  Solrのリリースに対応したリリース
  データストアの種類を増やす
  ドキュメントの強化




Confidential & Proprietary
Q&A


Confidential & Proprietary

Solrベースの全文検索サーバ Fess

  • 1.
    Solrベースの全文検索サーバ Fess 全文検索サーバ Fessで何ができるのか?
  • 2.
    自己紹介  名前: 菅谷信介  所属: N2SM, Inc. 最近、また大学院生になってみた  オープンソース活動: – Apache Portals (Jetspeed2など) コミッタ – Seasarプロジェクトコミッタ(S2Container, Teeda, SAStruts, DBFlute, S2Portlet, S2Robot..) – Fessプロジェクト運営 などなど・・・  Blog: http://d.hatena.ne.jp/shinsuke_sugaya/  Twitter: https://twitter.com/shinsuke_sugaya/ Confidential & Proprietary
  • 3.
    アジェンダ  Fessの概要  Fessでできること  FessとSolrの関係  FessとS2Robotの関係  デモ (時間があれば…)  Fessの今後 Confidential & Proprietary
  • 4.
    前回は?  第2回Solr勉強会でご紹介させていただきま した!  当時のバージョンはFess 3.0  5分でインストールできました  だいたい基本機能は実装済み(だったと思う)  その後もFessの開発を続ける… Confidential & Proprietary
  • 5.
    Fessとは  FullText Search System  簡単に導入できるOSS全文検索システム  Apacheライセンス  最新バージョンは5.0  Solrは3.5を採用  商用サポート:N2 Search Confidential & Proprietary
  • 6.
    Fessでできること (その1) Webサイトのクロール  ファイルシステムのクロール  データベースのクロール  Windows共有フォルダ(samba)をクロール  ブラウザによる管理画面  差分クロール  MS Office、PDF、圧縮ファイルもサポート  3大キャリア端末で検索可能  ログイン状態で検索結果の出し分け可能  登録したカテゴリごとに検索可能 Confidential & Proprietary
  • 7.
    Fessでできること (その2) デスクトップ検索  検索ログ&クリックログの統計情報  Basic認証、Digest認証、NTLM認証に対応  XML、JSON、JSONPのレスポンス  ファセット対応  (Geo)Spatial Search対応  MySQL対応 (Oracleは近々対応) Confidential & Proprietary
  • 8.
    アーキテクチャ  標準でオールインワンで提供  Tomcatにfess.warとsolr.warを配備 fess.war solr.war S2Robot S2Chronos H2Database SAStruts DBFlute (MySQL) Solr (Oracle) Seasar2 Tomcat Confidential & Proprietary
  • 9.
    FessとSolrの関係  Fess↔Solr間はSolrJでアクセス  fess_solr.diconでSolrサーバを管理  solrserver.propertiesにSolrサーバ状態保存  shardsはapp.diconのQueryHelperImpl Solr Server Manager Solr Group Solr Group Solr Server Solr Server Solr Server Solr Server ・・・ : : Confidential & Proprietary
  • 10.
    FessとS2Robotの関係  クロール処理はS2Robotに依存  S2RobotはTika、POI、PDFBoxなどを利用  コンテンツタイプ判定にTikaを利用  Tikaベースから直接対象ライブラリを呼ぶよ うにしていきたい  Seasar2ベースなのでコンポーネントを差し 替えやすい  s2robot_*.diconで各種設定 Confidential & Proprietary
  • 11.
    S2Robotの仕組み アクセス先のフィルタ定義 S2Robot UrlFilter Web Web FSWeb FS FS アクセス先よってクライアント選択 S2RobotThread S2RobotClient S2RobotThread (Web,FS) S2RobotThread コンテンツの処理ルール RuleManager ResponseProcessor コンテンツ種類にあったテキスト抽出 Transformer & Extractor S2Robot DB Solrにドキュメント追加 Confidential & Proprietary
  • 12.
    デモ (時間があれば) 検索画面  管理画面 などなど・・・ http://fess.sourceforge.jp/ja/downloads.html Confidential & Proprietary
  • 13.
    今後  デザイン(見た目)の変更  Solrのリリースに対応したリリース  データストアの種類を増やす  ドキュメントの強化 Confidential & Proprietary
  • 14.