Apache ManifoldCF Shinichiro Abe [email_address]
Apache ManifoldCF <ul><li>Apache Incubator </li></ul><ul><li>Apache 2.0 license </li></ul><ul><li>2010 〜 </li></ul><ul><li...
Apache Solr Solr Cell index Apache ManifoldCF Web, RSS Windows shares File System <ul><li>JDBC  </li></ul><ul><li>Oracle <...
Agent Connection - Job - Crawler Agent  Output Connector Repository Connector Connection 1 - Solr Connection 2 - Solr Conn...
Crawler Agent <ul><li>JOB のコントロール </li></ul><ul><li>   コネクション管理 </li></ul><ul><li>   クロール詳細設定 </li></ul><ul><li>   スケジュール管...
Windows サーバのクロール <ul><li>共有サーバ </li></ul><ul><li>    社内ファイル共有サーバ </li></ul><ul><li>    さまざまなファイル種類 </li></ul><ul><li>    ド...
Windows サーバのクロール <ul><li>JCIFS.jar </li></ul><ul><li>     SMB プロトコルでフォルダ / ファイルのアクセス </li></ul><ul><li>    フォルダ / ファイルが持つア...
 
 
 
Filter Query Apache Solr index Metadata Contents Access Token Apache ManifoldCF Authority Connector Connection 1 Active Di...
ManifoldCF の特長 <ul><li>社内コンテンツサーチ向け、導入・設定が簡単 </li></ul><ul><li>    ファイルサーバ </li></ul><ul><li>     Windows 共有サーバ </li></ul>...
ManifoldCF の資料 <ul><li>Upcoming 0.3 or trunk </li></ul><ul><li>    http://svn.apache.org/repos/asf/incubator/lcf/trunk </l...
Upcoming SlideShare
Loading in...5
×

Apache ManifoldCF

2,097

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
2,097
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Apache ManifoldCF"

  1. 1. Apache ManifoldCF Shinichiro Abe [email_address]
  2. 2. Apache ManifoldCF <ul><li>Apache Incubator </li></ul><ul><li>Apache 2.0 license </li></ul><ul><li>2010 〜 </li></ul><ul><li>Manifold Connector Framework </li></ul><ul><li>Solr ← MCF ← web + non‐web repositories </li></ul><ul><li>Solr との親和性、セキュリティを考慮した検索。使いやすさ。 </li></ul>
  3. 3. Apache Solr Solr Cell index Apache ManifoldCF Web, RSS Windows shares File System <ul><li>JDBC </li></ul><ul><li>Oracle </li></ul><ul><li>- SQLServer </li></ul><ul><li>- Postgresql </li></ul>CMIS OpenSearchServer LiveLink (OpenText) Documentum (EMC) Meridio (Autonomy) SharePoint (Microsoft) FileNet (IBM) Connector Active Directory Output Connector Repository Connector Authority Connector Metadata Contents Access Token
  4. 4. Agent Connection - Job - Crawler Agent Output Connector Repository Connector Connection 1 - Solr Connection 2 - Solr Connection 3 Connection 1 - File System Connection 2 - Windows Shares Connection 3 - Database Job Crawler Agent Job 1 Job 2
  5. 5. Crawler Agent <ul><li>JOB のコントロール </li></ul><ul><li>   コネクション管理 </li></ul><ul><li>   クロール詳細設定 </li></ul><ul><li>   スケジュール管理 </li></ul><ul><li>    定時 / 定期 実行 </li></ul><ul><li>     1 回 / 連続 実行 </li></ul><ul><li>DB による取り込み document の変更管理・履歴管理 </li></ul><ul><li>PostgreSQL </li></ul>
  6. 6. Windows サーバのクロール <ul><li>共有サーバ </li></ul><ul><li>    社内ファイル共有サーバ </li></ul><ul><li>    さまざまなファイル種類 </li></ul><ul><li>    ドメイン環境、アクセス許可、セキュリティ </li></ul><ul><li>     MCF がクロールし、コンテンツ+セキュリティ情報を Solr へ投入 </li></ul><ul><li>社内コンテンツサーチを実現できる </li></ul><ul><li>   営業の人が営業の資料を検索する </li></ul><ul><li>    独自セキュリティ設定する必要がない </li></ul>
  7. 7. Windows サーバのクロール <ul><li>JCIFS.jar </li></ul><ul><li>     SMB プロトコルでフォルダ / ファイルのアクセス </li></ul><ul><li>    フォルダ / ファイルが持つアクセストークン (SID) の取得 </li></ul><ul><li>    -> Solr field でセキュリティ情報をインデックス化 </li></ul><ul><li>             allow_token_share フォルダのアクセス許可リスト </li></ul><ul><li>             allow_token_document   ファイルのアクセス許可リスト </li></ul><ul><li>             deny_token_share      フォルダのアクセス拒否リスト </li></ul><ul><li>             deny_token_document ファイルのアクセス拒否リスト </li></ul><ul><li>  </li></ul><ul><li>Solr Cell </li></ul><ul><li>    ファイルコンテンツの抽出 </li></ul>
  8. 11. Filter Query Apache Solr index Metadata Contents Access Token Apache ManifoldCF Authority Connector Connection 1 Active Directory Search Request Modified Request Filtered Result [email_address] Access Token セキュリティを考慮した検索
  9. 12. ManifoldCF の特長 <ul><li>社内コンテンツサーチ向け、導入・設定が簡単 </li></ul><ul><li>    ファイルサーバ </li></ul><ul><li>     Windows 共有サーバ </li></ul><ul><li>     JDBC 経由のデータベース </li></ul><ul><li>    その他のレポジトリ </li></ul><ul><li>クローラの独自実装 / セキュリティの独自実装が必要ない </li></ul><ul><li>Apache ManifoldCF vs. Google Connector Framework </li></ul><ul><li>     UI あり / なし </li></ul><ul><li>    対応コネクタ差異 </li></ul><ul><li>     Solr Connector/GSA </li></ul>
  10. 13. ManifoldCF の資料 <ul><li>Upcoming 0.3 or trunk </li></ul><ul><li>    http://svn.apache.org/repos/asf/incubator/lcf/trunk </li></ul><ul><li>ManifoldCF in Action </li></ul><ul><li>    http://www.manning.com/wright/ </li></ul><ul><li>   </li></ul><ul><li>ロンウイットの記事 </li></ul><ul><li>    http://www.rondhuit.com/apache-manifoldcf.html </li></ul>

×