• Like

Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Search Analytics What? Why? How?

  • 612 views
Uploaded on

 

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
612
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
12
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • 10 days of data (5K/min)

Transcript

  • 1. Integrating Advanced Text Analytics into Solr Lucene RevolutionSteve KearnsProduct Managerwww.basistech.com
  • 2. Agenda• About Basis Technology• Why Text Analytics and Solr?• Overview and Uses of Text Analytics• Integration Strategies
  • 3. About Basis Technology• HQ in Cambridge, MA, Offices in: Tokyo, San Francisco, Washington DC• Specialists in multilingual text analytics for Web/enterprise search Document/OSINT/media exploitation• Rosette Linguistics Platform is widely used by commercial enterprises and government agencies
  • 4. Why Text Analytics and Solr?• More than Keyword Search and Result Lists• More Metadata  New ways to visualize, navigate and explore  New knobs to tune relevance  New info to connect disparate data sources• Solr can be the consumer, host, or broker
  • 5. Overview of Text Analytics• Document-Level  Language Identification, Categorization• Sub-Document Level  Entity Extraction, Fact Extraction, Sentiment, Linguistics• Cross-Document  Cross-Document Entity Resolution, Near Duplicate Detection, Unsupervised Clustering
  • 6. Document Level Analysis: Language Identification • Sub-document Lang ID is possible La Grande-Bretagne Американская a de son côté jugé Après avoir rencontréLa Grande-Bretagne a 「端末側で行単位に(あるい софтверная компания queles présidents de nigérian laccord dede son côté jugé que становится Le président は一画面分)編集しておいて、laccord deВ данный момент Luxembourg Luxembourg cinq pays quatre des Olusegun Obasanjo a 「端末側で行単位に(あるい 送信キーによりまとめて送信 пользующимсяconstituaitправительство США, 私ごとになりますが、ちょうどこの un véritable спросом у спецслужб constituait uncette du africains (Afrique salué は一画面分)編集しておいて、 する」という方式と、changement dans la ころ大学院生でしたが、ACOS-6 véritable Sud, lengagement du G8, Algérie, FNPがコンピュータと端末の 送信キーによりまとめて送信 обвиняющее США экспертом в 「端末には知能はなく、一字stratégie agricole de 用のある言語処理系の開発を請 области лингвистики changement Nigeria) "la Sénégal, dans la déclarant que 間にあって、実際の端末との する」という方式と、 радикальную 一字すべてがその都度送らlEurope, tandis que мусульманскую け負って作っていました。ACOS-6 (в частности, изучения stratégie membres du comité condition majeure au やりとりを制御するのです。そ 「端末には知能はなく、一字 れ処理される」lIrlande y a vu un gage "Аль группировку はMulticsの概念に非常に近いも и обработки de pilotage du して、コンピュータとFNPの間 一字すべてがその都度送ら développement estde stabilité et et de терактах 2 のを持っていました、あるいは持 Каида" в информации на の通信は、 れ処理される」sécurité pour les года назад, とうとしていました。 языке) после арабском 少量の転送には不向きで、大 активизирует свое また、ハードウェアも大変似ていagriculteurs. терактов 11 сентября French 量の一括転送に向いていまし внимание к арабскому ました。シールをはがすと、 2001 Le président nigérian г. языку и программам その下から別のアメリカの会社の его обработки. 名前が出てくるマシンでテスト Olusegun Obasanjo a salué cette Japanese Грамматика языков したこともありました。1年間ほとdu G8, 「端末側で行単位に(あるいは一 lengagement 画面分)編集しておいて、 данной группы んど休みなしにマシンルーム déclarant que "la Программное 送信キーによりまとめて送信す にこもっていて、ここでの議論とcondition majeure au обеспечение Basis Американская る」という方式と、 Программное 疑問を自分のテーマとしても développement est Technology позволяет софтверная 「端末には知能はなく、一字一字обеспечение扱ったことがあるのです。それで、 Basis labsence de conflit". La осуществлять поиск компания момент В данный よーくわかるのです。 porte-parole de la Bild vergrößern German すべてがその都度送られ処理さ Technology позволяет слов с правительство США, близкими становится Berlin (AP) Der Kanzler れる」 осуществлять поиск слов présidence française, значениями, а также обвиняющее пользующимся strahlte: «Ich gestehe, dass 29% という方式は、究極的に前者は с близкими значениями, а Catherine Colonna, a транслитерировать радикальную спросом у ich 90 Prozent Zustimmung 半二重通信、後者は全二重通信 также транслитерировать pour sa part qualifié la French FNPがコンピュータと端末の間に とフィットします。арабские и фарси-буквы в réunion мусульманскую спецслужб США EVIAN (AP) - Les membres du 後者では、入力のエコーもコン あって、実際の端末とのやりとり латинские. Продукт был d"exceptionnelle". группировку "Аль экспертом в области G8 se sont engagés dimanche 33% ピュータ側で制御されます。 по разработан を制御するのです。そして、コン Каида" в терактах 2 soir à soutenir la つまり、入力した字の表示はキーспециальному заказуピュータとFNPの間の通信は、 これはファンドマネージャー Japanese 入力がコンピュータに送られ、 США少量の転送には不向きで、大量 それが送り返されて表示されま правительства целью оптимизации с の一括転送に向いていました。 Russian さんが嘘をついているという 21% す。 процесса анализа FNPによるコンピュータへの割り わけではありません。計算 арабских текстов. 込み要求は高価なものだったか ilHaaqa-n bikitaabinaa s- Arabic らです。Multicsでのプロセスの sirriyyi r-raqiimi fii yurjae wake upも高価だということもあ ittikhaadha maa yulzamu 17% りました。
  • 7. Document Level Analysis: Categorization • Group Documents into Pre-defined categorieshttp://news.google.com/http://www.bbc.co.uk/
  • 8. Sub-Document Analysis: Linguistics • Segmentation of Asian language • LemmatizationStemmingN-GramMorphologicalLemmatizationSegmentation
  • 9. Sub-Document Analysis: Sentiment • Sentence, paragraph, entity, aspect, emotionhttp://twittersentiment.appspot.com/search?query=Lucenehttp://maps.google.com/maps/place?cid=7410753351872099397
  • 10. Sub-Document Analysis: Entity Extraction • Identify Named Concepts in Unstructured Text  Statistical, rules, listshttp://www.twitscoop.com/
  • 11. Sub-Document: Fact / Rel. / Event Extraction • Identify Facts, Link Entities, Events and Timeshttp://www.silobreaker.com/FlashNetwork.aspx?DrillDownItems=11_237360
  • 12. Cross-Document: Entity Co-reference Resolution• Map extracted entities to real-world Concepts
  • 13. Cross-Document Analysis: Clustering• Near Duplicate Detection• Unsupervised Clustering
  • 14. Integration Strategies• Analyzer/Tokenizer/TokenFilter• UpdateRequestProcessor  Run Analysis in Solr  Call External Analysis Service• Pre-Processor to Solr
  • 15. Integration Point: Analyzer/Tokenizer• Good for:  Linguistics  Segmentation of Asian Language• Limitations:  No access to document object
  • 16. Analyzer/Tokenizer Configuration• Schema.xml FieldType • Analyzer – CharFilter – Tokenize – TokenFilter
  • 17. Integration Point: UpdateRequestProcessor• Runs Before Analyzers• Full Access to Document• Two options:  Run the analysis directly in Solr  Call out to external analysis services• Limitations:  Think through your indexing strategy
  • 18. Integration Point: UpdateRequestProcessor• Run the analysis directly in Solr  Good for light weight analytics  Not good for cross-document analytics• Call out to external analysis services  Web Services, UIMA, OpenPipeline, GATE, custom code  Note that these external calls are synchronous  Additional complexity / points of failure
  • 19. UpdateRequestProcessor Configuration• SolrConfig.xml  RequestHandler • update.processor = UpdateRequestProcessorChain.name  UpdateRequestProcessorChain • Processors
  • 20. Integration Point: Pre-Processor• Index in Solr as Last Step of Analysis• Good For:  Finer-grained control  Managing dependencies between components  Scalability• Limitations:  Complexity / New points of failure  Cannot use Solr’s content acquisition features
  • 21. Integration Summary• There are Many Options!• Document-Level Analysis:  Generally, safe to run in UpdateRequestProcessor• Sub-Document Analysis:  Sometimes run in UpdateRequestProcessor, sometimes external• Cross-Document Analysis:  Run external• Multiple-Analysis Components:  Run external document processing pipeline
  • 22. Questions?