0
Indexing Pipeline (de)                        Search Meetup Rhein Main - 19.6.2012 Daniel PötzingerSunday, June 17, 2012  ...
Über Searchperience          Kurzer Überblick                                   Eine eigenständige Suchfunktion für      ...
Searchperience Komponenten     Structured         Unstructured   Rich     Data               Data           Data          ...
What is an Indexing Pipeline?                                                 „Garbage In, Garbage Out“ - Also müssen    ...
Indexer Architecture                Indexer „Database“              Indexer Processes                   Crawler Queue     ...
An Indexer Example Pipeline                                                Conditional Subpipes:                          ...
Indexer Pipeline Steps          Different Extracters                                      XML Extracter                  ...
Indexer Pipeline Steps          Language Detection                                      Spracherkennung an Hand          ...
Indexer Pipeline Steps          Thesaurus Expansion                                      Suche nach „Drahtesel“ findet   ...
Indexer Pipeline Steps          Interesting Terms                                                      Nutzt TFIDF werte ...
Indexer Pipeline Steps          NLP & Semantic Extraction                                           Open NLP             ...
Indexer Pipeline Steps          Learn from User Behaviour / Search Analytics Processing                                   ...
ManuellePipeline Steps    Indexer Auslese und  Anreicherung... Behaviour / Search Analytics Processing    Learn from UserS...
Indexer Pipeline Steps          Anreicherungspflege für Suchadministratoren                                               ...
Indexer Pipeline Steps          Kontrolle auf Dokumentenebene                                                    e        ...
SOLR is not an Indexing Pipeline          Gute Auffindbarkeit braucht flexible Kontrolle                                  ...
SOLR is not an Indexing Pipeline          Pipeline Projects                                         Der Searchperience In...
Vielen Dank!          Fragen?Sunday, June 17, 2012    18
Upcoming SlideShare
Loading in...5
×

Searchperience Indexierungspipeline

636

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
636
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Searchperience Indexierungspipeline"

  1. 1. Indexing Pipeline (de) Search Meetup Rhein Main - 19.6.2012 Daniel PötzingerSunday, June 17, 2012 1
  2. 2. Über Searchperience Kurzer Überblick  Eine eigenständige Suchfunktion für Webseiten und Online-Shops  Basierend auf hochleistungsfähiger Open Source Apache Solr Technologie  SaaS Cloud Service Und weil es ein Erlebnis für die Benutzer und nicht nur eine Suche ist, nennen wir es Searchperience!Sunday, June 17, 2012 2
  3. 3. Searchperience Komponenten Structured Unstructured Rich Data Data Data Searchperience Index CMS +Searcher Indexer SOLR Cloud Query Processing Pipeline Facetted Search Fuzzy Search Result Processing Livesuggest Search Widgets Search AnalyticsSunday, June 17, 2012 3
  4. 4. What is an Indexing Pipeline?  „Garbage In, Garbage Out“ - Also müssen Structured Unstructured Rich wir das meiste aus den Daten „rausholen“ Data Data Data  Die abhängigen Einzelschritte in einer Indexierungspipeline bereiten ein Dokument für den Suchindex vor: Pipeline  Dokumentenfelder mit extrahierten und ermittelten Inhalten  Dokumentenwichtigkeit (Boost)  ausgehende Relationen (Links)  Intelligente und manuelle Anreicherung  Filterung, Statistiken, skalierbare Ausführung...Sunday, June 17, 2012 4
  5. 5. Indexer Architecture Indexer „Database“ Indexer Processes Crawler Queue Crawler Documents + Relations Indexer API LinkQueue PageRank Calc Enrichment ...Sunday, June 17, 2012 5
  6. 6. An Indexer Example Pipeline Conditional Subpipes: „Check Document mimetype and source ..etc“ is product page? is job page? is not „text/*“ mimetype? XHTML Extracter XHTML Extracter Tika Extracter „Extract content and product data“ „Extract Joboffer data“ „Extract rich content“ Enrich by Feed Get rating from Detect language „add price from SAP feed“ qype Add Boost +40 Image Analysis Thesaurus Pagerank Evaluation Searchperience Enrichments Expansion ...Sunday, June 17, 2012 6
  7. 7. Indexer Pipeline Steps Different Extracters  XML Extracter  XHTML Extracter  Tika Extracter  Custom ExtracterSunday, June 17, 2012 7
  8. 8. Indexer Pipeline Steps Language Detection  Spracherkennung an Hand Text  langdetect“ Open Source mit entsprechenden LerndatenSunday, June 17, 2012 8
  9. 9. Indexer Pipeline Steps Thesaurus Expansion  Suche nach „Drahtesel“ findet auch „Fahrräder“  Verschiedene Thesauri können nach Spracherkennung oder Dokumententyp eingesetzt werden um gezielt Inhalte mit ihren Synonymen zu erweiternSunday, June 17, 2012 9
  10. 10. Indexer Pipeline Steps Interesting Terms  Nutzt TFIDF werte für das Dokument in Bezug auf den aktuellen Index  Beispielsweise genutzt für Keyword Boosting bama und Personalisierung Barack O n Nav igatio Euro kriseSunday, June 17, 2012 10
  11. 11. Indexer Pipeline Steps NLP & Semantic Extraction  Open NLP  Open Calais a ack Obam ar on: B Pers erlin B City: 9.11.2001 : Time  Named Entity Recognition  Anreicherung mit Daten aus dem sematic Web (Wikipedia...)Sunday, June 17, 2012 11
  12. 12. Indexer Pipeline Steps Learn from User Behaviour / Search Analytics Processing s ng de n wertu halte Aus r ver e Nutz flusst beein menten Doku ords und Keyw menten- Doku igkeit wichtSunday, June 17, 2012 12
  13. 13. ManuellePipeline Steps Indexer Auslese und Anreicherung... Behaviour / Search Analytics Processing Learn from UserSunday, June 17, 2012 13
  14. 14. Indexer Pipeline Steps Anreicherungspflege für Suchadministratoren e siert gelba t Re or Keyw cherung i Anre oosting- und B ulation pSunday, June 17, 2012 mani 14
  15. 15. Indexer Pipeline Steps Kontrolle auf Dokumentenebene e ment Doku ten, Boos inent r Prom ellen ode darst en r sperSunday, June 17, 2012 15
  16. 16. SOLR is not an Indexing Pipeline Gute Auffindbarkeit braucht flexible Kontrolle  Es gibt einfache Konzepte (UpdateChain / LangDetect / ExtractingRequestHandler)  Keine richtigen abhängigen Auswertungen / Unflexibel  Kein Framework für eigene Pipeline-Steps  Keine testgeriebene Pipeline Konfiguration möglich  Skalierung und Verteilung der IndexierungSunday, June 17, 2012 16
  17. 17. SOLR is not an Indexing Pipeline Pipeline Projects  Der Searchperience Indexer hat eine eigenentwickelte Crawling und Indexierungs- Architektur, und stellt ein Kernbestandteil der Lösung dar.  Andere Lösungen  Open Pipe  UIMA  https://docs.google.com/ spreadsheet/ccc? key=0ApsMZSogVbD9dERlRlAyZXp ES0JJNjVJaFlLQVN5UXc#gid=0Sunday, June 17, 2012 17
  18. 18. Vielen Dank! Fragen?Sunday, June 17, 2012 18
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×