• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Searchperience   Indexierungspipeline
 

Searchperience Indexierungspipeline

on

  • 764 views

 

Statistics

Views

Total Views
764
Views on SlideShare
764
Embed Views
0

Actions

Likes
0
Downloads
3
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Searchperience   Indexierungspipeline Searchperience Indexierungspipeline Presentation Transcript

    • Indexing Pipeline (de) Search Meetup Rhein Main - 19.6.2012 Daniel PötzingerSunday, June 17, 2012 1
    • Über Searchperience Kurzer Überblick  Eine eigenständige Suchfunktion für Webseiten und Online-Shops  Basierend auf hochleistungsfähiger Open Source Apache Solr Technologie  SaaS Cloud Service Und weil es ein Erlebnis für die Benutzer und nicht nur eine Suche ist, nennen wir es Searchperience!Sunday, June 17, 2012 2
    • Searchperience Komponenten Structured Unstructured Rich Data Data Data Searchperience Index CMS +Searcher Indexer SOLR Cloud Query Processing Pipeline Facetted Search Fuzzy Search Result Processing Livesuggest Search Widgets Search AnalyticsSunday, June 17, 2012 3
    • What is an Indexing Pipeline?  „Garbage In, Garbage Out“ - Also müssen Structured Unstructured Rich wir das meiste aus den Daten „rausholen“ Data Data Data  Die abhängigen Einzelschritte in einer Indexierungspipeline bereiten ein Dokument für den Suchindex vor: Pipeline  Dokumentenfelder mit extrahierten und ermittelten Inhalten  Dokumentenwichtigkeit (Boost)  ausgehende Relationen (Links)  Intelligente und manuelle Anreicherung  Filterung, Statistiken, skalierbare Ausführung...Sunday, June 17, 2012 4
    • Indexer Architecture Indexer „Database“ Indexer Processes Crawler Queue Crawler Documents + Relations Indexer API LinkQueue PageRank Calc Enrichment ...Sunday, June 17, 2012 5
    • An Indexer Example Pipeline Conditional Subpipes: „Check Document mimetype and source ..etc“ is product page? is job page? is not „text/*“ mimetype? XHTML Extracter XHTML Extracter Tika Extracter „Extract content and product data“ „Extract Joboffer data“ „Extract rich content“ Enrich by Feed Get rating from Detect language „add price from SAP feed“ qype Add Boost +40 Image Analysis Thesaurus Pagerank Evaluation Searchperience Enrichments Expansion ...Sunday, June 17, 2012 6
    • Indexer Pipeline Steps Different Extracters  XML Extracter  XHTML Extracter  Tika Extracter  Custom ExtracterSunday, June 17, 2012 7
    • Indexer Pipeline Steps Language Detection  Spracherkennung an Hand Text  langdetect“ Open Source mit entsprechenden LerndatenSunday, June 17, 2012 8
    • Indexer Pipeline Steps Thesaurus Expansion  Suche nach „Drahtesel“ findet auch „Fahrräder“  Verschiedene Thesauri können nach Spracherkennung oder Dokumententyp eingesetzt werden um gezielt Inhalte mit ihren Synonymen zu erweiternSunday, June 17, 2012 9
    • Indexer Pipeline Steps Interesting Terms  Nutzt TFIDF werte für das Dokument in Bezug auf den aktuellen Index  Beispielsweise genutzt für Keyword Boosting bama und Personalisierung Barack O n Nav igatio Euro kriseSunday, June 17, 2012 10
    • Indexer Pipeline Steps NLP & Semantic Extraction  Open NLP  Open Calais a ack Obam ar on: B Pers erlin B City: 9.11.2001 : Time  Named Entity Recognition  Anreicherung mit Daten aus dem sematic Web (Wikipedia...)Sunday, June 17, 2012 11
    • Indexer Pipeline Steps Learn from User Behaviour / Search Analytics Processing s ng de n wertu halte Aus r ver e Nutz flusst beein menten Doku ords und Keyw menten- Doku igkeit wichtSunday, June 17, 2012 12
    • ManuellePipeline Steps Indexer Auslese und Anreicherung... Behaviour / Search Analytics Processing Learn from UserSunday, June 17, 2012 13
    • Indexer Pipeline Steps Anreicherungspflege für Suchadministratoren e siert gelba t Re or Keyw cherung i Anre oosting- und B ulation pSunday, June 17, 2012 mani 14
    • Indexer Pipeline Steps Kontrolle auf Dokumentenebene e ment Doku ten, Boos inent r Prom ellen ode darst en r sperSunday, June 17, 2012 15
    • SOLR is not an Indexing Pipeline Gute Auffindbarkeit braucht flexible Kontrolle  Es gibt einfache Konzepte (UpdateChain / LangDetect / ExtractingRequestHandler)  Keine richtigen abhängigen Auswertungen / Unflexibel  Kein Framework für eigene Pipeline-Steps  Keine testgeriebene Pipeline Konfiguration möglich  Skalierung und Verteilung der IndexierungSunday, June 17, 2012 16
    • SOLR is not an Indexing Pipeline Pipeline Projects  Der Searchperience Indexer hat eine eigenentwickelte Crawling und Indexierungs- Architektur, und stellt ein Kernbestandteil der Lösung dar.  Andere Lösungen  Open Pipe  UIMA  https://docs.google.com/ spreadsheet/ccc? key=0ApsMZSogVbD9dERlRlAyZXp ES0JJNjVJaFlLQVN5UXc#gid=0Sunday, June 17, 2012 17
    • Vielen Dank! Fragen?Sunday, June 17, 2012 18