Sunday, June 17, 2012 1Indexing Pipeline (de)Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger
Sunday, June 17, 2012 2Über SearchperienceKurzer Überblick Eine eigenständige Suchfunktion fürWebseiten und Online-Shops...
Sunday, June 17, 2012 3Searchperience KomponentenSearchperienceIndexerCMS +SearcherIndexSOLR CloudQuery ProcessingResult P...
Sunday, June 17, 2012 4What is an Indexing Pipeline?StructuredDataUnstructuredDataRichDataPipeline „Garbage In, Garbage O...
Indexer ProcessesSunday, June 17, 2012 5Indexer ArchitectureDocuments +RelationsCrawler QueueLinkQueueEnrichmentCrawlerInd...
Sunday, June 17, 2012 6An Indexer Example PipelineConditional Subpipes:„Check Document mimetype and source ..etc“is produc...
Sunday, June 17, 2012 XML Extracter XHTML Extracter Tika Extracter Custom Extracter7Indexer Pipeline StepsDifferent Ex...
Sunday, June 17, 2012 8Indexer Pipeline StepsLanguage Detection Spracherkennung an HandText langdetect“ Open Source mite...
Sunday, June 17, 2012 9Indexer Pipeline StepsThesaurus Expansion Suche nach „Drahtesel“ findetauch „Fahrräder“ Verschied...
Sunday, June 17, 2012 Nutzt TFIDF werte fürdas Dokument in Bezugauf den aktuellen Index Beispielsweise genutztfür Keywor...
Sunday, June 17, 2012 Open NLP Open Calais Named Entity Recognition Anreicherung mit Daten ausdem sematic Web(Wikipedi...
Sunday, June 17, 2012 12Indexer Pipeline StepsLearn from User Behaviour / Search Analytics ProcessingAuswertung desNutzerv...
Sunday, June 17, 2012 13Indexer Pipeline StepsLearn from User Behaviour / Search Analytics ProcessingManuelle Auslese undA...
Sunday, June 17, 2012 14Indexer Pipeline StepsAnreicherungspflege für SuchadministratorenRegelbasierteKeywortAnreicherungu...
Sunday, June 17, 2012 15Indexer Pipeline StepsKontrolle auf DokumentenebeneDokumenteBoosten,Prominentdarstellen odersperren
Sunday, June 17, 2012 16SOLR is not an Indexing Pipeline Es gibt einfache Konzepte(UpdateChain / LangDetect /ExtractingRe...
Sunday, June 17, 2012 17SOLR is not an Indexing Pipeline Der Searchperience Indexer hateine eigenentwickelte Crawlingund ...
Sunday, June 17, 2012 18Vielen Dank!Fragen?
Upcoming SlideShare
Loading in...5
×

Searchperience Indexierungspipeline

187

Published on

Jun 27, 2012

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
187
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Searchperience Indexierungspipeline

  1. 1. Sunday, June 17, 2012 1Indexing Pipeline (de)Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger
  2. 2. Sunday, June 17, 2012 2Über SearchperienceKurzer Überblick Eine eigenständige Suchfunktion fürWebseiten und Online-Shops Basierend auf hochleistungsfähiger OpenSource Apache Solr Technologie SaaS Cloud ServiceUnd weil es ein Erlebnis für die Benutzerund nicht nur eine Suche ist, nennen wires Searchperience!
  3. 3. Sunday, June 17, 2012 3Searchperience KomponentenSearchperienceIndexerCMS +SearcherIndexSOLR CloudQuery ProcessingResult ProcessingFacetted SearchFuzzy SearchLivesuggestSearch WidgetsRichDataUnstructuredDataStructuredDataSearchAnalyticsPipeline
  4. 4. Sunday, June 17, 2012 4What is an Indexing Pipeline?StructuredDataUnstructuredDataRichDataPipeline „Garbage In, Garbage Out“ - Also müssenwir das meiste aus den Daten „rausholen“ Die abhängigen Einzelschritte in einerIndexierungspipeline bereiten einDokument für den Suchindex vor: Dokumentenfelder mit extrahiertenund ermittelten Inhalten Dokumentenwichtigkeit (Boost) ausgehende Relationen (Links) Intelligente und manuelle Anreicherung Filterung, Statistiken, skalierbareAusführung...
  5. 5. Indexer ProcessesSunday, June 17, 2012 5Indexer ArchitectureDocuments +RelationsCrawler QueueLinkQueueEnrichmentCrawlerIndexerPageRank Calc...APIIndexer „Database“
  6. 6. Sunday, June 17, 2012 6An Indexer Example PipelineConditional Subpipes:„Check Document mimetype and source ..etc“is product page? is job page? is not „text/*“ mimetype?XHTML Extracter„Extract content and product data“Enrich by Feed„add price from SAP feed“Add Boost +40XHTML Extracter„Extract Joboffer data“Get rating fromqypeTika Extracter„Extract rich content“Detect languageThesaurusExpansionPagerank EvaluationSearchperience Enrichments...Image Analysis
  7. 7. Sunday, June 17, 2012 XML Extracter XHTML Extracter Tika Extracter Custom Extracter7Indexer Pipeline StepsDifferent Extracters
  8. 8. Sunday, June 17, 2012 8Indexer Pipeline StepsLanguage Detection Spracherkennung an HandText langdetect“ Open Source mitentsprechenden Lerndaten
  9. 9. Sunday, June 17, 2012 9Indexer Pipeline StepsThesaurus Expansion Suche nach „Drahtesel“ findetauch „Fahrräder“ Verschiedene Thesauri könnennach Spracherkennung oderDokumententyp eingesetztwerden um gezielt Inhalte mitihren Synonymen zu erweitern
  10. 10. Sunday, June 17, 2012 Nutzt TFIDF werte fürdas Dokument in Bezugauf den aktuellen Index Beispielsweise genutztfür Keyword Boostingund Personalisierung10Indexer Pipeline StepsInteresting TermsBarack ObamaNavigationEurokrise
  11. 11. Sunday, June 17, 2012 Open NLP Open Calais Named Entity Recognition Anreicherung mit Daten ausdem sematic Web(Wikipedia...)11Indexer Pipeline StepsNLP & Semantic ExtractionPerson: Barack ObamaCity: BerlinTime: 9.11.2001
  12. 12. Sunday, June 17, 2012 12Indexer Pipeline StepsLearn from User Behaviour / Search Analytics ProcessingAuswertung desNutzerverhaltenbeeinflusstDokumentenKeywords undDokumenten-wichtigkeit
  13. 13. Sunday, June 17, 2012 13Indexer Pipeline StepsLearn from User Behaviour / Search Analytics ProcessingManuelle Auslese undAnreicherung...
  14. 14. Sunday, June 17, 2012 14Indexer Pipeline StepsAnreicherungspflege für SuchadministratorenRegelbasierteKeywortAnreicherungund Boosting-manipulation
  15. 15. Sunday, June 17, 2012 15Indexer Pipeline StepsKontrolle auf DokumentenebeneDokumenteBoosten,Prominentdarstellen odersperren
  16. 16. Sunday, June 17, 2012 16SOLR is not an Indexing Pipeline Es gibt einfache Konzepte(UpdateChain / LangDetect /ExtractingRequestHandler) Keine richtigen abhängigenAuswertungen / Unflexibel Kein Framework für eigenePipeline-Steps Keine testgeriebene PipelineKonfiguration möglich Skalierung und Verteilung derIndexierungGute Auffindbarkeit braucht flexible Kontrolle
  17. 17. Sunday, June 17, 2012 17SOLR is not an Indexing Pipeline Der Searchperience Indexer hateine eigenentwickelte Crawlingund Indexierungs- Architektur,und stellt ein Kernbestandteil derLösung dar. Andere LösungenPipeline Projects Open Pipe UIMA https://docs.google.com/spreadsheet/ccc?key=0ApsMZSogVbD9dERlRlAyZXpES0JJNjVJaFlLQVN5UXc#gid=0
  18. 18. Sunday, June 17, 2012 18Vielen Dank!Fragen?
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×