Your SlideShare is downloading. ×
Searchperience Indexierungspipeline
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Searchperience Indexierungspipeline

130
views

Published on

Jun 27, 2012

Jun 27, 2012

Published in: Technology

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
130
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Sunday, June 17, 2012 1Indexing Pipeline (de)Search Meetup Rhein Main - 19.6.2012 Daniel Pötzinger
  • 2. Sunday, June 17, 2012 2Über SearchperienceKurzer Überblick Eine eigenständige Suchfunktion fürWebseiten und Online-Shops Basierend auf hochleistungsfähiger OpenSource Apache Solr Technologie SaaS Cloud ServiceUnd weil es ein Erlebnis für die Benutzerund nicht nur eine Suche ist, nennen wires Searchperience!
  • 3. Sunday, June 17, 2012 3Searchperience KomponentenSearchperienceIndexerCMS +SearcherIndexSOLR CloudQuery ProcessingResult ProcessingFacetted SearchFuzzy SearchLivesuggestSearch WidgetsRichDataUnstructuredDataStructuredDataSearchAnalyticsPipeline
  • 4. Sunday, June 17, 2012 4What is an Indexing Pipeline?StructuredDataUnstructuredDataRichDataPipeline „Garbage In, Garbage Out“ - Also müssenwir das meiste aus den Daten „rausholen“ Die abhängigen Einzelschritte in einerIndexierungspipeline bereiten einDokument für den Suchindex vor: Dokumentenfelder mit extrahiertenund ermittelten Inhalten Dokumentenwichtigkeit (Boost) ausgehende Relationen (Links) Intelligente und manuelle Anreicherung Filterung, Statistiken, skalierbareAusführung...
  • 5. Indexer ProcessesSunday, June 17, 2012 5Indexer ArchitectureDocuments +RelationsCrawler QueueLinkQueueEnrichmentCrawlerIndexerPageRank Calc...APIIndexer „Database“
  • 6. Sunday, June 17, 2012 6An Indexer Example PipelineConditional Subpipes:„Check Document mimetype and source ..etc“is product page? is job page? is not „text/*“ mimetype?XHTML Extracter„Extract content and product data“Enrich by Feed„add price from SAP feed“Add Boost +40XHTML Extracter„Extract Joboffer data“Get rating fromqypeTika Extracter„Extract rich content“Detect languageThesaurusExpansionPagerank EvaluationSearchperience Enrichments...Image Analysis
  • 7. Sunday, June 17, 2012 XML Extracter XHTML Extracter Tika Extracter Custom Extracter7Indexer Pipeline StepsDifferent Extracters
  • 8. Sunday, June 17, 2012 8Indexer Pipeline StepsLanguage Detection Spracherkennung an HandText langdetect“ Open Source mitentsprechenden Lerndaten
  • 9. Sunday, June 17, 2012 9Indexer Pipeline StepsThesaurus Expansion Suche nach „Drahtesel“ findetauch „Fahrräder“ Verschiedene Thesauri könnennach Spracherkennung oderDokumententyp eingesetztwerden um gezielt Inhalte mitihren Synonymen zu erweitern
  • 10. Sunday, June 17, 2012 Nutzt TFIDF werte fürdas Dokument in Bezugauf den aktuellen Index Beispielsweise genutztfür Keyword Boostingund Personalisierung10Indexer Pipeline StepsInteresting TermsBarack ObamaNavigationEurokrise
  • 11. Sunday, June 17, 2012 Open NLP Open Calais Named Entity Recognition Anreicherung mit Daten ausdem sematic Web(Wikipedia...)11Indexer Pipeline StepsNLP & Semantic ExtractionPerson: Barack ObamaCity: BerlinTime: 9.11.2001
  • 12. Sunday, June 17, 2012 12Indexer Pipeline StepsLearn from User Behaviour / Search Analytics ProcessingAuswertung desNutzerverhaltenbeeinflusstDokumentenKeywords undDokumenten-wichtigkeit
  • 13. Sunday, June 17, 2012 13Indexer Pipeline StepsLearn from User Behaviour / Search Analytics ProcessingManuelle Auslese undAnreicherung...
  • 14. Sunday, June 17, 2012 14Indexer Pipeline StepsAnreicherungspflege für SuchadministratorenRegelbasierteKeywortAnreicherungund Boosting-manipulation
  • 15. Sunday, June 17, 2012 15Indexer Pipeline StepsKontrolle auf DokumentenebeneDokumenteBoosten,Prominentdarstellen odersperren
  • 16. Sunday, June 17, 2012 16SOLR is not an Indexing Pipeline Es gibt einfache Konzepte(UpdateChain / LangDetect /ExtractingRequestHandler) Keine richtigen abhängigenAuswertungen / Unflexibel Kein Framework für eigenePipeline-Steps Keine testgeriebene PipelineKonfiguration möglich Skalierung und Verteilung derIndexierungGute Auffindbarkeit braucht flexible Kontrolle
  • 17. Sunday, June 17, 2012 17SOLR is not an Indexing Pipeline Der Searchperience Indexer hateine eigenentwickelte Crawlingund Indexierungs- Architektur,und stellt ein Kernbestandteil derLösung dar. Andere LösungenPipeline Projects Open Pipe UIMA https://docs.google.com/spreadsheet/ccc?key=0ApsMZSogVbD9dERlRlAyZXpES0JJNjVJaFlLQVN5UXc#gid=0
  • 18. Sunday, June 17, 2012 18Vielen Dank!Fragen?