SlideShare a Scribd company logo
1 of 54
Download to read offline
http://www.dkd.de




Sonntag, 12. Februar 12
dkd
                          development
                          kommunikation
                          design




Sonntag, 12. Februar 12
Willkommen
        TYPO3 Akademie 12

        Olivier Dobberkau, Geschäftsführer dkd
        Member of the Expert Advisory Board TYPO3 Assoc.
        Twitter @T3RevNeverend
        olivier.dobberkau@dkd.de




Sonntag, 12. Februar 12
Alles was Sie über Suche wissen
        wollten, aber bisher nicht zu
        fragten wagten.




Sonntag, 12. Februar 12
Woody Allen

        Inspiration zu diesem Talk:

        Woody Allen Film: „Was Sie schon immer über Sex
        wissen wollten, aber bisher nicht zu fragen
        wagten“

        Internet Movie Database:
        http://www.imdb.de/title/tt0068555/

Sonntag, 12. Februar 12
Agenda

              Historie der Suche
              Fachbegriffe
              Das Bedürfnis „Suchen“
              Wer sucht und wie sucht dieser?
              Suchen als Handwerk
              Suche in TYPO3 mit Apache Solr




Sonntag, 12. Februar 12
Historie

        Ein kurzer Abriss über die Historie von
        Suchlösungen im Zeitalter der EDV.

        Wirklich kurz, wirklich unvollständig und bestimmt
        nicht wissenschaftlich.




Sonntag, 12. Februar 12
Scratch your own itch, IBM.

              Am Anfang stand der Mainframe
              IBM entwickelt 1969 STAIRS (storage and
              information retrieval system)
              Volltext Suche für Terminal Anwendungen
              Performance: „far below anyone‘s expectations“
              Erster großer Einsatz bei einem Verfahren des
              DOJ gegen IBM
              Quelle: A history of online information services,
              1963-1976 von Charles P. Bourne,Trudi Bellardo


Sonntag, 12. Februar 12
Internet years are dog years

              Mit dem Internet verändert sich der Anspruch an
              eine Volltextsuche
              Mit Lycos, Alltheweb (Fast) , Infoseek, Excite,
              AltaVista treten Suchseiten als Lösung für das
              Problem: „Wie nde ich etwas im Internet?“ an
              Ab 1995 wechseln sich Suchseiten in der Gunst
              der Internetnutzer regelmäßig ab
              Yahoo fungiert als Verzeichnis von Webseiten




Sonntag, 12. Februar 12
And then came GOOGLE

              Wer kennt das Erfolgsgeheimnis von Google
              nicht?
              The Anatomy of a Large-Scale Hypertextual Web
              Search Engine
              http://infolab.stanford.edu/~backrub/google.html
              Visionäres Konzept
              Viele der erwähnten Technologien sind heute
              Industrie-Standard und verändern immer noch
              die Informationstechnologie.
              Lesen!

Sonntag, 12. Februar 12
Fachbegriffe

        Keine Erkenntnis ohne Fachbegriffe.

        Warnhinweis: Jargon-Gefahr!




Sonntag, 12. Februar 12
Alles rund ums Wort

              Irformation Retrieval (IR)
              Term versus Query
              Index
              Recall & Precision
              Relevancy
              Index, Inverted Index & Posting List
              Recency & Authority




Sonntag, 12. Februar 12
Bedürfnis Suche

        Welche Motive leiten uns bei der Suche?
        Wie suchen wir und was nden wir dann?




Sonntag, 12. Februar 12
People are like Bears
        (only less fur)
              Wie suchen wir?
              Marcia Bates, 1989
              THE DESIGN OF BROWSING AND BERRYPICKING
              TECHNIQUES FOR THE ONLINE SEARCH
              INTERFACE
              http://pages.gseis.ucla.edu/faculty/bates/
              berrypicking.html
              Jede Art von Suchverhalten hat dieses Muster




Sonntag, 12. Februar 12
Marcia J. Bates Berrypicking techniques for the online search interface (1989)

Sonntag, 12. Februar 12
Carrots & Sticks

              Search Behavior Patterns, John Ferrara
              http://www.boxesandarrows.com/view/search-
              behavior
                    Domain Expertise
                    Such Expertise
                    Kognitiver Stil
                    Ziel der Suche
                    Modus der Suche
                    Umstände der Suche

Sonntag, 12. Februar 12
Neo: Die Matrix

              Matrix der Informationsbedürfnisse




                                  Scope & Type -Tyler Tate. Sohn et al. Church & Smyth
                          http://twigkit.com/blog/2011/12/06/mobile-information-needs.html



Sonntag, 12. Februar 12
Suchen als Handwerk


        Welche Lösungsansätze gibt es um eine gute Suche
        zu realisieren?

        Wie sieht das Toolset aus?

        Wohin geht die Reise?



Sonntag, 12. Februar 12
Komponenten


        Überblick




Sonntag, 12. Februar 12
Indexierung




Sonntag, 12. Februar 12
Abfrage




Sonntag, 12. Februar 12
Ergebnis




Sonntag, 12. Februar 12
Analyse




Sonntag, 12. Februar 12
Zusatzkomponenten




Sonntag, 12. Februar 12
Solr-Komponenten



              Indizierung
              Abfrage       Abfrage

             Ergebnis
            Indexierung                  Analyse
             Analyse
                           Ergebnis
              Zusatzkomponenten

                                      Zusatzkomponenten

Sonntag, 12. Februar 12
TYPO3 & Suche

        Am Beispiel der Apache Solr Integration.
        Schamlos zugegeben.

        (Ich habe noch ein paar „I like Indexed Search“
        Buttons zum Verschenken!)




Sonntag, 12. Februar 12
Indexierung

        Indexierung von Content
        Anwendungsmöglichkeiten der Indexierung




Sonntag, 12. Februar 12
Indexierbarer Content

              TYPO3 Content
              Datenbank-Tabellen
              Externe Websites
              RSS-Feeds
              Dateien




Sonntag, 12. Februar 12
Möglichkeiten Indexierung

              Erstellen von Synonymen
              Auslassen von Stopwords
              Extern vorgehaltener Content wie z.B. Online-
              Katalog
              Aggregation von Brancheninformation
              Integration von Information aus weiteren
              Plattformen wie z.B. Microsites oder
              Applikationen




Sonntag, 12. Februar 12
Abfrage

        Optionen
        Funktionsumfang




Sonntag, 12. Februar 12
Abfrage-Optionen

              Operatoren
                    “+” und “-” für Erzwingen oder Ausschluss
                    zukünftig “and” und “or” zur Verkettung
                    Anführungszeichen zur Zusammenfassung
                    z.B. “Suchbegriff aus mehreren Worten”

              Diakritische Zeichen
                    cuvée = cuvee
                    Søren = Sören = Soeren = Sœren = Soren



Sonntag, 12. Februar 12
Abfrage-Funktionalität

              Berücksichtigung der Benutzerberechtigungen
              Autovervollständigung
              Suggestions




Sonntag, 12. Februar 12
Ergebnis

        Funktionen
        Facetten




Sonntag, 12. Februar 12
Ergebnis-Funktionen

              Suchtreffer (Link auf das Ergebnis)
              Page Browser
              Sortierung
                    Relevanz (Score)
                    Autor
                    Datum (Indexierungsdatum, cr_date einer
                    TYPO3-Seite)
                    Eigene Kriterien



Sonntag, 12. Februar 12
Ergebnis-Funktionen

              View-Helper um z.B. Zusatzinformationen zum
              Treffer abzurufen (kundenindividuelle Preise,
              Vorschaubild, Vorschau des Dokument-Inhalts)
              Filter vorbelegen (Facetten können im Vorfeld
              angewendet werden)




Sonntag, 12. Februar 12
Ergebnis-Funktionen

              Field Boosting (Treffer im Titel ist mehr Wert als
              Treffer im Content. Wertigkeit ist frei de nierbar.)
              Boost-Functions (Funktionen auf Werte aus
              Dokumenten. Z.B. je neuer ein Dokument, desto
              höher der Boost auf ein Feld.)
              Query-Manipulationen (bevor die Anfrage an Solr
              übergeben wird, kann dieser noch mal bearbeitet
              werden.)
              Elevation (in Arbeit)



Sonntag, 12. Februar 12
Ergebnis-Funktionen

              Template Engine: Ergebnisdarstellung einfach
              anpassbar durch exibles Templating
              Suchwort-Hervorhebung
              Spell-Checking: "Meinten Sie?"
              Common Searches
              (Tag Cloud bzw. die meistgesuchten Begriffe)
              Recent Searches
              Ähnlich Common Searches: zeigt die letzten
              durchgeführten Suchen



Sonntag, 12. Februar 12
Facetten

              Typ-Facetten
                    Autor (z.B. bei News)
                    Typ (z.B. Seite, News, Aktienkurs, ...)
              Bereichs-Facetten (in Arbeit)
              (z.B. 1-10 EUR oder Slider)

              Hierarchische Facetten
              (Wenn baumartige Strukturen vorliegen, können diese auch als
              Facette dargestellt werden. z.B. News Kategorien)

              Multiple Auswahl von Facettenausprägungen
              (z.B. Facette Preis 20 EUR & 30 EUR)




Sonntag, 12. Februar 12
Facetten

              Geo-Search (in Arbeit)
              (z.B. wenn indizierte Elemente geographische Information
              besitzen. Eine Google Map dient als Interface um alle Treffer
              innerhalb des sichtbaren Fensters zu zeigen.)

              Georelevante Informationen auf Basis der IP-
              Adresse des Benutzers
              (z.B. wo ist der nächste Service-Point in meiner Nähe)

              Darstellung der Facettenlabel erfolgt als TYPO3
              Content Objekt
              (beliebige Darstellung z.B. über GIFBUILDER möglich)

              Filter vorbelegen
              (bestimmte Facetten können im Vorfeld angewendet werden)




Sonntag, 12. Februar 12
Analyse

        Analysemöglichkeiten
        Roadmap




Sonntag, 12. Februar 12
Analysemöglichkeiten

              Query Logging
              Statistiken über die Suchanfragen (in Arbeit)
              Lernen durch Userinput (in Arbeit)
              (Wenn User ein Ergebnis anklickt, erhält das Ergebnis
              Zusatzpunkte.)




Sonntag, 12. Februar 12
Zusatzkomponenten




Sonntag, 12. Februar 12
Zusatzkomponenten

              Auf einer Ergebnisseite kann über die Nutzung
              des Index z.B. eine "more like this"-Empfehlung
              erfolgen um thematisch relevante Themen
              anzuzeigen.
              Eigenentwicklungen, die Zugriff auf die
              Indexdaten benötigen, möglich




Sonntag, 12. Februar 12
Konzepte im Detail


        Scoring
        Synonyme




Sonntag, 12. Februar 12
Scoring

              term frequency (tf)
              Je häufiger ein Term in einem Dokument auftritt, desto höher
              der Score.

              inverse document frequency (idf)
              Je häufiger ein Term in verschiedenen Dokumenten auftritt,
              desto geringer sein Score.

              number of terms in the query that were found in
              the document (coord)
              Je mehr Terme der Suchanfrage im Dokument vorkommen, desto
              höher sein Score.

              Boost




Sonntag, 12. Februar 12
Scoring - Zusammenfassung

              Dokumente, die alle Suchterme enthalten sind
              gut.
              Treffer auf seltene Worte sind besser als Treffer
              auf häu ge Worte.
              Kurze Dokumente sind besser als lange
              Dokumente.
              Dokumente, die Suchterme mehrfach enthalten
              sind gut.




Sonntag, 12. Februar 12
Scoring – Beispiel

              Indizierung und Boost verschiedener Felder
                    Content (z.B. 20x)
                    Keywords (z.B. 20x)
                    Seitentitel (z.B. 25x)
              Sortierung nach Typ
                    News kommen z.B. immer am Ende des
                    Suchergebnisses nach allen Seitentreffern




Sonntag, 12. Februar 12
Synonyme

              Werden bei Indizierung erstellt
              Können gerichtet sein
                    Stewardess = Flugbegleiter
                    Spielwaren => Toy aber Toy ≠> Spielwaren
              Können Ketten bilden
              Durch Synonymketten können Suchanfragen sehr
              ungenau werden




Sonntag, 12. Februar 12
Synonyme: Beispiel Verkettung

              Enjoy Toy Fair City = Messestadt Nürnberg =
              Kulturangebot = Restaurant = Essen = Bar =
              Gastrosuche = Kultur = Nürnberg spielt mit =
              Museum = Einkaufen = Nürnberg = Abendessen
              = Gasthäuser
              Spielwarenmesse = Fachmesse für Spielwaren =
              Toy Fair = International Toy Fair = Toy Fair
              Nürnberg = Spielzeugmesse = Spielzeugmesse
              Nürnberg = Nürnbergmesse für Spielwaren =
              Spielwarenmesse 2011
              Spielzeug = Spielwaren = Spielsachen


Sonntag, 12. Februar 12
Synonyme: Beispiel Verkettung

              Suche nach: “Restaurant”
              Restaurant = Enjoy Toy Fair City
              Enjoy Toy Fair City = Enjoy Fachmesse für
              Spielwaren City
              Enjoy Fachmesse Spielwaren City = Enjoy
              Fachmesse Spielzeug City




Sonntag, 12. Februar 12
Synonyme: Beispiel Verkettung

              Die resultierende Suchanfrage (nicht komplett):
                    Enjoy Toy Fair City Messestadt Nürnberg
                    Kulturangebot Restaurant Essen Bar
                    Gastrosuche Kultur spielt Museum Einkaufen
                    Abendessen Gasthäuser Spielwarenmesse
                    Fachmesse International Spielzeugmesse
                    Nürnbergmesse 2011 Spielzeug Spielwaren
                    Spielsachen




Sonntag, 12. Februar 12
Synonyme: Seiteneffekte

              Beispiel Synonymsuche
                    TV = Television
                    Im Index ca. 1.000 Dokumente mit “TV”
                    Im Index ca. 50 Dokumente mit “Television”
                    Suche nach “TV” bringt Dokumente mit
                    “Television” nach vorne, da “bessere Treffer”




Sonntag, 12. Februar 12
dkd
                                development
                                kommunikation
                                design




                          sagt danke.
Sonntag, 12. Februar 12
Quellenangaben

                    Lucene Scoring for dummies: http://
                    www.supermind.org/blog/378/lucene-scoring-
                    for-dummies
                    Fotos: Søren Schaffstein




Sonntag, 12. Februar 12

More Related Content

Similar to Alles was-sie-ueber-suche-wissen-wollten

eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...Martin Kaltenböck
 
Wissenstechnologie I
Wissenstechnologie IWissenstechnologie I
Wissenstechnologie Iguestc8ad16
 
Searchperience Indexierungspipeline
Searchperience IndexierungspipelineSearchperience Indexierungspipeline
Searchperience IndexierungspipelineAOE
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11scuy
 
Bdk fachforum (gpec) big data und intelligente datenanalyse
Bdk fachforum (gpec)   big data und intelligente datenanalyseBdk fachforum (gpec)   big data und intelligente datenanalyse
Bdk fachforum (gpec) big data und intelligente datenanalyseAI4BD GmbH
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenMartin Voigt
 
Dietze linked data-vr-es
Dietze linked data-vr-esDietze linked data-vr-es
Dietze linked data-vr-esStefan Dietze
 
Wissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic WebWissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic WebKatrin Weller
 
Information Broker 2.0 - Recherche im Sozialen Web
Information Broker 2.0 - Recherche im Sozialen WebInformation Broker 2.0 - Recherche im Sozialen Web
Information Broker 2.0 - Recherche im Sozialen WebUniversity St. Gallen
 
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)Praxistage
 
Objekt-Relationales Mapping - von Java zu relationalen DBs
Objekt-Relationales Mapping - von Java zu relationalen DBsObjekt-Relationales Mapping - von Java zu relationalen DBs
Objekt-Relationales Mapping - von Java zu relationalen DBsSebastian Dietrich
 
Strukturierte daten in der Suchmaschine
Strukturierte daten in der SuchmaschineStrukturierte daten in der Suchmaschine
Strukturierte daten in der SuchmaschineOliver Mösing
 
Leichtgewichtige API Dokumentation
Leichtgewichtige API DokumentationLeichtgewichtige API Dokumentation
Leichtgewichtige API DokumentationJan Christian Krause
 
Leichtgewichtige API-Dokumentation – Ein Paradoxon?
Leichtgewichtige API-Dokumentation – Ein Paradoxon?Leichtgewichtige API-Dokumentation – Ein Paradoxon?
Leichtgewichtige API-Dokumentation – Ein Paradoxon?DeveloperConference
 
Volltextsuche mit Lucene und Solr
Volltextsuche mit Lucene und SolrVolltextsuche mit Lucene und Solr
Volltextsuche mit Lucene und SolrThomas Koch
 
Das LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei AnwendungsfälleDas LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei AnwendungsfälleHermann Stern
 
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...Stefan Dietze
 

Similar to Alles was-sie-ueber-suche-wissen-wollten (20)

eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
 
Wissenstechnologie I
Wissenstechnologie IWissenstechnologie I
Wissenstechnologie I
 
Searchperience Indexierungspipeline
Searchperience IndexierungspipelineSearchperience Indexierungspipeline
Searchperience Indexierungspipeline
 
Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11
 
Bdk fachforum (gpec) big data und intelligente datenanalyse
Bdk fachforum (gpec)   big data und intelligente datenanalyseBdk fachforum (gpec)   big data und intelligente datenanalyse
Bdk fachforum (gpec) big data und intelligente datenanalyse
 
Einführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in MassendatenEinführung in die semantische Suche in Massendaten
Einführung in die semantische Suche in Massendaten
 
Dietze linked data-vr-es
Dietze linked data-vr-esDietze linked data-vr-es
Dietze linked data-vr-es
 
Überblick Semantic Web
Überblick Semantic WebÜberblick Semantic Web
Überblick Semantic Web
 
BIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic Web
BIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic WebBIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic Web
BIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic Web
 
Wir sind aber nicht Twitter
Wir sind aber nicht TwitterWir sind aber nicht Twitter
Wir sind aber nicht Twitter
 
Wissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic WebWissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic Web
 
Information Broker 2.0 - Recherche im Sozialen Web
Information Broker 2.0 - Recherche im Sozialen WebInformation Broker 2.0 - Recherche im Sozialen Web
Information Broker 2.0 - Recherche im Sozialen Web
 
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
Sabine Bühn, Bernd Aschauer (Aschauer IT & Business)
 
Objekt-Relationales Mapping - von Java zu relationalen DBs
Objekt-Relationales Mapping - von Java zu relationalen DBsObjekt-Relationales Mapping - von Java zu relationalen DBs
Objekt-Relationales Mapping - von Java zu relationalen DBs
 
Strukturierte daten in der Suchmaschine
Strukturierte daten in der SuchmaschineStrukturierte daten in der Suchmaschine
Strukturierte daten in der Suchmaschine
 
Leichtgewichtige API Dokumentation
Leichtgewichtige API DokumentationLeichtgewichtige API Dokumentation
Leichtgewichtige API Dokumentation
 
Leichtgewichtige API-Dokumentation – Ein Paradoxon?
Leichtgewichtige API-Dokumentation – Ein Paradoxon?Leichtgewichtige API-Dokumentation – Ein Paradoxon?
Leichtgewichtige API-Dokumentation – Ein Paradoxon?
 
Volltextsuche mit Lucene und Solr
Volltextsuche mit Lucene und SolrVolltextsuche mit Lucene und Solr
Volltextsuche mit Lucene und Solr
 
Das LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei AnwendungsfälleDas LASSO für Linked Data – Drei Anwendungsfälle
Das LASSO für Linked Data – Drei Anwendungsfälle
 
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
 

More from Olivier Dobberkau

Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3
Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3
Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3Olivier Dobberkau
 
Apache Solr for TYPO3: More than a search engine
Apache Solr for TYPO3: More than a search engineApache Solr for TYPO3: More than a search engine
Apache Solr for TYPO3: More than a search engineOlivier Dobberkau
 
With a little help from my friends (english)
With a little help  from my friends (english)With a little help  from my friends (english)
With a little help from my friends (english)Olivier Dobberkau
 
With a little help from my friends
With a little help from my friendsWith a little help from my friends
With a little help from my friendsOlivier Dobberkau
 
Sonnenschein für ihre Website
Sonnenschein für ihre WebsiteSonnenschein für ihre Website
Sonnenschein für ihre WebsiteOlivier Dobberkau
 
TYPO3 Camp Poznan - Solr Usecases with Hosted Solr
TYPO3 Camp Poznan - Solr Usecases with Hosted SolrTYPO3 Camp Poznan - Solr Usecases with Hosted Solr
TYPO3 Camp Poznan - Solr Usecases with Hosted SolrOlivier Dobberkau
 
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...Olivier Dobberkau
 
ForgetIT: Beyond the page: Giving content a meaning and value
ForgetIT: Beyond the page: Giving content a meaning and valueForgetIT: Beyond the page: Giving content a meaning and value
ForgetIT: Beyond the page: Giving content a meaning and valueOlivier Dobberkau
 
ForgetIT Project TYPO3Camp Milano 2014
ForgetIT Project TYPO3Camp Milano 2014ForgetIT Project TYPO3Camp Milano 2014
ForgetIT Project TYPO3Camp Milano 2014Olivier Dobberkau
 
Explain TYPO3 Association March 2014
Explain TYPO3 Association March 2014Explain TYPO3 Association March 2014
Explain TYPO3 Association March 2014Olivier Dobberkau
 
Apache Solr for TYPO3 CMS 101
Apache Solr for TYPO3 CMS 101Apache Solr for TYPO3 CMS 101
Apache Solr for TYPO3 CMS 101Olivier Dobberkau
 
Outside the Box - Panel on CMS at TYPO3 Camp Mallorca
Outside the Box - Panel on CMS at TYPO3 Camp MallorcaOutside the Box - Panel on CMS at TYPO3 Camp Mallorca
Outside the Box - Panel on CMS at TYPO3 Camp MallorcaOlivier Dobberkau
 
Status & Outlook on EXT:solr for TYPO3 CMS
Status & Outlook on EXT:solr for TYPO3 CMSStatus & Outlook on EXT:solr for TYPO3 CMS
Status & Outlook on EXT:solr for TYPO3 CMSOlivier Dobberkau
 
The future of CMS @T3UNI 2013 Annecy France
The future of CMS @T3UNI 2013 Annecy FranceThe future of CMS @T3UNI 2013 Annecy France
The future of CMS @T3UNI 2013 Annecy FranceOlivier Dobberkau
 
Digital dark age - Are we doing enough to preserve our website heritage?
Digital dark age - Are we doing enough to preserve our website heritage?Digital dark age - Are we doing enough to preserve our website heritage?
Digital dark age - Are we doing enough to preserve our website heritage?Olivier Dobberkau
 

More from Olivier Dobberkau (20)

Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3
Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3
Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3
 
Apache Solr for TYPO3: More than a search engine
Apache Solr for TYPO3: More than a search engineApache Solr for TYPO3: More than a search engine
Apache Solr for TYPO3: More than a search engine
 
TYPO3 v8 LTS in the cloud
TYPO3 v8 LTS in the cloudTYPO3 v8 LTS in the cloud
TYPO3 v8 LTS in the cloud
 
With a little help from my friends (english)
With a little help  from my friends (english)With a little help  from my friends (english)
With a little help from my friends (english)
 
With a little help from my friends
With a little help from my friendsWith a little help from my friends
With a little help from my friends
 
TYPO3 & You
TYPO3 & YouTYPO3 & You
TYPO3 & You
 
Sonnenschein für ihre Website
Sonnenschein für ihre WebsiteSonnenschein für ihre Website
Sonnenschein für ihre Website
 
Apache Solr Revisited 2015
Apache Solr Revisited 2015Apache Solr Revisited 2015
Apache Solr Revisited 2015
 
TYPO3 Camp Poznan - Solr Usecases with Hosted Solr
TYPO3 Camp Poznan - Solr Usecases with Hosted SolrTYPO3 Camp Poznan - Solr Usecases with Hosted Solr
TYPO3 Camp Poznan - Solr Usecases with Hosted Solr
 
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...
 
TYPO3 and CMIS
TYPO3 and CMISTYPO3 and CMIS
TYPO3 and CMIS
 
ForgetIT: Beyond the page: Giving content a meaning and value
ForgetIT: Beyond the page: Giving content a meaning and valueForgetIT: Beyond the page: Giving content a meaning and value
ForgetIT: Beyond the page: Giving content a meaning and value
 
ForgetIT Project TYPO3Camp Milano 2014
ForgetIT Project TYPO3Camp Milano 2014ForgetIT Project TYPO3Camp Milano 2014
ForgetIT Project TYPO3Camp Milano 2014
 
Explain TYPO3 Association March 2014
Explain TYPO3 Association March 2014Explain TYPO3 Association March 2014
Explain TYPO3 Association March 2014
 
Apache Solr for TYPO3 CMS 101
Apache Solr for TYPO3 CMS 101Apache Solr for TYPO3 CMS 101
Apache Solr for TYPO3 CMS 101
 
EXPLAIN #t3a
EXPLAIN #t3aEXPLAIN #t3a
EXPLAIN #t3a
 
Outside the Box - Panel on CMS at TYPO3 Camp Mallorca
Outside the Box - Panel on CMS at TYPO3 Camp MallorcaOutside the Box - Panel on CMS at TYPO3 Camp Mallorca
Outside the Box - Panel on CMS at TYPO3 Camp Mallorca
 
Status & Outlook on EXT:solr for TYPO3 CMS
Status & Outlook on EXT:solr for TYPO3 CMSStatus & Outlook on EXT:solr for TYPO3 CMS
Status & Outlook on EXT:solr for TYPO3 CMS
 
The future of CMS @T3UNI 2013 Annecy France
The future of CMS @T3UNI 2013 Annecy FranceThe future of CMS @T3UNI 2013 Annecy France
The future of CMS @T3UNI 2013 Annecy France
 
Digital dark age - Are we doing enough to preserve our website heritage?
Digital dark age - Are we doing enough to preserve our website heritage?Digital dark age - Are we doing enough to preserve our website heritage?
Digital dark age - Are we doing enough to preserve our website heritage?
 

Alles was-sie-ueber-suche-wissen-wollten

  • 2. dkd development kommunikation design Sonntag, 12. Februar 12
  • 3. Willkommen TYPO3 Akademie 12 Olivier Dobberkau, Geschäftsführer dkd Member of the Expert Advisory Board TYPO3 Assoc. Twitter @T3RevNeverend olivier.dobberkau@dkd.de Sonntag, 12. Februar 12
  • 4. Alles was Sie über Suche wissen wollten, aber bisher nicht zu fragten wagten. Sonntag, 12. Februar 12
  • 5. Woody Allen Inspiration zu diesem Talk: Woody Allen Film: „Was Sie schon immer über Sex wissen wollten, aber bisher nicht zu fragen wagten“ Internet Movie Database: http://www.imdb.de/title/tt0068555/ Sonntag, 12. Februar 12
  • 6. Agenda Historie der Suche Fachbegriffe Das Bedürfnis „Suchen“ Wer sucht und wie sucht dieser? Suchen als Handwerk Suche in TYPO3 mit Apache Solr Sonntag, 12. Februar 12
  • 7. Historie Ein kurzer Abriss über die Historie von Suchlösungen im Zeitalter der EDV. Wirklich kurz, wirklich unvollständig und bestimmt nicht wissenschaftlich. Sonntag, 12. Februar 12
  • 8. Scratch your own itch, IBM. Am Anfang stand der Mainframe IBM entwickelt 1969 STAIRS (storage and information retrieval system) Volltext Suche für Terminal Anwendungen Performance: „far below anyone‘s expectations“ Erster großer Einsatz bei einem Verfahren des DOJ gegen IBM Quelle: A history of online information services, 1963-1976 von Charles P. Bourne,Trudi Bellardo Sonntag, 12. Februar 12
  • 9. Internet years are dog years Mit dem Internet verändert sich der Anspruch an eine Volltextsuche Mit Lycos, Alltheweb (Fast) , Infoseek, Excite, AltaVista treten Suchseiten als Lösung für das Problem: „Wie nde ich etwas im Internet?“ an Ab 1995 wechseln sich Suchseiten in der Gunst der Internetnutzer regelmäßig ab Yahoo fungiert als Verzeichnis von Webseiten Sonntag, 12. Februar 12
  • 10. And then came GOOGLE Wer kennt das Erfolgsgeheimnis von Google nicht? The Anatomy of a Large-Scale Hypertextual Web Search Engine http://infolab.stanford.edu/~backrub/google.html Visionäres Konzept Viele der erwähnten Technologien sind heute Industrie-Standard und verändern immer noch die Informationstechnologie. Lesen! Sonntag, 12. Februar 12
  • 11. Fachbegriffe Keine Erkenntnis ohne Fachbegriffe. Warnhinweis: Jargon-Gefahr! Sonntag, 12. Februar 12
  • 12. Alles rund ums Wort Irformation Retrieval (IR) Term versus Query Index Recall & Precision Relevancy Index, Inverted Index & Posting List Recency & Authority Sonntag, 12. Februar 12
  • 13. Bedürfnis Suche Welche Motive leiten uns bei der Suche? Wie suchen wir und was nden wir dann? Sonntag, 12. Februar 12
  • 14. People are like Bears (only less fur) Wie suchen wir? Marcia Bates, 1989 THE DESIGN OF BROWSING AND BERRYPICKING TECHNIQUES FOR THE ONLINE SEARCH INTERFACE http://pages.gseis.ucla.edu/faculty/bates/ berrypicking.html Jede Art von Suchverhalten hat dieses Muster Sonntag, 12. Februar 12
  • 15. Marcia J. Bates Berrypicking techniques for the online search interface (1989) Sonntag, 12. Februar 12
  • 16. Carrots & Sticks Search Behavior Patterns, John Ferrara http://www.boxesandarrows.com/view/search- behavior Domain Expertise Such Expertise Kognitiver Stil Ziel der Suche Modus der Suche Umstände der Suche Sonntag, 12. Februar 12
  • 17. Neo: Die Matrix Matrix der Informationsbedürfnisse Scope & Type -Tyler Tate. Sohn et al. Church & Smyth http://twigkit.com/blog/2011/12/06/mobile-information-needs.html Sonntag, 12. Februar 12
  • 18. Suchen als Handwerk Welche Lösungsansätze gibt es um eine gute Suche zu realisieren? Wie sieht das Toolset aus? Wohin geht die Reise? Sonntag, 12. Februar 12
  • 19. Komponenten Überblick Sonntag, 12. Februar 12
  • 25. Solr-Komponenten Indizierung Abfrage Abfrage Ergebnis Indexierung Analyse Analyse Ergebnis Zusatzkomponenten Zusatzkomponenten Sonntag, 12. Februar 12
  • 26. TYPO3 & Suche Am Beispiel der Apache Solr Integration. Schamlos zugegeben. (Ich habe noch ein paar „I like Indexed Search“ Buttons zum Verschenken!) Sonntag, 12. Februar 12
  • 27. Indexierung Indexierung von Content Anwendungsmöglichkeiten der Indexierung Sonntag, 12. Februar 12
  • 28. Indexierbarer Content TYPO3 Content Datenbank-Tabellen Externe Websites RSS-Feeds Dateien Sonntag, 12. Februar 12
  • 29. Möglichkeiten Indexierung Erstellen von Synonymen Auslassen von Stopwords Extern vorgehaltener Content wie z.B. Online- Katalog Aggregation von Brancheninformation Integration von Information aus weiteren Plattformen wie z.B. Microsites oder Applikationen Sonntag, 12. Februar 12
  • 30. Abfrage Optionen Funktionsumfang Sonntag, 12. Februar 12
  • 31. Abfrage-Optionen Operatoren “+” und “-” für Erzwingen oder Ausschluss zukünftig “and” und “or” zur Verkettung Anführungszeichen zur Zusammenfassung z.B. “Suchbegriff aus mehreren Worten” Diakritische Zeichen cuvée = cuvee Søren = Sören = Soeren = Sœren = Soren Sonntag, 12. Februar 12
  • 32. Abfrage-Funktionalität Berücksichtigung der Benutzerberechtigungen Autovervollständigung Suggestions Sonntag, 12. Februar 12
  • 33. Ergebnis Funktionen Facetten Sonntag, 12. Februar 12
  • 34. Ergebnis-Funktionen Suchtreffer (Link auf das Ergebnis) Page Browser Sortierung Relevanz (Score) Autor Datum (Indexierungsdatum, cr_date einer TYPO3-Seite) Eigene Kriterien Sonntag, 12. Februar 12
  • 35. Ergebnis-Funktionen View-Helper um z.B. Zusatzinformationen zum Treffer abzurufen (kundenindividuelle Preise, Vorschaubild, Vorschau des Dokument-Inhalts) Filter vorbelegen (Facetten können im Vorfeld angewendet werden) Sonntag, 12. Februar 12
  • 36. Ergebnis-Funktionen Field Boosting (Treffer im Titel ist mehr Wert als Treffer im Content. Wertigkeit ist frei de nierbar.) Boost-Functions (Funktionen auf Werte aus Dokumenten. Z.B. je neuer ein Dokument, desto höher der Boost auf ein Feld.) Query-Manipulationen (bevor die Anfrage an Solr übergeben wird, kann dieser noch mal bearbeitet werden.) Elevation (in Arbeit) Sonntag, 12. Februar 12
  • 37. Ergebnis-Funktionen Template Engine: Ergebnisdarstellung einfach anpassbar durch exibles Templating Suchwort-Hervorhebung Spell-Checking: "Meinten Sie?" Common Searches (Tag Cloud bzw. die meistgesuchten Begriffe) Recent Searches Ähnlich Common Searches: zeigt die letzten durchgeführten Suchen Sonntag, 12. Februar 12
  • 38. Facetten Typ-Facetten Autor (z.B. bei News) Typ (z.B. Seite, News, Aktienkurs, ...) Bereichs-Facetten (in Arbeit) (z.B. 1-10 EUR oder Slider) Hierarchische Facetten (Wenn baumartige Strukturen vorliegen, können diese auch als Facette dargestellt werden. z.B. News Kategorien) Multiple Auswahl von Facettenausprägungen (z.B. Facette Preis 20 EUR & 30 EUR) Sonntag, 12. Februar 12
  • 39. Facetten Geo-Search (in Arbeit) (z.B. wenn indizierte Elemente geographische Information besitzen. Eine Google Map dient als Interface um alle Treffer innerhalb des sichtbaren Fensters zu zeigen.) Georelevante Informationen auf Basis der IP- Adresse des Benutzers (z.B. wo ist der nächste Service-Point in meiner Nähe) Darstellung der Facettenlabel erfolgt als TYPO3 Content Objekt (beliebige Darstellung z.B. über GIFBUILDER möglich) Filter vorbelegen (bestimmte Facetten können im Vorfeld angewendet werden) Sonntag, 12. Februar 12
  • 40. Analyse Analysemöglichkeiten Roadmap Sonntag, 12. Februar 12
  • 41. Analysemöglichkeiten Query Logging Statistiken über die Suchanfragen (in Arbeit) Lernen durch Userinput (in Arbeit) (Wenn User ein Ergebnis anklickt, erhält das Ergebnis Zusatzpunkte.) Sonntag, 12. Februar 12
  • 43. Zusatzkomponenten Auf einer Ergebnisseite kann über die Nutzung des Index z.B. eine "more like this"-Empfehlung erfolgen um thematisch relevante Themen anzuzeigen. Eigenentwicklungen, die Zugriff auf die Indexdaten benötigen, möglich Sonntag, 12. Februar 12
  • 44. Konzepte im Detail Scoring Synonyme Sonntag, 12. Februar 12
  • 45. Scoring term frequency (tf) Je häufiger ein Term in einem Dokument auftritt, desto höher der Score. inverse document frequency (idf) Je häufiger ein Term in verschiedenen Dokumenten auftritt, desto geringer sein Score. number of terms in the query that were found in the document (coord) Je mehr Terme der Suchanfrage im Dokument vorkommen, desto höher sein Score. Boost Sonntag, 12. Februar 12
  • 46. Scoring - Zusammenfassung Dokumente, die alle Suchterme enthalten sind gut. Treffer auf seltene Worte sind besser als Treffer auf häu ge Worte. Kurze Dokumente sind besser als lange Dokumente. Dokumente, die Suchterme mehrfach enthalten sind gut. Sonntag, 12. Februar 12
  • 47. Scoring – Beispiel Indizierung und Boost verschiedener Felder Content (z.B. 20x) Keywords (z.B. 20x) Seitentitel (z.B. 25x) Sortierung nach Typ News kommen z.B. immer am Ende des Suchergebnisses nach allen Seitentreffern Sonntag, 12. Februar 12
  • 48. Synonyme Werden bei Indizierung erstellt Können gerichtet sein Stewardess = Flugbegleiter Spielwaren => Toy aber Toy ≠> Spielwaren Können Ketten bilden Durch Synonymketten können Suchanfragen sehr ungenau werden Sonntag, 12. Februar 12
  • 49. Synonyme: Beispiel Verkettung Enjoy Toy Fair City = Messestadt Nürnberg = Kulturangebot = Restaurant = Essen = Bar = Gastrosuche = Kultur = Nürnberg spielt mit = Museum = Einkaufen = Nürnberg = Abendessen = Gasthäuser Spielwarenmesse = Fachmesse für Spielwaren = Toy Fair = International Toy Fair = Toy Fair Nürnberg = Spielzeugmesse = Spielzeugmesse Nürnberg = Nürnbergmesse für Spielwaren = Spielwarenmesse 2011 Spielzeug = Spielwaren = Spielsachen Sonntag, 12. Februar 12
  • 50. Synonyme: Beispiel Verkettung Suche nach: “Restaurant” Restaurant = Enjoy Toy Fair City Enjoy Toy Fair City = Enjoy Fachmesse für Spielwaren City Enjoy Fachmesse Spielwaren City = Enjoy Fachmesse Spielzeug City Sonntag, 12. Februar 12
  • 51. Synonyme: Beispiel Verkettung Die resultierende Suchanfrage (nicht komplett): Enjoy Toy Fair City Messestadt Nürnberg Kulturangebot Restaurant Essen Bar Gastrosuche Kultur spielt Museum Einkaufen Abendessen Gasthäuser Spielwarenmesse Fachmesse International Spielzeugmesse Nürnbergmesse 2011 Spielzeug Spielwaren Spielsachen Sonntag, 12. Februar 12
  • 52. Synonyme: Seiteneffekte Beispiel Synonymsuche TV = Television Im Index ca. 1.000 Dokumente mit “TV” Im Index ca. 50 Dokumente mit “Television” Suche nach “TV” bringt Dokumente mit “Television” nach vorne, da “bessere Treffer” Sonntag, 12. Februar 12
  • 53. dkd development kommunikation design sagt danke. Sonntag, 12. Februar 12
  • 54. Quellenangaben Lucene Scoring for dummies: http:// www.supermind.org/blog/378/lucene-scoring- for-dummies Fotos: Søren Schaffstein Sonntag, 12. Februar 12