za dużo informacji i co dalej?
             -
   systemy wyszukiwania
Michał Rachowski - CMS Consultant
Warszawa 12.09.2012




                                    1
Kto?
Michał Rachowski

 CMS    Consultant

 odzawsze w branży reklamowej
 - budowa i strategia marek

 czas   wolny: game.. -ing -ification -oholic
                                       http://www.linkedin.com/in/michalrachowski

                                       @snihir

                              email:   mrachowski@squiz.pl
                                                                                    2
Plan
 Informacja
 Ważne   pojęcia
 (3x) V - (nie) jak Vendetta
 Systemy wyszukiwania
 Search experience optimasation
 Funnelback
 Squiz & Funnelback “w akcji”
 Pytania




                                   3
Informacja
 Informacja
    ◦ definicja: “łac. informatio – przedstawienie, wizerunek...”
    ◦ opis wszystkiego dookoła?
    ◦ opis? dane? zera i jedynki? bajty? bity?

w    60 sekund rodzi się 156 dzieci na świecie

 ile   jest informacji w Państwa Organizacji?

                              ”The total amount of global data is expected
                              to grow to almost 3 zettabytes during 2012."
                                            International Data Corporation
                                                                             4
Informacja
3   zetabytes = 3 zetabajty = dużo informacji ?

 3,000,000,000,000,000,000,000        bytes




                                informacji na świecie w 2011 było
                                ponad ok 1,8 zetabajta
                                       IDC Digital Universe Study
                                                                    5
Ważne pojęcia
 Data   mining = esksploracja danych
 ◦ drążenie, pozyskiwanie i wydobywanie
 BIG   data               ”Data mining is the process that results in the
                           discovery of new patterns in large data sets."
 ◦ BIG = dużo?                                                  Wikipedia
 ◦ ile to dużo?
                           "Big data is data that is too big for the
 Searchandising
                           processing capacity of conventional systems."
 a targetowanie                                        Ed Dumbill ~ O’Reilly

 behawioralne              ”Big data is a relative term. Every organization
 ◦ czyli jak ważne są      will eventually reach a point where the
                           volume, velocity and variety of their data will
   pozycjonowanie i        be something that they have to address."
          personalizacja                               Mark Troester ~ SAS


                                                                           6
(3x) V - (nie) jak Vendetta
 Volume     (ilość danych)
 ◦ Indeksy a kompresja
 ◦ Magazynowanie danych a WARC (Web ARChive)
 ◦ Obsługa wielu serwerów m.in. Cloud (chmura) a usługi w modelu SaaS
 Velocity    (prędkość/szybkość/czas dostępu)
 ◦ Wielowątkowość, indeksacja a natychmiastowe aktualizacje
 ◦ Kolekcje - nowe, szybkie i skuteczne rozwiązania
 ◦ Data Management API - czyli dostęp poprzez interfejs
 Variety    (różnorodność/bogactwo informacji)
 ◦ Konektory do baz danych
 ◦ Framework a filtrowanie
 ◦ Niestandardowy przepływ danych a elastyczne szablony

                                 ”Big data is a relative term. Every organization will eventually
                                 reach a point where the volume, velocity and variety of
                                 their data will be something that they have to address."
                                                                           Mark Troester ~ SAS      7
Systemy wyszukiwania
                                       "Aż 41% respondentów uznało,
 Czypotrzeba czegoś więcej            że ich system wyszukiwania nie
                                       spełnia ich oczekiwań”
 niż dobra taksonomia czy                                 Econsultancy
                                             Site Search Survey Report
 mapa serwisu, a może dobra                               August 2010
 klasyfikacja dokumentów i ich
 kategoryzacja i odpowiednie skatalogowanie?
 ◦ co z dynamicznym dostępem?
 ◦ trudy kalsyfikacji dokumentów różnego typu i nazw
 ◦ dobra taksonomia a koszt poniesiony na analizę
 ◦ statyczna kategoryzacja a brak elastyczności
 ◦ dziesiątki kroków w drzewie a użyteczność
                           effective ranking puts at the top the
                           documents most likely to be useful, given
                           the need most likely to lie behind the query
                                                                          8
Search experience optimisation
 Słowo   klucz = Wizualizacja (Visualise)

 czynność: spraw (coś) widocznym dla oka

 ◦ Wizualizacja jest mostem
 ◦ Wizualizacja generuje intuicyjne doświadczenie
 ◦ Zobrazowanie metod wyszukiwania zapewnia
   użytkownikowi doświadczenia odkrywcy

 Dobre   doświadczenie przekłada się na pozytywną
          reakcję emocjonalną użytkownika
                                                    9
Search experience optimisation
O   czym należy pamiętać:
 ◦ Użytkownicy przeglądają, filtrują i używają słów
   kluczowych (keywords)
 ◦ Użytkownicy mogą mieć wiele życzeń i potrzeb
   odnośnie możliwości wyszukiwania i wyszukiwarki
 ◦ Narzędzia są złożone i wymagają upraszczania
 ◦ Użytkownicy nie czytają instrukcji !

 Gdzie   należy szukać:
 ◦ “Click tracking” - dostarcza wiedzę o użytkowniku
 ◦ Logi - dają odpowiedź na pytanie o zachowaniu

                                                       10
Search experience optimisation
 Co   należy robić:
 ◦ Mieszać kwerendy - tak dopasowywać zapytania, by
   wypełnić lukę między językiem używanym w
   zapytaniach a językiem używanym w dokumentach.
 ◦ Korzystać z funkcjonalności typu "sugerowane
   wyniki" (best beats) aby pomóc użytkownikowi.
 ◦ Nikt nie zna lepiej treści serwisu i jego zawartości od
   Ciebie - należy wykorzystywać tą wiedzę sugerując
   wyniki (pomoc i podwyższenie użyteczności).
 ◦ Należy przeprowadzać regularne testy (m.in. A/B),
   sprawdzać skrypty, poprawiać i ulepszać rozwiązania.


                                                             11
Funnelback
 Projekt   badawczy
◦ Dr. David Hawking
 20lat rozwoju
 Opatentowana technologia
◦ Algorytm rankingu
◦ Nawigacja kontekstowa
◦ Poziom bezpieczeństwa dokumentu
 Szybkainstalacja
 i konfiguracja


                                    12
Funnelback




             13
Funnelback



             Demo




                    14
Funnelback
                                                       Search
Log:
                                                       ◦ to optymalizacja
<c>!                                                   ◦ to zaangażowanie
<t>20120320 09:32:59</t>!
<click_url>http://www.funnelback.com/news-and-events/!
news</click_url>!
<http_referer>https://fnb-demo01.squiz.co.uk/s/
search.html?
profile=_default_preview&amp;query=funnelback&amp;colle
ction=demo-funnelback-com</http_referer>!
<rank>4<rank>!
<remote_address>83.217.109.164<remote_address>!
<search_referer />!
<type>CLICK</type>!                                 Kwerendy i budowa słowników:
</c>!
                                                 %=acetoin=["Acetylmethylcarbinol"
                                                 "3 hydroxy 2 butanone" "3H 2B
                                                 butanone"]!
                                                 %=acetoin dehydrogenase=
                                                 ["Diacetyl Reductase"]!          15
Funnelback
 Korzyści pracy z Funnelback:
 ◦ Searchandising
 ◦ Wsparcie
 ◦ Automatyczne usuwanie duplikatów
 ◦ Promocja wyników Best-Bet
 ◦ Polepszenie zdolności odnajdywania
 ◦ Polepszenie wydajności
 ◦ Zwiększenie doświadczenia użytkownika
 ◦ 20 lat doświadczenia


                                           16
Squiz & Funnelback “w akcji”
 UBM   Search Medica
 ◦ http://www.searchmedica.com
 ◦ 70 milionów dokumentów
 ◦ terabajty danych
 ◦ UK oraz US
 ◦ infrastruktura w oparciu o dwa serwery
 Hermes
 ◦ http://www.hermes.co.uk
 ◦ żywotność danych
 ◦ 100 milionów źródeł danych
 ◦ kompleksowa analiza

                                            17
Squiz & Funnelback “w akcji”
 Victoria
         and
 Albert Museum


 Skype
                  Uni   of Beadfordshire




                                        18
Pytania




          ?


              19
Dziękuję za uwagę!
  www.funnelback.com




                      http://www.linkedin.com/in/michalrachowski

                      @snihir

             email:   mrachowski@squiz.pl
                                                               20

Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 Warszawa

  • 1.
    za dużo informacjii co dalej? - systemy wyszukiwania Michał Rachowski - CMS Consultant Warszawa 12.09.2012 1
  • 2.
    Kto? Michał Rachowski  CMS Consultant  odzawsze w branży reklamowej - budowa i strategia marek  czas wolny: game.. -ing -ification -oholic http://www.linkedin.com/in/michalrachowski @snihir email: mrachowski@squiz.pl 2
  • 3.
    Plan  Informacja  Ważne pojęcia  (3x) V - (nie) jak Vendetta  Systemy wyszukiwania  Search experience optimasation  Funnelback  Squiz & Funnelback “w akcji”  Pytania 3
  • 4.
    Informacja  Informacja ◦ definicja: “łac. informatio – przedstawienie, wizerunek...” ◦ opis wszystkiego dookoła? ◦ opis? dane? zera i jedynki? bajty? bity? w 60 sekund rodzi się 156 dzieci na świecie  ile jest informacji w Państwa Organizacji? ”The total amount of global data is expected to grow to almost 3 zettabytes during 2012." International Data Corporation 4
  • 5.
    Informacja 3 zetabytes = 3 zetabajty = dużo informacji ?  3,000,000,000,000,000,000,000 bytes informacji na świecie w 2011 było ponad ok 1,8 zetabajta IDC Digital Universe Study 5
  • 6.
    Ważne pojęcia  Data mining = esksploracja danych ◦ drążenie, pozyskiwanie i wydobywanie  BIG data ”Data mining is the process that results in the discovery of new patterns in large data sets." ◦ BIG = dużo? Wikipedia ◦ ile to dużo? "Big data is data that is too big for the  Searchandising processing capacity of conventional systems." a targetowanie Ed Dumbill ~ O’Reilly behawioralne ”Big data is a relative term. Every organization ◦ czyli jak ważne są will eventually reach a point where the volume, velocity and variety of their data will pozycjonowanie i be something that they have to address." personalizacja Mark Troester ~ SAS 6
  • 7.
    (3x) V -(nie) jak Vendetta  Volume (ilość danych) ◦ Indeksy a kompresja ◦ Magazynowanie danych a WARC (Web ARChive) ◦ Obsługa wielu serwerów m.in. Cloud (chmura) a usługi w modelu SaaS  Velocity (prędkość/szybkość/czas dostępu) ◦ Wielowątkowość, indeksacja a natychmiastowe aktualizacje ◦ Kolekcje - nowe, szybkie i skuteczne rozwiązania ◦ Data Management API - czyli dostęp poprzez interfejs  Variety (różnorodność/bogactwo informacji) ◦ Konektory do baz danych ◦ Framework a filtrowanie ◦ Niestandardowy przepływ danych a elastyczne szablony ”Big data is a relative term. Every organization will eventually reach a point where the volume, velocity and variety of their data will be something that they have to address." Mark Troester ~ SAS 7
  • 8.
    Systemy wyszukiwania "Aż 41% respondentów uznało,  Czypotrzeba czegoś więcej że ich system wyszukiwania nie spełnia ich oczekiwań” niż dobra taksonomia czy Econsultancy Site Search Survey Report mapa serwisu, a może dobra August 2010 klasyfikacja dokumentów i ich kategoryzacja i odpowiednie skatalogowanie? ◦ co z dynamicznym dostępem? ◦ trudy kalsyfikacji dokumentów różnego typu i nazw ◦ dobra taksonomia a koszt poniesiony na analizę ◦ statyczna kategoryzacja a brak elastyczności ◦ dziesiątki kroków w drzewie a użyteczność effective ranking puts at the top the documents most likely to be useful, given the need most likely to lie behind the query 8
  • 9.
    Search experience optimisation Słowo klucz = Wizualizacja (Visualise) czynność: spraw (coś) widocznym dla oka ◦ Wizualizacja jest mostem ◦ Wizualizacja generuje intuicyjne doświadczenie ◦ Zobrazowanie metod wyszukiwania zapewnia użytkownikowi doświadczenia odkrywcy  Dobre doświadczenie przekłada się na pozytywną reakcję emocjonalną użytkownika 9
  • 10.
    Search experience optimisation O czym należy pamiętać: ◦ Użytkownicy przeglądają, filtrują i używają słów kluczowych (keywords) ◦ Użytkownicy mogą mieć wiele życzeń i potrzeb odnośnie możliwości wyszukiwania i wyszukiwarki ◦ Narzędzia są złożone i wymagają upraszczania ◦ Użytkownicy nie czytają instrukcji !  Gdzie należy szukać: ◦ “Click tracking” - dostarcza wiedzę o użytkowniku ◦ Logi - dają odpowiedź na pytanie o zachowaniu 10
  • 11.
    Search experience optimisation Co należy robić: ◦ Mieszać kwerendy - tak dopasowywać zapytania, by wypełnić lukę między językiem używanym w zapytaniach a językiem używanym w dokumentach. ◦ Korzystać z funkcjonalności typu "sugerowane wyniki" (best beats) aby pomóc użytkownikowi. ◦ Nikt nie zna lepiej treści serwisu i jego zawartości od Ciebie - należy wykorzystywać tą wiedzę sugerując wyniki (pomoc i podwyższenie użyteczności). ◦ Należy przeprowadzać regularne testy (m.in. A/B), sprawdzać skrypty, poprawiać i ulepszać rozwiązania. 11
  • 12.
    Funnelback  Projekt badawczy ◦ Dr. David Hawking  20lat rozwoju  Opatentowana technologia ◦ Algorytm rankingu ◦ Nawigacja kontekstowa ◦ Poziom bezpieczeństwa dokumentu  Szybkainstalacja i konfiguracja 12
  • 13.
  • 14.
    Funnelback Demo 14
  • 15.
    Funnelback  Search Log: ◦ to optymalizacja <c>! ◦ to zaangażowanie <t>20120320 09:32:59</t>! <click_url>http://www.funnelback.com/news-and-events/! news</click_url>! <http_referer>https://fnb-demo01.squiz.co.uk/s/ search.html? profile=_default_preview&amp;query=funnelback&amp;colle ction=demo-funnelback-com</http_referer>! <rank>4<rank>! <remote_address>83.217.109.164<remote_address>! <search_referer />! <type>CLICK</type>! Kwerendy i budowa słowników: </c>! %=acetoin=["Acetylmethylcarbinol" "3 hydroxy 2 butanone" "3H 2B butanone"]! %=acetoin dehydrogenase= ["Diacetyl Reductase"]! 15
  • 16.
    Funnelback  Korzyści pracyz Funnelback: ◦ Searchandising ◦ Wsparcie ◦ Automatyczne usuwanie duplikatów ◦ Promocja wyników Best-Bet ◦ Polepszenie zdolności odnajdywania ◦ Polepszenie wydajności ◦ Zwiększenie doświadczenia użytkownika ◦ 20 lat doświadczenia 16
  • 17.
    Squiz & Funnelback“w akcji”  UBM Search Medica ◦ http://www.searchmedica.com ◦ 70 milionów dokumentów ◦ terabajty danych ◦ UK oraz US ◦ infrastruktura w oparciu o dwa serwery  Hermes ◦ http://www.hermes.co.uk ◦ żywotność danych ◦ 100 milionów źródeł danych ◦ kompleksowa analiza 17
  • 18.
    Squiz & Funnelback“w akcji”  Victoria and Albert Museum  Skype  Uni of Beadfordshire 18
  • 19.
  • 20.
    Dziękuję za uwagę! www.funnelback.com http://www.linkedin.com/in/michalrachowski @snihir email: mrachowski@squiz.pl 20