[PL] Metadane - dane o danych

1,204 views

Published on

Prezentacja o metadanych, prezentowana podczas 3camp'u - 30 marca 2011 (http://www.3camp.pl/index.php/2011/03/22/3camp25-ux-search-30-03-1800/)

Published in: Technology, Sports
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,204
On SlideShare
0
From Embeds
0
Number of Embeds
53
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Nazywam się Kuba Marchwicki. Od wielu lat zasadniczo programuje, dla większych i mniejszych klientów, indywidualnie i poprzez mniejsze lub większe korporacje. Mój dzisiejszy temat nie będzie miał jednak nic wspólnego z programowaniem. Dziś będzie o metadanych, czyli danych o danych. Nie ukrywam, że potraktowanie tak abstrakcyjnego tematu w sposób ‘ludzki’ jest niemałym wyzwaniem, któremu mam nadzieję sprostać. W pewnym sensie jest to zagadnienie, które spina w całość to co prezentował Maciek, tj. search z punktu widzenia użytkownika, z tym co prezentowali Dominika oraz Przemek, czyli silnik i inne cuda-wianki ‘pod maską wyszukiwarki’.
  • Chciałbym rozpocząć od quasi-definicji co rozumiem jako metadane, następnie pokazać kilka przykładów jak z metadanymipracować aby na zakończenie spiąć to w całość, pokazując wykorzystanie metadanychw konkretnych elementach serwisu wyszukującego.
  • Przygotowując tęprezentację postawiłem sobie bardzo ambitny cel– nie pojawią się tutaj ani razu słowa ontologia, taksonomia. Nawet tak niewinnego słowa jak semantyka chyba uda mi się uniknąć.
  • Na dobry początek chciałbym zaproponować definicję, co rozumiem poprzez metadane. Określiłbym metadanejako zbiór cech (informacji) pozwalających na rozpoznanie, wartościowanie bądź filtrowanie obiektów, na „wyrobienie sobie poglądu” na temat „cosia” bez konieczności jego szczegółowej analizy.
  • Dlaczego zatem metadane są tak istotne? Komputery są stworzone do szczegółowej analizy, natomiast człowiek, w mgnieniu oka, na podstawie pewnego zestawu cech, potrafi doskonale zrozumieć sens, rozpoznać „obiekt”. Dla przykładu wszystkie powyższe stwierdzenia są dla nas zasadniczo równoznaczne. Forma jest różna ale treść jest ta sama. Semantycznie są one tożsame. Natomiast z punktu „widzenia” maszyny – mamy 15 znaków ASCII (w tym dwa białe znaki) – napis, który pewnie można by rozpoznać oraz podobny napis z jakimś obrazkiem.
  • Takie meta-opisy dla „obiektów” to nie jest nowy koncept i wbrew pozorom ma zasadniczeznaczenie dla Internetu oraz wyszukiwania w takiej postaci, jaką znamy dzisiaj.Początkowy sukces Google zbudowany był właśnie na tym, że strony w Internecie były, z punktu widzenia maszyny, tylko ciągami znaków tekstowych. O samej zawartości strony nie mówił żaden z jej elementów. Wystarczy przypomnieć ograniczenia liczby znaków w nazwie pliku, nic nie znaczące nazwy domen (z reguły uczelnianych), bardzo ubogi jezyk html – itd.Innowacją Google był PageRank, który – jakby nie patrzeć – jest dość specyficznym systemem opisu obiektów (w tym przypadku strony internetowej). Jest to automatyczny i niezależny od autora system oceny jakości strony internetowej. A liczba i jakość linków prowadzących do strony to nic innego jak meta dane.Dodatkowo, informacje w postaci zawartości pewnych tagów (<title />, <h1 />, itd..) pozwalały w owym czasie w niezły sposób zrealizować proces szukania. Fakt, że wyniki wyszukiwania w Google były znacząco lepsze od tego co oferują inne wyszukiwarki, wynikało m.in. z wyjścia poza tekst. Ta misja trwa nadal i wyszukiwanie jest nieustannie ulepszane, m.in. poprzez analizę kolejnych danych meta (o czy za chwilkę).
  • Zatem skoro metadanesą tak istotne – wprowadźmy je do języka. Każdy kto zainteresował się specyfikacją html5, zdaje sobie sprawę, że pewne elementy wspierające semantykę (opisujące znaczenie poszczególnych elementów strony) pojawiły się w specyfikacji. Te nowe elementy, jak <article>, <header> czy <footer> można z powodzeniem rozumieć jako metadane poszczególnych elementów. Dla przykładu, powstały opasłe tomy opracowań, mniej lub bardziej naukowych, które opisują w jaki sposób wydobyć ze strony internetowej tekst (co jest m.in. główną wartością dodaną takich serwisów jak instapaper.com, readitlaterlist.com albo readability.com). Html5 daje narzędzie, dzięki któremu właściciel strony / zawartości samodzielnie wskazuje znaczenie poszczególnych elementów; sematycznie opisuje obiekty na stronie poprzez dodanie odpowiednich metadanych.
  • Nietrudno zauważyć,że zestaw „meta” w html5 jest bardzo ograniczony. Oczywiście, istnieją sposoby aby wyjść poza podstawowy zestaw metadanych. Specyfikacji jest kilka: Open Graph, RDF, microdata, mikroformaty; wszystkie pozwalają na zaawansowany opis treści, dają narzędzia do stworzenia takiego opisu oraz proponują szeroki zestaw słowników.
  • Dla przykładu, facebook’owyOpenGraph pozwala na integrację strony internetowej z „socialgraph”. Dodanie Open Graph na stronie powoduje, że Facebook traktuje stronę na równi z FacebookPage; to oznacza, że jeżeli użytkownik „polubi stronę” będzie to wyglądało analogicznie jakby „polubił” fan-page’a. Od tego jak uzupełnimy metadane zależy sposób, w jaki nasza strona zaprezentuje się na fejsbookowej ścianie. Tym samym torem idzie Google, które poleca metadane (niezależnie już od specyfikacji) dla lepszej prezentacji wyników oraz aby umożliwić zaawansowane filtrowanie. Google poleca się do opinii, stron poświęconych osobom, przepisów kuchennych, imprez, książek i wielu innych. Odpowiednio przygotowane dane, pozwalają Google na adekwatną do treści prezentację na stronie rezultatów.
  • Mam nadzieję, że w tym miejscu mamy zgodność co do tego czym są metadanei jak przekładają sie one wyszukiwalność. Celem przypomnienia: metadaneto ustrukturalizowane, opisowe informacje o obiekcie, które umożliwiają – z jednej strony skutecznie pracować z „obiektami” bez konieczności ich dokładnej analizy, zdrugiej strony, pozwalają autorom skutecznie zawęzić obszar nadający się do wyszukiwania poprzez usunięcie rzeczy niepotrzepnych, nieaktualnych oraz trywialnych. W idealnym świecie metadane powinny być wystarczające do podjęcia przez użytkownika odpowiedniej akcji (kliknięcia na dany link lub pominięcia go).[Grafika pochodzi z książki Petera Morville’aSearchpatterns.]
  • Nie będę opowiadał o mikroformatach, Open Graph, RDF itd. Sieci semantyczne nie są tematem tej prezentacji. To był tylko przykład, że każda treść może zostać opisana „znaczeniowo” oraz że istnieją już gotowe narzędzia, które to wspomagają (bądź ekosystemy, które to wymuszają). Czy to jest kierunek, w którym sieć pójdzie – nie wiem. Jak widać zdania są podzielone. Postaram się opisać pewien proces myślowy, który przechodzimy przygotowując treści dla celów wyszukiwania. W przypadku naszych wewnętrznych wyszukiwarek najpewniej nie dotkniemy nawet RDFów, mikroformatów. Metadane przechowywać będziemy w sposób specyficzny dla naszego silnika i nie ważne czy to będzie Autonomy, FAST, Solr, czy po prostu nasza baza danych. Każdy z nich ma swój sposób przechowywania oraz indeksowania danych.
  • Na początek – muzyka. Album U2 – Zooropa.
  • Oraz metadane, które można dla takiego obiektu wyodrębnić.
  • Jeżeli natomiast weźmiemy na warsztat książkę.
  • To nasze meta są następujące.Warto zauważyć, że niektóre typy danych się powtarzają – jak na przykład rok wydania albo osoba w postaci Bono. Stąd na przykład łatwo wyświetlić w księgarni wszystko o Bono (niezależnie czy jest to książka, czy płyta).
  • Oczywiście dane meta nie odnoszą się tylko do e-commerce. A w zasadzie to głównie odnoszą się do nie e-commerce. Tutaj dla przykładu – faktura. Dokumenty to prawdziwa kopalnia metadanych.
  • Analizować możemy dokładnie wszystko: dane wystawcy, odbiorcy, terminy, rodzaje płatności, kwoty. A następnie generować dodatkowe metadane: zapłacona, po terminie, poprawna, nie poprawna, itd., itp.
  • Dobrze, skoro mamy wyodrębniony zestaw powtarzalnych informacji o naszych obiektach, to co dalej z nimi zrobić?
  • Wspomniany wcześniej Peter Morville, we wspomnianej wcześniej książce Search Patterns, w powyższy sposób opisał proces wyszukiwania („Theanatomy of search”). Mam nadzieję, że w tym momencie wszystkie elementy wyszukiwarkowych puzzli układają się w całość. Z jednej strony mamy treść, opis treści (metadane), którymi zasilamy silnik wyszukiwania. Z drugiej strony są użytkwonicy (oczywiście metadaneużytkownika, których dzisiaj w ogóle nie poruszamy). Miejsce gdzie te elementy się spotykają to interfejs użytkownika, którego możliwości są wypadkową narzędzi, którymi dysponujemy oraz danych i ich przygotowania.
  • Maciek podczas pierwszej prezentacji mówił o tym jak użytkownik szuka, w jaki sposób używa wyszukiwarki. Proponuję teraz abyśmy jeszcze raz prześledzili elementy takiego wyszukiwania – dla przykładu – na amazon.com.Chciałbym jednak zwrócić uwagę na kilka istotnych elementów tego procesu – i w pewnym sensie je wyodrębnić. Na każdym kroku postaram się pokazać ścisły związek pomiędzy wzorcem projektowym oraz tym jak wcześniejsza praca związana z wyodrębnianiem metadanych dla poszczególnych obiektów wpływa na możliwości implementacji danego wzorca.
  • Na początek autocomplete. To co pojawia się w podpowiedziach nie jest przypadkowe, nie jest to także zestaw wszystkich słów które pojawiają się w opisach. W tym przypadku są to nazwy produktów, nazwy w połączeniu z kategoriami (muzyka, film) oraz innymi słowami kluczowymi (np. nazwa albumu).
  • Oczywiście pomimo podpowiedzi i tak zdarza się zrobić literówkę. Popularne „did you mean: ...” pojawia się gdy wyników jest mało (lub ich brak) i jest to z reguły najpopularniejsza / zbliżona pisemnie fraza – na przykład z listy podpowiedzi. Liczenie podobieństw to jest temat na osobną opowieść. Na początek może to być odległość Levenshteina.
  • Na stronie rezultatów, poza samymi wynikami, mamy także dynamiczną nawigacje (faceted navigation, faceting). W przypadku Amazon, są to grupy kategorii i podkategorie, które wcześniej zostały wyodrębnione dla wyszukiwanych przez nas obiektów.
  • Trochęniżej na stronie rezultatów widzimy kolejny wzorzec – structured results. Na podstawie wspomnianej już kategoryzacji obiektów, możemy w różny sposób prezentować produkty w sposób adekwatny dla obiektu. Jak widać powyżej, filmy mają podany nośnik (Blue-ray, DVD), muzyka ma możliwość bezpośredniego przejścia do pobierania mp3, w przypadku książki od razu widać że jest to wersja papierowa.
  • Pochodną structuredresultsjest kolejny wzorzec – actionableresults – typy obiektów nie tylko różnią się w kwestii prezentacji, ale w przypadku niektórych typów możliwe jest dodanie elementów, umożliwiających natychmiastową interakcję z obiektem.
  • Jak już wspomniałem, nasze rozwiązanie może oczywiście wykroczyć poza e-commerce. Nie zmienia to faktu, że zastosowanie mają te same wzorce. W tym przykładzie mamy wewnętrzne (intanetowe) narzędzie będące elementem systemu zarządzania dokumentami (tak, to jest najbrzydszy element prezentacji). Pokazana wcześniej faktura, jak każdy dokument, jest kopalnią metadanych. Dzięki nim można z łatwością przygotować interfejs, który pozwoli użytkownikowi na wprawne poruszanie się po wynikach wyszukiwania oraz na zadawanie skomplikowanych boolean’owskich zapytań.
  • Peter Morville zaciera ręce: wyodrębniliśmy właśnie cały szereg wzorców projektowych, do których nie doszlibyśmy bez odpowiedniego przygotowania treści (bez opracowania odpowiednich metadanychdla obiektów, które poddajemy wyszukiwaniu). Metadane to nie tylko kategoryzacja – to pojęcie jest znacznie szersze i bardzo zależne od domeny. Czasem równie istotna jest fizyczna lokalizacja zasobu, URL, dane geolokalizacyjne i wiele innych.
  • Wszystkie te wzorce (jak i sporo innych rzeczy) opisane są w jego książce„SearchPatterns”. Można dyskutować czy pozycja jest mocno akademicka i mało praktyczna. Nie zmienia to jednak faktu, że jest to pozycja typu must-read dla osób, które związek z projektowaniem wyszukiwarek miały dość swobodny, a które chcą zgłębić temat.
  • Wyszukiwarki są jak góra lodowa. Mam nadzieję, że po dzisiejszych prezentacjach nie tylko ja będę miał takie przeświadczenie. Czy planujemy nowego googla, czy wyszukiwarkę we własnym sklepie internetowym – wszystkie 3 elementy są krytyczne: wrażenia użytkownika (czyli czubek góry lodowej), implementacja wyszukiwarki, jak i same dane. Najczęśniej skupiamy się na wyglądzie, a poźniej jakoś będzie (description like ‘%word%’). Szybkość otrzymania wyników (strona ładująca się ponad 1.5 sekundy – według googla to strona ładująca się powoli), jakość wyników, odpowiedność to kluczowe składniki sukcesu. Jeżeli przyjmiemy, że wyszukiwarka na stronie jest dla użytkownika ostatecznością (ostatnią deską ratunku), to odpowiednie jej przygotowanie pozwala na zatrzymanie klienta. Jeżeli strona jest search-centric (np. porównywarka), jakość jej działania jest tym istotniejsza. Dotknęliśmy dzisiaj wszystkich 3 składników tej mieszanki – wszystkich równie istotnych; wyszukiwarki z punktu widzenia użytkownika, silnika wyszukiwania oraz danych, które w tym silniku się znajdą. Budując wyszukiwarkę, tworzymy narzędzie do prowadzenia użytkownika „za rękę” – prowadźmy go, a nie szarpmy. Użytkownicy z jednej strony nauczyli się zwalczać przeciwności losu, czasem są bardzo zdeterminowani w osiągnięciu celu. Z drugiej strony nie ułatwiają nam zadania. Nauczyli się korzystać z wyszukiwania (Google ich rozleniwił); nie operują pojedyńczymi słowami, ale całymi frazami, po kilka słów. Sprostać temu nie jest łatwym zadaniem. Starałem się w tej prezentacji oswoić temat metadanych (bo nie jest to tylko abstrakcyjne hasło), pokazać jak są ważne, jak bezpośrednio wpływają na to jak użytkownik odbiera naszą wyszukiwarkę.
  • [PL] Metadane - dane o danych

    1. 1. Metadane – dane o danych<br />Kuba Marchwicki<br />@kubem<br />
    2. 2. O czym będzie<br /><ul><li> Co to są metadane
    3. 3. Jak ugryźć metadane
    4. 4. Po co nam metadane</li></li></ul><li>ontologia<br />taksonomia<br />semantyka<br />
    5. 5. Metadane to informacje pozwalające na rozpoznanie obiektu bez konieczności jego szczegółowej analizy. <br />
    6. 6. I love new work<br />
    7. 7.
    8. 8. <header ><br /><nav><br /><section><br /><header><br /><article><br /><footer><br />
    9. 9.
    10. 10. OpenGraph / RDF / mikroformaty<br /><meta property="og:title" content="La Vita - Sopot" /><br /><meta property="og:type" content="company" /> <br /><meta property="og:url" content="http://www.pstro.pl/b/la-vita-sopot" /> <br /><meta property="og:latitude" content="54.444674700" /><br /><meta property="og:longitude" content="18.567599400" /><br /><meta property="og:street-address" content="Ul. Bohaterów Monte Cassino 63" /><br /><meta property="og:locality" content="Sopot" /><br /><meta property="og:postal-code" content="81767" /><br /><meta property="og:country-name" content="PL" /> <br />
    11. 11.
    12. 12. O czym będzie<br /><ul><li> Co to są metadane
    13. 13. Jak ugryźć metadane
    14. 14. Po co nam metadane</li></li></ul><li>
    15. 15.
    16. 16. Music<br />Rock<br />CD<br />1993<br />Wydawnictwo: Island Rec<br />Zooropa, Baby face, Numb... + 7 innych<br />51:15 total time<br />Bono<br />The Edge<br />Adam Clayton<br />Larry Mullen<br />Ratings<br />Comments... etc<br />Title<br />Artist<br />
    17. 17.
    18. 18. <ul><li>Books
    19. 19. Biography
    20. 20. Bono: In Conversation with MichkaAssayas
    21. 21. Wydawnictwo Riverhead Books
    22. 22. Osoba:Bono
    23. 23. Osoba: MichkaAssayas
    24. 24. 2005
    25. 25. 336 pages
    26. 26. Ratings
    27. 27. Comments</li></li></ul><li>
    28. 28.
    29. 29. O czym będzie<br /><ul><li> Co to są metadane
    30. 30. Jak ugryźć metadane
    31. 31. Po co nam metadane</li></li></ul><li>
    32. 32.
    33. 33. autocomplete<br />
    34. 34. spell check<br />
    35. 35. faceted navigation<br />
    36. 36. structured results<br />film<br />muzyka<br />książka<br />
    37. 37. actionable results<br />kup<br />posłuchaj<br />
    38. 38.
    39. 39.
    40. 40.
    41. 41. Słowem podsumowania<br />
    42. 42. kuba@marchwicki.pl<br />http://marchwicki.pl<br />@kubem<br />
    43. 43. Credits<br />http://www.flickr.com/photos/aleksiaaltonen/3276833785/<br />By Aleksi Aaltonen<br />http://www.flickr.com/photos/morville/4273516791/<br />http://www.flickr.com/photos/morville/4273516545/<br />By Peter Morville<br />http://www.flickr.com/photos/nasahqphoto/4038003908/<br />By nasa hq photo<br />http://www.flickr.com/photos/oberazzi/318947873/<br />By Oberazzi<br />

    ×