SlideShare a Scribd company logo
1 of 32
Metadane – dane o danych Kuba Marchwicki @kubem
O czym będzie ,[object Object],[object Object],[object Object]
ontologia taksonomia semantyka
Metadane  to informacje pozwalające na rozpoznanie obiektu bez konieczności jego szczegółowej analizy.
I love new work
 
<header > <nav> <footer> <section> <header> <article>
 
OpenGraph / RDF / mikroformaty ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
 
O czym będzie ,[object Object],[object Object],[object Object]
 
 
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Artist Title
 
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
 
 
O czym będzie ,[object Object],[object Object],[object Object]
 
 
autocomplete
spell check
faceted navigation
film muzyka książka structured results
kup actionable results posłuchaj
 
 
 
Słowem podsumowania
[email_address] @kubem http://marchwicki.pl
Credits ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

[PL] Metadane - dane o danych

Editor's Notes

  1. Nazywam się Kuba Marchwicki. Od wielu lat zasadniczo programuje, dla większych i mniejszych klientów, indywidualnie i poprzez mniejsze lub większe korporacje. Mój dzisiejszy temat nie będzie miał jednak nic wspólnego z programowaniem. Dziś będzie o metadanych, czyli danych o danych. Nie ukrywam, że potraktowanie tak abstrakcyjnego tematu w sposób ‘ludzki’ jest niemałym wyzwaniem, któremu mam nadzieję sprostać. W pewnym sensie jest to zagadnienie, które spina w całość to co prezentował Maciek, tj. search z punktu widzenia użytkownika, z tym co prezentowali Dominika oraz Przemek, czyli silnik i inne cuda-wianki ‘pod maską wyszukiwarki’.
  2. Chciałbym rozpocząć od quasi-definicji co rozumiem jako metadane, następnie pokazać kilka przykładów jak z metadanymipracować aby na zakończenie spiąć to w całość, pokazując wykorzystanie metadanychw konkretnych elementach serwisu wyszukującego.
  3. Przygotowując tęprezentację postawiłem sobie bardzo ambitny cel– nie pojawią się tutaj ani razu słowa ontologia, taksonomia. Nawet tak niewinnego słowa jak semantyka chyba uda mi się uniknąć.
  4. Na dobry początek chciałbym zaproponować definicję, co rozumiem poprzez metadane. Określiłbym metadanejako zbiór cech (informacji) pozwalających na rozpoznanie, wartościowanie bądź filtrowanie obiektów, na „wyrobienie sobie poglądu” na temat „cosia” bez konieczności jego szczegółowej analizy.
  5. Dlaczego zatem metadane są tak istotne? Komputery są stworzone do szczegółowej analizy, natomiast człowiek, w mgnieniu oka, na podstawie pewnego zestawu cech, potrafi doskonale zrozumieć sens, rozpoznać „obiekt”. Dla przykładu wszystkie powyższe stwierdzenia są dla nas zasadniczo równoznaczne. Forma jest różna ale treść jest ta sama. Semantycznie są one tożsame. Natomiast z punktu „widzenia” maszyny – mamy 15 znaków ASCII (w tym dwa białe znaki) – napis, który pewnie można by rozpoznać oraz podobny napis z jakimś obrazkiem.
  6. Takie meta-opisy dla „obiektów” to nie jest nowy koncept i wbrew pozorom ma zasadniczeznaczenie dla Internetu oraz wyszukiwania w takiej postaci, jaką znamy dzisiaj.Początkowy sukces Google zbudowany był właśnie na tym, że strony w Internecie były, z punktu widzenia maszyny, tylko ciągami znaków tekstowych. O samej zawartości strony nie mówił żaden z jej elementów. Wystarczy przypomnieć ograniczenia liczby znaków w nazwie pliku, nic nie znaczące nazwy domen (z reguły uczelnianych), bardzo ubogi jezyk html – itd.Innowacją Google był PageRank, który – jakby nie patrzeć – jest dość specyficznym systemem opisu obiektów (w tym przypadku strony internetowej). Jest to automatyczny i niezależny od autora system oceny jakości strony internetowej. A liczba i jakość linków prowadzących do strony to nic innego jak meta dane.Dodatkowo, informacje w postaci zawartości pewnych tagów (&lt;title /&gt;, &lt;h1 /&gt;, itd..) pozwalały w owym czasie w niezły sposób zrealizować proces szukania. Fakt, że wyniki wyszukiwania w Google były znacząco lepsze od tego co oferują inne wyszukiwarki, wynikało m.in. z wyjścia poza tekst. Ta misja trwa nadal i wyszukiwanie jest nieustannie ulepszane, m.in. poprzez analizę kolejnych danych meta (o czy za chwilkę).
  7. Zatem skoro metadanesą tak istotne – wprowadźmy je do języka. Każdy kto zainteresował się specyfikacją html5, zdaje sobie sprawę, że pewne elementy wspierające semantykę (opisujące znaczenie poszczególnych elementów strony) pojawiły się w specyfikacji. Te nowe elementy, jak &lt;article&gt;, &lt;header&gt; czy &lt;footer&gt; można z powodzeniem rozumieć jako metadane poszczególnych elementów. Dla przykładu, powstały opasłe tomy opracowań, mniej lub bardziej naukowych, które opisują w jaki sposób wydobyć ze strony internetowej tekst (co jest m.in. główną wartością dodaną takich serwisów jak instapaper.com, readitlaterlist.com albo readability.com). Html5 daje narzędzie, dzięki któremu właściciel strony / zawartości samodzielnie wskazuje znaczenie poszczególnych elementów; sematycznie opisuje obiekty na stronie poprzez dodanie odpowiednich metadanych.
  8. Nietrudno zauważyć,że zestaw „meta” w html5 jest bardzo ograniczony. Oczywiście, istnieją sposoby aby wyjść poza podstawowy zestaw metadanych. Specyfikacji jest kilka: Open Graph, RDF, microdata, mikroformaty; wszystkie pozwalają na zaawansowany opis treści, dają narzędzia do stworzenia takiego opisu oraz proponują szeroki zestaw słowników.
  9. Dla przykładu, facebook’owyOpenGraph pozwala na integrację strony internetowej z „socialgraph”. Dodanie Open Graph na stronie powoduje, że Facebook traktuje stronę na równi z FacebookPage; to oznacza, że jeżeli użytkownik „polubi stronę” będzie to wyglądało analogicznie jakby „polubił” fan-page’a. Od tego jak uzupełnimy metadane zależy sposób, w jaki nasza strona zaprezentuje się na fejsbookowej ścianie. Tym samym torem idzie Google, które poleca metadane (niezależnie już od specyfikacji) dla lepszej prezentacji wyników oraz aby umożliwić zaawansowane filtrowanie. Google poleca się do opinii, stron poświęconych osobom, przepisów kuchennych, imprez, książek i wielu innych. Odpowiednio przygotowane dane, pozwalają Google na adekwatną do treści prezentację na stronie rezultatów.
  10. Mam nadzieję, że w tym miejscu mamy zgodność co do tego czym są metadanei jak przekładają sie one wyszukiwalność. Celem przypomnienia: metadaneto ustrukturalizowane, opisowe informacje o obiekcie, które umożliwiają – z jednej strony skutecznie pracować z „obiektami” bez konieczności ich dokładnej analizy, zdrugiej strony, pozwalają autorom skutecznie zawęzić obszar nadający się do wyszukiwania poprzez usunięcie rzeczy niepotrzepnych, nieaktualnych oraz trywialnych. W idealnym świecie metadane powinny być wystarczające do podjęcia przez użytkownika odpowiedniej akcji (kliknięcia na dany link lub pominięcia go).[Grafika pochodzi z książki Petera Morville’aSearchpatterns.]
  11. Nie będę opowiadał o mikroformatach, Open Graph, RDF itd. Sieci semantyczne nie są tematem tej prezentacji. To był tylko przykład, że każda treść może zostać opisana „znaczeniowo” oraz że istnieją już gotowe narzędzia, które to wspomagają (bądź ekosystemy, które to wymuszają). Czy to jest kierunek, w którym sieć pójdzie – nie wiem. Jak widać zdania są podzielone. Postaram się opisać pewien proces myślowy, który przechodzimy przygotowując treści dla celów wyszukiwania. W przypadku naszych wewnętrznych wyszukiwarek najpewniej nie dotkniemy nawet RDFów, mikroformatów. Metadane przechowywać będziemy w sposób specyficzny dla naszego silnika i nie ważne czy to będzie Autonomy, FAST, Solr, czy po prostu nasza baza danych. Każdy z nich ma swój sposób przechowywania oraz indeksowania danych.
  12. Na początek – muzyka. Album U2 – Zooropa.
  13. Oraz metadane, które można dla takiego obiektu wyodrębnić.
  14. Jeżeli natomiast weźmiemy na warsztat książkę.
  15. To nasze meta są następujące.Warto zauważyć, że niektóre typy danych się powtarzają – jak na przykład rok wydania albo osoba w postaci Bono. Stąd na przykład łatwo wyświetlić w księgarni wszystko o Bono (niezależnie czy jest to książka, czy płyta).
  16. Oczywiście dane meta nie odnoszą się tylko do e-commerce. A w zasadzie to głównie odnoszą się do nie e-commerce. Tutaj dla przykładu – faktura. Dokumenty to prawdziwa kopalnia metadanych.
  17. Analizować możemy dokładnie wszystko: dane wystawcy, odbiorcy, terminy, rodzaje płatności, kwoty. A następnie generować dodatkowe metadane: zapłacona, po terminie, poprawna, nie poprawna, itd., itp.
  18. Dobrze, skoro mamy wyodrębniony zestaw powtarzalnych informacji o naszych obiektach, to co dalej z nimi zrobić?
  19. Wspomniany wcześniej Peter Morville, we wspomnianej wcześniej książce Search Patterns, w powyższy sposób opisał proces wyszukiwania („Theanatomy of search”). Mam nadzieję, że w tym momencie wszystkie elementy wyszukiwarkowych puzzli układają się w całość. Z jednej strony mamy treść, opis treści (metadane), którymi zasilamy silnik wyszukiwania. Z drugiej strony są użytkwonicy (oczywiście metadaneużytkownika, których dzisiaj w ogóle nie poruszamy). Miejsce gdzie te elementy się spotykają to interfejs użytkownika, którego możliwości są wypadkową narzędzi, którymi dysponujemy oraz danych i ich przygotowania.
  20. Maciek podczas pierwszej prezentacji mówił o tym jak użytkownik szuka, w jaki sposób używa wyszukiwarki. Proponuję teraz abyśmy jeszcze raz prześledzili elementy takiego wyszukiwania – dla przykładu – na amazon.com.Chciałbym jednak zwrócić uwagę na kilka istotnych elementów tego procesu – i w pewnym sensie je wyodrębnić. Na każdym kroku postaram się pokazać ścisły związek pomiędzy wzorcem projektowym oraz tym jak wcześniejsza praca związana z wyodrębnianiem metadanych dla poszczególnych obiektów wpływa na możliwości implementacji danego wzorca.
  21. Na początek autocomplete. To co pojawia się w podpowiedziach nie jest przypadkowe, nie jest to także zestaw wszystkich słów które pojawiają się w opisach. W tym przypadku są to nazwy produktów, nazwy w połączeniu z kategoriami (muzyka, film) oraz innymi słowami kluczowymi (np. nazwa albumu).
  22. Oczywiście pomimo podpowiedzi i tak zdarza się zrobić literówkę. Popularne „did you mean: ...” pojawia się gdy wyników jest mało (lub ich brak) i jest to z reguły najpopularniejsza / zbliżona pisemnie fraza – na przykład z listy podpowiedzi. Liczenie podobieństw to jest temat na osobną opowieść. Na początek może to być odległość Levenshteina.
  23. Na stronie rezultatów, poza samymi wynikami, mamy także dynamiczną nawigacje (faceted navigation, faceting). W przypadku Amazon, są to grupy kategorii i podkategorie, które wcześniej zostały wyodrębnione dla wyszukiwanych przez nas obiektów.
  24. Trochęniżej na stronie rezultatów widzimy kolejny wzorzec – structured results. Na podstawie wspomnianej już kategoryzacji obiektów, możemy w różny sposób prezentować produkty w sposób adekwatny dla obiektu. Jak widać powyżej, filmy mają podany nośnik (Blue-ray, DVD), muzyka ma możliwość bezpośredniego przejścia do pobierania mp3, w przypadku książki od razu widać że jest to wersja papierowa.
  25. Pochodną structuredresultsjest kolejny wzorzec – actionableresults – typy obiektów nie tylko różnią się w kwestii prezentacji, ale w przypadku niektórych typów możliwe jest dodanie elementów, umożliwiających natychmiastową interakcję z obiektem.
  26. Jak już wspomniałem, nasze rozwiązanie może oczywiście wykroczyć poza e-commerce. Nie zmienia to faktu, że zastosowanie mają te same wzorce. W tym przykładzie mamy wewnętrzne (intanetowe) narzędzie będące elementem systemu zarządzania dokumentami (tak, to jest najbrzydszy element prezentacji). Pokazana wcześniej faktura, jak każdy dokument, jest kopalnią metadanych. Dzięki nim można z łatwością przygotować interfejs, który pozwoli użytkownikowi na wprawne poruszanie się po wynikach wyszukiwania oraz na zadawanie skomplikowanych boolean’owskich zapytań.
  27. Peter Morville zaciera ręce: wyodrębniliśmy właśnie cały szereg wzorców projektowych, do których nie doszlibyśmy bez odpowiedniego przygotowania treści (bez opracowania odpowiednich metadanychdla obiektów, które poddajemy wyszukiwaniu). Metadane to nie tylko kategoryzacja – to pojęcie jest znacznie szersze i bardzo zależne od domeny. Czasem równie istotna jest fizyczna lokalizacja zasobu, URL, dane geolokalizacyjne i wiele innych.
  28. Wszystkie te wzorce (jak i sporo innych rzeczy) opisane są w jego książce„SearchPatterns”. Można dyskutować czy pozycja jest mocno akademicka i mało praktyczna. Nie zmienia to jednak faktu, że jest to pozycja typu must-read dla osób, które związek z projektowaniem wyszukiwarek miały dość swobodny, a które chcą zgłębić temat.
  29. Wyszukiwarki są jak góra lodowa. Mam nadzieję, że po dzisiejszych prezentacjach nie tylko ja będę miał takie przeświadczenie. Czy planujemy nowego googla, czy wyszukiwarkę we własnym sklepie internetowym – wszystkie 3 elementy są krytyczne: wrażenia użytkownika (czyli czubek góry lodowej), implementacja wyszukiwarki, jak i same dane. Najczęśniej skupiamy się na wyglądzie, a poźniej jakoś będzie (description like ‘%word%’). Szybkość otrzymania wyników (strona ładująca się ponad 1.5 sekundy – według googla to strona ładująca się powoli), jakość wyników, odpowiedność to kluczowe składniki sukcesu. Jeżeli przyjmiemy, że wyszukiwarka na stronie jest dla użytkownika ostatecznością (ostatnią deską ratunku), to odpowiednie jej przygotowanie pozwala na zatrzymanie klienta. Jeżeli strona jest search-centric (np. porównywarka), jakość jej działania jest tym istotniejsza. Dotknęliśmy dzisiaj wszystkich 3 składników tej mieszanki – wszystkich równie istotnych; wyszukiwarki z punktu widzenia użytkownika, silnika wyszukiwania oraz danych, które w tym silniku się znajdą. Budując wyszukiwarkę, tworzymy narzędzie do prowadzenia użytkownika „za rękę” – prowadźmy go, a nie szarpmy. Użytkownicy z jednej strony nauczyli się zwalczać przeciwności losu, czasem są bardzo zdeterminowani w osiągnięciu celu. Z drugiej strony nie ułatwiają nam zadania. Nauczyli się korzystać z wyszukiwania (Google ich rozleniwił); nie operują pojedyńczymi słowami, ale całymi frazami, po kilka słów. Sprostać temu nie jest łatwym zadaniem. Starałem się w tej prezentacji oswoić temat metadanych (bo nie jest to tylko abstrakcyjne hasło), pokazać jak są ważne, jak bezpośrednio wpływają na to jak użytkownik odbiera naszą wyszukiwarkę.