Semantik auf Knopfdruck - Qualität von CMS-generierten semantischen Daten

915 views
881 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
915
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  • First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  • First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  • First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • Semantik auf Knopfdruck - Qualität von CMS-generierten semantischen Daten

    1. 1. Semantik auf Knopfdruck?Qualität von CMS-generierten semantischenDatenHannes Mühleisen, AG NBI / WBSGXinnovations 2012
    2. 2. Fahrplan 2
    3. 3. Fahrplan• Eingebette strukturierte Daten auf Webseiten 2
    4. 4. Fahrplan• Eingebette strukturierte Daten auf Webseiten• Daten in Content-Management- Systemen 2
    5. 5. Fahrplan• Eingebette strukturierte Daten auf Webseiten• Daten in Content-Management- Systemen• Resultate einer Analyse strukturierter Daten im Web 2
    6. 6. Eine typische Webseite...My name is Horst Mustermann, here is my home page:<a href="http://www.horst.example">www.horst.example</a>. I live in Berlin, where Iwork as a Researcher at Freie Universität Berlin. 3
    7. 7. ... mit impliziten Informationen Name WebseitePerson Ort Titel Organisation 4
    8. 8. Lösung: zusätzliche Tags• Populäre Vokabulare • schema.org, Open Graph protocol, ...• Unterschiedliche Formate • μFormats, RDFa, Microdata 5
    9. 9. Beispiel: Microdata + schema.org<div itemscope itemtype="http://data-vocabulary.org/Person"> My name is <span itemprop="name">Horst Mustermann</span>, here is my homepage: <a href="http://www.horst.example" itemprop="url">www.horst.example</a>. I live in <span itemprop="address" itemscope itemtype="http://data-vocabulary.org/Address"> <span itemprop="locality">Berlin</span> </span> where I work as a <span itemprop="title">Researcher</span> at <span itemprop="affiliation">Freie Universität Berlin </span>.</div> 6
    10. 10. Beispiel: Microdata + schema.orgStrukturierte Daten!Item Type = http://data-vocabulary.org/person name = Horst Mustermann title = Researcher affiliation = Freie Universität Berlin url text = www.horst.example href = http://www.horst.example/ address = Item Type = http://data-vocabulary.org/address locality = Berlin 7
    11. 11. Content-Management- Systeme• ~ 30 % der Top-1Mio-Webseiten benutzen CMS- Software• Wordpress...Quelle: http://w3techs.com/technologies/overview/content_management/all 8
    12. 12. Datenmodelle von CMS• Generisch: Seite, Objekt, Feld, Datum • Drupal, Typo3, ...• Blog: Artikel, Kommentare • Wordpress, ...• Shop: Produkte, Bewertungen • osCommerce, ... 9
    13. 13. Semantik auf Knopfdruck? Semantik Typen z.B. Spezialisierte Inhalt CMS / Produkte Manuell Qualität Metadaten Alle CMS AutorSeitenstruktu Alle CMS Navigation r 10
    14. 14. Beispiel: Drupal 11
    15. 15. Beispiel: DrupalDatenmodell frei, Semantik der Felder aber unklar 11
    16. 16. Beispiel: Wordpress 12
    17. 17. Beispiel: WordpressTitel URL Blogartikel Datum Text (!) 12
    18. 18. Beispiel: WordpressTitel URL Blogartikel Datum Text (!) Weitere Daten nicht strukturiert vorhanden! 12
    19. 19. Beispiel: Magento 13
    20. 20. Beispiel: MagentoDaten strukturiert, Publikation “auf Knopfdruck”? 13
    21. 21. • Common-Crawl Datensatz, ~1 % “des Web” 14
    22. 22. • Common-Crawl Datensatz, ~1 % “des Web”• Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. URLs (29 TB) 14
    23. 23. • Common-Crawl Datensatz, ~1 % “des Web”• Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. URLs (29 TB)• Alle strukturierten Daten wurden extrahiert und nach RDF konvertiert 14
    24. 24. Analyse - Formate• URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3 2 1 0 RDFa Microdata geo hcalendar hcard hreview XFN Format 15
    25. 25. Analyse - Formate• URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3• Microdata +14% 2 1 (schema.org?) 0 RDFa Microdata geo hcalendar hcard hreview XFN Format 15
    26. 26. Analyse - Formate• URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3• Microdata +14% 2 1 (schema.org?) 0• RDFa Microdata geo hcalendar hcard hreview XFN RDFa +26% Format (Facebook?) 15
    27. 27. Analyse - Datenarten Microdata 02/2012 RDFa 02/2012 5e+06 RDFa 2009/2010 Microdata 2009/2010Entity Count (log) 5e+05 5e+04 5e+03 0 50 100 150 200 Type Webseiten-Struktur 23 % Produkte & Bewertungen 19 % Medien (Filme, Musik,...) 15 % Personen & 15 % Organisationen 2012-Microdata 16
    28. 28. Detailgrad (Beispiele) Durchsch Typ n. Populäre Properties Propertie s name, description, image, price, Product 6.9 priceCurrency, availability name, url, image, foundingDate,Organization 7.9 addressLocality, postalCode, addressRegion Stichprobe, ca. ~6 Mio Tripel, Datensatz 2012-Microdata 17
    29. 29. Datenqualität (Beispiel)Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EUR 18
    30. 30. Datenqualität (Beispiel)Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EURItem Type = http://schema.org/Product description = Isolierte Gefahrstoff- Container zur sicheren, frostfreien Lagerung von Gefahrstoffen. [...] 18
    31. 31. Datenqualität (Beispiel)Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: Super! MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EURItem Type = http://schema.org/Product description = Isolierte Gefahrstoff- Nicht so Container zur sicheren, frostfreien Lagerung von Gefahrstoffen. [...] super 18
    32. 32. Zusammenfassung 19
    33. 33. Zusammenfassung• Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”) 19
    34. 34. Zusammenfassung• Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”)• Strukturierte Daten aus CM-Systemen eingebettet in HTML-Seiten weit verbreitet 19
    35. 35. Zusammenfassung• Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”)• Strukturierte Daten aus CM-Systemen eingebettet in HTML-Seiten weit verbreitet• Bisher begrenzter Nutzungsbereich 19
    36. 36. Vielen Dank für Ihre Aufmerksamkeit! Fragen? Twitter: @hfmuehleisen Web: http://webdatacommons.org http://hannes.muehleisen.org

    ×