Universidad Autónoma de Madrid                         Escuela Politécnica Superior                    Máster Universitari...
1	   •  1. Introduction     •  Unstructured data vs. structured data     •  Data vs. information vs. knowledge     •  Moti...
2	   •  3. Two paths towards the Sematic Web vision     •  Metadata embedded in HTML     •  Linked Data          -­‐  An e...
3	   •  1. Introduction     •  Unstructured data vs. structured data     •  Data vs. information vs. knowledge     •  Moti...
What is … ?                                                                                                               ...
What is … ?                                                                                                               ...
What is … ?                                                                                                               ...
Why do we need to add structure? THE CHALLENGE                                                                            ...
Why is this important?                                                                                                    ...
Why is this important?                                                                                                    ...
Why is this important?                                                                                                    ...
Why is this important?                                                                                                    ...
12	   •  1. Introduction     •  Unstructured data vs. structured data     •  Data vs. information vs. knowledge     •  Why...
The Semantic Web                                                                                                          ...
The Semantic Web                                                                                                          ...
The Semantic Web weapons: ONTOLOGIES                                                                                      ...
The Semantic Web weapons: ONTOLOGIES                                                                                      ...
The Semantic Web weapons:                                                                                                 ...
RDF (Resource Description Framework)                                                                                      ...
RDFS (RDF Schema)                                                                                                         ...
OWL (Web Ontology Language)                                                                                               ...
SPARQL (SPARQL Protocol and RDF Query Language)                                                                           ...
The Semantic Web tools: ONTOLOGY EDITORS                                                                                  ...
The Semantic Web tools: TRIPLE STORES                                                                                     ...
24	   •  3. Two paths towards the Sematic Web vision     •  Metadata embedded in HTML     •  Linked Data          -­‐  An ...
Two paths towards the SW vision: ADDING DATA TO THE WEB                                                       25	    •  Me...
26	   •  3. Two paths towards the Sematic Web vision     •  Metadata embedded in HTML     •  Linked Data          -­‐  An ...
Microformats                                                                                                              ...
RDFa (Resource Description Framework in Attributes)                                                                       ...
RDFa (Resource Description Framework in Attributes)                                                                       ...
HTML5 (microdata)                                                                                                         ...
Schema.org                                                                                                                ...
32	   •  3. Two paths towards the Sematic Web vision     •  Metadata embedded in HTML     •  Linked Data         -­‐  An e...
Linked Data                                                                                                               ...
Linked Data: WHAT IS IT ABOUT?                                                                                            ...
Linked Data: WE TALK ABOUT OBJECTS                                                                                        ...
Linked Data: OBJECTS ARE LINKED!                                                  Data	                                   ...
Linked Data                                                                                                               ...
Methodological guidelines for publishing Linked Data                                                                      ...
Vocabularies / Schemas / Ontologies                                                                                       ...
Obtaining and structuring data                                                                                            ...
Obtaining and structuring data                                                                                            ...
Obtaining and structuring data                                                                                            ...
Linking Data                                                                                                              ...
Linking Data to HTML Documents: THE ANNOTATORS                                                                            ...
45	   •  3. Two paths towards the Sematic Web vision     •  Metadata embedded in HTML     •  Linked Data         -­‐  An e...
Obtaining, structuring and linking data: AN EXAMPLE                                                                       ...
Obtaining, structuring and linking data: AN EXAMPLE                                                                       ...
Specification: SELECTING & ANALYSING DATA                                                                                 ...
Specification: SELECTING & ANALYSING DATA                                                                                 ...
Specification: SELECTING & ANALYSING DATA                                                                                 ...
Modeling: REUSING VOCABULARIES                                                                                            ...
Modeling: REUSING VOCABULARIES                                                                                            ...
RDF generation: CREATING OBJECTS                                                                                          ...
Links Generation: SELECTING THE LINKING POINTS                                                                            ...
Links Generation: EXPLOITING THE ANNOTATORS                                                                               ...
PUBLICATION                                                                                                               ...
57	   •  3. Two paths towards the Sematic Web vision     •  Metadata embedded in HTML     •  Linked Data          -­‐  An ...
Search engines: BETTER DATA VISUALISATION                                                                                 ...
Search engines: BETTER CONTENT RETRIEVAL                                                                                  ...
Search engines: NOT ALL IS ABOUT DOCUMENTS                                                                                ...
61	   •  3. Two paths towards the Sematic Web vision     •  Metadata embedded in HTML     •  Linked Data          -­‐  An ...
Recommendations: FACEBOOK GRAPH SEARCH                                                                                    ...
63	   •  3. Two paths towards the Sematic Web vision     •  Metadata embedded in HTML     •  Linked Data          -­‐  An ...
Open Government                                                                                                           ...
65	   •  3. Two paths towards the Sematic Web vision     •  Metadata embedded in HTML     •  Linked Data          -­‐  An ...
The Open University                                                                                                       ...
The Open University                                                                                                       ...
The Open University                                                                                                       ...
The Open University                                                                                                       ...
70	   •  3. Two paths towards the Sematic Web vision     •  Metadata embedded in HTML     •  Linked Data          -­‐  An ...
BBC: British Broadcasting Corporation                                                                                     ...
BBC: British Broadcasting Corporation                                                                                     ...
BBC: British Broadcasting Corporation                                                                                     ...
Thx! J                                                                                                                   ...
Upcoming SlideShare
Loading in...5
×

Wm unit1.6-slides-semantic web-final

597

Published on

PhD Web Mining Course (unit 6) at Universidad Autonoma de Madrid Spain. The talk provides an overview of the SW, from the main motivation and idea, to the paths taken towards its realisation. It describes tools, representation languages and applications. The slides aim to provide a list of useful references for educational purposes.

Published in: Education
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
597
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
10
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Wm unit1.6-slides-semantic web-final

  1. 1. Universidad Autónoma de Madrid Escuela Politécnica Superior Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Web Mining   Mining semi-structured data  The Semantic Web: From words to meaningsMiriam Fernández, m.fernandez@open.ac.ukKnowledge Media Institute, The Open University, UK
  2. 2. 1   •  1. Introduction •  Unstructured data vs. structured data •  Data vs. information vs. knowledge •  Motivation •  2. The Semantic Web •  What is the Semantic Web? •  The Semantic Web weapons: ontologies & representation languages •  The Semantic Web tools: ontology editors & triple storesThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  3. 3. 2   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBCThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  4. 4. 3   •  1. Introduction •  Unstructured data vs. structured data •  Data vs. information vs. knowledge •  Motivation •  2. The Semantic Web •  What is the Semantic Web? •  The Semantic Web weapons: ontologies & representation languages •  The Semantic Web tools: ontology editors & triple storesThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  5. 5. What is … ? 4   The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  6. 6. What is … ? 5   Rigid structure: well defined vocabularies and representation (e.g. databases) Flexible structure (e.g. tags, taxonomies) No structure (e.g. free text) The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  7. 7. What is … ? 6   Iván in Italy! Semantic interpretation A picture! Syntactic interpretation The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  8. 8. Why do we need to add structure? THE CHALLENGE 7   Is this a person, an object, a place? I don’t understand anything! L Semantic interpretation A picture! Syntactic interpretation Find the way machines can extract & interpret knowledge!The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  9. 9. Why is this important? 8   We have entered the Zettabyte era! (a billion terabytes) http://www.emc.com/collateral/demos/microsites/emc-digital-universe-2011/index.htmThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  10. 10. Why is this important? 9   •  Information overwhelming •  We need mechanisms to support -­‐  better information search -­‐  better information integration -­‐  automatic knowledge extraction •  User generated content is generally unstructured •  Machines can not understand such content!The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  11. 11. Why is this important? 10   Many pages later I still didn’t find what I was looking for! L The search engine didn’t understood my queryThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  12. 12. Why is this important? 11   Available houses Moving to England… Crime reports in looking for a place to live different areas Amenities Far too much distributed and unrelated informationThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  13. 13. 12   •  1. Introduction •  Unstructured data vs. structured data •  Data vs. information vs. knowledge •  Why is this important? •  2. The Semantic Web •  What is the Semantic Web? •  The Semantic Web weapons: ontologies & representation languages •  The Semantic Web tools: ontology editors & triple storesThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  14. 14. The Semantic Web 13   “I have a dream for the Web in which computers become capable of analysing all the data on the Web” "The Semantic Web is an extension of the current Web in which information is given well-defined meaning, better enabling computers and people to work in cooperation." Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001 “The Semantic Web is a vision: the idea of having data on the web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications” http://www.w3.org/2001/swThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  15. 15. The Semantic Web 14   To the Web of machine understandable content The Web of objects and relations Structured Unstructured From the Web of human understandable content The Web of documents and linksThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  16. 16. The Semantic Web weapons: ONTOLOGIES 15   An ontology is a formal, explicit specification of a shared conceptualization Formal: machine-readable Explicit: concepts, properties, relations, functions, constraints, axioms are explicitly defined Shared: consensual knowledge Conceptualization: abstract model and simplified vide of some phenomenon in the world that we want to representThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  17. 17. The Semantic Web weapons: ONTOLOGIES 16   How to model the world of Pizzas? ontology knowledge base Classes Properties Individuals Cuatrro   Formaggi   hasCountryOrigin   Italy   Restrictions h>p://owl.cs.manchester.ac.uk/tutorials/protegeowltutorial/resources/ProtegeOWLTutorialP4_v1_3.pdf    The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  18. 18. The Semantic Web weapons: 17   REPRESENTATION AND QUERY LANGUAGES Querying data (SPARQL) Capturing ontologies (OWL) Expressing and linking data, including metadata (RDF) Assigning unambiguous names (URI)The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  19. 19. RDF (Resource Description Framework) 18   •  RDF identifies things using Web identifiers (URIs), and describes resources with properties and property values. •  The triple representation (subject, predicate, object) <?xml  version="1.0"?>   <rdf:RDF   xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"   Xmlns:epsp=h>p://www.ir.ii.uam.es/personnel#>   <rdf:DescripYon      rdf:about="h>p://www.ir.ii.uam.es/personnel/IvanCantador">      <epsp:name>Ivan</epsp:name>      <epsp:lastname>Cantador</epsp:lastname>      <epsp:naYonality>Spanish</epsp:naYonality>      <rdf:type>Assistant  Professor</rdf:type>   </rdf:DescripYon>   </rdf:RDF>   h>p://www.ir.ii.uam.es/personnel/name   h>p://www.ir.ii.uam.es/   Ivan   personnel/IvanCantador  The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  20. 20. RDFS (RDF Schema) 19   •  RDFS provides the framework to describe classes and properties. It allows the creation of hierarchies <?xml  version="1.0"?>     <rdf:RDF   xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"   xmlns:rdfs="h>p://www.w3.org/2000/01/rdf-­‐schema#"   xml:base=”  h>p://www.eps.uam.es#   <rdfs:Class  rdf:ID=”Professor"  />   <rdfs:Class  rdf:ID=”Assistant  Professor">        <rdfs:subClassOf  rdf:resource=”#Professor"/>   </rdfs:Class>   <rdf:Property  rdf:ID=“teachesSubject”>      <rdfs:Domain  rdf:resource=“#Professor"/>    <rdfs:Range  rdf:resource=“#Subject"/>   </rdf:Property>     </rdf:RDF>  The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  21. 21. OWL (Web Ontology Language) 20   •  OWL is a stronger language with greater machine interpretability than RDF/RDFS (reasoning support) •  OWL Little / OWL DL / OWL Full Value  constraints:   owl:allValuesFrom   <?xml  version="1.0"?>   owl:someValuesFrom   <rdf:RDF   owl:hasValue   xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"     xmlns:rdfs=h>p://www.w3.org/2000/01/rdf-­‐schema#   Cardinality  constraints:   xmlns:owl  =  "h>p://www.w3.org/2002/07/owl#"   owl:cardinality   xml:base=“h>p://www.eps.uam.es#   owl:minCardinality     owl:maxCardinality   <owl:Class  rdf:ID=”Professor”>   ….    <owl:restricYon>                                <owl:onProperty  rdf:resource=“#hasAcademicTitle"/>                <owl:hasValue>  PhD^^h>p://www.w3.org/2001/XMLSchema#string</owl:hasValue>      <owl:restricYon>   </owl:Class>   </rdf:RDF>   Ivan  has  a  PhD  -­‐>  therefore   Ivan  can  be  professor!  The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  22. 22. SPARQL (SPARQL Protocol and RDF Query Language) 21   •  SPARQL is a query language for RDF •  Based on the triple representation (subject, predicate, object) •  SPARQL 1.1 is W3C Recommendation since 21st March 2013 PREFIX  epsp:  <h>p://www.eps.uam.es>   <rdf:RDF   xmlns:rdf="h>p://www.w3.org/1999/02/22-­‐rdf-­‐syntax-­‐ns#"   SELECT  ?x  ?name   WHERE    {    ?x  rdf:type  epsp:Assistant  Professor.          ?x  epsp:name  ?name.   Can  you  Google  this?          ?x  epsp:naYonality  “Spanish”}   SPARQL  allows  the  construcYon  of  very  powerful  queries   -­‐  Filtering  elements   -­‐  Querying  named  graphs   -­‐  Ordering  by/  disYnct  /  reduced  /  offset  /  limit   -­‐  Count  /  sum  /  avg  /  min  /  max  /  GroupConcat  The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  23. 23. The Semantic Web tools: ONTOLOGY EDITORS 22   •  An ontology editor lets the creation or manipulation of ontologies h>p://en.wikipedia.org/wiki/Ontology_editor    The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  24. 24. The Semantic Web tools: TRIPLE STORES 23   •  A triple store lets persistent storage of RDF data and querying via SPARQL h>p://www.garshol.priv.no/blog/231.html    The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  25. 25. 24   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBCThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  26. 26. Two paths towards the SW vision: ADDING DATA TO THE WEB 25   •  Metadata embedded in HTML •  Microformats •  RDFa •  Schema.org •  HTML5 •  Linked Data •  Publish the data online in a standard, web enabled representation (RDF) •  Make the data web addressable (URI) •  Link with other dataThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  27. 27. 26   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Social Networks •  Open government •  Institutions -­‐  The Open University -­‐  BBCThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  28. 28. Microformats 27   •  Microformats use existing HTML attributes to embed structured data types in an HTML document •  Expressive power is limited as microformats are only designed to pre- defined vocabularies •  No interlinking between entities <div  class="vcard">      <a  class="fn  org  url"  href="h>p://www.eps.uam.es/">EPS</a>      <div  class="adr">                  <span  class="street-­‐address">Francisco  Tomas  y  Valiente</span  >                  <span  class="locality">Madrid</span>,                      <span  class="postal-­‐code">28049</span>                <span  class="country-­‐name">Spain</span  >    </div>   </div>   h>p://microformats.org    The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  29. 29. RDFa (Resource Description Framework in Attributes) 28   •  W3C standard for embedding RDF data in HTML documents •  A set of new HTML attributes ands specs of how to use them •  RDFa is just a syntax, the publisher has to choose the vocabulary •  RDFa is domain independent <html>   <body  vocab="h>p://xmlns.com/foaf/0.1/">      ...      <h2  property=”name”>Ivan  Cantador</h2>      <p><span  property=”gender">undefined</span></p>      ...   </body>   </html>   Web  standard  since  June  2012   h>p://www.w3.org/TR/rdfa-­‐core/   h>p://www.w3.org/TR/xhtml-­‐rdfa-­‐primer    The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  30. 30. RDFa (Resource Description Framework in Attributes) 29   •  Used by Facebook! … among others ;) •  RDF vocabulary to be used in conjunction with RDFa <html  xmlns:og="h>p://opengraphprotocol.org/schema/">     <head>      <Ytle>The  Rock  (1996)</Ytle>      <meta  property="og:Ytle"  content="The  Rock"  />      <meta  property="og:type"  content="movie"  />      <meta  property="og:url"  content="h>p://www.imdb.com/Ytle/>0117500/"  />      <meta  property="og:image"  content="h>p://ia.media-­‐imdb.com/images/ rock.jpg"  />  …   </head>  ...     </html>    The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  31. 31. HTML5 (microdata) 30   •  HTML introduces inline elements (text-level semantics) to describe specific type of information <div  itemscope  itemtype="h>p://data-­‐vocabulary.org/Person">          My  name  is  <span  itemprop="name">Ivan</span>      Here  is  my  home  page:        <a  href="h>p://arantxa.ii.uam.es/~cantador/"          itemprop="url">h>p://arantxa.ii.uam.es/~cantador/</a>        I  live  in  Madrid,  and  work  as  an  <span  itemprop="Ytle">Assistant    Professor</span>      at  <span  itemprop="affiliaYon">UAM</span>.   </div>   •  Itemid   •  Itemprop   •  Itemref   •  Itemscope   •  itemtype   h>p://dev.w3.org/html5/md-­‐LC/#encoding-­‐microdata    The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  32. 32. Schema.org 31   •  Provides a collection of vocabularies, a long with the microdata format, that are recognised by the major search engine providers (de facto standard) <div  itemscope  itemtype=h>p://schema.org/Movie>     <h1  itemprop="name">Pirates  of  the  Carribean:  On  Stranger  Tides  (2011)</h1>   Director:    <div  itemprop="director"  itemscope  itemtype="h>p://schema.org/Person">   <span  itemprop="name">Rob  Marshall</span>   </div>  The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  33. 33. 32   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBCThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  34. 34. Linked Data 33   Linked Open Data (September 2011)  The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  35. 35. Linked Data: WHAT IS IT ABOUT? 34   •  The Web as one huge interconnected data graph •  A Web of interlinked objects •  Objects described in a standard, web enabled representation (RDF) •  Each RDF document describes the characteristics of a single object, and links to related objects •  Each object has a unique web address (URI) •  Objects are linked with other objects -­‐  Important: links to the same objects in different datasets (sameAs) •  Guidelines for proper configuration of web servers to serve such documents •  Vocabularies should be reused!The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  36. 36. Linked Data: WE TALK ABOUT OBJECTS 35   The DBpedia ontology, http://dbpedia.orgWikipediaThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  37. 37. Linked Data: OBJECTS ARE LINKED! Data   36   Mashups   Moving to England… looking for a place to leave A unique information space Available houses Amenities Crime reportsThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  38. 38. Linked Data 37   •  Advantages: •  No change to the publishing of the HTML documents •  Data can be published by third party (e.g. DBpedia) •  Data is interlinked •  Disadvantages: •  Web servers need to be configured to properly handle URIs that identify concepts instead of documents •  Search engines need to be extended to crawl Linked Data •  Suitable vocabularies/ontologies are not always available •  Data is not always easy to obtain •  Data is not always linked to relevant data •  Data is not always linked to HTML documents -­‐  Web mining: OBTAINING, STRUCTURING AND LINKING DATAThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  39. 39. Methodological guidelines for publishing Linked Data 38   h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf    The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  40. 40. Vocabularies / Schemas / Ontologies 39   •  Search for suitable vocabularies •  Reuse (if they exist) •  Build new vocabularies based on existing ones (if they do not exist)The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  41. 41. Obtaining and structuring data 40   •  From unstructured, semi-structured and structured data sources Textual  documents   Spreadsheets   Natural Language Processing (NLP) •  Entity extractors •  Relation extractors NOR2O http://oeg-dev.dia.fi.upm.es/nor2o/#download TextRunner http://openie.cs.washington.edu Cvs2rdf4LOD http://logd.tw.rpi.edu/technology/csv2rdf4lod YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia, Suchanek et al., WWW 2007. MappingMaster http://protege.cim3.net/cgi-bin/wiki.pl?MappingMasterThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  42. 42. Obtaining and structuring data 41   Bringing  the  Deep  Web  to  the   Surface!   DataBases   WebAPis   Bizer  et  al.  The  RDF  Book  Mashups:   Whole  subarea  of  research  within   From  Web  APIs  to  a  Web  of  Data   the  SW  community   h>p://www.dvi.uni-­‐kl.de/~grimnes/     2007/06/SFSW07Papers/6.pdf   RDB2RDF   h>p://www.w3.org/2001/sw/rdb2rdf     WebForms   ultrawrap   h>p://capsenta.com/ultrawrap       RDBToOnto   Madhavan  et  al.  Googles  Deep-­‐Web   h>p://www.tao-­‐project.eu/   Crawl.  VLDB  2008   researchanddevelopment/   h>p://www.cs.cornell.edu/~lucja/   demosanddownloads/ publicaYons/i03.pdf   RDBToOnto.html     Web MiningThe Semantic Web: From words to meanings Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  43. 43. Obtaining and structuring data 42   HTML  Tables   And  many  other  semi-­‐structured  data   XML,  UML,  BibText,  Tags,  …     Cafarella  et  al.  WebTables:   ConverterToRDF   Exploring  the  Power  of  Tables   h>p://www.w3.org/wiki/ConverterToRdf     on  the  Web.  VLDB  2008   Other useful tools to obtain and structure data Google  Refine   h>ps://code.google.com/p/google-­‐refine     And  its  extension  RDF  Refine     h>p://refine.deri.ie     Google  Fusion  Tables   h>p://support.google.com/fusiontables    The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  44. 44. Linking Data 43   •  1. Identify suitable datasets as linking targets Data  Hub   ckan.net   Geonames   DBpedia   •  2. Discover relationships between data items owl:sameAs   owl:sameAs   http:// http:// http://mydataset/ sws.geonames.org/ dbpedia.org/ Madrid 6355233 resource/Madrid Silk  Framework:  h>p://wifo5-­‐03.informaYk.uni-­‐mannheim.de/bizer/silk     Limes:  h>p://aksw.org/Projects/LIMES.html     h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf    The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  45. 45. Linking Data to HTML Documents: THE ANNOTATORS 44   •  The annotators extract entities (classes / individuals) and relations from the text and link them to object URIsThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  46. 46. 45   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBCThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  47. 47. Obtaining, structuring and linking data: AN EXAMPLE 46   BEFORE LINKED DATA Any material about C++?... Ufff... Where to start?! AFTER LINKED DATA One unique information spaceThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  48. 48. Obtaining, structuring and linking data: AN EXAMPLE 47   Use of Linked Data 1.  Select and extract educational information from various sources 2.  Reuse well-known vocabularies to describe and structure the previously Fernandez  et  al.    (2011)  Linking  Data   Across  UniversiYes:  An  Integrated   extracted data Video  Lectures  Dataset,  10th   3.  Link the educational material under a InternaYonal  SemanYc  Web   common categorization scheme Conference  (ISWC  2011),  Bonn    The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  49. 49. Specification: SELECTING & ANALYSING DATA 48   •  VideoLectures.net Web scrapper Study the structure of HTML pages and use a HTML parser to extract the data of interestThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  50. 50. Specification: SELECTING & ANALYSING DATA 49   •  YouTube University Channels <entry gd:etag=W/"DkADSH47eCp7ImA9WhZWFEg."> <id>tag:youtube.com,2008:video:zZCaHSW88Ts</id> <published>2011-02-18T11:41:08.000Z</published> <updated>2011-05-15T10:19:39.000Z</updated> <category scheme=http://gdata.youtube.com/schemas/2007/categories.cat term=Education label=Education/> <category scheme=http://gdata.youtube.com/schemas/2007/keywords.cat term=Dr Barry Cooper/> <title>Intro to Professional Practice (Children & Families)</title> <author> … </author> <media:description … </media:description> <media:keywords>…</media:keywords> <media:thumbnail …/> <yt:duration seconds=399/> <content …/> YouTube API: select the the fields of interestThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  51. 51. Specification: SELECTING & ANALYSING DATA 50   •  OU Podcasts (data.open.ac.uk) Already structured data: SPARQL queryThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  52. 52. Modeling: REUSING VOCABULARIES 51   Vocabularies selected to describe the data •  Dublin Core I describe •  http://dublincore.org/documents/dcmi-terms (dcterms) educational material •  FOAF I describe people •  http://xmlns.com/foaf/spec (foaf) and relations •  The W3C ontology for media resources •  http://www.w3.org/TR/mediaont-10 (ma) We describe media •  The Media Vocabulary resources •  http://payswarm.com/vocabs/media (media) •  The Nice Tag Ontology •  http://ns.inria.fr/nicetag/2010/09/09/voc.html (nt) I describe tagsThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  53. 53. Modeling: REUSING VOCABULARIES 52   The selected base URI is: http://linkeduniversities.org 1.  VideoLectures objects are represented as media:Recording, authors are represented as foaf:Person 2.  The video title is duplicated in the properties rdfs:label & dcterms:title 4.  The set of tags and categories associated to a video is represented by the nt:isRelatedTo property 5.  The assigned classification in the unified search space is represented by the dcterms:subject propertyThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  54. 54. RDF generation: CREATING OBJECTS 53   Type   Provenance   ID   http://linkeduniversities.org/video/CarnegieMellonU/youtube/B135229F3706D215 rdf:type media:Recording media:download http://www.youtube.com/watch?v=TOTuStPIeFc&feature=youtube_gdata_player dcterms:title CMU Football Engineering Summer 2008 Video rdfs:label CMU Football Engineering Summer 2008 Video dcterms:description Football […]Summer 2008 Video foaf:thumbnail http://i.ytimg.com/vi/TOTuStPIeFc/3.jpg media:duration 155 dcterms:isPart http://linkeduniversities.org/video/CarnegieMellonU/youtube/playlist/B135229F37 ma:publisher http://linkeduniversities.org/video/CarnegieMellonU/youtube/user/footballtracking dcterms:published 2011-06-03T23:23:53.262Z nt:isRelatedTo http://linkeduniversities.org/video/CarnegieMellonU/tag/sports nt:isRelatedTo http://linkeduniversities.org/video/CarnegieMellonU/tag/football dcterms:subject http://dmoz.org/Sports/Football/Rugby_Union dcterms:subject http://linkeduniversities.org/video/CarnegieMellonU/dmoz/Sports/Football/Rugby_UnionThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  55. 55. Links Generation: SELECTING THE LINKING POINTS 54   •  A common categorization scheme: 1.  The International Press Telecommunications Council (IPTC) http://www.iptc.org/site/NewsCodes/ 2.  Library of Congress Subject Headings http://id.loc.gov/authorities/about.html 3.  The Open Directory Project (DMOZ) http://www.dmoz.org/rdf.html 4.  DBpedia Categories http://dbpedia.org/AboutThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  56. 56. Links Generation: EXPLOITING THE ANNOTATORS 55   (1) Extract the information from the video lecture (4) Obtain the ODP document classification Reference/Knowledge_Management (id=495), weight=0.71 (3) Provide the document to the (2) Generate an textual document Textwise classification serviceThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  57. 57. PUBLICATION 56   •  New LD educational dataset •  More than 14,000 video lectures from 27 institutionsThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  58. 58. 57   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBCThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  59. 59. Search engines: BETTER DATA VISUALISATION 58   •  2007 Yahoo! Presented Search Monkey •  2009 Google announced Rich Snippets If search engines could understand the data inside the HTML pages they would display such data in better ways: pictures, dates, prices, ratings, etc.The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  60. 60. Search engines: BETTER CONTENT RETRIEVAL 59  2012 Google announced Knowledge Graphhttp://googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.htmlThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  61. 61. Search engines: NOT ALL IS ABOUT DOCUMENTS 60   •  Search engines oriented to concept-search vs. document search FreeBase: In July 2010 Google bought Metaweb, the company behind freebase Wolfram Alpha: Active Powerset: Bought by since 2009 Microsoft in 2008The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  62. 62. 61   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBCThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  63. 63. Recommendations: FACEBOOK GRAPH SEARCH 62   Links among people, places, music, and other objects can lead to better content recommendationThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  64. 64. 63   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBCThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  65. 65. Open Government 64   •  Open government •  Data.gov •  Data.gov.uk •  Many others… •  Linking data lets more complex queries and deeper data analysis •  Organizations can now easily link to public government data Research Funding Explorer •  Favour transparencyThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  66. 66. 65   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBCThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  67. 67. The Open University 66   OU public data sit in OU public data sit in different systems ––hard to different systems hard to RAE   discover, obtain, integrate discover, obtain, integrate Data  from     by users by users OpenLearn   Research     Content   ORO   Outputs   Archive  of     Library’s   Course     Exposed as linked data, Exposed as linked data, Material   Catalogue   Of  Digital   our data interlink with each our data interlink with each  Content   other and the external other and the external data.gov.uk   world: become part of the world: become part of the A/V  Material   Podcasts   “global data space” on the “global data space” on the iTunesU   Web Web DBLP  The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  68. 68. The Open University 67   •  The OU has been the first University to expose its data as linked data: http://data.open.ac.uk •  Now widely recognized as a critical step forward for the HE sector in the UK (and worldwide) •  Favor transparency and reuse of data, both externally and internally •  Reduces cost of dealing with our own public data: integration and reuse by design •  Enable both new kinds of applications, and to make the ones that are already feasible more cost effectiveThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  69. 69. The Open University 68   •  Linking Open Learn with relevant PodcastsThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  70. 70. The Open University 69   •  Exploring research communitiesThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  71. 71. 70   •  3. Two paths towards the Sematic Web vision •  Metadata embedded in HTML •  Linked Data -­‐  An example •  4. Sematic Web applications •  Search engines •  Recommendations •  Open government •  Institutions -­‐  The Open University -­‐  BBCThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  72. 72. BBC: British Broadcasting Corporation 71   •  Historically when developing websites… •  Hand-crafted customized sites •  Only some programs could be covered -­‐  Shame considering they broadcast between 1,000 and 1,500 programs/day •  All those sites were developed in isolation -  Often not maintained -  Often not persistent Using Linked Data to build Websites more productively http://www.slideshare.net/metade/linked-data-on-the-bbcThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  73. 73. BBC: British Broadcasting Corporation 72   •  The Linked Data Website construction model Domain-driven design •  Identify the domain objects and relations •  Check the domain model with users •  Design your schema •  Design your URIs •  Define data you need to build each of your pages •  Automatically build up your HTML pages by querying these data and applying CSS layoutsThe Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  74. 74. BBC: British Broadcasting Corporation 73   •  Programs •  Starting with the WorldCup 2010… and now… •  Music •  Artists •  Animal life •  …..The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  75. 75. Thx! J 74   •  Questions, doubts?The Semantic Web: From words to meanings Web Mining Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones Escuela Politécnica Superior, Universidad Autónoma de Madrid
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×