Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie

438 views

Published on

La ricerca del diritto.
Tavola rotonda presso Università Bicocca (Edificio U4, aula 8), 3 giugno 2015 h 10-13. Dettagli: http://juriswiki.it/news/la-ricerca-del-diritto-tra-tutela-della-privacy-e-accesso-all-informazione.
Intervengono: Andrea Rossetti (UniMiB), Simone Aliprandi (JurisWiki & Array), Stefano Ricci (HTLaw), Roberto Boselli (UniMiB), Monica Palmirani (UniBO)

Published in: Law
  • Be the first to comment

  • Be the first to like this

2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie

  1. 1. Università  degli  Studi  di  Milano  -­‐  Bicocca     Viale  dell’Innovazione,  10   20126  Milano,  Italia   www.crisp-­‐org.it   Roberto Boselli, 3 giugno 2015
  2. 2. Linked  Open  Data     DaF  struGuraF DaF  non  struGuraF   Contesto Big  Data     Web   SemanFc     Business  Intelligence   App,  Mashup,     InformaFon  Systems,     Search  engines  
  3. 3. Le tecniche •  Informa(on  Extrac(on  per  estrarre  enFtà  da   daF  non  struGuraF  e  classificarli   •  Seman(c  Web  per  descrivere  e  collegare  le   enFtà   •  Big  Data  Analy(cs  per  analizzare  daF  e  prendere   decisioni  
  4. 4. Dominio: Mercato del Lavoro
  5. 5. Obiettivo Dato strutturato Dato Semi strutturato Non strutturato Conoscere mercato del lavoro Social Network Siti web Fonti Statistiche e Amministrative
  6. 6. Fonti Selezione  tra  i  più  importanF   si(  di  annunci  di  lavoro:   •   SiF  specializzaF  in  offerte  di  lavoro  (job  boards  e  aggregators)   •   SiF  delle  principali  agenzie  interinali   •   SiF  dei  maggiori  quoFdiani  nazionali   •   Social  networks  
  7. 7. Web vacancies •  850000  annunci  di  lavoro  scaricaF  e  analizzaF   •  Crawling  da  febbraio  2013  a  aprile  2015   •  ContenuF  descriZvi  =  daF  non  struGuraF  
  8. 8. Indicatori del mercato del lavoro •  Professione   •  Tipo  di  contraAo   •  SeAore  economico   •  Titolo  di  studio   •  Località   •  Skills   Variabili  interconnesse  a  differenF  livelli  di  complessità   Preziosa  fonte  di  informazione  delle  caraGerisFche  e  delle   dinamiche  del  lavoro  
  9. 9. Problemi di Information Extraction Diversi  problemi  emergono  dal  traAare  da(  del  web:   •  Informa(on  processing,  text  analysis     TraGare  stringhe  di  testo  richiede  parFcolari  strumenF  e  tecniche   •  Eterogeneità  di  classificazione  nei  si(     Ciascun  sito  ha  una  differente  classificazione   •  Overlap  tra  si(     Lo  stesso  annuncio  può  essere  pubblicato  in  diversi  siF.  Controllo   dei  duplicaF   •  Ripe(zione  degli  annunci  nel  tempo     Controllo  delle  diverse  poliFche  di  pubblicazione  dei  siF   •  Iden(ficazione  e  definizione  di  tassonomie  
  10. 10. Metodologia e strumenti Da(  non   struAura(   •  Web   crawling   •  Text  mining   •  SMA   StruAura  da(   •  Classificazione   •  Tassonomia   •  RDF  triplestore   Seman(ca   •  Ontologia   •  Relazioni   semanFche   Linked  Data   •  Collegamento   dataset   •  Interrogazioni   SPARQL   endpoint   Business   Intelligence   •  Analisi   staFsFche   •  Visualizzazione   •  ReporFsFca   Suite   strumenF   SAS,   R Open   Calais,     D2RQ Protege,   LOD   Refine,   SILK   OpenLink   Virtuoso,   Sesame   Pentaho,   Talend,   SemanFc   ETL  
  11. 11. Web crawling Scarico  di  daF  non  struGuraF  dal  Web  (via  API)   Esempi:   Tweets  da  TwiGer   Post  da  blog  e  forum   Annunci  da  siF  ricerca  Lavoro  (Infojobs,  Monster  ecc.)   <body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. …</body>
  12. 12. Text Mining (TM) È  il  processo  di  analisi:   per  estrarre  nuova  e  valida  conoscenza  dispersa  nei  documenF   di  testo   per  dedurre  informazioni  da  daF  non  struGuraF  combinaF  con   variabili  quanFtaFve   UFlizza  tecniche  di  InformaFon  Retrieval  (h-­‐idf,  coseno,   clustering,  LSI)   <body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body>
  13. 13. Social Media Analytics Tecniche  staFsFche  e  linguisFche  per  monitorare,   ascoltare  e  tracciare  comportamento  utenF  nel   web,    classificare  contenuF  in  tassonomie   Opinion  Mining   SenFment  Analysis   <body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body> Settore Contratto Titolo di studio
  14. 14. Conoscenza  di  dominio  e  sistemi  classificazione   ufficiali  (ISTAT,  ATECO  …)   Aggregazione  di  parole  accomunate  da  un  tema/classe   Organizzazione  gerarchica  termini   Classificazione e tassonomie ContraZ  PermanenF   ContraZ  Temporanei   Inserimento   Lavoro  autonomo   Lavoro  aFpico   Da  definire     Comunicazioni  Obbligatorie  
  15. 15. Linguaggio naturale e sistemi di classificazione Terminologia  usata  dalle   aziende  per  professioni  e   seGori   Classificazioni  ufficiali  di   professioni  e  seGori   Il  web  può  rappresentare  un  ponte    per  coniugare  i  sistemi  di   classificazione  ed  il  linguaggio  naturale  …  nel  contempo  una  occasione   per  lo  studio  dell’evoluzione  dei  sistemi  classificatori  
  16. 16. WollyBi https://www.wollybi.it/
  17. 17. Semantic Web "The  Seman)c  Web  is  an  extension  of  the  current  web  in   which  informa)on  is  given  well-­‐defined  meaning,  be=er   enabling  computers  and  people  to  work  in   coopera)on.”  (Berners-­‐Lee,  2001)   Tecniche  e  linguaggi  per  esplicitare  le  relazioni  tra  pagine   web,  e  permeGere  alle  macchine  di  capire  il  significato   delle  informazioni   Da  pagine  di  testo  non  struAurato  a  informazioni   struAurate     Descrizione  metadaF  interpretabili  dai  computer     Creazione  di  nuovi  servizi  e  nuova  conoscenza  
  18. 18. Linked Open Data
  19. 19. Perché Linked Open Data? •  Interoperabilità:  il  valore  dei  daF  aumenta  quando  data  set   differenF,  prodoZ  e  pubblicaF  in  modo  indipendente  da  diversi   soggeZ,  possono  essere  incrociaF  liberamente  da  terze  parF   •  Valorizzazione  del  patrimonio  informaFvo  pubblico:  rendere   disponibili  e  raggiungibili  i  daF  sul  Web  sia  da  esseri  umani  sia   da  applicazioni  sonware     •  I  daF  come  propulsori  economici  per  la  creazione  di  nuove  app   e  servizi,  start  up,  e  posF  di  lavoro   Occorre  avere  un  linguaggio  comune,  una  semanFca,  con  daF   struGuraF  e  chiavi  di  leGura  univoche,  e  un’ontologia  di   dominio  
  20. 20. LOD: Vantaggi •  Esporre  daF  sul  Web,  non  solo  documenF   •  InterconneGere  i  nostri  daF  con  quelli  di  altre   fonF  arricchendone  il  valore  conosciFvo   •  I  link  in  entrata  ai  nostri  daF  possono   aumentarne  la  visibilità   •  Altri  esseri  umani  e  applicazioni  possono:     •  Accedere  ai  nostri  daF  uFlizzando  le  tecnologie   Web     •  Seguire  i  link  in  modo  da  oGenere  ulteriori   informazioni  di  contesto    
  21. 21. La scala di Berners-Lee Modello  di  catalogazione  dei  daF   1.  Una  Stella:  il  livello  base,  cosFtuito  da  file  non  struGuraF:  ad  esempio   un’immagine  in  formato  grezzo  (.gif,  .jpg,  .png),  un  documento  in  formato   Word,  un  file  in  formato  pdf   2.  Due  Stelle:  indica  daF  struGuraF  ma  codificaF  con  un  formato  proprietario,   ad  esempio  un  documento  in  formato  Excel   3.  Tre  Stelle:  indica  daF  struGuraF  e  codificaF  in  un  formato  non  proprietario,   ad  esempio  il  formato  .csv  (Comma  Separated  Values)   4.  QuaAro  Stelle:  indica  daF  struGuraF  e  codificaF  in  un  formato  non   proprietario  che  sono  dotaF  di  un  URI  che  li  rende  indirizzabili  sulla  rete  e   quindi  uFlizzabili  direGamente  online,  aGraverso  l’inclusione  in  una   struGura  basata  sul  modello  RDF  (Resource  DescripFon  Framework)   5.  Cinque  Stelle:  indica  quelli  che  vengono  definiF  Linked  Open  Data  (LOD)   21
  22. 22. Linked Data, linee guida (5 stelle) 1 Dal  dato  grezzo  al  conceGo  interpretabile  dalle  macchine   •  I  daF  idenFficaF  con  indirizzi  Web  (URI)   •  UFlizzo  della  semanFca  per  descrivere  daF  aGraverso   conceZ  (formalismi  interpretabili  dalle  macchine)   •  Rappresentazione  dei  conceZ  aGraverso  triple  sogge=o   predicato  ogge=o  RDF:  “Università  è  un’is)tuzione,   Università  fa  formazione,  Università  fa  ricerca”   •  Le  ontologie  sono  vocabolari  che  spiegano  alle  macchine  il   significato  dei  termini  delle  triple  (Università,  is)tuzione   ecc.)  e  forniscono  le  regole  per  dedurre  nuove   informazioni  
  23. 23. Linked Data, linee guida (5 stelle) 2 •  I  daF  struGuraF  sono  memorizzaF  in  apposiF  triplestore  RDF   interrogabili  via  SPARQL  endpoint   •  Link  RDF  per  collegare  informazioni  di  dataset  diversi   •  Nel  creare  ontologie  bisogna  riusare  il  più  possibile  termini/ enFtà  di  vocabolari  noF;  creare  nuovi  termini  solo  se   streGamente  necessario   Ontologie  riuFlizzabili  per  descrivere  conceZ:   •  Friend-­‐of-­‐a-­‐friend  (FOAF):  per  descrivere  persone  e  relazioni  tra  di  esse   •  Dublin  Core  (DC):  standard  metadaF   •  Geonames:  per  descrivere  enFtà  geografiche   •  Dbpedia:  per  descrivere  conoscenza  presente  in  Wikipedia   •  …  (vedremo  altre  nel  corso  della  presentazione)  
  24. 24. Triple RDF dagli annunci <body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body> Discount  alimentare   Responsabile     punto  vendita     assume   Grande  distribuzione   opera   Esperienza   avere   3  anni   Diploma  sms   Titolo  di  studio   PC   conoscere   ContraGo     somministrazione   offre  
  25. 25. Ontologie in sviluppo Professione Contratto TitoloDiStudio haTitolo eAssociatoA Skill haSkill Skill estratte/ESCO/tassonomia haContratto SettoreEconomico Keyword ISTAT/ESCO/ISCO Istanze Stringhe estratte Tassonomia/EURES Tassonomia/NACE Tassonomia/ISCED skillCrisp.owl lavoro.owl
  26. 26. SkillOnt.owl has_experience_level has_experience_level
  27. 27. Skill-lavoro.owl Informatici_Telematici has_skill belongs belongs
  28. 28. Lavoratori Professioni Attività economiche Aziende Dataset LOD collegati tra loro 28
  29. 29. Settori econ Aziende Professioni Lavoratori Persona_1234 Contratto_TD avvia Azienda_JBD Professione_Informatico nome_qual http://…/Professioni/#Informaticoowl:sameAs Settore_ICT èAssociatoA indirizzo Milano Italia Via Verdi …/Professioni/#TecnicoInformatico èAssociatoA apertoDa ha Quali  skill  collegate  al  seGore   economico  dell'ICT  sono  richieste   dalle  aziende  nella  zona  di   Milano?     Possibile query su LOD Lavoro Skill Ling. Programm. http://…/Skill/#Java http://…/Skill/#C++ ha Java C++
  30. 30. Si  oZene  una  nuova  fonte  daF  che  integrata  nei   sistemi  di  Business  Intelligence  permeGe:   Al  ciGadino  e  alle  aziende:   e.g.,  fare  analisi  dello  stato  del  lavoro  nella   regione,  quali  sono  le  qualifiche  richieste,  quali   possono  essere  i  possibili  percorsi   professionalizzanF  ecc.   Al  decisore:    e.g.,  valutare  e  visualizzare  in  modo  immediato   l’efficacia  delle  poliFche  sul  lavoro  e   l’occupazione   Possibili utilizzi
  31. 31. Grazie! Domande?   roberto.boselli@unimib.it  

×