Introduzione al tema dei dati strutturati e Linked Data ed a quelli non strutturati presenti nel Web. Come usarli nel giornalismo e nella comunicazione? Bisogna sapere che esistono come primo passaggio.
Lezione per il master di comunicazione della scienza alla SISSA ( Trieste ), preparata con Alessio Cimarelli ( dataninja.it )
Open Data e Marketing: not data about customers but data for customers
Tecnologie semantiche per il giornalismo @ SISSA
1. Tecnologie semantiche
per il giornalismo
Web semantico e complessità della conoscenza
Matteo Brunati
SpazioDati | @dagoneye
Alessio Cimarelli
dataninja.it | @jenkin27
2. Come affrontiamo il
discorso
Contesto traContesto tra
Web of Data eWeb of Data e
Web as ContentWeb as Content
Strumenti perStrumenti per
giocare congiocare con
entrambientrambi
10. Ed invece no: siamo tutti nella stessa barca.
Il Web crea innovazione distruttiva in tutti gli ambiti,
e serve una nuova disciplina per capirne le dinamiche
Web ScienceWeb Science
http://en.wikipedia.org/wiki/Web_Science_Trust
20. IlWeb in un paper nel 1989,edIlWeb in un paper nel 1989,ed
aveva già molto oltre semplici linkaveva già molto oltre semplici link
ai documentiai documenti
21. Il web come spazio diIl web come spazio di
condivisione dellecondivisione delle
informazioni,che PERMANE,einformazioni,che PERMANE,e
decentralizzatodecentralizzato
a chi devo chiedere dia chi devo chiedere di
inserire un link?inserire un link?
avevo l’email e gliavevo l’email e gli
allegati:cosa mi offre inallegati:cosa mi offre in
più?più?
23. principio del Least Power,principio del Least Power,
ovvero umiltà del designovvero umiltà del design
24. con il riuso che è insito nellacon il riuso che è insito nella
trasparenza della struttura del Web...trasparenza della struttura del Web...
http://www.shirky.com/writings/view_source.html
29. [paragrafo] Paperino è a casa a Milano. [fne paragrafo]
questo testo è all’interno di un documento,
nel mio disco fsso.
se lo pubblico online, avrà una forma
ed un indirizzo per essere trovato
URIURI
HTMLHTML
36. Diversi livelli diDiversi livelli di
avvicinamento inavvicinamento in
questo percorsoquesto percorso
I dati Linked sono fattiI dati Linked sono fatti
per essere letti daiper essere letti dai
programmiprogrammi
37. Linked Data è una delle sintesi migliori delLinked Data è una delle sintesi migliori del
vecchio nome “Semantic Web”vecchio nome “Semantic Web”
Linked Data è già OGGI una delle fonti,
ed è quella più complessa,perché
pensata per le macchine
44. Così un po' abbiamo digerito
l'idea del Semantic Web: rendere
la macchina capace di tracciare LINK
e RELAZIONI con il contenuto,
andando oltre alla pagina come
elemento atomico del contenuto...
47. “A thing is defned by its relationships”
http://www.teodorapetkova.com/poiesis-of-relationships/semantic-web-relationships-and-a-piece-of-conceptual-art/
48. Queste relazioni non sono un fne,
ma sono un percorso...
http://www.teodorapetkova.com/poiesis-of-relationships/semantic-web-relationships-and-a-piece-of-conceptual-art/
49. ...percorsi che sono pensati per le macchine:
ovviamente come non pensare
alla SEO? :)
50. SEO = Search Engine Optimization,
ovvero come farsi trovare
dai motori di ricerca:
che sono di nuovo “macchine”
:)
51. e questo Web di Dati oggi è già dentro
le pagine tradizionali, in forme ibride...
per farti trovare quel contenuto che...
FacebookFacebook
OpenGraphOpenGraph
Google Rich SnippetsGoogle Rich Snippets
via Google Knowledgevia Google Knowledge
GraphGraph
Open DataOpen Data
( Community e( Community e
gov )gov )
Google CardsGoogle Cards
sulle SERPsulle SERP
52. Ci sono alcuni determinati formati nelle pagine,
tutti col nome “dati strutturati”
http://webdatacommons.org/structureddata/index.html#results-2013-1
54. è un tema moltoè un tema molto
attuale,quindi meritaattuale,quindi merita
attenzioneattenzione
55. e non è più solo accademia, da tempo:
è Mercato.Anche con il supporto
di progetti europei che stimolano la diffusione e la
commercializzazione dei frutti della ricerca...
http://www.stom-project.eu/
56. questa natura a livelli diquesta natura a livelli di
struttura del documentostruttura del documento si puòsi può
vedere su sindice.comvedere su sindice.com
57. per provare a vedereper provare a vedere
questi strati diquesti strati di
informazione strutturatainformazione strutturata
inspector.sindice.cominspector.sindice.com
58. ma io “giornalista”, con questi Linked Data,
perchè devo averci a che fare?
stimolare i programmatoristimolare i programmatori
ed i tecnici a darmi unaed i tecnici a darmi una
mano, consapevole chemano, consapevole che
esistono quei dati eesistono quei dati e
quelle fontiquelle fonti
chiedere lumi a chi li hachiedere lumi a chi li ha
pubblicati,come con quellipubblicati,come con quelli
Open DataOpen Data
+ semplici:stimolare+ semplici:stimolare
feedback e miglioramentofeedback e miglioramento
continuocontinuo
64. Anche se chi liAnche se chi li
pubblica, sarà semprepubblica, sarà sempre
più attentopiù attento
http://seoblog.giorgiotave.it/seo-semantica-18/5065
66. “What I do is text analysis,which covers the
aggregation of texts,machine learning,natural
language processing,applied to text fles to
understand the context.
There is a specifc set of skills for data journalists
to learn,as it is more and more becoming
common place to fnd information in text fles,
ranging from material published by governments
to corporations.
And if you can learn those skills you can start to
fnd meaningful patterns in these documents.”
http://blogs.dw.de/innovation/data-science-the-software-that-is-out-there-is-getting-easier-to-use/
67. ed ora proviamo a capire come funziona
il text mining con uno strumento
che ci dirà “qualcosa” su un testo...
71. Messy data,datiMessy data,dati
semi-strutturatisemi-strutturati
CONTENT ENRICHMENTCONTENT ENRICHMENT
scoprire informazioniscoprire informazioni
collegate in maniera velocecollegate in maniera veloce
attorno ad un temaattorno ad un tema
DATA CLEANINGDATA CLEANING
pulire i dati con Openpulire i dati con Open
Refne, confrontandoli conRefne, confrontandoli con
fonti pulite e condivisefonti pulite e condivise
DATA WORKFLOWDATA WORKFLOW
pubblicare i dati puliti epubblicare i dati puliti e
trattati nella propriatrattati nella propria
storia come Linked Datastoria come Linked Data
76. Text analytics su GDrive usando le dandelion API
Demo RASFF - http://bit.ly/RASFF_data
WebWeb
di datidi dati
ContenutoContenuto
non strutturatonon strutturato
https://dandelion.eu/products/datatxt/nex/demo/
http://www.google.com/webmasters/tools/richsnippets
https://developers.facebook.com/tools/debug/og/object/
Ovvero confrontare le testate dei giornali nel modo in cuiOvvero confrontare le testate dei giornali nel modo in cui
fanno parte del Web dei dati / non strutturatofanno parte del Web dei dati / non strutturato