Open Data con Drupal nella PA:
considerazioni su licensing e
privacy
Andrea Dori – Dipartimento di Ingegneria Informatica
Automatica e Gestionale
e
Claudia Pavoletti – Intel Security
L’università è costituita da un (enorme) gruppo sociale che
produce dati
ricercatore
• Produco	pubblicazioni	
scientifiche
• Accumulo	esperienza e	
creo	nuove	modalità
nell’utilizzo	degli	
strumenti
• Partecipo	a	workshop
• Tengo	seminari
• Scrivo	progetti
• Scrivo	relazioni
docente
• Tengo	le	lezioni dei	corsi
• Produco	il	materiale	
didattico
• Parlo con	gli	studenti
• Esamino gli	studenti
• Scrivo	il	programma	del	
corso
• Collaboro	alla	definizione	
del	manifesto
studente
• Prendo	appunti dei	corsi
• Scrivo	tesine
• Svolgo	un	tirocinio
• Scrivo	la	tesi
• Faccio	esperienze	
lavorative	legate	ai	miei	
corsi
• Svolgo	attività con	altri	
studenti
• Utilizzo	i	servizi che	
l’università	mi	mette	a	
disposizione
• Sopravvivo
personale	(staff)
• Svolgo	procedure	
amministrative
• Accumulo	esperienze sui	
dati e	sulle	procedure
• Eseguo	mappature	dei	
processi	sulla	realtà	che	
mi	circonda
• Parlo con	gli	studenti e	
con	i	docenti
• Determino e	cerco	di	far	
seguire	il	calendario	delle	
scadenze
• Accumulo	competenze	
specifiche	al	mio	campo	di	
applicazione
disseminazione
[dis-se-mi-na-zió-ne]
s.f. (pl. -ni)
Azione e risultato del disseminare, dello spargere qua e là: d. di carte in tutta la casa
Dalla disseminazione dei dati al data dissemination
su	carta su	memorie	di	pc su	nostri	server su	database	esterni
Where have all our data	gone?
Per riuscire a raccogliere, catalogare, riutilizzare, pubblicare e infine analizzare
queste informazioni, abbiamo bisogno di uno standard di riferimento per la
gestione dei dati, che dobbiamo imporre a 63 dipartimenti, 11 facoltà, 13 aree
dell’amministrazione centrale, 300 corsi di laurea, 8000 unità di personale e
120.000 studenti.
Abbiamo bisogno di uno standard
Standard?
da	xkcd n.	927
Decidere di far convergere tutti i nostri servizi web su un unico CMS ci ha dato
la possibilità di riutilizzare i dati ”disseminati” nella realtà dell’ateneo e riesporli
al nostro interno (o anche fuori) attraverso servizi costruiti su Drupal, facilitando
enormemente l’integrazione dei dati nella nostra “galassia” di siti.
Drupal viene imposto come unica piattaforma di sviluppo dei siti web nel
settembre del 2011.
Drupal non è uno standard, ma è stato il nostro standard
Ogni volta che abbiamo scritto un’applicazione di gestione dei dati con Drupal ci
siamo sforzati di produrre anche una API di accesso ai dati stessi che li
restituisse in vari formati standard e aperti.
In pratica…
Un esempio su tutti: Iris
IRIS REST
request
response (json)
request
/applicazione/indirizzo_email_uniroma1/offset/limit
response (xml,	csv,	json…)
Pagina	personale
Pagina	personale
Pagina	personale
IRISGW SITO	WEB	UNIROMA1
Views Json
Views data	export
Custom	modules
Ci piacerebbe raccontarlo, ma la realtà è che la nostra spinta verso la filosofia
dell’open data non nasce da una pianificazione in risposta all’esigenza di
consolidare i dati, ma da un obbligo legislativo, il famigerato
Dlgs 33/2013
Grazie(?) a questo decreto, ogni sito web di ogni centro di spesa di ateneo
diventa lo strumento unico di pubblicità legale per la maggior parte delle nostre
attività finanziarie. In pratica, ogni sito diventa un oggetto di valenza giuridica.
Quindi siamo stati virtuosi?
• La trasparenza amministrativa obbliga la pubblicazione dati personali, ma la
privacy vuole che si limiti al massimo il loro riutilizzo;
• Questi dati quindi devono essere pubblicati solo per lo scopo e la finalità del
decreto;
• I dati devono essere generalmente nascosti ai motori di ricerca;
• Si deve evitare il download massivo dei file;
Gli obblighi e… gli altri obblighi
• La pubblicazione di dati personali eccedenti lo scopo del decreto è
sanzionabile;
• La pubblicazione oltre i limiti temporali stabiliti è sanzionabile;
• La pubblicazione di dati sensibili è sempre sanzionata;
• L’esposizione, anche accidentale, ai motori di ricerca è sanzionata;
I rischi nel workflow
• Sicuramente bisogna evitare che i nodi del sito vengano semplicemente
enumerati
• A volte, ma non sempre, i dati di certi campi vanno mascherati
• Utenti di centri diversi devono vedere solo i dati della propria organizzazione
I nodi da sciogliere in Drupal
• LDAP: una soluzione unica di autenticazione per tutti i nostri siti, fornisce
identità a partire dalla posta elettronica istituzionale e la base di dati è
agganciata in maniera forte alle determinazioni degli organismi che
controllano la “popolazione” di Sapienza (segreterie studenti, ufficio del
personale, consigli di facoltà ecc.)
• TAXONOMY ACCESS CONTROL: il controllo degli accessi tramite
tassonomie ci ha dato la flessibilità che ci serviva per creare dei gruppi di
utenti;
• VIEWS / VIEWS CONDITIONAL: ogni visualizzazione dei dati per gli utenti
anonimi è generata da una vista che eventualmente riscrive alcuni campi se
è richiesto dai parametri;
Che soluzioni Drupal abbiamo usato
• L’unico modo per garantire una vista completamente logica del dato è quello
di separare i workflow gestionali dalla presentazione dei dati;
• Un sito in Intranet sarà dedicato alla elaborazione dei dati ed esporrà solo
quello che rientra negli obblighi al momento della richiesta attraverso dei
webservices;
• Il sito di presentazione non conterrà alcun dato all’interno, ma solo la logica
per generare la richiesta;
• Idealmente i futuri requisiti di legge verrebbero implementati solo sul sito
«interno»
La vera soluzione
Per la vera soluzione useremo
The	Web
Publishing
server
Data	management
server
utenti
LDAP
Services
Rules
VBO
U/X	enhancements
Views XML
Views Json
request
Rules
Tornando a noi: questa esperienza ci ha insegnato che la nostra spinta
necessaria verso open data per conseguire il consolidamento dei dati di cui
abbiamo bisogno non può prescindere dalla piena tutela della privacy dei dati in
questione.
Come possiamo assicurarcene?
Open data e privacy
[drupalday2017] - Open Data con Drupal nella PA: considerazioni su licensing e privacy

[drupalday2017] - Open Data con Drupal nella PA: considerazioni su licensing e privacy

  • 2.
    Open Data conDrupal nella PA: considerazioni su licensing e privacy Andrea Dori – Dipartimento di Ingegneria Informatica Automatica e Gestionale e Claudia Pavoletti – Intel Security
  • 3.
    L’università è costituitada un (enorme) gruppo sociale che produce dati ricercatore • Produco pubblicazioni scientifiche • Accumulo esperienza e creo nuove modalità nell’utilizzo degli strumenti • Partecipo a workshop • Tengo seminari • Scrivo progetti • Scrivo relazioni docente • Tengo le lezioni dei corsi • Produco il materiale didattico • Parlo con gli studenti • Esamino gli studenti • Scrivo il programma del corso • Collaboro alla definizione del manifesto studente • Prendo appunti dei corsi • Scrivo tesine • Svolgo un tirocinio • Scrivo la tesi • Faccio esperienze lavorative legate ai miei corsi • Svolgo attività con altri studenti • Utilizzo i servizi che l’università mi mette a disposizione • Sopravvivo personale (staff) • Svolgo procedure amministrative • Accumulo esperienze sui dati e sulle procedure • Eseguo mappature dei processi sulla realtà che mi circonda • Parlo con gli studenti e con i docenti • Determino e cerco di far seguire il calendario delle scadenze • Accumulo competenze specifiche al mio campo di applicazione
  • 4.
    disseminazione [dis-se-mi-na-zió-ne] s.f. (pl. -ni) Azionee risultato del disseminare, dello spargere qua e là: d. di carte in tutta la casa Dalla disseminazione dei dati al data dissemination su carta su memorie di pc su nostri server su database esterni Where have all our data gone?
  • 5.
    Per riuscire araccogliere, catalogare, riutilizzare, pubblicare e infine analizzare queste informazioni, abbiamo bisogno di uno standard di riferimento per la gestione dei dati, che dobbiamo imporre a 63 dipartimenti, 11 facoltà, 13 aree dell’amministrazione centrale, 300 corsi di laurea, 8000 unità di personale e 120.000 studenti. Abbiamo bisogno di uno standard
  • 6.
  • 7.
    Decidere di farconvergere tutti i nostri servizi web su un unico CMS ci ha dato la possibilità di riutilizzare i dati ”disseminati” nella realtà dell’ateneo e riesporli al nostro interno (o anche fuori) attraverso servizi costruiti su Drupal, facilitando enormemente l’integrazione dei dati nella nostra “galassia” di siti. Drupal viene imposto come unica piattaforma di sviluppo dei siti web nel settembre del 2011. Drupal non è uno standard, ma è stato il nostro standard
  • 8.
    Ogni volta cheabbiamo scritto un’applicazione di gestione dei dati con Drupal ci siamo sforzati di produrre anche una API di accesso ai dati stessi che li restituisse in vari formati standard e aperti. In pratica…
  • 9.
    Un esempio sututti: Iris IRIS REST request response (json) request /applicazione/indirizzo_email_uniroma1/offset/limit response (xml, csv, json…) Pagina personale Pagina personale Pagina personale IRISGW SITO WEB UNIROMA1 Views Json Views data export Custom modules
  • 10.
    Ci piacerebbe raccontarlo,ma la realtà è che la nostra spinta verso la filosofia dell’open data non nasce da una pianificazione in risposta all’esigenza di consolidare i dati, ma da un obbligo legislativo, il famigerato Dlgs 33/2013 Grazie(?) a questo decreto, ogni sito web di ogni centro di spesa di ateneo diventa lo strumento unico di pubblicità legale per la maggior parte delle nostre attività finanziarie. In pratica, ogni sito diventa un oggetto di valenza giuridica. Quindi siamo stati virtuosi?
  • 11.
    • La trasparenzaamministrativa obbliga la pubblicazione dati personali, ma la privacy vuole che si limiti al massimo il loro riutilizzo; • Questi dati quindi devono essere pubblicati solo per lo scopo e la finalità del decreto; • I dati devono essere generalmente nascosti ai motori di ricerca; • Si deve evitare il download massivo dei file; Gli obblighi e… gli altri obblighi
  • 12.
    • La pubblicazionedi dati personali eccedenti lo scopo del decreto è sanzionabile; • La pubblicazione oltre i limiti temporali stabiliti è sanzionabile; • La pubblicazione di dati sensibili è sempre sanzionata; • L’esposizione, anche accidentale, ai motori di ricerca è sanzionata; I rischi nel workflow
  • 13.
    • Sicuramente bisognaevitare che i nodi del sito vengano semplicemente enumerati • A volte, ma non sempre, i dati di certi campi vanno mascherati • Utenti di centri diversi devono vedere solo i dati della propria organizzazione I nodi da sciogliere in Drupal
  • 14.
    • LDAP: unasoluzione unica di autenticazione per tutti i nostri siti, fornisce identità a partire dalla posta elettronica istituzionale e la base di dati è agganciata in maniera forte alle determinazioni degli organismi che controllano la “popolazione” di Sapienza (segreterie studenti, ufficio del personale, consigli di facoltà ecc.) • TAXONOMY ACCESS CONTROL: il controllo degli accessi tramite tassonomie ci ha dato la flessibilità che ci serviva per creare dei gruppi di utenti; • VIEWS / VIEWS CONDITIONAL: ogni visualizzazione dei dati per gli utenti anonimi è generata da una vista che eventualmente riscrive alcuni campi se è richiesto dai parametri; Che soluzioni Drupal abbiamo usato
  • 15.
    • L’unico modoper garantire una vista completamente logica del dato è quello di separare i workflow gestionali dalla presentazione dei dati; • Un sito in Intranet sarà dedicato alla elaborazione dei dati ed esporrà solo quello che rientra negli obblighi al momento della richiesta attraverso dei webservices; • Il sito di presentazione non conterrà alcun dato all’interno, ma solo la logica per generare la richiesta; • Idealmente i futuri requisiti di legge verrebbero implementati solo sul sito «interno» La vera soluzione
  • 16.
    Per la verasoluzione useremo The Web Publishing server Data management server utenti LDAP Services Rules VBO U/X enhancements Views XML Views Json request Rules
  • 17.
    Tornando a noi:questa esperienza ci ha insegnato che la nostra spinta necessaria verso open data per conseguire il consolidamento dei dati di cui abbiamo bisogno non può prescindere dalla piena tutela della privacy dei dati in questione. Come possiamo assicurarcene? Open data e privacy