VQR e ASN: un Primo Bilancio e Prospettive Future.
Presentazione tenuta in data 29-1-2014 presso il Dipartimento di Chimica, Sapienza Università di Roma, nell'ambito del Convegno
VQR e ASN: un Primo Bilancio e Prospettive Future.
Incontro-dibattito organizzato dal Coordinamento Nazionale Ricercatori Universitari (CNRU) con Stefano Fantoni (Presidente ANVUR), Giuseppe De Nicolao (Redattore del sito web ROARS), Sergio Bendetto (Componente Consiglio Direttivo ANVUR), Marco Merafina (Coordinatore Nazionale CNRU), Giancarlo Ruocco (Prorettore alla Ricerca, Sapienza Università di Roma).
Finanziamenti alla ricerca e alle università - Legge Stabilità 2017
VQR e ASN: un Primo Bilancio e Prospettive Future
1. VQR e ASN: un Primo Bilancio
e Prospettive Future
Giuseppe De Nicolao
Dip. Ingegneria Industriale e dell’Informazione
Università di Pavia
2. Capitoli
1. La VQR come non l’avete mai vista
2. VQR: la parete nord della valutazione
3. VQR: che fare?
4. ASN: più mediane per tutti
5. ASN: che fare?
3. 1. La VQR come non
l’avete mai vista
ING-INF/05!
11. 0
0.1
0.2
0.3
0.4
0.5
0.6
2006 2007 2008 2009 2010
France
Germany
Italy
Japan
UK
USA
China
SPESA R&D (COME % DEL PIL) NEL SETTORE
DI IMPIEGO “ISTRUZIONE SUPERIORE”
FONTE: OECD
18. Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 6.1)
(dati ISI Web of Knowledge, Thomson-Reuters)
http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
#papers/millionUSD(PPP)
19. Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 5.3)
(dati ISI Web of Knowledge, Thomson-Reuters)
http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
#cites/millionUSD(PPP)
21. Vetta: valutazione nazionale della ricerca
Vie classiche: peer review, statistiche bibliometriche
Parete nord: valutazione bibliometrica dei singoli articoli
Tre spedizioni:
UK - RAE/REF Australia - ERA Italia - VQR
22. Report on the pilot exercise to develop
bibliometric indicators for the REF
Bibliometrics are not sufficiently robust at
this stage to be used formulaically or to
replace expert review in the REF
http://www.hefce.ac.uk/pubs/year/2009/200939/
VQR: gli indicatori bibliometrici
In particolare verranno considerati:
• l’Impact Factor di Journal Citation
Reports di Thomson Reuters (IF) della rivista
nell’anno di pubblicazione;
• il numero di citazioni ricevute dal
prodotto fino al 31 dicembre 2011;
http://www.anvur.org/sites/anvur-miur/files/gev_documenti/gev02_criteri_21_05.pdf
bibliometry
BIBLIOMETRY
23. Australia drops journal rankings
“There is clear and consistent evidence that
the rankings were being deployed
inappropriately … in ways that could
produce harmful outcomes”
Minister K. Carr, May 2011
bibliometry
BIBLIOMETRY
25. For the matrix entries labeled IR we rely
on the informed peer review
ANVUR proposal: Use bibliometry, # of citations
(and informed peer review)
25
A
B
C
D
Citations
A
B
C
D
A B C D
A
B
C
D
Citations
A
B
C
D
A B C D
A A A?
D D
D
A
A
A?
D
IR
IR
IR
IRIR
IRIR
IR IR
IR
IR
IR IRIR
Bibliometry (IF,…) Bibliometry (IF,…)
Recent
articles
Old
articles
27. Tesi: nelle aree bibliometriche
la VQR è inaffidabile perché basata
su metriche disomogenee
A. Le aree sono scalibrate (peccato veniale)
B. Le bibliometrie degli SSD sono scalibrate
(fatal error)
C. Bibliometria e peer-review sono scalibrate
(fatal error)
29. I due volti del quadrato
magico del GEV09
BEST
WORST
Lo schema
base ...
... ha due
varianti ...
30. Quale bersaglio preferite?
0 punti 0 punti
ING-INF/05 Resto del GEV 09
JOURNAL RANKINGJOURNAL RANKING
CITATIONS
BEST BEST
WORST WORST
0,5 pti
1 punto 1 punto
0,8 punti 0,8 punti
0,5 pti
39. Ma come sono fatti i bersagli veri?
Ce lo dice l’ANVUR: infatti, la Tabella A1.1 ci
fornisce proprio le dimensioni degli anelli del
bersaglio per ciascuna area CUN
40. I veri “bersagli VQR” sono diversi da
quello teorico e cambiano da area ad area
41. Ti piace vincere facile?
40%
25%
14%
21%
22%
21%
13%
44% Ingegneria
Industriale e
dell’Informazione
Scienze
Mediche
42. Morale: Le forti variazioni
inter-area rendono i voti
incomparabili tra aree diverse
L’ANVUR lo sa e scrive che i voti in
aree diverse non sono comparabili ...
(peccato veniale)
... ma il problema è dentro le aree.
48. • Il GEV 02 ha ricalibrato
• Tutto bene, allora
• Non proprio, perché
1. Gli altri GEV non hanno ricalibrato
2. Ricalibrando, il GEV 02 ha
cambiato la proporzione di peer-
review (altra fonte di scalibrazione)
Tutto è bene quel che finisce bene?
49. I bersagli dei SSD sono scalibrati?
Altra evidenza dal GEV 09
50. Nell’area 09 ci sono due misure “esterne”
alla VQR: Top 1% e 5% secondo Web of Science
I bersagli dei SSD sono scalibrati?
Altra evidenza dal GEV 09
51. % ECCELLENTI VQR
%ECCELLENTIWoS(Top5%) Area 09: confronto Web of Science vs VQR
La misura
esterna Top 5%
WoS non è
troppo coerente
con la %
Eccellenti della
VQR ...
53. Morale della favola
• Le bibliometrie dei SSD sono scalibrate
(confessione del GEV 02)
• L’area 09 mostra che la scalibrazione è tale da
rendere inaffidabili i risultati (SSD “eccellenti”
per VQR non lo sono per Web of Science)
FATAL ERROR?
55. La versione ufficiale
“una più che adeguata concordanza
tra valutazione peer e biblio”
Stesse identiche parole in tutti i
rapporti di area 01-09
56. VOTOMEDIOVQR
% PEER REVIEW
il voto medio
VQR di ogni SSD
è ben predicibile
dalla % di
prodotti valutati
mediante peer-
review (!)
SSD: Voto medio VQR vs % peer review
58. Morale della favola
• Valutazione bibliometrica e peer-review
concordano poco
• SSD eccellenti secondo ANVUR non sono
quelli eccellenti secondo Web of Science, ma
quelli che hanno una bassa % di peer-review
FATAL ERROR?
59. «Il caso non ha dunque nulla a che fare con
i risultati della Vqr»
S. Benedetto e R. Torrini
http://www.lavoce.info/una-valutazione-molto-chiara/
60. «La VQR in realtà ha come compito primario
quello di creare conoscenza per il policy maker,
per gli organi di governo delle Strutture, per i
giovani che vogliono intraprendere gli studi
universitari …»
S. Fantoni, “Una radiografia del sistema universitario”, in: I voti all’università,
supplemento del Corriere della Sera, Luglio 2013, pag. 12
61. Area 9: Ingegneria Industriale e dell’informazione
Area 8b: Architettura
“Intraprendere gli studi”:
Messina meglio di Milano Politecnico?
62. Gli errori architetturali della VQR
• La confusione tra progettisti dei criteri e
valutatori
• La confusione tra eccellenza scientifica e
competenza nel gestire e condurre processi
divalutazione
• La mancanza di tempo e trasparenza nella
definizione dei criteri bibliometrici
64. Problemi della VQR
• Non c’è uniformità del metro di giudizio
bibliometrico tra le aree
• L’ANVUR (accreditamento dottorati) e CRUI (gruppo
di lavoro valutazione) hanno riconosciuto che il
metro di giudizio è disuniforme anche nelle le aree
• Il mix bibliometria/peer review introduce ulteriori
disuniformità
• Probabilmente le falle non sono sanabili.
Conseguenza: classifiche inaffidabili e distribuzione
FFO arbitraria
• Soluzione: usare la VQR il meno possibile
67. • Mediane intere e frazionarie dovrebbero alternarsi
in modo casuale. Perché la seconda colonna delle
mediane dei commissari per le aree 12, 13 e 8
(settori non bibliometrici) presenta solo valori
interi?
• Non è possibile il calcolo informatizzato della
seconda e terza mediana senza poter interrogare
in formato elettronico la lista delle riviste in fascia
A e quella delle “riviste scientifiche”, che però
sono stare pubblicate parecchi giorni dopo.
Domande medianiche
69. L’ANVUR acquisisce visibilità internazionale:
“crazy lists that ignored many journals in favour of provincial
newspapers, religious circulars and yachting magazines”
71. “Oggetto di sarcasmo è in particolare la Rivista di
suinicultura ... il cui titolo ha colpito la fantasia
dei critici. ... Del resto, Il Caffè [1764-1766]
dovrebbe forse essere escluso dal novero delle
riviste che hanno fatto la cultura italiana perché
ha un nome che lascia piuttosto pensare alla
cucina?”
(Ribolzi e Castagnaro)
76. 1. Data "No amount of fancy statistical footwork
will overcome basic inadequacies in either the
appropriateness or the integrity of the data
collected."
Golden-Spiegelhalter: a three-part framework
for performance assessment 1/3
77. Dovrebbe valere il principio di non cancellazione:
"nessuno può migliorare la propria valutazione
cancellando dei titoli dal proprio curriculum”
Paradosso:
•Ricercatore 1 e Ricercatore 2 hanno la stessa età
•Pubblicano in coppia 20 articoli negli anni 2001-2010
•Il Ricercatore 1 è coautore in un articolo (che ha zero
citazioni) pubblicato nel 1995 a cui aveva contribuito
mentre era laureando maggiore età accademica
(secondo ANVUR) il suo h-index per anno è inferiore
•Al Ricercatore 1 converrebbe “cancellare” il paper del
1995
Appropriateness/integrity: esempio #1
81. ESEMPIO: A CAUSA DEI BEN NOTI RITARDI DI
REGISTRAZIONE NEI DATABASE BIBLIOMETRICI,
NEL 2010 LA NATIONAL SCIENCE FOUNDATION
RITENEVA INAFFIDABILI I DATI DEL 2008 E 2009
.... RITARDI
82. I dati bibliometrici degli ultimi
1-2 anni non sono assestati.
Non usare a scopo scientifico!
Con il “contemporary h-index” le citazioni
(non assestate) di un articolo pubblicato
nel 2012 sono pesate quattro volte di più di
quelle (assestate) di un articolo del 2008
la normalizzazione dell’indice
h verrà effettuata utilizzando
il contemporary h-index
BIBLIOMETRY
83. I contenziosi saranno inevitabili:
nel 2011 ANVUR scriveva ...
2.4 Ricorso in appello avverso la pubblicazione
dei dati ANVUR Sembra opportuno inserire un
sistema, molto snello, di possibilità di ricorso
contro la pubblicazione delle mediane da parte
di soggetti esclusi. Occorre definire il modello e
il soggetto. Preferibile un modello del tipo
ricorso gerarchico, verso l’ANVUR, che dovrà
nominare una commissione indipendente.
84. 2. Statistical Analysis and Presentation “We
shall pay particular attention to the
specification of an appropriate statistical
model, the crucial importance of uncertainty
in the presentation of all results ...."
Golden-Spiegelhalter: a three-part framework
for performance assessment 2/3
85. 2. Statistical Model: esempio
La multimodalità
L’identificazione dei casi nei quali il calcolo della mediana e la sua utilizzazione si
effettuano all’interno del SSD avviene sulla base del seguente algoritmo, descritto per
un singolo settore concorsuale e nel caso dei professori ordinari ma valido per tutti:
a) si calcola la mediana del settore concorsuale;
b) si calcola la mediana per tutti i SSD appartenenti al settore concorsuale che
abbiano al loro interno almeno 30 professori ordinari;
c) se il SSD ha una mediana superiore o uguale a quella del settore concorsuale si
applica ai professori ordinari che vi afferiscono la mediana del settore
concorsuale;
d) se il SSD ha una mediana inferiore a quella del settore concorsuale si calcola il
numero dei professori ordinari del SSD il cui indicatore supera la mediana del settore
concorsuale. Se il numero è superiore al 25% dei professori ordinari del SSD si procede
come in c). Se il numero è inferiore al 25% per il SSD e per tutti i docenti che vi
afferiscono si utilizza la mediana del SSD.
ANVUR, Delibera n. 50 del 21/06/2012
86. SSD aSSD g SSD b
MEDIANA aMEDIANA bMEDIANA g
MEDIANA
SETTORE
CONCORSUALE
nb = 28
na = 100
ng = 72
nTOT = na + nb + ng
= 100 + 28 + 72 = 200
SETTORE CONCORSUALE COMPOSTO DA 3 SSD
INDICATORE
BIBLIOMETRICO
87. SSD aSSD g SSD b
MEDIANA aMEDIANA bMEDIANA g
MEDIANA
SETTORE
CONCORSUALE
nb = 28
na = 100
ng = 72
nTOT = na + nb + ng
= 100 + 28 + 72 = 200
SOLUZIONE NATURALE
INDICATORE
BIBLIOMETRICO
COMMISSARI
50%: SSD a
14%: SSD b
36%: SSD g
88. INDICATORE
BIBLIOMETRICO
SSD aSSD g SSD b
MEDIANA aMEDIANA bMEDIANA g
MEDIANA
SETTORE
CONCORSUALE
nb = 28
na = 100
ng = 72
nTOT = na + nb + ng
= 100 + 28 + 72 = 200
SOLUZIONE ANVUR #1 COMMISSARI
74%: SSD a
0%: SSD b
26%: SSD g
89. SSD aSSD g SSD b
MEDIANA aMEDIANA bMEDIANA g
MEDIANA
SETTORE
CONCORSUALE
nb = 28
na = 100
ng = 72
nTOT = na + nb + ng
= 100 + 28 + 72 = 200
SOLUZIONE ANVUR #2 (SE DEROGA PER SSD b)
INDICATORE
BIBLIOMETRICO
COMMISSARI
67%: SSD a
9%: SSD b
24%: SSD g
90. SSD aSSD g SSD b
MEDIANA aMEDIANA bMEDIANA g
MEDIANA
SETTORE
CONCORSUALE
nb = 28
na = 100
ng = 72
nTOT = na + nb + ng
= 100 + 28 + 72 = 200
SOLUZIONE ANVUR #2 (SE DEROGA PER SSD b)
INDICATORE
BIBLIOMETRICO
COMMISSARI
67%: SSD a
9%: SSD b
24%: SSD g
IL SETTORE ALFA È
IL PIÙ ADATTO ALLA
SOPRAVVIVENZA
93. “facciamo mobbing ... tagliamoli fuori
dalle commissioni ... e facciamone
degli zombies”
G. Federico, Membro Gruppo di Lavoro ANVUR
(nomina: 3 luglio 2012)
94. Art. 2 gli studiosi collaboratori esterni [...] fanno sì che le
relazioni con i colleghi siano ispirate a principi di leale
collaborazione, evitando atti e comportamenti
caratterizzati da animosità e conflittualità. [...]
Consapevoli della natura pubblica delle funzioni svolte, si
comportano in modo tale da promuovere la reputazione
dell’Agenzia e la fiducia nel suo operato.
95. 3. Interpretation and Impact ”... analysts should
also be aware of the potential effect of the
results in terms of future behavioural changes
by institutions and individuals seeking to
improve their subsequent 'ranking'."
Golden-Spiegelhalter: a three-part framework
for performance assessment 3/3
96. 3. Interpretation and impact: incentivazione di
comportamenti opportunistici
• moltiplicare articoli brevi su riviste minori
• seguire le mode per massimizzare le citazioni
• scambio di citazioni tra “amici”
• authorships fittizie
La mediana consente ad una popolazione sottoposta a
valutazione di modificare il metro di giudizio:
gli ultimi due comportamenti favoriscono scuole/gruppi
di ricerca numerosi pericolo dipulizia etnica”
98. ASN (1/3)
• Accettare gli standard internazionali: no uso
automatico della bibliometria individuale
• Informed peer-review dei candidati: i dati
bibliometrici sono indizi da esaminare, interpretare e
pesare
• Abolire il “valore legale” dell’età accademica
• Assunzione di responsabilità: non c’è formula che ci
salverà
• Ruolo della trasparenza: critiche pubbliche alle
commissioni, dibattito. Occorre tempo per maturare
99. ASN (2/3)
• Eventuali soglie devono essere accertabili con
sicurezza e autocertificabili (no citazioni)
• No soglie dinamiche per non innescare
comportamenti opportunistici
• Soglie: tagliare la coda bassa (produzione
insufficiente per accedere al ruolo). Affidarle
al CUN (organo rappresentativo istituzionale)
• Commissioni: stesse soglie dei candidati.
Sorteggio+elezione?
100. ASN (3/3)
• Rinnovo annuale delle commissioni.
• Numero massimo di candidati per
commissione. Se necessario, nominare più
commissioni.
• Possibilità di ripresentarsi anche in anni
consecutivi (3 getttoni in 5 anni per es.)
• Importante: separare reclutamento da
progressione di carriera. Tagliare alla radice il
problema del candidato locale
101. “L’Anvur ha ucciso la valutazione.
Viva la valutazione!”
... l’Anvur ha ucciso la
valutazione con la sua
disattenzione dei limiti
della valutazione e del
contesto nel quale essa
andava ad inserirla.
Non sono stato
completo nel dir ciò.
Bisogna anche
aggiungere che l’Anvur
ha ucciso se stessa...S. Cassese – Primo Convegno ROARS
Roma, 15 novembre 2012
102. E l’ANVUR?
• Cosa ci vorrebbe?
• Meno “bava alla bocca” e maggiore competenza
tecnica ovvero ...
• ... i “guardiani del merito” dovrebbero vedere meno
B-movies di zombies e documentarsi meglio sulla
letteratura scientometrica e le esperienze
internazionali
• Se la situazione non fosse tragica, ci sarebbe da
ridere
• È ora che qualcuno (MIUR) dica “basta!” e si cominci
a lavorare con competenza