VQR e ASN: un Primo Bilancio e Prospettive Future

571 views

Published on

VQR e ASN: un Primo Bilancio e Prospettive Future.

Presentazione tenuta in data 29-1-2014 presso il Dipartimento di Chimica, Sapienza Università di Roma, nell'ambito del Convegno

VQR e ASN: un Primo Bilancio e Prospettive Future.

Incontro-dibattito organizzato dal Coordinamento Nazionale Ricercatori Universitari (CNRU) con Stefano Fantoni (Presidente ANVUR), Giuseppe De Nicolao (Redattore del sito web ROARS), Sergio Bendetto (Componente Consiglio Direttivo ANVUR), Marco Merafina (Coordinatore Nazionale CNRU), Giancarlo Ruocco (Prorettore alla Ricerca, Sapienza Università di Roma).

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
571
On SlideShare
0
From Embeds
0
Number of Embeds
19
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

VQR e ASN: un Primo Bilancio e Prospettive Future

  1. 1. VQR e ASN: un Primo Bilancio e Prospettive Future Giuseppe De Nicolao Dip. Ingegneria Industriale e dell’Informazione Università di Pavia
  2. 2. Capitoli 1. La VQR come non l’avete mai vista 2. VQR: la parete nord della valutazione 3. VQR: che fare? 4. ASN: più mediane per tutti 5. ASN: che fare?
  3. 3. 1. La VQR come non l’avete mai vista ING-INF/05!
  4. 4. SERGIO BENEDETTO (CONSIGLIO DIRETTIVO ANVUR) 4–02-2012 A cosa serve la valutazione?
  5. 5. Spesa per università (% PIL): l’Italia è 30° su 33 (fonte: OCSE 2013)
  6. 6. % della popolazione nella fascia 25-34 anni con titolo universitario: l’Italia è 34° su 36 (Italia: 21%, media OCSE: 39%)
  7. 7. % di studenti che intraprendono il dottorato di ricerca: l’Italia è 21° su 32 nazioni (fonte: OCSE 2013)
  8. 8. Risorse ING-INF/05!
  9. 9. SPESA IN RICERCA E SVILUPPO (% PIL) ITALIA
  10. 10. 0 0.1 0.2 0.3 0.4 0.5 0.6 2006 2007 2008 2009 2010 France Germany Italy Japan UK USA China SPESA R&D (COME % DEL PIL) NEL SETTORE DI IMPIEGO “ISTRUZIONE SUPERIORE” FONTE: OECD
  11. 11. COMPOSIZIONE N. RICERCATORI (PER MILLE UNITÀ FORZA LAVORO)
  12. 12. Risultati ING-INF/05!
  13. 13. 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000 1985 1990 1995 2000 2005 2010 Regno Unito Germania Giappone Francia Canada Italia Spagna Olanda Svizzera Svezia PUBBLICAZIONI (WoS)
  14. 14. 0 1000000 2000000 3000000 4000000 5000000 6000000 PUBBLICAZIONI 2004-2010: NUMERO DI CITAZIONI Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 4.1) (dati ISI Web of Knowledge, Thomson-Reuters) http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
  15. 15. PUBBLICAZIONI 2004-2010: CRESCITA MEDIA ANNUA (%) -1 0 1 2 3 4 5 6 7 8 Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 3.2) (dati ISI Web of Knowledge, Thomson-Reuters) http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf
  16. 16. Efficienza ING-INF/05!
  17. 17. Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 6.1) (dati ISI Web of Knowledge, Thomson-Reuters) http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf #papers/millionUSD(PPP)
  18. 18. Fonte: VQR 2004-2010 – Rapporto Finale ANVUR, Giugno 2013 (Tab. 5.3) (dati ISI Web of Knowledge, Thomson-Reuters) http://www.anvur.org/rapporto/files/VQR2004-2010_RapportoFinale_parteterza_ConfrontiInternazionali.pdf #cites/millionUSD(PPP)
  19. 19. Capitolo 2 La parete nord della valutazione
  20. 20. Vetta: valutazione nazionale della ricerca Vie classiche: peer review, statistiche bibliometriche Parete nord: valutazione bibliometrica dei singoli articoli Tre spedizioni: UK - RAE/REF Australia - ERA Italia - VQR
  21. 21. Report on the pilot exercise to develop bibliometric indicators for the REF Bibliometrics are not sufficiently robust at this stage to be used formulaically or to replace expert review in the REF http://www.hefce.ac.uk/pubs/year/2009/200939/ VQR: gli indicatori bibliometrici In particolare verranno considerati: • l’Impact Factor di Journal Citation Reports di Thomson Reuters (IF) della rivista nell’anno di pubblicazione; • il numero di citazioni ricevute dal prodotto fino al 31 dicembre 2011; http://www.anvur.org/sites/anvur-miur/files/gev_documenti/gev02_criteri_21_05.pdf bibliometry BIBLIOMETRY
  22. 22. Australia drops journal rankings “There is clear and consistent evidence that the rankings were being deployed inappropriately … in ways that could produce harmful outcomes” Minister K. Carr, May 2011 bibliometry BIBLIOMETRY
  23. 23. I “QVADRATI MAGICI” BIBLIOMETRICI
  24. 24. For the matrix entries labeled IR we rely on the informed peer review ANVUR proposal: Use bibliometry, # of citations (and informed peer review) 25 A B C D Citations A B C D A B C D A B C D Citations A B C D A B C D A A A? D D D A A A? D IR IR IR IRIR IRIR IR IR IR IR IR IRIR Bibliometry (IF,…) Bibliometry (IF,…) Recent articles Old articles
  25. 25. DEI FURBETTI DEL QUADRATINO
  26. 26. Tesi: nelle aree bibliometriche la VQR è inaffidabile perché basata su metriche disomogenee A. Le aree sono scalibrate (peccato veniale) B. Le bibliometrie degli SSD sono scalibrate (fatal error) C. Bibliometria e peer-review sono scalibrate (fatal error)
  27. 27. A. Le aree sono scalibrate ING-INF/05!
  28. 28. I due volti del quadrato magico del GEV09 BEST WORST Lo schema base ... ... ha due varianti ...
  29. 29. Quale bersaglio preferite? 0 punti 0 punti ING-INF/05 Resto del GEV 09 JOURNAL RANKINGJOURNAL RANKING CITATIONS BEST BEST WORST WORST 0,5 pti 1 punto 1 punto 0,8 punti 0,8 punti 0,5 pti
  30. 30. and the loser is ... ING-INF/05!
  31. 31. and the loser is ... ING-INF/05!
  32. 32. Per fortuna la scalibrazione tocca solo il GEV 09 ... o no? Per rispondere, andiamo a leggere l’Appendice A del Rapporto Finale VQR
  33. 33. Proviamo a visualizzare la Tabella A1.1 attraverso la metafora del tiro con l’arco
  34. 34. Le basi di tiro bibliometri
  35. 35. E = 1 B = 0,8 A = 0,5 L = 0 IL BERSAGLIO VQR: COLORI E PUNTEGGI
  36. 36. 20% 20% 10% 50%
  37. 37. Ma come sono fatti i bersagli veri? Ce lo dice l’ANVUR: infatti, la Tabella A1.1 ci fornisce proprio le dimensioni degli anelli del bersaglio per ciascuna area CUN
  38. 38. I veri “bersagli VQR” sono diversi da quello teorico e cambiano da area ad area
  39. 39. Ti piace vincere facile? 40% 25% 14% 21% 22% 21% 13% 44% Ingegneria Industriale e dell’Informazione Scienze Mediche
  40. 40. Morale: Le forti variazioni inter-area rendono i voti incomparabili tra aree diverse L’ANVUR lo sa e scrive che i voti in aree diverse non sono comparabili ... (peccato veniale) ... ma il problema è dentro le aree.
  41. 41. B. La bibliometria dei SSD è scalibrata
  42. 42. I bersagli dei SSD sono scalibrati? Sì, come confessa il GEV 09
  43. 43. I bersagli dei SSD sono scalibrati? Sì, come confessa il GEV 02
  44. 44. Area 02: lo schema base ....
  45. 45. .... e le ricalibrazioni
  46. 46. • Il GEV 02 ha ricalibrato • Tutto bene, allora • Non proprio, perché 1. Gli altri GEV non hanno ricalibrato 2. Ricalibrando, il GEV 02 ha cambiato la proporzione di peer- review (altra fonte di scalibrazione) Tutto è bene quel che finisce bene?
  47. 47. I bersagli dei SSD sono scalibrati? Altra evidenza dal GEV 09
  48. 48. Nell’area 09 ci sono due misure “esterne” alla VQR: Top 1% e 5% secondo Web of Science I bersagli dei SSD sono scalibrati? Altra evidenza dal GEV 09
  49. 49. % ECCELLENTI VQR %ECCELLENTIWoS(Top5%) Area 09: confronto Web of Science vs VQR La misura esterna Top 5% WoS non è troppo coerente con la % Eccellenti della VQR ...
  50. 50. VOTO MEDIO VQR %ECCELLENTIWoS(Top5%) ... e nemmeno con il voto medio VQR
  51. 51. Morale della favola • Le bibliometrie dei SSD sono scalibrate (confessione del GEV 02) • L’area 09 mostra che la scalibrazione è tale da rendere inaffidabili i risultati (SSD “eccellenti” per VQR non lo sono per Web of Science) FATAL ERROR?
  52. 52. C. Bibliometria e peer-review sono scalibrate
  53. 53. La versione ufficiale “una più che adeguata concordanza tra valutazione peer e biblio” Stesse identiche parole in tutti i rapporti di area 01-09
  54. 54. VOTOMEDIOVQR % PEER REVIEW il voto medio VQR di ogni SSD è ben predicibile dalla % di prodotti valutati mediante peer- review (!) SSD: Voto medio VQR vs % peer review
  55. 55. VOTOMEDIO In tutte le aree la valutazione peer è più severa di quella bibliometrica
  56. 56. Morale della favola • Valutazione bibliometrica e peer-review concordano poco • SSD eccellenti secondo ANVUR non sono quelli eccellenti secondo Web of Science, ma quelli che hanno una bassa % di peer-review FATAL ERROR?
  57. 57. «Il caso non ha dunque nulla a che fare con i risultati della Vqr» S. Benedetto e R. Torrini http://www.lavoce.info/una-valutazione-molto-chiara/
  58. 58. «La VQR in realtà ha come compito primario quello di creare conoscenza per il policy maker, per gli organi di governo delle Strutture, per i giovani che vogliono intraprendere gli studi universitari …» S. Fantoni, “Una radiografia del sistema universitario”, in: I voti all’università, supplemento del Corriere della Sera, Luglio 2013, pag. 12
  59. 59. Area 9: Ingegneria Industriale e dell’informazione Area 8b: Architettura “Intraprendere gli studi”: Messina meglio di Milano Politecnico?
  60. 60. Gli errori architetturali della VQR • La confusione tra progettisti dei criteri e valutatori • La confusione tra eccellenza scientifica e competenza nel gestire e condurre processi divalutazione • La mancanza di tempo e trasparenza nella definizione dei criteri bibliometrici
  61. 61. 4. VQR: che fare? ING-INF/05!
  62. 62. Problemi della VQR • Non c’è uniformità del metro di giudizio bibliometrico tra le aree • L’ANVUR (accreditamento dottorati) e CRUI (gruppo di lavoro valutazione) hanno riconosciuto che il metro di giudizio è disuniforme anche nelle le aree • Il mix bibliometria/peer review introduce ulteriori disuniformità • Probabilmente le falle non sono sanabili. Conseguenza: classifiche inaffidabili e distribuzione FFO arbitraria • Soluzione: usare la VQR il meno possibile
  63. 63. 5. ASN: più mediane per tutti ING-INF/05!
  64. 64. La mediana è mobile qual piuma al vento
  65. 65. • Mediane intere e frazionarie dovrebbero alternarsi in modo casuale. Perché la seconda colonna delle mediane dei commissari per le aree 12, 13 e 8 (settori non bibliometrici) presenta solo valori interi? • Non è possibile il calcolo informatizzato della seconda e terza mediana senza poter interrogare in formato elettronico la lista delle riviste in fascia A e quella delle “riviste scientifiche”, che però sono stare pubblicate parecchi giorni dopo. Domande medianiche
  66. 66. La gaia scienza ... delle riviste pazze
  67. 67. L’ANVUR acquisisce visibilità internazionale: “crazy lists that ignored many journals in favour of provincial newspapers, religious circulars and yachting magazines”
  68. 68. La prevalenza del suino
  69. 69. “Oggetto di sarcasmo è in particolare la Rivista di suinicultura ... il cui titolo ha colpito la fantasia dei critici. ... Del resto, Il Caffè [1764-1766] dovrebbe forse essere escluso dal novero delle riviste che hanno fatto la cultura italiana perché ha un nome che lascia piuttosto pensare alla cucina?” (Ribolzi e Castagnaro)
  70. 70. Illuminismo lombardo (1764)
  71. 71. Illuminismo lombardo (1764) Scientificità ANVUR (2012)
  72. 72. Cosa dicono gli esperti di statistica?
  73. 73. Golden-Spiegelhalter: a three-part framework for performance assessment
  74. 74. 1. Data "No amount of fancy statistical footwork will overcome basic inadequacies in either the appropriateness or the integrity of the data collected." Golden-Spiegelhalter: a three-part framework for performance assessment 1/3
  75. 75. Dovrebbe valere il principio di non cancellazione: "nessuno può migliorare la propria valutazione cancellando dei titoli dal proprio curriculum” Paradosso: •Ricercatore 1 e Ricercatore 2 hanno la stessa età •Pubblicano in coppia 20 articoli negli anni 2001-2010 •Il Ricercatore 1 è coautore in un articolo (che ha zero citazioni) pubblicato nel 1995 a cui aveva contribuito mentre era laureando maggiore età accademica (secondo ANVUR) il suo h-index per anno è inferiore •Al Ricercatore 1 converrebbe “cancellare” il paper del 1995 Appropriateness/integrity: esempio #1
  76. 76. 22 Agosto 2011 Bufala! Appropriateness/integrity: esempio #2
  77. 77. ma qui crollano anche tutte le altre nazioni!
  78. 78. L’ARMAGEDDON DELLA RICERCA EUROPEA? NO! È SOLO UN PROBLEMA DI ....
  79. 79. ESEMPIO: A CAUSA DEI BEN NOTI RITARDI DI REGISTRAZIONE NEI DATABASE BIBLIOMETRICI, NEL 2010 LA NATIONAL SCIENCE FOUNDATION RITENEVA INAFFIDABILI I DATI DEL 2008 E 2009 .... RITARDI
  80. 80. I dati bibliometrici degli ultimi 1-2 anni non sono assestati. Non usare a scopo scientifico! Con il “contemporary h-index” le citazioni (non assestate) di un articolo pubblicato nel 2012 sono pesate quattro volte di più di quelle (assestate) di un articolo del 2008 la normalizzazione dell’indice h verrà effettuata utilizzando il contemporary h-index BIBLIOMETRY
  81. 81. I contenziosi saranno inevitabili: nel 2011 ANVUR scriveva ... 2.4 Ricorso in appello avverso la pubblicazione dei dati ANVUR Sembra opportuno inserire un sistema, molto snello, di possibilità di ricorso contro la pubblicazione delle mediane da parte di soggetti esclusi. Occorre definire il modello e il soggetto. Preferibile un modello del tipo ricorso gerarchico, verso l’ANVUR, che dovrà nominare una commissione indipendente.
  82. 82. 2. Statistical Analysis and Presentation “We shall pay particular attention to the specification of an appropriate statistical model, the crucial importance of uncertainty in the presentation of all results ...." Golden-Spiegelhalter: a three-part framework for performance assessment 2/3
  83. 83. 2. Statistical Model: esempio La multimodalità L’identificazione dei casi nei quali il calcolo della mediana e la sua utilizzazione si effettuano all’interno del SSD avviene sulla base del seguente algoritmo, descritto per un singolo settore concorsuale e nel caso dei professori ordinari ma valido per tutti: a) si calcola la mediana del settore concorsuale; b) si calcola la mediana per tutti i SSD appartenenti al settore concorsuale che abbiano al loro interno almeno 30 professori ordinari; c) se il SSD ha una mediana superiore o uguale a quella del settore concorsuale si applica ai professori ordinari che vi afferiscono la mediana del settore concorsuale; d) se il SSD ha una mediana inferiore a quella del settore concorsuale si calcola il numero dei professori ordinari del SSD il cui indicatore supera la mediana del settore concorsuale. Se il numero è superiore al 25% dei professori ordinari del SSD si procede come in c). Se il numero è inferiore al 25% per il SSD e per tutti i docenti che vi afferiscono si utilizza la mediana del SSD. ANVUR, Delibera n. 50 del 21/06/2012
  84. 84. SSD aSSD g SSD b MEDIANA aMEDIANA bMEDIANA g MEDIANA SETTORE CONCORSUALE nb = 28 na = 100 ng = 72 nTOT = na + nb + ng = 100 + 28 + 72 = 200 SETTORE CONCORSUALE COMPOSTO DA 3 SSD INDICATORE BIBLIOMETRICO
  85. 85. SSD aSSD g SSD b MEDIANA aMEDIANA bMEDIANA g MEDIANA SETTORE CONCORSUALE nb = 28 na = 100 ng = 72 nTOT = na + nb + ng = 100 + 28 + 72 = 200 SOLUZIONE NATURALE INDICATORE BIBLIOMETRICO COMMISSARI 50%: SSD a 14%: SSD b 36%: SSD g
  86. 86. INDICATORE BIBLIOMETRICO SSD aSSD g SSD b MEDIANA aMEDIANA bMEDIANA g MEDIANA SETTORE CONCORSUALE nb = 28 na = 100 ng = 72 nTOT = na + nb + ng = 100 + 28 + 72 = 200 SOLUZIONE ANVUR #1 COMMISSARI 74%: SSD a 0%: SSD b 26%: SSD g
  87. 87. SSD aSSD g SSD b MEDIANA aMEDIANA bMEDIANA g MEDIANA SETTORE CONCORSUALE nb = 28 na = 100 ng = 72 nTOT = na + nb + ng = 100 + 28 + 72 = 200 SOLUZIONE ANVUR #2 (SE DEROGA PER SSD b) INDICATORE BIBLIOMETRICO COMMISSARI 67%: SSD a 9%: SSD b 24%: SSD g
  88. 88. SSD aSSD g SSD b MEDIANA aMEDIANA bMEDIANA g MEDIANA SETTORE CONCORSUALE nb = 28 na = 100 ng = 72 nTOT = na + nb + ng = 100 + 28 + 72 = 200 SOLUZIONE ANVUR #2 (SE DEROGA PER SSD b) INDICATORE BIBLIOMETRICO COMMISSARI 67%: SSD a 9%: SSD b 24%: SSD g IL SETTORE ALFA È IL PIÙ ADATTO ALLA SOPRAVVIVENZA
  89. 89. LA SELEZIONE “NATURALE” DEGLI SSD, OVVERO LE MEDIANE COME STRUMENTO DI DARWINISMO ACCADEMICO?
  90. 90. Zombie attack!
  91. 91. “facciamo mobbing ... tagliamoli fuori dalle commissioni ... e facciamone degli zombies” G. Federico, Membro Gruppo di Lavoro ANVUR (nomina: 3 luglio 2012)
  92. 92. Art. 2 gli studiosi collaboratori esterni [...] fanno sì che le relazioni con i colleghi siano ispirate a principi di leale collaborazione, evitando atti e comportamenti caratterizzati da animosità e conflittualità. [...] Consapevoli della natura pubblica delle funzioni svolte, si comportano in modo tale da promuovere la reputazione dell’Agenzia e la fiducia nel suo operato.
  93. 93. 3. Interpretation and Impact ”... analysts should also be aware of the potential effect of the results in terms of future behavioural changes by institutions and individuals seeking to improve their subsequent 'ranking'." Golden-Spiegelhalter: a three-part framework for performance assessment 3/3
  94. 94. 3. Interpretation and impact: incentivazione di comportamenti opportunistici • moltiplicare articoli brevi su riviste minori • seguire le mode per massimizzare le citazioni • scambio di citazioni tra “amici” • authorships fittizie La mediana consente ad una popolazione sottoposta a valutazione di modificare il metro di giudizio: gli ultimi due comportamenti favoriscono scuole/gruppi di ricerca numerosi pericolo dipulizia etnica”
  95. 95. 5. ASN: che fare? ING-INF/05!
  96. 96. ASN (1/3) • Accettare gli standard internazionali: no uso automatico della bibliometria individuale • Informed peer-review dei candidati: i dati bibliometrici sono indizi da esaminare, interpretare e pesare • Abolire il “valore legale” dell’età accademica • Assunzione di responsabilità: non c’è formula che ci salverà • Ruolo della trasparenza: critiche pubbliche alle commissioni, dibattito. Occorre tempo per maturare
  97. 97. ASN (2/3) • Eventuali soglie devono essere accertabili con sicurezza e autocertificabili (no citazioni) • No soglie dinamiche per non innescare comportamenti opportunistici • Soglie: tagliare la coda bassa (produzione insufficiente per accedere al ruolo). Affidarle al CUN (organo rappresentativo istituzionale) • Commissioni: stesse soglie dei candidati. Sorteggio+elezione?
  98. 98. ASN (3/3) • Rinnovo annuale delle commissioni. • Numero massimo di candidati per commissione. Se necessario, nominare più commissioni. • Possibilità di ripresentarsi anche in anni consecutivi (3 getttoni in 5 anni per es.) • Importante: separare reclutamento da progressione di carriera. Tagliare alla radice il problema del candidato locale
  99. 99. “L’Anvur ha ucciso la valutazione. Viva la valutazione!” ... l’Anvur ha ucciso la valutazione con la sua disattenzione dei limiti della valutazione e del contesto nel quale essa andava ad inserirla. Non sono stato completo nel dir ciò. Bisogna anche aggiungere che l’Anvur ha ucciso se stessa...S. Cassese – Primo Convegno ROARS Roma, 15 novembre 2012
  100. 100. E l’ANVUR? • Cosa ci vorrebbe? • Meno “bava alla bocca” e maggiore competenza tecnica ovvero ... • ... i “guardiani del merito” dovrebbero vedere meno B-movies di zombies e documentarsi meglio sulla letteratura scientometrica e le esperienze internazionali • Se la situazione non fosse tragica, ci sarebbe da ridere • È ora che qualcuno (MIUR) dica “basta!” e si cominci a lavorare con competenza
  101. 101. Grazie per l’attenzione!

×