Dai sistemi di valutazione agli effetti sull'etica dei comportamenti

Dai sistemi di valutazione agli
effetti sull’etica dei comportamenti
Giuseppe De Nicolao
Università di Pavia

Sommario
1. La valutazione induce comportamenti opportunistici
2. Lancet? Non scientifica. Predatory Journal? In classe A
3. “Noi siamo stati più trasparenti di tutto ciò che è
avvenuto prima di noi nel sistema universitario”
4. I dati chiusi della bibliometria di stato
5. Conclusioni

1. La valutazione induce
comportamentiopportunistici?

lasciamo rispondere al nostro
“esperto misterioso”

La valutazione induce
comportamentiopportunistici?
“... certamente sì. [...] Questo è un tema
ampiamente riconosciuto nella letteratura sulla
valutazione (Pawson, Tilley, 1997: Weiss, 1998;
Stufflebeam,2001; Stufslebeam, Shinkfield,
2007; Pawson,2013). I soggetti valutati
ingaggiano un vero e proprio strategic game
con l’istituzione che valuta, cercando di volgere
a proprio vantaggio le regole (Strathern, 2000;
Dahler-Larson, 2012; Alkin, 2013)”

Valutazione a punti? Abbassa la qualità
“La soluzione adottata in paesi come Polonia e Repubblica Ceca
si è basata su una quantificazione spinta dei prodotti della
ricerça, ciascuno dei quali è stato tradotto in veri e propri punti,
la somma dei quali costituisce la base di ripartizione delle
risorse. [...] Purtroppo, come era prevedibile, questo sistema ha
generato un vero e proprio mercato dei punti, favorendo la
proliferazione di prodotti scientifici di scarso valore ma alto
punteggio. Questo fenomeno era peraltro già stato identificato
da Diana Hicks in Australia: dopo l'introduzionedi un sistema di
incentivi basato sul numero di pubblicazioni indicizzate,il sistema
aveva reagito aumentandoil numero ma abbassando
drasticamente la qualità.”

GIFT AUTHORSHIP NELLA
VQR E NELL’ASN

• Su questi aspetti l’esperienza personale degli ultimi anni è
straordinaria.
• All'indomani della VQR nel mio ateneo un direttore di
dipartimento, il cui posizionamento nel settore scientifico era
molto debole, ha scritto ai colleghi diprovvedere, in vistadella
successiva valutazione, a inserire come co-autori coloro che
risultavano inattivi, cioè con un numero di pubblicazioni
inferiore al richiesto.
• Per fare un altro esempio, all'indomani della uscita dei critēri
per l’Abilitazione scientifica ho visto con i miei occhi la
tabellina di un settore concorsuale nella quale veniva fatta la
lista dei lavori sottomessi a rivista o già accettati, con una
ripartizione scientifica dei casi nei quali agli autori (tutti
giovani) sarebbe stato chiesto di aggiungere il nome di un
altro prima della pubblicazione finale, il tutto controllato da
un ben organizzato gruppo di professori ordinari.

Il miracolo della moltiplicazione:
multiple authorship

Funziona meravigliosamente ...
“se A e B prima scrivevano quattro lavori l’anno a firma singola,
se si accordano nel diventare coautori la loro produzione
raddoppia magicamente a otto per anno. Anche qui l’esperienza
diretta degli ultimi anni è interessante: ho visto cv nei quali il
numero di articoli per anno triplica da prima a dopo
l'Abilitazione scientifica nazionale. Nel mio settore nel quale il
numero medio di autori era tradizionalmente intorno a due, ho
visto recentemente articoli con sei e sette firme, di cui quattro di
professori associati (che nella vita si occupanodi cose
completamente diverse) e due o tre di studenti di dottorato (tra
poco riapre la Abilitazione, meglio essere pronti).”

Coercive citation pianificata per la
promozione in serie A
“Nell’area di economia, come si ricorderà, nella classificazione
delle riviste scientifiche non comparivano riviste italiane nella
fascia A, ai fini dell’Abilitazione scientifica nazionale. [...]
L’ANVUR ha poi aperto una procedura, svoltasi per due volte,
finalizzata alla revisione periodica del giudizio sulle riviste. [...] Si
è poi venuti a sapere che una rivista di area aziendale aveva
organizzato la richiesta di revisione con ampio anticipo,
circolando agli autori articolate istruzioni su come citare gli
articoli della rivista stessa. Organizzando cioè una forma di
coercive citation pianificata, con tanto di periodico
monitoraggio deirisultati su Google Scholar.”

Un livello di complessità ulteriore:
il gioco delle cricche
“Ad un livello di complessità ulteriore si colloca il gioco delle
clique: A, B e C si accordano in modo che A citi i lavori di B, B
quelli di C e C quelli di A, “regalando” reciprocamente citazioni
non necessarie dal punto di vista scientifico. Se i protagonisti
fossero solo A e B, il gioco verrebbe facilmente scoperto. Da tre
in su,identificare una clique è una faccenda più complicata. Così
può capitare di vedere articoli che si occupano di logistica che
citano articoli di management sanitario, i quali citano articoli di
di Customer Relationship Management che alla fine
misteriosamente ritengono fondamentale citare articoli di
logistica.”

Infine il classico salami slicing
invece di scrivere un solo articolo
complesso, si scrivono numerosi articoletti
più corti, corrispondenti alla c.d. unità
minima pubblicabile, al solo scopo di
moltiplicare il conteggio.

ma chi è il nostro
“esperto misterioso”?

Andrea Bonaccorsi:
Componente del
Direttivo ANVUR
(2011-2015)

e cosa conclude?
“L'etica accademica di un tempo
avrebbe censurato in modo irreversibile
questi comportamenti”
ma oggi
“Credo che l’approccio
da adottare sia diverso”

e cosa conclude?
“L'etica accademica di un tempo
avrebbe censurato in modo irreversibile
questi comportamenti”
ma oggi
“questo non dovrebbe in alcun modo stupire
o indignare gli scienziati sociali”

Questi fenomeni suscitano la
giusta indignazione dei
professori più anziani, che
hanno costruito la loro
carriera prima della
valutazione e prima
dell’Università di massa.
L'etica accademica di un
tempo avrebbe censurato in
modo irreversibile questi
comportamenti, che invece
sembrerebbero oggi essere
accettati proprio a causa della
valutazione. Credo che
l’approccio da adottare sia
diverso.

Primo, la valutazione genera
sempre comportamenti
strategici e genera sovente
comportamenti
opportunistici, ma questo
non dovrebbe in alcun modo
stupire o indignare gli
scienziati sociali. Gli esseri
umani sono dotati di
riflessività e adattamento. In
contesti nei quali sono indotti
a competere per delle risorse,
cercheranno di piegare a
proprio vantaggio le regole
esistenti. Questo effetto si
manifesta in tutti i sistemi
sociali.

La chiave non è quindi
abbandonare sistemi di
governo della complessità,
ma assumere il punto di
vista dello scienziato
sociale che cerca di
anticipare non solo le
conseguenzedirette della
propria azione, ma anche le
conseguenze dirette e
indirette dell’adattamento
dei soggetti sociali alla
propria azione, e della loro
interazione successiva.

Prevenire i comportamenti opportunistici?
C'est très facile!
• fractional counting al posto del full counting (il peso di una pubblicazione
viene frazionato in funzione del numero di coautori),
• analisi di discontinuità (se il numero medio di coautori aumenta
improvvisamente si può chiedere dettagliatamente conto dei contributi
individuali).
• codici etici e campagne di opinione che scoraggiano comportamenti
opportunistici.
• manuali sui metodi di valutazione che aumentino il grado di consapevolezza
delle possibili manipolazioni.
• se in sede di ASN si giungesse a sanzionare comportamenti opportunistici
come quelli denunciati sopra, si otterrebbe un forte effetto, simbolico e
pratico, di dissuasione.

Ammettiamo di riuscire a sanzionare gli opportunisti.
Ma non corriamo il rischio di discriminare
un novello Galileo o Newton?
A. Graziosi (Presidente ANVUR): «quello lì avrà il
suo premio quando diventerà lo scienziato più
famoso del mondo tra vent’anni. Dovrà ringraziare
che nel frattempo è rimasto ricercatore e non
l’hanno bruciato vivo. Cioè, francamente, non è che
siamo tutti Galileo e Newton.»

Se io faccio fisica e studio le
particelle, il mio studio sulle
particelle sia valutato dalla comunità
scientifica che studia le particelle [...]
Se poi c’è la persona straordinaria
che ha capito le particelle sono tutte
fesserie e che bisogna studiare i
particelloni, quello lì avrà il suo
premio quando diventerà lo
scienziato più famoso del mondo tra
vent’anni. Dovrà ringraziare che nel
frattempo è rimasto ricercatore e
non l’hanno bruciato vivo. Cioè,
francamente, non è che siamo tutti
Galileo e Newton.
A. Graziosi
Intervista a Report

Ritrattazioni in aumento: chi
mi dice che dipenda dal
publish or perish?
«Il solo fatto, per fare un
esempio, che siano in
aumento i casi di ritrattazione
scientifica (ovvero il fatto che
gli autori, a fronte di critiche
circostanziate, ritirino i propri
risultati o ammettano errori),
non significa che il fenomeno
sia dovuto principalmente
alla valutazione o al publish
or perish: potrebbe
svilupparsi anche
autonomamente, per altre
ragioni.»

Nessuna evidenza che i
fenomeni di distorsione
stiano corrompendo l’ethos
«Serve quindi un lavoro
empirico che ricerchi dei nessi
causali [...] le evidenze finora
disponibili non confortano la
visione pessimista [...]
I fenomeni di distorsione
restano ampiamente
minoritari, possono essere
identificati e sanzionati, e non
vi è nessuna evidenza che
stiano corrompendo l’ethos
delle comunità scientifiche.»

La sifilide? Per Pangloss è un ingrediente
necessario nel migliore dei mondi possibili
Pangloss reiterates "all is for the best" (Fr. "Tout est
pour le mieux") [...] A characteristic example of such
theodicy is found in Pangloss's explanation of why it is
good that syphilis exists:
“it was a thing unavoidable, a necessary ingredient in
the best of worlds; for if Columbus had not caught in
an island in America this disease [...] we should have
had neither chocolate nor cochineal”

2. Lancet? Non scientifica.
Predatory Journal? In classe A

Ma Anvur è capace di
correggersi ... il 21 luglio
pubblica una lista di riviste a cui
togliere la patente di
scientificità

Il 31 ottobre escono le nuove liste
In area 11 la rivista predatoria Journal of Sports
Science:
• perde la classe A
• ma rimane scientifica

Il 31 ottobre escono le nuove liste
In area 13 The Lancet:
• perde la classe A
• ma rimane scientifica

3. “Noi siamo stati più
trasparenti di tutto ciò che è
avvenuto prima di noi nel
sistema universitario”

Stefano Fantoni
(Presidente ANVUR):
«Noi siamo stati più
trasparenti di tutto ciò che
è avvenuto prima di noi nel
sistema universitario)»
12/6/2014, Audizione alla Commissione cultura
della Camera dei deputati

Riviste di classe A di Diritto
Tributario: ce ne sono 4 e nei
direttivi di tutte e 4 sono presenti
docenti arrestati o interdetti

Comitato di direzione
Fabrizio Amatucci
Massimo Basilavecchia
Roberto Cordeiro Guerra
Lorenzo del Federico
Valerio Ficari
Maria Cecilia Fregni
Alessandro Giovannini
Maurizio Logozzo
Giuseppe Marini
Salvatore Muleo
Franco Paparella
Livia Salvini
Loris Tosi
Direttore responsabile
Eugenio Della Valle

Comitato direttivo
Massimo Basilavecchia
Michele Cantillo
Eugenio della Valle
Adriano Di Pietro
Franco Fichera
Giovanni Flora
Guglielmo Fransoni
Franco Gallo
Oliviero Mazza
Leonardo Perrone
Claudio Sacchetto
Livia Salvini
Salvatore Sammartino
Giuliano Tabet
Francesco Tesauro
Antonio Uricchio
Giuseppe Zizzo

VQR di Diritto Tributario: nel
Gruppo Esperti Valutazione delle
Scienze Giuridiche c’era Eugenio
della Valle (Sapienza), il cui
dipartimento si classifica al primo
posto della classifica di Diritto
Tributario (settore 12/D2)

4. I dati chiusi della
bibliometria di stato

Key points
8. Bibliometrics are not sufficiently
robust at this stage to be used
formulaically or to replace expert
review in the REF. However there is
considerable scope for citation
information to be used to inform
expert review.

Kim Carr: «There is clear and
consistent evidence that the
rankings were being deployed
inappropriately within some
quarters of the sector, in ways
that could produce harmful
outcomes [...]. [...] the removal
of the ranks and the provision of
the publication profile will
ensure they will be used
descriptively rather than
prescriptively.»
Kim Carr, the Australian
Minister for Innovation,
Industry, Science and
Research
30 maggio 2011

David Sweeney [Director
HEFCE]: «it is an underpinning
element in the exercise that
journal impact factors will not
be used. I think we were very
interested to see that in
Australia, where they conceived
an exercise that was heavily
dependent on journal rankings,
after carrying out the first
exercise, they decided that
alternative ways of assessing
quality»

VQR, la via italiana alla
valutazione della ricerca

• Inedito metodo bibliometrico:
Il “mix valutativo” della VQR 2004-2010
• Si usano insieme peer review e bibliometria

Ma è lecito mescolare peer review
e bibliometria?

Cronaca di un
esito annunciato

GEV01
GEV02
GEV03
GEV04
GEV05
GEV06
GEV07
GEV08
GEV09
GEV13
Conclusioni tutte uguali

Conclusioni tutte uguali
“Nel totale del campione dei prodotti del
GEV_X conferiti per la valutazione, si
riscontra una più che adeguata
concordanza tra valutazioni effettuate con
il metodo della revisione tra pari e con
quello bibliometrico.”

Conclusioni tutte uguali ... o quasi

Facciamo uno
zoom sul Rapporto
di Area 09

Rapporto
di Area 09
ma la concordanza è più che adeguata o moderata?

Facciamo uno
zoom sul Rapporto
di Area 09
Mancano degli spazi.
Non è che il rapporto dell’area 09 (quella con la concordanza peggiore),
ha subito una correzione “last minute” per uniformarlo agli altri rapporti,
con una sostituzione che richiedeva più caratteri?

Un rapporto, molti working papers e
anche un articolo scientifico

Bibliometrics vs peer review:
do they agree?

«The second row in Table 13 reports the “VQR
weighted” kappa. The resulting statistic is quite
similar to the linearly weighted kappa, indicating
fair to good agreement for the total sample
(0.54) and for Economics, Management and
Statistics, and poor agreement for History (0.29).»

Therefore:
‘‘the agencies that run these evaluations
could feel confident about using
bibliometric evaluations and interpret the
results as highly correlated with what they
would obtain if they performed informed
peer review’’ (Bertocchi et al. 2015)
Is this true?

moderate
moderate
unacceptable
unacceptable
fair to good
Concordanza: “fair to good”. Ma quanto “good”?

Cohen’s
kappa for
Economy and
Statistics:
a statistical
anomaly?

Baccini e De Nicolao:
Area 13, “a fatally flawed experiment”
• random sampling took into account authors’ requests to be evaluated by
peer review;
• the referees might have known that they were part of the experiment;
• the referees might have known the precise merit class in which each
article was classified by using bibliometrics;
• the synthesis of the two referee’s judgments was defined by a Consensus
Group composed by (at least) two panel members;
• the panel members forming the Consensus Groups knew that their final
judgment would be used for the experiment;
• at least 53 % of the IR evaluations was not expressed by referees, but
directly by the Area 13 panelists.
For these reasons, results reached for Area 13 have to be considered as fatally
flawed by virtue of the protocol modifications introduced by the area panel

Many of the points raised by Baccini and De Nicolao (henceforth BD)
were already addressed in the RP paper. Other points are either
incorrect or not supported by evidence.

Bertocchi et al.’s comment dismiss our explanation and suggest that the difference
was due to ‘‘differences in the evaluation processes between Area 13 and other
areas’’. In addition, they state that all our five claims about Area 13 experiment
protocol ‘‘are either incorrect or not based on any evidence’’. Based on textual
evidence drawn from ANVUR official reports, we show that: (1) none of the four
differences listed by Bertocchi et al. is peculiar of Area 13; (2) their five arguments
contesting our claims about the experiment protocol are all contradicted by official
records of the experiment itself.

Concordanza
o fallacia statistica?

«K is always statistically different from zero, showing that there is a
fundamental agreement among the two distributions which may not be
attributed to mere chance, regardless of the weight used to calculate the
differences among the two distributions. The value of K ranges from 0.16
to 0.61 depending on the area and weights, being on average equal to
0.32, a value that is usually considered as ‘poor to fair’ in the literature
(Landis and Koch 1977).»

Therefore:
“results of the analysis relative to the degree
of concordance and systematic difference
may be considered to validate the general
approach of combining peer review and
bibliometric methods” (Ancaiani et al. 2015)
Is this true?

Una nozione insegnata in tutti i corsi di
statistica di base: la differenza tra
statistical e practical significance

the false belief
that [statistically]
significant results
are automatically
big and important
The significance fallacy

Statistical significance “is generally of little practical value,
since a relatively low value of kappa can yield a significant
result. In other words, a value such as k = 0.41 (in spite of
the fact that is statistically significant) may be deemed by a
researcher to be too low a level of reliability (i.e. degree of
agreement) to be utilized within a practical context” (Sheskin
2003).
“the results reported by Ancaiani et al. do not support a good
concordance between peer review and bibliometrics. [...]
On the basis of these data, the conclusion that it is possible to
use both technique as interchangeable in a research
assessment exercise appears to be unsound.” (Baccini and
De Nicolao 2017)
Una citazione riferita proprio alla kappa di Cohen

These results
highlight the
importance of the
statistical re-education
of researchers
Statistical re-education needed

Dati chiusi,
concordanza non replicabile

Dal 2014 abbiamo tentato di
replicare l’esperimento
• ANVUR non fornisce i dati necessari
(mail 10/2/2014 a Presidente Fantoni)

Protocollo 5X5 vs. protocollo 4X4

Protocollo 5X5 vs. protocollo 4X4
valori bassi
di kappa non
pubblicati da
ANVUR

Errore nei dati o altro?
Ancaiani et al. 2015

Altro: ci sono due sistemi di pesi
chiamati nello stesso modo

Altri dati che non quadrano.
Perché?

Errori inspiegabili nella replica
ERROR:
47.583?
Population: 86.998
ERROR:
ERROR
7,597

ANVUR e la giustificazione della
politica italiana per la ricerca
Why this extraordinary dissemination effort was produced by
scholars working for ANVUR?
Probably because the publication in scholarly journals
represent an ex-post justification of the unprecedented dual
system of evaluation developed and applied by ANVUR.
The metodology and results of the research assessment are
justified ex-post by papers written by scholars that have
developed and applied the methodology adopted by the Italian
government.
Moreover, the results of these papers cannot be replicated
because the data were not made available to scholars other
than those working for ANVUR.

Politica vaccinale
Government prescribes a new mandatory vaccine in compliance with the
recommendation of a report issued by an agency such as the Food and
Drug Administration.
A couple of years after the mandatory adoption, scholarly journals publish
articles, authored by members of the FDA committee that issued the
report.
Although not declared, these articles reproduce contents and conclusions
of the FDA report, thus providing a de facto – though ex post - scientific
justification of the report itself.
When independent scholars ask data for replicating results, the agency
does not reply or, alternatively, denies the data alleging that they are
confidential.
Fortunately, this is not the way health decisions are usually taken.

Inquinamento della letteratura

E noi?
In un messaggio del 12 settembre 2017 il prorettore alla Ricerca,
Roberto Bottinelli, ha informato i colleghi che il nostro ateneo ha aderito
ad un’iniziativa.
• La Conferenza dei Rettori delle Università Italiane (CRUI) ha
sottoscritto un sistema a pagamento per la valutazione della ricerca
delle università che consentirebbe di eseguire procedure basate sia
sul Modello della VQR 2011-2014 sia sul Modello dell’ASN.
• Riguardo alle prime, viene spiegato che
“Per poter effettuare valutazioni automatizzate su larga scala, i criteri
della VQR vengono complementati con regole opportune per
eliminare la necessità di effettuare interventi di peer-review”.

E noi?
Persino l’Agenzia di valutazione che ha messo a punto gli indicatori
mette in guardia nei confronti del loro uso automatico sia per quanto
riguarda le comparazioni tra diversi settori scientifico-disciplinari sia per
le valutazioni individuali:
L’elaborazione di tale indicatore non va confusa con la valutazione della
qualità dei risultati scientifici, che non può prescindere dal
coinvolgimento di comitati di esperti rappresentativi delle diverse
componenti culturali della comunità scientifica di riferimento.
Una valutazione di contesto, completamente automatizzata, inoltre, non
deve in nessun caso essere sostitutiva dell’esame di tutta l’esperienza
dei candidati in occasione di valutazioni comparative ai fini del
reclutamento e della progressione di carriera.

“The idea that research assessment must be done using “simple
and objective” methods is increasingly prevalent today. The
“simple and objective” methods are broadly interpreted as
bibliometrics, that is, citation data and the statistics derived from
them. There is a belief that citation statistics are inherently more
accurate because they substitute simple numbers for complex
judgments, and hence overcome the possible subjectivity of peer
review. But this belief is unfounded.”

17 gennaio 2011
“Any bibliometric evaluation should be tightly
associated to a close examination of a
researcher’s work, in particular to evaluate its
originality, an element that cannot be assessed
through a bibliometric study.”

Dai sistemi di valutazione agli effetti sull'etica dei comportamenti

Recommended

Recommended

More Related Content

Similar to Dai sistemi di valutazione agli effetti sull'etica dei comportamenti

Similar to Dai sistemi di valutazione agli effetti sull'etica dei comportamenti (20)

More from Giuseppe De Nicolao

More from Giuseppe De Nicolao (20)

Dai sistemi di valutazione agli effetti sull'etica dei comportamenti