• Like
  • Save
Les estadístiques dels repositoris cooperatius
Upcoming SlideShare
Loading in...5
×
 

Les estadístiques dels repositoris cooperatius

on

  • 755 views

Les estadístiques dels repositoris d'e-informació serveixen, entre d'altres, per consultar l'evolució de l'ús d'aquestes eines i per informar els seus usuaris de l'ús dels seus continguts. La ...

Les estadístiques dels repositoris d'e-informació serveixen, entre d'altres, per consultar l'evolució de l'ús d'aquestes eines i per informar els seus usuaris de l'ús dels seus continguts. La ponència pretén donar resposta a algunes preguntes freqüents sobre aquest, com: estadístiques de què?, què és una consulta?, quins mecanismes de depuració s'apliquen?, etc. A més, descriu l'arquitectura i les característiques bàsiques de la seva implementació i fa un breu repàs de l'evolució de les estadístiques en aquests 10 anys de repositoris cooperatius.

La ponència es presenta dins del marc del "2n Espai CBUC d'intercanvi de coneixements i experiències" a l'Aula Magna de la universitat de Barcelona. Una trobada on els bibliotecaris de les institucions que formen part del CBUC intercanvien informació pràctica sobre les seves iniciatives de repositoris institucionals i accés obert.

Statistics

Views

Total Views
755
Views on SlideShare
755
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Les estadístiques dels repositoris cooperatius Les estadístiques dels repositoris cooperatius Presentation Transcript

    • Les estadístiques dels repositoris cooperatius Ricard de la Vega Cap del Servei de Portals i Repositoris Centre de Supercomputació de Catalunya 2n Espai CBUC d’intercanvi de coneixements i experiències Barcelona, 30 de juny de 2010
    • Agenda Introducció Estadístiques de què? Què és una consulta? Mecanismes de depuració Grup de treball de Recolecta Als repositoris cooperatius • Arquitectura • TDX • RECERCAT • RACO • MDX Conclusions
    • Introducció Quin ha estat l’article més consultat de la revista enguany? Quantes consultes es van fer al maig? ...
    • Estadístiques de què? Sobre ocupació Sobre consultes • Diferents vistes (mensual, anual...) • Segons el país d’origen de les consultes (llibreries GeoIP) • Rànquings Sobre la disponibilitat dels recursos Nivells? • Globals pel repositori • Per institucions • Per document
    • Què és una consulta? El meu document ha tingut al juny 1.250 consultes! Molt o poc? Com es comptabilitza una consulta? Una consulta és un accés a... què? • La pàgina amb les metadades d’un document? • Un download d’aquest document? • I si el document està format per més d’un contingut (pdf, imatge...)? • I un vídeo? es compten les reproduccions? • ... Referències internacionals • COUNTER (http://www.projectcounter.org) • PIRUS (http://www.jisc.ac.uk/whatwedo/programmes/pals3/pirus.aspx)
    • Preguntes bàsiques 1. Tipus de contingut? A PIRUS: Als repositoris cooperatius: Tesis, articles, working papers, technical reports, imatges...
    • Preguntes bàsiques 1. Granularitat? Una tesi pot constar de diversos PDF Un PFC pot constar d’un PDF, una imatge, un vídeo... ... Als repositoris cooperatius: Ítems continguts als repositoris, entenent per ítem un contingut únic identificable (ex. per handle)
    • Preguntes bàsiques 1. Tipus d’accessos? Existeixen 2 indicadors bàsics: Nombre de vegades que es consulta la pàgina de l’ítem (metadades més enllaç a la descàrrega del contingut, de vegades se li diu “vista”) Nombre de vegades que es descarrega el contingut Quan parlem de consultes, es fa referència a les vistes?, a les descàrregues?, a un híbrid de les dues? No hi ha consens, existeixen (almenys) dues possibilitats • Ús dels dos indicadors • Ús d’un únic indicador anomenat “consulta”
    • Preguntes bàsiques Avantatges de l’ús d’un únic indicador: Clar i senzill per l’explotació de les dades estadístiques Posibilita la creació de rànquings únics • Ex. Elaboració de certificats de reconeixement per les tesis més consultades A COUNTER, un item request el defineixen com el “number of items requested by users as a result of a search. User requests include viewing, downloading, emailing and printing of items” A PIRUS, un “succesfull full-text article download”
    • Què considerem una consulta? 1. Una consulta és un accés a un document fet a través de la seva pàgina de metadades o a través de la seva descàrrega 2. La descàrrega d’un document des de la seva pàgina de metadades no es comptabilitza com a consulta 1 2 Pàgina amb metadades Identificador únic de referència 1 Cercadors, enllaç directe...
    • “Metadades” de les estadístiques De la mateixa manera que és important dotar de metadades als documents per a que siguin cercables, també ho és especificar com són les estadístiques de cara a la seva possible explotació
    • Agenda Introducció Estadístiques de què? Què és una consulta? Mecanismes de depuració Grup de treball de Recolecta Als repositoris cooperatius • Arquitectura • TDX • RECERCAT • RACO • MDX Conclusions
    • Estadístiques després d’impostos Consultes realitzades per usuaris “humans”, filtrant les fetes de manera automatitzada per programaris anomenats robots, com els indexadors dels cercadors Mecanismes recomanats per COUNTER: 1. Accessos vàlids, codis de retorn HTTP 200 i 304 2. Doble click, filtratge de 2 accesos a un mateix ítem des d’una mateixa IP separats per menys de 10 segons si és un HTML i 30 segons si és la descàrrega d’un PDF 3. Llista negra, filtratge de robots “coneguts” (http://www.projectcounter.org/r3/r3_K.doc)
    • Estadístiques després d’impostos 4. Cerques federades, filtratge llista ex. Z39.50 (http://www.projectcounter.org/r3/r3_J.doc) A més, altres mecanismes: 5. robots.txt, filtratge dinàmic dels robots que compleixen les bones pràctiques i consulten el fitxer robots.txt 6. IP de gestió, monitoratge i manteniment, filtratge de les IP del CESCA i el CBUC 7. Múltiples accessos des d’una mateixa IP, filtratge periòdic dels documents que apareixen als rànquings. Tractament manual per evitar filtratge de proxies
    • El document amb 1.250 consultes... Molt o poc? Sabem que s’està comptabilitzant com a consulta Sabem que es realitza una depuració dels d’accessos Es filtren tots els accessos “no humans”? No, però sabem que s’està filtrant Molt o poc? I puc comparar-ho amb d’altres documents, veure els països des d’on es fa la consulta... Molt o poc? Tot i que la resposta sempre serà subjectiva, es té més informació per la valoració
    • Agenda Introducció Estadístiques de què? Què és una consulta? Mecanismes de depuració Grup de treball de Recolecta Als repositoris cooperatius • Arquitectura • TDX • RECERCAT • RACO • MDX Conclusions
    • Objectius del grup de treball de Recolecta Identificar/analitzar els principals projectes internacionals Definir un sistema d’estadístiques homogeni per a que les dades que s’obtinguin siguin comparables i agregables Identificar les necesitats dels gestors de continguts en quan al desenvolupament de serveis d’estadístiques Dissenyar serveis a desenvolupar a recolecta relacionats amb l’explotació/difusió de dades estadístiques proporcionades pels repositoris Realitzar una proposta i execusió d’implementació dels serveis dissenyats
    • Agenda Introducció Estadístiques de què? Què és una consulta? Mecanismes de depuració Grup de treball de Recolecta Als repositoris cooperatius • Arquitectura • TDX • RECERCAT • RACO • MDX Conclusions
    • Arquitectura
    • Característiques Basats en els logs de l’Apache i el Tomcat Scripts per mecanismes de depuració + Base de dades MySQL (adaptació ETDdb, DSPace i OJS) Es guarden 3 indicadors: consultes, metadades, download S’ensenyen les consultes, i per documents, tb downloads Estadístiques diàries on-line mitjançant generació imatges Preservació dels logs • Per poder generar més tipus d’estadístiques (per document) • Per si es detecten errors en el futur
    • Evolució de les estadístiques TDX (2000) • 2001. Globals del repositori. • 2010 (desembre). Per comunitats i documents. RECERCAT (2005) • 2007. Globals del repositori. • 2010. Per document (part visualització, amb Tasmania). • 2010 (juliol). Per comunitat (part visualització, amb Tasmania).
    • Evolució de les estadístiques RACO (2006) • 2008. Globals del repositori. • 2010 (juliol). Normalització estadístiques per document. • 2010 (juliol). Per institució editorial. • 2010 (juliol). Per revista. MDX (2009) • 2010 (juliol). Estadístiques globals, per comunitats, col·leccions i documents. • Basades en Solr, les noves estadístiques del DSpace
    • Agenda Introducció Estadístiques de què? Què és una consulta? Mecanismes de depuració Grup de treball de Recolecta Als repositoris cooperatius • Arquitectura • TDX • RECERCAT • RACO • MDX Conclusions
    • Conclusions Als repositoris cooperatius, es realitzen estadístiques sobre ocupació, consultes i disponibilitat dels recursos. Respecte les consultes • Es defineix que es considera una consulta • S’apliquen mesures de depuració • Es detalla informació a tenir en compte de cara a l’explotació Arquitectura basada en l’adquisició d’accessos als logs d’Apache i Tomcat, scripts amb les mesures de filtratge i emmagatzematge en BD MySQL per explotació • En gràfiques on-line als repositoris (API pròpia, Tasmania, etc...) • Memòries d’activitats, informes mensuals de gestió, etc