Fs12 manuel-blazquez-ochando

  • 443 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
443
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Desarrollo tecnológico y documental delwebcrawler Mbot: prueba de análisis webde la universidad españolaProf. Manuel Blázquez Ochandomanuel.blazquez@pdi.ucm.eshttp://www.mblazquez.es/1“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”
  • 2. Planteamiento y objetivos•No existen herramientas de webcrawling realmentesencillas de utilizar , gestionar e instalar•En el año 2010 comienza el desarrollo del webcrawlerMbot– Mínimos requerimientos de instalación, fácil configuración yejecución– Organización de la información tabulada en BD para su empleoextensivo en investigaciones cibermétricas2“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”
  • 3. Hitos de la experimentación con Mbot•2011-02-28. Primeras pruebas del Mbot webcrawlerhttp://www.mblazquez.es/documents/articulo-pruebas1-mbot.html– Demostración pública en línea– Análisis de repositorios institucionales, universidades, c. investigación•2011-06-30. Análisis de la web y usabilidad: prueba defuncionamiento de Mbot webcrawler. En: X Congreso del Capítuloespañol de ISKO.– Análisis completo del sitio web de NASA y ESA– Más de 60.000 enlaces, 3 niveles de profundidad, ratio de extracción de1,3 páginas por segundo, 15.000 imágenes, 500 canales de3“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”
  • 4. •2012-11-30. Análisis webmétrico de los medios de comunicaciónbrasileños: prensa, radio y televisión. En: I Seminario HispanoBrasileño de Biblioteconomía y Documentación– 1.315 medios de comunicación, más de 2 millones de enlaces, 2niveles de profundidad, 4000 canales de sindicación especializados,creación del primer mapa de la web brasileña de medios decomunicación•2013-05-24. FESABID 2013. Prueba de análisis web de launiversidad española– Muestra de 147 sedes universitarias analizadas– 270.000 enlaces únicos– 1GB de datos4“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”
  • 5. Especificaciones de Mbot•Obtener datos: enlaces, metadatos, canales de sindicación,imágenes, documentos, archivos multimedia, imágenes, códigofuente, texto completo depurado.•Almacenamiento: Base de datos SQL y archivos tabulados•Rastreo de páginas vinculadas con un máximo de 10 niveles deanálisis•Análisis de la web orientado al establecimiento de rankings, lausabilidad y accesibilidad 5“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”
  • 6. Un vistazo a Mbot6http://www.youtube.com/user/mblazquez7channel“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”
  • 7. Análisisdelaw7“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”Nivel deprofundidaddel análisisNº derecursosanalizadosNº de enlacesúnicosSitios web Páginas web Tamaño en MBNivel 1 147 8.108 1.544 6.564 5Nivel 2 6.479 41.031 5.165 35.866 109.7Nivel 3 30.425 220.794 19.365 201.429 920.2Total 37.051 269.933 26.074 243.859 1034.9Tiempos deejecuciónInicio 2012-10-12T12:30:36+01:00 - Fin 2012-10-13T18:11:10+01:00
  • 8. Análisis de dominios8“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”Dominios .es .de .uk .us .com .org .net .eduNº sitios 3.645 73 146 7 2.838 1.207 335 1.075Nº páginas118.385819 686 4.438 37.573 4.965 6.785 78.814Porcentajede enlacesúnicos45,21% 0,33% 0,31% 1,65%14,97%2,29% 2,64% 29,60%ES (45,21%), EDU (29,60%) y COM (14,97%)
  • 9. Tipología de páginas web según suprogramación•Equilibrio entre la web estática y dinámica•Se emplea más la programación en PHP que ASP a la hora deelaborar páginas web en la universidad•Práctica inexistencia de web semántica en formato RDF9Formato .html .xml .rdf .rss .php .aspNº de enlaces 59.267 166 0 2.811 38.512 22.202Porcentajerelativo aformatos webEnlaces a páginas estáticas49,47%Enlaces a páginas dinámicas50,53%“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”
  • 10. Macroestructura de la web10“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”Componente PorcentajeMAIN 9,60%IN 0,24%OUT 2,84%ISLAND 84,41%TENTACLE IN 0,12%TENTACLE OUT 2,55%TUNNEL 0,21%
  • 11. 11Mapa web de la universidad españolahttp://www.youtube.com/user/mblazquez7channel“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”
  • 12. Conclu12“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”
  • 13. 4. El futuro de Mbot, será la consolidación del interfaz gráfico de control,de los distintos modos de ejecución a saber: 1) análisis de rankings, 2)análisis de enlaces, 3) análisis de contenidos, 4) análisis de usabilidad yaccesibilidad. Finalmente, una vez superadas las pruebas de ejecución yrendimiento, la herramienta será puesta a disposición de cualquierinvestigador como programa de código abierto.5. En relación a la web universitaria española, se concluye que unanálisis a 3 niveles, permite obtener más de 250.000 enlaces únicosde los que 26.000 son sitios web, suponiendo en conjunto un total de másde 1GB de tamaño total.6. Los dominios de tipo ES son los más abundantes con el 45% del total,junto con los de tipo académico EDU con un 29%. La presencia dedominios de terceros países es muy reducida, lo cual indica una baja13“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”
  • 14. 7. Los documentos de texto, imágenes y audiovisuales representan un35% del total de enlaces únicos extraídos, quedando un 75% de sitiosy páginas web entre las que se encuentra un equilibrio cuantitativopróximo al 50% entre el número de webs estáticas y dinámicas.8. Sólo el 15% de la web universitaria española se encuentra en losvalores altos de interconexión de sus enlaces. El resto quedadébilmente vinculado, lo cual sugiere una red de universidades pococooperativa. La representación gráfica de la web de la universidadespañola, permite corroborar este hecho, destacando el alto número deislas, comprobando cómo la web universitaria española es en sí mismauna gran isla.14“Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayode 2013”