Text mining para historiadores de arte

599 views
485 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
599
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Text mining para historiadores de arte

  1. 1. Sociedad del Conocimiento Prof. Dr. José Pino Díaz Departamento de Historia del Arte Universidad de Málaga. Campus de Teatinos 29071-Málaga. jpinod@uma.es
  2. 2. Trilogía DICDatos, Información y Conocimiento.Los datos son expresiones mínimas de información que aisladas no tienen.La información son datos elaborados con un significado para el receptor.El conocimiento es la información interpretada, personalizada, que propicia latoma adecuada de decisiones en el marco de una organización . Ejemplo: • La organización de las notas musicales (datos=objeto) • En forma de partitura (información=contexto) constituyen información que puede ser interpretada por muchos músicos. • La destreza particular de un músico (conocimiento=acción) para interpretar la partitura se refiere al concepto de conocimiento.
  3. 3. Sociedad de la Información y Sociedad del ConocimientoLa Sociedad de la Información es un estado de desarrollo socialcaracterizado por la capacidad de sus miembros para obtener, compartir yprocesar cualquier información por medios de las Tecnologías deInformación y Comunicación (TICs), desde cualquier lugar y en la formaque se prefiera.La “Sociedad del Conocimiento" es la situación social, económica ytecnológica basada en la utilización del conocimiento. El motor central de lasociedad actual es el conocimiento, las actividades relacionadas con laproducción de conocimiento.En la actualidad las organizaciones se enfrentan a dos problemasimportantes relacionados con la información: Infoxicación• Por una parte, la sobreabundancia de información, ya que lasorganizaciones acumulan gran cantidad de información de todo tipo.• Por otra parte, la escasez de información útil para tomar decisiones,
  4. 4. Sociedad de la Información y Sociedad del Conocimiento¿Qué indican las cifras del gráfico?Las cifras del gráfico reflejan el número de búsquedas de un término concreto que se han realizado, encomparación con el total de búsquedas realizadas en Google a lo largo del tiempo. No representan cifrasde volumen de búsquedas absolutas, porque los datos están normalizados y presentados en una escalade 0 a 100. Cada punto del gráfico está dividido entre el punto máximo, o 100. Si no disponemos dedatos suficientes, se mostrará el valor 0.
  5. 5. Proceso de creación del conocimiento (Nonaka-Takeuchi, 1995)Socialización, es el proceso de adquirir conocimiento tácito a través decompartir experiencias y que añade el nuevo conocimiento a la base colectiva queposee la organización.Exteriorización, es el proceso de convertir conocimiento tácito en conocimientoexplícito; es la actividad esencial en la creación del conocimiento.Combinación, es el proceso de crear conocimiento explícito al reunirconocimiento explícito proveniente de cierto número de fuentes.Interiorización, es un proceso de incorporación conocimiento explícito enconocimiento tácito.
  6. 6. Gestión de la Información y Gestión del Conocimiento.La Gestión de la Información es la gestión de documentos de todo tipo (gestión delconocimiento explícito).La Gestión del Conocimiento engloba tanto la gestión de la información(conocimiento explícito) como la gestión del conocimiento tácito (conocimientointerno de las personas). Las principales herramientas que apoyan a un programa de gestión del conocimiento son: 1. Data warehousing (Almacén de datos) 2. Data mining (Minería de datos) 3. Sistemas de soporte a la toma de decisiones 4. Groupware (Software colaborativo) 5. Sistemas de información para la dirección, todas ellas han de ser apoyadas adecuadamente por los sistemas de gestión documental
  7. 7. Práctica:ESTADÍSTICAS DE BÚSQUEDAS DE GOOGLEGOOGLE TRENDGOOGLE NGRAMALERTAS DE GOOGLEGOOGLE READER
  8. 8. Minería de datos Data miningExploration de données Prof. Dr. José Pino Díaz Departamento de Historia del Arte Universidad de Málaga. Campus de Teatinos 29071-Málaga. jpinod@uma.es
  9. 9. DatabasesUna base de datos es un conjunto de información estructurada en registrosy almacenada en un soporte electrónico legible por ordenador. • Cada registro constituye una unidad autónoma de información que puede a su vez estar estructurada en diferentes campos o tipos de datos que se recogen en la base de datos
  10. 10. Creación de nuevo conocimiento a partir de bases de datos bibliográficas (Knowledge Discovery in Databases, KDD)
  11. 11. Data Mining, a KDD Process Data mining: the core of Knowledge Discovery Pattern Evaluation Databases process. Data Mining Task-relevant Data Data Selection Data PreprocessingData WarehouseData CleaningData Integration Databases
  12. 12. Minería de datosLa Minería de Datos es la extracción dirigida de la información existente en las bases dedatos con el fin de descubrir patrones, relaciones o asociaciones para generar nuevoconocimiento.Algunos tipos de DM: - Web mining - Web content mining (minería de contenido web) - Web structure mining (minería de estructura web) - Web usage mining (minería de uso web) - Text mining (minería de datos textuales) - Spatial data mining (minería de datos espaciales)
  13. 13. Data Mining: Confluence of Multiple Disciplines Database Statistics TechnologyMachine Data Mining VisualizationLearning Information Other Science Disciplines
  14. 14. Data mining and Making decisionsIncreasing potentialto supportmaking decisions End User Making Decisions Data Presentation Business Analyst Visualization Techniques Data Mining Data Knowledge Databases Discovery Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP
  15. 15. Minería de textos Text mining Fouille de textes Prof. Dr. José Pino Díaz Departamento de Historia del ArteUniversidad de Málaga. Campus de Teatinos 29071-Málaga. jpinod@uma.es
  16. 16. Text mining, a KDD ProcessEn 2001, Dow Chemicals se unió a Union Carbide Corporation (UCC). Esta unión requirió laintegración de 35.000 informes de UCC en el sistema de gestión del documentos de Dow. DowChemicals eligió a la empresa ClearForest, líder en text-driven business solutions, para realizar laintegración de la colección de documentos. Usando tecnología ad-hoc se identificaron sustanciasquímicas, productos, empresas, centros y personas. Esto permitió que Dow Chemicals agregaramás de 80 años de investigación de UCC a su sistema de gestión de información yaproximadamente 100.000 nuevas sustancias químicas a su registro. Cuando el proyecto secompletó, se estimó que Dow Chemicals ahorró casi 3 millones de dólares y que el tiempoempleado en clasificar los documentos se redujo un 50% y los errores de datos entre un 10-15%.
  17. 17. Text mining applied
  18. 18. Minería de textos y opinión
  19. 19. Evaluación de competencias(Abramos un paréntesis, no es text mining pero creo que es interesante que conozcan la aplicación interactiva Conócete)
  20. 20. Prácticas:TEXT MINING
  21. 21. Text mining:Information extraction
  22. 22. Text mining:Information extraction
  23. 23. Text mining: Concept linckageUna aplicación muy popular del text mining es relatada en Hearst (Untangling Text Data Mining, 1999), Don Swanson intentaextraer información derivada de coleccionesde texto. Teniendo en cuenta que los expertos sólo pueden leer una pequeñaparte de lo que se publica en su campo, por lo general no se dan cuenta de los nuevos desarrollos que se suceden en otroscampos.Así, Swanson ha demostrado cómo cadenas de implicaciones causales dentro de la literatura médica pueden conducir ahipótesis para enfermedades poco frecuentes, algunas de las cuales han recibido pruebas de soporte experimental.Investigando las causas de la migraña, dicho investigador extrajo varias piezas de evidencia a partir de títulos de artículospresentes en la literatura biomédica. Algunas de esas claves fueron:• El estrés está asociado con la migraña.• El estrés puede conducir a la pérdida de magnesio.• Los bloqueadores de canales de calcio previenen algunas migrañas.• El magnesio es un bloqueador natural del canal de calcio.• La depresión cortical diseminada (DCD) está implicada en algunas migrañas.• Los niveles altos de magnesio inhiben la DCD.• Los pacientes con migraña tienen una alta agregación plaquetaria.• El magnesio puede suprimir la agregación plaquetaria.Estas claves sugieren que la deficiencia de magnesio podría representar un papel en algunos tipos de migraña, una hipótesisque no existía en la literatura y que Swanson encontró mediante esas ligas. De acuerdo con Swanson (Swanson y otros,1994), estudios posteriores han probado experimentalmente esta hipótesis obtenida por text mining con buenosresultados.“Data mining: torturando a los datos hasta que confiesen”.http://www.uoc.edu/molina1102/esp/art/molina1102/molina1102.html
  24. 24. Text mining:Topic tracking
  25. 25. Text mining:Topic tracking
  26. 26. Text mining:Information visualization
  27. 27. Text mining:Information visualization
  28. 28. Text mining:Information visualization
  29. 29. Text mining: Information visualizationMANGADO-I-ARTIGAS-JOSEP-MARIA, MUSICA-DARA, MUSICA-PARA-GUITARRA, GUITARRA-ESPAÑOLA, GUITARRISTAS, MUSICA- CLASICA, MUSICOSAZANZA-LOPEZ-JOSE-JAVIER, ANDUEZA-UNANUA-PILAR, , , EDAD-MODERNA, ARTE, PANORAMA-ARTISTICO, TEORIA-DEL-ARTE, TRATADISTAS, INFLUENCIA-ITALIANA, INFLUENCIA-FRANCESA, FUENTES-DOCUMENTALES, LIBROS-DE-VIAJES, INVENTARIO-DE-BIENES, LITERATURA-EMBLEMATICA, HISTORIADORES-DEL-ARTERAMIREZ-JUAN-ANTONIO, BOLETIN-DE-ARTE, DISEÑO-DE-EXPOSICIONES, MODELOS-ARQUITECTONICOS,CALATRAVA-ESCOBAR-JUAN-ANTONIO, BOLETIN-DE-ARTE, ARTE-RENACENTISTA, EDICION-CRITICA, INFLUENCIA-CULTURAL, PENSAMIENTO-ARTISTICO, PENSAMIENTO-ESTETICO,ILUSTRACION, ARTE-ACADEMICISTA
  30. 30. Text mining:Information visualization
  31. 31. Teoría Actor-Red Actor-network theoryThéorie de l’acteur-Réseau Prof. Dr. José Pino Díaz Departamento de Historia del Arte Universidad de Málaga. Campus de Teatinos 29071-Málaga. jpinod@uma.es
  32. 32. Conocimiento Científico y Tecnológico Teoría Actor-Red • Filosofía de las Ciencias (Michel Serres) • Sociología del Conocimiento (David Bloor) • Sociología de la Ciencia y de la Técnica (Michel Callon, Bruno Latour) • Sociología de la Traducción • Sociología de las Asociaciones • Teoría Actor-Red (M. Callon, J.P. Courtial, B. Latour, etc.)“ … en la construcción social de un hecho científico intervienen entidades humanas y no humanas y elproceso continuo de transformación o traducción de las relaciones establecidas entre tales entidadesda como resultado una red en continuo cambio …”
  33. 33. Teoría Actor-RedEl desarrollo en los años ochenta de laSociología de las Ciencias y Técnicas, Sociologíade la Traducción o Sociología de lasAsociaciones por Michel Callon y Bruno Latour(Centre de Sociologie de l’Innovation, Paris) apartir de recursos conceptuales, entre otros, deMichel Serres (Filosofía de las Ciencias) y deDavid Bloor (Sociología del Conocimiento), tienesu exponente en la Teoría Actor-Red (ANT eninglés), según la cual en la construcción socialde un hecho científico intervienen entidadeshumanas y no humanas y el proceso continuode transformación o traducción de lasrelaciones establecidas entre tales entidades dacomo resultado una red en continuo cambio;entendida ésta como una malla formada pornudos (actores) enlazados entre sí (relacionesque establecen entre ellos).
  34. 34. Redes TecnocientíficasSe emplea el concepto de “red tecnocientífica” tal como fue planteado porLatour en 1983, es decir como la forma abreviada de “red de ciencia ytecnología”La Teoría Actor-Red es útil para describir las complejas relaciones que seestablecen en las redes de la Ciencia y Tecnología, así como las de la Tecnociencia(Echevarría y González, 2009), entendida ésta como una modalidad de laactividad científica y tecnológica fruto de la hibridación entre Ciencia yTecnología.Así cualquier red de la Tecnociencia (Latour, 1983) está formada por un conjuntode actores y un conjunto de relaciones establecidas entre ellos en un periodotemporal concreto. Con el tiempo los actores y las relaciones cambian y dan lugara nuevas redes y así se suceden unos a otros a lo largo del periodo de análisis.Esta teoría también llamada Sociología de la Traducción (entendida traduccióncomo conversión, transformación, variación o cambio), estudia los cambios quese producen en las redes de conocimiento tecnocientífico.
  35. 35. Análisis EstratégicoEl Análisis Estratégico consiste en esencia en la identificación y tipificación de losactores y las relaciones fuertes; se trata de una “reducción de la complejidadconservando lo fundamental”.La Vigilancia Estratégica Científica y Tecnológica es el conjunto de tareas quebuscan “proporcionar buena información a la persona idónea en el momentoadecuado” y en el lugar adecuado; buena información sobre el entorno científicoy tecnológico de la organización.La Planificación Estratégica es el “principal instrumento para la gestión de unaorganización a corto plazo, 2 ó 3 años”; es una herramienta para la mejoracontinua y la innovación en la organización.
  36. 36. Análisis Estratégico de Redes Tecnocientíficas Evaluación de Redes Tecnocientíficas
  37. 37. Práctica:PAJEK (http://pajek.imfm.si/doku.php)
  38. 38. Sistemas de conocimiento Knowledge-based systemsSystème danalyse dinformation Prof. Dr. José Pino Díaz Departamento de Historia delArte Universidad de Málaga. Campus de Teatinos 29071-Málaga. jpinod@uma.es
  39. 39. Sistemas de conocimientoLos sistemas de conocimiento son sistemas expertos ideados para crear nuevo conocimiento a partirdel conocimiento explícito presente en los documentos de las bases de datos. Siguen el proceso KDD en susdiferentes fases. Tienen su origen en los softwares cienciométricos desarrollados para facilitar el análisis degrandes conjuntos documentales científicos o tecnológicos (artículos científicos, patentes, tesis doctorales, etc.).Los sistemas de conocimiento son de gran utilidad para los equipos de inteligencia competitiva y de vigilanciatecnológica de las organizaciones ya que proporcionan informes, diagramas, gráficos y mapas muy apreciados enla toma de decisiones estratégicas. La evaluación de redes de conocimiento se beneficia de la existencia desistemas de conocimiento desarrollados para transformar la información en conocimiento, procesando de unamanera rápida y controlada ingentes conjuntos documentales y creando nuevo conocimiento a partir de ellos.La ingeniería del conocimiento es la rama de la inteligencia artificial que tiene por objetivo la creación deindicadores, métodos e instrumentos de naturaleza matemática, informática y lingüística, para el análisis y larepresentación cartográfica de la información científica y técnica.
  40. 40. HenochFrench or English Lexicons or text-data terminological resourcesDataset or Corpus Clustering DBMS-R Term Extraction and And Bibliometric Mapping Indexation statistics WWW Server SDOC MIRIAD ILC NEURODOC HENOCH Mac PC WS 40
  41. 41. Stanalyst Bases de datos Recursos terminológicos 1 2 3 4 CORPUS BIBLIOMETRIA INDIZACION INFOMETRIA Interrogación Estadísticas Manual o Clasificación y y Datos descriptivas Automática Cartografía Proyecto Acceso e identificación Navigador – Interface usuarioEsquema del Sistema de Conocimiento Stanalyst (Polanco, 2006). El módulo“Infometría” de Stanalyst es un sistema de clasificación automática basado en dosprogramas alternativos, Neurodoc (redes neuronales) y Sdoc (análisis de palabrasasociadas). Tomado de:http://www.cincel.cl/documentos/Recursos/STANALYST2006.ppt
  42. 42. CoPalRedCopalred es un sistema de conocimiento (herramienta de Ingeniería del Conocimiento) creado en el año 2003por Rafael Bailón-Moreno, basado en el análisis de palabras asociadas y que tiene su antecedente en Leximappe,software desarrollado por Whittaker, Law, Courtial y Bauin. Leximappe se ha mostrado útil en el análisisestratégico de las redes de conocimiento científico y técnico. Leximappe y Copalred han sido empleados en elestudio de grandes conjuntos documentales de diferentes disciplinas académicas: Arqueología, IngenieríaQuímica, Fisioterapia, Conjuntos Difusos o Espacios Naturales Protegidos.
  43. 43. Análisis de Palabras Asociadas Co-Word Analysis (1)• El investigador transmite conocimiento tácito en los textos; éstos se constituyen en conocimiento explícito. Este nuevo conocimiento se analiza mediante métodos matemáticos, informáticos y lingüísticos, entre ellos el método del análisis de palabras asociadas o co-word analysis.• Se utiliza para estudiar la estructura y la dinámica del conocimiento en un dominio documental concreto.• Puede ser empleado a modo retrospectivo, “a tiempo real” o de forma prospectiva.• Se basa en dos teorías sociológicas: la Teoría Actor-Red y la Teoría de la Traducción.• Es un Índice Relacional de 2ª generación en Evaluación de la Ciencia• Método de Knowledge Discovery in Databases (KDD)• Se utiliza para estudiar las Redes Tecnocientíficas.
  44. 44. Análisis de Palabras Asociadas (2)• Matriz de coocurrencias o matriz de adyacencia. Matriz simétrica que muestra en los puntos de corte entre filas y columnas, cij, las coocurrencias de los valores que encabezan cada fila i y cada columna j.• Índice de equivalencia o de asociación entre las palabras i y j. donde: eij.- Indice de equivalencia o de asociación entre las palabras i y j Cij.- Co-ocurrencia de las palabras i y j Ci.- Ocurrencia de la palabra i Cj.- Ocurrencia de la palabra j. Los valores de eij oscilan entre 0 y 1. Cuando dos palabras no aparecen nunca juntas, su coocurrencia es nula, el índice de equivalencia vale cero. Este índice es independiente del tamaño de la muestra.
  45. 45. Sistema de conocimiento Redes 2005(Text mining: Clustering + Information visualization)
  46. 46. Sistema de conocimiento Redes 2005(Text mining: Clustering + Information visualization) Vídeo-captura de pantalla que muestra el funcionamiento del sistema de conocimiento Redes 2005

×