I summit utpl-conferencia

414 views

Published on

Data Mining Technologies

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
414
On SlideShare
0
From Embeds
0
Number of Embeds
14
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Voy a empezar con una breve presentacion de la ETS y de mi laboratorio
    Despues vamos a ofrecer una vista general del text analytics y de la mineria de textos
    Finalmente, termino esta ponencia con la breve presentacion de tres proyecto global de investigaciones.
  • primero : que es la ETS que es el LiNCS y que es la visualizacion de textos
  • La ETS o escuela de tecnologia superior se ubica en Montreal, Quebec Canada. La ETS forma Ingenieros civiles, de electricidad, de produccion automatisada, de engeneria de software y de tecnologia de informacion. Tiene tambien un programa graduado en Innovation.
  • Dos profesors: yo tengo una maestria en matematic-informatica, specializacion en Inteligencia Artificial, un doctorado en linguistica computacional y un postdoctorado en ciencias cognitivas del MIT. Mi collega, Christian Desrosiers tiene una maestria en matematica, un doctorado en informatica con especialidad en mineria de redes.
  • La idea detras lo que llamé la "vizualizacion" de textos, es muy sencilla y consiste en dar sentido a la informacion escrita en lenguaje natural. Pero este requisito se debe realizar: dependiendo del dominio, segun las especializaciones, de acuerdo con las preferencias del usarios, segun los requisitos del contexto de trabajo. Por supuesto, algunas tareas tipicas de minerias, como la clasificacion o la construccion de grupos similars estan parte de las tecnicas que se necesitan.
  • Dar sentido puede tambien decir que se puede proponer etiquetas adequadas para documentos sobre el Web o sobre otro tipos de base
  • dar sentido y visualizar puede significar: extraer la informacion interesante de los textos y representarla de manera adequada.
  • segun que son los conceptos estaticos que nos interesan o los conceptos dinamicos.
  • Pasamos al dominio "text analytics" y las mineria de textos. Vamos a contestar a tres preguntas: porque los textos, porque es dificil, porque es facil...
  • La principal rason de escoger los textos es que hay muchas informaciones en formato textual. si ustedes son super lectores, ...
  • Las aplicaciones se realizan en biologia, en medecina, en ingeneria de software, en ciencias cognitivas, en informatica mobile, en realidad hay una aplicacion potencial cada vez que se encuentra un pedazo de texto.
  • Historicamente, lo que se llama "text analytics" nacio el los anos 2000. Es el resultado de la union de las tecnicas (mas simbolicas, mas tradicional) del tratamiento de lenguage natural (NLP), de las tecnicas de aprentisaje (con la mineria de textos, mas estastistica), de la tecnicas de la busceda de informacion (por la evaluacion) y de las tecnicas asociadas al web semantico.
    Ahora porque es dificil. Primero: es dificil cuando queremos "comprender" un texto. En este caso, Es dificil porque el lenguaje natural es ambiguo.
  • Ahora porque es dificil. Primero: es dificil cuando queremos "comprender" un texto. En este caso, Es dificil porque el lenguaje natural es ambiguo.
  • muy muy muy ambiguo
  • Es dificil porque, escribiendo textos, no queremos fastidiar la gente. Asi utilizamos muchas palabras y grupos de palabras que refieren al mismo concepto y utilisamos pronombre para evitar la redundancia.
  • Y si queremos tratar de documentos en general, es dificil porque un documento contiene: titulos, imagenes, tablas y graficos ademas del texto.
  • Finalmente, es dificil porque un mismo concepto puede tener muchas formas. Pero, al mismo tiempo, y de manera que surpriendo los primeros investigadores, se puede obtener resultados bastante bueno con herramientas simples. A cada uno de escoger hasta que punto es necesario de solucionar las dificuldades.
  • Se realizo que podemos caminar mucho con una representacion donde los documentos estan representados con vectores de frequencias (hay mas ...). La cuestion es de saber que vamos a contar? las frequencias de las palabras? en este caso vamos a necesitar un tokenizer para reconocer las palabras y quizas una lista de palabras que no queremos (la, los, uno, un, tu, nos, que, cual, etc.) y posiblemente un pos-tagger, si queremos eliminar los ajetivos y los adverbios. Vamos a contar frequencias de raices de palabras (no queremos contar canto, cantamos de manera separada pero solamente una vez). En este caso vamos a necesitar un lemmatizer. Si son los grupos de palabras que nos interesan, necesitamos un chunker, si son los conceptos que nos interesan, necesitaremos un taxonomias o una ontologia y una manera de establecer la relacion entre las formas y los conceptos. Cada etapa, es mas costoso pero no todos los problemas necesitan tanto.
  • De la misma forma, se pensaba que para comprender textos, se necesitaba construir una estructura completa. Por supuesto, hay algunos casos que si, pero por muchos tipos de aplicaciones, una estructura parcial es suficiente
  • Pasamos ahora a la breve presentacion de tres proyectos global que hacemos en el laboratorio. Textrix es el nombre de una aragna. Esta aragna...
  • esta aragna atravesa el Web para encontrar las personas desviadas susceptible de cometer un acto raro. En los casos recientes, ese tipo de persona se declara sobre blog, chat, forum o sitio web. Por el primero prototipo, teniamos textos variados de asesinos. Objetivo : alertar una persona para revisar el caso
  • Se utilizo una herramientas simple para sacar paginas del Internet. y dos tecnicas fueron comparadas
  • un estudiante de maestria en criminologia, un psicologo profesional, una linguista y un especialista en mineria de textos trabajan ahora sobre la continuacion del proyecto. Con el prototipo, se obtuvo resultados bastante interesantes.
  • Correspondencia no es un proyecto como tal sino un programa de investigacion con muchs aplicaciones potenciales. El concepto general
  • el concepto general es de evaluar....
  • de nuevo, un tal programs se necesita recursos en muchas disciplinas. A propositos, estamos explorando algunas medidas semanticas.
  • El proyecto Binocle contituye en punto de partida de toda la historia del laboratorio.
  • estabamos
  • esta documentación se presenta de muchas formas
  • Control de esta fuente de información es necesario
  • En el caso de Binocle queríamos ayudar el ingeniero de software a captar rápidamente los conceptos y relaciones generales (a un buen nivel de abstracción) del punto de vista de un ingeniero de software. Por eso los conceptos y relaciones extraidos son vizualizados en forma de modelo de dominio en UML.
  • el objetivo es de Realizar un sistema que permite traducir visualmente textos corporativos de definición de reglas de negocios en el contexto de la ingeniería de software.
  • Enfoque: Metodología exploratoria de documentos reales a través de una cadena iterativa de tratamiento.
  • Extracción de los términos candidatos • Evaluación de la pertinencia • Modelo del conocimiento
  • determinar los términos pertinentes del dominio; eliminar el ruido
  • de nuevo utilizamos una mezca de tecnicas: unas mas simbolicas y unas mas probabilisticas. Por ejemplo, identificamos con un «chunker» los expresiones largas y despues, aplicamos calculos de probabilidades para éliminar algunas y conservar otras.
  • En conclusion, podemos decir que todos los proyectos de text analytics y de mineria de textos son mutidisciplinario y usan de tecnicas mezcladas. Es la fuerza y el potencial. Y para terminar, como no hacer una invitacion a explorar otro problema de correspondencia?
  • Muchas gracias
  • I summit utpl-conferencia

    1. 1. isummit 2010 Minería y «Text Analytics» Sylvie Ratté, Ph.D. Directora del Laboratorio de Ingeniería Cognitiva y Semántica École de technologie supérieure, Montréal, QC
    2. 2. 2 ProgramaPrograma 1. Breve presentación 2. «Text analytics» y minería de textos 3. Textrix (Anastasia) 4. Correspondencia 5. Binocle
    3. 3. 1. Breve presentación LiNCS y la ÉTS «Visualización» de textos 1. «Text analytics» y minería de textos 2. Técnicas 3. Proyecto Binocle
    4. 4. 4 1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS ÉTS - École de technologie supérieure •'Top' 5 de las 45 escuelas y facultades de ingeniería en Canadá •Uno de cada cuatro Ingenieros de la Provincia de Québec se graduó de la ETS •Más de 4 500 estudiantes •Edificios ultra moderno •1000 unidades en las residencias
    5. 5. 5 1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS LiNCS - Laboratorio de Ingeniería Cognitiva y Semántica Focos en el trazado entre la descripción escrita en lenguaje natural y su representación visual (modelos, diagramas y mapas conceptuales). Minería de textos Minería del Web Minería de redes Modelos de lenguaje Sylvie Ratté y Christian Desrosiers
    6. 6. grupos y classificaciones 6 1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
    7. 7. alertas 7 1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
    8. 8. representación del dominio 8 1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
    9. 9. representación de procesos 9 1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
    10. 10. 1. Breve presentación 2. «Text analytics» y minería de textos Porque los textos? Porque es difícil? Porque es fácil? 1. Textrix (Anastasia) 2. Correspondencia 3. Binocle
    11. 11. 12 2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos? Estimación: 80%-85% de los datos disponibles son textos LN (lenguajes naturales) Ejemplo en Biotecnología: 80% del conocimiento in artículos científicos Vamos a ser optimista : 60 artículos / semana ...! de los cuales: 10% son interesantes... 6 / semana, 300 / años MedLine: publica 10 000 artículos / mes !!! Chemical Abstract Registry: 4000 elementos / día, 2.5 millones en 2004
    12. 12. 13 2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos? Extracción de relaciones en textos de biomedicina Análisis de las diferencias entre descripciones en LN y «workflows» Informaciones mobiles sobre medicamentos por SMS en LN Buscar defectos en requisitos de confidentialidad Análisis de intenciones humanas Construcción automática de diagramas UML Integración de modelos de procesos de negocios con documentos de «Governance» Clasificación automática de reportes de radiología Extracción de las interacciones entre proteínas
    13. 13. 14 Natural Language Processing NLP Minería de textos MT IR Busceda de information (information retrieval) Semantic Web Web 2.0 Text Analytics Analítica de textos 2. «text analytics» y Minería de textos2. «text analytics» y Minería de textos
    14. 14. 15 QuickTime™ and a xvid decompressor are needed to see this picture. 2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
    15. 15. 16 • I put the bouquet of flowers that you gave me for Mother's day in the vase that you gave me for my birthday on the chest of drawers that you gave me for armistice day • 4862 arbres syntaxiques (Church & Patil 82) 2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
    16. 16. 17 2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil? George W. Bush pensaba que tranquilamente podría terminar su mandato después de una gira en Irak. En una conferencia de prensa un periodista lanzó, sin golpearlo, dos zapatos e lo insultó cuando éste dio la mano al primer ministro iraquí en su oficina en Bagdad.Mientras los dos hombres se reunieron en el despacho privado del primer ministro Nouri al-Maliki, un periodista iraquí saltó y lanzó sus zapatos al presidente de los EE.UU.. Quien dio la mano al ministro ? Quien dio la mano al ministro ? La oficina de quien? La oficina de quien? el periodista y Bush? el ministro y el periodista? Bush y el ministro? el periodista y Bush? el ministro y el periodista? Bush y el ministro?
    17. 17. imágenestítulos tablas gráficos y seguro... texto 18 2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
    18. 18. alucinación platilo volador OVNI nave extraterrestre 19 2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
    19. 19. 20 … tokenizer+pos-tagger lemmatizer chunker taxonomy 24 2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil? 1 1 3 1 2 1 4 1 1 documento 1 documento 2 documento 3 Con una representación simple se puede hacer mucho gradualmente, pasar a una representación mas «semántica» Palabras Raíces de palabras Grupos de palabras Conceptos
    20. 20. el Colonel Rubio ha estrangulado a la Señorita Amapola sobre el balcon con una cuerda. SN SN SN SNSVSV SVSV SP SP SVSV SVSV Frase SN SN SN SNSV 21 2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil? por 90% de los casos, no es necesario de tener una representación completa
    21. 21. 1. Breve presentación 2. «Text analytics» y minería de textos 3. Textrix (Anastasia) Descripción Técnicas Particularidades 1. Correspondencia 2. Binocle
    22. 22. 23 3.Textrix: Descripción3.Textrix: Descripción Encontrar las personas peligrosas sobre el Internet VirginiaTech (transcripción de mensaje sobre video)Colombine (transcripción de «journal»)Dawson (blog)LA Fitness Gym (sitio web) ... Objetivo : alertar una persona para revisar el caso
    23. 23. 24 3.Textrix:Técnicas3.Textrix:Técnicas Crawler: Herititrix Clasificación:Crawl-by-examples (google summer code 2006)Frases claves (patrones de expresiones regulares) Alertas: por correo electrónico por SMS por SMS
    24. 24. 25 3.Textrix: Particularidades3.Textrix: Particularidades MultidisplinarioCriminologíaPsicologíaMinería de textosLingüística Algoritmo Crawl-by-examples: 28% de precision y 54% de recall Algoritmo frases clave: 55,5 % de precision y 57% de recall Simplicidad y inteligencia Simplicidad y inteligencia
    25. 25. 1. Breve presentación 2. «Text analytics» y minería de textos 3. Textrix (Anastasia) 4. Correspondencia Concepto general Aplicaciones Particularidades 1. Binocle
    26. 26. 27 4. Correspondencia: Concepto general4. Correspondencia: Concepto general Evaluar la similitud entre dos modelos Entre modelos extraídosde documentosde datos Entre un modelo que pre-existe (ontología del dominio, estándar) y un modelo extraído • Entre un modelo que pre-existe (ontología del dominio, estándar) y un modelo extraído
    27. 27. 28 4. Correspondencia:Aplicaciones4. Correspondencia:Aplicaciones Minería de procesos y «text analytics»: Similitud de los procesos de negocios documentados y la realidad Similitud entre los modelos de «personas» y los requisitos de un empleador, un proyecto, un director de tesis.
    28. 28. 29 4. Correspondencia: Particularidades4. Correspondencia: Particularidades Multidisciplinario Lingüística Ontología Modelos de negocios Minería de procesos Técnicas exploradas: Medidas semánticas
    29. 29. 1. Breve presentación del LiNCS / ÉTS 2. «Text analytics» y minería de textos 3. Textrix (Anastasia) 4. Correspondencia 5. Binocle Descripción Ejemplo de «text analytics»
    30. 30. 32 Las empresas modernas generan documentos… … en cientos … … en miles … 5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
    31. 31. 33 Misión Descripción de puestos Normas Política interna Formularios Estándares Contratos Procesos de negocio Planificación estratégica Minutos 5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
    32. 32. 34 Esencial para la evolución de la organización Necesario para la formación de los interesados Un activo estratégico Pero : Complejo Costoso Difícil 5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción Controlar :
    33. 33. 35 « El registro revisa cada aplicación. »« El registro revisa cada aplicación. » Un experto analiza las frases pertinentes del ámbito « El registro revisa cada aplicación. »registro aplicaciónrevisa Registro Aplicaciónrevisa 5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción Análisis tradicional de textos
    34. 34. 36 documentos de empresas 5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
    35. 35. 37 ? 5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics» Metodología exploratoria de documentos reales a través de una cadena iterativa de tratamiento.
    36. 36. 38 EXTRACCION DE CONCEPTOS DEFINICION DE LAS RELACIONES REPARTO DE LAS FUNCIONES A B C D A B C DE F E F 5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics» • Extracción de los términos candidatos • Evaluación de la pertinencia • Modelo del conocimiento
    37. 37. 39 caro ruta señal prioridad hoja libro 5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics» Extracción de los «conceptos potenciales»
    38. 38. 40 Perfil de proyecto y evaluación de los riesgos proyecto Perfil de proyecto evaluación de los riesgos Perfil evaluación riesgos 5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»
    39. 39. ConclusionConclusion Características de los proyecto Multidisciplinario Técnicas mezcladas con semántica Aplicaciones innovadoras con impactos reales: sobre la productividad sobre la competitividad
    40. 40. 42 Una invitación de minería en el sector educativoUna invitación de minería en el sector educativo • http://www.kdd.org/kdd2010/kddcup.shtml • How generally or narrowly do students learn? • How quickly or slowly? • Will the rate of improvement vary between students? • What does it mean for one problem to be similar to another? • It might depend on whether the knowledge required for one problem is the same as the knowledge required for another. • But is it possible to infer the knowledge requirements of problems directly from student performance data, without human analysis of the tasks? • This year's challenge asks you to predict student performance on mathematical problems from logs of student interaction with Intelligent Tutoring Systems.
    41. 41. Referencias lincs.etsmtl.ca • Ratté, S., Ménard, P.A., Text mining and Text Analytics, in S. Ratté, F. Padilla (eds), Data Mining and Text Analytics, UAA Press, Mexico (à paraître). • Ménard, P.A., Ratté, S. “Classifier-based acronym extraction for business documents, Knowledge and Information Systems, Online First, 2010. • Cryans, J-D, Ratté, S., Champagne, R. Adaptation of Apriori to MapReduce to build a warehouse of relations between named entities accross the Web, 2nd International Conference on Advances in Databases, Knowledge, and Data Applications, Menuires, France, avril 2010.Tardif, O., Ratté, S. A Lightweight Pronoun Resolution Algorithm for French Corporate Texts, ICACTE - International Conference on Advanced Computer Theory and Engineering, IEEE Computer Society, Phuket, Thailande, 2008, pp. 714 – 718.Ratté, S., Njomgue, W., Ménard, P.A. Highlighting document’s structure, World Academy of Science, Engineering and Technology 31, 2007, pp. 34-38.

    ×