Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Caso de éxito: Recomendación de normas de Aenor usando técnicas de Recuperación de Información

106 views

Published on

Durante esta sesión haremos una breve introducción al proceso de Information Retrieval y analizaremos los principales conceptos:- Query expansion- Word Embedding- Matching- Retrieval Model (Métricas de recuperación) - Word Mover's distance - Word Centroid Distance - Doc2Vec InferenceA parte de utilizar los clásicos modelos como tf-idf, también veremos como utilizar distintos modelos de word embedding para facilitar una recuperación semántica.- FastText- Word2Vec- Doc2Vec

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Caso de éxito: Recomendación de normas de Aenor usando técnicas de Recuperación de Información

  1. 1. Caso de éxito: Buscador de normas de AENOR
  2. 2. ORGANIZATION Thank you!
  3. 3. dmateos@aenor.com Soy Licenciado en Informática en la Universidad Politécnica de Madrid. Formo parte del equipo del departamento de IT de AENOR como Gerente de Desarrollo y Arquitectura. Actualmente inmersos en un Plan de Sistemas, y en la mejora continua de metodologías de trabajo en los distintos equipos para ofrecer el mejor servicio. Mi trayectoria profesional ha evolucionado desde un inicio puramente técnico hacía funciones de “management”, muy enfocado a entender, asesorar y acompañar las necesidades de los clientes. David Mateos Fernández Gerente Desarrollo y Arquitectura en AENOR
  4. 4. Rodrigo Cabello Malagón @mrcabellom mrcabello@plainconcepts.com MVP on Artificial Intelligence Software Development Engineer
  5. 5. Necesidades
  6. 6. Carencias identificadas • Complejidad al buscar información técnica fiable y precisa. Un mismo producto o servicio puede estar referenciado en varios estándares. • Riesgo de uso de estándares obsoletos o partes de estándares que no se correspondan con las exigencias aplicables a los productos o servicios puestos en el mercado. • Hay usuarios que no conocen la terminología técnica que se utiliza en los estándares, lo que les supone obstáculo para acceder a ella. • Cada país de LATAM utiliza una terminología propia para la búsqueda de información.
  7. 7. Objetivo de la solución • Cualquier usuario podrá encontrar información en los estándares comercializados por AENOR de una forma rápida e intuitiva. • Distribuir el conocimiento entre todos los usuarios, profesionales y sectores de mercado. • Ayudar en la transferencia tecnológica hacia los países de LATAM facilitando la adopción de estándares. • Ofrecer la información en cualquier formatos digital. • Modernizar los servicios asociados a la Marca AENOR. • Nuevo modelo basado en servicio adaptado a las necesidades del cliente actual.
  8. 8. Beneficios esperados • Disminuir los tiempos y costes a los usuarios, facilitándoles herramientas de búsqueda precisas en los estándares, ofreciendo la respuesta esperada. • Acelerar el “Time to Market”. • Apertura del mercado a otros segmentos de clientes. • Mejorar posicionamiento en países LATAM. • Incremento en la satisfacción de cliente. • Aumenta los beneficios y marca de AENOR.
  9. 9. Modelo basado en Prototipos
  10. 10. Objetivo del prototipo • Evaluar la solución a implementar. • Validar las necesidades reales. • Identificar nuevas necesidades o posibles modelos de negocio. • Identificar riesgos, puntos de atención, y/o carencias en los equipos de trabajo y las etapas del prototipo
  11. 11. Alcance del prototipo • Obtener un sistema basado en IA que, a partir de una entrada de texto, realice una búsqueda por coincidencia exacta de términos y/o relación semántica. • Búsquedas sobre el Sector de Sanidad. • Colaboración del equipo del Sector de Sanidad de AENOR • Colaboración de un equipo técnico altamente cualificado en proyectos similares • Base tecnológica basada en las tendencias del mercado • Diseño de una arquitectura con capacidades de rendimiento, seguridad y adaptación a los distintos escenarios y necesidades.
  12. 12. Solución Tecnológica
  13. 13. Arquitectura de la solución
  14. 14. Pre-procesado documentos 1200 Documentos del sector sanidad. Formato .docx Parseo y limpieza secciones Conversión texto plano • Portada e Índice. • Introducción. • Anexos. • Notas. python-docx NLP NLTK • Eliminar stop words • Tokenización de palabras.
  15. 15. Metadatos normas SDK Aenor Metadatos normas ... CosmosDB { "ds_icss": "Servicios para consumidores#Equipo para deportes de interior#Equipo para deportes al aire libre y acuáticos", "cd_ctn_plenario": "CTN 309", "sector": "Servicios", "nombre_plenario": "SERVICIOS", "codigo": "EA 0054:2015", "index": 4, "estado": "En vigor", "cd_ctn_norma": "CTN 309/GT 1", "storedindex": 4, "descriptores": "DEPORTE, INSTALACION PARA DEPORTES, MANTENIMIENTO, SEGURIDAD, SERVICIO", "documento": "EA_0054=2015.docx", "nombre_ctn_norma": "PRESTACIÓN DE SERVICIOS PARA LA PRÁCTICA DE ACTIVIDADES DEPORTIVAS", "titulo_norma": "Servicios para la práctica de actividades deportivas.", "cd_identificador": "N0054659", "id": "6e9ed6fb-49e1-4727-8a7b-21e4c8ce9e95", "_rid": "uLtYAPON33oBAAAAAAAAAA==", "_self": "dbs/uLtYAA==/colls/uLtYAPON33o=/docs/uLtYAPON33oBAAAAAAAAAA==/", "_etag": ""00002f07-0000-0000-0000-5b97b7a50000"", "_attachments": "attachments/", "_ts": 1536669605 }
  16. 16. Transformación y tokenización Expansión consulta Recuperación de información consulta Word Embedding Word2Vec Glove Doc2Vec FastText Disjunctive Matching Doc.Index Matching Modelo de Recuperación Word Mover’s distance Word Centroid Similarity Doc2Vec Inference Evaluación Gold standard resultado Tf-IDF
  17. 17. Análisis de la consulta • Transformación y tokenización de la consulta. • Eliminación de stop words y signos de puntuación. • Dependiendo del tamaño de la consulta: • Expansión de la query para obtener mejores resultados. • Expansión centroide. Word2Vec coche grande Modelo de Recuperación Tf-idf Expansión centroide Coche Vehículo, automóvil, grande, amplio
  18. 18. Disjunctive Matching Count Vectorizer (Binary) love dogs Doc1 Doc2 Exclusive OR Matching
  19. 19. Modelo Recuperación TF-IDF • Elevada frecuencia en el documento pero no en el resto de documentos. Tf-idfTf-idf contenido título + *2=
  20. 20. Modelo Recuperación IWCD Word2Vec Vocabulario -> ~70.000 palabras Word embedding Word2Vec • Fichero .vec Wikipedia. • Actualización vocabulario. Vocabulario -> ~1.100.200
  21. 21. Modelo Recuperación IWCS Word2Vec Similitud del coseno Word2Vec Tf-idf Matrix * WordEmbedding_Weights Tf-Matrix * WordEmbedding_Weights Inverse Word Centroid Similarity Word Centroid Similarity Centroides C
  22. 22. Produccionalización • Azure Machine Learning Services. • Versionado y registro de modelos. • Api de scoring: • Método Tf-Idf • Método semántico azureml-sdk consulta Tf-Idf ó semántico metadatos
  23. 23. Conclusiones
  24. 24. Resultado del Prototipo • Se cumplen las expectativas funcionales, y se lanza como proyecto. • Tecnológicamente ofrece grandes capacidades de adaptarse y crecer en distintos escenarios. • Se confirma la posibilidad de expansión internacional para favorecer el crecimiento. • Identificadas nuevas funcionalidades a implementar: o Comparar estándares entre diferentes años. o Identificar nuevos requerimientos asociados a un producto o servicio. o Identificar las obligaciones dentro de un estándar. o Identificar secciones específicas: fórmulas, medidas…
  25. 25. Puntos de atención • No todos los estándares del sector de Sanidad tienen una estructura definida, lo que imposibilita la clasificación total. Se lanza una nueva iniciativa para analizar como estructurar o clasificar todos los estándares comercializados por AENOR. • Para realizar un entrenamiento óptimo en un Sector, es necesario disponer del 100% de los estándares cargados. • Las tareas de entrenamiento son clave para obtener un resultado de calidad.
  26. 26. Questions & Answers
  27. 27. Thanks and … See you soon! Thanks also to the organization Without whom this would not have been posible.

×