Procesamiento del LenguajeNatural para la Ingeneria deRequerimientos:Aplicabilidad paradocumentos largos
IntroducciónUna clave primordial para que un proyecto desoftware tenga éxito, es una especificaciónprecisaLas especificaci...
1.1- Trabajo a fin -Relacionado-  El fin de la mayoría de los usos de el procesamiento natural   del lenguaje no es enten...
 Kevin Ryan.Afirma que el modelo de dominio producido por NLP puedeestar incompleto, ya que cierta información que se pie...
Ben Achor.Clasifica los métodos de lingüística, ya sea sintáctica osemántica.Ej.AbstFinderExtrae los términos (léxico) que...
En el enfoque sintáctico como Abbott, se analizan todas laspartes del documento (verbos, sustantivos, etc) o busca porsent...
Chris Rupp define una serie de reglas de escritura. La plantilla defineque    argumentos     son     necesarios     para  ...
1.2-OBJETIVOS DE NUESTRO       TRABAJO1. Aprender a escribir menos ambiguo y con mas precisión.Significa que se utilizan r...
2- EXTRACCION DE LAONTOLOGIA: ENFOQUELa extracción del conocimiento del dominio consiste en 3pasos.1. Extracción de los té...
3. Buscando asociaciones entre los términos extraídos.En este paso se toma la taxonomía generada en el segundopaso como en...
Reglas que se debenseguir:(1)Utilice siempre el mismo nombre para el mismo concepto.Utilice siempre la forma completa en...
Reglas que se deben seguir:(2) No utilizar los verbos “be" y “have“. No utilizar las referencias cruzadas de una frase c...
Proceso escalable?? EL proceso tendrá la capacidad de ser extendido sin perder  calidad? Esto nos ha permitido identific...
1°. Preparación del documento Este paso en textos pequeños es muy fácil y rápido ya que se  requiere que el formato de te...
2° Análisis y extracción deinformación. Extraer el predicado, el sujeto y los objetos de cada frase.  Con esto se obtuvo ...
3°. Fraseo de Listas y Tablas: Resultó que las listas y las tablas fueron la principal fuente  de frases incompletas, ya ...
4°. Taxonomía de extracción Se refiere a encontrar conceptos clasificados, esto produjo  muchos problemas ya que se utili...
4.5 Asociación de la MineriaKAONEs OpenSourceCreación y mantenimiento de ontologías, utilizada poraplicaciones de negocios...
Ontología.- formulación de un esquema conceptualdentro de uno o varios dominios dados; con la finalidadde facilitar la com...
Se hizo un análisis por sentencia, y se identificaron laspalabras más comunes.El resultado fueron mas de 1000 asociaciones...
Para construir la ontología se tomaron encuenta las asociaciones donde la frecuenciaabsoluta >=5.Es decir, pares de concep...
4.6 Caso de Estudio tablero de  mandosSe verifico que si la forma de extraer la ontología para documentosgrandes todavía f...
En el esquema anterior se puede observar las ontologías extraídas.(kaon:Root) es la mayor, sus subclases y las relaciones ...
Las fechas le dan sentido para formar oraciones.El otro objetivo del instrument cluster case study, era testear laescalabi...
En resumenEl objetivo es definir/extraer de un documento las palabras(ontología) más utilizadas por el experto del dominio...
Formar una ontologíaLo primero que se debe de hacer es la extracción de términos (seetiquetan con las partes del discurso ...
Construir la taxonomía (la herramienta ASIUM pararealizar la clasificación de los términos) parafinalmente encontrar las a...
Reglas del TextoUsar siempre el mismo nombre para el mismo concepto. (Como porejemplo, en nuestro proyecto del auto inteli...
No utilizar los verbos “be” and “have”. Ya que no proveen muchainformación para lector humano y para la computadora creamu...
Natural language processing
Upcoming SlideShare
Loading in …5
×

Natural language processing

1,249 views

Published on

Procesamiento del Lenguaje Natural para la Ingeneria de Requerimientos: Aplicabilidad para documentos largos

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,249
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Natural language processing

  1. 1. Procesamiento del LenguajeNatural para la Ingeneria deRequerimientos:Aplicabilidad paradocumentos largos
  2. 2. IntroducciónUna clave primordial para que un proyecto desoftware tenga éxito, es una especificaciónprecisaLas especificaciones formales son ideales parael desarrollador de software.La gran mayoría de las especificaciones estánescritas en lenguaje natural, para el lector esmuy importante identificar los conceptos usadospor el escritor de tales especificaciones.
  3. 3. 1.1- Trabajo a fin -Relacionado-  El fin de la mayoría de los usos de el procesamiento natural del lenguaje no es entender el texto, si no extraer conceptos contenidos en el documento.
  4. 4.  Kevin Ryan.Afirma que el modelo de dominio producido por NLP puedeestar incompleto, ya que cierta información que se piensa quees “Conocimiento del dominio Común” es omitida en el textode requerimientos, pero eso ya es una tarea de los ingenierosde requerimientos para la detección de tales omisiones.-Un modelo incompleto seria un indicador de omisiones detexto-
  5. 5. Ben Achor.Clasifica los métodos de lingüística, ya sea sintáctica osemántica.Ej.AbstFinderExtrae los términos (léxico) que se producen repetidamente enel texto de especificaciones. Este método es bastante robustopor que no se basa en la parte de análisis de habla.Simplemente considera frases como secuencia de caracteresy busca subsecuencias comunes en diferentes frases.
  6. 6. En el enfoque sintáctico como Abbott, se analizan todas laspartes del documento (verbos, sustantivos, etc) o busca porsentencias especiales.Abbott, analiza los sustantivos usando parta construir elprograma.Chen, va mas allá y produce diagramas E/R (entidad/relación)como el resultado del análisis.Chris Rupp, Nattoch Dag and Fabbrini, ellos estánrelacionados en el sentido de que ellos también analizandocumentos de requerimientos escritos en lenguaje natural.Su fin no es automatizar la extracción de información de lostextos.
  7. 7. Chris Rupp define una serie de reglas de escritura. La plantilla defineque argumentos son necesarios para cada verbo.De las sentencias escritas de acuerdo a la plantilla se pueden extraerfácilmente los actores, acciones y objetos dentro del texto.El fin de este enfoque es unificar la escritura, la cual te permiteproducir mejores documentos de requerimientos, pero no te ofrece laautomatización para analizar el texto.
  8. 8. 1.2-OBJETIVOS DE NUESTRO TRABAJO1. Aprender a escribir menos ambiguo y con mas precisión.Significa que se utilizan reglas de escritura, hacen el texto menosambiguo y mas preciso en el punto de vista del ser humano.2. Aprender a detectar ambigüedades y imprecisionesLeer el documento y eliminar todas las ambigüedades e imprecisiones.3. Usar un lenguaje natural restringido, el cual es no es ambiguo y esmas preciso.Gracias al uso correcto de la gramática podemos extraer la ontologíadel dominio del texto.
  9. 9. 2- EXTRACCION DE LAONTOLOGIA: ENFOQUELa extracción del conocimiento del dominio consiste en 3pasos.1. Extracción de los términosSujetos y objetos son los términos que se quieren extraer, lospredicados son usados para clasificar términos.2. Agrupación de términos y la creación/construcción de lataxonomía.Los términos extraídos son agrupados de acuerdo a sucontexto gramatical.
  10. 10. 3. Buscando asociaciones entre los términos extraídos.En este paso se toma la taxonomía generada en el segundopaso como entrada y se enriquece por la asociación generalentre los términos extraídosLa idea esta tomada desde la minería de datos. El texto seconsidera como una transacción de una base de datos.Después del ultimo paso obtenemos una aplicación inicial delmodelo del dominio, representada como un árbol binariorelacionado entre esos términos.
  11. 11. Reglas que se debenseguir:(1)Utilice siempre el mismo nombre para el mismo concepto.Utilice siempre la forma completa en el caso de nombrescompuestos, es decir, "dejar mensaje o iniciarmensaje "en lugar de" detener o iniciar mensaje ".
  12. 12. Reglas que se deben seguir:(2) No utilizar los verbos “be" y “have“. No utilizar las referencias cruzadas de una frase como Mensaje X es enviada a la unidad Y
  13. 13. Proceso escalable?? EL proceso tendrá la capacidad de ser extendido sin perder calidad? Esto nos ha permitido identificar los pasos que requieren mucho tiempo que potencialmente no escalan:
  14. 14. 1°. Preparación del documento Este paso en textos pequeños es muy fácil y rápido ya que se requiere que el formato de texto contenga una sola frase por línea. Un día de trabajo manual
  15. 15. 2° Análisis y extracción deinformación. Extraer el predicado, el sujeto y los objetos de cada frase. Con esto se obtuvo que había un problema adicional con el texto que contiene frases incompletas e incorrectas gramaticalmente:Ejemplo:Si la corriente de alta velocidad-V <30 km
  16. 16. 3°. Fraseo de Listas y Tablas: Resultó que las listas y las tablas fueron la principal fuente de frases incompletas, ya que la relación entre los conceptos no tienen una estructura gramaticalmente. Hasta este punto 2.5 días de trabajo manual.
  17. 17. 4°. Taxonomía de extracción Se refiere a encontrar conceptos clasificados, esto produjo muchos problemas ya que se utilizan los mismos conceptos para denotar diferentes términos: Para esto se usaron 1.5 días. Hasta este punto 4 días de trabajo manual.
  18. 18. 4.5 Asociación de la MineriaKAONEs OpenSourceCreación y mantenimiento de ontologías, utilizada poraplicaciones de negocios.(Dl Workbench, OilEd, OntoEdit, Protege)
  19. 19. Ontología.- formulación de un esquema conceptualdentro de uno o varios dominios dados; con la finalidadde facilitar la comunicación e intercambio deinformación entre diferentes sistemas . AnalogíaCampos de aplicación : IA y la representación delconocimiento
  20. 20. Se hizo un análisis por sentencia, y se identificaron laspalabras más comunes.El resultado fueron mas de 1000 asociaciones potenciales.Después se ordenaron lexicalmente.
  21. 21. Para construir la ontología se tomaron encuenta las asociaciones donde la frecuenciaabsoluta >=5.Es decir, pares de conceptos queaparecieran 5 o más veces en la mismasentencia. Se redujo a un 25% de lasasociaciones.Tiempo para validar manualmente éstasasociaciones : 1Días utilizados hasta esta etapa: 5
  22. 22. 4.6 Caso de Estudio tablero de mandosSe verifico que si la forma de extraer la ontología para documentosgrandes todavía funcionaba y si se justificaba el tiempo de utilizado.
  23. 23. En el esquema anterior se puede observar las ontologías extraídas.(kaon:Root) es la mayor, sus subclases y las relaciones entre ellas.Se muestras relaciones ; is a – con la línea de grosor variable.Cajas blancas: denotas conceptos y clases de conceptos.Cajas obscuras: son propiedades/asociaciones
  24. 24. Las fechas le dan sentido para formar oraciones.El otro objetivo del instrument cluster case study, era testear laescalabilidad del acercamiento.Se extrajeron los conceptos y las asociaciones; además se corrigieroninconsistencias. Y los 5 días de trabajo, para un documento de 80hojas estuvo justificado
  25. 25. En resumenEl objetivo es definir/extraer de un documento las palabras(ontología) más utilizadas por el experto del dominio o el usuariofinal para que el tanto el éste como el desarrollador de softwarepuedan definir un lenguaje en común entre ambas partes.Un requerimiento mal formado es ambiguo e impreciso.
  26. 26. Formar una ontologíaLo primero que se debe de hacer es la extracción de términos (seetiquetan con las partes del discurso (Parts of Speech) que sumannueve en total, siendo los verbos quienes se utilizan para clasificar alos sujetos y a los objetos),
  27. 27. Construir la taxonomía (la herramienta ASIUM pararealizar la clasificación de los términos) parafinalmente encontrar las asociación existente entrelos términos que fueron extraídos (se genera unárbol con los términos y sus relaciones entre ellos).
  28. 28. Reglas del TextoUsar siempre el mismo nombre para el mismo concepto. (Como porejemplo, en nuestro proyecto del auto inteligente, hubo ocasiones quenos referiamos al carro como: carro o automovil, lo cual no esrecomendable).En el caso de nombres compuestos, utilizar de preferencia con unguión “mode-normal”. (En el idioma inglés, es más frecuente que en elespañol encontrarse con éste tipo de compound names, es decir sontérminos o cosas que se componen de dos palabras). Siempre utilizarla forma completa de los compound names: “detener mensaje o iniciarmensaje” en lugar de utilizar “detener o iniciar mensaje”
  29. 29. No utilizar los verbos “be” and “have”. Ya que no proveen muchainformación para lector humano y para la computadora creamuchos conceptos que no se relacionan. Pero sí se pueden utilizaren los casos de la forma pasiva o de sentencias en perfect (comoel present perfect, el perfect continuos, past perfect).Lo que sigue en el trabajo de extración es poner las oraciones deuna por línea. Y aunque existen herramientas para ésteprocedimiento, los investigadores dicen que se da mejor resultadossí se hace manualmente.Después se tiene que sacar las asociaciones y se puedan declararlos términos con mayor frecuencia para formar el árbol con laontología extraída y una relación entre ellos. Para lo cual existeuna nomenclatura que incluyen flecha, cajas blancas , cajasnegras.

×