Segunda Entrega

592 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
592
On SlideShare
0
From Embeds
0
Number of Embeds
283
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Segunda Entrega

  1. 1. SEGUNDA ENTREGA.Proyecto: Natural Language Processing.
  2. 2.  RESUMEN DEL PROYECTO: Nuestro proyecto consiste en un pequeño traductor (Machine translation) que permita traducir pequeñas frases de un idioma a otro (inglés – español).Cambios: El traductor lo crearemos para que funcione en una página web.
  3. 3.  AVANCES: Lo primero fue aprender python porque no todos en el equipo estamos familiarizados con ese lenguaje y conocer algunas funciones de NTLK como Tokenization, Stopwords, Stemming, Lemmatizing entre otras que nos ayudaron a comprender mejor la Lingüística Computacional. Conocer el framework web Django para crear el traductor en una página web. Además de conocer algunas técnicas que se utilizan en los traductores como : Word-Based Models. Phrase-Based Models. Decoding.
  4. 4.  Hemos agregado a los recursos un libro y tutoriales acerca de Machine Translation con los que hemos podido conocer mejor el funcionamiento de un traductor. Además de un pequeño libro acerca de Django un framework que nos permitirá crear el traductor en una pagina web ya que Django esta diseñado principalmente para hacer más fácil el desarrollo de una aplicación web utilizando el patrón de Modelo Vista Controlador (MVC).
  5. 5.  Todavía nos falta conocer algunas técnicas mas que utilizan los traductores como Language Models, Evaluation Discriminative Training, Integrating Linguistic Information, Tree-Based Models entre otras que son importantes para poder empezar a programar y traducir pequeñas frases. Hasta ahora nuestro principal problema a sido la falta de información, no hemos podido encontrar información en Español de Machine Translate, pero pudimos encontrar información en ingles de un libro y tutoriales que nos dieron mas información de como se construye un traductor.
  6. 6. Nombre de la Porcentaje Duración Comienzo Fintarea realizada: de trabajo: Aprender 70% 6 días lun 27/08/12 lun 02/09/12 python Investigación 80% 11 días lun 03/09/12 Vie 14/09/12 de como funciona un traductor Diseño del 15% ? días Jue 13/09/12 ------ traductor Aprender 15% 8 días Jue 13/09/12 Vie 21/09/12Django(framew ork web)Aprender a usar 25% 20 días Mie 05/09/12 Mar 25/09/12 NLTK.
  7. 7. ALGUNAS INVESTIGACIONES:Basado en modelos de Palabras• Traducción TextualEn este tipo de traducciones, es la que se da cuando se traduceliteralmente una palabra, esto se puede comparar con la búsquedade palabras en un Diccionario, en donde uno busca una palabra en eldiccionario y este nos muestra una serie de significados para dichapalabra.Por ejemplo: Cuando buscamos el la traducción de la palabra“House” este nos puede dar una serie de traducciones.• House casa• Domicilio• hospedaje
  8. 8. • ReordenaciónAsí como tenemos lo que es la Alineación, en donde cada palabraes traducida directamente desde el idioma original al deseado,tenemos lo que es la Reorganización.Este proceso consiste en tomar la frase original y en vez de darleuna traducción de palabra a palabra, acomodándoles en su ordenoriginal, en esta ocasión las palabras son cambiadas de posiciónpara dar una traducción aceptable para dicha frase.
  9. 9. • Insertar PalabrasEntro otros métodos tenemos a lo que se puede llamar, InsertarPalabras, en este método tenemos nuestra frase original la cual ala hora de ser traducida tenemos como resultado una frase conuna mayor cantidad de palabras que la original.• Modelo basado en frasesVentajas:1. Se pueden manejar frases no composicionales2. Usa el contexto local en la traducción3. Las frases más largas se pueden aprender
  10. 10. • Frases lingüísticasEl modelo no se limita a frases lingüísticas( frases verbales,preposiciones, etc.)El sustantivo ayuda con la traducción de la preposición• El aprendizaje de una tabla de traducción de frases:Su tarea es aprender el modelo en tres etapas1. Alineación de palabras2. Extracción de pares de frases3. Anotar pares de frases
  11. 11. • Aprender Reordenamiento lexicalizadoRecopilar información de orientación durante la extracción defrases parejas:1. Si el punto de alineación palabra a la parte superior izquierda existe = >monótono2. Si un punto de alineación palabra a la parte superior derecha existe => intercambiar3. Si no un punto de alineación palabra a la parte superior izquierda ni a la derecha superior existe4. Ni monótono ni intercambio => discontinuo
  12. 12.  RECURSOS Y HERRAMIENTAS:• Tutoriales:PROCESAMIENTO DEL LENGUAJE NATURALhttp://www.esp.uem.es/jmgomez/pln/index.htmlhttp://cseweb.ucsd.edu/~dkauchak/mt-tutorhttp://www.hutchinsweb.me.uk/IntroMT-TOC.htm• Documentación:http://www.python.org/
  13. 13. Libros:1. How to Think Like a Computer Scientist by Allen Downey, Jeffrey Elkner and Chris Meyers.2. Dive into Python by Mark Pilgrim.3. Code Like a Pythonista: Idiomatic Python by David Goodger.4. The Python Programming Wikibook.5. Learn python the hardway by Zed A. Shaw http://learnpythonthehardway.org/book/6. Natural Language Processing with Python by Steven Bird, Ewan Klein, Edward Loper. https://sites.google.com/site/naturallanguagetoolkit/book
  14. 14. 7. Statistical Machine Translation.Autor: Philipp Koehn.Editorial: Publisher: Cambridge University Press.http://www.statmt.org/book/8. The Django Book.Autores: Jacob Kaplan-Moss y Adrian Holovaty.http://www.djangobook.com/
  15. 15. • Videos:https://www.coursera.org/course/nlp• Lecture-notes acerca de Natural Lenguage Processing:http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-864-advanced-natural-language-processing-fall-2005/lecture-notes/http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-863j-natural-language-and-the-computer-representation-of-knowledge-spring-2003/lecture-notes/
  16. 16.  De los recursos en donde buscamos información nos han sido de utilidad principalmente los libros del lenguaje Python, el libro de Django para poder tener un mejor diseño de la pagina ,el libro de la librería de python NLTK, los tutoriales y libros de Static Machine Translation, en los libros y notas de NLP se habla acerca de este tema pero solo un poco de Machine Translation ya que es una rama de este campo.
  17. 17.  DESARROLLO DEL PROGRAMA UTILIZANDO EL PATRÓN MVC USANDO DJANGO: Clase models.py: corresponde al modelo, esta parte que conforma la lógica del traductor incluye la traducción, normalización de los datos, análisis sintatico, decodificador entre otras cosas. Clase views.py: corresponde a la vista este presenta el modelo en un formato adecuado para interactuar, usualmente la interfaz de usuario, la pagina Web del traductor. Clase urls.py: corresponde al controlador la información que se envía atreves de la vista en este caso son el texto que se desea traducir este las envía a la siguiente capa que es el modelo para su procesamiento.
  18. 18.  DISEÑO DEL TRADUCTOR.

×