0
© 2012 #1traducción automáticapara LSPsDiego Bartolomé, CEO
© 2012 #2presentaciones
© 2012 #3¿dónde estamos?1954 machine translation movie
© 2012 #4¡nunca!no funciona para lo que hacemossalen errores muy gravesse equivoca en cosas muy sencillaspierdo más tiempo...
© 2012 #5... pero ...los precios van a la bajalos deadlines son cada vez más ajustadosla competencia es cada vez más durah...
© 2012 #6
© 2012 #7
© 2012 #8le podemos dar una oportunidadincrementa la productividadnos elimina ciertas tareas repetitivasmejora con el tiem...
© 2012 #9Gartner hype cycle
© 2012 #10en los 80/903 sistemas principales: Systran, Logos, Metalinterés renovado por 3 motivos principalesaumento de la...
© 2012 #11boom actualplena efervescencia de sistemasreglasbasados en ejemplosestadísticosbasados en contextoalternativas: ...
© 2012 #12
© 2012 #13modelo SMT
© 2012 #14sobre la SMTventajasrapidez de desarrollo de idiomas y dominiossuperioridad en aplicaciones acotadasalto volumen...
© 2012 #15productividad en Autodesk
© 2012 #16productividad según longitud
© 2012 #17¿qué tenemos en tauyou?demo ttext
© 2012 #18características<idiomas _ dominios _ palabras traducidas>ilimitadas<glosarios>traducciones y palabras prohibidas...
© 2012 #19creación de dominio<LSP> <tauyou>memorias de traducción corpus open-sourcedocumentos previos alineación document...
© 2012 #20y más<selección y limpieza de datos>tablas de traducción y modelos de lenguajedatos y parámetros para ajuste fin...
© 2012 #21el proceso de producción (I)decodificación SMTconversiónformatosegmentartextotareasNLPtokenizarreescribirorigenm...
© 2012 #22el proceso de producción (II)decodificación SMTficherotraducidoreformatear detokenizarreescribirdestinomayúscula...
© 2012 #23minimización del riesgo<tauyou>cálculo medidas calidad<LSP>análisis de coste y tiempo<LSP> + <tauyou>medir la ev...
© 2012 #24Niveles de calidadNivel Traducción Contenido Calidad1111 HumanaHumanaHumanaHumana Marketing, traducciones conMar...
© 2012 #25postedición suficientemente buenaSe intenta obtener una traducción correcta desde el punto devista semántico.Se ...
© 2012 #26postedición de calidadSe intenta obtener una traducción correcta desde el punto de vistagramatical, sintáctico y...
© 2012 #27casos habituales
© 2012 #28datos 1<gran volumen de datos heterogéneos>entrenamiento con todoclasificación semántica por dominiosajuste fino...
© 2012 #29datos 2<datos escasos>añadir diccionarios al corpuscompletar con segmentos complementarioscombinar datos del cli...
© 2012 #30datos 3<datos sucios>eliminar traducciones múltiplesdetectar texto en otros idiomascorregir ortografíaselecciona...
© 2012 #31datos 4<creación y mejora de datos>cliente final definidodocumentos traducidos sin alineartraducciones genéricas...
© 2012 #32cuestiones lingüísticas 1<palabras no traducidas>creación de diccionarios<errores gramaticales>reglas de post-pr...
© 2012 #33cuestiones lingüísticas 2<limpieza del texto original>ortografía y gramáticasimplificación de fraseshomogeneizac...
© 2012 #34caso de uso ...<volumen recurrentes>traducciones frecuencuesclientes de diferentes dominios<flujo>conseguir cuan...
© 2012 #35algunos consejosclientes más grandesidiomascon volúmenes más altoscon estructura similarcon necesidades o termin...
© 2012 #36otras soluciones<author>mejorar la calidad del texto originalcoherencia y simplificaciónortografía, gramática, s...
© 2012 #37¡Gracias!// Diego Bartolomé, PhD<dirección> C/ Les Planes 39 – 08201 Sabadell<teléfono> +34 93 711 29 96<móvil> ...
Upcoming SlideShare
Loading in...5
×

2012 Traducción Automática para LSPs

75

Published on

2-hour training on machine translation for Language Service Providers.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
75
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "2012 Traducción Automática para LSPs"

  1. 1. © 2012 #1traducción automáticapara LSPsDiego Bartolomé, CEO
  2. 2. © 2012 #2presentaciones
  3. 3. © 2012 #3¿dónde estamos?1954 machine translation movie
  4. 4. © 2012 #4¡nunca!no funciona para lo que hacemossalen errores muy gravesse equivoca en cosas muy sencillaspierdo más tiempo que empezando de cerola calidad final siempre será peornos va a quitar el trabajo...
  5. 5. © 2012 #5... pero ...los precios van a la bajalos deadlines son cada vez más ajustadosla competencia es cada vez más durahay diferentes niveles de calidad toleradoscada vez con más contenido para traduciry en más idiomasa veces, es necesario traducir en tiempo real
  6. 6. © 2012 #6
  7. 7. © 2012 #7
  8. 8. © 2012 #8le podemos dar una oportunidadincrementa la productividadnos elimina ciertas tareas repetitivasmejora con el tiemporeduce los costespermite acceder a nuevos clientesproporciona nuevos modelos de negociono sirve para todo
  9. 9. © 2012 #9Gartner hype cycle
  10. 10. © 2012 #10en los 80/903 sistemas principales: Systran, Logos, Metalinterés renovado por 3 motivos principalesaumento de la capacidad computacionalreducción del coste de hardware y softwareaparición de los modelos estadísticos (IBM)métodos basados en ejemplosprincipalmente en Japónproyecto de S2S: Verbmobil
  11. 11. © 2012 #11boom actualplena efervescencia de sistemasreglasbasados en ejemplosestadísticosbasados en contextoalternativas: crowdsourcingimportantes compañías involucradasIBM, SAP, Google, Microsoft ...
  12. 12. © 2012 #12
  13. 13. © 2012 #13modelo SMT
  14. 14. © 2012 #14sobre la SMTventajasrapidez de desarrollo de idiomas y dominiossuperioridad en aplicaciones acotadasalto volumen de texto multilingüe disponibleno necesita intervención lingüísticainconvenientesmetodología estadísticacómo particularizar
  15. 15. © 2012 #15productividad en Autodesk
  16. 16. © 2012 #16productividad según longitud
  17. 17. © 2012 #17¿qué tenemos en tauyou?demo ttext
  18. 18. © 2012 #18características<idiomas _ dominios _ palabras traducidas>ilimitadas<glosarios>traducciones y palabras prohibidas<formatos de ficheros>tmx, ttx, xliff, Déjà Vu, doc, docx, ppt, pptx,xls, xlsx, xml, html, rtf, InDesign, ...<y mucho más>aprendizajedinos lo que necesitas y lo hacemos
  19. 19. © 2012 #19creación de dominio<LSP> <tauyou>memorias de traducción corpus open-sourcedocumentos previos alineación documentaciónwebs de clientes información públicareglas programación de reglasotros datos extracción de terminología<algunas cuestiones>mínimo número de palabrasnecesidad de clasificación de datospares de idiomas
  20. 20. © 2012 #20y más<selección y limpieza de datos>tablas de traducción y modelos de lenguajedatos y parámetros para ajuste finomedidas de test<creación de motores>varios + purga<validación>por traductores profesionales<mejora continua>nuevos ficheros, corpus, reglas, etc...
  21. 21. © 2012 #21el proceso de producción (I)decodificación SMTconversiónformatosegmentartextotareasNLPtokenizarreescribirorigenminúsculas
  22. 22. © 2012 #22el proceso de producción (II)decodificación SMTficherotraducidoreformatear detokenizarreescribirdestinomayúsculasevaluación
  23. 23. © 2012 #23minimización del riesgo<tauyou>cálculo medidas calidad<LSP>análisis de coste y tiempo<LSP> + <tauyou>medir la evolución
  24. 24. © 2012 #24Niveles de calidadNivel Traducción Contenido Calidad1111 HumanaHumanaHumanaHumana Marketing, traducciones conMarketing, traducciones conMarketing, traducciones conMarketing, traducciones concertificcicertificcicertificcicertificcióóóón, documentacin, documentacin, documentacin, documentacióóóónnnnttttéééécnica muy especializadacnica muy especializadacnica muy especializadacnica muy especializadapara uso externo, webs depara uso externo, webs depara uso externo, webs depara uso externo, webs demucho trmucho trmucho trmucho trááááficoficoficoficoAltaAltaAltaAlta2222 MT posteditadaMT posteditadaMT posteditadaMT posteditada DocumentaciDocumentaciDocumentaciDocumentacióóóón e uso interno,n e uso interno,n e uso interno,n e uso interno,ppppááááginas web de trginas web de trginas web de trginas web de trááááfico mediofico mediofico mediofico medioMediaMediaMediaMedia3333 MT +terminologMT +terminologMT +terminologMT +terminologíííía,a,a,a,TM y/o diccionariosTM y/o diccionariosTM y/o diccionariosTM y/o diccionariosInformaciInformaciInformaciInformacióóóón bn bn bn báááásica, conocer elsica, conocer elsica, conocer elsica, conocer elcontenido del textocontenido del textocontenido del textocontenido del textoDebajo de laDebajo de laDebajo de laDebajo de lamediamediamediamedia4444 MT en brutoMT en brutoMT en brutoMT en bruto Medios sociales/digitales,Medios sociales/digitales,Medios sociales/digitales,Medios sociales/digitales,informaciinformaciinformaciinformacióóóón para clienten para clienten para clienten para clientePobrePobrePobrePobre
  25. 25. © 2012 #25postedición suficientemente buenaSe intenta obtener una traducción correcta desde el punto devista semántico.Se asegura que no se haya añadido ni omitido ningunainformación accidentalmente.Se modifica todo contenido ofensivo, inadecuado o no aceptableculturalmente.Se utiliza tanto como sea posible del resultado “en bruto” de latraducción automática.Se aplican las reglas básicas con respecto a la ortografía.No hay que implementar correcciones de naturaleza estilística.No hay que reestructurar oraciones solo para mejorar el flujonatural del texto.
  26. 26. © 2012 #26postedición de calidadSe intenta obtener una traducción correcta desde el punto de vistagramatical, sintáctico y semántico.Se asegura que la terminología clave esté correctamente traducida yque los términos no traducidos sean los que aparecen en la listade “Términos que no se deben traducir“ del cliente.Se asegura que no se haya añadido ni omitido ninguna información.Se modifica todo contenido ofensivo, inadecuado o no aceptableculturalmente.Se utiliza tanto como sea posible del resultado “en bruto” de latraducción automática.Se aplican reglas básicas con respecto a la ortografía, puntuación yguiones.Se asegura que el formato sea el correcto.
  27. 27. © 2012 #27casos habituales
  28. 28. © 2012 #28datos 1<gran volumen de datos heterogéneos>entrenamiento con todoclasificación semántica por dominiosajuste fino para cada clientepriorización por glosariosaprendizaje continuo
  29. 29. © 2012 #29datos 2<datos escasos>añadir diccionarios al corpuscompletar con segmentos complementarioscombinar datos del cliente con texto genéricoadaptación a dominio en base a genéricoaumentar el número de frases con reglas
  30. 30. © 2012 #30datos 3<datos sucios>eliminar traducciones múltiplesdetectar texto en otros idiomascorregir ortografíaseleccionar frases con gramática correctaalineación con terminología del clientefiltrar otros segmentos indeseados
  31. 31. © 2012 #31datos 4<creación y mejora de datos>cliente final definidodocumentos traducidos sin alineartraducciones genéricascreacion del corpus/memorias óptimasextensión y filtrado basado en reglas
  32. 32. © 2012 #32cuestiones lingüísticas 1<palabras no traducidas>creación de diccionarios<errores gramaticales>reglas de post-proceso<filtrado de calidad>eliminar aquellas que no cumplan requisitos
  33. 33. © 2012 #33cuestiones lingüísticas 2<limpieza del texto original>ortografía y gramáticasimplificación de fraseshomogeneización terminológica<detección de palabras especiales>personas, lugares, organizacionescódigos alfanuméricos
  34. 34. © 2012 #34caso de uso ...<volumen recurrentes>traducciones frecuencuesclientes de diferentes dominios<flujo>conseguir cuanto más datos mejorrecibir un nuevo fichero para traducircrear un dominio ad-hoc para ese ficheroentrenar la solución y reglas básicas<salida>adaptación óptima en alrededor 4 horas
  35. 35. © 2012 #35algunos consejosclientes más grandesidiomascon volúmenes más altoscon estructura similarcon necesidades o terminología específicainvolucrar a traductores innovadoresempezar ... probar
  36. 36. © 2012 #36otras soluciones<author>mejorar la calidad del texto originalcoherencia y simplificaciónortografía, gramática, semántica<web>traducción de páginas webMT + postedición automática<API>integración en otras aplicacionesposibilidad de tiempo real
  37. 37. © 2012 #37¡Gracias!// Diego Bartolomé, PhD<dirección> C/ Les Planes 39 – 08201 Sabadell<teléfono> +34 93 711 29 96<móvil> +34 670 331 225<email> dbc@tauyou.com<www> tauyou.com
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×