• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
2012 Traducción Automática para LSPs
 

2012 Traducción Automática para LSPs

on

  • 122 views

2-hour training on machine translation for Language Service Providers.

2-hour training on machine translation for Language Service Providers.

Statistics

Views

Total Views
122
Views on SlideShare
122
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    2012 Traducción Automática para LSPs 2012 Traducción Automática para LSPs Presentation Transcript

    • © 2012 #1traducción automáticapara LSPsDiego Bartolomé, CEO
    • © 2012 #2presentaciones
    • © 2012 #3¿dónde estamos?1954 machine translation movie
    • © 2012 #4¡nunca!no funciona para lo que hacemossalen errores muy gravesse equivoca en cosas muy sencillaspierdo más tiempo que empezando de cerola calidad final siempre será peornos va a quitar el trabajo...
    • © 2012 #5... pero ...los precios van a la bajalos deadlines son cada vez más ajustadosla competencia es cada vez más durahay diferentes niveles de calidad toleradoscada vez con más contenido para traduciry en más idiomasa veces, es necesario traducir en tiempo real
    • © 2012 #6
    • © 2012 #7
    • © 2012 #8le podemos dar una oportunidadincrementa la productividadnos elimina ciertas tareas repetitivasmejora con el tiemporeduce los costespermite acceder a nuevos clientesproporciona nuevos modelos de negociono sirve para todo
    • © 2012 #9Gartner hype cycle
    • © 2012 #10en los 80/903 sistemas principales: Systran, Logos, Metalinterés renovado por 3 motivos principalesaumento de la capacidad computacionalreducción del coste de hardware y softwareaparición de los modelos estadísticos (IBM)métodos basados en ejemplosprincipalmente en Japónproyecto de S2S: Verbmobil
    • © 2012 #11boom actualplena efervescencia de sistemasreglasbasados en ejemplosestadísticosbasados en contextoalternativas: crowdsourcingimportantes compañías involucradasIBM, SAP, Google, Microsoft ...
    • © 2012 #12
    • © 2012 #13modelo SMT
    • © 2012 #14sobre la SMTventajasrapidez de desarrollo de idiomas y dominiossuperioridad en aplicaciones acotadasalto volumen de texto multilingüe disponibleno necesita intervención lingüísticainconvenientesmetodología estadísticacómo particularizar
    • © 2012 #15productividad en Autodesk
    • © 2012 #16productividad según longitud
    • © 2012 #17¿qué tenemos en tauyou?demo ttext
    • © 2012 #18características<idiomas _ dominios _ palabras traducidas>ilimitadas<glosarios>traducciones y palabras prohibidas<formatos de ficheros>tmx, ttx, xliff, Déjà Vu, doc, docx, ppt, pptx,xls, xlsx, xml, html, rtf, InDesign, ...<y mucho más>aprendizajedinos lo que necesitas y lo hacemos
    • © 2012 #19creación de dominio<LSP> <tauyou>memorias de traducción corpus open-sourcedocumentos previos alineación documentaciónwebs de clientes información públicareglas programación de reglasotros datos extracción de terminología<algunas cuestiones>mínimo número de palabrasnecesidad de clasificación de datospares de idiomas
    • © 2012 #20y más<selección y limpieza de datos>tablas de traducción y modelos de lenguajedatos y parámetros para ajuste finomedidas de test<creación de motores>varios + purga<validación>por traductores profesionales<mejora continua>nuevos ficheros, corpus, reglas, etc...
    • © 2012 #21el proceso de producción (I)decodificación SMTconversiónformatosegmentartextotareasNLPtokenizarreescribirorigenminúsculas
    • © 2012 #22el proceso de producción (II)decodificación SMTficherotraducidoreformatear detokenizarreescribirdestinomayúsculasevaluación
    • © 2012 #23minimización del riesgo<tauyou>cálculo medidas calidad<LSP>análisis de coste y tiempo<LSP> + <tauyou>medir la evolución
    • © 2012 #24Niveles de calidadNivel Traducción Contenido Calidad1111 HumanaHumanaHumanaHumana Marketing, traducciones conMarketing, traducciones conMarketing, traducciones conMarketing, traducciones concertificcicertificcicertificcicertificcióóóón, documentacin, documentacin, documentacin, documentacióóóónnnnttttéééécnica muy especializadacnica muy especializadacnica muy especializadacnica muy especializadapara uso externo, webs depara uso externo, webs depara uso externo, webs depara uso externo, webs demucho trmucho trmucho trmucho trááááficoficoficoficoAltaAltaAltaAlta2222 MT posteditadaMT posteditadaMT posteditadaMT posteditada DocumentaciDocumentaciDocumentaciDocumentacióóóón e uso interno,n e uso interno,n e uso interno,n e uso interno,ppppááááginas web de trginas web de trginas web de trginas web de trááááfico mediofico mediofico mediofico medioMediaMediaMediaMedia3333 MT +terminologMT +terminologMT +terminologMT +terminologíííía,a,a,a,TM y/o diccionariosTM y/o diccionariosTM y/o diccionariosTM y/o diccionariosInformaciInformaciInformaciInformacióóóón bn bn bn báááásica, conocer elsica, conocer elsica, conocer elsica, conocer elcontenido del textocontenido del textocontenido del textocontenido del textoDebajo de laDebajo de laDebajo de laDebajo de lamediamediamediamedia4444 MT en brutoMT en brutoMT en brutoMT en bruto Medios sociales/digitales,Medios sociales/digitales,Medios sociales/digitales,Medios sociales/digitales,informaciinformaciinformaciinformacióóóón para clienten para clienten para clienten para clientePobrePobrePobrePobre
    • © 2012 #25postedición suficientemente buenaSe intenta obtener una traducción correcta desde el punto devista semántico.Se asegura que no se haya añadido ni omitido ningunainformación accidentalmente.Se modifica todo contenido ofensivo, inadecuado o no aceptableculturalmente.Se utiliza tanto como sea posible del resultado “en bruto” de latraducción automática.Se aplican las reglas básicas con respecto a la ortografía.No hay que implementar correcciones de naturaleza estilística.No hay que reestructurar oraciones solo para mejorar el flujonatural del texto.
    • © 2012 #26postedición de calidadSe intenta obtener una traducción correcta desde el punto de vistagramatical, sintáctico y semántico.Se asegura que la terminología clave esté correctamente traducida yque los términos no traducidos sean los que aparecen en la listade “Términos que no se deben traducir“ del cliente.Se asegura que no se haya añadido ni omitido ninguna información.Se modifica todo contenido ofensivo, inadecuado o no aceptableculturalmente.Se utiliza tanto como sea posible del resultado “en bruto” de latraducción automática.Se aplican reglas básicas con respecto a la ortografía, puntuación yguiones.Se asegura que el formato sea el correcto.
    • © 2012 #27casos habituales
    • © 2012 #28datos 1<gran volumen de datos heterogéneos>entrenamiento con todoclasificación semántica por dominiosajuste fino para cada clientepriorización por glosariosaprendizaje continuo
    • © 2012 #29datos 2<datos escasos>añadir diccionarios al corpuscompletar con segmentos complementarioscombinar datos del cliente con texto genéricoadaptación a dominio en base a genéricoaumentar el número de frases con reglas
    • © 2012 #30datos 3<datos sucios>eliminar traducciones múltiplesdetectar texto en otros idiomascorregir ortografíaseleccionar frases con gramática correctaalineación con terminología del clientefiltrar otros segmentos indeseados
    • © 2012 #31datos 4<creación y mejora de datos>cliente final definidodocumentos traducidos sin alineartraducciones genéricascreacion del corpus/memorias óptimasextensión y filtrado basado en reglas
    • © 2012 #32cuestiones lingüísticas 1<palabras no traducidas>creación de diccionarios<errores gramaticales>reglas de post-proceso<filtrado de calidad>eliminar aquellas que no cumplan requisitos
    • © 2012 #33cuestiones lingüísticas 2<limpieza del texto original>ortografía y gramáticasimplificación de fraseshomogeneización terminológica<detección de palabras especiales>personas, lugares, organizacionescódigos alfanuméricos
    • © 2012 #34caso de uso ...<volumen recurrentes>traducciones frecuencuesclientes de diferentes dominios<flujo>conseguir cuanto más datos mejorrecibir un nuevo fichero para traducircrear un dominio ad-hoc para ese ficheroentrenar la solución y reglas básicas<salida>adaptación óptima en alrededor 4 horas
    • © 2012 #35algunos consejosclientes más grandesidiomascon volúmenes más altoscon estructura similarcon necesidades o terminología específicainvolucrar a traductores innovadoresempezar ... probar
    • © 2012 #36otras soluciones<author>mejorar la calidad del texto originalcoherencia y simplificaciónortografía, gramática, semántica<web>traducción de páginas webMT + postedición automática<API>integración en otras aplicacionesposibilidad de tiempo real
    • © 2012 #37¡Gracias!// Diego Bartolomé, PhD<dirección> C/ Les Planes 39 – 08201 Sabadell<teléfono> +34 93 711 29 96<móvil> +34 670 331 225<email> dbc@tauyou.com<www> tauyou.com