Sistema híbrido y cooperativo de traducción automática

1,635 views

Published on

Para lenguas muy distintas los textos traducidos deben revisarse manualmente. Pero hay muchos textos traducidos por personas que no hace falta que traduzcan las máquinas. ¿Cómo optimizamos este proceso?

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,635
On SlideShare
0
From Embeds
0
Number of Embeds
14
Actions
Shares
0
Downloads
10
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Sistema híbrido y cooperativo de traducción automática

  1. 1. euLIH euskararako Lankidetzan oinarritutako Itzultzaile Hibridoa Sistema híbrido y cooperativo de traducción al euskera
  2. 2. Guión  ¿Quiénes somos? – Origen y antecedentes – Áreas de especialidad – Contacto con la traducción automática  Visión de la traducción automática – Hibridación de estrategias – Relevancia del corpus de traducciones  Presentación de euLIH euLIH
  3. 3. Arquitectura de euLIH Sistema híbrido y cooperativo de traducción al euskera Marco de agregación y validación de metcontenidos Corpus A Corpus % Dicc. & Term. A anotados e indexados Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  4. 4. Arquitectura de euLIH Marco de agregación y validación de metacontenidos anotados e indexados Reglas Marco de agregación y validación de metcontenidos Dicc. & Term. 2 Corpus A Dicc. & Term. A Corpus % anotados e indexados Corpus B dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  5. 5. Módulos de euLIH  Marco de agregación metacontenidos (1-10) – Agregador OAI-PMH (1-6) – Motor de indexación bilingüe (1-9) – Protocolo de validación (5-10)  Integración de motores de traducción (9-19) – API para memorias de traducción (9-12) – API para traductor por reglas (11-14) – Prototipo de traductor estadístico (11-19) – Módulo de retroalimentación (13-19)  Interacción y acceso – API para personalización de interfaces (5-19) – API para servicios de traducción (13-19) euLIH
  6. 6. Cronología del proyecto euLIH T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 Cronograma de euLIH euLIH
  7. 7. Guión  ¿Quiénes somos? – Origen y antecedentes – Áreas de especialidad – Contacto con la traducción automática  Visión de la traducción automática – Hibridación de estrategias – Relevancia del corpus de traducciones  Presentación de euLIH euLIH
  8. 8. Origen y antecedentes de ET  enero 2005: DELi decide crear spin-off, plan de empresa  julio 2005: Plan estratégico y presentación a DFB y GV  enero 2006: Programa Intek de GV: proyecto CollOnBus  julio 2006: Alianza con Thera-Clic  enero 2007: Thera-Clic 25% euLIH
  9. 9. Áreas de especialidad  Estándares de interoperabilidad semántica – Metadatos XML sectoriales: TEI, TMX, DCMI, XBRL, HL7, OPC DA – Agregación y sindicación: OAI-PMH, OLAC, RSS, Atom  Gestión de contenidos multilingües: – procesamiento lingüístico, indexación textual, compilación y anotación de corpus, traducción automática y asistida  Categorización de recursos: – Taxonomías, folcsonomías y ontologías euLIH
  10. 10. Antecedentes: Grupo DELi, proyectos - SemB-UDDI: Semantic UDDI registry of Basque high-tech companies (2005-2006). - OAC-onto: Open Archive Cataloger: Ontologías y metadatos (2004-2005). - XemGrid: Mejora en el descubrimiento de servicios grid utilizando información semántica (2004-2005). - Rómulo. Edición digital plurilingüe de un texto europeo del siglo XVII (2003-2005). - X-Flow: Gestión de flujo de contenidos multilingües sobre XLIFF y TMX (2002-2003). - XML-Bi: Procedimientos para la gestión del flujo documental multilingüe sobre XML/TEI-P3 (2001-2002). - XTRA-Bi: Extracción automática de unidades bitextuales para memorias de traducción (2000-2001). euLIH
  11. 11. Antecedentes: Thera-CLiC euLIH
  12. 12. Experiencia con la TA  1984-87 UMIST: CCL – Ntran (Alvey), EUROTRA (CE)  1988-91 Fujitsu Labs – ATLAS, Llull – EUROTRA, METAL  1992-98 UD: Master en Traducción – Consultor, evaluador (vg. Metalingua) – TMM, Transit, DVX – Legebiduna  1998-07 DELi – Xtrabi, Xflow, SareBi, OAC-onto, SemB- UDDI, SemTek  2002, 2004 AutomaticTrans: ATS euLIH
  13. 13. Guión  ¿Quiénes somos? – Origen y antecedentes – Áreas de especialidad – Contacto con la traducción automática  Visión de la traducción automática – Hibridación de estrategias – Relevancia del corpus de traducciones  Presentación de euLIH euLIH
  14. 14. Visión de la traducción automática  Estrategia híbrida: – Reglas transferencia léxica y sintáctica – Corpus de traducciones (memoria de traducción y estadística)  Flujo de trabajo – Definición de  Usuario  Servicio – Integración en entorno de publicación  Evaluación: – FEMTI, BLEU, METEOR, ROUGE, QARLA euLIH
  15. 15. Visión de la traducción automática: FEMTI Framework for the Evaluation of Machine Translation in ISLE (2002) – Propósito de la traducción  Asimilación, diseminación, comunicación – Características de usuario  Competencia del usuario  Frecuencia: ocasional, profesional, institución – Características del input (autor y texto)  Tipo de documento  Propiedades del autor  Fuentes de error http://www.isi.edu/natural-language/mteval/ euLIH
  16. 16. Propósito de la traducción automática: FEMTI  Asimilación: Facilitar el acceso a información relevante en otro idioma. – Tiene más sentido de euskera a español  Diseminación: Permitir la rápida distribución de materiales en varios idiomas. – No se requiere una calidad máxima, porque pueden ser materiales de trabajo y en borrador  Comunicación: Información que se va a publicar y que debe responder a los máximos niveles de calidad. – Si se utiliza la traducción automática hará falta revisión (postedición) http://www.isi.edu/natural-language/mteval/ euLIH
  17. 17. Visión de la traducción automática: FEMTI Características de usuario – ¿A quién va dirigido el traductor?  Usuario ocasional – ¿quiere leer prensa española en euskera? – ¿quiere publicar en euskera?  Usuario profesional, traductor – quiere incrementar su rendimiento  Usuario institucional, agencia, empresa – quiere aumentar la producción – quiere normalizar criterios (terminología, estilo, etc.) – quiere garantizar calidad – quiere ahorrar costes http://www.isi.edu/natural-language/mteval/ euLIH
  18. 18. Visión de la traducción automática: euLIH Características de usuario  Usuario ocasional – quiere publicar en euskera  Usuario profesional, traductor – quiere incrementar su rendimiento  Usuario institucional, agencia, empresa – quiere aumentar la producción – quiere normalizar criterios (terminología, estilo, etc.) – quiere garantizar calidad – quiere ahorrar costes En todos los casos con el propósito de comunicar: se requiere calidad euLIH
  19. 19. Visión de la traducción automática  Techo de la TA basada en reglas – Más reglas no (siempre) mejoran el resultado – Systran, Reverso (ProMT) muestran la “calidad” posible para textos genéricos – Factores:  Distancia lingüística  Límites de la gramática (sintaxis) – Relevancia del corpus: modelos (ejemplos), fraseología, terminología, memoria de traducción, entrenamiento estadística euLIH
  20. 20. El techo de la TA basada en reglas: Systran  La travesía de Tom tiene una nueva concesión de Australia a agregar a su colección para ser la celebridad más sexista.  Cerca de 400 de las mujeres más de gran alcance de Australia recolectaron a parlamento último jueves del estado de Nuevo Gales del Sur para decidir sobre los ganadores del 14 “Ernie anual concede” que se reparten para las declaraciones públicas despectivas peores.  Las concesiones fueron nombradas después de un líder del sindicato llamado Ernie que miembros de unión incluyeron los esquiladores de las ovejas. Él una vez famoso dijo: “Las mujeres no son agradables en las vertientes que esquilan. Están solamente después del sexo.”  El “Ernies” tiene un sabor internacional - y la travesía fue concedida la celebridad 2006 Ernie. euLIH
  21. 21. El techo de la TA basada en reglas: Systran  Tom Cruise tiene un nuevo premio australiano que añadir a su colección por ser el famoso más machista.  Unas cuatrocientas de las mujeres más poderosas de Australia se reunieron en el Parlamento Estatal de Nueva Gales del Sur el pasado jueves a última hora para decidir los ganadores de la 14º edición anual de los ‘premios Ernie’, que se entregan a las declaraciones públicas más despectivas.  Los premios reciben el nombre de un líder sindicalista llamado Ernie que incluía a esquiladores en el sindicato. Éste dijo una vez: “Las mujeres no son bienvenidas en los cobertizos para esquilar. Sólo vienen para el sexo.”  Los “Ernies” tienen un toque internacional y a Cruise le concedieron el Ernie 2006 de los famosos. (Traducción de alumnas de 3º de filología inglesa) euLIH
  22. 22. El techo de la TA basada en reglas: Systran La travesía de Tom tiene una nueva concesión de Australia a agregar a su colección para ser la celebridad más sexista. Tom Cruise tiene un nuevo premio australiano que añadir a su colección por ser el famoso más machista. Cerca de 400 de las mujeres más de gran alcance de Australia recolectaron a parlamento último jueves del estado de Nuevo Gales del Sur para decidir sobre los ganadores del 14 “Ernie anual concede” que se reparten para las declaraciones públicas despectivas peores. Unas cuatrocientas de las mujeres más poderosas de Australia se reunieron en el Parlamento Estatal de Nueva Gales del Sur el pasado jueves a última hora para decidir los ganadores de la 14º edición anual de los ‘premios Ernie’, que se entregan a las declaraciones públicas más despectivas. euLIH
  23. 23. El techo de la TA basada en reglas: Razones  Arnold y otros (1993) destacan las tres dificultades siguientes: – La ambigüedad (polisemia): “activo” gogotsu, langile, eraginkor, aktibo – Los desajustes léxicos y estructurales:  Elementos patrimoniales activos y pasivos  Ondare elementu aktibo eta pasibo  Ondarezko osagai pasibo eta gogotsu – Las unidades pluriverbales (colocaciones, modismos, onomástica, terminología):  Es decir: Hau da, *Esate da  Está reunido: Bilera batean dago, *Bilduta dago euLIH
  24. 24. El techo de la TA basada en reglas: Razones  Léxicos: los que pueden resolverse mediante diccionario  Sintácticos: los que deberían poder resolverse a golpe de regla gramatical  Estructurales: los que siendo de índole sintáctica, plantean dificultades a las reglas y se resuelven mejor mediante memoria de traducción  Estilísticos: para los que el único remedio es una buena memoria de traducción euLIH
  25. 25. El techo de la TA basada en reglas: Razones Estructuras sintácticas complicadas:  Predicados complejos, estructuras de control – es capaz de funcionar bien  Aposiciones – actuaciones, generales o selectivas, de obtención de información  Subordinadas (relativas, completivas) – los elementos patrimoniales activos y pasivos de una parte de una sociedad que constituyen, desde el punto de vista de la organización, una explotación autónoma  Coordinación – La naturaleza o clase y número de cuenta u operación, así como el saldo o importe máximo  Comparativas – había algo que desagradaba a los Dursley aún más que las preguntas que Harry hacía euLIH
  26. 26. El techo de la TA basada en reglas: Razones ¿A partir de qué momento las estructuras sintácticas complicadas se convierten en problemas estructurales? – La longitud tiene mucho que ver. Oraciones de más de 15 palabras normalmente distorsionan gravemente la aplicación de las reglas – La combinación de problemas sintácticos: subordinación, aposición, coordinación... euLIH
  27. 27. El techo de la TA basada en reglas: Razones Se entenderá por rama de actividad económica el conjunto de los elementos patrimoniales activos y pasivos de una parte de una sociedad que constituyen, desde el punto de vista de la organización, una explotación autónoma, es decir, un conjunto capaz de funcionar por sus propios medios. – Jarduera ekonomikoaren arlotzat zera hartuko da: antolaketa aldetik bere gaineko ustiategi bat, hau da, bere bitartekoez funtzionatzeko gauza den batasun bat osatzen duten sozietate zati baten ondare elementu aktibo eta pasiboen multzoa – Jarduera-adartzat joko da, antolaketari begira, ustiapen ekonomikoa ekarriko duen autonomiadun unitate ekonomikoa osatuko duen ondare- multzoa, hau da, beren baliabide propioen bidez jarduteko gai izango den multzoa. Eskualdatuko diren elementuen antolaketatik edo jardunbideak eratorritako zorrak eratxiki ahal izango zaizkio sozietate eskuratzaileari. – * Jarduera ekonomikoaren adarretik ulertuko du ondarezko osagai pasibo eta gogotsuen multzoa bat gizarte bateko batzuk osatzen duten, erakundearen ikusmenaren puntutik, ustiapen autonomo bat, esate da, funtzionatze haren neure erdi multzo handi bat. euLIH
  28. 28. El techo de la TA basada en reglas: Razones A excepción de en La Rioja, donde todos los albergues excepto uno (Grañón) cuentan con un espacio para guardar bicicletas, el peregrino se ve obligado a conocer de antemano, entre Roncesvalles y Santiago, los lugares concretos que ofrecen este servicio: el 80% de los de León, Burgos, Navarra y Palencia, mientras que en A Coruña sólo se pueden guardar bicis en la mitad de los centros. – Errioxan izan ezik -Grañon-go aterpetxeak izan ezean beste guztiek eskaintzen dute probintzia horretan bizikletak gordetzeko toki egokia -Orreagan hasi eta Santiagoraino zerbitzu hori zein aterpetxek eskaintzen duen jakin behar du, nahitaez, erromesak aldez aurretik: Leon, Burgos, Nafarroa eta Palentziakoen %80etan, hain zuzen euLIH
  29. 29. Guión  ¿Quiénes somos? – Origen y antecedentes – Áreas de especialidad – Contacto con la traducción automática  Visión de la traducción automática – Hibridación de estrategias – Relevancia del corpus de traducciones  Presentación de euLIH euLIH
  30. 30. Traductor basado en reglas Traductor reglas Reglas Dicc. & Term. euLIH
  31. 31. Traductor basado en reglas Traductor reglas Reglas Dicc. & Term. euLIH
  32. 32. Sistemas híbridos: reglas + corpus (+ %) Corpus % Reglas Dicc. & Term. 2 Traductor híbrido 2 Traductor reglas 1 Reglas Dicc. & Term. 1 euLIH
  33. 33. Arquitectura de euLIH alimentado dinámicamente desde una red de recursos distribuidos Corpus A Corpus Corpus Corpus Dicc. & Term. A % % % Reglas Corpus B Dicc. & Term. 2 Traductor híbrido 2 Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  34. 34. Arquitectura de euLIH Recolector y agregador de metacontenidos Corpus A Corpus % Dicc. & Term. A Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  35. 35. Arquitectura de euLIH Marco de agregación y validación de metacontenidos anotados e indexados Marco de agregación y validación de metcontenidos Corpus A Corpus % Dicc. & Term. A anotados e indexados Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  36. 36. Arquitectura de euLIH Sistema híbrido y cooperativo de traducción al euskera Marco de agregación y validación de metcontenidos Corpus A Corpus % Dicc. & Term. A anotados e indexados Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  37. 37. Módulos de euLIH  Marco de agregación metacontenidos – Agregador OAI-PMH – Motor de indexación bilingüe – Protocolo de validación  Integración de motores de traducción – API para memorias de traducción – API para traductor por reglas – Prototipo de traductor estadístico – Módulo de retroalimentación  Interacción y acceso – API para personalización de interfaces – API para servicios de traducción euLIH
  38. 38. Arquitectura de euLIH Marco de agregación metacontenidos Reglas Marco de agregación y validación de metcontenidos Dicc. & Term. 2 Corpus A Dicc. & Term. A Corpus % anotados e indexados Corpus B dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  39. 39. Módulos de euLIH Marco de agregación de metacontenidos  Contenidos distribuidos  Anotados (en origen o Marco de agregación y validación de metcontenidos Corpus A en depósito) Dicc. & Term. A  Protocolo de recolección OAI-PMH anotados e indexados Corpus B dor Agrega H  Indexación de AI-PM O OLAC contenidos Dicc. & Term. B  Procesamiento lingüístico de Corpus C contenidos  Depósito de metacontenidos Dicc. & Term. D euLIH
  40. 40. euLIH Agregación de metacontenidos  Metacontenidos: contenidos indexados y etiquetados – Indexados: contenidos recopilados, procesados (parsed) y almacenados – Etiquetados: anotados con metadatos (CES, LAF, TMX, DCMI):  Language Resources Management TC ISO/TC 37/SC 4  Open Language Archives Community (OLAC) euLIH
  41. 41. euLIH Metadatos Dublin Core 15 elementos básicos euLIH
  42. 42. euLIH Metadatos Dublin Core Obligatorios •identifier •languages Recomendados Complementarios •date •publisher •dateSubmitted •title •dateAccepted •creator •modified •contributor (traductor) •available •type •source •rights •subject •conformsTo Otros (un estándar de calidad, vg. •hasVersion validado por IVAP, UZEI, etc.) •isPartOf •audience •isReplacedBy (general public, EHU, BFA, etc.) euLIH
  43. 43. euLIH Protocolo de recolección OAI-PMH  ¿Quién usa OAI-PMH? – Bibliotecas: The European Library, National Library of Australia (NLA), Library of Congress – Redes de bibliotecas: Digital Library Federation (DLF), National Sciene Digital Library (NSDL), Red de Bibliotecas Universitarias Españolas (REBIUM) – Servicios bibliográficos: ArXiv, ePrints, Scientific Literature Digital Library (CiteSeer), Internet Archive, Google:Scholar, OCLC Theses and Dissertations euLIH
  44. 44. euLIH Protocolo de recolección OAI-PMH  ¿Quién promueve OLAC? – Open Language Archives Community – Linguistic Data Consortium (LDC), University of Pennsylvania – European Language Resources Association (ELRA) – European Network of Excellence in Human Language Technologies (ELSNET) – Foundation for Endangered Languages – The LINGUIST List, Oxford Text Archive – SIL International, etc. euLIH
  45. 45. Módulos de euLIH Motor de indexación bilingüe  Procesamiento lingüístico Marco de agregación y validación de metcontenidos Corpus – Lematización – Reconocimiento de anotados e indexados entidades onomásticas – Detección de unidades pluriverbales motor de – Desambiguación indexación euLIH
  46. 46. Módulos de euLIH Protocolo de validación  Distintos rangos (roles) entre agentes cooperantes Marco de agregación y validación de metcontenidos Corpus A  Agentes institucionales tiene rango “autoridad” Dicc. & Term. A  Los segmentos autorizados están certificados anotados e indexados Corpus B dor  Los usuarios no Agrega H O AI-PM institucionales son OLAC cooperantes que, de Dicc. & Term. B partida, no pueden certificar sus traducciones Corpus C  euLIH no acreditará rangos, pero aportará la funcionalidad para que otros lo hagan Dicc. & Term. D euLIH
  47. 47. Módulos de euLIH  Marco de agregación metacontenidos – Agregador OAI-PMH – Motor de indexación bilingüe – Protocolo de validación  Integración de motores de traducción – API para memorias de traducción – API para traductor por reglas – Prototipo de traductor estadístico – Módulo de retroalimentación  Interacción y acceso – API para personalización de interfaces – API para servicios de traducción euLIH
  48. 48. Arquitectura de euLIH Sistema híbrido y cooperativo de traducción al euskera Marco de agregación y validación de metcontenidos Corpus A Corpus % Dicc. & Term. A anotados e indexados Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  49. 49. Módulos de euLIH Integración de motores de traducción  API para memorias de traducción – Conexión con redes de memorias de traducción – Funcionalidad de memoria de traducción  API para traductor por reglas – Integración de motores RBMT  Prototipo de traductor estadístico – Experimentar con CMU, Giza++, BLEU  Módulo de retroalimentación – Detección de terminología, colocaciones, unidades pluriverbales, fraseología euLIH
  50. 50. Módulos de euLIH  Marco de agregación metacontenidos – Agregador OAI-PMH – Motor de indexación bilingüe – Protocolo de validación  Integración de motores de traducción – API para memorias de traducción – API para traductor por reglas – Prototipo de traductor estadístico – Módulo de retroalimentación  Interacción y acceso – API para personalización de interfaces – API para servicios de traducción euLIH
  51. 51. Arquitectura de euLIH Sistema híbrido y cooperativo de traducción al euskera Marco de agregación y validación de metcontenidos Corpus A Corpus % Dicc. & Term. A anotados e indexados Reglas Corpus B Dicc. & Term. 2 dor Agrega H Traductor OAI-PM híbrido 2 OLAC Dicc. & Term. B Traductor reglas 1 Corpus C Reglas Dicc. & Term. 1 Dicc. & Term. D euLIH
  52. 52. Módulos de euLIH Interacción y acceso  API para personalización de interfaces – Acceso al sistema para: consultar, modificar, validar, añadir, eliminar, importar, exportar, filtrar, etc. – Perfiles de usuario, personalización  API para servicios de traducción – Integración del sistema en puestos de trabajo locales euLIH
  53. 53. euLIH Demostración de prototipo: http://www.deli.deusto.es/eulih euLIH
  54. 54. euLIH Conclusiones  Propósito: producción, Marco de agregación y validación de metcontenidos Corpus A comunicación Dicc. & Term. A  Usuario: profesional, institucional anotados e indexados Corpus B dor – Responder a necesidades Agrega H reales OAI-PM OLAC – Aprovechar sus recursos Dicc. & Term. B – Recolectar, agregar, Corpus C validar  Modelo cooperativo (web social, crowdsourcing) Dicc. & Term. D euLIH
  55. 55. euLIH Muchas gracias ¿más preguntas? euLIH
  56. 56. Breve historia de la traducción automática: 6 décadas  1947 Warren Weaver, Fundación Rockefeller  1951 Yehoshua Bar-Hillel, MIT; 1ª demo Universidad de Georgetown – IBM; DoD; FAHQT; Systran, Metal  1964 ALPAC; Syntactic Structures (1957); ALGOL, LISP  1976 MÉTÉO (U. Montreal), CE: Systran, Eurotra  1991 Informe Danzin; Candide IBM; Corpus  2005 NIST, BLEU: Google, ISI, etc. euLIH
  57. 57. Evolución de la tecnología  Warren Weaver (1947): – técnicas criptográficas – teoremas de Shannon – utilidad de la estadística – lógica subyacente y – propiedades universales del lenguaje humano euLIH
  58. 58. Evolución de la tecnología  Yehoshua Bar-Hillel (1951): – primer simposio de la TA – lenguajes controlados, sublenguajes – necesidad de la sintaxis – posibilidad de prescindir de la intervención humana (FAHQMT) – Cuestiona FAHQMT en 1960 euLIH
  59. 59. Evolución de la tecnología  1957-1991 Sistemas basados en conocimiento lingüístico: – Syntactic Structures (1957); ALGOL, LISP – Gramáticas formales; Inteligencia artificial – Canadá, Europa, Japón – Systran, Metal, Eurotra, Rosetta, etc. – Transferencia sintáctica, léxica – Interlingua, redes semánticas, ontologías euLIH
  60. 60. Evolución de la tecnología  1990-2007 Sistemas basados en corpus: – Candide IBM vs Systran – TA online: Bablefish, Reverso, Google – IBM (TranslationManager), TRADOS (Translator's Workbench), ATRIL (DÉJÀ- VU), etc. – Evaluación de la TA: FEMTI, BLEU (SMT) – Competiciones NIST (0.5131 vs 0.1079) – WorldServer, Multicorpora, Freeway, Lingotek euLIH
  61. 61. El techo de los sistemas basados en reglas  I danced at the ball / Bailé en la bola / Bailé en la pelota / Bailé en la pelota  I gave up cigarettes / Di para arriba cigarrillos / Dejé cigarrillos / Yo me rendí cigarrillos  Have you ever been to London? / ¿Usted ha estado siempre a Londres? / ¿Ud alguna vez ha sido a Londres? / ¿Ha estado jamás usted a Londres?  A barking dog seldom bites / Mordeduras de un perro el raspar raramente (Perro ladrador poco mordedor) Pruebas con Systran, Reverso, FreeTranslation euLIH
  62. 62. El techo de los sistemas basados en reglas  (5) Perspectiva que adquiere significación en la escena internacional a finales del siglo XX – XX mendearen bukaerako nazioarteko eszenan garrantzia hartu duen ikuspegia – XX. mendeko bukaerei nazioarteko eszenan esanahia eskuratzen duen ikuspuntua euLIH
  63. 63. El techo de los sistemas basados en reglas  (7) Se entenderá por rama de actividad económica el conjunto de los elementos patrimoniales activos y pasivos de una parte de una sociedad que constituyen, desde el punto de vista de la organización, una explotación autónoma, es decir, un conjunto capaz de funcionar por sus propios medios. euLIH
  64. 64. El techo de los sistemas basados en reglas  (7 a.) El conjunto de los elementos patrimoniales activos y pasivos de una parte de una sociedad – Sozietate zati baten ondare elementu aktibo eta pasiboen multzoa – Gizarte bateko batzuk ondarezko osagai pasibo eta gogotsuen bat multzoa euLIH
  65. 65. El techo de los sistemas basados en reglas  (7 b.) Se entenderá por rama de actividad económica el conjunto [...] que constituyen, desde el punto de vista de la organización, una explotación autónoma, es decir, un conjunto capaz de funcionar por sus propios medios.  Jarduera ekonomikoaren arlotzat zera hartuko da: antolaketa aldetik bere gaineko ustiategi bat, hau da, bere bitartekoez funtzionatzeko gauza den batasun bat osatzen duten [...] multzoa.  Jarduera ekonomikoaren adarretik ulertuko du [...] multzoa bat gizarte bateko batzuk osatzen duten, erakundearen ikusmenaren puntutik, ustiapen autonomo bat, esate da, funtzionatze haren neure erdi multzo handi bat. euLIH
  66. 66. El techo de los sistemas basados en reglas (8) a. La planificación y ejecución de actuaciones, generales o selectivas, de obtención de información, así como las relaciones con otras Administraciones a los mismos efectos. b. Informazioa lortzeko jarduketak, orokorrak nahiz hautatzezkoak, eta gainerako administrazioarekiko informazio jarduketetako hartuemanak, planifikatu eta burutzea. c. Plangintza eta jokaeren egitea, aukeratze edo orokorrak, informazioaren lorpenaren, ondorio berei beste Administraciones batzuk zerikusiak Baita Ere. euLIH

×