Bienvenidos a la presentación de las pruebas realizadas para demostrar la viabilidad de AT como plataforma de desarrollo de un traductor automático de español a euskara y de euskara a español utilizando la tecnología registrada por AT, Automatic Translation Server. Las pruebas realizadas en estos tres meses han abordado la traducción español-euskara. Al final, cuando presentemos las conclusiones, haremos algunas estimaciones en cuanto la continuación del desarrollo y la posible reversibilidad de los procesos para cubrir el euskara-español .
AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003) - Presentation Transcript
AT-eus Prueba viabilidad traducción automática euskara
índice Alcance y objetivos de la prueba Metodología utilizada Equipo de trabajo: personas y funciones Casos resueltos para la prueba Validación y control de calidad Pruebas de traducción Fase2. Plazos y objetivos Enfoque
alcance y objetivos
Boletines Oficiales / Aldizkari Ofizialak
BAO (± 80Mb)
GAO (± 20Mb)
Años 1996-2000
Datos cuantitativos
823.368 elementos alineados (párrafos, oraciones, etc.)
447.746 elementos repetidos
277.712 palabras (± 50.000 lexemas)
± 20 % entidades con nombre propio : pers, org, doc, top, etc .
342.492 segmentos (fórmulas, plantillas, términos de especialidad)
2 a 30 variantes (en la traducción)
± 20 categorías textuales (géneros)
Material disponible (fondos)
alcance y objetivos: contrato Objetivos de la prueba
Subcorpus (año 2000)
Vocabulario 2.000 términos
Construcciones : 200 segmentos
Reglas : 25 reglas
alcance y objetivos: procesado Material procesado
Corpus depurado de 100MB reales de texto
823.368 e lementos alineados
62.582 palabras d iccionario El h uyar
342.492 s egmentación de BAO
alcance y objetivos: validado Material validado para la prueba
Subcorpus de 736 KB.
4.370 palabras de Elhuyar reetiquetadas
4.738 palabras e tiquetad as
3.841 segmentos etiquetados
435 tablas
245 reglas
Subcorpus (año 2000)
Vocabulario 2.000 términos
Construcciones : 200 segmentos
Reglas : 25 reglas
enfoque: explicación
equivalencia por reglas (transferencia, interlingua)
cobertura amplia
calidad impredecible (traducciones más “literales”)
baja homogeneidad (léxico)
Estrategias de mercado: reglas / analogías
equivalencia por analogías (corpora bilingües, ejemplos, MT)
enfoque: ATS híbrida ATS, estrategia híbrida: corpus + reglas (álgebra)
Integración de reglas y ejemplos en misma BBDD (UDB)
Algoritmo de aplicación:
Fórmulas
Plantillas
Categorías gramaticales
Clave: estrategia, segmentación y etiquetado
enfoque: fórmulas “ Cuando exista una diferencia de altura entre las rasantes del perímetro del edificio tal que permita iluminar o dar acceso independiente a locales de semisótano, éstos contabilizarán en el cómputo de la superficie construida en una proporción igual a la relación entre la superficie de su fachada sobre rasante respecto a la superficie de su cerramiento perimetral, se halle enterrado o no, computado desde el plano horizontal definido por la rasante de menos cota.” Ejemplos de segmentos uniformes, fórmulas :
enfoque: fórmulas “ Eraikinaren perimetroko sestren arteko altuera diferentzia dagoenean, eta diferentzia horrek erdisotoko lokalak argitu edo horiei sarbide independientea ematen badie, horiek azalera eraikian kontabilizatuko dira, sestra gaineko fatxadaren azaleraren eta perimetroko itxiduraren azaleraren arteko erlazioaren proportzio berean, itxidura hori lurperaturik egon ala ez, eta kota txikieneko sestrak definituriko plano horizontaletik konputaturik.” Ejemplos de segmentos uniformes, fórmulas :
“ Eraikinaren perimetroko sestren artean, erdisotoko lokalak argitu edo aparteko sarbidea emateko bestekoa den altuerako tarte bat dagoenean, hauek, eraikitako azaleraren konputuan kontabilizatuko dira, sestraren gaineko euren fatxadaren azaleraren pareko proportzioan, perimetrozko euren zarraketaren azalerari dagokionean, hau lurraren azpian hala gainean dagoela, kotarik txikiena duen sestrak definitutako plano horizontaletik konputatua.”
“ Eraikinaren perimetroko lerrokaduren artean dagoen altuera-diferentziak erdisotoak argitzeko edo bertako lokaletara sartzeko modua ematen badu, erdisoto horiek eraikitako azaleraren konputoan sartuko dira, eta sartu ere sestra gainean duten fatxadaren azaleraren eta perimetroaren -zorupekoa zein ez- azaleraren arteko proportzio berean sartuko da.”
Variantes en la traducción de fórmulas : enfoque
“ Eraikinaren perimetroko sestren artean, erdisotoko lokalak argitu edo aparteko sarbidea emateko bestekoa den altuerako tarte bat dagoenean, hauek, eraikitako azaleraren konputuan kontabilizatuko dira, sestraren gaineko euren fatxadaren azaleraren pareko proportzioan, perimetrozko euren zarraketaren azalerari dagokionean, hau lurraren azpian hala gainean dagoela, kotarik txikiena duen sestrak definitutako plano horizontaletik konputatua.”
“ Eraikinaren perimetroko lerrokaduren artean dagoen altuera-diferentziak erdisotoak argitzeko edo bertako lokaletara sartzeko modua ematen badu, erdisoto horiek eraikitako azaleraren konputoan sartuko dira, eta sartu ere sestra gainean duten fatxadaren azaleraren eta perimetroaren -zorupekoa zein ez- azaleraren arteko proportzio berean sartuko da.”
“ Eraikinaren perimetroaren sestren arteko altueran, erdisotoko lokalak argitzea edo sarrera bananduak ahalbideratzeko aldea dagoenean, hauek eraikitako azaleraren zenbatekoan sartuko dira, bere sestraren gaineko fatxadaren azalera bere itxitura perimetralaren azalerarekiko proportzio batean, lurperaturik egon edo ez, eta kota txikienak definituriko plano horizontaletik zenbatua.”
“ Eraikinaren perimetroko sestren arteko altuera diferentzia dagoenean, eta diferentzia horrek erdisotoko lokalak argitu edo horiei sarbide independientea ematen badie, horiek azalera eraikian kontabilizatuko dira, sestra gaineko fatxadaren azaleraren eta perimetroko itxiduraren azaleraren arteko erlazioaren proportzio berean, itxidura hori lurperaturik egon ala ez, eta kota txikieneko sestrak definituriko plano horizontaletik konputaturik.”
enfoque Variantes en la traducción de fórmulas :
enfoque: gramática
SN (COMP_N) + N’ + (Det)
N’ N + ( (grad) + A)
Det (num) + (def)
COMP_N SN + rel
COMP_N SP + rel
COMP_N O + rel
Reglas SN para euskara (Goenaga, 1978) :
enfoque: ejemplo1a
“ el saldo máximo que se ha alcanzado durante el plazo para comunicar el número de identificación fiscal”
Estructura de SN prevista por las reglas:
“ identifikazio fiskaleko zenbakiaren berri emateko epearen barruan lortu denaren gehienezko saldoa”
enfoque: ejemplo1b
La naturaleza o clase y número de cuenta u operación, así como el saldo o importe máximo alcanzado durante el plazo para comunicar el número de identificación fiscal.
SN reales que aparece en los textos:
Kontu edo eragiketaren izaera edo mota eta zenbakia, baita ere identifikazio fiskaleko zenbakiaren berri emateko epearen barruan lortutako gehienezko saldoa edo zenbatekoa.
enfoque: ejemplo2a
Justificación de que la Entidad solicitante se halla al corriente en el cumplimiento de sus obligaciones con la Seguridad Social, así como en las tributarias.
SN reales que aparece en los textos:
Erakunde eskatzaileak Gizarte Segurantzarekin dituen bete-beharrak eta, baita ere, zergari dagozkionak ordainduta dituela agertarazten duen frogagiria.
enfoque: ejemplo2b
Justificación de que la Entidad solicitante se halla al corriente en el cumplimiento de sus obligaciones con la Seguridad Social, así como en las tributarias.
SN reales que aparece en los textos:
Erakunde eskatzaileak Gizarte Segurantzarekin dituen bete-beharrak eta, baita ere, zergari dagozkionak ordainduta dituela agertarazten duen frogagiria.
enfoque: ejemplo3a
La planificación y ejecución de actuaciones, generales o selectivas, de obtención de información, así como las relaciones con otras Administraciones a los mismos efectos.
SN reales que aparece en los textos: Informazioa lortzeko jarduketak, orokorrak nahiz hautatzezkoak, eta gainerako administrazioarekiko informazio jarduketetako hartuemanak, planifikatu eta burutzea.
enfoque: ejemplo3b
La planificación y ejecución de actuaciones , generales o selectivas, de obtención de información , así como las relaciones con otras Administraciones a los mismos efectos.
SN reales que aparece en los textos: Informazioa lortzeko jarduketak , orokorrak nahiz hautatzezkoak, eta gainerako administrazioarekiko informazio jarduketetako hartuemanak, planifikatu eta burutzea.
enfoque: ejemplo 3c
La planificación y ejecución de actuaciones , generales o selectivas , de obtención de información , así como las relaciones con otras Administraciones a los mismos efectos.
Solución: combinar reglas con “plantillas” Informazioa lortzeko jarduketak , orokorrak nahiz hautatzezkoak , eta gainerako administrazioarekiko informazio jarduketetako hartuemanak , planifikatu eta burutzea .
ejemplos: plantillas Ejemplos de segmentos variables, plantillas: Ver texto ejemplo “conceder...”
ejemplos: reducción Ejemplos de segmentos variables, plantillas: Conceder a X la deducción por importe de $ por las inversiones realizadas en activos fijos materiales nuevos mencionados en el artículo &art.{204} X-ari, &art artikuluan adierazitako gauzazko aktibo finko berrietan egin izandako inbertsioengatik, $ko zenbatekoko kenkaria ematea.{204}
ejemplos: nombres propios Reconocimiento de variables ver texto muestra de nombres propios
enfoque: plantillas y reglas Interacción de plantillas y reglas: “ Se ha constatado, por la presencia en ferias, que las prendas confeccionadas aquí tienen una gran demanda, [ no sólo en otras comunidades autónomas , sino también en mercados tan dispares como los europeos, Oriente Medio y América ]” “ Hainbat azoketan ikusi ahal izan denez,, hemen eginiko jantziek eskari handia sortarazten dute eta, [beste autonomi elkarte batzutan ez ezik, bai eta arras ezberdinak diren Europako, Ekialde Ertaineko edota Amerikako beste hainbat merkatutan ere]”
enfoque: plantillas y reglas Interacción de plantillas y reglas: no sólo X sino también Y X ez ezik, baita Y ere X ez ezik, Y ere ez bakarrik X, baita Y ere ez bakarrik X, baizik eta Y ere
enfoque: plantillas y reglas Interacción de plantillas y reglas: Los certificados de Hacienda y Seguridad Social deberán ser aportados [tanto por Entidades públicas como privadas ] Ogasun eta Gizarte Segurantzaren ziurtagiriak [ Erakunde publikoek zein pribatuek ] aurkeztu behar izango dituzte
enfoque: plantillas y reglas Interacción de plantillas y reglas: tanto X como Y X zein Y bai X bai Y X bezala Y ere X nahiz Y bai X bai eta Y hala X nola Y X, Y {sn, sp} tanto <sn> como <sn> ==> <sn>
metodología aplicada Tratamiento de diccionario y corpus Análisis de construcciones y “comportamientos” Definición de estrategia a partir del análisis Tareas operativas Recursos y herramientas
metodología: tareas Tratamiento de diccionario y corpus
Alineación
- recurso: corpus bilingüe paralelo
- identificar equivalencias
Segmentación
- afinar la granularidad de las equivalencias
- mayor economía / productividad
Etiquetado para integrar el corpus en la gramática:
1. generaliza parcialmente los segmentos en plantillas
2. los segmentos entr a n en el juego de las reglas sintácticas
3. revisión y validación de categorías y atributos del diccionario
metodología: análisis Revisión del corpus para detectar los casos Identificación de construcciones Agrupación por estructuras Síntesis de comportamientos
metodología: reglas Estrategia de etiquetado Asignación de rasgos y atributos Definición de reglas Comprobación y correcciones
equipo de trabajo Dirección del proyecto Coordinación de recursos Tecnología y estrategia de desarrollo Procesado de corpus Segmentación y análisis Diccionarios y equivalencias Etiquetado Joseba Abaitua coordinar las cuestiones de norma y estilo, definir la estrategia de traducción con tecnología y recursos, seguir el cumplimiento de los objetivos marcados verificar el control de calidad, cumplir con los plazos e hitos trazados Jone Etxeberria, Joan Vilarnau coordinar uso y relaciones del corpus, tecnología y recursos aplicados a etiquetado y segmentación, metodología de trabajo de los lingüistas, desarrollo de tablas y reglas, validación y pruebas. tecnología y recursos aplicados a etiquetado. Úrbez Santana desarrollo especializado segmentador, adaptación generador de plantillas y reglas (ATS-query) adaptación módulos UDB, adatación núcleo ATS Aziz Khalifi desarrollo de rutinas de comparación, extracción selectiva, reformato de recursos al estándar de tratamiento, alimentación y soporte a las pruebas, administración del corpus y de los resultados Ainhoa Sánchez, Joan Vilarnau procesado de ELHUYAR, selección de equivalencias, Etiquetado con atributos especializados ATS. Amaia Santamaría, Joseba Abaitua revisión y análisis de corpus, extracción comportamientos, preparación de estructuras, validación y pruebas Miren Pérez, Olatz de Andrés, Ainhoa Sánchez segmentado de textos en distintos rangos, etiquetado de segmentos de pruebas, validación y corrección
casos resueltos Concordancia de SSNN + V Sintagma nominal Sintagma postposicionales y adverbiales Cláusulas de relativo y completivas Conjuntivas y adversativas
casos resueltos: sn1 Sintagma nominal
“ ... la decisión estratégica del secretario...”
“ ... idazkariaren erabaki estrategikoa...”
casos resueltos: sn1 Sintagma nominal
“ ... el alcalde de Bilbao...”
“ ... Bilboko alkatea...”
casos resueltos: sn1 Sintagma nominal
“ ... La planificación de Bilbao..”
“ ... Bilboren plangintzaa...”
casos resueltos: sn2 Sintagma nominal
“ ... alguna decisión contradictoria del secretario general de la junta...”
“ ... batzordearen idazkari orokoraren erabaki kontraesankorren bat...”
casos resueltos: concordancia1 Concordancia de SSNN + V
“ ... los facultativos pagaron las tasas a los secretarios...”
“ ... goi-mailako teknikariek tasaak idazkariakri ordaindu zizkieten... ”
casos resueltos: concordancia2 Concordancia de SSNN + V
“ ... aquella decisión comercial del secretario general de las empresas de nueva creación de Vitoria especificó las rentas de los minusválidos...”
“ ... Gasteizko enpresa sortuberriakakren idazkari orokoraren erabaki komertzial hurak minusbaliatuakren errentaak zehaztu zituen... ”
casos resueltos: sp y adv Sintagma postposicionales y adverbiales
“ ... los beneficiarios evitaron algunos errores en enero...”
“ ... onuradunek akats batzuk urtarrilan ekidin zituzten...”
casos resueltos: relativo Cláusulas de relativo y completivas
“ ... el boletín que publicó el secretario informó a los ayudantes...”
“ ... idazkariak argitaratu zuenn buletinak laguntzaileakri informatu zien...”
casos resueltos: completiva Cláusulas de relativo y completivas
“ ... algunos aficionados destacaron que supervisaron el trabajo del vecindario...”
“ ... zale batzukk auzoteriaaren lana gainbegiratu zutenla azpimarratu zuten...”
casos resueltos: conjuntivas Conjuntivas y adversativas
“ ... el secretario rectificó la presentación y el director supervisó el trabajo...”
“ ... idazkariak aurkezpena zuzendu zuen eta zuzendariak lana gainbegiratu zuen...”
control de calidad Revisión acepciones del diccionario Funcionamiento de las tablas y reglas Definición del subcorpus de trabajo Revisión de traducciones Pruebas de segmentos (casos) Realimentación del ATeus
pruebas AT.eus Acceso por internet al servicio interactivo Automatic Translation Server. Euskara.
fase2, desarrollo definitivo 1 1.- Determinación de dominios (edu, legal, banca, info)
2.- Ampliación de
cobertura (gramatical, léxica, estilística)
géneros y dominios (disponibilidad corpora)
3.- control de calidad
diccionario de equivalencias (ambigüedades, polisemias)
0 comments
Post a comment