• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003)
 

AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003)

on

  • 3,044 views

 

Statistics

Views

Total Views
3,044
Views on SlideShare
3,044
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • Bienvenidos a la presentación de las pruebas realizadas para demostrar la viabilidad de AT como plataforma de desarrollo de un traductor automático de español a euskara y de euskara a español utilizando la tecnología registrada por AT, Automatic Translation Server. Las pruebas realizadas en estos tres meses han abordado la traducción español-euskara. Al final, cuando presentemos las conclusiones, haremos algunas estimaciones en cuanto la continuación del desarrollo y la posible reversibilidad de los procesos para cubrir el euskara-español .

AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003) AutomaticTrans: Resultados del estudio de viabilidad ESP-EUS (28-02-2003) Presentation Transcript

  • AT-eus Prueba viabilidad traducción automática euskara
  • índice Alcance y objetivos de la prueba Metodología utilizada Equipo de trabajo: personas y funciones Casos resueltos para la prueba Validación y control de calidad Pruebas de traducción Fase2. Plazos y objetivos Enfoque
  • alcance y objetivos
    • Boletines Oficiales / Aldizkari Ofizialak
        • BAO (± 80Mb)
        • GAO (± 20Mb)
        • Años 1996-2000
    • Datos cuantitativos
      • 823.368 elementos alineados (párrafos, oraciones, etc.)
      • 447.746 elementos repetidos
      • 277.712 palabras (± 50.000 lexemas)
      • ± 20 % entidades con nombre propio : pers, org, doc, top, etc .
      • 342.492 segmentos (fórmulas, plantillas, términos de especialidad)
      • 2 a 30 variantes (en la traducción)
      • ± 20 categorías textuales (géneros)
    Material disponible (fondos)
  • alcance y objetivos: contrato Objetivos de la prueba
    • Subcorpus (año 2000)
    • Vocabulario 2.000 términos
    • Construcciones : 200 segmentos
    • Reglas : 25 reglas
  • alcance y objetivos: procesado Material procesado
      • Corpus depurado de 100MB reales de texto
      • 823.368 e lementos alineados
      • 62.582 palabras d iccionario El h uyar
      • 342.492 s egmentación de BAO
  • alcance y objetivos: validado Material validado para la prueba
      • Subcorpus de 736 KB.
      • 4.370 palabras de Elhuyar reetiquetadas
      • 4.738 palabras e tiquetad as
      • 3.841 segmentos etiquetados
      • 435 tablas
      • 245 reglas
    • Subcorpus (año 2000)
    • Vocabulario 2.000 términos
    • Construcciones : 200 segmentos
    • Reglas : 25 reglas
  • enfoque: explicación
      • equivalencia por reglas (transferencia, interlingua)
        • cobertura amplia
        • calidad impredecible (traducciones más “literales”)
        • baja homogeneidad (léxico)
    Estrategias de mercado: reglas / analogías
      • equivalencia por analogías (corpora bilingües, ejemplos, MT)
        • cobertura limitada: textos de especialidad
        • traducciones validadas
        • alta homogeneidad (estilo y terminología)
  • enfoque: cobertura calidad perfecta utilizable ilustrativa CAT MT cobertura comprensible
  • enfoque: ATS híbrida ATS, estrategia híbrida: corpus + reglas (álgebra)
      • Integración de reglas y ejemplos en misma BBDD (UDB)
      • Algoritmo de aplicación:
        • Fórmulas
        • Plantillas
        • Categorías gramaticales
      • Clave: estrategia, segmentación y etiquetado
  • enfoque: fórmulas “ Cuando exista una diferencia de altura entre las rasantes del perímetro del edificio tal que permita iluminar o dar acceso independiente a locales de semisótano, éstos contabilizarán en el cómputo de la superficie construida en una proporción igual a la relación entre la superficie de su fachada sobre rasante respecto a la superficie de su cerramiento perimetral, se halle enterrado o no, computado desde el plano horizontal definido por la rasante de menos cota.” Ejemplos de segmentos uniformes, fórmulas :
  • enfoque: fórmulas “ Eraikinaren perimetroko sestren arteko altuera diferentzia dagoenean, eta diferentzia horrek erdisotoko lokalak argitu edo horiei sarbide independientea ematen badie, horiek azalera eraikian kontabilizatuko dira, sestra gaineko fatxadaren azaleraren eta perimetroko itxiduraren azaleraren arteko erlazioaren proportzio berean, itxidura hori lurperaturik egon ala ez, eta kota txikieneko sestrak definituriko plano horizontaletik konputaturik.” Ejemplos de segmentos uniformes, fórmulas :
    • “ Eraikinaren perimetroko sestren artean, erdisotoko lokalak argitu edo aparteko sarbidea emateko bestekoa den altuerako tarte bat dagoenean, hauek, eraikitako azaleraren konputuan kontabilizatuko dira, sestraren gaineko euren fatxadaren azaleraren pareko proportzioan, perimetrozko euren zarraketaren azalerari dagokionean, hau lurraren azpian hala gainean dagoela, kotarik txikiena duen sestrak definitutako plano horizontaletik konputatua.”
    • “ Eraikinaren perimetroko lerrokaduren artean dagoen altuera-diferentziak erdisotoak argitzeko edo bertako lokaletara sartzeko modua ematen badu, erdisoto horiek eraikitako azaleraren konputoan sartuko dira, eta sartu ere sestra gainean duten fatxadaren azaleraren eta perimetroaren -zorupekoa zein ez- azaleraren arteko proportzio berean sartuko da.”
    Variantes en la traducción de fórmulas : enfoque
    • “ Eraikinaren perimetroko sestren artean, erdisotoko lokalak argitu edo aparteko sarbidea emateko bestekoa den altuerako tarte bat dagoenean, hauek, eraikitako azaleraren konputuan kontabilizatuko dira, sestraren gaineko euren fatxadaren azaleraren pareko proportzioan, perimetrozko euren zarraketaren azalerari dagokionean, hau lurraren azpian hala gainean dagoela, kotarik txikiena duen sestrak definitutako plano horizontaletik konputatua.”
    • “ Eraikinaren perimetroko lerrokaduren artean dagoen altuera-diferentziak erdisotoak argitzeko edo bertako lokaletara sartzeko modua ematen badu, erdisoto horiek eraikitako azaleraren konputoan sartuko dira, eta sartu ere sestra gainean duten fatxadaren azaleraren eta perimetroaren -zorupekoa zein ez- azaleraren arteko proportzio berean sartuko da.”
    • “ Eraikinaren perimetroaren sestren arteko altueran, erdisotoko lokalak argitzea edo sarrera bananduak ahalbideratzeko aldea dagoenean, hauek eraikitako azaleraren zenbatekoan sartuko dira, bere sestraren gaineko fatxadaren azalera bere itxitura perimetralaren azalerarekiko proportzio batean, lurperaturik egon edo ez, eta kota txikienak definituriko plano horizontaletik zenbatua.”
    • “ Eraikinaren perimetroko sestren arteko altuera diferentzia dagoenean, eta diferentzia horrek erdisotoko lokalak argitu edo horiei sarbide independientea ematen badie, horiek azalera eraikian kontabilizatuko dira, sestra gaineko fatxadaren azaleraren eta perimetroko itxiduraren azaleraren arteko erlazioaren proportzio berean, itxidura hori lurperaturik egon ala ez, eta kota txikieneko sestrak definituriko plano horizontaletik konputaturik.”
    enfoque Variantes en la traducción de fórmulas :
  • enfoque: gramática
        • SN  (COMP_N) + N’ + (Det)
        • N’  N + ( (grad) + A)
        • Det  (num) + (def)
        • COMP_N  SN + rel
        • COMP_N  SP + rel
        • COMP_N  O + rel
    Reglas SN para euskara (Goenaga, 1978) :
  • enfoque: ejemplo1a
        • “ el saldo máximo que se ha alcanzado durante el plazo para comunicar el número de identificación fiscal”
    Estructura de SN prevista por las reglas:
        • “ identifikazio fiskaleko zenbakiaren berri emateko epearen barruan lortu denaren gehienezko saldoa”
  • enfoque: ejemplo1b
        • La naturaleza o clase y número de cuenta u operación, así como el saldo o importe máximo alcanzado durante el plazo para comunicar el número de identificación fiscal.
    SN reales que aparece en los textos:
        • Kontu edo eragiketaren izaera edo mota eta zenbakia, baita ere identifikazio fiskaleko zenbakiaren berri emateko epearen barruan lortutako gehienezko saldoa edo zenbatekoa.
  • enfoque: ejemplo2a
        • Justificación de que la Entidad solicitante se halla al corriente en el cumplimiento de sus obligaciones con la Seguridad Social, así como en las tributarias.
    SN reales que aparece en los textos:
        • Erakunde eskatzaileak Gizarte Segurantzarekin dituen bete-beharrak eta, baita ere, zergari dagozkionak ordainduta dituela agertarazten duen frogagiria.
  • enfoque: ejemplo2b
        • Justificación de que la Entidad solicitante se halla al corriente en el cumplimiento de sus obligaciones con la Seguridad Social, así como en las tributarias.
    SN reales que aparece en los textos:
        • Erakunde eskatzaileak Gizarte Segurantzarekin dituen bete-beharrak eta, baita ere, zergari dagozkionak ordainduta dituela agertarazten duen frogagiria.
  • enfoque: ejemplo3a
        • La planificación y ejecución de actuaciones, generales o selectivas, de obtención de información, así como las relaciones con otras Administraciones a los mismos efectos.
    SN reales que aparece en los textos: Informazioa lortzeko jarduketak, orokorrak nahiz hautatzezkoak, eta gainerako administrazioarekiko informazio jarduketetako hartuemanak, planifikatu eta burutzea.
  • enfoque: ejemplo3b
        • La planificación y ejecución de actuaciones , generales o selectivas, de obtención de información , así como las relaciones con otras Administraciones a los mismos efectos.
    SN reales que aparece en los textos: Informazioa lortzeko jarduketak , orokorrak nahiz hautatzezkoak, eta gainerako administrazioarekiko informazio jarduketetako hartuemanak, planifikatu eta burutzea.
  • enfoque: ejemplo 3c
        • La planificación y ejecución de actuaciones , generales o selectivas , de obtención de información , así como las relaciones con otras Administraciones a los mismos efectos.
    Solución: combinar reglas con “plantillas” Informazioa lortzeko jarduketak , orokorrak nahiz hautatzezkoak , eta gainerako administrazioarekiko informazio jarduketetako hartuemanak , planifikatu eta burutzea .
  • ejemplos: plantillas Ejemplos de segmentos variables, plantillas:  Ver texto ejemplo “conceder...”
  • ejemplos: reducción Ejemplos de segmentos variables, plantillas: Conceder a X la deducción por importe de $ por las inversiones realizadas en activos fijos materiales nuevos mencionados en el artículo &art.{204} X-ari, &art artikuluan adierazitako gauzazko aktibo finko berrietan egin izandako inbertsioengatik, $ko zenbatekoko kenkaria ematea.{204}
  • ejemplos: nombres propios Reconocimiento de variables  ver texto muestra de nombres propios
  • enfoque: plantillas y reglas Interacción de plantillas y reglas: “ Se ha constatado, por la presencia en ferias, que las prendas confeccionadas aquí tienen una gran demanda, [ no sólo en otras comunidades autónomas , sino también en mercados tan dispares como los europeos, Oriente Medio y América ]” “ Hainbat azoketan ikusi ahal izan denez,, hemen eginiko jantziek eskari handia sortarazten dute eta, [beste autonomi elkarte batzutan ez ezik, bai eta arras ezberdinak diren Europako, Ekialde Ertaineko edota Amerikako beste hainbat merkatutan ere]”
  • enfoque: plantillas y reglas Interacción de plantillas y reglas: no sólo X sino también Y X ez ezik, baita Y ere X ez ezik, Y ere ez bakarrik X, baita Y ere ez bakarrik X, baizik eta Y ere
  • enfoque: plantillas y reglas Interacción de plantillas y reglas: Los certificados de Hacienda y Seguridad Social deberán ser aportados [tanto por Entidades públicas como privadas ] Ogasun eta Gizarte Segurantzaren ziurtagiriak [ Erakunde publikoek zein pribatuek ] aurkeztu behar izango dituzte
  • enfoque: plantillas y reglas Interacción de plantillas y reglas: tanto X como Y X zein Y bai X bai Y X bezala Y ere X nahiz Y bai X bai eta Y hala X nola Y X, Y  {sn, sp} tanto <sn> como <sn> ==> <sn>
  • metodología aplicada Tratamiento de diccionario y corpus Análisis de construcciones y “comportamientos” Definición de estrategia a partir del análisis Tareas operativas Recursos y herramientas
  • metodología: tareas Tratamiento de diccionario y corpus
      • Alineación
        • - recurso: corpus bilingüe paralelo
        • - identificar equivalencias
      • Segmentación
        • - afinar la granularidad de las equivalencias
        • - mayor economía / productividad
      • Etiquetado para integrar el corpus en la gramática:
        • 1. generaliza parcialmente los segmentos en plantillas
        • 2. los segmentos entr a n en el juego de las reglas sintácticas
        • 3. revisión y validación de categorías y atributos del diccionario
  • metodología: análisis Revisión del corpus para detectar los casos Identificación de construcciones Agrupación por estructuras Síntesis de comportamientos
  • metodología: reglas Estrategia de etiquetado Asignación de rasgos y atributos Definición de reglas Comprobación y correcciones
  • equipo de trabajo Dirección del proyecto Coordinación de recursos Tecnología y estrategia de desarrollo Procesado de corpus Segmentación y análisis Diccionarios y equivalencias Etiquetado Joseba Abaitua coordinar las cuestiones de norma y estilo, definir la estrategia de traducción con tecnología y recursos, seguir el cumplimiento de los objetivos marcados verificar el control de calidad, cumplir con los plazos e hitos trazados Jone Etxeberria, Joan Vilarnau coordinar uso y relaciones del corpus, tecnología y recursos aplicados a etiquetado y segmentación, metodología de trabajo de los lingüistas, desarrollo de tablas y reglas, validación y pruebas. tecnología y recursos aplicados a etiquetado. Úrbez Santana desarrollo especializado segmentador, adaptación generador de plantillas y reglas (ATS-query) adaptación módulos UDB, adatación núcleo ATS Aziz Khalifi desarrollo de rutinas de comparación, extracción selectiva, reformato de recursos al estándar de tratamiento, alimentación y soporte a las pruebas, administración del corpus y de los resultados Ainhoa Sánchez, Joan Vilarnau procesado de ELHUYAR, selección de equivalencias, Etiquetado con atributos especializados ATS. Amaia Santamaría, Joseba Abaitua revisión y análisis de corpus, extracción comportamientos, preparación de estructuras, validación y pruebas Miren Pérez, Olatz de Andrés, Ainhoa Sánchez segmentado de textos en distintos rangos, etiquetado de segmentos de pruebas, validación y corrección
  • casos resueltos Concordancia de SSNN + V Sintagma nominal Sintagma postposicionales y adverbiales Cláusulas de relativo y completivas Conjuntivas y adversativas
  • casos resueltos: sn1 Sintagma nominal
      • “ ... la decisión estratégica del secretario...”
      • “ ... idazkariaren erabaki estrategikoa...”
  • casos resueltos: sn1 Sintagma nominal
      • “ ... el alcalde de Bilbao...”
      • “ ... Bilboko alkatea...”
  • casos resueltos: sn1 Sintagma nominal
      • “ ... La planificación de Bilbao..”
      • “ ... Bilboren plangintzaa...”
  • casos resueltos: sn2 Sintagma nominal
      • “ ... alguna decisión contradictoria del secretario general de la junta...”
      • “ ... batzordearen idazkari orokoraren erabaki kontraesankorren bat...”
  • casos resueltos: concordancia1 Concordancia de SSNN + V
      • “ ... los facultativos pagaron las tasas a los secretarios...”
      • “ ... goi-mailako teknikariek tasaak idazkariakri ordaindu zizkieten... ”
  • casos resueltos: concordancia2 Concordancia de SSNN + V
      • “ ... aquella decisión comercial del secretario general de las empresas de nueva creación de Vitoria especificó las rentas de los minusválidos...”
      • “ ... Gasteizko enpresa sortuberriakakren idazkari orokoraren erabaki komertzial hurak minusbaliatuakren errentaak zehaztu zituen... ”
  • casos resueltos: sp y adv Sintagma postposicionales y adverbiales
      • “ ... los beneficiarios evitaron algunos errores en enero...”
      • “ ... onuradunek akats batzuk urtarrilan ekidin zituzten...”
  • casos resueltos: relativo Cláusulas de relativo y completivas
      • “ ... el boletín que publicó el secretario informó a los ayudantes...”
      • “ ... idazkariak argitaratu zuenn buletinak laguntzaileakri informatu zien...”
  • casos resueltos: completiva Cláusulas de relativo y completivas
      • “ ... algunos aficionados destacaron que supervisaron el trabajo del vecindario...”
      • “ ... zale batzukk auzoteriaaren lana gainbegiratu zutenla azpimarratu zuten...”
  • casos resueltos: conjuntivas Conjuntivas y adversativas
      • “ ... el secretario rectificó la presentación y el director supervisó el trabajo...”
      • “ ... idazkariak aurkezpena zuzendu zuen eta zuzendariak lana gainbegiratu zuen...”
  • control de calidad Revisión acepciones del diccionario Funcionamiento de las tablas y reglas Definición del subcorpus de trabajo Revisión de traducciones Pruebas de segmentos (casos) Realimentación del ATeus
  • pruebas AT.eus Acceso por internet al servicio interactivo  Automatic Translation Server. Euskara.
  • fase2, desarrollo definitivo 1 1.- Determinación de dominios (edu, legal, banca, info)
    • 2.- Ampliación de
        • cobertura (gramatical, léxica, estilística)
        • géneros y dominios (disponibilidad corpora)
    • 3.- control de calidad
        • diccionario de equivalencias (ambigüedades, polisemias)
        • homogeneidad (terminológica, estilística)
        • normalización de variantes
  • fase2, desarrollo definitivo 2
    • 4.- Aspectos tecnológicos
        • categorizador de textos
        • reconocedor de nombres propios
        • adaptaciones necesarias
    • 5.- estudios lingüísticos
        • subcategorización
        • asimetrías (léxicas, estructurales, estilísticas)
        • modismos
        • unidades semiológicas
    6.- reversibilidad (eus-esp)
  • AT-eus fin Gracias por vuestra atención