Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML  d e traducción y lingüística de corpu...
<ul><ul><li>www.deli.deusto.es/SareBi </li></ul></ul><ul><ul><ul><li>DELi  (Letras - ESIDE) </li></ul></ul></ul><ul><ul><u...
<ul><ul><li>estándares XML </li></ul></ul><ul><ul><ul><ul><li>lingüística de corpus: TEI </li></ul></ul></ul></ul><ul><ul>...
<ul><li>Antecedentes  ( DELi : 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><u...
<ul><li>Antecedentes  ( DELi : 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><u...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1994-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Participación   (Uned, EHU,UPC, UB, RAE...) </li></ul><ul><ul><ul><li>HAIN (1993-1996) </li></ul></ul></ul><ul><ul...
<ul><li>Edición digital - lingüística de corpus </li></ul><ul><ul><li>DELi  2002-2005 </li></ul></ul><ul><ul><ul><ul><ul><...
Estructura de un texto TEI <ul><li>Todos los textos TEI tienen  </li></ul><ul><li>cabecera <teiHeader> </li></ul><ul><ul><...
Estructura de un texto TEI (ii) <ul><li>Cada texto tiene un <front> y un <back> opcionales </li></ul><ul><ul><li><TEI.2> <...
SARE-Bi: Campo de aplicación <ul><li>Universidad de Deusto  </li></ul><ul><ul><ul><li>genera numerosos documentos admisnis...
Arquitectura de SARE-Bi <ul><li>SARE-Bi está implementado en Zope </li></ul><ul><ul><li>desarrollado en Python </li></ul><...
Arquitectura de SARE-Bi (ii) <ul><li>Diagrama de clases del producto TeiCorpus </li></ul>
SARE-Bi: funciones <ul><li>Recuperación de documentos </li></ul><ul><ul><li>filtrado </li></ul></ul><ul><ul><ul><li>basado...
SARE-Bi: resultados de filtrado <ul><li>una fila por documento </li></ul><ul><ul><li>- enlace para  - enlace para  </li></...
SARE-Bi: visualización <ul><li>Exportación </li></ul><ul><ul><li>TEI y TMX </li></ul></ul><ul><li>Doc. completo </li></ul>...
SARE-Bi: resultados  de búsqueda <ul><li>segmentos encontrados </li></ul><ul><ul><li>en todas las lenguas </li></ul></ul><...
SARE-Bi: incorporación de un  documento (primer paso) <ul><li>El usuario proporciona: </li></ul><ul><ul><li>valores para l...
<ul><li>Texto introducido  Gestión de metadatos </li></ul><ul><li>por el usuario </li></ul><ul><li>Segmentación </li></ul>...
SARE-Bi: componentes <ul><li>Corpus de documentos multilingües </li></ul><ul><ul><ul><li>anotados, segmentados y alineados...
Metadatos: categoría <ul><li>Taxonomía documental con 282 categorías estructuradas en tres niveles: </li></ul><ul><li>func...
Metadatos: estado y visibilidad <ul><li>Dinámicos </li></ul><ul><ul><ul><li>los usuarios cambian el estado y la visibilida...
SARE-Bi: usuarios <ul><li>Asociados a diferentes  perfiles </li></ul><ul><ul><li>invitados, redactores, traductores, admin...
SARE-Bi: ciclo de edición <ul><li>Un redactor añade un documento monolingüe </li></ul><ul><ul><ul><li>al crearlo: visibili...
SARE-Bi: variaciones del ciclo de edición <ul><li>Redactores bilingües </li></ul><ul><ul><ul><li>pueden desarrollar docume...
Conclusiones <ul><li>Sare-Bi es una aplicación Web (basada en Zope) </li></ul><ul><ul><ul><li>con interfaz multilingüe (lo...
Conclusiones <ul><li>En uso experimental desde mayo 2003 </li></ul><ul><ul><ul><li>seis redactores / dos traductores </li>...
<ul><li>Las investigaciones presentadas en este proyecto han sido financiadas por: </li></ul><ul><ul><li>Gobierno Vasco </...
Gracias por su atención
<ul><li>Documentos dirigidos a </li></ul><ul><ul><ul><li>los miembros de un departamento (aprox. 20) </li></ul></ul></ul><...
<ul><li>Producción de un documento </li></ul><ul><ul><ul><li>a “writer” writes original document (in one language) </li></...
Case study: fieldwork <ul><li>Cost of translation </li></ul><ul><ul><ul><li>mainly an economic concern (institution can on...
How can MT help? <ul><li>Goal:  to increase the number of multilingual documents generated in our University </li></ul><ul...
Solution (1): a document management system <ul><li>To organise documents </li></ul><ul><ul><ul><li>cumulative document rep...
Solution (2): translation memories <ul><li>Experience of DELi </li></ul><ul><ul><ul><li>automatic extraction of translatio...
Solution (3): metadata <ul><li>Chaotic accumulation of contents </li></ul><ul><ul><ul><li>difficult management, search, re...
SARE-Bi: a first tour <ul><li>SARE-Bi </li></ul><ul><ul><li>multilingual document management system </li></ul></ul><ul><ul...
Upcoming SlideShare
Loading in …5
×

La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

1,382 views

Published on

Published in: Technology
  • Be the first to comment

  • Be the first to like this

La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

  1. 1. La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML d e traducción y lingüística de corpus Joseba Abaitua, JosuKa Díaz, Inés Jacob, Fernando Quintana DELi (Universidad de Deusto) Garikoitz Araolaza,Luistxo Fernández CodeSyntax I Jornadas de Lingüística vasco-románica
  2. 2. <ul><ul><li>www.deli.deusto.es/SareBi </li></ul></ul><ul><ul><ul><li>DELi (Letras - ESIDE) </li></ul></ul></ul><ul><ul><ul><ul><li>edición digital (XML) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>ingeniería lingüística </li></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>tecnologías de traducción </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>lingüística de corpus </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><li>grid semántica </li></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>web semántica </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>computación grid </li></ul></ul></ul></ul></ul><ul><ul><li>www.codesyntax.com </li></ul></ul>SARE-Bi : Sistema de gestión de documentación multilingüe
  3. 3. <ul><ul><li>estándares XML </li></ul></ul><ul><ul><ul><ul><li>lingüística de corpus: TEI </li></ul></ul></ul></ul><ul><ul><ul><ul><li>tecnología de traducción: TMX </li></ul></ul></ul></ul><ul><ul><ul><ul><li>localización de software: XLIFF </li></ul></ul></ul></ul><ul><ul><li>documática </li></ul></ul><ul><ul><ul><ul><li>catalogación, indización, búsquedas </li></ul></ul></ul></ul><ul><ul><ul><ul><li>roles y permisos (redactor, traductor, validador...) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>estado y “visibilidad” (borrador, revisado; interno, público) </li></ul></ul></ul></ul><ul><ul><li>tradumática </li></ul></ul><ul><ul><ul><ul><li>memoria de traducción </li></ul></ul></ul></ul><ul><ul><ul><ul><li>segmentación, alineación </li></ul></ul></ul></ul><ul><ul><ul><ul><li>control de versiones - ciclo de vida </li></ul></ul></ul></ul>SARE-Bi : Sistema de gestión de documentación multilingüe
  4. 4. <ul><li>Antecedentes ( DELi : 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul><ul><li>Participación (Uned, EHU,UPC, UB...) </li></ul><ul><ul><ul><li>HAIN (1993-1996) </li></ul></ul></ul><ul><ul><ul><li>TREVI (1996-1998) </li></ul></ul></ul><ul><ul><ul><li>ITEM (1997-1999) </li></ul></ul></ul><ul><ul><ul><li>HERMES (2000-2003) </li></ul></ul></ul><ul><ul><ul><li>CORDE (2002-2004) </li></ul></ul></ul><ul><ul><ul><li>ESP-EUS (2002-2004) </li></ul></ul></ul>
  5. 5. <ul><li>Antecedentes ( DELi : 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul><ul><li>Participación (Uned, EHU,UPC, UB...) </li></ul><ul><ul><ul><li>HAIN (1993-1996) </li></ul></ul></ul><ul><ul><ul><li>TREVI (1996-1998) </li></ul></ul></ul><ul><ul><ul><li>ITEM (1997-1999) </li></ul></ul></ul><ul><ul><ul><li>HERMES (2000-2003) </li></ul></ul></ul><ul><ul><ul><li>CORDE (2002-2004) </li></ul></ul></ul><ul><ul><ul><li>ESP-EUS (2002-2004) </li></ul></ul></ul>
  6. 6. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1994-1999) </li></ul></ul></ul><ul><ul><ul><ul><li>Textos paralelos bilingües en euskara y castellano de las administraciones vascas con etiquetado SGML/TEI-P3 </li></ul></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul>
  7. 7. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><ul><li>Extracción automática de unidades bitextuales para memorias de traducción </li></ul></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul>
  8. 8. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><ul><li>Procedimientos para la gestión del flujo documental multilingüe sobre XML/TEI-P3 </li></ul></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul>
  9. 9. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><ul><li>Gestión de flujo de contenidos multilingües sobre XLIFF y TMX </li></ul></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul>
  10. 10. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><ul><li>Open Archive Cataloger </li></ul></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul>
  11. 11. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul><ul><ul><ul><ul><li>Grid de memorias de traducción </li></ul></ul></ul></ul>
  12. 12. <ul><li>Participación (Uned, EHU,UPC, UB, RAE...) </li></ul><ul><ul><ul><li>HAIN (1993-1996) </li></ul></ul></ul><ul><ul><ul><ul><li>Entorno para aplicaciones lingüísticas </li></ul></ul></ul></ul><ul><ul><ul><li>TREVI (1996-1998) </li></ul></ul></ul><ul><ul><ul><ul><li>Text Retrieval and Enrichment for Vital Information </li></ul></ul></ul></ul><ul><ul><ul><li>ITEM (1997-1999) </li></ul></ul></ul><ul><ul><ul><ul><li>Recuperación de Información Textual en un Entorno Multilíngüe con Técnicas de Lenguaje Natural </li></ul></ul></ul></ul><ul><ul><ul><li>HERMES (2000-2003) </li></ul></ul></ul><ul><ul><ul><ul><li>Hemerotecas electrónicas. Recuperación multilingüe y extracción semántica </li></ul></ul></ul></ul><ul><ul><ul><li>CORDE (2002-2004) </li></ul></ul></ul><ul><ul><ul><ul><li>Corpus diacrónico español </li></ul></ul></ul></ul>
  13. 13. <ul><li>Edición digital - lingüística de corpus </li></ul><ul><ul><li>DELi 2002-2005 </li></ul></ul><ul><ul><ul><ul><ul><li>CORDE </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Rómulo. Edición digital plurilingüe de un texto europeo del siglo XVII </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>La esfera. Edición hipertextual </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>UNAI ( SPrako tranbia / Un tranvía en SP ) </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Fondo Bonaparte </li></ul></ul></ul></ul></ul><ul><ul><li>Etiquetado/Metadatos XML/TEI </li></ul></ul>
  14. 14. Estructura de un texto TEI <ul><li>Todos los textos TEI tienen </li></ul><ul><li>cabecera <teiHeader> </li></ul><ul><ul><li>descripción bibliográfica </li></ul></ul><ul><ul><li>descripción de la forma en que ha sido codificado </li></ul></ul><ul><ul><li>descripción no bibliográfica del texto (perfil) </li></ul></ul><ul><ul><li>historia de revisiones </li></ul></ul><ul><li>texto <text> </li></ul>
  15. 15. Estructura de un texto TEI (ii) <ul><li>Cada texto tiene un <front> y un <back> opcionales </li></ul><ul><ul><li><TEI.2> </li></ul></ul><ul><ul><li><teiHeader> [ TEI Header information ] </teiHeader> </li></ul></ul><ul><ul><li><text> </li></ul></ul><ul><ul><li><front> [ front matter ... ] </front> </li></ul></ul><ul><ul><li><body> [ body of text ... ] </body> </li></ul></ul><ul><ul><li><back> [ back matter ... ] </back> </li></ul></ul><ul><ul><li></text> </li></ul></ul><ul><ul><li></TEI.2> </li></ul></ul>
  16. 16. SARE-Bi: Campo de aplicación <ul><li>Universidad de Deusto </li></ul><ul><ul><ul><li>genera numerosos documentos admisnistrativos </li></ul></ul></ul><ul><ul><ul><li>la mayoría son bilingües español - euskara, lenguas oficiales del País Vasco </li></ul></ul></ul><ul><ul><ul><li>algunos también en inglés, francés, italiano... </li></ul></ul></ul><ul><li>Dimensión de los documentos </li></ul><ul><ul><ul><li>largos (estatutos, normativas, informes...) </li></ul></ul></ul><ul><ul><ul><li>cortos (anuncios, cartas, convocatorias...) </li></ul></ul></ul><ul><ul><ul><li>de una única oración(“Atenderemos en el despacho 535”) </li></ul></ul></ul>
  17. 17. Arquitectura de SARE-Bi <ul><li>SARE-Bi está implementado en Zope </li></ul><ul><ul><li>desarrollado en Python </li></ul></ul><ul><ul><li>incluye una base de datos orientada a objetos (ZODB) </li></ul></ul><ul><ul><li>los módulos que amplían Zope se denominan productos </li></ul></ul><ul><ul><li>El producto TeiCorpus es el motor de SARE-Bi </li></ul></ul>
  18. 18. Arquitectura de SARE-Bi (ii) <ul><li>Diagrama de clases del producto TeiCorpus </li></ul>
  19. 19. SARE-Bi: funciones <ul><li>Recuperación de documentos </li></ul><ul><ul><li>filtrado </li></ul></ul><ul><ul><ul><li>basado en metadatos </li></ul></ul></ul><ul><ul><li>búsqueda </li></ul></ul><ul><ul><ul><li>texto libre </li></ul></ul></ul><ul><ul><ul><li>cualquier lengua </li></ul></ul></ul>
  20. 20. SARE-Bi: resultados de filtrado <ul><li>una fila por documento </li></ul><ul><ul><li>- enlace para - enlace para </li></ul></ul><ul><ul><li>visualización modificación </li></ul></ul>
  21. 21. SARE-Bi: visualización <ul><li>Exportación </li></ul><ul><ul><li>TEI y TMX </li></ul></ul><ul><li>Doc. completo </li></ul><ul><ul><li>recuperación de contenido </li></ul></ul><ul><li>Doc. segmentado </li></ul><ul><ul><li>correspondencia entre lenguajes </li></ul></ul>
  22. 22. SARE-Bi: resultados de búsqueda <ul><li>segmentos encontrados </li></ul><ul><ul><li>en todas las lenguas </li></ul></ul><ul><ul><li>equivale a lo ofrecido por una memoria de traducción </li></ul></ul><ul><li>incluye enlaces a visualización </li></ul>
  23. 23. SARE-Bi: incorporación de un documento (primer paso) <ul><li>El usuario proporciona: </li></ul><ul><ul><li>valores para los metadatos </li></ul></ul><ul><ul><li>lenguas del documento (puede ser sólo una) </li></ul></ul>
  24. 24. <ul><li>Texto introducido Gestión de metadatos </li></ul><ul><li>por el usuario </li></ul><ul><li>Segmentación </li></ul><ul><li>y alineado </li></ul><ul><li>ventana similar a la de modificación </li></ul>SARE-Bi: incorporación de un documento (segundo paso)
  25. 25. SARE-Bi: componentes <ul><li>Corpus de documentos multilingües </li></ul><ul><ul><ul><li>anotados, segmentados y alineados </li></ul></ul></ul><ul><ul><ul><li>los segmentos son párrafos </li></ul></ul></ul><ul><li>Metadatos asociados a cada documento </li></ul><ul><ul><ul><li>cabecera TEI </li></ul></ul></ul><ul><ul><ul><li>datos habituales: título, fechas, autor, lugar... </li></ul></ul></ul><ul><ul><li>Los metadatos más importantes son: </li></ul></ul><ul><ul><ul><li>categoría, estado, visibilidad </li></ul></ul></ul>
  26. 26. Metadatos: categoría <ul><li>Taxonomía documental con 282 categorías estructuradas en tres niveles: </li></ul><ul><li>función comunicativa (reglamentar, informar, inquirir) </li></ul><ul><li>género (25) </li></ul><ul><li>tema (256) </li></ul><ul><ul><li>31000/inquirir </li></ul></ul><ul><ul><li>31400/instancia </li></ul></ul><ul><ul><li>31401/inscripción pruebas mayores 25 años </li></ul></ul><ul><ul><li>31402/solicitud de adaptacón de planes de estudio </li></ul></ul><ul><ul><li>31403/solicitud de convalidación asignaturas </li></ul></ul><ul><ul><li>31404/solicitud de reconocimiento complementos </li></ul></ul><ul><ul><li>31405/solicitud de reconsideración admisión </li></ul></ul><ul><ul><li>31406/solicitud de título </li></ul></ul><ul><ul><li>31407/solicitud de traslado expediente </li></ul></ul><ul><ul><li>31408/solicitud cambio de asignaturas opt. y LE </li></ul></ul>
  27. 27. Metadatos: estado y visibilidad <ul><li>Dinámicos </li></ul><ul><ul><ul><li>los usuarios cambian el estado y la visibilidad durante las diferentes etapas del ciclo de edición </li></ul></ul></ul><ul><ul><ul><li>reflejan la situación del documento </li></ul></ul></ul><ul><ul><ul><li>todos los demás metadatos son estáticos (con valores constantes) </li></ul></ul></ul><ul><li>Estado </li></ul><ul><ul><ul><li>no validado, validado, normativo </li></ul></ul></ul><ul><li>Visibilidad </li></ul><ul><ul><ul><li>borrador , confidencial , compartido , público </li></ul></ul></ul>
  28. 28. SARE-Bi: usuarios <ul><li>Asociados a diferentes perfiles </li></ul><ul><ul><li>invitados, redactores, traductores, administradores </li></ul></ul><ul><li>y permisos, dependientes de </li></ul><ul><ul><li>propietario del documento </li></ul></ul><ul><ul><li>estado </li></ul></ul><ul><ul><li>visibilidad </li></ul></ul>
  29. 29. SARE-Bi: ciclo de edición <ul><li>Un redactor añade un documento monolingüe </li></ul><ul><ul><ul><li>al crearlo: visibilidad borrador , estado no validado </li></ul></ul></ul><ul><ul><ul><li>al terminar: visibilidad compartida (por ejemplo) </li></ul></ul></ul><ul><ul><ul><li>el redactor llama al traductor </li></ul></ul></ul><ul><li>El traductor al terminar su tarea </li></ul><ul><ul><ul><li>cambia el estado a validado </li></ul></ul></ul><ul><ul><ul><li>avisa al redactor </li></ul></ul></ul><ul><li>El redactor </li></ul><ul><ul><ul><li>accede al documento bilingüe </li></ul></ul></ul><ul><ul><ul><li>y lo publica </li></ul></ul></ul>
  30. 30. SARE-Bi: variaciones del ciclo de edición <ul><li>Redactores bilingües </li></ul><ul><ul><ul><li>pueden desarrollar documentos bilingües </li></ul></ul></ul><ul><ul><ul><li>el traductor se limita a revisar y validar la traducción </li></ul></ul></ul><ul><li>Documento normativo </li></ul><ul><ul><ul><li>modelo en su categoría </li></ul></ul></ul><ul><ul><ul><li>el estado normativo es asignado por el traductor </li></ul></ul></ul><ul><ul><ul><li>un redactor bilingüe podría utilizarlo para un nuevo documento </li></ul></ul></ul>
  31. 31. Conclusiones <ul><li>Sare-Bi es una aplicación Web (basada en Zope) </li></ul><ul><ul><ul><li>con interfaz multilingüe (localizado es-eu-en) </li></ul></ul></ul><ul><ul><ul><li>adecuada gestión de información y contenidos </li></ul></ul></ul><ul><ul><ul><li>complejo sistema de gestión de usuarios </li></ul></ul></ul><ul><li>Base de datos orientada a objetos </li></ul><ul><li>Funcionalidad XML </li></ul><ul><ul><ul><li>exporta a formatos TEI y XML </li></ul></ul></ul>
  32. 32. Conclusiones <ul><li>En uso experimental desde mayo 2003 </li></ul><ul><ul><ul><li>seis redactores / dos traductores </li></ul></ul></ul><ul><ul><ul><li>sin medidas cuantitativas, pero </li></ul></ul></ul><ul><ul><ul><li>constante incremento del número de documentos del corpus </li></ul></ul></ul><ul><ul><ul><li>aceptación de los usuarios </li></ul></ul></ul><ul><li>Mejoras del sistema (proyecto X-Flow) </li></ul><ul><ul><ul><li>automatización de las tareas de control de flujo </li></ul></ul></ul><ul><ul><ul><li>control de versiones de documentos (XLIFF) </li></ul></ul></ul>
  33. 33. <ul><li>Las investigaciones presentadas en este proyecto han sido financiadas por: </li></ul><ul><ul><li>Gobierno Vasco </li></ul></ul><ul><ul><ul><li>Depto. de Industria (proyecto X-Flow, OD-02UD04, 2002-2003) </li></ul></ul></ul><ul><ul><ul><li>Depto. de Educación, Universidades e Investigación (proyecto XML-Bi, PI1999-72, 2000-2001) </li></ul></ul></ul><ul><ul><li>CodeSyntax (Eibar, España) </li></ul></ul><ul><li>Agradecimientos </li></ul><ul><ul><li>Josu Gómez, Arantza Domínguez (DELi, UD) </li></ul></ul><ul><ul><li>Guillermo Barrutieta (Mondragon Unibertsitatea) </li></ul></ul>
  34. 34. Gracias por su atención
  35. 35. <ul><li>Documentos dirigidos a </li></ul><ul><ul><ul><li>los miembros de un departamento (aprox. 20) </li></ul></ul></ul><ul><ul><ul><li>los empleados (aprox. 1.000) </li></ul></ul></ul><ul><ul><ul><li>los estudiantes (aprox. 20.000) </li></ul></ul></ul><ul><li>La calidad es primordial </li></ul><ul><ul><ul><li>independientemente del número de lectores </li></ul></ul></ul><ul><ul><ul><li>independientemente de la transcendencia y la longitud del documento. </li></ul></ul></ul><ul><ul><ul><li>está mal visto publicar documentos incorrectamente escritos, ya sea en euskara o en castellano. </li></ul></ul></ul>
  36. 36. <ul><li>Producción de un documento </li></ul><ul><ul><ul><li>a “writer” writes original document (in one language) </li></ul></ul></ul><ul><ul><ul><li>he sends it to a “translator” </li></ul></ul></ul><ul><ul><ul><li>the “translator” produces the other language version </li></ul></ul></ul><ul><ul><ul><li>she sends it back to the “writer” </li></ul></ul></ul><ul><ul><ul><li>he publishes the multilingual document </li></ul></ul></ul><ul><li>Almost 100% of original writing in Spanish </li></ul><ul><ul><ul><li>Basque: a minority language </li></ul></ul></ul><ul><ul><ul><li>many can read/understand, only a few can write </li></ul></ul></ul>
  37. 37. Case study: fieldwork <ul><li>Cost of translation </li></ul><ul><ul><ul><li>mainly an economic concern (institution can only afford to translate “important” documents) </li></ul></ul></ul><ul><ul><ul><li>but also a problem of time (urgent documents) </li></ul></ul></ul><ul><li>Key: many docs. have a fixed structure </li></ul><ul><ul><ul><li>short letters, calls, invitations... </li></ul></ul></ul><ul><ul><ul><li>published weekly, monthly, yearly... </li></ul></ul></ul><ul><ul><ul><li>small changes (date, place, name...) </li></ul></ul></ul><ul><ul><li>“ writers” take advantage of this: they REUSE </li></ul></ul><ul><ul><li>but “translators” MAY NOT REUSE </li></ul></ul>
  38. 38. How can MT help? <ul><li>Goal: to increase the number of multilingual documents generated in our University </li></ul><ul><li>No Spanish to Basque MT tool yet </li></ul><ul><ul><ul><li>although a big research effort is being made </li></ul></ul></ul><ul><ul><ul><li>anyway, ¿quality? </li></ul></ul></ul><ul><ul><ul><li>translation is an important step, but not the only one </li></ul></ul></ul><ul><li>Translators use some MAT tools </li></ul><ul><ul><ul><li>term-bases </li></ul></ul></ul><ul><ul><ul><li>translation memories (not fully implemented yet) </li></ul></ul></ul>
  39. 39. Solution (1): a document management system <ul><li>To organise documents </li></ul><ul><ul><ul><li>cumulative document repository </li></ul></ul></ul><ul><ul><ul><li>classified under several criteria </li></ul></ul></ul><ul><li>Multilingual functionality </li></ul><ul><ul><ul><li>the textual correspondence between parts (segments) of documents is explicitly shown </li></ul></ul></ul><ul><li>Collaborative system </li></ul><ul><ul><ul><li>writers and translators share the documents </li></ul></ul></ul><ul><ul><ul><li>allows to implement other stages in the publication procedure </li></ul></ul></ul>
  40. 40. Solution (2): translation memories <ul><li>Experience of DELi </li></ul><ul><ul><ul><li>automatic extraction of translation memories from bilingual (es-eu) docs (XTRA-Bi project, 2000-2001) </li></ul></ul></ul><ul><ul><ul><li>several Gigabytes of TMX files </li></ul></ul></ul><ul><ul><ul><li>unorganised chunks of texts segments </li></ul></ul></ul><ul><li>Multilingual segmented document system </li></ul><ul><ul><ul><li>not only the document as a whole </li></ul></ul></ul><ul><ul><ul><li>if we show the corresp. of multilingual segments </li></ul></ul></ul><ul><ul><ul><li>then the system is also a translation memory (TMX) repository </li></ul></ul></ul>
  41. 41. Solution (3): metadata <ul><li>Chaotic accumulation of contents </li></ul><ul><ul><ul><li>difficult management, search, retrieval... </li></ul></ul></ul><ul><li>Metadata </li></ul><ul><ul><ul><li>document = content + metacontent </li></ul></ul></ul><ul><ul><ul><li>semantic web, ontologies, content syndication... </li></ul></ul></ul><ul><ul><ul><li>XML technology </li></ul></ul></ul><ul><li>TEI (Text Encoding Initiative) </li></ul><ul><ul><ul><li>not so much for the purpose of linguistic mark-up </li></ul></ul></ul><ul><ul><ul><li>for structural and cataloguing aspects (TEI header) </li></ul></ul></ul>
  42. 42. SARE-Bi: a first tour <ul><li>SARE-Bi </li></ul><ul><ul><li>multilingual document management system </li></ul></ul><ul><ul><li>allows incremental compilation of documents </li></ul></ul><ul><ul><li>allows users to work collaboratively </li></ul></ul><ul><ul><li>uses metadata as a conceptual mechanism </li></ul></ul><ul><ul><li>can also be seen as a memory-based machine translation system </li></ul></ul><ul><li>Demo </li></ul>

×