La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML  d e traducción y lingüística de corpu...
<ul><ul><li>www.deli.deusto.es/SareBi </li></ul></ul><ul><ul><ul><li>DELi  (Letras - ESIDE) </li></ul></ul></ul><ul><ul><u...
<ul><ul><li>estándares XML </li></ul></ul><ul><ul><ul><ul><li>lingüística de corpus: TEI </li></ul></ul></ul></ul><ul><ul>...
<ul><li>Antecedentes  ( DELi : 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><u...
<ul><li>Antecedentes  ( DELi : 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><u...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1994-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Antecedentes  ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul...
<ul><li>Participación   (Uned, EHU,UPC, UB, RAE...) </li></ul><ul><ul><ul><li>HAIN (1993-1996) </li></ul></ul></ul><ul><ul...
<ul><li>Edición digital - lingüística de corpus </li></ul><ul><ul><li>DELi  2002-2005 </li></ul></ul><ul><ul><ul><ul><ul><...
Estructura de un texto TEI <ul><li>Todos los textos TEI tienen  </li></ul><ul><li>cabecera <teiHeader> </li></ul><ul><ul><...
Estructura de un texto TEI (ii) <ul><li>Cada texto tiene un <front> y un <back> opcionales </li></ul><ul><ul><li><TEI.2> <...
SARE-Bi: Campo de aplicación <ul><li>Universidad de Deusto  </li></ul><ul><ul><ul><li>genera numerosos documentos admisnis...
Arquitectura de SARE-Bi <ul><li>SARE-Bi está implementado en Zope </li></ul><ul><ul><li>desarrollado en Python </li></ul><...
Arquitectura de SARE-Bi (ii) <ul><li>Diagrama de clases del producto TeiCorpus </li></ul>
SARE-Bi: funciones <ul><li>Recuperación de documentos </li></ul><ul><ul><li>filtrado </li></ul></ul><ul><ul><ul><li>basado...
SARE-Bi: resultados de filtrado <ul><li>una fila por documento </li></ul><ul><ul><li>- enlace para  - enlace para  </li></...
SARE-Bi: visualización <ul><li>Exportación </li></ul><ul><ul><li>TEI y TMX </li></ul></ul><ul><li>Doc. completo </li></ul>...
SARE-Bi: resultados  de búsqueda <ul><li>segmentos encontrados </li></ul><ul><ul><li>en todas las lenguas </li></ul></ul><...
SARE-Bi: incorporación de un  documento (primer paso) <ul><li>El usuario proporciona: </li></ul><ul><ul><li>valores para l...
<ul><li>Texto introducido  Gestión de metadatos </li></ul><ul><li>por el usuario </li></ul><ul><li>Segmentación </li></ul>...
SARE-Bi: componentes <ul><li>Corpus de documentos multilingües </li></ul><ul><ul><ul><li>anotados, segmentados y alineados...
Metadatos: categoría <ul><li>Taxonomía documental con 282 categorías estructuradas en tres niveles: </li></ul><ul><li>func...
Metadatos: estado y visibilidad <ul><li>Dinámicos </li></ul><ul><ul><ul><li>los usuarios cambian el estado y la visibilida...
SARE-Bi: usuarios <ul><li>Asociados a diferentes  perfiles </li></ul><ul><ul><li>invitados, redactores, traductores, admin...
SARE-Bi: ciclo de edición <ul><li>Un redactor añade un documento monolingüe </li></ul><ul><ul><ul><li>al crearlo: visibili...
SARE-Bi: variaciones del ciclo de edición <ul><li>Redactores bilingües </li></ul><ul><ul><ul><li>pueden desarrollar docume...
Conclusiones <ul><li>Sare-Bi es una aplicación Web (basada en Zope) </li></ul><ul><ul><ul><li>con interfaz multilingüe (lo...
Conclusiones <ul><li>En uso experimental desde mayo 2003 </li></ul><ul><ul><ul><li>seis redactores / dos traductores </li>...
<ul><li>Las investigaciones presentadas en este proyecto han sido financiadas por: </li></ul><ul><ul><li>Gobierno Vasco </...
Gracias por su atención
<ul><li>Documentos dirigidos a </li></ul><ul><ul><ul><li>los miembros de un departamento (aprox. 20) </li></ul></ul></ul><...
<ul><li>Producción de un documento </li></ul><ul><ul><ul><li>a “writer” writes original document (in one language) </li></...
Case study: fieldwork <ul><li>Cost of translation </li></ul><ul><ul><ul><li>mainly an economic concern (institution can on...
How can MT help? <ul><li>Goal:  to increase the number of multilingual documents generated in our University </li></ul><ul...
Solution (1): a document management system <ul><li>To organise documents </li></ul><ul><ul><ul><li>cumulative document rep...
Solution (2): translation memories <ul><li>Experience of DELi </li></ul><ul><ul><ul><li>automatic extraction of translatio...
Solution (3): metadata <ul><li>Chaotic accumulation of contents </li></ul><ul><ul><ul><li>difficult management, search, re...
SARE-Bi: a first tour <ul><li>SARE-Bi </li></ul><ul><ul><li>multilingual document management system </li></ul></ul><ul><ul...
Upcoming SlideShare
Loading in …5
×

La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

1,223 views
1,167 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,223
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
8
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML de traducción y lingüística de corpus (2004)

  1. 1. La gestión de documentación bilingüe (euskara y castellano) mediante estándares XML d e traducción y lingüística de corpus Joseba Abaitua, JosuKa Díaz, Inés Jacob, Fernando Quintana DELi (Universidad de Deusto) Garikoitz Araolaza,Luistxo Fernández CodeSyntax I Jornadas de Lingüística vasco-románica
  2. 2. <ul><ul><li>www.deli.deusto.es/SareBi </li></ul></ul><ul><ul><ul><li>DELi (Letras - ESIDE) </li></ul></ul></ul><ul><ul><ul><ul><li>edición digital (XML) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>ingeniería lingüística </li></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>tecnologías de traducción </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>lingüística de corpus </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><li>grid semántica </li></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>web semántica </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>computación grid </li></ul></ul></ul></ul></ul><ul><ul><li>www.codesyntax.com </li></ul></ul>SARE-Bi : Sistema de gestión de documentación multilingüe
  3. 3. <ul><ul><li>estándares XML </li></ul></ul><ul><ul><ul><ul><li>lingüística de corpus: TEI </li></ul></ul></ul></ul><ul><ul><ul><ul><li>tecnología de traducción: TMX </li></ul></ul></ul></ul><ul><ul><ul><ul><li>localización de software: XLIFF </li></ul></ul></ul></ul><ul><ul><li>documática </li></ul></ul><ul><ul><ul><ul><li>catalogación, indización, búsquedas </li></ul></ul></ul></ul><ul><ul><ul><ul><li>roles y permisos (redactor, traductor, validador...) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>estado y “visibilidad” (borrador, revisado; interno, público) </li></ul></ul></ul></ul><ul><ul><li>tradumática </li></ul></ul><ul><ul><ul><ul><li>memoria de traducción </li></ul></ul></ul></ul><ul><ul><ul><ul><li>segmentación, alineación </li></ul></ul></ul></ul><ul><ul><ul><ul><li>control de versiones - ciclo de vida </li></ul></ul></ul></ul>SARE-Bi : Sistema de gestión de documentación multilingüe
  4. 4. <ul><li>Antecedentes ( DELi : 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul><ul><li>Participación (Uned, EHU,UPC, UB...) </li></ul><ul><ul><ul><li>HAIN (1993-1996) </li></ul></ul></ul><ul><ul><ul><li>TREVI (1996-1998) </li></ul></ul></ul><ul><ul><ul><li>ITEM (1997-1999) </li></ul></ul></ul><ul><ul><ul><li>HERMES (2000-2003) </li></ul></ul></ul><ul><ul><ul><li>CORDE (2002-2004) </li></ul></ul></ul><ul><ul><ul><li>ESP-EUS (2002-2004) </li></ul></ul></ul>
  5. 5. <ul><li>Antecedentes ( DELi : 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul><ul><li>Participación (Uned, EHU,UPC, UB...) </li></ul><ul><ul><ul><li>HAIN (1993-1996) </li></ul></ul></ul><ul><ul><ul><li>TREVI (1996-1998) </li></ul></ul></ul><ul><ul><ul><li>ITEM (1997-1999) </li></ul></ul></ul><ul><ul><ul><li>HERMES (2000-2003) </li></ul></ul></ul><ul><ul><ul><li>CORDE (2002-2004) </li></ul></ul></ul><ul><ul><ul><li>ESP-EUS (2002-2004) </li></ul></ul></ul>
  6. 6. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1994-1999) </li></ul></ul></ul><ul><ul><ul><ul><li>Textos paralelos bilingües en euskara y castellano de las administraciones vascas con etiquetado SGML/TEI-P3 </li></ul></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul>
  7. 7. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><ul><li>Extracción automática de unidades bitextuales para memorias de traducción </li></ul></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul>
  8. 8. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><ul><li>Procedimientos para la gestión del flujo documental multilingüe sobre XML/TEI-P3 </li></ul></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul>
  9. 9. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><ul><li>Gestión de flujo de contenidos multilingües sobre XLIFF y TMX </li></ul></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul>
  10. 10. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><ul><li>Open Archive Cataloger </li></ul></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul>
  11. 11. <ul><li>Antecedentes ( DELi: 1998-2004 ) </li></ul><ul><ul><ul><li>LEGEBiDUNA (1995-1999) </li></ul></ul></ul><ul><ul><ul><li>XTRA-Bi (2000-2001) </li></ul></ul></ul><ul><ul><ul><li>XML-Bi (2001-2002) </li></ul></ul></ul><ul><ul><ul><li>X-Flow (2002-2003) </li></ul></ul></ul><ul><ul><ul><li>OAC (2003-2005) </li></ul></ul></ul><ul><ul><ul><li>TMGrid (2005-2007) </li></ul></ul></ul><ul><ul><ul><ul><li>Grid de memorias de traducción </li></ul></ul></ul></ul>
  12. 12. <ul><li>Participación (Uned, EHU,UPC, UB, RAE...) </li></ul><ul><ul><ul><li>HAIN (1993-1996) </li></ul></ul></ul><ul><ul><ul><ul><li>Entorno para aplicaciones lingüísticas </li></ul></ul></ul></ul><ul><ul><ul><li>TREVI (1996-1998) </li></ul></ul></ul><ul><ul><ul><ul><li>Text Retrieval and Enrichment for Vital Information </li></ul></ul></ul></ul><ul><ul><ul><li>ITEM (1997-1999) </li></ul></ul></ul><ul><ul><ul><ul><li>Recuperación de Información Textual en un Entorno Multilíngüe con Técnicas de Lenguaje Natural </li></ul></ul></ul></ul><ul><ul><ul><li>HERMES (2000-2003) </li></ul></ul></ul><ul><ul><ul><ul><li>Hemerotecas electrónicas. Recuperación multilingüe y extracción semántica </li></ul></ul></ul></ul><ul><ul><ul><li>CORDE (2002-2004) </li></ul></ul></ul><ul><ul><ul><ul><li>Corpus diacrónico español </li></ul></ul></ul></ul>
  13. 13. <ul><li>Edición digital - lingüística de corpus </li></ul><ul><ul><li>DELi 2002-2005 </li></ul></ul><ul><ul><ul><ul><ul><li>CORDE </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Rómulo. Edición digital plurilingüe de un texto europeo del siglo XVII </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>La esfera. Edición hipertextual </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>UNAI ( SPrako tranbia / Un tranvía en SP ) </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Fondo Bonaparte </li></ul></ul></ul></ul></ul><ul><ul><li>Etiquetado/Metadatos XML/TEI </li></ul></ul>
  14. 14. Estructura de un texto TEI <ul><li>Todos los textos TEI tienen </li></ul><ul><li>cabecera <teiHeader> </li></ul><ul><ul><li>descripción bibliográfica </li></ul></ul><ul><ul><li>descripción de la forma en que ha sido codificado </li></ul></ul><ul><ul><li>descripción no bibliográfica del texto (perfil) </li></ul></ul><ul><ul><li>historia de revisiones </li></ul></ul><ul><li>texto <text> </li></ul>
  15. 15. Estructura de un texto TEI (ii) <ul><li>Cada texto tiene un <front> y un <back> opcionales </li></ul><ul><ul><li><TEI.2> </li></ul></ul><ul><ul><li><teiHeader> [ TEI Header information ] </teiHeader> </li></ul></ul><ul><ul><li><text> </li></ul></ul><ul><ul><li><front> [ front matter ... ] </front> </li></ul></ul><ul><ul><li><body> [ body of text ... ] </body> </li></ul></ul><ul><ul><li><back> [ back matter ... ] </back> </li></ul></ul><ul><ul><li></text> </li></ul></ul><ul><ul><li></TEI.2> </li></ul></ul>
  16. 16. SARE-Bi: Campo de aplicación <ul><li>Universidad de Deusto </li></ul><ul><ul><ul><li>genera numerosos documentos admisnistrativos </li></ul></ul></ul><ul><ul><ul><li>la mayoría son bilingües español - euskara, lenguas oficiales del País Vasco </li></ul></ul></ul><ul><ul><ul><li>algunos también en inglés, francés, italiano... </li></ul></ul></ul><ul><li>Dimensión de los documentos </li></ul><ul><ul><ul><li>largos (estatutos, normativas, informes...) </li></ul></ul></ul><ul><ul><ul><li>cortos (anuncios, cartas, convocatorias...) </li></ul></ul></ul><ul><ul><ul><li>de una única oración(“Atenderemos en el despacho 535”) </li></ul></ul></ul>
  17. 17. Arquitectura de SARE-Bi <ul><li>SARE-Bi está implementado en Zope </li></ul><ul><ul><li>desarrollado en Python </li></ul></ul><ul><ul><li>incluye una base de datos orientada a objetos (ZODB) </li></ul></ul><ul><ul><li>los módulos que amplían Zope se denominan productos </li></ul></ul><ul><ul><li>El producto TeiCorpus es el motor de SARE-Bi </li></ul></ul>
  18. 18. Arquitectura de SARE-Bi (ii) <ul><li>Diagrama de clases del producto TeiCorpus </li></ul>
  19. 19. SARE-Bi: funciones <ul><li>Recuperación de documentos </li></ul><ul><ul><li>filtrado </li></ul></ul><ul><ul><ul><li>basado en metadatos </li></ul></ul></ul><ul><ul><li>búsqueda </li></ul></ul><ul><ul><ul><li>texto libre </li></ul></ul></ul><ul><ul><ul><li>cualquier lengua </li></ul></ul></ul>
  20. 20. SARE-Bi: resultados de filtrado <ul><li>una fila por documento </li></ul><ul><ul><li>- enlace para - enlace para </li></ul></ul><ul><ul><li>visualización modificación </li></ul></ul>
  21. 21. SARE-Bi: visualización <ul><li>Exportación </li></ul><ul><ul><li>TEI y TMX </li></ul></ul><ul><li>Doc. completo </li></ul><ul><ul><li>recuperación de contenido </li></ul></ul><ul><li>Doc. segmentado </li></ul><ul><ul><li>correspondencia entre lenguajes </li></ul></ul>
  22. 22. SARE-Bi: resultados de búsqueda <ul><li>segmentos encontrados </li></ul><ul><ul><li>en todas las lenguas </li></ul></ul><ul><ul><li>equivale a lo ofrecido por una memoria de traducción </li></ul></ul><ul><li>incluye enlaces a visualización </li></ul>
  23. 23. SARE-Bi: incorporación de un documento (primer paso) <ul><li>El usuario proporciona: </li></ul><ul><ul><li>valores para los metadatos </li></ul></ul><ul><ul><li>lenguas del documento (puede ser sólo una) </li></ul></ul>
  24. 24. <ul><li>Texto introducido Gestión de metadatos </li></ul><ul><li>por el usuario </li></ul><ul><li>Segmentación </li></ul><ul><li>y alineado </li></ul><ul><li>ventana similar a la de modificación </li></ul>SARE-Bi: incorporación de un documento (segundo paso)
  25. 25. SARE-Bi: componentes <ul><li>Corpus de documentos multilingües </li></ul><ul><ul><ul><li>anotados, segmentados y alineados </li></ul></ul></ul><ul><ul><ul><li>los segmentos son párrafos </li></ul></ul></ul><ul><li>Metadatos asociados a cada documento </li></ul><ul><ul><ul><li>cabecera TEI </li></ul></ul></ul><ul><ul><ul><li>datos habituales: título, fechas, autor, lugar... </li></ul></ul></ul><ul><ul><li>Los metadatos más importantes son: </li></ul></ul><ul><ul><ul><li>categoría, estado, visibilidad </li></ul></ul></ul>
  26. 26. Metadatos: categoría <ul><li>Taxonomía documental con 282 categorías estructuradas en tres niveles: </li></ul><ul><li>función comunicativa (reglamentar, informar, inquirir) </li></ul><ul><li>género (25) </li></ul><ul><li>tema (256) </li></ul><ul><ul><li>31000/inquirir </li></ul></ul><ul><ul><li>31400/instancia </li></ul></ul><ul><ul><li>31401/inscripción pruebas mayores 25 años </li></ul></ul><ul><ul><li>31402/solicitud de adaptacón de planes de estudio </li></ul></ul><ul><ul><li>31403/solicitud de convalidación asignaturas </li></ul></ul><ul><ul><li>31404/solicitud de reconocimiento complementos </li></ul></ul><ul><ul><li>31405/solicitud de reconsideración admisión </li></ul></ul><ul><ul><li>31406/solicitud de título </li></ul></ul><ul><ul><li>31407/solicitud de traslado expediente </li></ul></ul><ul><ul><li>31408/solicitud cambio de asignaturas opt. y LE </li></ul></ul>
  27. 27. Metadatos: estado y visibilidad <ul><li>Dinámicos </li></ul><ul><ul><ul><li>los usuarios cambian el estado y la visibilidad durante las diferentes etapas del ciclo de edición </li></ul></ul></ul><ul><ul><ul><li>reflejan la situación del documento </li></ul></ul></ul><ul><ul><ul><li>todos los demás metadatos son estáticos (con valores constantes) </li></ul></ul></ul><ul><li>Estado </li></ul><ul><ul><ul><li>no validado, validado, normativo </li></ul></ul></ul><ul><li>Visibilidad </li></ul><ul><ul><ul><li>borrador , confidencial , compartido , público </li></ul></ul></ul>
  28. 28. SARE-Bi: usuarios <ul><li>Asociados a diferentes perfiles </li></ul><ul><ul><li>invitados, redactores, traductores, administradores </li></ul></ul><ul><li>y permisos, dependientes de </li></ul><ul><ul><li>propietario del documento </li></ul></ul><ul><ul><li>estado </li></ul></ul><ul><ul><li>visibilidad </li></ul></ul>
  29. 29. SARE-Bi: ciclo de edición <ul><li>Un redactor añade un documento monolingüe </li></ul><ul><ul><ul><li>al crearlo: visibilidad borrador , estado no validado </li></ul></ul></ul><ul><ul><ul><li>al terminar: visibilidad compartida (por ejemplo) </li></ul></ul></ul><ul><ul><ul><li>el redactor llama al traductor </li></ul></ul></ul><ul><li>El traductor al terminar su tarea </li></ul><ul><ul><ul><li>cambia el estado a validado </li></ul></ul></ul><ul><ul><ul><li>avisa al redactor </li></ul></ul></ul><ul><li>El redactor </li></ul><ul><ul><ul><li>accede al documento bilingüe </li></ul></ul></ul><ul><ul><ul><li>y lo publica </li></ul></ul></ul>
  30. 30. SARE-Bi: variaciones del ciclo de edición <ul><li>Redactores bilingües </li></ul><ul><ul><ul><li>pueden desarrollar documentos bilingües </li></ul></ul></ul><ul><ul><ul><li>el traductor se limita a revisar y validar la traducción </li></ul></ul></ul><ul><li>Documento normativo </li></ul><ul><ul><ul><li>modelo en su categoría </li></ul></ul></ul><ul><ul><ul><li>el estado normativo es asignado por el traductor </li></ul></ul></ul><ul><ul><ul><li>un redactor bilingüe podría utilizarlo para un nuevo documento </li></ul></ul></ul>
  31. 31. Conclusiones <ul><li>Sare-Bi es una aplicación Web (basada en Zope) </li></ul><ul><ul><ul><li>con interfaz multilingüe (localizado es-eu-en) </li></ul></ul></ul><ul><ul><ul><li>adecuada gestión de información y contenidos </li></ul></ul></ul><ul><ul><ul><li>complejo sistema de gestión de usuarios </li></ul></ul></ul><ul><li>Base de datos orientada a objetos </li></ul><ul><li>Funcionalidad XML </li></ul><ul><ul><ul><li>exporta a formatos TEI y XML </li></ul></ul></ul>
  32. 32. Conclusiones <ul><li>En uso experimental desde mayo 2003 </li></ul><ul><ul><ul><li>seis redactores / dos traductores </li></ul></ul></ul><ul><ul><ul><li>sin medidas cuantitativas, pero </li></ul></ul></ul><ul><ul><ul><li>constante incremento del número de documentos del corpus </li></ul></ul></ul><ul><ul><ul><li>aceptación de los usuarios </li></ul></ul></ul><ul><li>Mejoras del sistema (proyecto X-Flow) </li></ul><ul><ul><ul><li>automatización de las tareas de control de flujo </li></ul></ul></ul><ul><ul><ul><li>control de versiones de documentos (XLIFF) </li></ul></ul></ul>
  33. 33. <ul><li>Las investigaciones presentadas en este proyecto han sido financiadas por: </li></ul><ul><ul><li>Gobierno Vasco </li></ul></ul><ul><ul><ul><li>Depto. de Industria (proyecto X-Flow, OD-02UD04, 2002-2003) </li></ul></ul></ul><ul><ul><ul><li>Depto. de Educación, Universidades e Investigación (proyecto XML-Bi, PI1999-72, 2000-2001) </li></ul></ul></ul><ul><ul><li>CodeSyntax (Eibar, España) </li></ul></ul><ul><li>Agradecimientos </li></ul><ul><ul><li>Josu Gómez, Arantza Domínguez (DELi, UD) </li></ul></ul><ul><ul><li>Guillermo Barrutieta (Mondragon Unibertsitatea) </li></ul></ul>
  34. 34. Gracias por su atención
  35. 35. <ul><li>Documentos dirigidos a </li></ul><ul><ul><ul><li>los miembros de un departamento (aprox. 20) </li></ul></ul></ul><ul><ul><ul><li>los empleados (aprox. 1.000) </li></ul></ul></ul><ul><ul><ul><li>los estudiantes (aprox. 20.000) </li></ul></ul></ul><ul><li>La calidad es primordial </li></ul><ul><ul><ul><li>independientemente del número de lectores </li></ul></ul></ul><ul><ul><ul><li>independientemente de la transcendencia y la longitud del documento. </li></ul></ul></ul><ul><ul><ul><li>está mal visto publicar documentos incorrectamente escritos, ya sea en euskara o en castellano. </li></ul></ul></ul>
  36. 36. <ul><li>Producción de un documento </li></ul><ul><ul><ul><li>a “writer” writes original document (in one language) </li></ul></ul></ul><ul><ul><ul><li>he sends it to a “translator” </li></ul></ul></ul><ul><ul><ul><li>the “translator” produces the other language version </li></ul></ul></ul><ul><ul><ul><li>she sends it back to the “writer” </li></ul></ul></ul><ul><ul><ul><li>he publishes the multilingual document </li></ul></ul></ul><ul><li>Almost 100% of original writing in Spanish </li></ul><ul><ul><ul><li>Basque: a minority language </li></ul></ul></ul><ul><ul><ul><li>many can read/understand, only a few can write </li></ul></ul></ul>
  37. 37. Case study: fieldwork <ul><li>Cost of translation </li></ul><ul><ul><ul><li>mainly an economic concern (institution can only afford to translate “important” documents) </li></ul></ul></ul><ul><ul><ul><li>but also a problem of time (urgent documents) </li></ul></ul></ul><ul><li>Key: many docs. have a fixed structure </li></ul><ul><ul><ul><li>short letters, calls, invitations... </li></ul></ul></ul><ul><ul><ul><li>published weekly, monthly, yearly... </li></ul></ul></ul><ul><ul><ul><li>small changes (date, place, name...) </li></ul></ul></ul><ul><ul><li>“ writers” take advantage of this: they REUSE </li></ul></ul><ul><ul><li>but “translators” MAY NOT REUSE </li></ul></ul>
  38. 38. How can MT help? <ul><li>Goal: to increase the number of multilingual documents generated in our University </li></ul><ul><li>No Spanish to Basque MT tool yet </li></ul><ul><ul><ul><li>although a big research effort is being made </li></ul></ul></ul><ul><ul><ul><li>anyway, ¿quality? </li></ul></ul></ul><ul><ul><ul><li>translation is an important step, but not the only one </li></ul></ul></ul><ul><li>Translators use some MAT tools </li></ul><ul><ul><ul><li>term-bases </li></ul></ul></ul><ul><ul><ul><li>translation memories (not fully implemented yet) </li></ul></ul></ul>
  39. 39. Solution (1): a document management system <ul><li>To organise documents </li></ul><ul><ul><ul><li>cumulative document repository </li></ul></ul></ul><ul><ul><ul><li>classified under several criteria </li></ul></ul></ul><ul><li>Multilingual functionality </li></ul><ul><ul><ul><li>the textual correspondence between parts (segments) of documents is explicitly shown </li></ul></ul></ul><ul><li>Collaborative system </li></ul><ul><ul><ul><li>writers and translators share the documents </li></ul></ul></ul><ul><ul><ul><li>allows to implement other stages in the publication procedure </li></ul></ul></ul>
  40. 40. Solution (2): translation memories <ul><li>Experience of DELi </li></ul><ul><ul><ul><li>automatic extraction of translation memories from bilingual (es-eu) docs (XTRA-Bi project, 2000-2001) </li></ul></ul></ul><ul><ul><ul><li>several Gigabytes of TMX files </li></ul></ul></ul><ul><ul><ul><li>unorganised chunks of texts segments </li></ul></ul></ul><ul><li>Multilingual segmented document system </li></ul><ul><ul><ul><li>not only the document as a whole </li></ul></ul></ul><ul><ul><ul><li>if we show the corresp. of multilingual segments </li></ul></ul></ul><ul><ul><ul><li>then the system is also a translation memory (TMX) repository </li></ul></ul></ul>
  41. 41. Solution (3): metadata <ul><li>Chaotic accumulation of contents </li></ul><ul><ul><ul><li>difficult management, search, retrieval... </li></ul></ul></ul><ul><li>Metadata </li></ul><ul><ul><ul><li>document = content + metacontent </li></ul></ul></ul><ul><ul><ul><li>semantic web, ontologies, content syndication... </li></ul></ul></ul><ul><ul><ul><li>XML technology </li></ul></ul></ul><ul><li>TEI (Text Encoding Initiative) </li></ul><ul><ul><ul><li>not so much for the purpose of linguistic mark-up </li></ul></ul></ul><ul><ul><ul><li>for structural and cataloguing aspects (TEI header) </li></ul></ul></ul>
  42. 42. SARE-Bi: a first tour <ul><li>SARE-Bi </li></ul><ul><ul><li>multilingual document management system </li></ul></ul><ul><ul><li>allows incremental compilation of documents </li></ul></ul><ul><ul><li>allows users to work collaboratively </li></ul></ul><ul><ul><li>uses metadata as a conceptual mechanism </li></ul></ul><ul><ul><li>can also be seen as a memory-based machine translation system </li></ul></ul><ul><li>Demo </li></ul>

×