Nuevas tendencias en traducción automática (2000)

1,907 views

Published on

Published in: Technology, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,907
On SlideShare
0
From Embeds
0
Number of Embeds
53
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Nuevas tendencias en traducción automática (2000)

    1. 1. Nuevas tendencias en Traducción Automática Joseba Abaitua Facultad de Filosofía y Letras Universidad de Deusto Preliminares Condiciones (ámbitos) Modos y medios Herramientas y recursos Limitaciones de la tecnología Salidas profesionales Grupo DELi (UD) Documentación
    2. 2. 1 Preliminares <ul><li>¿” nuevas” tendencias? </li></ul><ul><li>¿traducción “ automática ”? </li></ul><ul><ul><li>creatividad del lenguaje </li></ul></ul><ul><ul><li>capacidad de mecanización </li></ul></ul><ul><ul><li>condiciones de éxito </li></ul></ul>
    3. 3. Preliminares (I) <ul><li>¿” nuevas” tendencias? </li></ul><ul><li>¿traducción “ automática ”? </li></ul>
    4. 4. Preliminares: 5 décadas <ul><li>1ª) 1949 (W. Weaver) </li></ul><ul><li>2ª) 1956 I Conferencia Internacional de la Traducción Automática (FAHQT) </li></ul><ul><li>3ª) 1966 Informe ALPAC (Automatic Language Processing Advisory Committee) del National Research Council </li></ul><ul><li>4ª) 1976 la CE adquiere SYSTRAN y promueve EUROTRA </li></ul><ul><li>5ª) 1991 , Informe Danzin: fin de EUROTRA. MT > CAT </li></ul>
    5. 5. ¿Novedades recientes? <ul><li>Abandono de FAHQT </li></ul><ul><li>RBMT vs. ABMT </li></ul><ul><li>Recursos compartidos </li></ul><ul><li>Empirismo (corpora) </li></ul><ul><li>Hibridación (integración) </li></ul><ul><li>Lenguajes de etiquetado (SGML/XML) </li></ul><ul><li>Delimitación de ámbitos (dominios…) </li></ul><ul><li>Texto electrónico, localización </li></ul><ul><li>INTERNET </li></ul>
    6. 6. Preliminares (II) <ul><li>¿” nuevas” tendencias? </li></ul><ul><li>¿traducción “ automática ”? </li></ul><ul><ul><li>¿totalmente automática? </li></ul></ul><ul><ul><li>complejidad del lenguaje / traducción </li></ul></ul><ul><ul><li>¿es posible mecanizar / automatizar? </li></ul></ul><ul><ul><li>condiciones de éxito </li></ul></ul>
    7. 7. Traducción humana vs. mecánica <ul><li>Twinkle, twinkle, little bat how I wonder what you're at! Up above the world you fly like a tea-tray in the sky. </li></ul><ul><li>Lewis Carroll </li></ul><ul><li>Brilla, luce, ratita alada ¿en qué estás tan atareada? Por encima del universo vuelas como una bandeja de teteras. </li></ul><ul><ul><li>tr. de Jaime de Ojeda </li></ul></ul>
    8. 8. Excelencia humana <ul><li>Manuel Breva (1996) </li></ul><ul><li>The above lines are a parody of the famous poem &quot;Twinkle, twinkle, little star&quot; by Jane Taylor, which, in Carroll's version, turns into a sarcastic attack against Bartholomew Price, a professor of mathematics, nicknamed &quot;The Bat&quot;. Jaime de Ojeda translates &quot;bat&quot; as &quot;ratita alada&quot; for rhythmical reasons. &quot;Murciélago&quot;, the Spanish equivalent of &quot;bat&quot;, would be hard to fit in this context for the same poetic reasons. With Ojeda's choice of words the Spanish version preserves the meaning and maintains the same rhyming pattern (AABB) as in the original English verse-lines. </li></ul>
    9. 11. Traducción humana vs. mecánica <ul><li>Centelleo, centelleo, pequeño palo, ¡cómo me pregunto en cuál usted está! Encima sobre del mundo usted vuela como una té-bandeja en el cielo. </li></ul><ul><li>tr. de SYSTRAN </li></ul>Twinkle, twinkle, little bat how I wonder what you're at! Up above the world you fly like a tea-tray in the sky. Lewis Carroll
    10. 12. Traducción humana vs. mecánica <ul><li>Centelleo, centelleo, pequeño palo, ¡cómo me pregunto en cuál usted está! Encima sobre del mundo usted vuela como una té-bandeja en el cielo. </li></ul><ul><li>tr. de SYSTRAN </li></ul><ul><li>Brilla, luce, ratita alada ¿en qué estás tan atareada? Por encima del universo vuelas como una bandeja de teteras. </li></ul><ul><ul><li>tr. de Jaime de Ojeda </li></ul></ul>
    11. 13. Preliminares (III) <ul><li>¿traducción “ automática ”? </li></ul><ul><ul><li>creatividad del lenguaje </li></ul></ul><ul><ul><li>mecanización / automatización </li></ul></ul><ul><ul><li>condiciones de éxito </li></ul></ul><ul><ul><ul><li>ámbitos adversos </li></ul></ul></ul><ul><ul><ul><li>ámbitos óptimos </li></ul></ul></ul>
    12. 14. Creatividad del lenguaje <ul><ul><li>“ To make a free sonnet comparable to a chess game, how many words do we need? </li></ul></ul><ul><ul><li>100 words offer far more different combinations than there are ways of playing a chess game” (DELi) </li></ul></ul><ul><ul><li>(Free sonnets: any combination of 6 words in 14 verses) </li></ul></ul>
    13. 15. Complejidad del lenguaje <ul><li>nº de partículas subatómicas de toda la materia del universo: 10 80 </li></ul><ul><li>nº de partidas de ajedrez distintas: 10 120 </li></ul><ul><li>Jorge Wagensberg (1998) </li></ul><ul><li>nº de sonetos libres con 100 palabras (sin que se repitan): 4 x10 145 </li></ul><ul><li>maneras distintas de ordenar 84 palabras (seis palabras por cada 14 versos) de un total de 100 </li></ul><ul><li>DELi ( ejemplo ) </li></ul>
    14. 16. Complejidad de la traducción <ul><li>Douglas Hofstadter (1998) </li></ul><ul><ul><li>“ A skilled literary translator makes a far larger number of changes, and far more significant changes, than any virtuoso performer of classical music would ever dare to make in playing notes in the score of, say, a Beethoven piano sonata. In literary translation, it's totally humdrum stuff for new ideas to be interpreted, old ideas to be deleted, structures to be inverted, twisted around, and on and on.” </li></ul></ul>
    15. 17. Complejidad de la traducción <ul><li>Martin Kay (1992) </li></ul><ul><li>“ There is nothing that a person could know, or feel, or dream, that could not be crucial for getting a good translation of some text or other. To be a translator, therefore, one cannot just have some parts of humanity; one must be a complete human being.” </li></ul>
    16. 18. Preliminares (y IV) <ul><li>¿traducción “ automática ”? </li></ul><ul><ul><li>creatividad del lenguaje </li></ul></ul><ul><ul><li>mecanización / automatización </li></ul></ul><ul><ul><li>condiciones de éxito </li></ul></ul><ul><ul><ul><li>ámbitos adversos </li></ul></ul></ul><ul><ul><ul><li>ámbitos óptimos </li></ul></ul></ul>
    17. 19. Posibilidades de mecanización <ul><li>Martin Kay (1980/97) </li></ul><ul><ul><li>&quot; No es adecuado encomendar al ordenador que mecanice lo que no es mecánico, o algo cuya subestructura mecánica no ha sido revelada para la ciencia. En otras palabras, el ordenador se usa inadecuadamente cuando intentamos que haga algo que nosotros mismos no comprendemos . La historia no puede ofrecer un ejemplo mejor de uso inapropiado del ordenador que la traducción automática. ” </li></ul></ul>
    18. 20. Posibilidades de mecanización <ul><li>Martin Kay (1980/97) </li></ul><ul><ul><li>&quot;La traducción, aun siendo un arte delicada y precisa, conlleva muchas tareas que son mecánicas y rutinarias. Si estas tareas fueran encomendadas a una máquina, la productividad del traductor no sólo se vería magnificada, sino que su trabajo se haría más gratificante, más apasionante, más humano.&quot; </li></ul></ul>
    19. 21. 2 Condiciones (ámbitos) <ul><li>¿traducción “ automática ”? </li></ul><ul><ul><li>creatividad del lenguaje </li></ul></ul><ul><ul><li>mecanización / automatización </li></ul></ul><ul><ul><li>condiciones de éxito </li></ul></ul><ul><ul><ul><li>ámbitos adversos </li></ul></ul></ul><ul><ul><ul><li>ámbitos óptimos </li></ul></ul></ul>
    20. 22. Condiciones de éxito <ul><li>Adversas </li></ul><ul><ul><li>lenguaje creativo, espontáneo, imprevisible: habla coloquial, producción poética, narrativa, ensayo, publicidad, humor </li></ul></ul>
    21. 23. Condiciones de éxito <ul><li>Adversas </li></ul><ul><ul><li>lenguaje creativo, espontáneo, imprevisible: habla coloquial, producción poética, narrativa, ensayo, publicidad, humor </li></ul></ul><ul><li>Óptimas </li></ul><ul><ul><li>lenguaje controlado, repetitivo, canónico: manuales técnicos, partes, informes, textos jurídicos, fórmulas </li></ul></ul>
    22. 24. Análisis de las condiciones <ul><li>Clasificación de textos (Biber y Finegan, 1986; Nakamura, 1991) por: </li></ul><ul><ul><li>Género , función pragmática : novela, artículo periodístico, ensayo (factores extralingüísitcos) </li></ul></ul><ul><ul><li>Tipo , propiedades lingüísticas : longitud de oraciones, utilización de perífrasis verbales, densidad léxica, uso de conectores, etc. </li></ul></ul>
    23. 25. Análisis de las condiciones <ul><li>Propiedades lingüísticas (Melby 1995) </li></ul><ul><ul><li>Lengua común : granularidad fina “el texto está compuesto por partículas que se mezclan y cohesionan como el adobe o el yeso” </li></ul></ul><ul><ul><li>Lenguajes de especialidad (sublenguajes): granuralidad gruesa “el texto se configura por medio de unidades discretas, al modo de ladrillos o bloques prefabricados” </li></ul></ul>
    24. 26. Condiciones favorables <ul><li>Evaluación de TA (cf. Margaret King , Karen Spark-Jones , K. Falkedal , etc.): “mejores resultados con sublenguajes” </li></ul><ul><li>ISO 9126 adecuación del sistema a la aplicación para la que se ha diseñado </li></ul><ul><li>TAUM - Météo (para partes metereológicos), SPANAM (de la Organización Panamericana de la Salud), o TITUS (de la industria textil francesa) </li></ul>
    25. 27. Cobertura vs. calidad cobertura calidad perfecta ready-to-use comprensible indicativa CAT MT
    26. 28. 3 Modos y medios <ul><li>Oral </li></ul><ul><ul><li>intérpretes </li></ul></ul><ul><li>Escrito </li></ul><ul><ul><li>traductores (agencias, editoriales) </li></ul></ul><ul><li>Electrónico </li></ul><ul><ul><li>empresas de localización (de software) </li></ul></ul>
    27. 29. Modos y medios <ul><li>Oralidad </li></ul><ul><ul><ul><li>primaria (infancia, analfabetos, culturas orales) </li></ul></ul></ul><ul><ul><ul><li>secundaria (discursos, medio audiovisual) Walter S. Ong S.J (1992) </li></ul></ul></ul><ul><li>Escritura </li></ul><ul><ul><ul><li>primaria (escribas, copistas) </li></ul></ul></ul><ul><ul><ul><li>secundaria (imprenta) </li></ul></ul></ul><ul><li>Hipermedios </li></ul><ul><ul><ul><li>TeX, HTML, SGML/XML, PDF, PPT, FLASH, QUICKTIME, WAV, MP3 </li></ul></ul></ul>
    28. 30. El ordenador según los medios <ul><li>Oral </li></ul><ul><ul><li>intérpretes </li></ul></ul><ul><li>Escrito </li></ul><ul><ul><li>traductores (agencias, editoriales) </li></ul></ul><ul><li>Electrónico </li></ul><ul><ul><li>empresas de localización (de software) </li></ul></ul>
    29. 31. ej. industria aeronáutica Airbus Industrie Headquarters Toulouse
    30. 32. Aircraft Technical Documentation 1994 Volume 450 Tons One AMM : 46.000 Pages 360 MB 265.000 Shipping Notes 450.000 Cassettes 115.000.000 Pages
    31. 33. Aircraft Technical Documentation Digitalización del texto 265.000 Shipping Notes 450.000 Cassettes 115.000.000 Pages
    32. 34. El ordenador según los medios <ul><li>Oral </li></ul><ul><ul><li>intérpretes </li></ul></ul><ul><li>Escrito </li></ul><ul><ul><li>traductores (agencias, editoriales) </li></ul></ul><ul><li>Electrónico </li></ul><ul><ul><li>empresas de localización (de software) </li></ul></ul>
    33. 35. El auge de la localización <ul><li>Grán demanda </li></ul><ul><ul><ul><li>Microsoft, Oracle, Adobe, Quark, Thomas Publishing International, Bertelsman, Aerospatiale... </li></ul></ul></ul><ul><li>Proliferación de empresas </li></ul><ul><ul><ul><li>Nua Ltd., EnCompas Globalization, Flanders, Vertaalbureau Bothof , Intertrans, Bowne Global Solutions, LionBridg, Language Management International , International Language Engineering, Techno-Graphics & Translations, + </li></ul></ul></ul><ul><li>Escasez de profesionales </li></ul><ul><li>LISA (the Localization Industry Standards Association) </li></ul>
    34. 36. El auge de la localización <ul><li>Santi van der Kruk (General Manager of LionBridge ) </li></ul><ul><ul><li>“ The profile we look for in translators is an excellent knowledge of computer technology and superb linguistic ability in both the source and target languages. They must know how to use the leading CAT [computer assisted translation] tools and applications and be flexible . The information technology and localization industries are evolving very rapidly and translators need to move with them.” </li></ul></ul>
    35. 37. El auge de la localización <ul><li>Vand der Meer (president of AlpNet ): </li></ul><ul><ul><li>“ S oftware translators had to understand programming code , they had to work under tremendous time pressure and be flexible about product changes and updates . Originally there was only a select group--the localizers--who knew how to respond to the needs of the software industry. From these beginnings, pure localization companies emerged focusing on testing, engineering, and project management .” </li></ul></ul>
    36. 38. El auge de la localización <ul><li>the localization industry complains of labor shortage </li></ul><ul><li>objectives of LISA & LEIT ( LISA Education Initiative Taskforce) : </li></ul><ul><ul><li>to survey courseware and training programmes for localizers </li></ul></ul><ul><ul><li>to query the market to determine the needs and job profiles </li></ul></ul><ul><ul><li>to stimulate more formal education in skills beneficial to localizers </li></ul></ul><ul><ul><li>University of Geneva (Switzerland), Brigham Young University (Utah), Kent State University (Ohio), University of Cologne (Germany), City College of Dublin (Ireland), Monterey Institute of International Studies (California), and National Software Center in Bombay (India). </li></ul></ul>
    37. 39. 4 Herramientas y recursos <ul><li>Herramientas </li></ul><ul><ul><li>Integración de sistemas </li></ul></ul><ul><ul><ul><li>translator workstations (ej. EURAMIS) </li></ul></ul></ul><ul><ul><ul><li>localization packages (e j. AIRBUS) </li></ul></ul></ul><ul><li>Recursos </li></ul><ul><ul><li>corpora </li></ul></ul><ul><ul><li>segmentadores </li></ul></ul><ul><ul><li>alineadores </li></ul></ul>
    38. 40. 4.1 Herramientas: System integration <ul><li>Old conception of a monolithic compact translation engine </li></ul><ul><li>Integration of systems </li></ul><ul><ul><li>Trados “will provide enterprise-wide applications for multilingual information creation and dissemination, integrating logistical and language-engineering applications&quot; </li></ul></ul>
    39. 41. Herramientas: System integration <ul><ul><li>Logos ”an integrated technology-based translation package, which will combine term management, TM, MT and related tools to create a seamless full service localization environment.&quot; </li></ul></ul><ul><li>Others: Corel , Star , IBM , Atril, Multicorpora </li></ul><ul><li>Eurolang's Optimizer </li></ul><ul><li>EURAMIS ( European Advanced Multilingual Information Systems ) </li></ul>
    40. 42. ej. EURAMIS Integración de sistemas Editores ECCO toolkit Bases de datos Entorno de autor CELEX CAT memorias de traduccion CL Tools MT LANTmaster STEP server TermBase Adobe
    41. 43. Herramientas: The ideal workstation <ul><li>Language International 10.6 </li></ul><ul><ul><li>Muriel Vasconcellos (Pan American Health Organization) </li></ul></ul><ul><ul><li>Minako O'Hagan (author of The Coming Age of Teletranslations ) </li></ul></ul><ul><ul><li>Eduard Hovy (President of the Association of Machine Translation in the Americas) </li></ul></ul>
    42. 44. Herramientas: The ideal workstation <ul><li>full integration in working environment (operating system, the document editor (hypertext authoring, desktop publisher or the standard word-processor), as well as the emailer or the Web browser. </li></ul><ul><li>with linguistic tools : from spell, grammar and style checkers to on-line dictionaries, and glossaries, including terminology management, annotated corpora, concordances, collated texts, etc. </li></ul><ul><li>all advances in MT & TM (CAT) , be able to perform batch extraction and reuse of validated translations, enable searches into TM databases by various keywords (such as phrases, authors, or issuing institutions). These TM databases could be distributed and accessible through Internet. There is a new standard for TM exchange (TMX) that would permit translators and companies to work remotely and share memories in real-time. </li></ul>
    43. 45. Herramientas: The ideal workstation Integración de sistemas Editores ECCO toolkit Bases de datos Entorno de autor CELEX CAT memorias de traduccion CL Tools MT LANTmaster STEP server TermBase Adobe
    44. 46. Herramientas: The ideal workstation <ul><li>Muriel Vasconcellos (1/3): </li></ul><ul><ul><ul><ul><li>Good view of the source text extensive enough to offer the overall context, including the previous sentence and two or three sentences after the current one. </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Relevant on-line topical word lists, glossaries and thesaurus. These should be immediately accessible and, in the case of topical lists, there should be an optimal switch that shows, possibly in color, when there are subject-specific entries available. </li></ul></ul></ul></ul>
    45. 47. Herramientas: The ideal workstation <ul><li>Muriel Vasconcellos (2/3): </li></ul><ul><ul><ul><ul><li>Three target-text windows. The first would be the main working area, and it would start by providing a sentence from the original document (or a machine pre-translation), which could be over-struck or quickly deleted to allow the translator to work from scratch. The original text or pre-translation could be switched off. Characters of any language and other symbols should be easy to produce. </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Drag-and-drop is essential and editing macros are extremely helpful when overstriking or translating from scratch. </li></ul></ul></ul></ul>
    46. 48. Herramientas: The ideal workstation <ul><li>Muriel Vasconcellos (y 3/3): </li></ul><ul><ul><ul><ul><li>The second window would offer translation memory when it is available. The TM should be capable of fuzzy matching with a very large database, with the ability to include the organization's past texts if they are in some sort of electronic form. </li></ul></ul></ul></ul><ul><ul><ul><ul><li>The third window would provide a raw machine translation which should be easy to paste into the target document. </li></ul></ul></ul></ul><ul><ul><ul><ul><li>The grammar checker can be tailored so that it is not so sensitive. It would be ideal if one could write one's own grammar rules. </li></ul></ul></ul></ul>
    47. 49. Herramientas: The ideal workstation <ul><li>Eduard Hovy &quot;We need : </li></ul><ul><ul><li>a genre topology , a tree of more or less related types of text, and ways of recognizing and treating the different types computationally. </li></ul></ul><ul><ul><li>a restless lexicon builder that crawls all over the Web every night, ceaselessly collecting words, names, and phrases, and putting them into the appropriate lexicons.&quot; </li></ul></ul>
    48. 50. Herramientas: Localization software <ul><ul><li>Software engineering techniques applied to document production </li></ul></ul><ul><ul><li>National and international standards of various types is also significant: </li></ul></ul><ul><ul><ul><li>text and character coding standards (e.g. SGML/XML and Unicode </li></ul></ul></ul><ul><ul><ul><li>translation quality control standards (e.g. DIN 2345 in Germany, or UNI 10574 in Italy). </li></ul></ul></ul>
    49. 51. Herramientas: Localization packages <ul><li>assist throughout the whole life cycle of a multilingual document </li></ul><ul><li>job setup, authoring, translation preparation, translation, validation, and publishing </li></ul><ul><li>ensuring consistency and quality in source and target language variants </li></ul><ul><li>monitor different versions, variants and languages, and author customer specific solutions </li></ul>
    50. 52. Herramientas: Localization packages <ul><ul><li>An average localization package consists of </li></ul></ul><ul><ul><ul><li>an industry standard SGML/XML editor (e.g. ArborText ) </li></ul></ul></ul><ul><ul><ul><li>a translation and terminology toolkit (Trados Translator's Workbench) </li></ul></ul></ul><ul><ul><ul><li>and a publishing engine (e.g. Adobe's FrameMaker+SGML </li></ul></ul></ul>
    51. 53. ej. AIRBUS STEP Product database SGML structured documentation (editor & DB) Workflow manager terminology tool (User access) controlled language checker
    52. 54. Sistemas SGML <ul><li>no voluminous documents </li></ul><ul><li>facilities for publishing </li></ul><ul><li>no use of SGML database </li></ul>Airbus needs Chosen tools FrameMaker +SGML VAULT Adobe
    53. 55. Herramientas lingüísticas <ul><li>no translation need </li></ul><ul><li>controlled language in English </li></ul><ul><li>AECMA SE compliant </li></ul><ul><li>addition of specific rules/TID </li></ul><ul><li>SGML context </li></ul>Airbus needs Chosen tools LANTmaster + coding tool AIB reference language (User access to the terminology)
    54. 56. Integración de herramientas Optegra Workflow FrameMaker 5+SGML ECCO toolkit Database(s) Authoring environment Optegra VAULT Airbus Reference Language SGML converter CL tool LANTmaster STEP server ObjectStore Adobe
    55. 57. Arquitectura Navigator System Query System STEP server Airbus Ref. lang. AUTHORING SYSTEM STEP requests VAULT OPTEGRA SGML File DOCUMENT DB consistency links DATA INPUTS AECMA rules SGML Converter corpus ObjectStore CL checker FrameMaker 5+SGML Adobe
    56. 58. 4.2 Recursos <ul><li>Corpora: ejemplos de traducciones </li></ul><ul><li>Buscadores: reconocen y compilan ejemplos </li></ul><ul><li>Extractores: excogen los más relevantes </li></ul><ul><li>Segmentadores: añaden etiquetas descriptivas </li></ul><ul><li>Alineadores: emparejan las traducciones </li></ul><ul><li>Alimentadores: actualizan datos del sistema </li></ul>
    57. 59. Recursos <ul><li>Corpora: ejemplos de traducciones </li></ul><ul><li>Buscadores: reconocen y compilan ejemplos </li></ul><ul><li>Extractores: excogen los más relevantes </li></ul><ul><li>Segmentadores: añaden etiquetas descriptivas </li></ul><ul><li>Alineadores: emparejan las traducciones </li></ul><ul><li>Alimentadores: actualizan datos del sistema </li></ul>
    58. 60. Recursos: corpora <ul><li>Corpora en distintos idiomas : Multilingual Corpus de la European Corpus Initiative (D. McKelvie y H.S. Thompson, 1994) </li></ul><ul><li>Corpora comparables : Corpus Aarhus , compuesto por textos de derecho contractual en danés, francés e inglés </li></ul><ul><li>Corpora paralelos : Hansard Corpus , que son actas del parlamento canadiense publicadas en francés e inglés, BOB/LEGEBiDUNA . </li></ul>
    59. 61. Corpus BOB/LEGEBiDUNA
    60. 62. Recursos: segmentadores <ul><li>Anotaciones con información extralingüísitca : género, tipo, status, función, procedencia, fecha, autor, editor, etc. <HEADER> </li></ul><ul><li>Anotaciones ortotipográficas : ASCII, JUNET, ISOLatin, Unicode </li></ul><ul><li>Anotaciones lingüísticas </li></ul>
    61. 63. Ejemplo de <HEADER> <ul><li><B CEPRIV1> Short descriptive code <Q E1 XX CORP EBUEAM> Text identifier <N LET TO HUSBAND> Name of text <A BEAUMONT ELIZABETH> Author's name <C E1> Sub-period <O 1500-1570> Date of original <M X> Date of manuscript <K X> Contemporaneity of original and manuscript <D ENGLISH> Dialect <V PROSE> Verse or prose <T LET PRIV> Text type <G X> Relationship to foreign original <F X> Language of foreign original <W WRITTEN> Relationship to spoken language <X FEMALE> Sex of author <Y X> Age of author <H HIGH> Author's social status <U X> Audience description <E INT UP> Participant relationship <J INTERACTIVE> Interactive/non-interactive <I INFORMAL> Formal/informal <Z X> Prototypical text category <S SAMPLE X> Sample </li></ul>
    62. 64. ASCII vs. Unicode
    63. 65. Anotaciones lingüísticas <ul><li>Anotaciones estructurales : epígrafes, párrafos, etc. </li></ul><ul><li>Anotaciones morfosintácticas: categoría morfosintáctica (POS), género, número, persona, caso, tiempo, etc. </li></ul><ul><li>Lematización: formas flexionadas con lexemas </li></ul><ul><li>Análisis sintáctico: sintagmas intraoracionales (grupos verbales y nominales, cláusulas subordinadas, etc.) </li></ul><ul><li>Anotaciones orientadas a la tarea : unidades de traducción,etiquetado de referencia (numeración, citas, etc.). </li></ul>
    64. 66. Etiquetador POS con lematización
    65. 67. Análisis sintáctico
    66. 69. Unidades de traducción
    67. 71. Corpus anotado
    68. 73. 5 Límites de la tecnología <ul><li>Condiciones adversas </li></ul><ul><ul><li>lenguaje creativo, espontáneo, imprevisible: habla coloquial, producción poética, narrativa, ensayo, publicidad, humor </li></ul></ul><ul><li>Condiciones óptimas </li></ul><ul><ul><li>lenguaje controlado, repetitivo, canónico: manuales técnicos, partes, informes, textos jurídicos, fórmulas </li></ul></ul>
    69. 74. Límites de la tecnología <ul><li>Traducción automática (MT) </li></ul><ul><ul><li>Systran, Logos: 100.000 palabras, 5.000 reglas de transferencia </li></ul></ul><ul><li>Traducción asistida (CAT) </li></ul><ul><ul><li>memorias de traducción: Trados, Star, Atril </li></ul></ul><ul><ul><li>lenguaje controlado, traducciones canónicas </li></ul></ul><ul><ul><li>corpus paralelo alineado, base terminológica </li></ul></ul>
    70. 75. Cobertura vs. calidad cobertura calidad perfecta ready-to-use comprensible indicativa CAT MT
    71. 76. Límites de la tecnología <ul><li>Tipología textual </li></ul><ul><ul><li>textos literarios </li></ul></ul><ul><ul><ul><li>Lewis Carroll </li></ul></ul></ul><ul><ul><li>textos ténicos, divulgativos </li></ul></ul><ul><ul><ul><li>página presentación CE </li></ul></ul></ul><ul><ul><li>textos canónicos </li></ul></ul><ul><ul><ul><li>fórmula religiosa </li></ul></ul></ul>
    72. 77. Texto literario <ul><li>Centelleo, centelleo, pequeño palo, ¡cómo me pregunto en cuál usted está! Encima sobre del mundo usted vuela como una té-bandeja en el cielo. </li></ul><ul><li>tr. de SYSTRAN </li></ul><ul><li>Brilla, luce, ratita alada ¿en qué estás tan atareada? Por encima del universo vuelas como una bandeja de teteras. </li></ul><ul><ul><li>tr. de Jaime de Ojeda </li></ul></ul>
    73. 78. Texto técnico (SYSTRAN) <ul><li>HLTCentral web site was established as an online information resource of human language technologies and related topics of interest to the HLT community at large. It covers news, R&D, technological and business developments in the areas of speech, language, multilinguality, automatic translation, localisation and related areas. It has a unique European perspective with a broad view of HLT news and developments worldwide. </li></ul><ul><li>El Web site de HLTCentral fue establecido como recurso en línea de la información tecnologías humanas del lenguaje y los asuntos relacionados del interés para la comunidad de HLT en grande. Cubre noticias, progresos del R&d, tecnológicos y de negocio en las áreas del discurso, del lenguaje, del multilinguality, de la traducción automática, de la localización y de áreas relacionadas. Tiene una perspectiva europea única con una visión de conjunto noticias de HLT y los progresos por todo el mundo. </li></ul>
    74. 79. FREETRANSLATION.com / SYSTRAN <ul><li>El sitio de la telaraña de HLTCentral se estableció como un recurso de información de online de tecnologías humanas de idioma y temas relacionados del interés a la comunidad de HLT en libertad. Cubre las noticias, R&D, tecnológico y los desarrollos del negocio en las áreas del habla, el idioma, multilinguality, la traducción automática, localisation y áreas relacionadas. Tiene una perspectiva europea extraordinaria con un panorama ancho de noticias de HLT y desarrollos mundiales. </li></ul><ul><li>El Web site de HLTCentral fue establecido como recurso en línea de la información tecnologías humanas del lenguaje y los asuntos relacionados del interés para la comunidad de HLT en grande Cubre noticias, progresos del R&d, tecnológicos y de negocio en las áreas del discurso, del lenguaje, del multilinguality, de la traducción automática, de la localización y de áreas relacionadas. Tiene una perspectiva europea única con una visión de conjunto noticias de HLT y los progresos por todo el mundo. </li></ul>
    75. 80. Texto técnico II (SYSTRAN) <ul><li>Welcome to the homepage of the Language Engineering sector of the Telematics Applications Programme within the Fourth Framework. The aim of Language Engineering is to facilitate the use of telematics applications and to increase the possibilities for communication in and between European languages. RTD work focuses on pilot projects that integrate language technologies into information and communications applications and services. A key objective is to improve their ease of use and functionality and broaden their scope across different languages. </li></ul><ul><li>Bienvenido a la pagina de (inicio)casa del sector de Ingenieria de Lenguaje del Telematics Programa de Aplicaciones dentro el Cuarto Armazon. La punteria de Ingenieria de Lenguaje es facilitar el usa de telematics aplicaciones y a aumento las posibilidades para comunicacion en y entre lenguajes Europeos. RTD trabajar focos en proyectos de piloto que integra tecnologias de lenguaje dentro informacion y comunicaciones aplicaciones y servicios. Una (llave/clave)tecla objetiva es mejorar su facilidad de usa y funcionalidad y ensancha su ambito lenguajes a traves diferentes. </li></ul>
    76. 81. NCSA.es vs. SYSTRAN <ul><li>Recepción al homepage del sector de la ingeniería del lenguaje del programa de aplicaciones del telematics dentro del cuarto marco. La puntería de la ingeniería del lenguaje es facilitar el uso de las aplicaciones del telematics y aumentar las posibilidades para la comunicación en y entre lenguajes europeos. El trabajo de RTD se centra en los proyectos experimentales que integran tecnologías del lenguaje en la información y aplicaciones y servicios de comunicaciones. Un objetivo dominante es mejorar su facilidad de empleo y funciones y ensanchar su alcance a través de diversos lenguajes. </li></ul><ul><li>Bienvenido a la pagina de (inicio)casa del sector de Ingenieria de Lenguaje del Telematics Programa de Aplicaciones dentro el Cuarto Armazon. La punteria de Ingenieria de Lenguaje es facilitar el usa de telematics aplicaciones y a aumento las posibilidades para comunicacion en y entre lenguajes Europeos. RTD trabajar focos en proyectos de piloto que integra tecnologias de lenguaje dentro informacion y comunicaciones aplicaciones y servicios. Una (llave/clave)tecla objetiva es mejorar su facilidad de usa y funcionalidad y ensancha su ambito lenguajes a traves diferentes. </li></ul>
    77. 82. FREETRANSLATION.com / SYSTRAN <ul><li>Dé la bienvenida al homepage del sector de la Ingeniería del Idioma de las Aplicaciones de Telematics Programa dentro de la Cuarta Armazón. La puntería de la Ingeniería del Idioma deberá facilitar el uso de aplicaciones de telematics y al aumento las posibilidades para la comunicación en y entre idiomas europeos. El trabajo de RTD se enfoca en proyectos pilotos que integran las tecnologías del idioma en aplicaciones de información y comunicaciones y servicios. Un objetivo clave deberá mejorar su comodidad del uso y la funcionalidad y ensanchar su alcance a través de idiomas diferentes. </li></ul><ul><li>Bienvenido a la pagina de (inicio)casa del sector de Ingenieria de Lenguaje del Telematics Programa de Aplicaciones dentro el Cuarto Armazon. La punteria de Ingenieria de Lenguaje es facilitar el usa de telematics aplicaciones y a aumento las posibilidades para comunicacion en y entre lenguajes Europeos. RTD trabajar focos en proyectos de piloto que integra tecnologias de lenguaje dentro informacion y comunicaciones aplicaciones y servicios. Una (llave/clave)tecla objetiva es mejorar su facilidad de usa y funcionalidad y ensancha su ambito lenguajes a traves diferentes. </li></ul>
    78. 83. Texto canónico (SYSTRAN) <ul><li>Our Father, who art in heaven, </li></ul><ul><li>hallowed be thy name; </li></ul><ul><li>thy kingdom come; </li></ul><ul><li>thy will be done; </li></ul><ul><li>on earth as it is in heaven. </li></ul><ul><li>Give us this day our daily bread. </li></ul><ul><li>And forgive us our trespasses, </li></ul><ul><li>as we forgive those who trespass against us. </li></ul><ul><li>And lead us not into temptation; </li></ul><ul><li>but deliver us from evil. </li></ul><ul><li>For thine is the kingdom, the power and the glory, </li></ul><ul><li>for ever and ever. Amen. </li></ul><ul><li>Nuestro padre, que el arte en el cielo, santificado sea nombre thy; el reino thy viene; thy será hecho; en la tierra como está en </li></ul><ul><li>cielo Dénos este día nuestro pan diario. Y perdónenos nuestras infracciones, mientras que perdonamos a los que violen contra nosotros. Y condúzcanos no en la tentación; pero entregúenos de mal. Para el thine está el reino, la potencia y la gloria, para siempre y siempre. Amen.. </li></ul>
    79. 84. NCSA.es vs. SYSTRAN <ul><li>Nuestro Padre, quien arte en cielo, santificar casar ser thy nombre; thy reino viene; thy sera hecho; en tierra como el esta en cielo. Darnos este dia nuestro pan diario. Y perdonarnos nuestro violaciones, como nosotros perdonamos esos quien violacion contra nosotros. Y conducirnos no dentro tentacion; pero entregarnos desde mal. Para thine es el reino, el poder y la gloria, para siempre y siempre. Amen. </li></ul><ul><li>Nuestro padre, que el arte en el cielo, santificado sea nombre thy; el reino thy viene; thy será hecho; en la tierra como está en </li></ul><ul><li>cielo Dénos este día nuestro pan diario. Y perdónenos nuestras infracciones, mientras que perdonamos a los que violen contra nosotros. Y condúzcanos no en la tentación; pero entregúenos de mal. Para el thine está el reino, la potencia y la gloria, para siempre y siempre. Amen.. </li></ul>
    80. 85. FREETRANSLATION.com / SYSTRAN <ul><li>Nuestro Padre, cielo de en de arte de quien, nombre de thy de ser de casar de santificar; reino de thy rivalizado; hecho de sera de thy; cielo de en de esta de el de como de tierra de en. Diario de cacerola de nuestro de dia de este de Darnos. Violaciones de nuestro de perdonarnos y, violacion de quien de esos de perdonamos de nosotros de como contra nosotros. Conducirnos y no tentacion de dentro; mal de desde de entregarnos de pero. Reino de el de thine e de Para, gloria de la de poder y de el, siempre de siempre y de para. Amén. </li></ul><ul><li>Nuestro padre, que el arte en el cielo, santificado sea nombre thy; el reino thy viene; thy será hecho; en la tierra como está en </li></ul><ul><li>cielo Dénos este día nuestro pan diario. Y perdónenos nuestras infracciones, mientras que perdonamos a los que violen contra nosotros. Y condúzcanos no en la tentación; pero entregúenos de mal. Para el thine está el reino, la potencia y la gloria, para siempre y siempre. Amen.. </li></ul>
    81. 86. Retraducción <ul><li>Traducción del español </li></ul><ul><li>MLIS (Society of the Multilingual Information) is a program of European Commission - DGXIII, sent in November of 1996 MLIS was constituted to support to the construction of an infrastructure for the European resources of the language, to mobilize and to expand the industries of the language and to promote the use of tools outposts of language in the European public sector. </li></ul><ul><li>Texto en inglés </li></ul><ul><li>MLIS (Multilingual Information Society) is a programme of the European Commission's DG XIII, launched in November 1996. MLIS sets out to support the construction of an infrastructure for European language resources; to mobilise and expand the language industries; to promote the use of advanced language tools in the European public sector. Companies, public sector organisations, the language industries and citizens can benefit from this programme. </li></ul>
    82. 87. Retraducción <ul><li>Original en español </li></ul><ul><li>MLIS (Sociedad de la Información Multilingüe) es un programa de la Comisión Europea - DGXIII, lanzado en Noviembre de 1996. MLIS se constituyó para dar apoyo a la construcción de una infraestructura para los recursos del lenguaje europeos, movilizar y expandir las industrias del lenguaje y promocionar el uso de herramientas avanzadas de lenguaje en el sector público europeo. </li></ul><ul><li>Traducción del inglés </li></ul><ul><li>MLIS (sociedad de la información multilingüe) es un programa de la Comisión de las Comunidades Europeas - DGXIII, enviado en noviembre de 1996. MLIS fue constituido para utilizar a la construcción de una infraestructura para los recursos europeos del lenguaje, para movilizar y para ampliar las industrias del lenguaje y para promover el uso de los puestos avanzados de las herramientas del lenguaje en el sector público europeo. </li></ul>
    83. 88. Cobertura vs. calidad cobertura calidad perfecta ready-to-use comprensible indicativa CAT MT
    84. 89. 6 Salidas profesionales <ul><li>Consultor / Consultant </li></ul><ul><li>Usuario / User </li></ul><ul><li>Docente / Instructor </li></ul><ul><li>Evaluador / Evaluator </li></ul><ul><li>Gestor / Manager </li></ul><ul><li>Diseñador / Developer </li></ul>
    85. 90. Salidas profesionales <ul><li>Consultant : A person that is sufficiently informed to advise potential users of translation technology. This person should be able to find out when and how technology may be useful or cost-effective; how to find out the most adequate tools or where to get the necessary information to come up with an answer. That is, a person that knows where to find the basic relevant literature and references. </li></ul>
    86. 91. Salidas profesionales <ul><li>User : A person that has sufficient technological training to be efficient not only using the computer but also any specialized translation software with a minimally standard way of working. </li></ul>
    87. 92. Salidas profesionales <ul><li>Instructor : A person that can both assess and use the technology is, with a little more experience, also capable of training other people. Teaching requires some confidence with hardware and software, so it would be desirable for the instructor to also be a regular computer user. </li></ul>
    88. 93. Salidas profesionales <ul><li>Evaluator : Evaluating the technology requires a little more expertise than being a consultant. An evaluator would be able to analyze how good or bad particular software is. Therefore, some experience in software evaluation in general, and in translation technology in particular, is recommendable. </li></ul>
    89. 94. Salidas profesionales <ul><li>Manager : Has responsibility to make the company profitable. Experience using and testing translation technology. Must set an optimal distribution between human and machine resources; select adequate professionals (translators, computational linguists, or software engineers), and acquire appropriate technological infrastructure. </li></ul>
    90. 95. Salidas profesionales <ul><li>Developer : Localization software very often needs customizing, integration or up-dating. Good professionals may be involved in software development, where both linguistic and technical skills may be required. </li></ul>
    91. 96. 7 Grupo DELi <ul><li>Corpus BOB/LEGEBiDUNA ( demo ) </li></ul><ul><li>Proyecto ITEM </li></ul><ul><ul><li>UPC, UB, EHU, UNED </li></ul></ul><ul><li>Proyecto XTRA-Bi ( extracción automática de elementos bitextuales ) </li></ul><ul><ul><li>STELLA, GV </li></ul></ul><ul><ul><li>TRANSIT, XML/XSL, TMX </li></ul></ul>
    92. 97. 8 Documentación <ul><li>EuTrans http:// hermes . zeres .de/ Eutrans </li></ul><ul><li>DELi http:// www . deli . deusto .es </li></ul><ul><li>Aspects of Translation Technology </li></ul><ul><li>Translation Reference Center http :// www . transref . org / </li></ul><ul><li>ForeingWord http:// www . foreignword . com / </li></ul><ul><li>Laurie Gerber’s links http:// www . eamt . org / </li></ul><ul><li>HLT http:// www . hltcentral . org / </li></ul><ul><li>Translation Journal http:// accurapid . com / journal </li></ul>

    ×