Your SlideShare is downloading. ×
Curs urgent de traducció automàtica
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Curs urgent de traducció automàtica

496
views

Published on

Published in: Technology

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
496
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Curs urgent de traducci´ autom`tica o a Mikel L. Forcada Departament de Llenguatges i Sistemes Inform`tics a Universitat d’Alacant E-03071 Alacant, Spain Traducci´ Autom`tica: Fonaments i Aplicacions o a Universitat d’Alacant, 2004 1
  • 2. ´ Index 1. Qu` ´s la traducci´ autom`tica (TA)? Aplicacions e e o a 2. Formats de text 3. Com funciona la TA? 4. Per qu` ´s dif´ la TA? e e ıcil 5. Avaluaci´ de la traducci´ autom`tica o o a 6. TA de p`gines web a 7. Mem`ries de traducci´ o o 2
  • 3. Qu` ´s la traducci´ autom`tica (TA)? /1 e e o a La traducci´, . . . o . . . mitjan¸ant un sistema inform`tic . . . c a . . . (ordinador(s) + programes) . . . . . . de textos informatitzats en la llengua origen (LO). . . . . . a textos informatitzats en la llengua meta (LM). [Atenci´ al format dels textos!!] o 3
  • 4. Qu` ´s la traducci´ autom`tica (TA)? /2 e e o a Esquem`ticament: a Sistema de Text LM Text LO → traducci´ o → (en brut) autom`tica a 4
  • 5. Aplicacions de la TA /1 Dos grans grups: • Assimilaci´: traducci´ ef´ o o ımera, idealment instant`nia, per a a la revisi´ o la comprensi´ de documents en una altra llengua. o o P.e., navegaci´ per internet, xat (chat), etc. o • Disseminaci´: traducci´ permanent, idealment amb pocs er- o o rors, per a la publicaci´. P.e., producci´ d’esborranys per a o o posteditar . 5
  • 6. Aplicacions de la TA /2 Preedici´ i postedici´: els professionals col·laboren amb el siste- o o ma de TA en aplicacions de disseminaci´: o • Preedici´: preparaci´ del text per a evitar l`xic o construc- o o e cions que donen problemes de traducci´ amb un sistema de o traducci´ autom`tica. o a • Postedici´: correcci´ del text tradu¨ en brut per a fer-lo o o ıt adequat al prop`sit previst. o Con´ixer b´ com funciona el sistema de TA ajuda molt en amb- e e dues tasques. 6
  • 7. Aplicacions de la TA /3 Alternativa a la preedici´: llenguatge controlat. o • Els autors escriuen ja pensant en el tractament automatitzat del text. • S’eviten l`xic i construccions problem`tiques. e a • Es minimitza la postedici´. o • Consist`ncia d’estil, comprensibilitat, mantenibilitat. e • Per` els autors l’han de con´ixer i aplicar! o e • Se’ls pot ajudar amb eines inform`tiques. a 7
  • 8. Aplicacions de la TA /4 La postedici´ ´s convenient quan o e   traducci´ autom`tica o a cost  +  < cost(traducci´ humana). o postedici´ o Perqu` siga eficient: e • cal ser competent en la llengua meta → generar un text genu´ ı a partir del text en brut • cal con´ixer el sistema de TA → recon´ixer l’origen dels er- e e rors, predir-ne el comportament 8
  • 9. Formats de text /1 Un text informatitzat ´s, com qualsevol porci´ de dades in- e o formatitzada, una seq¨`ncia de bits, ´s a dir, d’uns i zeros: ue e 000101010010100111101001010010.... Els bits van normalment en grups de 8 (bytes o octets). Amb 8 bits es poden fer 2×2×2×2×2×2×2×2×2= 28= 256 combinacions: 00000000 (0), 00000001 (1), 00000010 (2), . . . , 11111111 (255). Hi ha moltes maneres d’organitzar els octets per a emmagatze- mar textos. Molts problemes provenen de discrep`ncies quant a a la manera de fer-ho. 9
  • 10. Formats de text /2 Dos aspectes importants: codificaci´ i format propiament dit. o • Codificaci´: Assignaci´ d’un codi (una seq¨`ncia d’un o o o ue m´s octets concreta) a cada car`cter possible de la llen- e a gua corresponent (per exemple: “a” → 01100001 (97); “?” → “00111111” (63), etc.) 10
  • 11. Formats de text /3 • Format propiament dit: Els textos, a m´s de car`cters, con- e a tenen informaci´ de format. o ´ Es necess`ria l’assignaci´ de codis per a regular altres carac- a o ter´ ıstiques del text: – Per a codificar l’aparen¸a visual o de presentaci´, per c o exemple, “inici cursives”, “final negretes”, “lletra de 16 punts”), o – Per a codificar l’estructura (´s a dir, l’organitzaci´ del con- e o tingut, per exemple, “t´ıtol de secci´”, “llista numerada”, o “nota a peu de p`gina”, “fila d’una taula”, etc.). a 11
  • 12. Formats de text /4 Codificacions d’1 octet (“unibyte”): • ASCII: Assigna codis de 7 bits, del 0000000 (0) al 1111111 (127), (sobra un bit de l’octet) als car`cters anglesos (sense a accents, etc.) • ANSI o ISO: familia de codificacions que aprofiten els codis del 128 al 255 per a car`cters internacionals. a En Europa occidental: ISO-8859-1 (o Latin-1); m´s recent- e ment, ISO-8859-15 (o Latin-9; cont´ el s´ e ımbol de l’euro) En Windows s’usa CP-1252 que ´s molt similar (per` no e o id`ntic) a l’ISO-8859-1. e 12
  • 13. Formats de text /5 Codificacions de m´s d’1 octet (“multibyte”: japon´s, xin´s, e e e core`, devanagari. . . :) a • Unicode (ISO-10646): Assigna codis de 31 bits (4 octets) i permet codificar 231 = 2 147 483 648 car`cters. a • UTF-8: Versi´ d’Unicode que nom´s usa m´s d’un octet o e e quan cal: – codis del 0 al 127: 1 octet (compatible amb ASCII): – codis del 128 al 2047: 2 octets; – codis del 2048 al 65535: 3 octets, etc. 13
  • 14. Formats de text /6 Necessitat de format (estructural o presentacional) m´s enll` e a de la codificaci´ de car`cters. La informaci´ de format es pot o a o codificar: • Com a seq¨`ncies de car`cters (anomenades marques) que es ue a poden llegir amb un editor senzill de text com el Bloc de no- tes: La fam´ SGML (ara XML): HTML i XHTML (p`gines ılia a web), NewsML (not´ ıcies), etc.; RTF, TeX (processadors de textos); Postscript (impressores), etc. Un exemple: <p>Un par`graf curt amb un mot <em>emfatitzat</em>.</p> a (HTML vist a trav´s d’un editor de text) e 14
  • 15. Formats de text /7 • Amb codis no interpretables com a car`cters: (no visibles a a trav´s d’un editor de text senzill) Adobe PDF (impressi´, e o presentaci´), formats semisecrets de processadors de textos o comercials com .doc de Microsoft, etc. 15
  • 16. Formats de text /8 El problema wysiwyg (“what you see is what you get”: “el que veus ´s el que obtindr`s”): e a Les persones usen la presentaci´ visual per a comunicar l’estruc- o tura l`gica dels documents (a persones vidents!). o Els processadors de textos actuals ens mostren el document tal com quedar` impr´s mentres l’estem editant. a e Sucumbim a la temptaci´ de treballar directament sobre la pre- o sentaci´ (negretes, m`rgens, tipus) en comptes de sobre l’estructura o a l`gica (seccions, t´ o ıtols, etc.) 16
  • 17. Formats de text /9 El problema wysiwyg: Si fem aix`, i m´s endavant volem canviar el tipus de lletra dels o e t´ ıtols de secci´ o de les paraules estrangeres. . . o . . . ens toca canviar-los un per un! Resultat: “el que veus ´s tot el que tens” e Podem evitar-ho? S´ ı. 17
  • 18. Formats de text /10 Com? Usant estils. Marquem estructuralment les parts (elements): t´ ıtol de segon nivell, text emfatitzat, exemple, etc. I despr´s assignem un estil de presentaci´ a cada part (per exem- e o ple, els t´ ıtols de segon nivell pode anar numerats autom`ticament a i en Helv`tica de 14 punts, l’`mfasi pot ser en negreta i l’exemple e e en cursiva) Canviar la presentaci´ de totes les aparicions d’un element ´s o e f`cil: nom´s cal canviar l’estil associat a l’element. a e 18
  • 19. Formats de text /11 En aplicacions d’internet, la separaci´ estructura–presentaci´ es o o fa aix´ ı: • La informaci´ —el contingut— s’estructura usant XML o o HTML • La presentaci´ es genera (en el servidor o en el navegador) o usant fulls d’estil escrits en CSS o en XSL 19
  • 20. Formats de text /12 Processador document (XML o HTML) → de fulls → presentaci´ o full d’estil (XSL o CSS) → d’estil 20
  • 21. Formats de text /13 Accessibilitat (no tots els receptors s´n vidents): o Document XML ? ? ? Full d’estil 1 Full d’estil 2 Full d’estil 3 ? ? ? Ò H Fitxer de so Document Braille Document per a m`bils o 21
  • 22. Formats de text /14 Els sistemes de TA han de ser capa¸os: c • De separar del text a traduir la informaci´ de format; o • de reintegrar adequadament la informaci´ de format al text o despr´s de traduir-lo; e • i, idealment, d’usar la informaci´ de format per a decidir o quines parts cal traduir. La preservaci´ del format estalvia temps a la persona traduc- o tora/correctora (que es concentra en la part ling¨´ uıstica de la faena). 22
  • 23. Com funciona la TA? /1 Primera aproximaci´ [!!]: Traduir textos ´s traduir oracions. o e Traduir oracions suposa: • Construir una interpretaci´ (un significat) a partir de l’oraci´ o o en LO. • Construir una oraci´ en LM a partir de la interpretaci´. o o 23
  • 24. Com funciona la TA? /2 Principi de composicionalitat [sem`ntica]: a La interpretaci´ d’una oraci´ es construeix . . . o o . . . a partir de les interpretacions dels mots . . . Escriuen cartes = Escriuen articles . . . component-les seguint les agrupacions indicades per l’estruc- tura sint`ctica de l’oraci´. a o Israel amena¸a Palestina = Palestina amena¸a Israel c c 25
  • 25. Com funciona la TA? /3 Per` alerta! Les oracions poden ser ambig¨es (´s a dir, tenir o u e m´s d’una interpretaci´): e o • perqu` els mots tenen m´s d’una interpretaci´ (ambig¨itat e e o u l`xica) e • perqu` l’oraci´ t´ m´s d’una possible an`lisi sint`ctica (am- e o e e a a big¨itat sint`ctica) u a • per ambdues coses alhora. (en veurem exemples m´s endavant) e Elegir la interpretaci´ correcta no ´s trivial per a un sistema o e inform`tic (normalment nom´s pot usar part del cotext). a e 25
  • 26. Com funciona la TA? /4 Esquem`ticament: a Oraci´ o Oraci´ o → interpretaci´ o → LO LM En alguns sistemes de TA s’intenta representar directament les interpretacions amb una interlingua (un llenguatge estructurat artificial). 26
  • 27. Com funciona la TA? /5 Per`... els traductors professionals realment necessiten interpre- o tar o comprendre completament una oraci´ per a traduir-la? o “... interacciones independientes del esp´ en unidades de la ın secci´n eficaz del neutrino de Dirac...” → o “... interaccions independents de l’esp´ en unitats de la secci´ ın o efica¸ del neutr´ de Dirac...” c ı “. . . tornillos que unen el volante de inercia al ´rbol de levas → a “. . . caragols que uneixen el volant d’in`rcia a l’arbre de lleves e ...” No: Transformen estructures o patrons i substitueixen el l`xic e (parant especial esment al terminol`gic). o 27
  • 28. Com funciona la TA? /6 Aix` permet fer la segona aproximaci´ [!!]: o o La majoria dels sistemes de TA no construeixen completa- ment la interpretaci´, . . . o . . . sin´ que transformen l’estructura sint`ctica de l’oraci´ en o a o LO en una estructura sint`ctica v`lida per a l’oraci´ en LM a a o i. . . . . . substitueixen els mots de l’oraci´ en LO per equivalents o adequats en LM. . . . . . fent les dues operacions bastant independentment. 28
  • 29. Com funciona la TA? /7 Per a programar un sistema de TA cal formular tots els proces- sos de traducci´ de forma expl´ o ıcita i mecanitzable (ad´u “intu¨ o e ıci´ ling¨´ uıstica”!). A m´s, la mecanitzaci´ ha de ser eficient (programes r`pids i e o a compactes) i s’ha de dur a terme en un temps raonable: • Aix` exigeix una reflexi´ ling¨´ o o uıstica (traductol`gica) sobre els o processos de traducci´ per part dels dissenyadors del sistema. o • A m´s, pot comportar m´s aproximacions, simplificacions, e e compromisos i sacrificis. 29
  • 30. Com funciona la TA? /8 Per tant... Podem esperar que un bon sistema de TA ens allibere de la part m´s mec`nica (mecanitzable) de la tasca de traducci´. e a o Per` no podem esperar —per bo que siga— que comprenga el o text, resolga les ambig¨itats sempre correctament i produ¨ u ısca textos en una variant genu¨ de la llengua meta. ına 30
  • 31. Per qu` ´s dif´ la TA? /1 e e ıcil Els quatre problemes de la traducci´ autom`tica (Arnold 2003): o a 1. El problema de l’an`lisi a 2. El problema de la s´ ıntesi 3. El problema de la transfer`ncia e 4. El problema de la descripci´ o 31
  • 32. Per qu` ´s dif´ la TA? /2 e e ıcil El problema de l’an`lisi: La forma no determina completament a el contingut (la interpretaci´). Tamb´ s’anomena ambig¨itat: o e u • Portaven not´ ıcies de Gr`cia (tema o proced`ncia?) e e • Ha venut les taronges que ha comprat a Joan (Joan ven o compra?) • Treballa en l’estudi que li han encarregat (prepara un docu- ment o dissenya un taller d’artista?) 32
  • 33. Per qu` ´s dif´ la TA? /3 e e ıcil El problema de la s´ıntesi: El contingut no determina comple- tament la forma (hi ha m´s d’una manera de dir el mateix en e qualsevol llengua): • Quina hora ´s? e • Com ´s de tard? (de: Wie sp¨t ist es?) e a • Quines hores s´n (pt: Que horas s˜o? o a Els expedients s’obrin o s’inicien? Les sessions es clouen, es tanquen, es rematen o s’alcen? 33
  • 34. Per qu` ´s dif´ la TA? /4 e e ıcil El problema de la transfer`ncia: Les lleng¨es divergeixen. Es e u ´ a dir, hi ha difer`ncies irreductibles en la manera en que el mateix e contingut s’expressa en lleng¨es diferents: u • ca: M’agrada nadar (M’ objecte, agrada, verb, nadar sub- jecte) • en: I like swimming (I subjecte, like verb, swimming objecte) • de: Ich schwimme gern (Ich subjecte, schwimme, verb, gern, adverbi) Totes volen dir produir plaer(agent=nadar(agent=jo),destinatari=jo) 34
  • 35. Per qu` ´s dif´ la TA? /5 e e ıcil El problema de la descripci´ (represa): construir un sistema de o traducci´ autom`tica comporta la gesti´ d’una gran quantitat de o a o coneixement, que s’ha d’elicitar, aplegar, descriure, i representar en una forma ´til i computable. u 35
  • 36. Avaluaci´ de la traducci´ autom`tica /1 o o a Volem avaluar l’adopci´ d’un sistema de traducci´ autom`tica o o a per a la disseminaci´. o Les traduccions en brut s’hauran de posteditar (corregir): com menys correccions, m´s qualitat: millor. e D’acord: com avaluem la qualitat? 36
  • 37. Avaluaci´ de la traducci´ autom`tica /2 o o a Per avaluar la qualitat, cal: • elegir una mostra suficient de textos representatius, • traduir-la autom`ticament, a • i comptar la quantitat de correcci´ m´ o ınima necess`ria per a a fer que la traducci´ siga adequada al prop`sit previst. o o Sembla senzill, per`... o 37
  • 38. Avaluaci´ de la traducci´ autom`tica /3 o o a ...no ho ´s gens! e • ´s dif´ elegir prou text representatiu per endavant; e ıcil • la noci´ d’adequaci´ ´s de vegades dif´ d’especificar: o o e ıcil • ´s dif´ fer el m´ e ıcil ınim de correccions (cal buscar traduccions adequades que se n’obtinguen amb poques correccions); • tot el proc´s ´s molt cost´s (temps de correcci´). e e o o 38
  • 39. Avaluaci´ de la traducci´ autom`tica /4 o o a Per` la qualitat dels textos tradu¨ en brut no ho ´s tot! o ıts e Fem un pressupost: si adoptem la traducci´ autom`tica, o a d’una banda, ens estalviem els costos de traducci´ humana, o per` tenim despeses noves: o • despeses de funcionament i • despeses de formaci´ (s’ha d’aprendre a usar una nova tec- o nologia) 39
  • 40. Avaluaci´ de la traducci´ autom`tica /5 o o a Despeses de funcionament: • Cost del sistema de TA (cost efectiu per mot): amortit- zaci´ (sistema en propietat), cost per mot (sistema llogat), o servei t`cnic i manteniment, costos de migraci´ (adaptaci´ e o o de programes, adquisici´ de sistemes), i (no oblidem) el cost o d’avaluaci´! o • Cost de preedici´ i preparaci´: cal preparar i potser pree- o o ditar els textos i aix` ho ha de fer alg´, cobrant. o u • Cost de postedici´: dep´n de la qualitat; pot baixar amb o e la formaci´; dep´n de com paguem als posteditors (per mot, o e per temps), etc. 40
  • 41. Avaluaci´ de la traducci´ autom`tica /6 o o a Despeses de formaci´: o • Formaci´ en ´s del programa de TA: ´s pr`piament dit, o u u o configuraci´ i manteniment; ´s de nou programari associat. o u • Formaci´ en postedici´: o o – coneixement del programa de TA (errors t´ ıpics); – t`cniques de correcci´, ´s avan¸at del processador de tex- e o u c tos, macroinstruccions, substituci´ de patrons, etc. o 41
  • 42. Avaluaci´ de la traducci´ autom`tica /7 o o a I potser ens hem deixat encara alguna cosa! Avaluar la traducci´ autom`tica no ´s f`cil. o a e a La lli¸`? Desconfieu de les primeres impressions. co 42
  • 43. TA de p`gines web/1 a La traducci´ autom`tica de p`gines web ´s com la TA d’altres o a a e documents de text, per` hi ha algunes difer`ncies: o e • les p`gines web s´n hipertextos: contenen enlla¸os a d’altres a o c p`gines web a • de vegades s´n actives: contenen programes que s’executen o durant la presentaci´ o • de vegades s´n din`miques: el servidor no les t´ guardades o a e sin´ que les genera autom`ticament quan se sol·liciten o a 43
  • 44. TA de p`gines web/2 a Dos usos b`sics de la TA de p`gines web: a a • Disseminaci´: TA per a construir i mantenir servidors d’in- o ternet multiling¨es u • Assimilaci´: TA durant la navegaci´ (”navegaci´ tradu¨ o o o ıda”), en el client, en el servidor que cont´ la informaci´, o en un e o altre servidor (p.e., interNOSTRUM) 44
  • 45. TA de p`gines web/3 a Els requisits s´n diferents en cada cas: o • Disseminaci´: la TA ha de ser de qualitat, potser seguida de o postedici´ (la web tradu¨ ´s percebuda com a definitiva) o ıda e • Assimilaci´: la TA ha de ser molt r`pida, “instant`nia”, com o a a si formara part del proc´s de presentaci´ de la traducci´: la e o o qualitat no ´s tan crucial (la traducci´ ´s percebuda com a e o e provisional) 45
  • 46. Un inc´ el format de les p`gines web/1 ıs: a Les p`gines web s´n documents especials: a o • La majoria de les p`gines web estan escrites en (algun dialec- a te no est`ndard de) HTML (HyperText Markup Language, a “llenguatge de marques per a hipertextos”). • HTML cont´, a m´s de text senzill, marques per a controlar e e la presentaci´ i per a enlla¸ar altres documents. o c • Quan editem amb programes especialitzats (Composer, Front- page, Dreamweaver, etc.) no veiem les marques sin´ l’apa- o ren¸a aproximada del document. c La transpar`ncia seg¨ent cont´ un exemple. e u e 46
  • 47. Un inc´ el format de les p`gines web/2 ıs: a <HTML> <HEAD> <TITLE>T´tol del document</TITLE> ı </HEAD> <BODY> <H1>Encap¸alament de nivell 1</H1> c <H2>Encap¸alament de nivell 2</H2> c <P>Aquest ´s el <EM>primer</EM> par`graf e a d’aquest document. El navegador decideix com dividir-lo en l´nies per a presentar-lo. Idealment, hauria ı d’acabar amb una marca de final de par`graf.</P> a <H2>Un altre encap¸alament de nivell 2</H2> c <P>Aquest ´s l’<EM>´ltim</EM> par`graf e u a d’aquest document HTML. Els documents HTML poden contenir <A HREF=quot;http://www.internostrum.comquot;>enlla¸os</A> c a altres documents HTML, locals o remots.</P> </BODY> </HTML> 47
  • 48. Un inc´ el format de les p`gines web/3 ıs: a Encap¸alament de nivell 1 c Encap¸alament de nivell 2 c Aquest ´s el primer par`graf d’aquest document. El navegador decideix com e a dividir-lo en l´ ınies per a presentar-lo. Idealment, hauria d’acabar amb una marca de final de par`graf. a Un altre encap¸alament de nivell 2 c Aquest ´s l’´ltim par`graf d’aquest document HTML. Els documents HTML e u a poden contenir enlla¸os a d’altres documents HTML, locals o remots. c 48
  • 49. TA de p`gines web (represa)/4 a Traduir un document HTML comporta: • Identificar les porcions del document que corresponen a text que ha de ser llegit i traduir-les; • Adaptar els enlla¸os a la nova situaci´ (potser ja no poden c o enlla¸ar el mateix document!). c L’adaptaci´ d’enlla¸os dep´n de la situaci´. o c e o 49
  • 50. TA de p`gines web /5 a Els enlla¸os contenen URIs (adreces d’altres documents): c Podeu visitar tamb´ els nostres e <a href=quot;http://www.servidor.ct/es/prod/ta.htmlquot;> productes</a>. 50
  • 51. TA de p`gines web/6 a Una miradeta als URIs dels enlla¸os: c http://www.servidor.ct/es/prod/ta.html L’URI (localitzador) indica: • L’esquema (http: protocol de transfer`ncia d’hipertext) e • El nom de la m`quina que fa de servidor (www.servidor.ct). a • La ruta que identifica el recurs concret (/es/prod/ta.html) dins del servidor 51
  • 52. TA de p`gines web/7 a Traduir suposa adaptar els URIs dels enlla¸os. Per exemple, c en un servidor biling¨e espanyol–catal`, si un enlla¸ des d’una u a c p`gina en espanyol apunta a l’URI a http://www.servidor.ct/es/prod/ta.html La traducci´ catalana hauria d’apuntar a l’URI: o http://www.servidor.ct/ca/prod/ta.html 52
  • 53. TA de p`gines web/8 a Per` el text mateix de les p`gines web cont´ de vegades material o a e especial que no cal traduir: • URIs: www.pujol.com (no ´s “www.colina.como”) e • Adreces de correu electr`nic: andreu.fuster@correu.com (no o ´s “andr´s.carpintero@correo.como”) e e 53
  • 54. TA de p`gines web/9: p`gines generades al ser- a a vidor Moltes vegades els documents HTML no s´n al disc dur, sin´ o o que s´n generats per un programa que s’executa en el servidor o durant la navegaci´. o Possiblement es generen p`gines diferents per a cada perfil de a visitant. Els detalls de la traducci´ d’aquest tipus de documents queden o fora de l’abast d’aquest curs, per` presenten reptes considera- o bles. 54
  • 55. Webs preparades per a la TA: aspectes ling¨´ uıstics/1 Si preveiem que una web ha de ser tradu¨ ıda autom`ticament a a una altra llengua, podem preparar el text origen. Con´ixer el sistema concret de TA ens pot ajudar a evitar els e mots o les construccions que donen lloc a problemes. La noci´ ´s coneguda de fa temps i s’anomena llenguatge con- o e trolat. 55
  • 56. Webs preparades per a la TA: aspectes ling¨´ uıstics/2 Alguns consells independents de l’idioma: • Fer p`gines i par`grafs curts. a a • No usar textos en gr`fics (imatges), sin´ icones. a o • Usar estructures gramaticals senzilles. • Usar vocabulari b`sic (freq¨ent, quotidi`), per`. . . a u a o • Evitar els mots polis`mics i els hom`grafs (hom`nims). e o o • Evitar les abreviatures. 56
  • 57. Webs preparades per a la TA: aspectes ling¨´ uıstics/3 M´s consells independents de l’idioma: e • No usar el format per a transmetre informaci´ crucial; millor o usar text. • Repassar l’ortografia. • Evitar les expressions idiom`tiques (no `bviament composi- a o cionals). 57
  • 58. Mem`ries de traducci´/1 o o Els traductors (humans) han generat molt´ ıssimes traduccions. Hi ha a l’abast nombrosos textos electr`nics biling¨es on la versi´ o u o en un idioma ´s una bona traducci´ de la versi´ en l’altre i e o o viceversa. No es podria aprofitar aquest treball per a traduir documents nous (reciclatge autom`tic de traduccions?) → Alternativa a la a traducci´ autom`tica. o a 58
  • 59. Mem`ries de traducci´ /2 o o Per a aprofitar aquests bitextos cal: • Alinear-los (indicar quines parts s´n traducci´ de quines); o o • Segmentar-los en unitats de traducci´ (UT); o • Organitzar les UT en una base de dades eficient. Totes aquestes tasques, tan autom`ticament com siga possible. a 59
  • 60. Mem`ries de traducci´/3 o o Esquema del proc´s de segmentaci´ i d’alineament d’un parell e o de textos existent per a alimentar una mem`ria de traducci´. o o segmen- text esquerre E → → alineador- Mem`ria o taci´ o UTs corrector → → de tra- segmen- (e, d) text dret D → → assistit ducci´ o taci´ o 60
  • 61. Mem`ries de traducci´/4 o o Per a traduir textos nous cal: • Segmentar-los en unitats que puguen correspondre amb les UT existents • Substituir els segments trobats per les traduccions correspo- nents. Aquest ´s el fonament de les mem`ries de traducci´. e o o 61
  • 62. Mem`ries de traducci´/5 o o Esquema del proc´s de pretraducci´ d’un nou text esquerre E e o usant una mem`ria de traducci´. o o text dret text esquerre E → segmentaci´ → o pretraducci´ o → pretradu¨ i ıt segmentat ↑↓ UTs Mem`ria de o traducci´ o 62
  • 63. Mem`ries de traducci´/6 o o Alguns productes comercials (preus de 600 euros cap amunt): • D´j` Vu d’Atril (http://www.atril.com/ca/) ea • Transit de Star (http://www.star-transit.com/es/) • Trados (www.trados.com) • SDLX (www.sdlintl.com) Solen contenir, a m´s de la mem`ria de traducci´, altres ´tils e o o u com ara bases de dades l`xiques (“terminol`giques”), etc. Hi ha e o productes Open Source com ara OmegaT. 63
  • 64. Mem`ries de traducci´/7 o o Quan funcionen b´ les mem`ries de traducci´? e o o • Quan tenim moltes traduccions alineades en la mem`ria o • Quan els tipus de textos a traduir s´n molt repetitius o • Quan la terminologia i la fraseologia s´n estables en la mem`ria o o Per`: o • sempre cal revisar la pretraducci´ o • A canvi: la pretraducci´ revisada es pot afegir ja a la mem`ria o o de traducci´ per usar-la en el futur. o 64
  • 65. Mem`ries de traducci´/8 o o Sobre la segmentaci´: o • Els programes de MT segmenten els textos en “oracions” usant la puntuaci´ i el format. o • A canvi, troben en la mem`ria segments aproximats a m´s o e dels id`ntics (i produeixen traduccions aproximades). e • Hi ha (des de 1998) un format est`ndard internacional de a MT independent del programa: TMX (Translation Memory eXchange), que permet l’intercanvi de mem`ries entre equips o de traducci´. o 65