Slideshare.net (beta)

 
Post To TwitterPost to Twitter
Post: 
Myspace Hi5 Friendster Xanga LiveJournal Facebook Blogger Tagged Typepad Freewebs BlackPlanet gigya icons

All comments

Add a comment on Slide 1

If you have a SlideShare account, login to comment; else you can comment as a guest


Showing 1-50 of 0 (more)

Traducción automática de código abierto: una oportunidad para lenguas menores

From mlforcada, 3 months ago

294 views  |  0 comments  |  0 favorites  |  1 download
 

Categories

Add Category
 
 

Groups / Events

 

 
Embed
options

More Info

CC Attribution-ShareAlike LicenseCC Attribution-ShareAlike License
This slideshow is Public
Total Views: 294
on Slideshare: 294
from embeds: 0

Slideshow transcript

Slide 1: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Traducción automática de código abierto: una oportunidad para lenguas menores Mikel L. Forcada1,2 1 Departament de Llenguatges i Sistemes Informàtics, Universitat d’Alacant, E-03071 Alacant 2 Prompsit Language Engineering, S.L., E-03690 St. Vicent del Raspeig (Spain) CCDUTI – Alacant, 1 de febrero de 2007 Mikel L. Forcada TA de código abierto para lenguas menores

Slide 2: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas c 2007 Universitat d’Alacant. c 2007 Mikel L. Forcada Este material puede ser distribuido, copiado y exhibido si el nombre del autor se muestra en los créditos. No se puede obtener beneficio comercial. Las obras derivadas deben distribuirse en los mismos términos de licencia que los del trabajo original. Más detalles: http://creativecommons.org/licenses/by-nc-sa/2.5/ deed.es. Se pueden pedir los fuentes LaTeX a Mikel L. Forcada (mlf@ua.es). Mikel L. Forcada TA de código abierto para lenguas menores

Slide 3: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Índice 1 Conceptos 2 Efectos de la disponibilidad de TA sobre las lenguas menores 3 Sistemas de TA comerciales y lenguas menores: oportunidades limitadas 4 Oportunidades de la TA de código abierto 5 Retos 6 Ejemplo: Apertium y el aranés 7 Conclusiones tentativas Mikel L. Forcada TA de código abierto para lenguas menores

Slide 4: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Lenguas menores y pares de lenguas menores/1 ¿Qué es una lengua menor ? Se usan muchas denominaciones alternativas (en “orden de Google”): minority languages (minoritarias) lesser-used languages (menos usadas) minor languages (menores) small or smaller languages (pequeñas o más pequeñas) lesser languages (menores) under-resourced, resource-poor or less-resourced languages (con pocos recursos) etc. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 5: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Lenguas menores y pares de lenguas menores/2 ¿Que és una lengua menor? Con un pequeño número de hablantes [alfabetizados]. Lejos de la normalidad (se usa más en casa que en la escuela o en la administración, está socialmente discriminada, reprimida políticamente, etc.). Carente de un sistema estable de escritura, una ortografía fija, o una variante estándar. Con una presencia limitada en Internet. Con escasez de lingüistas expertos en ella. Con pocos recursos legibles por el ordenador: diccionarios, corpus, etc. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 6: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Lenguas menores y pares de lenguas menores/3 Los efectos de las tecnologías de traducción sobre una lengua menor ocurren a través de pares de lenguas. Por ejemplo: las lenguas menores A y B son lenguas relacionadas (es fácil construir programas para traducir entre ellas) C es una lengua importante. hay programas de traducción de C a A Así, será más fácil tener programas de traducción de C a B Mikel L. Forcada TA de código abierto para lenguas menores

Slide 7: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Software libre o de código abierto El software de código abierto se llama también software libre por estas cuatro libertades: 0 “La libertad de usar el programa, con cualquier propósito.” 1 “La libertad de estudiar cómo funciona el programa, y adaptarlo a tus necesidades.” 2 “La libertad de distribuir copias, con lo que puedes ayudar a tu vecino.” 3 “La libertad de mejorar el programa y hacer públicas las mejoras a los demás, de modo que toda la comunidad se beneficie.” Para que las condiciones 1 y 3 se cumplan, se debe tener acceso al código fuente (tal como lo ha escrito el programador), de ahí que también se hable de software de código abierto. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 8: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Software de traducción automática/1 La traducción automática (TA) es especial: depende fuertemente de la existencia de datos. Hay tres componentes en cualquier sistema de TA:1 El motor o ingenio Los datos lingüísticos Las herramientas necesarias para mantener estos datos y convertirlos al formato usado por el motor 1 TA “basada en reglas”; la TA “basada en corpus” tiene requisitos análogos Mikel L. Forcada TA de código abierto para lenguas menores

Slide 9: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Software de TA/2 : TA comercial Los sistemas comerciales usan tecnologías de propiedad (proprietary) que no se revelan (se las percibe como una ventaja competitiva fundamental) Sólo se permite una modificación parcial (personalización) de los datos lingüísticos Mikel L. Forcada TA de código abierto para lenguas menores

Slide 10: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Software de TA/3: TA de código abierto Para que la TA sea de código abierto, tanto el motor, los datos como las herramientas deben ser de código abierto. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 11: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Software de TA/4: TA que no es ni comercial ni de código abierto Pero hay más posibilidades: Sistemas que pueden usarse libremente por Internet (algunos ni siquiera se comercializan). El motor y las herramientas pueden ser programas de código cerrado bien documentados, y ser usados con datos lingüísticos abiertos. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 12: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores Incrementar la “normalidad” TA comercial: oportunidades limitadas Mejorar los niveles de alfabetización Oportunidades de la TA de código abierto Efectos sobre la estandardización Retos Aumentar la “visibilidad” Ejemplo: Apertium y el aranés Conclusiones tentativas Efectos de la disponibilidad de TA sobre lenguas menores La disponibilidad de TA para una lengua menor puede incrementar su “normalidad” mejorar sus niveles de alfabetización tener un efecto en su estandarización aumentar su “visibilidad” Mikel L. Forcada TA de código abierto para lenguas menores

Slide 13: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores Incrementar la “normalidad” TA comercial: oportunidades limitadas Mejorar los niveles de alfabetización Oportunidades de la TA de código abierto Efectos sobre la estandardización Retos Aumentar la “visibilidad” Ejemplo: Apertium y el aranés Conclusiones tentativas Incrementar la “normalidad” La TA puede contribuir a la normalidad de una lengua menor: traducción de materiales educativos de una lengua importante a una menor traducción de noticias de una lengua importante para crear medios de comunicación en la lengua minoritaria las leyes, normas e informaciones gubernamentales se podrían traducir a la lengua menor más fácilmente las empresas lo tendrían más fácil para sacar al mercado nuevos productos en la lengua menor (“localización”) [Aquí se asume que la postedición de la TA en bruto es factible] Mikel L. Forcada TA de código abierto para lenguas menores

Slide 14: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores Incrementar la “normalidad” TA comercial: oportunidades limitadas Mejorar los niveles de alfabetización Oportunidades de la TA de código abierto Efectos sobre la estandardización Retos Aumentar la “visibilidad” Ejemplo: Apertium y el aranés Conclusiones tentativas Mejorar los niveles de alfabetización La disponibilidad de texto en la lengua menor (obtenido a través de traducción automática y su elaboración posterior) puede motivar la alfabetización en la lengua minoritaria Mikel L. Forcada TA de código abierto para lenguas menores

Slide 15: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores Incrementar la “normalidad” TA comercial: oportunidades limitadas Mejorar los niveles de alfabetización Oportunidades de la TA de código abierto Efectos sobre la estandardización Retos Aumentar la “visibilidad” Ejemplo: Apertium y el aranés Conclusiones tentativas Efectos sobre la estandardización La existencia de un sistema de TA de éxito puede promover un sistema particular de escritura (p.e. alfabeto romano sin diacríticos para el tamazight [= bereber]) una ortografía determinada (kreyòl asisyen [=criollo haitiano]) un dialecto concreto como estándar (variante aranesa del occitano) si se genera tecnología lingüística para ellos. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 16: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores Incrementar la “normalidad” TA comercial: oportunidades limitadas Mejorar los niveles de alfabetización Oportunidades de la TA de código abierto Efectos sobre la estandardización Retos Aumentar la “visibilidad” Ejemplo: Apertium y el aranés Conclusiones tentativas Aumentar la “visibilidad” La disponibilidad de TA desde la lengua menor a lenguas importantes puede ayudar a la difusión de material escrito originalmente en la lengua menor: por ejemplo, TA de sitios web (“al vuelo” o seguida de postedición) Mikel L. Forcada TA de código abierto para lenguas menores

Slide 17: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Sistemas de TA comerciales y lenguas menores: oportunidades limitadas Las compañías de TA suelen tener como objetivo las lenguas más importantes del mundo (existen excepciones, como el catalán, pero. . . ¿es realmente el catalán una lengua menor?) Es muy difícil adaptar sistemas comerciales cerrados a lenguas menores Mikel L. Forcada TA de código abierto para lenguas menores

Slide 18: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Oportunidades de la TA de código abierto El uso de sistemas de TA de código abierto proporciona oportunidades adicionales, además de los efectos positivos genéricos que acabo de mencionar: Aumenta la pericia y los recursos lingüísticos Aumenta la independencia Mikel L. Forcada TA de código abierto para lenguas menores

Slide 19: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Aumento de la pericia y los recursos lingüísticos La construcción de sistemas de TA de código abierto para una lengua menor comporta el crecimiento de la pericia y de los recursos lingüísticos para la lengua menor, a través de la reflexión sobre la lengua menor la elicitación (explicitación) del conocimiento lingüístico (monolingüe o bilingüe) sobre ella la codificación subsiguiente de este conocimiento El escenario de código abierto pone de manera natural el conocimiento y los recursos a disposición de la comunidad. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 20: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Caso 1: Creación desde cero de datos para un motor de TA existente Es un escenario muy desfavorable. Necesitamos: Un motor de TA de libre disposición (abierto o no). Herramientas de libre disposición (abiertas o no) para gestionar los datos lingüísticos Documentación completa sobre cómo construir datos lingüísticos para su uso con el motor y las herramientas Se deben tomar muchas decisiones lingüísticas. El síndrome del folio en blanco puede paralizar el proyecto. Si se supera, la pericia adquirida y los datos abiertos resultantes pueden ser mejorados o usados para otros fines: efecto positivo en la lengua menor. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 21: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Caso 2: Creación de datos para un motor de TA existente a partir de datos lingüísticos existentes Si se dispone de datos abiertos para otro par de lenguas similar o emparentado, el síndrome del folio en blanco se reduce dramáticamente. Se podría, por ejemplo: usar el mismo conjunto de categorías léxicas e indicadores de flexión construir reglas de flexión basándose en las ya existentes. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 22: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Caso 3: Adaptación de un motor y herramientas de TA de código abierto para un par de lenguas nuevo Si el motor y las herramientas son abiertos, se los puede modificar o adaptar para abordar características no previstas del nuevo par de lenguas: juegos de caracteres (sistema de escritura), necesidad de un análisis más profundo, etc. Más difícil que crear datos nuevos Pero los programadores no necesitan tener un control total de la lengua menor (es posible una gestión más abstracta de los aspectos lingüísticos) La rescritura del código aportaría nuevos conocimentos y recursos a la comunidad de la lengua menor. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 23: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Aumento de la independencia Disponer de un motor, de herramientas y de datos lingüísticos abiertos hace que los usuarios de una lengua menor sean menos dependientes de un único proveedor comercial de código cerrado Esto tiene un efecto análogo, no solo sobre la TA, sino también sobre otras tecnologías lingüísticas. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 24: Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Retos La creación de un sistema de traducción se enfrenta entre otros a los siguientes retos: Estandarización de la lengua menor Neutralización de actitudes tecnofóbicas Organización de una comunidad de desarrolladores Elicitación del conocimiento lingüístico Mantenimiento de la simplicidad del conocimiento lingüístico necesario. Estandarización y documentación de los formatos de los datos lingüísticos Modularidad de programas y datos. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 25: Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Estandarización de la lengua menor La traducción automática puede acelerar la estandardización de una lengua menor, pero esto tiene su lado negativo: la carencia de un sistema de escritura, ortografía o dialecto de referencia estándares es un serio reto para los desarrolladores (“síndrome del pionero”). Mikel L. Forcada TA de código abierto para lenguas menores

Slide 26: Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Neutralización de las actitudes tecnofóbicas Para tener éxito es preciso conjugar el activismo en pro de la lengua menor con un nivel adecuado de formación en tecnologías de la información Se oponen las actitudes tecnofóbicas: los eruditos de la lengua suelen desconfiar de las tecnologías por causa de una visión idealizada de la lengua y la comunicación poco aprecio por los usos informales o no literarios dar demasiado énfasis a joyas (estructuras o palabras especiales) poco probables y resistentes a la automatización en lugar de a los ladrillos (estructuras y palabras cotidianas) muy probables y automatizables. Estas adversidades “socioacadémicas” se dan (yo mismo las he experimentado). Mikel L. Forcada TA de código abierto para lenguas menores

Slide 27: Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Organización de una comunidad de desarrolladores/1 [Asumamos que sólo estamos desarollando datos lingüísticos] El código abierto hace posible que la comunidad de una lengua menor desarrolle de manera colaborativa sistemas de TA para ella. Muchas lenguas alejadas de la normalidad tienen grupos de activistas con habilidades lingüísticas y de traducción Pero el tiempo ofrecido voluntariamente y estas habilidades son necesarias pero no suficientes. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 28: Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Organización de una comunidad de desarrolladores/2 Hace falta organización: Un equipo coordinador que domine motor y herramientas, con: un director de programación (que instala, mantiene, y modifica el código del programa) un director lingüístico (que se encarga del mantenimiento de los datos lingüísticos) Un servidor web para el proyecto para distribuir la última versión del sistema donde se pueda usar en línea a través del cual los voluntarios puedan contribuir datos lingüísticos Un grupo de voluntarios bien formados, certificados por el equipo coordinador. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 29: Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Elicitación del conocimiento lingüístico El conocimiento lingüístico existente se debe hace explícito (elicitación) para poderlo aportar al sistema. La elicitación del conocimiento léxico es posible a través de interfaces (formularios) web bien diseñados que permiten proporcionar los lemas de las palabras origen y meta seleccionar el paradigma de flexión de las palabras origen y meta establecer el ámbito de una equivalencia léxica (bidireccional, de izquierda a derecha o de derecha a izquierda). La elicitación de otros tipos de conocimiento (p.ej., reglas de transferencia estructural) es más difícil (y es objeto de intensa investigación). Mikel L. Forcada TA de código abierto para lenguas menores

Slide 30: Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Simplicidad del conocimiento lingüístico necesario El nivel de conocimientos lingüísticos necesarios para empezar a construir un sistema de TA debería ser el mínimo posible (p.ej., conceptos y habilidades gramaticales básicas de bachillerato). Esto es bastante fácil en sistemas de transferencia superficial como los que se usan entre lenguas emparentadas. Pero es muy difícil (si no imposible) en sistemas de transferencia profunda (sintáctica o semántica). Una documentación bien escrita puede ser muy útil. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 31: Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Estandarización y documentación de los formatos de datos lingüísticos Una documentación adecuada del formato de los datos lingüísticos es crucial. La solución es usar XML. ¿Por qué? En XML cada elemento de los datos está explícitamente etiquetado con una marca que tiene un nombre descriptivo con un significado claro La estructura de los datos puede ser validada automáticamente con DTDs (Definiciones de tipo de documento) o similares (esquemas). Existen muchas tecnologías para XML (que convierten desde XML y a XML: interoperabilidad). Mikel L. Forcada TA de código abierto para lenguas menores

Slide 32: Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Modularidad Una de las ventajas del código abierto es la posibilidad de reutilizar el código y los datos lingüísticos para crear nuevos sistemas de TA o nuevas aplicaciones de tecnología de la lengua. Para ello, es necesaria la modularidad. Un motor modular induce modularidad en los datos que usa. Por ejemplo, tener un analizador morfológico independiente y un diccionario morfológico independiente Facilita la creación de un sistema de TA para otra lengua meta Se puede usar para crear un buscador inteligente (que busca palabras independientemente de la inflexión). Mikel L. Forcada TA de código abierto para lenguas menores

Slide 33: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Ejemplo: Apertium y el aranés/1 Apertium (www.apertium.org) es una plataforma de TA (motor y herramientas) de transferencia superficial y de código abierto creada en la Universitat d’Alacant Es especialmente adecuada para la TA entre lenguas emparentadas Viene con datos lingüísticos abiertos para es–ca, es–gl, es–pt, fr–ca, en–ca, entre otros (próximamente ro–es)2 Está siendo desarrollada en la actualidad a través de una plataforma pública (www.sourceforge.net). Se puede usar en línea. 2 es=español, ca=catalán, gl=gallego, pt=portugués, fr=francés, en=inglés, ro=rumano Mikel L. Forcada TA de código abierto para lenguas menores

Slide 34: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Ejemplo: Apertium y el aranés/2 Acabamos de publicar un nuevo par, entre: una lengua mediana (catalán, 6.000.000 hablantes) y una lengua muy pequeña (aranés, 6.000 hablantes, un dialecto estandarizado del occitano, oc, 1.000.000 hablantes?) Evaluación actual (oc–ca y ca–oc) Cobertura del texto (palabras conocidas): 95 % Tasa de error: 5 % Mikel L. Forcada TA de código abierto para lenguas menores

Slide 35: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Ejemplo: Apertium y el aranés/3 Con un sistema que tiene el 95 % de cobertura y el 5 % de error: La cantidad de texto en aranés en la web puede aumentar (visibilidad) El peso del dialecto aranés en la estandarización actualmente en marcha del occitano puede aumentar. La comunidad occitana general (la mayoría en Francia) puede crear un traductor oc–fr a partir de los datos oc–ca y ca–fr existentes. Se han hecho públicos datos abiertos de aranés, útiles para crear otras aplicaciones de tecnología lingüística. Mikel L. Forcada TA de código abierto para lenguas menores

Slide 36: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Conclusiones tentativas La TA puede tener un efecto positivo en lenguas menores (normalidad, “visibilidad”, alfabetización, estandarización) La TA de código abierto puede tener efectos específicos adicionales (aumento de la pericia lingüística, aportación de recursos reutilizables, reducción de la dependencia tecnológica). El desarrollo de TA para una lengua menor se enfrenta a bastantes retos (falta de estandardización, actitudes tecnofóbicas, elicitación del conocimiento lingüístico, necesidad de formatos estándares, modularidad). Por supuesto, estaré encantado de debatir sobre todo ello . . . Mikel L. Forcada TA de código abierto para lenguas menores

Slide 37: Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Agradecimientos Financiación parcial de: Ministerio de Ciencia y Tecnología (ayuda TIC2003-08681-C02-01) Ministerio de Industria, Turismo y Comercio (ayudas FIT-340101-2004-3 y FIT-340001-2005-2). Generalitat de Catalunya (Secretaría de Telecomunicaciones y Sociedad de la Información) Agradezco a A.M. Corbí-Bellot, M. Ginestí-Rosell, J.A. Pérez-Ortiz, G. Ramírez-Sánchez, F. Sánchez-Martínez, S. Ortiz–Rojas, C. Armentano–Oller y M.A. Scalco sus comentarios y sugerencias sobre la charla. Y a los organizadores de esta reunión por invitarme. Mikel L. Forcada TA de código abierto para lenguas menores