UA Spanish Language: presentación del trabajo lingüístico

683 views

Published on

Presentada en la "Sesión de demostración de IMPACT que tuvo lugar el 5 de octubre de 2011 en la Biblioteca Nacional de España" (BNE).

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
683
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

UA Spanish Language: presentación del trabajo lingüístico

  1. 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of theNetherlands.UA – Spanish LanguagePresentación del trabajo lingüísticoMadrid, BNE, 5 de octubre de 2011
  2. 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Índice  Universidad de Alicante  Descripción del corpus  Producción del GT  Trabajo lingüístico  Herramientas utilizadas  Resultados preliminaresMadrid, BNE, 5 de octubre de 2011 2
  3. 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Universidad de AlicanteMadrid, BNE, 5 de octubre de 2011 3
  4. 4. Universidad de Alicante IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. UA: Sede científica de la BVMC (partner de IMPACT) DLSI: Departamento de lenguajes y sistemas informáticos. Grupo de investigación Transducens creadores de Apertium.Madrid, BNE, 5 de octubre de 2011 4
  5. 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Descripción del corpusMadrid, BNE, 5 de octubre de 2011 5
  6. 6. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Selección de textos  Obras clave de los siglos XVI y XVII aportadas por la Biblioteca Nacional de España: – Principales autores del Siglo de Oro español (Cervantes, Quevedo, Góngora, Garcilaso, Calderón, Lope de Vega) – Obras de América (Inca Garcilaso de la Vega, Sor Juana Inés de la Cruz)  Diccionario de Autoridades de la Real Academia Española (Seis volúmenes publicados entre 1726 y 1739), también de la BNE.  Textos entre finales del siglo XV y el siglo XVII de la Biblioteca Virtual Miguel de CervantesMadrid, BNE, 5 de octubre de 2011 6
  7. 7. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. División del corpus  División del corpus en tres bloques: Development Evaluation Demonstration Creación de un Test de Demostración de diccionario herramientas y los resultados histórico para lexicones. obtenidos y las mejorar el herramientas reconocimiento del desarrolladas. OCR en textos antiguos.Madrid, BNE, 5 de octubre de 2011 7
  8. 8. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Impresión defectuosa y degradaciónMadrid, BNE, 5 de octubre de 2011 8
  9. 9. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Bordes estrechos, partes de la página opuesta.Madrid, BNE, 5 de octubre de 2011 9
  10. 10. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Páginas inclinadas, papel doblado, bordes visiblesMadrid, BNE, 5 de octubre de 2011 10
  11. 11. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes TransparenciasMadrid, BNE, 5 de octubre de 2011 11
  12. 12. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Manchas, sellos, notas manuscritas...Madrid, BNE, 5 de octubre de 2011 12
  13. 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Producción del GTMadrid, BNE, 5 de octubre de 2011 13
  14. 14. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Flujo de trabajo Envío a empresa Devolución aOCR imágenes externa Creación del GT cliente Control de calidad No ¿GT OK? Publicación en Sí PrIMAMadrid, BNE, 5 de octubre de 2011 14
  15. 15. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Curiosidades del GT  Reglas de acentuación en Diccionario de Autoridades  Uso del punctus elevatus  Abreviaturas y ligaduras  IdeogramasMadrid, BNE, 5 de octubre de 2011 15
  16. 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Madrid, BNE, 5 de octubre de 2011 16
  17. 17. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Punctus elevatus Madrid, BNE, 5 de octubre de 2011 17
  18. 18. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Abreviaturas y ligadurasMadrid, BNE, 5 de octubre de 2011 18
  19. 19. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ideogramas ♃ ♌ ♉ ♎Madrid, BNE, 5 de octubre de 2011 19
  20. 20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Trabajo lingüísticoMadrid, BNE, 5 de octubre de 2011 20
  21. 21. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Tareas de la UA  Épocas estudiadas: Siglos XVI y XVII (Siglo de Oro español) OCR (Optical Character Recognition)  Construcción de los lexicones IR (Information Retrieval)  Reglas de variación  Lematización del corpus  Apertium usado como base del lexicónMadrid, BNE, 5 de octubre de 2011 21
  22. 22. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver Palabras que han desaparecido: arcaz (arca) Palabras cortadas: to-do, conven-to, in-genio, cla-ra, humani-dád Palabras en latín: quid, haec, aliquid, sum Nombres propios: Quixote, Garcilasso, Rosimunda, Lope Errores de impresión Uso de apóstrofes: daver, ascala Dos formas antiguas, una moderna: al rededor – alrededor Una forma antigua, dos modernas: dél – de él Uso de s larga: ſ ſ f Abreviaturas Ligaduras Espacios Cambios en la flexión verbalMadrid, BNE, 5 de octubre de 2011 22
  23. 23. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver Flexión verbal. Ejemplo: Verbo haber a, à, abemos, abia, abrá, abrás, abré, abrè, abréis, Abrète, abreys, abria, abría, As, auedes, auerla, auerlas, auerle, auerles, auerlo, auerlos, auerme, auernos, aueros, auerse, auersela, auerte, aués, Aueys, auia, auiamos, auías, Auiase, Auiendo, auiendola, auiendole, auiendome, auiendose, auiendosele, auiendote, Aura, aurá, aurà, auran, auras, aurás, aure, aureis, auremos, aureys, aurian, avéis, avemos, averla, averle, averlo, averme, averse, avéys, avia, avido, aviendo, avrà, avrán, avré, avréis, avremos, avría, Aya, ayais, ayan, ayays, daver, dhaver, eis, emos, Habéis, habemos, haberlo, haberme, haberse, haberte, habés, habíades, habían, habías, habido, habiendo, habiéndole, habiendome, habiéndome, habiéndote, habrá, habrán, habrás, habré, habréis, habremos, habría, hai, hala, hale, halo, hame, han, han, hanlo, hanme, hanse, hante, has, hase, Hasle, hasme, haste, hate, hauemos, hauerla, hauerme, hauernos, hauerte, haués, haueys, hauía, hauiamos, hauían, hauido, hauiendo, hauiendose, haurá, haurás, havella, havelle, havello, havemos, haverme, haverse, haverte, havéys, havíamos, havían, havías, haviendo, havrá, havré, hayáis, hayan, hayas, he, hela, hele, helo, heme, Hemos, hete, houe, houo, hoviera, hube, hubiera, hubiere, hubiese, hubo, huue, huuierades, huuieras, huuieredes, huuieren, huuieron, huuiesle, huuiessen, huve, huvieran, huvieras, huviere, huviessen, huvo, ouiesse, ovieron, ovo, uuo, uve, uviera, uviere, uviese, uviesse, uvo, vuiera, vuiesse, vuo...Madrid, BNE, 5 de octubre de 2011 23
  24. 24. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolverMadrid, BNE, 5 de octubre de 2011 24
  25. 25. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolverMadrid, BNE, 5 de octubre de 2011 25
  26. 26. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolverMadrid, BNE, 5 de octubre de 2011 26
  27. 27. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Variación ortográfica  Grupos consonánticos: subjeto – sujeto, subtil – sutil, presumpcion – presunción  Ruptura de diptongo con h en lugar de acento: ohir – oír  u v: nueuo – nuevo, Otauio – Octavio, vno – uno, anduuieron – anduvieron  Caída de la d final del imperativo: volvé – volved  Variación en la conjugación: aurà – habrá, fuerades – fuerais, ocupavan – ocupaban  Uso de ç: feroçe – feroz, çapatos – zapatos, çielo – cielo  Variación vocálica: malencolico – melancólico, mesmo – mismo, escuro – oscuro  Consonantes duplicadas: offender – ofender, assi – así, rromano – romano  Variación en los acentos: secréto – secreto, segúro – seguro, abalançò – abalanzóMadrid, BNE, 5 de octubre de 2011 27
  28. 28. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Herramientas utilizadasMadrid, BNE, 5 de octubre de 2011 28
  29. 29. Herramientas utilizadas IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. AletheiaMadrid, BNE, 5 de octubre de 2011 29
  30. 30. Herramientas utilizadas IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Lexicon ToolMadrid, BNE, 5 de octubre de 2011 30
  31. 31. Herramientas utilizadas IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. TavernaMadrid, BNE, 5 de octubre de 2011 31
  32. 32. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Resultados preliminaresMadrid, BNE, 5 de octubre de 2011 32
  33. 33. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Datos del lexicón  Dividido en diferentes corpus: – Corpus BVMC – GT – Development – Diccionario Autoridades – IR Evaluation  Cifras del lexicón: – Lexicón OCR: • 5,617,815 palabras. • 334,157 palabras distintas. – Lexicón IR: • 582,386 palabras analizadas. • 34,296 palabras distintas analizadas. • 12,360 lemas analizados.Madrid, BNE, 5 de octubre de 2011 33
  34. 34. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Métricas  Precisión (p) y Cobertura (c): – Precisión: Porcentaje de palabras que ha acertado de las que ha reconocido. – Cobertura: Porcentaje de palabras que ha acertado de las que debería haber reconocido – Ejemplo con precisión 0.25 y cobertura 0.5 • Estaba en hora buena (resultado OCR) • Estaba enhorabuena (texto original)  False friend: Error del OCR cuyo resultado coincide con una palabra del diccionario.Madrid, BNE, 5 de octubre de 2011 34
  35. 35. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Resultados Con el diccionario interno “OldSpanish” de Finereader Precisión: 0.76 , Cobertura: 0.72 Con el lexicón histórico de español Precisión: 0.79 , Cobertura: 0.76 100 90 79,68 81,66 80 75,97 75,78 77,48 78,1 75,03 73,38 71,65 70,47 Cobertura Lexicón 70 65,1 Histórico 59,95 Cobertura Diccionario 60 Interno 50 40 30 20 10 0 Sor Juana Inca Quevedo Boscán Lope LazarilloMadrid, BNE, 5 de octubre de 2011 35
  36. 36. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Resultados Imagen: 00438810 Fuente: Obras de Garcilasso de la Vega Diccionario interno: (p= 76% , c= 69% )  Añadiendo diccionario externo: (p= 85% , c= 78% )Madrid, BNE, 5 de octubre de 2011 36
  37. 37. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.GARCILASSO; 3« Garcilasso;«jue hara el enemigo? que hara el enemigo?Salid sin duelo lagrimal corriendo. Salid sin duelo lagrimal corriendo.Porti el silencio déla selua vmbrosa, Porti el silencio dela selua vmbrosa,por ti la esquiuidad,y apartamiento por ti la esquiuidad,y apartamientodel solitario monte me agradaua: del solitario monte me agradaua:porti la verdeyerua,y fresco viento,1 porti la verde yerua,y fresco viento,elhlanco lirio,y colorada rosa, elblanco lirio,y colorada rosa,y dulce Priipauera desteaua. y dulce Primauera Desseaua.Ayquantomeengañaua, Ay quanto me engañaua,ay quan diferente era, ay quan diferente era,y quan de otra manera, y quan de otra manera,lo que en tu falso pecho se escondía? lo que en tu falso pecho se escondía?bien claro qcn su voz me lo dczia bien claro qcn su voz me lo deziala siniestra corneja, repitiendo 8$ la siniestra corneja, repitiendo 8$ladefuentura mia, la desuentura mia,Salid sin duelo lagrimas corriendo. Salid sin duelo lagrimas corriendo.Quantas vezes durmiendo en la floresta Quantas vezes durmiendo enla floresta(reputando yo por desuario) (reputando yo por desuario)vi mi mal entre sueños desdic hados vi mi mal entre sueños desdic hadosSoñaua que en el tiempo del Estío Soñaua que en el tiempo del Estiplleuaua,por pastar aiii la siesta, lleuaua,por passar alli la siesta,a beuer en el Tajo mi ganado: a beuer en el Tajo mi ganado:y despucs de llegado, Negrita: error y despues de llegado,fin saber de quai arte, Subrayado: False friend jón saber de qual arte,Madrid, BNE, 5 de octubre de 2011 37
  38. 38. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. UA – Spanish LanguageMadrid, BNE, 5 de octubre de 2011 38

×