Presentation introducing Universidad de Alicante’s work regarding Spanish language presented by Isabel Martínez during demo session held at the BNE 5th of October 2011.
1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
UA – Spanish Language
Presentación del trabajo lingüístico
Madrid, BNE, 5 de octubre de 2011
2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Índice
Universidad de Alicante
Descripción del corpus
Producción del GT
Trabajo lingüístico
Herramientas utilizadas
Resultados preliminares
Madrid, BNE, 5 de octubre de 2011 2
3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Universidad de Alicante
Madrid, BNE, 5 de octubre de 2011 3
4. Universidad de Alicante
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
UA: Sede científica de la BVMC (partner de
IMPACT)
DLSI: Departamento de lenguajes y sistemas
informáticos. Grupo de investigación
Transducens creadores de Apertium.
Madrid, BNE, 5 de octubre de 2011 4
5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Descripción del corpus
Madrid, BNE, 5 de octubre de 2011 5
6. Descripción del corpus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Selección de textos
Obras clave de los siglos XVI y XVII aportadas por la Biblioteca
Nacional de España:
– Principales autores del Siglo de Oro español (Cervantes, Quevedo,
Góngora, Garcilaso, Calderón, Lope de Vega)
– Obras de América (Inca Garcilaso de la Vega, Sor Juana Inés de la Cruz)
Diccionario de Autoridades de la Real Academia Española (Seis
volúmenes publicados entre 1726 y 1739), también de la BNE.
Textos entre finales del siglo XV y el siglo XVII de la Biblioteca
Virtual Miguel de Cervantes
Madrid, BNE, 5 de octubre de 2011 6
7. Descripción del corpus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
División del corpus
División del corpus en tres bloques:
Development Evaluation Demonstration
Creación de un Test de Demostración de
diccionario herramientas y los resultados
histórico para lexicones. obtenidos y las
mejorar el herramientas
reconocimiento del desarrolladas.
OCR en textos
antiguos.
Madrid, BNE, 5 de octubre de 2011 7
8. Descripción del corpus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
“Defectos” de las imágenes
Impresión defectuosa y degradación
Madrid, BNE, 5 de octubre de 2011 8
9. Descripción del corpus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
“Defectos” de las imágenes
Bordes estrechos, partes de la página opuesta.
Madrid, BNE, 5 de octubre de 2011 9
10. Descripción del corpus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
“Defectos” de las imágenes
Páginas inclinadas, papel doblado, bordes visibles
Madrid, BNE, 5 de octubre de 2011 10
11. Descripción del corpus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
“Defectos” de las imágenes
Transparencias
Madrid, BNE, 5 de octubre de 2011 11
12. Descripción del corpus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
“Defectos” de las imágenes
Manchas, sellos, notas manuscritas...
Madrid, BNE, 5 de octubre de 2011 12
13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Producción del GT
Madrid, BNE, 5 de octubre de 2011 13
14. Producción del GT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Flujo de trabajo
Envío a empresa Devolución a
OCR imágenes externa Creación del GT cliente Control de calidad
No
¿GT OK?
Publicación en Sí
PrIMA
Madrid, BNE, 5 de octubre de 2011 14
15. Producción del GT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Curiosidades del GT
Reglas de acentuación en Diccionario de Autoridades
Uso del punctus elevatus
Abreviaturas y ligaduras
Ideogramas
Madrid, BNE, 5 de octubre de 2011 15
16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Madrid, BNE, 5 de octubre de 2011 16
17. Producción del GT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Punctus elevatus
Madrid, BNE, 5 de octubre de 2011 17
18. Producción del GT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Abreviaturas y ligaduras
Madrid, BNE, 5 de octubre de 2011 18
19. Producción del GT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Ideogramas
♃ ♌
♉ ♎
Madrid, BNE, 5 de octubre de 2011 19
20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Trabajo lingüístico
Madrid, BNE, 5 de octubre de 2011 20
21. Trabajo lingüístico
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Tareas de la UA
Épocas estudiadas: Siglos XVI y XVII (Siglo de Oro español)
OCR (Optical Character Recognition)
Construcción de los lexicones
IR (Information Retrieval)
Reglas de variación
Lematización del corpus
Apertium usado como base del lexicón
Madrid, BNE, 5 de octubre de 2011 21
22. Trabajo lingüístico
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Dificultades a resolver
Palabras que han desaparecido: arcaz (arca)
Palabras cortadas: to-do, conven-to, in-genio, cla-ra, humani-dád
Palabras en latín: quid, haec, aliquid, sum
Nombres propios: Quixote, Garcilasso, Rosimunda, Lope
Errores de impresión
Uso de apóstrofes: d'aver, a'scala
Dos formas antiguas, una moderna: al rededor – alrededor
Una forma antigua, dos modernas: dél – de él
Uso de 's' larga: 'ſ'
ſ f
Abreviaturas
Ligaduras
Espacios
Cambios en la flexión verbal
Madrid, BNE, 5 de octubre de 2011 22
24. Trabajo lingüístico
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Dificultades a resolver
Madrid, BNE, 5 de octubre de 2011 24
25. Trabajo lingüístico
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Dificultades a resolver
Madrid, BNE, 5 de octubre de 2011 25
26. Trabajo lingüístico
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Dificultades a resolver
Madrid, BNE, 5 de octubre de 2011 26
27. Trabajo lingüístico
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Variación ortográfica
Grupos consonánticos: subjeto – sujeto, subtil – sutil, presumpcion – presunción
Ruptura de diptongo con 'h' en lugar de acento: ohir – oír
'u' 'v': nueuo – nuevo, Otauio – Octavio, vno – uno, anduuieron – anduvieron
Caída de la 'd' final del imperativo: volvé – volved
Variación en la conjugación: aurà – habrá, fuerades – fuerais, ocupavan – ocupaban
Uso de 'ç': feroçe – feroz, çapatos – zapatos, çielo – cielo
Variación vocálica: malencolico – melancólico, mesmo – mismo, escuro – oscuro
Consonantes duplicadas: offender – ofender, assi – así, rromano – romano
Variación en los acentos: secréto – secreto, segúro – seguro, abalançò – abalanzó
Madrid, BNE, 5 de octubre de 2011 27
28. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Herramientas utilizadas
Madrid, BNE, 5 de octubre de 2011 28
29. Herramientas utilizadas
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Aletheia
Madrid, BNE, 5 de octubre de 2011 29
30. Herramientas utilizadas
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Lexicon Tool
Madrid, BNE, 5 de octubre de 2011 30
31. Herramientas utilizadas
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Taverna
Madrid, BNE, 5 de octubre de 2011 31
32. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Resultados preliminares
Madrid, BNE, 5 de octubre de 2011 32
33. Resultados preliminares
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Datos del lexicón
Dividido en diferentes corpus:
– Corpus BVMC
– GT – Development
– Diccionario Autoridades
– IR Evaluation
Cifras del lexicón:
– Lexicón OCR:
• 5,617,815 palabras.
• 334,157 palabras distintas.
– Lexicón IR:
• 582,386 palabras analizadas.
• 34,296 palabras distintas analizadas.
• 12,360 lemas analizados.
Madrid, BNE, 5 de octubre de 2011 33
34. Resultados preliminares
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Métricas
Precisión (p) y Cobertura (c):
– Precisión: Porcentaje de palabras que ha acertado de las que ha
reconocido.
– Cobertura: Porcentaje de palabras que ha acertado de las que
debería haber reconocido
– Ejemplo con precisión 0.25 y cobertura 0.5
• Estaba en hora buena (resultado OCR)
• Estaba enhorabuena (texto original)
False friend: Error del OCR cuyo resultado coincide con una
palabra del diccionario.
Madrid, BNE, 5 de octubre de 2011 34
35. Resultados preliminares
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Resultados
Con el diccionario interno “OldSpanish” de Finereader
Precisión: 0.76 , Cobertura: 0.72
Con el lexicón histórico de español
Precisión: 0.79 , Cobertura: 0.76
100
90
79,68 81,66
80 75,97 75,78 77,48 78,1
75,03 73,38
71,65 70,47 Cobertura Lexicón
70 65,1 Histórico
59,95 Cobertura Diccionario
60 Interno
50
40
30
20
10
0
Sor Juana Inca Quevedo Boscán Lope Lazarillo
Madrid, BNE, 5 de octubre de 2011 35
36. Resultados preliminares
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
Resultados
Imagen: 00438810
Fuente: Obras de Garcilasso de la Vega
Diccionario interno:
(p= 76% , c= 69% )
Añadiendo diccionario externo:
(p= 85% , c= 78% )
Madrid, BNE, 5 de octubre de 2011 36
37. Resultados preliminares
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
GARCILASSO; 3« Garcilasso;
«jue hara el enemigo? que hara el enemigo?
Salid sin duelo lagrimal corriendo. Salid sin duelo lagrimal corriendo.
Porti el silencio déla selua vmbrosa, Porti el silencio dela selua vmbrosa,
por ti la esquiuidad,y apartamiento por ti la esquiuidad,y apartamiento
del solitario monte me agradaua: del solitario monte me agradaua:
porti la verdeyerua,y fresco viento,1 porti la verde yerua,y fresco viento,
elhlanco lirio,y colorada rosa, elblanco lirio,y colorada rosa,
y dulce Priipauera desteaua. y dulce Primauera Desseaua.
Ayquantomeengañaua, Ay quanto me engañaua,
ay quan diferente era, ay quan diferente era,
y quan de otra manera, y quan de otra manera,
lo que en tu falso pecho se escondía? lo que en tu falso pecho se escondía?
bien claro qcn su voz me lo dczia bien claro qcn su voz me lo dezia
la siniestra corneja, repitiendo 8$ la siniestra corneja, repitiendo 8$
ladefuentura mia, la desuentura mia,
Salid sin duelo lagrimas corriendo. Salid sin duelo lagrimas corriendo.
Quantas vezes durmiendo en la floresta Quantas vezes durmiendo enla floresta
(reputando yo por desuario) (reputando yo por desuario)
vi mi mal entre sueños desdic hados vi mi mal entre sueños desdic hados
Soñaua que en el tiempo del Estío Soñaua que en el tiempo del Estip
lleuaua,por pastar aiii la siesta, lleuaua,por passar alli la siesta,
a beuer en el Tajo mi ganado: a beuer en el Tajo mi ganado:
y despucs de llegado, Negrita: error y despues de llegado,
fin saber de quai arte, Subrayado: False friend jón saber de qual arte,
Madrid, BNE, 5 de octubre de 2011 37
38. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.
UA – Spanish Language
Madrid, BNE, 5 de octubre de 2011 38