SlideShare una empresa de Scribd logo
1 de 38
Descargar para leer sin conexión
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
Netherlands.




UA – Spanish Language
Presentación del trabajo lingüístico



Madrid, BNE, 5 de octubre de 2011
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
          Netherlands.




       Índice
            Universidad de Alicante
            Descripción del corpus
            Producción del GT
            Trabajo lingüístico
            Herramientas utilizadas
            Resultados preliminares




Madrid, BNE, 5 de octubre de 2011                                                                                                                     2
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                 Universidad de Alicante




Madrid, BNE, 5 de octubre de 2011                                                                                                                   3
Universidad de Alicante
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                                                      UA: Sede científica de la BVMC (partner de
                                                        IMPACT)

                                                      DLSI: Departamento de lenguajes y sistemas
                                                        informáticos. Grupo de investigación
                                                        Transducens creadores de Apertium.




Madrid, BNE, 5 de octubre de 2011                                                                                                                   4
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                   Descripción del corpus




Madrid, BNE, 5 de octubre de 2011                                                                                                                   5
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Selección de textos

      Obras clave de los siglos XVI y XVII aportadas por la Biblioteca
       Nacional de España:
             – Principales autores del Siglo de Oro español (Cervantes, Quevedo,
               Góngora, Garcilaso, Calderón, Lope de Vega)
             – Obras de América (Inca Garcilaso de la Vega, Sor Juana Inés de la Cruz)

      Diccionario de Autoridades de la Real Academia Española (Seis
       volúmenes publicados entre 1726 y 1739), también de la BNE.
      Textos entre finales del siglo XV y el siglo XVII de la Biblioteca
       Virtual Miguel de Cervantes


Madrid, BNE, 5 de octubre de 2011                                                                                                                   6
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




  División del corpus
    División del corpus en tres bloques:



        Development                                             Evaluation                                      Demonstration
       Creación de un                                           Test de                                        Demostración de
         diccionario                                        herramientas y                                      los resultados
        histórico para                                        lexicones.                                        obtenidos y las
          mejorar el                                                                                             herramientas
     reconocimiento del                                                                                         desarrolladas.
       OCR en textos
          antiguos.



Madrid, BNE, 5 de octubre de 2011                                                                                                                   7
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




       “Defectos” de las imágenes
         Impresión defectuosa y degradación




Madrid, BNE, 5 de octubre de 2011                                                                                                                   8
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




       “Defectos” de las imágenes
        Bordes estrechos, partes de la página opuesta.




Madrid, BNE, 5 de octubre de 2011                                                                                                                   9
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




       “Defectos” de las imágenes
        Páginas inclinadas, papel doblado, bordes visibles




Madrid, BNE, 5 de octubre de 2011                                                                                                                   10
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




       “Defectos” de las imágenes
        Transparencias




Madrid, BNE, 5 de octubre de 2011                                                                                                                   11
Descripción del corpus
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




       “Defectos” de las imágenes
        Manchas, sellos, notas manuscritas...




Madrid, BNE, 5 de octubre de 2011                                                                                                                   12
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                                    Producción del GT




Madrid, BNE, 5 de octubre de 2011                                                                                                                   13
Producción del GT
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.



    Flujo de trabajo

                                Envío a empresa                                                Devolución a
OCR imágenes                        externa                 Creación del GT                      cliente               Control de calidad




                                                                                                    No
                                                                                                                               ¿GT OK?



                                                                        Publicación en                                  Sí

                                                                           PrIMA


Madrid, BNE, 5 de octubre de 2011                                                                                                                   14
Producción del GT
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




    Curiosidades del GT

      Reglas de acentuación en Diccionario de Autoridades
      Uso del punctus elevatus
      Abreviaturas y ligaduras
      Ideogramas




Madrid, BNE, 5 de octubre de 2011                                                                                                                   15
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




Madrid, BNE, 5 de octubre de 2011                                                                                                                   16
Producción del GT
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




    Punctus elevatus




                 
Madrid, BNE, 5 de octubre de 2011                                                                                                                   17
Producción del GT
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.



    Abreviaturas y ligaduras




Madrid, BNE, 5 de octubre de 2011                                                                                                                   18
Producción del GT
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




    Ideogramas




 ♃                                                                             ♌

   ♉                                                                           ♎
Madrid, BNE, 5 de octubre de 2011                                                                                                                   19
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                                   Trabajo lingüístico




Madrid, BNE, 5 de octubre de 2011                                                                                                                   20
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Tareas de la UA
      Épocas estudiadas: Siglos XVI y XVII (Siglo de Oro español)
                                                                               OCR (Optical Character Recognition)
      Construcción de los lexicones
                                                                               IR (Information Retrieval)
      Reglas de variación

      Lematización del corpus

      Apertium usado como base del lexicón




Madrid, BNE, 5 de octubre de 2011                                                                                                                   21
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Dificultades a resolver
 Palabras que han desaparecido: arcaz (arca)
 Palabras cortadas: to-do, conven-to, in-genio, cla-ra, humani-dád
 Palabras en latín: quid, haec, aliquid, sum
 Nombres propios: Quixote, Garcilasso, Rosimunda, Lope
 Errores de impresión
 Uso de apóstrofes: d'aver, a'scala
 Dos formas antiguas, una moderna: al rededor – alrededor
 Una forma antigua, dos modernas: dél – de él
 Uso de 's' larga: 'ſ'




                                                                                                          ſ f
 Abreviaturas
 Ligaduras
 Espacios
 Cambios en la flexión verbal

Madrid, BNE, 5 de octubre de 2011                                                                                                                   22
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Dificultades a resolver
    Flexión verbal. Ejemplo: Verbo 'haber'
      a, à, abemos, abia, abrá, abrás, abré, abrè, abréis, Abrète, abreys, abria, abría, As, auedes, auerla,
      auerlas, auerle, auerles, auerlo, auerlos, auerme, auernos, aueros, auerse, auersela, auerte, aués,
      Aueys, auia, auiamos, auías, Auiase, Auiendo, auiendola, auiendole, auiendome, auiendose,
      auiendosele, auiendote, Aura, aurá, aurà, auran, auras, aurás, aure, aureis, auremos, aureys, aurian,
      avéis, avemos, averla, averle, averlo, averme, averse, avéys, avia, avido, aviendo, avrà, avrán, avré,
      avréis, avremos, avría, Aya, ayais, ayan, ayays, d'aver, d'haver, eis, emos, Habéis, habemos,
      haberlo, haberme, haberse, haberte, habés, habíades, habían, habías, habido, habiendo, habiéndole,
      habiendome, habiéndome, habiéndote, habrá, habrán, habrás, habré, habréis, habremos, habría, hai,
      hala, hale, halo, hame, han, han, hanlo, hanme, hanse, hante, has, hase, Hasle, hasme, haste, hate,
      hauemos, hauerla, hauerme, hauernos, hauerte, haués, haueys, hauía, hauiamos, hauían, hauido,
      hauiendo, hauiendose, haurá, haurás, havella, havelle, havello, havemos, haverme, haverse,
      haverte, havéys, havíamos, havían, havías, haviendo, havrá, havré, hayáis, hayan, hayas, he, hela,
      hele, helo, heme, Hemos, hete, houe, houo, hoviera, hube, hubiera, hubiere, hubiese, hubo,
      huue, huuierades, huuieras, huuieredes, huuieren, huuieron, huuiesle, huuiessen, huve, huvieran,
      huvieras, huviere, huviessen, huvo, ouiesse, ovieron, ovo, uuo, uve, uviera, uviere, uviese,
      uviesse, uvo, vuiera, vuiesse,                vuo...

Madrid, BNE, 5 de octubre de 2011                                                                                                                   23
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.



   Dificultades a resolver




Madrid, BNE, 5 de octubre de 2011                                                                                                                   24
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.



   Dificultades a resolver




Madrid, BNE, 5 de octubre de 2011                                                                                                                   25
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.



   Dificultades a resolver




Madrid, BNE, 5 de octubre de 2011                                                                                                                   26
Trabajo lingüístico
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Variación ortográfica
      Grupos consonánticos: subjeto – sujeto, subtil – sutil, presumpcion – presunción
      Ruptura de diptongo con 'h' en lugar de acento: ohir – oír
      'u'       'v': nueuo – nuevo, Otauio – Octavio, vno – uno, anduuieron – anduvieron
      Caída de la 'd' final del imperativo: volvé – volved
      Variación en la conjugación: aurà – habrá, fuerades – fuerais, ocupavan – ocupaban
      Uso de 'ç': feroçe – feroz, çapatos – zapatos, çielo – cielo
      Variación vocálica: malencolico – melancólico, mesmo – mismo, escuro – oscuro
      Consonantes duplicadas: offender – ofender, assi – así, rromano – romano
      Variación en los acentos: secréto – secreto, segúro – seguro, abalançò – abalanzó



Madrid, BNE, 5 de octubre de 2011                                                                                                                   27
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                 Herramientas utilizadas




Madrid, BNE, 5 de octubre de 2011                                                                                                                   28
Herramientas utilizadas
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.


   Aletheia




Madrid, BNE, 5 de octubre de 2011                                                                                                                   29
Herramientas utilizadas
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.


   Lexicon Tool




Madrid, BNE, 5 de octubre de 2011                                                                                                                   30
Herramientas utilizadas
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.


   Taverna




Madrid, BNE, 5 de octubre de 2011                                                                                                                   31
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                Resultados preliminares




Madrid, BNE, 5 de octubre de 2011                                                                                                                   32
Resultados preliminares
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Datos del lexicón
      Dividido en diferentes corpus:
                   –   Corpus BVMC
                   –   GT – Development
                   –   Diccionario Autoridades
                   –   IR Evaluation
      Cifras del lexicón:
                   – Lexicón OCR:
                                 • 5,617,815 palabras.
                                 • 334,157 palabras distintas.
                   – Lexicón IR:
                                 • 582,386 palabras analizadas.
                                 • 34,296 palabras distintas analizadas.
                                 • 12,360 lemas analizados.


Madrid, BNE, 5 de octubre de 2011                                                                                                                   33
Resultados preliminares
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Métricas
      Precisión (p) y Cobertura (c):
                     – Precisión: Porcentaje de palabras que ha acertado de las que ha
                          reconocido.
                     – Cobertura: Porcentaje de palabras que ha acertado de las que
                          debería haber reconocido
                     – Ejemplo con precisión 0.25 y cobertura 0.5
                                      • Estaba en hora buena (resultado OCR)
                                      • Estaba enhorabuena (texto original)

      False friend: Error del OCR cuyo resultado coincide con una
       palabra del diccionario.



Madrid, BNE, 5 de octubre de 2011                                                                                                                   34
Resultados preliminares
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Resultados
       Con el diccionario interno “OldSpanish” de Finereader
           Precisión: 0.76 , Cobertura: 0.72
       Con el lexicón histórico de español
               Precisión: 0.79 , Cobertura: 0.76
     100

      90
                                              79,68                                              81,66
      80                     75,97                    75,78                     77,48                    78,1
            75,03                                                                       73,38
                    71,65            70,47                                                                                  Cobertura Lexicón
      70                                                       65,1                                                         Histórico
                                                                      59,95                                                 Cobertura Diccionario
      60                                                                                                                    Interno
      50

      40

      30

      20

      10

       0
             Sor Juana           Inca          Quevedo           Boscán             Lope           Lazarillo
Madrid, BNE, 5 de octubre de 2011                                                                                                                   35
Resultados preliminares
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




   Resultados

 Imagen: 00438810

 Fuente: Obras de Garcilasso de la Vega

 Diccionario interno:
 (p= 76% , c= 69% ) 
 Añadiendo diccionario externo:
 (p= 85% , c= 78% )




Madrid, BNE, 5 de octubre de 2011                                                                                                                   36
Resultados preliminares
        IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.

GARCILASSO; 3«                                                                                     Garcilasso;
«jue hara el enemigo?                                                                              que hara el enemigo?
Salid sin duelo lagrimal corriendo.                                                                Salid sin duelo lagrimal corriendo.
Porti el silencio déla selua vmbrosa,                                                              Porti el silencio dela selua vmbrosa,
por ti la esquiuidad,y apartamiento                                                                por ti la esquiuidad,y apartamiento
del solitario monte me agradaua:                                                                   del solitario monte me agradaua:
porti la verdeyerua,y fresco viento,1                                                              porti la verde yerua,y fresco viento,
elhlanco lirio,y colorada rosa,                                                                    elblanco lirio,y colorada rosa,
y dulce Priipauera desteaua.                                                                       y dulce Primauera Desseaua.
Ayquantomeengañaua,                                                                                Ay quanto me engañaua,
ay quan diferente era,                                                                             ay quan diferente era,
y quan de otra manera,                                                                             y quan de otra manera,
lo que en tu falso pecho se escondía?                                                              lo que en tu falso pecho se escondía?
bien claro qcn su voz me lo dczia                                                                  bien claro qcn su voz me lo dezia
la siniestra corneja, repitiendo 8$                                                                la siniestra corneja, repitiendo 8$
ladefuentura mia,                                                                                  la desuentura mia,
Salid sin duelo lagrimas corriendo.                                                                Salid sin duelo lagrimas corriendo.
Quantas vezes durmiendo en la floresta                                                             Quantas vezes durmiendo enla floresta
(reputando yo por desuario)                                                                        (reputando yo por desuario)
vi mi mal entre sueños desdic hados                                                                vi mi mal entre sueños desdic hados
Soñaua que en el tiempo del Estío                                                                  Soñaua que en el tiempo del Estip
lleuaua,por pastar aiii la siesta,                                                                 lleuaua,por passar alli la siesta,
a beuer en el Tajo mi ganado:                                                                      a beuer en el Tajo mi ganado:
y despucs de llegado,                 Negrita: error                                               y despues de llegado,
fin saber de quai arte,               Subrayado: False friend                                      jón saber de qual arte,
Madrid, BNE, 5 de octubre de 2011                                                                                                                   37
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the
        Netherlands.




                             UA – Spanish Language




Madrid, BNE, 5 de octubre de 2011                                                                                                                   38

Más contenido relacionado

Más de IMPACT Centre of Competence

Más de IMPACT Centre of Competence (20)

Session6 01.helmut schmid
Session6 01.helmut schmidSession6 01.helmut schmid
Session6 01.helmut schmid
 
Session1 03.hsian-an wang
Session1 03.hsian-an wangSession1 03.hsian-an wang
Session1 03.hsian-an wang
 
Session7 03.katrien depuydt
Session7 03.katrien depuydtSession7 03.katrien depuydt
Session7 03.katrien depuydt
 
Session7 02.peter kiraly
Session7 02.peter kiralySession7 02.peter kiraly
Session7 02.peter kiraly
 
Session6 04.giuseppe celano
Session6 04.giuseppe celanoSession6 04.giuseppe celano
Session6 04.giuseppe celano
 
Session6 03.sandra young
Session6 03.sandra youngSession6 03.sandra young
Session6 03.sandra young
 
Session6 02.jeremi ochab
Session6 02.jeremi ochabSession6 02.jeremi ochab
Session6 02.jeremi ochab
 
Session5 04.evangelos varthis
Session5 04.evangelos varthisSession5 04.evangelos varthis
Session5 04.evangelos varthis
 
Session5 03.george rehm
Session5 03.george rehmSession5 03.george rehm
Session5 03.george rehm
 
Session5 02.tom derrick
Session5 02.tom derrickSession5 02.tom derrick
Session5 02.tom derrick
 
Session5 01.rutger vankoert
Session5 01.rutger vankoertSession5 01.rutger vankoert
Session5 01.rutger vankoert
 
Session4 04.senka drobac
Session4 04.senka drobacSession4 04.senka drobac
Session4 04.senka drobac
 
Session3 04.arnau baro
Session3 04.arnau baroSession3 04.arnau baro
Session3 04.arnau baro
 
Session3 03.christian clausner
Session3 03.christian clausnerSession3 03.christian clausner
Session3 03.christian clausner
 
Session3 02.kimmo ketunnen
Session3 02.kimmo ketunnenSession3 02.kimmo ketunnen
Session3 02.kimmo ketunnen
 
Session3 01.clemens neudecker
Session3 01.clemens neudeckerSession3 01.clemens neudecker
Session3 01.clemens neudecker
 
Session2 04.ashkan ashkpour
Session2 04.ashkan ashkpourSession2 04.ashkan ashkpour
Session2 04.ashkan ashkpour
 
Session2 03.juri opitz
Session2 03.juri opitzSession2 03.juri opitz
Session2 03.juri opitz
 
Session2 02.christian reul
Session2 02.christian reulSession2 02.christian reul
Session2 02.christian reul
 
Session2 01.emad mohamed
Session2 01.emad mohamedSession2 01.emad mohamed
Session2 01.emad mohamed
 

Spanish language 111005

  • 1. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. UA – Spanish Language Presentación del trabajo lingüístico Madrid, BNE, 5 de octubre de 2011
  • 2. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Índice  Universidad de Alicante  Descripción del corpus  Producción del GT  Trabajo lingüístico  Herramientas utilizadas  Resultados preliminares Madrid, BNE, 5 de octubre de 2011 2
  • 3. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Universidad de Alicante Madrid, BNE, 5 de octubre de 2011 3
  • 4. Universidad de Alicante IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. UA: Sede científica de la BVMC (partner de IMPACT) DLSI: Departamento de lenguajes y sistemas informáticos. Grupo de investigación Transducens creadores de Apertium. Madrid, BNE, 5 de octubre de 2011 4
  • 5. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Descripción del corpus Madrid, BNE, 5 de octubre de 2011 5
  • 6. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Selección de textos  Obras clave de los siglos XVI y XVII aportadas por la Biblioteca Nacional de España: – Principales autores del Siglo de Oro español (Cervantes, Quevedo, Góngora, Garcilaso, Calderón, Lope de Vega) – Obras de América (Inca Garcilaso de la Vega, Sor Juana Inés de la Cruz)  Diccionario de Autoridades de la Real Academia Española (Seis volúmenes publicados entre 1726 y 1739), también de la BNE.  Textos entre finales del siglo XV y el siglo XVII de la Biblioteca Virtual Miguel de Cervantes Madrid, BNE, 5 de octubre de 2011 6
  • 7. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. División del corpus  División del corpus en tres bloques: Development Evaluation Demonstration Creación de un Test de Demostración de diccionario herramientas y los resultados histórico para lexicones. obtenidos y las mejorar el herramientas reconocimiento del desarrolladas. OCR en textos antiguos. Madrid, BNE, 5 de octubre de 2011 7
  • 8. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Impresión defectuosa y degradación Madrid, BNE, 5 de octubre de 2011 8
  • 9. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Bordes estrechos, partes de la página opuesta. Madrid, BNE, 5 de octubre de 2011 9
  • 10. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Páginas inclinadas, papel doblado, bordes visibles Madrid, BNE, 5 de octubre de 2011 10
  • 11. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Transparencias Madrid, BNE, 5 de octubre de 2011 11
  • 12. Descripción del corpus IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. “Defectos” de las imágenes Manchas, sellos, notas manuscritas... Madrid, BNE, 5 de octubre de 2011 12
  • 13. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Producción del GT Madrid, BNE, 5 de octubre de 2011 13
  • 14. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Flujo de trabajo Envío a empresa Devolución a OCR imágenes externa Creación del GT cliente Control de calidad No ¿GT OK? Publicación en Sí PrIMA Madrid, BNE, 5 de octubre de 2011 14
  • 15. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Curiosidades del GT  Reglas de acentuación en Diccionario de Autoridades  Uso del punctus elevatus  Abreviaturas y ligaduras  Ideogramas Madrid, BNE, 5 de octubre de 2011 15
  • 16. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Madrid, BNE, 5 de octubre de 2011 16
  • 17. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Punctus elevatus  Madrid, BNE, 5 de octubre de 2011 17
  • 18. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Abreviaturas y ligaduras Madrid, BNE, 5 de octubre de 2011 18
  • 19. Producción del GT IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Ideogramas ♃ ♌ ♉ ♎ Madrid, BNE, 5 de octubre de 2011 19
  • 20. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Trabajo lingüístico Madrid, BNE, 5 de octubre de 2011 20
  • 21. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Tareas de la UA  Épocas estudiadas: Siglos XVI y XVII (Siglo de Oro español) OCR (Optical Character Recognition)  Construcción de los lexicones IR (Information Retrieval)  Reglas de variación  Lematización del corpus  Apertium usado como base del lexicón Madrid, BNE, 5 de octubre de 2011 21
  • 22. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver  Palabras que han desaparecido: arcaz (arca)  Palabras cortadas: to-do, conven-to, in-genio, cla-ra, humani-dád  Palabras en latín: quid, haec, aliquid, sum  Nombres propios: Quixote, Garcilasso, Rosimunda, Lope  Errores de impresión  Uso de apóstrofes: d'aver, a'scala  Dos formas antiguas, una moderna: al rededor – alrededor  Una forma antigua, dos modernas: dél – de él  Uso de 's' larga: 'ſ' ſ f  Abreviaturas  Ligaduras  Espacios  Cambios en la flexión verbal Madrid, BNE, 5 de octubre de 2011 22
  • 23. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver Flexión verbal. Ejemplo: Verbo 'haber' a, à, abemos, abia, abrá, abrás, abré, abrè, abréis, Abrète, abreys, abria, abría, As, auedes, auerla, auerlas, auerle, auerles, auerlo, auerlos, auerme, auernos, aueros, auerse, auersela, auerte, aués, Aueys, auia, auiamos, auías, Auiase, Auiendo, auiendola, auiendole, auiendome, auiendose, auiendosele, auiendote, Aura, aurá, aurà, auran, auras, aurás, aure, aureis, auremos, aureys, aurian, avéis, avemos, averla, averle, averlo, averme, averse, avéys, avia, avido, aviendo, avrà, avrán, avré, avréis, avremos, avría, Aya, ayais, ayan, ayays, d'aver, d'haver, eis, emos, Habéis, habemos, haberlo, haberme, haberse, haberte, habés, habíades, habían, habías, habido, habiendo, habiéndole, habiendome, habiéndome, habiéndote, habrá, habrán, habrás, habré, habréis, habremos, habría, hai, hala, hale, halo, hame, han, han, hanlo, hanme, hanse, hante, has, hase, Hasle, hasme, haste, hate, hauemos, hauerla, hauerme, hauernos, hauerte, haués, haueys, hauía, hauiamos, hauían, hauido, hauiendo, hauiendose, haurá, haurás, havella, havelle, havello, havemos, haverme, haverse, haverte, havéys, havíamos, havían, havías, haviendo, havrá, havré, hayáis, hayan, hayas, he, hela, hele, helo, heme, Hemos, hete, houe, houo, hoviera, hube, hubiera, hubiere, hubiese, hubo, huue, huuierades, huuieras, huuieredes, huuieren, huuieron, huuiesle, huuiessen, huve, huvieran, huvieras, huviere, huviessen, huvo, ouiesse, ovieron, ovo, uuo, uve, uviera, uviere, uviese, uviesse, uvo, vuiera, vuiesse, vuo... Madrid, BNE, 5 de octubre de 2011 23
  • 24. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver Madrid, BNE, 5 de octubre de 2011 24
  • 25. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver Madrid, BNE, 5 de octubre de 2011 25
  • 26. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Dificultades a resolver Madrid, BNE, 5 de octubre de 2011 26
  • 27. Trabajo lingüístico IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Variación ortográfica  Grupos consonánticos: subjeto – sujeto, subtil – sutil, presumpcion – presunción  Ruptura de diptongo con 'h' en lugar de acento: ohir – oír  'u' 'v': nueuo – nuevo, Otauio – Octavio, vno – uno, anduuieron – anduvieron  Caída de la 'd' final del imperativo: volvé – volved  Variación en la conjugación: aurà – habrá, fuerades – fuerais, ocupavan – ocupaban  Uso de 'ç': feroçe – feroz, çapatos – zapatos, çielo – cielo  Variación vocálica: malencolico – melancólico, mesmo – mismo, escuro – oscuro  Consonantes duplicadas: offender – ofender, assi – así, rromano – romano  Variación en los acentos: secréto – secreto, segúro – seguro, abalançò – abalanzó Madrid, BNE, 5 de octubre de 2011 27
  • 28. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Herramientas utilizadas Madrid, BNE, 5 de octubre de 2011 28
  • 29. Herramientas utilizadas IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Aletheia Madrid, BNE, 5 de octubre de 2011 29
  • 30. Herramientas utilizadas IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Lexicon Tool Madrid, BNE, 5 de octubre de 2011 30
  • 31. Herramientas utilizadas IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Taverna Madrid, BNE, 5 de octubre de 2011 31
  • 32. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Resultados preliminares Madrid, BNE, 5 de octubre de 2011 32
  • 33. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Datos del lexicón  Dividido en diferentes corpus: – Corpus BVMC – GT – Development – Diccionario Autoridades – IR Evaluation  Cifras del lexicón: – Lexicón OCR: • 5,617,815 palabras. • 334,157 palabras distintas. – Lexicón IR: • 582,386 palabras analizadas. • 34,296 palabras distintas analizadas. • 12,360 lemas analizados. Madrid, BNE, 5 de octubre de 2011 33
  • 34. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Métricas  Precisión (p) y Cobertura (c): – Precisión: Porcentaje de palabras que ha acertado de las que ha reconocido. – Cobertura: Porcentaje de palabras que ha acertado de las que debería haber reconocido – Ejemplo con precisión 0.25 y cobertura 0.5 • Estaba en hora buena (resultado OCR) • Estaba enhorabuena (texto original)  False friend: Error del OCR cuyo resultado coincide con una palabra del diccionario. Madrid, BNE, 5 de octubre de 2011 34
  • 35. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Resultados Con el diccionario interno “OldSpanish” de Finereader Precisión: 0.76 , Cobertura: 0.72 Con el lexicón histórico de español Precisión: 0.79 , Cobertura: 0.76 100 90 79,68 81,66 80 75,97 75,78 77,48 78,1 75,03 73,38 71,65 70,47 Cobertura Lexicón 70 65,1 Histórico 59,95 Cobertura Diccionario 60 Interno 50 40 30 20 10 0 Sor Juana Inca Quevedo Boscán Lope Lazarillo Madrid, BNE, 5 de octubre de 2011 35
  • 36. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Resultados Imagen: 00438810 Fuente: Obras de Garcilasso de la Vega Diccionario interno: (p= 76% , c= 69% )  Añadiendo diccionario externo: (p= 85% , c= 78% ) Madrid, BNE, 5 de octubre de 2011 36
  • 37. Resultados preliminares IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. GARCILASSO; 3« Garcilasso; «jue hara el enemigo? que hara el enemigo? Salid sin duelo lagrimal corriendo. Salid sin duelo lagrimal corriendo. Porti el silencio déla selua vmbrosa, Porti el silencio dela selua vmbrosa, por ti la esquiuidad,y apartamiento por ti la esquiuidad,y apartamiento del solitario monte me agradaua: del solitario monte me agradaua: porti la verdeyerua,y fresco viento,1 porti la verde yerua,y fresco viento, elhlanco lirio,y colorada rosa, elblanco lirio,y colorada rosa, y dulce Priipauera desteaua. y dulce Primauera Desseaua. Ayquantomeengañaua, Ay quanto me engañaua, ay quan diferente era, ay quan diferente era, y quan de otra manera, y quan de otra manera, lo que en tu falso pecho se escondía? lo que en tu falso pecho se escondía? bien claro qcn su voz me lo dczia bien claro qcn su voz me lo dezia la siniestra corneja, repitiendo 8$ la siniestra corneja, repitiendo 8$ ladefuentura mia, la desuentura mia, Salid sin duelo lagrimas corriendo. Salid sin duelo lagrimas corriendo. Quantas vezes durmiendo en la floresta Quantas vezes durmiendo enla floresta (reputando yo por desuario) (reputando yo por desuario) vi mi mal entre sueños desdic hados vi mi mal entre sueños desdic hados Soñaua que en el tiempo del Estío Soñaua que en el tiempo del Estip lleuaua,por pastar aiii la siesta, lleuaua,por passar alli la siesta, a beuer en el Tajo mi ganado: a beuer en el Tajo mi ganado: y despucs de llegado, Negrita: error y despues de llegado, fin saber de quai arte, Subrayado: False friend jón saber de qual arte, Madrid, BNE, 5 de octubre de 2011 37
  • 38. IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. UA – Spanish Language Madrid, BNE, 5 de octubre de 2011 38