Presentación del IULA-UPF Centro de Competencias CLARIN en la Jornada “Big Data en las Humanidades” realizada en el el Centro de Cultura Contemporanea de Barcelona (02/10/2014).
Centro de Competencias en Recursos y Tecnologías Lingüísticas
1. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
1
Centro de Competencias en Recursos y Tecnologías
Lingüísticas
Núria Bel
nuria.bel@upf.edu
Grup de Tecnologies dels Recursos Lingüístics/
Institut Universitari de Lingüística Aplicada
Departament de Traducció i Ciències del llenguatge
2. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
2
Misión del centro
El Centro de Competencias tiene la misión de promocionar
la utilización de tecnología lingüística en la investigación
en Humanidades y Ciencias Sociales.
La tecnología es la que capacita a los investigadores para
analizar grandes cantidades de datos.
3. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
3
¿Grandes cantidades de datos en
Humanidades ?
Algunos ejemplos?
4. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
4
Páginas Objetivo
Mapping Texts, Torget AJ,
Mihalcea R, Christensen J,
McGhee G
232.567 Descubrir patrones lingüísticos
interesantes.
Demography of Literary
Form: Probabilistic
Models for Literary
History, Allen Beye
Riddell
12.370 Identificar géneros/grupos de
novelas
Studying How the Past is
Remembered. Au Yeung
C, Jatowt A
2.000.000 Identificar referencias al pasado en
artículos de prensa para representar
la memoria colectiva de diferentes
países.
Is There a Political Bias?
A Computational
Analysis of Female
Subjects' Coverage in
Liberal and Conservative
Newspapers. Shor E, et
al.
25.000.000 Estimar si la adscripción política de
un medio explica un tratamiento
diferente del seguimiento público de
mujeres.
Big Data: 39.000 quijotes ?
Algunos ejemplos?
5. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
5
12.370 pág.
6. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
6
232.567 pág.
7. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
7
2.000.000 pág.
8. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
8
25.000.000 páginas
9. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
¿Cómo lo hacen los que ya están analizando
grandes cantidades de textos en investigaciones de
áreas de humanidades y ciencias sociales?
9
10. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
10
Enlaces para describir y dar información de la
tecnología
11. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
11
Y capacitar al usuario para utilizar las
herramientas
Alcalde de Casa
Alemania
Almirante de Castilla
Arzobispo de Granada
Choronica
Ciudad Rodrigo 3 de
agosto de 1641
Conde Duque
Conde Duque
Conde Duque de Olivares
Conde Duque de Olivares
Conde de Olivares
Conde de Olivares
Corte
Don Eugenio Carreto
Don Garcerán Albañel
Duque de Alba
Duquesa de el Infantado
España
Granada
Italia
Madrid
Madrid 11 de septiembre
de 1624
Marqués de Grana
Meliso
Miguel de Cárdenas
Padre Francisco Aguado
Presidente de Castilla
Provincial de la Compañía
de Jesús
Reina Doña Isabel de
Borbón
Reinos
12. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
12
El catálogo capacita a investigadores a partir de 3
acciones:
• Mirar qué han hecho los demás?
– Entrada por áreas de investigación, enlaces a
proyectos y artículos
• Y cómo lo han hecho ellos?
– Enlace directo a la información de la tecnología
utilizada.
• Para hacerlo YA!
– Acceso directo a herramientas (servicio-web) con uso
simplificado
– Ejemplos (input/output) y textos propios para romper
la barrera tecnológica.
13. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
13
clarin-es-lab.org
14. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
14
El catálogo cubre, por ahora, tecnología disponible
para:
• Frecuencia de palabras (formas – lemas) y
combinaciones significativas de palabras
(colocaciones).
• Reconocimiento de Entidades con nombre y su
frecuencia en textos.
• Similitud Textual: comparación de textos para extraer
información objetiva de similitud.
Contenidos actuales: Oct-2014
• Documentos enlazados: 123
• Proyectos enlazados: 36
• Herramientas (servicios web): 78
15. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
15
Algunas cuestiones técnicas
• Datos abiertos enlazados (Linked Open Data, LOD):
– Permite enlazar con contenidos ya disponibles
(wikipedia / dbpedia) y reducir costes.
– Invita al usuario a navegar por la información creando
su propio perfil formativo.
Villegas, Marta; Melero, Maite; Bel, Núria (2014). "Metadata as Linked Open Data: mapping
disparate XML metadata registries into one RDF/OWL registry". Proceedings of the Ninth
International Conference on Language Resources and Evaluation (LREC'14): ELRA. Pàg. 393-
400.
Arano, Silvia, and Núria Bel. 2014. “Datos enlazados de publicaciones, proyectos Y herramientas
informáticas para los Investigadores en humanidades digitales: el catálogo piloto del Centro
Clarin IULA-UPF.” El Profesional de La Información [en Prensa].
16. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
16
Agradecimientos
“Fondo Europeo de Desarrollo Regional (FEDER),
Programa operativo FEDER de Cataluña 2007‐2013,
Objetivo 1”.
Infraestructura europea “Common Language Resources
and Technology Infrastructure” www.clarin.eu
Programas abiertos de uso libre:
- FreeLing http://nlp.lsi.upc.edu/freeling/
Proyectos CLARIN-CAT (DGR-GenCat), MetaNet4U (7FP
CIP-PSP-270893), PANACEA (7FP-ITC-248064)
Colaboradores: U. Vigo, UPV, UPC, UB, UAB, ULleida, U
Jaén.
17. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
Más información en:
17
www.clarin-es-lab.org
@CLARIN_ES_LAB
iulatrl@upf.edu
Para niños …
18. IULA-UPF Centre de Competències CLARIN
Big Data y Humanidades -- Núria Bel
18
Créditos
Este obra está bajo una licencia de Creative Commons Reconocimiento 3.0 España. Para ver una copia de esta licencia, visite
http://creativecommons.org/licenses/by/3.0/es/ .
2014, Núria Bel
Editor's Notes
423.000 p´ginas son unos 650 Quijotes /primera parte. Dicen que se tarda 1 semana en leer el quijote, pues serían 13 años de lectura para una persona normal.
1 quijote – 1 semana – 39000 semanas a 48 semanas año = 812 años
Explicarlo poco a poco. Hay que hacer ver que vale la pena?
The corpus contains 35 gothic novels, 22
silver fork novels, 18 national tale novels, and 18 randomly selected novels.
Mirar las coincidencias sobre el futbol alrededor de los late 70.
holandesa.
La editorial Taschen publica ahora The Beautiful Game. El fútbol en los años setenta, repaso fotográfico a una de las eras doradas del deporte rey.