En esta conferencia haremos un repaso de las características de los datos masivos, de sus conceptos emergentes que surgen alrededor, de sus ventajas y desventajas, de los efectos y consecuencias que tendrá sobre los sistemas educativos y de los peligros vistos desde nuestra estructura mental y social que es de pre-datos masivos.
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
"Educación y datos masivos (Big Data)" - Fernando Santamaria
1. .
.
Moodlemoot 2014
Imagen: http://bit.ly/1mm2Eb0
Educación y datos masivos
Fernando Santamaría González
o la analítica de los procesos complejos del aprendizaje
Learning Analytics / Educational Data Mining
Docente e investigador en temas emergentes
Patrocina Organiza
#bigmootco14
#mootco14
3. Machine Learning
Ciencia de los datos
Científico de datos
Data Visualization
Artificial Intelligence (AI)
Descubrimiento del conocimiento
en bases de datos
Social Network Analysis
Cyberinfrastructure
BIG DATA Data Mining
Learning Analytics
Educational Data MiningBusiness Intelligence
Learning
Visual Analytics
Reality Mining
Sentiment Analysis
Text Analytics
4. Texto
Big Data vs Small Data
Los datos en pequeño tiene que ver con los datos individuales (Internet
of me). El movimiento del “yo cuantificado”(Gary Wolf y Kevin Kelly,
2007) parte de del individuo para el automonitoreo y autodetección,
cambiando las formas de vivir y entender los procesos vitales.
5. Texto
Big Data
Término muy general para una inmensa colección de variados datos que se hace
complejo y grande, y que resulta difícil de procesar con el uso de herramientas de gestión
de datos a la mano o de aplicaciones tradicionales (ej: bases de datos relacionales) de
tratamiento de datos.
Fuente imagen: http://bit.ly/1mgOZSJ
6. Definición Big Data (IBM)
La tendencia en tecnologías y la gran capacidad
de datos que estas admiten han dado nuevos
enfoques de administración y gestión para el
entendimiento y la toma de decisiones por medio
del análisis de enormes cantidades de datos en
plataformas de bases de datos que van más allá
de las clásicas y simples bases de datos
relacionales.
7. Definición Big Data (Wikipedia
inglesa)
Big Data es alto volumen de datos y alta
velocidad, y también con gran variedad de
datos (3 Vs), que requerirá nuevas formas
de procesamiento para permitir la toma de
decisiones mejorada, descubrir los insights
(la palanca de acción, no el dato en si) y la
optimización de procesos.
8. Definición Big Data
Big Data es un conjunto de datos no
estructurados de gran volumen que no
puede ser manejado por los sistemas de
gestión de base de datos estándar como
DBMS, RDBMS o ORDBMS.
9. Tipo de datos
Datos estructurados (Structured Data). Datos con
formato o esquema fijo y que poseen campos fijos.
Datos semiestructurados (Semi-Structured Data).
No tienen formatos fijos, pero contienen etiquetas y otros
marcadores que permiten separar los elementos dato.
Los registros weblogs.
Datos no estructurados (Unstructured Data). Son
datos sin tipos predefinidos. Se almacenan como
documentos u objetos sin una estructura uniforme.
Datos en tiempo real (Real-Time Data). A los
anteriores se les añade la capacidad de visionarios en
tiempo real, mientras están ocurriendo.
10. IStockPhoto
Cada minuto….
Los usuarios de correo envían 204 millones de
correos.
Los usuarios de Youtube suben alrededor de 71
horas en reproducción de vídeo.
Usuarios de Facebook comparte casi 2.500.000 de
piezas de contenido.
Los usuarios de Pinterest alrededor de 3.500 fotos.
Los usuarios de Twitter comparten 277.000 tuits.
Genera al día 9 TB
13. De donde proceden los datos
De las transacciones que se hacen en empresas
y ciudadanos.
Web y Social Media. Imagen, vídeo, datos de
texto (minería de textos, sentiment analysis)
De M2M e Internet de las cosas. Datos de
sensores
Datos de geolocalización.
Datos RFID y NFC (tecnologías de identificación
por radiofrecuencia).
Datos biométricos.
Datos de las redes sociales (Análisis de Redes
Sociales, ARS-SNA).
Datos de las operadoras de telecomunicaciones
(y lo que se ocultan).
Datos de las ciudades inteligentes.
Datos de las redes inteligentes de energía
(smartgrids)
14. Texto
Sociómetro (Sociometric Badges)
Un dispositivo creado por el MIT y que es capaz de medir el
lenguaje no verbal. Registra factores como el tono de voz o la
movilidad corporal. Puede predecir los efectos de cualquier
conversación o entrevista. (Señales honestas. A. Pentland)
18. Texto
Sentiment Analysis de Colombia
Fuente: http://www.csc.ncsu.edu/faculty/healey/
tweet_viz/tweet_app/
Text Analytics - Sentiment Analysis
19. Texto
El modelo de 3V (Gartner)
Volumen,Velocidad y Variedad.
Posteriormente algunas empresas añaden: Veracidad y valor.
20.
21.
22.
23. Velocidad: Tiempo real de proceso de datos.
Escala: Aumento de la potencia de cálculo. Ley de
Moore sigue vigente.
Sensores: Los datos sociales de lo físico del mundo
que nos rodea. Internet de las cosas.
.Data
Fuente: IStockPhoto
25. Científicos de datos
Lo que podemos decir es que es un área emergente
que se ocupa de la recolección, preparación,
análisis, visualización, gestión y conservación de
grandes colecciones de información. Se requiere
muchas habilidades disciplinares más allá de lo
estadístico y matemático.
Deben interconectar con estas cuatro áreas:
arquitectura de datos, adquisición de datos,
análisis de datos y archivado de datos.
Deben tener también habilidades de comunicación,
habilidades de análisis de datos (insights) y la
capacidad de razonamiento ético.
26.
27. Texto
Data Science
La ciencia de los datos es la transformación de los datos en
información valiosa (insights)/decisiones o productos a través de
estadísticas inferenciales.
Fuente imagen: http://bit.ly/1mnWx67
28. Texto
Machine Learning
Es un subcampo de la Ciencia de la Computación y de la Inteligencia Artificial (IA),
que se ocupa de la construcción y el estudio de sistemas que pueden aprender
de los datos, en lugar de sólo seguir instrucciones programdas.
Desde los años 50 del siglo pasado. O sea que le permite a la computadora
aprender.
29. Machine Learning
!
!
!
!
!
!
!
!
!
!
!
!
La estructura y programación que se le
puede enseñar a una computadora
para “observar el mundo”.
o
la rama de IA cuyo objetivo es
desarrollar técnicas que permitan a las
computadoras para aprender.
30. Texto
Analítica de datos (Big Data Analytics)
Es un subcampo de la Ciencia de la Computación y de la Inteligencia Artificial (IA),
que se ocupa de la construcción y el estudio de sistemas que pueden aprender
de los datos, en lugar de sólo seguir instrucciones programdas.
Desde los años 50 del siglo pasado. O sea que le permite a la computadora
aprender.
42. .
Datos masivos
Teoría de la Complejidad
Patrones
Sistemas autoorganizados
Flujos de datos en tiempo real
43. Fuentes de datos
Webs y medios sociales: datos de flujos de clicks, feeds de
Twitter, entradas en Facebook, contenido web, etc.
Máquina a máquina (M2M)/Internet de las cosas: lecturas
medidores inteligentes, lecturas RFID y NFC, señales GPS,
sensores, GIS.
Datos de sensores.
Datos de posición y tiempo. Aplicaciones de geolocalización.
Datos de sitios de redes sociales. Análisis de Redes Sociales
(SNA).
Datos de operadores de Telecomunicaciones. Tecnologías
móviles.
Transacciones de todo tipo: banca, comercio, seguros.
44.
45. En la era de los datos
masivos, los datos son el
nuevo oro. Pero este
nuevo oro sólo puede ser
desenterrado si usamos y
combinamos los datos
que tenemos de forma
correcta.
“
Viktor Schönberger
46. Texto
Learning Analytics
Si alguien interesa el tema puede consultar mi blog:
http://fernandosantamaria.com/blog/tag/analisis-del-aprendizaje/
o en Mendeley dirijo un grupo de investigación:
http://www.mendeley.com/groups/1174271/learning-analytics/
47. Texto
Si alguien interesa el tema puede consultar mi blog:
http://fernandosantamaria.com/blog/tag/analisis-del-aprendizaje/
o en Mendeley dirijo un grupo de investigación:
http://www.mendeley.com/groups/1174271/learning-analytics/
48. El análisis del
aprendizaje se trata de la
medición, recopilación,
análisis y presentación
de datos sobre los
alumnos y sus contextos,
con el propósito de
entender y optimizar el
aprendizaje y los entornos
en que se produce (George
Siemens, 2011 en LAK11)
52. Analítica del aprendizaje y de la academia
Tipo de analítica
Nivel u objeto de
análisis
A quién beneficia?
Learning Analytics
Nivel de curso: redes sociales, desarrollos
conceptuales, algoritmos, análisis del
discurso, curriculum adaptativo e
inteligente.
Aprendices y de
Facultad
Nivel departamental: Modelos
predictivos, patrones de éxito y error.
Aprendices y de
Facultad
Academic
Analytics
Institucional: perfiles de los
estudiantes, desempeño o rendimiento
académico, flujo de conocimiento
(tiempo real)
Administradores,
gestores y fundadores.
A nivel de marketing.
Regional: comparación
entre sistemas
Gestiones, CEOs/
Fundadores y
administradores
Nacional e Internacional
Gobiernos nacionales y
regionales. Autoridades
educativas.
Fuente: Penetrating the Fog: Analytics in Learning Education by Phil Long and G. Siemens http://bit.ly/1rEznOg
53.
54. Para que nos puede ser útil
Monitorear procesos de aprendizaje.
Explorar los datos de los estudiantes.
Identificar y prevenir/anticiparse a los problemas de
los estudiantes.
Descubrir patrones.
Encontrar indicadores de éxito o de fracaso/
deserciones en los grupos de clase o en las
comunidades de aprendizaje.
55. Algunas de las bondades
Evaluar los materiales de aprendizaje.
Aumenta la conciencia de aprendizaje y sus entornos.
Mejorar los procesos de enseñanza a nivel micro y
macro/maso. Intervenir/supervisar/asesorar/ayudar
Aumentar la capacidad de participación, la conciencia
autoreflexiva.
Estar en constante feedback para lograr los objetivos.
Es una buena “plataforma” para “embeber” otras acciones
como puede ser la gamificación.
56. Desafíos Descripción
Privacidad
Retos de la propiedad y el uso de datos. ¿Quien tiene
acceso a los datos?
Hetereogeneidad Diferentes fuentes y formatos
Las partes
interesadas
El tipo de datos y de análisis empleados dependen
de la audiencia y de los interesados (stakeholders).
Visualización
Apropiarse y comprender la visualización
informacional para los stakeholders.
Estructura de
datos
Los datos pueden ser estructurados (logged
data) o no estructurados (interaction data)
La fata de
identificadores únicos/
identificadores
significativos
Las diferentes partes interesadas utilizan diferentes
tecnologías de diferentes maneras. Las partes
interesadas (stakeholders) tienen diferentes puntos de
vista.
El tema de los costos
Costo para almacenar grandes volúmenes de datos y la
producción de herramientas de aprendizaje Analytics.
59. Texto
Signals (Pordue University)
Esta universidad establece un señalización simple y efectiva de
cada estudiante, por medio de la visualización por medio de un
semáforo.
60. Texto
SNAPP (Social Networks Adapting Pedagogical Practice,
Projecto Internacional, liderado por University of Wollongong)
Una herramienta de diagnóstico y prevención instalada para operar
sobre los foros de Moodle. Se evalúa los patrones de comportamiento
de los estudiantes e intervenir sobre métricas y medidas de ARS.
Dawson, S. (2009). ‘Seeing’ the learning community: An exploration of the development of a
resource for monitoring online student networking. British Journal of Educational Technology, 41(5),
736-752
62. Texto
LA e-R(Learning Analytics Enriched Rubric
Se trata de un plugin para Moodle para poner
notas con criterios flexibles de evaluación.
Fuente de descarga: http://bit.ly/1ndSiP4
63. Métricas y Medidas
El tamaño de las interacciones de la red
La densidad de la red.
Agujeros estructurales (R.S. Burt)
Ver las equivalencias y la cohesión del grupo.
Los cluster, asociaciones o cliqués
La centralidad, tanto en términos de grado (degree
centrality), de proximidad (closeness centrality) como
intermediación (betweenness centrality). La
popularidad de nodos frente a desconexión.
65. La nueva disponibilidad de
enormes cantidades de datos,
junto con las herramientas
estadísticas para analizar estos
números, ofrece una nueva
manera de comprender el
mundo. La correlación
remplaza la casualidad, y la
ciencia puede avanzar sin
modelos coherentes, teorías
unificadas, o realmente sin
ninguna explicación
mecanicista.Chris Anderson
El diluvio de datos vuelve obsoleto el
método científico.
“
66. Fernando
Formador y Consultor
* Corporación Minuto de Dios (Gestión Básica
de la Información-GBI)
* Centro de Tecnología para la Academia-
Universidad La Sabana
http://fernandosantamaria.com/
http://about.me/lernys
Twitter: lernys
Muchas gracias
por escucharme
Dudas, inquietudes y sugerenciashttp://bit.ly/1m2nTzr