Educación y datos masivos (Big Data)

13,946 views

Published on

Los datos masivos (Big Data) están cambiando la forma de acceder, comprender, planificar y también la forma de vivir. Este nuevo paradigma están entrando de lleno en todos los ámbitos sociales. El mundo académico y de aprendizaje no va ser menos. La analítica del aprendizaje y académico está focalizado en la educación. En esta presentación (en beta) presentamos en MoodleMoot 2014 Colombia para dar a conocer todo este ecosistema del dato.

Published in: Education

Educación y datos masivos (Big Data)

  1. 1. . . Moodlemoot 2014 Imagen: http://bit.ly/1mm2Eb0 Educación y datos masivos Fernando Santamaría González o la analítica de los procesos complejos del aprendizaje Learning Analytics / Educational Data Mining Docente e investigador en temas emergentes Patrocina Organiza #bigmootco14 #mootco14
  2. 2. Indice Introducción al concepto de Big Data Conceptos del ecosistema de Big Data Learning Analytics
  3. 3. Machine Learning Ciencia de los datos Científico de datos Data Visualization Artificial Intelligence (AI) Descubrimiento del conocimiento en bases de datos Social Network Analysis Cyberinfrastructure BIG DATA Data Mining Learning Analytics Educational Data MiningBusiness Intelligence Learning Visual Analytics Reality Mining Sentiment Analysis Text Analytics
  4. 4. Texto Big Data vs Small Data Los datos en pequeño tiene que ver con los datos individuales (Internet of me). El movimiento del “yo cuantificado”(Gary Wolf y Kevin Kelly, 2007) parte de del individuo para el automonitoreo y autodetección, cambiando las formas de vivir y entender los procesos vitales.
  5. 5. Texto Big Data Término muy general para una inmensa colección de variados datos que se hace complejo y grande, y que resulta difícil de procesar con el uso de herramientas de gestión de datos a la mano o de aplicaciones tradicionales (ej: bases de datos relacionales) de tratamiento de datos. Fuente imagen: http://bit.ly/1mgOZSJ
  6. 6. Definición Big Data (IBM) La tendencia en tecnologías y la gran capacidad de datos que estas admiten han dado nuevos enfoques de administración y gestión para el entendimiento y la toma de decisiones por medio del análisis de enormes cantidades de datos en plataformas de bases de datos que van más allá de las clásicas y simples bases de datos relacionales.
  7. 7. Definición Big Data (Wikipedia inglesa) Big Data es alto volumen de datos y alta velocidad, y también con gran variedad de datos (3 Vs), que requerirá nuevas formas de procesamiento para permitir la toma de decisiones mejorada, descubrir los insights (la palanca de acción, no el dato en si) y la optimización de procesos.
  8. 8. Definición Big Data Big Data es un conjunto de datos no estructurados de gran volumen que no puede ser manejado por los sistemas de gestión de base de datos estándar como DBMS, RDBMS o ORDBMS.
  9. 9. Tipo de datos Datos estructurados (Structured Data). Datos con formato o esquema fijo y que poseen campos fijos. Datos semiestructurados (Semi-Structured Data). No tienen formatos fijos, pero contienen etiquetas y otros marcadores que permiten separar los elementos dato. Los registros weblogs. Datos no estructurados (Unstructured Data). Son datos sin tipos predefinidos. Se almacenan como documentos u objetos sin una estructura uniforme. Datos en tiempo real (Real-Time Data). A los anteriores se les añade la capacidad de visionarios en tiempo real, mientras están ocurriendo.
  10. 10. IStockPhoto Cada minuto…. Los usuarios de correo envían 204 millones de correos. Los usuarios de Youtube suben alrededor de 71 horas en reproducción de vídeo. Usuarios de Facebook comparte casi 2.500.000 de piezas de contenido. Los usuarios de Pinterest alrededor de 3.500 fotos. Los usuarios de Twitter comparten 277.000 tuits. Genera al día 9 TB
  11. 11. Fuente:Domo
  12. 12. Worldometers.info (9:27 am)
  13. 13. De donde proceden los datos De las transacciones que se hacen en empresas y ciudadanos. Web y Social Media. Imagen, vídeo, datos de texto (minería de textos, sentiment analysis) De M2M e Internet de las cosas. Datos de sensores Datos de geolocalización. Datos RFID y NFC (tecnologías de identificación por radiofrecuencia). Datos biométricos. Datos de las redes sociales (Análisis de Redes Sociales, ARS-SNA). Datos de las operadoras de telecomunicaciones (y lo que se ocultan). Datos de las ciudades inteligentes. Datos de las redes inteligentes de energía (smartgrids)
  14. 14. Texto Sociómetro (Sociometric Badges) Un dispositivo creado por el MIT y que es capaz de medir el lenguaje no verbal. Registra factores como el tono de voz o la movilidad corporal. Puede predecir los efectos de cualquier conversación o entrevista. (Señales honestas. A. Pentland)
  15. 15. IStockPhoto
  16. 16. Reality Mining
  17. 17. Texto Visualización de datos geográficos http://www.vizzuality.com/ + CartoDB http://here.com/livingcities/
  18. 18. Texto Sentiment Analysis de Colombia Fuente: http://www.csc.ncsu.edu/faculty/healey/ tweet_viz/tweet_app/ Text Analytics - Sentiment Analysis
  19. 19. Texto El modelo de 3V (Gartner) Volumen,Velocidad y Variedad. Posteriormente algunas empresas añaden: Veracidad y valor.
  20. 20. Velocidad: Tiempo real de proceso de datos. Escala: Aumento de la potencia de cálculo. Ley de Moore sigue vigente. Sensores: Los datos sociales de lo físico del mundo que nos rodea. Internet de las cosas. .Data Fuente: IStockPhoto
  21. 21. Ciencia de datos Científico de datos Una nueva profesión de perfil alto
  22. 22. Científicos de datos Lo que podemos decir es que es un área emergente que se ocupa de la recolección, preparación, análisis, visualización, gestión y conservación de grandes colecciones de información. Se requiere muchas habilidades disciplinares más allá de lo estadístico y matemático. Deben interconectar con estas cuatro áreas: arquitectura de datos, adquisición de datos, análisis de datos y archivado de datos. Deben tener también habilidades de comunicación, habilidades de análisis de datos (insights) y la capacidad de razonamiento ético.
  23. 23. Texto Data Science La ciencia de los datos es la transformación de los datos en información valiosa (insights)/decisiones o productos a través de estadísticas inferenciales. Fuente imagen: http://bit.ly/1mnWx67
  24. 24. Texto Machine Learning Es un subcampo de la Ciencia de la Computación y de la Inteligencia Artificial (IA), que se ocupa de la construcción y el estudio de sistemas que pueden aprender de los datos, en lugar de sólo seguir instrucciones programdas. Desde los años 50 del siglo pasado. O sea que le permite a la computadora aprender.
  25. 25. Machine Learning ! ! ! ! ! ! ! ! ! ! ! ! La estructura y programación que se le puede enseñar a una computadora para “observar el mundo”. o la rama de IA cuyo objetivo es desarrollar técnicas que permitan a las computadoras para aprender.
  26. 26. Texto Analítica de datos (Big Data Analytics) Es un subcampo de la Ciencia de la Computación y de la Inteligencia Artificial (IA), que se ocupa de la construcción y el estudio de sistemas que pueden aprender de los datos, en lugar de sólo seguir instrucciones programdas. Desde los años 50 del siglo pasado. O sea que le permite a la computadora aprender.
  27. 27. Data Visualization Imagen: http://bit.ly/1r5zz89
  28. 28. Era del Petabyte (Wired, 2008) Era del Exabyte (Cisco, 2012) Hacia era del Zettabyte (2020) 2010: The Economist
  29. 29. Texto El tamaño de Big Data Crecimiento exponencial. Estamos entrando en la era del Zettabyte
  30. 30. Imagen: http://bit.ly/1nmhbZr
  31. 31. ! Privacidad y Seguridad Fuente: nytimes.com
  32. 32. Fuente: iStockPhoto
  33. 33. . Datos masivos Teoría de la Complejidad Patrones Sistemas autoorganizados Flujos de datos en tiempo real
  34. 34. Fuentes de datos Webs y medios sociales: datos de flujos de clicks, feeds de Twitter, entradas en Facebook, contenido web, etc. Máquina a máquina (M2M)/Internet de las cosas: lecturas medidores inteligentes, lecturas RFID y NFC, señales GPS, sensores, GIS. Datos de sensores. Datos de posición y tiempo. Aplicaciones de geolocalización. Datos de sitios de redes sociales. Análisis de Redes Sociales (SNA). Datos de operadores de Telecomunicaciones. Tecnologías móviles. Transacciones de todo tipo: banca, comercio, seguros.
  35. 35. En la era de los datos masivos, los datos son el nuevo oro. Pero este nuevo oro sólo puede ser desenterrado si usamos y combinamos los datos que tenemos de forma correcta. “ Viktor Schönberger
  36. 36. Texto Learning Analytics Si alguien interesa el tema puede consultar mi blog: http://fernandosantamaria.com/blog/tag/analisis-del-aprendizaje/ o en Mendeley dirijo un grupo de investigación: http://www.mendeley.com/groups/1174271/learning-analytics/
  37. 37. Texto Si alguien interesa el tema puede consultar mi blog: http://fernandosantamaria.com/blog/tag/analisis-del-aprendizaje/ o en Mendeley dirijo un grupo de investigación: http://www.mendeley.com/groups/1174271/learning-analytics/
  38. 38. El análisis del aprendizaje se trata de la medición, recopilación, análisis y presentación de datos sobre los alumnos y sus contextos, con el propósito de entender y optimizar el aprendizaje y los entornos en que se produce (George Siemens, 2011 en LAK11)
  39. 39. Bucle de datos
  40. 40. Analítica del aprendizaje y de la academia Tipo de analítica Nivel u objeto de análisis A quién beneficia? Learning Analytics Nivel de curso: redes sociales, desarrollos conceptuales, algoritmos, análisis del discurso, curriculum adaptativo e inteligente. Aprendices y de Facultad Nivel departamental: Modelos predictivos, patrones de éxito y error. Aprendices y de Facultad Academic Analytics Institucional: perfiles de los estudiantes, desempeño o rendimiento académico, flujo de conocimiento (tiempo real) Administradores, gestores y fundadores. A nivel de marketing. Regional: comparación entre sistemas Gestiones, CEOs/ Fundadores y administradores Nacional e Internacional Gobiernos nacionales y regionales. Autoridades educativas. Fuente: Penetrating the Fog: Analytics in Learning Education by Phil Long and G. Siemens http://bit.ly/1rEznOg
  41. 41. Para que nos puede ser útil Monitorear procesos de aprendizaje. Explorar los datos de los estudiantes. Identificar y prevenir/anticiparse a los problemas de los estudiantes. Descubrir patrones. Encontrar indicadores de éxito o de fracaso/ deserciones en los grupos de clase o en las comunidades de aprendizaje.
  42. 42. Algunas de las bondades Evaluar los materiales de aprendizaje. Aumenta la conciencia de aprendizaje y sus entornos. Mejorar los procesos de enseñanza a nivel micro y macro/maso. Intervenir/supervisar/asesorar/ayudar Aumentar la capacidad de participación, la conciencia autoreflexiva. Estar en constante feedback para lograr los objetivos. Es una buena “plataforma” para “embeber” otras acciones como puede ser la gamificación.
  43. 43. Desafíos Descripción Privacidad Retos de la propiedad y el uso de datos. ¿Quien tiene acceso a los datos? Hetereogeneidad Diferentes fuentes y formatos Las partes interesadas El tipo de datos y de análisis empleados dependen de la audiencia y de los interesados (stakeholders). Visualización Apropiarse y comprender la visualización informacional para los stakeholders. Estructura de datos Los datos pueden ser estructurados (logged data) o no estructurados (interaction data) La fata de identificadores únicos/ identificadores significativos Las diferentes partes interesadas utilizan diferentes tecnologías de diferentes maneras. Las partes interesadas (stakeholders) tienen diferentes puntos de vista. El tema de los costos Costo para almacenar grandes volúmenes de datos y la producción de herramientas de aprendizaje Analytics.
  44. 44. Pedagogía centrada en datos
  45. 45. Texto Signals (Pordue University) Esta universidad establece un señalización simple y efectiva de cada estudiante, por medio de la visualización por medio de un semáforo.
  46. 46. Texto SNAPP (Social Networks Adapting Pedagogical Practice, Projecto Internacional, liderado por University of Wollongong) Una herramienta de diagnóstico y prevención instalada para operar sobre los foros de Moodle. Se evalúa los patrones de comportamiento de los estudiantes e intervenir sobre métricas y medidas de ARS. Dawson, S. (2009). ‘Seeing’ the learning community: An exploration of the development of a resource for monitoring online student networking. British Journal of Educational Technology, 41(5), 736-752
  47. 47. Texto Desire2Learn Student Success System Desire2Learn. Gráficas y análisis productivo
  48. 48. Texto LA e-R(Learning Analytics Enriched Rubric Se trata de un plugin para Moodle para poner notas con criterios flexibles de evaluación. Fuente de descarga: http://bit.ly/1ndSiP4
  49. 49. Métricas y Medidas El tamaño de las interacciones de la red La densidad de la red. Agujeros estructurales (R.S. Burt) Ver las equivalencias y la cohesión del grupo. Los cluster, asociaciones o cliqués La centralidad, tanto en términos de grado (degree centrality), de proximidad (closeness centrality) como intermediación (betweenness centrality). La popularidad de nodos frente a desconexión.
  50. 50. ! Big Data e investigación Fuente: nytimes.com
  51. 51. La nueva disponibilidad de enormes cantidades de datos, junto con las herramientas estadísticas para analizar estos números, ofrece una nueva manera de comprender el mundo. La correlación remplaza la casualidad, y la ciencia puede avanzar sin modelos coherentes, teorías unificadas, o realmente sin ninguna explicación mecanicista.Chris Anderson El diluvio de datos vuelve obsoleto el método científico. “
  52. 52. Fernando Formador y Consultor * Corporación Minuto de Dios (Gestión Básica de la Información-GBI) * Centro de Tecnología para la Academia- Universidad La Sabana http://fernandosantamaria.com/ http://about.me/lernys Twitter: lernys Muchas gracias por escucharme Dudas, inquietudes y sugerenciashttp://bit.ly/1m2nTzr

×