Este documento presenta una introducción al Data Science. Explica que cada día se generan grandes cantidades de datos, y que el Data Science permite extraer conocimiento de estos datos. Define al Data Science como el estudio de la extracción generalizada de conocimiento a partir de la información y los datos. También define al científico de datos como un profesional multidisciplinario que aplica técnicas estadísticas y de aprendizaje automático a los datos para descubrir patrones y apoyar la toma de decisiones. Finalmente, resume algunas de las habilidades
1. Módulo 3. Administración Avanzada del Sistema
operativo GNU/Linux
Asignatura: 3.2 Administración y análisis de datos
Docente: Mauricio Arancibia Patzi
Tema 3. Business Intelligence y Data Science
3.3 Introducción al Data Science
Sucre – Bolivia, Abril 2016
2. 2
Datos, el nuevo petróleo!!!!!!!!!
✔
Cada día se genera 2,5 trillones de bytes de
datos.
✔
90% de esta información solo en los últimos
años.
✔
Para el 2020 esta cifra será 50 veces mayor.
✔
Para el 2032 nos enfrentaremos a un panorama
donde el 80% del “BigData” estará des-
estructurado.
Tema 3.3 Introducción al Data Science
3. 3
Porque tiene importancia ahora?
✔
Con la emergencia en los últimos
años del BigData, existe una
disponibilidad enorme de datos tanto
a nivel de internet como en las
organizaciones.
✔
Ademas existe una importante
apuesta por los datos abiertos “Open
Data” y muchos organizamos se están
adhiriendo a esta iniciativa.
✔
Gobiernos y compañías han puesto
énfasis en el valor de la cantidad de
datos disponibles y la posibilidad de
extraer conocimiento de ellos.
Tema 3.3 Introducción al Data Science
5. 5
Qué es Data Science?
Podemos decir que trata del estudio de la extracción
generalizada de conocimiento a partir de información,
de datos.
6. 6
Que es un Científico de datos (Data Scientist)?
7. 7
Data Scientist: El trabajo más sexy del sigo 21
✔
Miles de científicos de datos están
trabajando en start-ups y
compañías bien establecidas
✔
El Bigdata reclama una nueva
tecnología que maneja toda esa
montaña de datos y sepa
aprovecharla
9. 9
Como cambiará la forma de hacer negocios en el
futuro?
✔
Capacidad de predecir el futuro
Los científicos de datos visualizan y analizan los datos para predecir lo que puede
llegar a pasar en un mercado ante una decisión de la empresa o de sus competidores
✔
Ayuda a tomar decisiones
Los análisis predictivos ayuda en la toma de decisiones en los niveles gerenciales.
✔
Encaminar los planes de mercadeo
Un científico de datos no solo recurre al pasado (BI) sino que anticipa el futuro a través
del poder predictivo de la analítica de negocios.
✔
Mejorar los niveles de servicio o atención a ciudadanos
Entidades publica podrán saber a ciencia cierta que quiere sus ciudadanos que
conlleva a elevar los niveles de satisfacción.
Tema 3.3 Introducción al Data Science
11. 11
Que habilidades y cualidades tiene que tener un
Data Scientist?
✔
Conocimientos en estadística
✔
Investigación operativa y optimización
✔
Programar en varios lenguajes
✔
Capacidad de traducir un problema real a un modelo
✔
Se capaz de optimizar el modelo
✔
Ayudar a que dicho modelo sea fácil de implementar y se
traduzca en retornos para la compañía o valor útil para una
institución.
“MULTITASKING”
12. 12
Caja de herramientas
Muchos de los conocimientos tiene que ver con la matemática y
la estadística, pero además se precisa de diversos
conocimientos informáticos:
✔ Bases de datos relaciones, SQL
✔ Bases de datos no relacionales, Big Data, NoSQL
✔ Lenguajes de programación: R, Python
✔ Machine Learning
✔ Programación de altas prestaciones, programación distribuida.
14. 14
BI vs Data Science
Business Intelligence Data Science
Análisis de Datos SI SI
Estadística SI SI
Visualización SI SI
Data Source Usualmente SQL, a
menudo Data
Warehouse
Menos estructurado
(logs, cloud, data, SQL,
NoSQL, textos)
Herramientas Estadística,
Visualización
Estadística,Machine
Learning, Análisis de
Gráficos
Enfoque Presente y pasado Futuro
Método Analítico Científico
Objetivo Mejores decisiones
estratégicas
Funcionalidad avanzada
Están muy relacionados. En algunos aspectos DS es una evolución del BI
17. 17
Algunas aplicaciones
Marketing:
✔Segmentación del mercado
✔Análisis de productos
✔Adquisición de nuevos clientes
✔Sistemas de recomendación de ventas
✔Análisis del social media
Finanzas y seguros:
✔Prevención de fraudes
✔Detección de anomalías
✔Análisis de riesgos crediticios
✔Modelados para aseguradoras
✔Optimización de portafolio
Salud y Farmacéuticos:
✔Análisis genético
✔Análisis clínico
✔Sistema de soporte en diagnósticos
18. 18
Data Science y el Open Source
✔
Sistemas operativos
✔ Linux + herramientas Shell
✔
Instrumentos Big Data
✔ Hadoop (MapReduce) + hadoop tools
✔ Hive, Pig
✔ NoSQL (Hbase, MongoDB, Cassandra, Neo4J)
✔
Bases de datos
✔ SGBD libres (PostgreSQL, MySQL, etc.)
Tema 3.3 Introducción al Data Science
19. 19
Data Science y el Open Source
✔
Programación
✔ Python
✔ Java
✔ Lenguaje R
✔
Dataminig
✔ RapidMiner
✔ Weka
✔ Orange
20. 20
Rapidminer
✔
Herramienta para el análisis de datos y mineria de datos
✔
Desarrollado en Java.
✔
Multiplataforma.
✔
Representación interna de los procesos de análisis de datos en ficheros XML.
✔
Permite el desarrollo de programas a través de un lenguaje de script.
✔
Puede usarse de diversas maneras:
✔
A través de un GUI.
✔
En línea de comandos.
✔
En batch (lotes).
✔
Desde otros programas a través de llamadas a sus bibliotecas.
✔
Extensible.
✔
Incluye gráficos y herramientas de visualización de datos.
✔
Dispone de un módulo de integración con R.