Este documento presenta una introducción a la ciencia de datos, incluyendo una definición, los perfiles de los científicos de datos, el proceso de ciencia de datos, la importancia de la calidad de los datos, y herramientas para la adquisición, procesamiento y visualización de datos. También discute el contexto actual de la ciencia de datos y opciones para prepararse en este campo.
Calidad de datos. Preparación y limpieza de los datosRoman Herrera
Temas relacionados con Ciencia de Datos:
• Importancia de la calidad de datos
• Atributos de calidad de los datos
• Diversos tipos y fuentes de datos
• Actividades para la limpieza de datos
• Procesos de integración de datos: ETL vs ELT
La minería de datos en el proceso de KDD donde se desarrollara los temas: Etapas de proceso de KDD,
Integración y recopilación, Selección, limpieza y transformación,
Minería de Datos, Evaluación e Interpretación, Difusión y uso; las cuales impartirán en cuatro horas semanales.los contenidos de la unidad 2.
Calidad de datos. Preparación y limpieza de los datosRoman Herrera
Temas relacionados con Ciencia de Datos:
• Importancia de la calidad de datos
• Atributos de calidad de los datos
• Diversos tipos y fuentes de datos
• Actividades para la limpieza de datos
• Procesos de integración de datos: ETL vs ELT
La minería de datos en el proceso de KDD donde se desarrollara los temas: Etapas de proceso de KDD,
Integración y recopilación, Selección, limpieza y transformación,
Minería de Datos, Evaluación e Interpretación, Difusión y uso; las cuales impartirán en cuatro horas semanales.los contenidos de la unidad 2.
Calidad de datos: La base del éxito para la modernización de sistemas de información
La ponencia tratará los aspectos más importantes a considerar para llevar a cabo una exitosa migración de datos de una organización en la modernización de los sistemas de información o la adquisición de nuevos sistemas o aplicaciones. Se cubren aspectos como la metodología, buenas prácticas y el proceso para la migración de bases de datos, haciendo énfasis en el análisis de la calidad de los datos.
Ponente; Magda Meléndez
Se hace un repaso de la familia de normas PCI, el encaje del proceso PCI DSS dentro de estas y sus requerimientos. Se analizó porqué las empresas de Contact Center y BPO han de cumplir y los aspectos clave en este tipo de empresas en la afectación de PCI DSS. Además, se presentó la metodología desarrollada por Internet Security Auditors que permite alcanzar el cumplimiento llevada a cabo con éxito en multitud de clientes, de este y otros sectores afectados por la necesidad de cumplir con PCI DSS.
Objetivo del taller:
Compartir los conocimientos técnicos y metodológicos para implementar las mejores prácticas en gestión de gobierno de TI en base a la normativa COBIT 5, para le gestión de riesgos y cumplimiento el negocio, con la finalidad de permitirle a los gerentes acortar la brecha entre exigencias de control, cuestiones técnicas y riesgos de negocio.
Introducción a data science, la guía práctica para volverse data scientistCarlos Toxtli
La ciencia de datos es cada vez más indispensable, ya no solo necesitamos extraer información de los datos, sino ahora conocimiento. En esta guía mostraremos las areas que comprende la ciencia de datos, las herramientas más usadas y tutoriales para cada una de ellas.
Data Science Learning Roadmaps 2021
Una recopilación de interesantes Roadmaps para espcialización en Ciencia de Datos, se incluyen de:
* datasciencedojo.com
* geeksforgeeks.org
* skillslane.com
* freecodecamp.org
* Swami Chandrasekaran y Emeric Dynomant ( @MrMimic )
Calidad de datos: La base del éxito para la modernización de sistemas de información
La ponencia tratará los aspectos más importantes a considerar para llevar a cabo una exitosa migración de datos de una organización en la modernización de los sistemas de información o la adquisición de nuevos sistemas o aplicaciones. Se cubren aspectos como la metodología, buenas prácticas y el proceso para la migración de bases de datos, haciendo énfasis en el análisis de la calidad de los datos.
Ponente; Magda Meléndez
Se hace un repaso de la familia de normas PCI, el encaje del proceso PCI DSS dentro de estas y sus requerimientos. Se analizó porqué las empresas de Contact Center y BPO han de cumplir y los aspectos clave en este tipo de empresas en la afectación de PCI DSS. Además, se presentó la metodología desarrollada por Internet Security Auditors que permite alcanzar el cumplimiento llevada a cabo con éxito en multitud de clientes, de este y otros sectores afectados por la necesidad de cumplir con PCI DSS.
Objetivo del taller:
Compartir los conocimientos técnicos y metodológicos para implementar las mejores prácticas en gestión de gobierno de TI en base a la normativa COBIT 5, para le gestión de riesgos y cumplimiento el negocio, con la finalidad de permitirle a los gerentes acortar la brecha entre exigencias de control, cuestiones técnicas y riesgos de negocio.
Introducción a data science, la guía práctica para volverse data scientistCarlos Toxtli
La ciencia de datos es cada vez más indispensable, ya no solo necesitamos extraer información de los datos, sino ahora conocimiento. En esta guía mostraremos las areas que comprende la ciencia de datos, las herramientas más usadas y tutoriales para cada una de ellas.
Data Science Learning Roadmaps 2021
Una recopilación de interesantes Roadmaps para espcialización en Ciencia de Datos, se incluyen de:
* datasciencedojo.com
* geeksforgeeks.org
* skillslane.com
* freecodecamp.org
* Swami Chandrasekaran y Emeric Dynomant ( @MrMimic )
Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.
Diapositivas D.I.P.. sobre la importancia que tiene la interpol en HonduraspptxWalterOrdoez22
Es un conjunto de diapositivas creadas para la información sobre la importancia que tienen la interpol en honduras y los tratados entre ambas instituciones
Reporte homicidio doloso descripción
Reporte que contiene información de las víctimas de homicidio doloso registradas en el municipio de Irapuato Guanajuato durante el periodo señalado, comprende información cualitativa y cuantitativa que hace referencia a las características principales de cada uno de los homicidios.
La información proviene tanto de medios de comunicación digitales e impresos como de los boletines que la propia Fiscalía del Estado de Guanajuato emite de manera diaria a los medios de comunicación quienes publican estas incidencias en sus distintos canales.
Podemos observar cantidad de personas fallecidas, lugar donde se registraron los eventos, colonia y calle así como un comparativo con el mismo periodo pero del año anterior.
Edades y género de las víctimas es parte de la información que incluye el reporte.
Ipsos, empresa de investigación de mercados y opinión pública, divulgó su informe N°29 “Claves Ipsos” correspondiente al mes de abril, que encuestó a 800 personas con el fin de identificar las principales opiniones y comportamientos de las y los ciudadanos respecto de temas de interés para el país. En esta edición se abordó la a Carabineros de Chile, su evaluación, legitimidad en su actuar y el asesinato de tres funcionarios en Cañete. Además, se consultó sobre el Ejército y la opinión respecto de la marcha en Putre.
Herramientas y recursos tecnológicos para el Data Science
1. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
2. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
• Introducción – ¿qué es la ciencia de datos?
• Perfiles de un científico de datos – roles, skills-set
• El proceso del Data Science
• La importancia de la calidad de los datos
• Herramientas para adquisición, procesamiento y
visualización de datos
• Herramientas para web scraping, dataviz e integración
• El contexto actual de la Ciencia de Datos
• ¿Cómo prepararnos en Ciencia de Datos?
Agenda
3. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
GoogleTrends (2021). https://trends.google.co.in/trends/explore?date=all&q=Data%20Science,Machine%20Learning,Data%20Visualization,Artificial%20Intelligence,Deep%20Learning
¿Qué es la Ciencia de Datos?
De forma reciente el término de ciencia de datos se ha vuelto muy trendy
y despierta el interés por conocer de estos temas.
4. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
.
¿Qué es la Ciencia de Datos?
La ciencia de datos se trata de procesar datos! Data science is about data!
La ciencia de datos es un campo multidisciplinario enfocado en extraer información
para ayudar a una organización a tomar mejores decisiones.
5. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
La ciencia de datos (data-science), el aprendizaje artificial o inteligente
(ML - machine learning) y la minería de datos (data mining) son términos
que comúnmente se utilizan de forma indistinta (Kelleher y Tierney, 2018),
Se puede simplificar la definición de estos conceptos (Robinson, 2018):
• la ciencia de datos nos brinda el entendimiento (insights),
• el aprendizaje automático produce predicciones y
• la inteligencia artificial produce acciones
La ciencia de datos se distingue porque su objetivo es
especialmente humano (obtener información y comprensión de lo que
significa) y puede darse de forma descriptiva, exploratoria o a nivel de causalidad.
Entra en escena un profesional, el científico de datos (data scientist), quien hará la
interpretación de los hallazgos para obtener las conclusiones.
¿Qué es la Ciencia de Datos?
6. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
Con la analogía de
los LEGOs se puede
interpretar muy bien
las tareas que se
realizan en la Ciencia
de Datos.
https://web.stanford.edu/group/sdgc/cgi-bin/ycisl/?p=4927
7. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Perfil de un científico de datos
Entonces un profesional del área debe
tener una cierta preparación para
llevar a cabo las actividades propias del
proceso del data science
La ciencia de datos se trata de procesar datos! Data science is about data!
8. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Los conocimientos y habilidades de un científico
de datos (skills) comprenden diversas áreas
Perfil de un científico de datos
9. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Se puede conformar un equipo de trabajo con
la integración de varios profesionales del Data
Science con diferentes niveles de especialización
• Data Business Person
• Data Creative
• Data Developer
• Data Researcher
• Data Enginner
Perfil de un científico de datos
13. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Data Wrangling. https://es.slideshare.net/gramener/data-wrangling-67544392
Proceso del DS: diversidad de tipos y fuentes de datos
14. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
• incompletos:
carecen de valores de atributos, carecen de ciertos atributos de interés o solo contienen datos
agregados Ejem: ocupación=“”
• ruidosos (noisy):
contienen valores atípicos (outliers), fuera de rango ó con errores (errores ortográficos, fonéticos y
tipográficos, transposiciones de palabras, varios valores en un solo campo concatenados de forma
libre), etc
Ejem., salario = “-10.00”
• inconsistentes:
contienen discrepancias en códigos o nombres (sinónimos y apodos, variaciones de prefijo y sufijo,
tienen abreviaturas, truncamiento e iniciales)
Ejemplos: Edad=“42” FechaNacimiento=“03/07/1997”
rating “1,2,3”, rating “A, B, C”
Los Datos en el mundo real están sucios (dirty-data)*
* Helena Galhardas. DEI IST. (based on the slides: “A Survey of Data Quality Issues in Cooperative Information Systems”, Carlo Batini, Tiziana Catarci, Monica Scannapieco, 23rd International Conference on Conceptual Modelling (ER 2004))
Proceso del DS: importancia de la calidad de los datos
15. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Rachael Tatman (2017) 5-Day Data Challenge in Kaggle! https://www.kaggle.com/rtatman/data-cleaning-challenge-handling-missing-values
Proceso del DS: Tareas de limpieza de datos
16. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso de DS: Adquisisición e integración de datos
https://datafloq.com/read/what-is-etl/6948
ETL - ELT: Procesos de adquisición, transformación y carga de datos
Con el Big Data ha cambiado significativamente el orden de
los procesos.
Ahora se transforman "sobre la marcha" cuando lo necesitan los
científicos de datos.
Incluso se pueden combinar para sacar las ventajas de ambos
métodos. ELT para ingestas rápidas de datos no estructurados y ETL
para flexibilidad y seguridad.
A este enfoque se le conoce como:
ETLT (Extract, Transform, Load, Transform).
https://www.astera.com/es/type/blog/etl-vs-elt-whats-the-difference/
17. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS : La fase de adquisición de datos
Los datos pueden venir de diferentes fuentes (internas, externas )
Y puede ser que seamos los propietarios o que tengamos que
“adquirirlos” de alguna manera, mediante acceso vía:
• Bases de datos estructuradas
• Web scraping
• APIs (Interfaces definidas para intercambio estructurado de datos)
Énfasis en la etapa de recuperación / adquisición / recolección de Datos
18. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS: Adquisición de datos con Web scraping
https://www.edureka.co/blog/web-scraping-with-python/
Para extraer datos usando web scraping
solo necesitamos seguir los siguientes pasos:
1. Localizar la URL que queremos escrapear
2. Analizar el código de la página
3. Identificar los datos de interés dentro del código de
la página
4. Escribir un programa que separe los datos del
código de la página
5. Ejecutar el código y extraer los datos
6. Almacenar los datos en el formato apropiado
7. Repetir el proceso por cada URL o fuente de datos
19. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Ejemplo de scraping de los libros Best-Sellers en Amazon
-- extracción de dataset de libros más vendidos
Proceso del DS: Adquisición de datos con Web scraping
20. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS: Librerías para hacer Web scraping
https://pythonbasics.org/pandas-web-scraping https://doc.scrapy.org/en/latest/intro/tutorial.html
https://oak-tree.tech/blog/python-web-scraping-selenium
Con Python se tienen varias posibilidades para
levar a cabo proyectos de Web scraping
• Request
• BeautifulSoup
• Selenium (RPA*)
• Pandas
• Scrapy
*RPA – Robotic Process Automation
21. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer Web scraping
También existen una gran variedad
de Plataformas y Herramientas
comerciales para realizar tareas de
scraping
• ScrapeHero.com
• Simplescraper.io
• parsehub.com
• webscraper.io
• webhose.io
• scraperAPI.com
• APIfy.com
22. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer DataViz
El DataViz
El principal objetivo de la visualización de datos
es facilitar el acceso a grandes para analizar y
comprender grandes volúmenes de datos.
Gracias a la información recopilada, analizada y
visualizada, es posible identificar tendencias,
comparaciones y recomendaciones.
Tableau es una plataforma de análisis visual que
transforma la forma en que usamos los datos
para resolver problemas, lo que permite que las
personas y las organizaciones aprovechen al
máximo sus datos para la toma de decisiones.
• tableau.com
23. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer DataViz
PowerBI es la plataforma de Microsoft líder en el
segmento de plataformas de análisis y business
intelligence.
Permite encontrar rápidamente valiosa
información con una alta integración de la
tecnología Microsoft en sus datos para ayudar a
tomar mejores decisiones empresariales.
• PowerBI.com
24. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para Ciencia de Datos – End to End
KNIME
Plataforma integradora,
especializada para crear y
producir ciencia de datos
utilizando un entorno fácil
e intuitivo, permitiendo
que todas las partes
interesadas en el proceso
de ciencia de datos se
concentren en lo que
mejor hacen…
• Knime.com
25. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Contexto actual de la Ciencia de Datos
¿Quiénes están aplicando el DS en el mundo? en México?
¿cómo es el mercado laboral? existe demanda por
profesionales de estas áreas?
La cultura del Data Driven – Empresas Data Driven
¿Dónde buscar información?
• StackOverflow 2021 Developer Survey
• Robert Half - Technology Salary Guide
• empleosti.com.mx
• Indeed.com
• Linked-In
Empleos y demanda de empleos para DS
26. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Para conocer más sobre Ciencia de Datos
También, una gran opción para aprender y mantenerse al tanto de los nuevos avances en
estas áreas son los foros de discusión, blogs y portales especializados.
A continuación, una breve lista de sitios recomendados:
• Towards Data Science https://towardsdatascience.com/
• Kaggle https://www.kaggle.com/
• Hackernoon.com https://hackernoon.com/
• Medium https://medium.com/
• Open Data Science https://odsc.com/
• Data Science Central https://www.datasciencecentral.com/
• Harvard Data Science Review https://hdsr.mitpress.mit.edu/
Finalmente, algunos perfiles interesantes para seguir también en twitter son:
• @IDC - IDC.com
• @kaggle - Kaggle.com
• @kdnuggets - KDNuggets
• @DataScienceCtrl - DataScience Central
• @TDataScience - Towards Data Science
27. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Donde aprender y especialirme en Ciencia de Datos
¿Qué ofertas hay disponibles para aprender DS?
• Gran oferta de especialidades, cursos, diplomados, bootcamps en DS
• ¿Quiénes ofertan?: universidades, institutos, empresas tecnológicas, alianzas.
• Costos, modalidad, duración
• ¿Qué perfil tendrá el egresado?
• Data Businessperson
• Data Creative
• Data Developer
• Data Researcher
28. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Donde aprender y especialirme en Ciencia de Datos
¿Qué ofertas hay disponibles para aprender DS?
Facultad de Telemática
• Maestría en Tecnologías de Internet
área de cómputo cognitivo
29. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Preguntas - comentarios
Muchas gracias!
J. Román Herrera Morales
Email: rherrera@ucol.mx