SlideShare una empresa de Scribd logo
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
• Introducción – ¿qué es la ciencia de datos?
• Perfiles de un científico de datos – roles, skills-set
• El proceso del Data Science
• La importancia de la calidad de los datos
• Herramientas para adquisición, procesamiento y
visualización de datos
• Herramientas para web scraping, dataviz e integración
• El contexto actual de la Ciencia de Datos
• ¿Cómo prepararnos en Ciencia de Datos?
Agenda
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
GoogleTrends (2021). https://trends.google.co.in/trends/explore?date=all&q=Data%20Science,Machine%20Learning,Data%20Visualization,Artificial%20Intelligence,Deep%20Learning
¿Qué es la Ciencia de Datos?
De forma reciente el término de ciencia de datos se ha vuelto muy trendy
y despierta el interés por conocer de estos temas.
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
.
¿Qué es la Ciencia de Datos?
La ciencia de datos se trata de procesar datos! Data science is about data!
La ciencia de datos es un campo multidisciplinario enfocado en extraer información
para ayudar a una organización a tomar mejores decisiones.
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
La ciencia de datos (data-science), el aprendizaje artificial o inteligente
(ML - machine learning) y la minería de datos (data mining) son términos
que comúnmente se utilizan de forma indistinta (Kelleher y Tierney, 2018),
Se puede simplificar la definición de estos conceptos (Robinson, 2018):
• la ciencia de datos nos brinda el entendimiento (insights),
• el aprendizaje automático produce predicciones y
• la inteligencia artificial produce acciones
La ciencia de datos se distingue porque su objetivo es
especialmente humano (obtener información y comprensión de lo que
significa) y puede darse de forma descriptiva, exploratoria o a nivel de causalidad.
Entra en escena un profesional, el científico de datos (data scientist), quien hará la
interpretación de los hallazgos para obtener las conclusiones.
¿Qué es la Ciencia de Datos?
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
Con la analogía de
los LEGOs se puede
interpretar muy bien
las tareas que se
realizan en la Ciencia
de Datos.
https://web.stanford.edu/group/sdgc/cgi-bin/ycisl/?p=4927
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Perfil de un científico de datos
Entonces un profesional del área debe
tener una cierta preparación para
llevar a cabo las actividades propias del
proceso del data science
La ciencia de datos se trata de procesar datos! Data science is about data!
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Los conocimientos y habilidades de un científico
de datos (skills) comprenden diversas áreas
Perfil de un científico de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Se puede conformar un equipo de trabajo con
la integración de varios profesionales del Data
Science con diferentes niveles de especialización
• Data Business Person
• Data Creative
• Data Developer
• Data Researcher
• Data Enginner
Perfil de un científico de datos
El proceso del Data Science
El proceso del Data Science
El proceso del Data Science
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Data Wrangling. https://es.slideshare.net/gramener/data-wrangling-67544392
Proceso del DS: diversidad de tipos y fuentes de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
• incompletos:
carecen de valores de atributos, carecen de ciertos atributos de interés o solo contienen datos
agregados Ejem: ocupación=“”
• ruidosos (noisy):
contienen valores atípicos (outliers), fuera de rango ó con errores (errores ortográficos, fonéticos y
tipográficos, transposiciones de palabras, varios valores en un solo campo concatenados de forma
libre), etc
Ejem., salario = “-10.00”
• inconsistentes:
contienen discrepancias en códigos o nombres (sinónimos y apodos, variaciones de prefijo y sufijo,
tienen abreviaturas, truncamiento e iniciales)
Ejemplos: Edad=“42” FechaNacimiento=“03/07/1997”
rating “1,2,3”, rating “A, B, C”
Los Datos en el mundo real están sucios (dirty-data)*
* Helena Galhardas. DEI IST. (based on the slides: “A Survey of Data Quality Issues in Cooperative Information Systems”, Carlo Batini, Tiziana Catarci, Monica Scannapieco, 23rd International Conference on Conceptual Modelling (ER 2004))
Proceso del DS: importancia de la calidad de los datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Rachael Tatman (2017) 5-Day Data Challenge in Kaggle! https://www.kaggle.com/rtatman/data-cleaning-challenge-handling-missing-values
Proceso del DS: Tareas de limpieza de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso de DS: Adquisisición e integración de datos
https://datafloq.com/read/what-is-etl/6948
ETL - ELT: Procesos de adquisición, transformación y carga de datos
Con el Big Data ha cambiado significativamente el orden de
los procesos.
Ahora se transforman "sobre la marcha" cuando lo necesitan los
científicos de datos.
Incluso se pueden combinar para sacar las ventajas de ambos
métodos. ELT para ingestas rápidas de datos no estructurados y ETL
para flexibilidad y seguridad.
A este enfoque se le conoce como:
ETLT (Extract, Transform, Load, Transform).
https://www.astera.com/es/type/blog/etl-vs-elt-whats-the-difference/
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS : La fase de adquisición de datos
Los datos pueden venir de diferentes fuentes (internas, externas )
Y puede ser que seamos los propietarios o que tengamos que
“adquirirlos” de alguna manera, mediante acceso vía:
• Bases de datos estructuradas
• Web scraping
• APIs (Interfaces definidas para intercambio estructurado de datos)
Énfasis en la etapa de recuperación / adquisición / recolección de Datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS: Adquisición de datos con Web scraping
https://www.edureka.co/blog/web-scraping-with-python/
Para extraer datos usando web scraping
solo necesitamos seguir los siguientes pasos:
1. Localizar la URL que queremos escrapear
2. Analizar el código de la página
3. Identificar los datos de interés dentro del código de
la página
4. Escribir un programa que separe los datos del
código de la página
5. Ejecutar el código y extraer los datos
6. Almacenar los datos en el formato apropiado
7. Repetir el proceso por cada URL o fuente de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Ejemplo de scraping de los libros Best-Sellers en Amazon
-- extracción de dataset de libros más vendidos
Proceso del DS: Adquisición de datos con Web scraping
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS: Librerías para hacer Web scraping
https://pythonbasics.org/pandas-web-scraping https://doc.scrapy.org/en/latest/intro/tutorial.html
https://oak-tree.tech/blog/python-web-scraping-selenium
Con Python se tienen varias posibilidades para
levar a cabo proyectos de Web scraping
• Request
• BeautifulSoup
• Selenium (RPA*)
• Pandas
• Scrapy
*RPA – Robotic Process Automation
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer Web scraping
También existen una gran variedad
de Plataformas y Herramientas
comerciales para realizar tareas de
scraping
• ScrapeHero.com
• Simplescraper.io
• parsehub.com
• webscraper.io
• webhose.io
• scraperAPI.com
• APIfy.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer DataViz
El DataViz
El principal objetivo de la visualización de datos
es facilitar el acceso a grandes para analizar y
comprender grandes volúmenes de datos.
Gracias a la información recopilada, analizada y
visualizada, es posible identificar tendencias,
comparaciones y recomendaciones.
Tableau es una plataforma de análisis visual que
transforma la forma en que usamos los datos
para resolver problemas, lo que permite que las
personas y las organizaciones aprovechen al
máximo sus datos para la toma de decisiones.
• tableau.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer DataViz
PowerBI es la plataforma de Microsoft líder en el
segmento de plataformas de análisis y business
intelligence.
Permite encontrar rápidamente valiosa
información con una alta integración de la
tecnología Microsoft en sus datos para ayudar a
tomar mejores decisiones empresariales.
• PowerBI.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para Ciencia de Datos – End to End
KNIME
Plataforma integradora,
especializada para crear y
producir ciencia de datos
utilizando un entorno fácil
e intuitivo, permitiendo
que todas las partes
interesadas en el proceso
de ciencia de datos se
concentren en lo que
mejor hacen…
• Knime.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Contexto actual de la Ciencia de Datos
¿Quiénes están aplicando el DS en el mundo? en México?
¿cómo es el mercado laboral? existe demanda por
profesionales de estas áreas?
La cultura del Data Driven – Empresas Data Driven
¿Dónde buscar información?
• StackOverflow 2021 Developer Survey
• Robert Half - Technology Salary Guide
• empleosti.com.mx
• Indeed.com
• Linked-In
Empleos y demanda de empleos para DS
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Para conocer más sobre Ciencia de Datos
También, una gran opción para aprender y mantenerse al tanto de los nuevos avances en
estas áreas son los foros de discusión, blogs y portales especializados.
A continuación, una breve lista de sitios recomendados:
• Towards Data Science https://towardsdatascience.com/
• Kaggle https://www.kaggle.com/
• Hackernoon.com https://hackernoon.com/
• Medium https://medium.com/
• Open Data Science https://odsc.com/
• Data Science Central https://www.datasciencecentral.com/
• Harvard Data Science Review https://hdsr.mitpress.mit.edu/
Finalmente, algunos perfiles interesantes para seguir también en twitter son:
• @IDC - IDC.com
• @kaggle - Kaggle.com
• @kdnuggets - KDNuggets
• @DataScienceCtrl - DataScience Central
• @TDataScience - Towards Data Science
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Donde aprender y especialirme en Ciencia de Datos
¿Qué ofertas hay disponibles para aprender DS?
• Gran oferta de especialidades, cursos, diplomados, bootcamps en DS
• ¿Quiénes ofertan?: universidades, institutos, empresas tecnológicas, alianzas.
• Costos, modalidad, duración
• ¿Qué perfil tendrá el egresado?
• Data Businessperson
• Data Creative
• Data Developer
• Data Researcher
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Donde aprender y especialirme en Ciencia de Datos
¿Qué ofertas hay disponibles para aprender DS?
Facultad de Telemática
• Maestría en Tecnologías de Internet
área de cómputo cognitivo
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Preguntas - comentarios
Muchas gracias!
J. Román Herrera Morales
Email: rherrera@ucol.mx

Más contenido relacionado

La actualidad más candente

Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
María Inés Cahuana Lázaro
 
Calidad de datos
Calidad de datos Calidad de datos
Calidad de datos
Software Guru
 
Exploratory data analysis
Exploratory data analysisExploratory data analysis
Exploratory data analysis
Yabebal Ayalew
 
Diccionario De Datos
Diccionario De DatosDiccionario De Datos
Diccionario De Datosnahun1385
 
PCI DSS: Justificacion del Cumplimiento
PCI DSS: Justificacion del CumplimientoPCI DSS: Justificacion del Cumplimiento
PCI DSS: Justificacion del Cumplimiento
Internet Security Auditors
 
Taller de gobierno y gestión de TI
Taller de gobierno y gestión de TITaller de gobierno y gestión de TI
Taller de gobierno y gestión de TI
Fabián Descalzo
 
1. limpieza y transformación de datos
1. limpieza y transformación de datos1. limpieza y transformación de datos
1. limpieza y transformación de datos
Miguel Murillo
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
Stratebi
 
Difference between fact tables and dimension tables
Difference between fact tables and dimension tablesDifference between fact tables and dimension tables
Difference between fact tables and dimension tables
Kamran Haider
 
Semana 2: Componentes de la Infraestructura Tecnológica
Semana 2: Componentes de la Infraestructura Tecnológica Semana 2: Componentes de la Infraestructura Tecnológica
Semana 2: Componentes de la Infraestructura Tecnológica
remyor09
 
Norma ISO 38500
Norma ISO 38500Norma ISO 38500
Norma ISO 38500
arnoldvq16
 
Diagrama de secuencia
Diagrama de secuenciaDiagrama de secuencia
Diagrama de secuencia
Kelly Cuervo
 
Exploratory data analysis
Exploratory data analysisExploratory data analysis
Exploratory data analysis
Gramener
 
Requisitos funcionales y no funcionales
Requisitos funcionales y no funcionalesRequisitos funcionales y no funcionales
Requisitos funcionales y no funcionales
Rene Guaman-Quinche
 
Optimizacion De Consultas
Optimizacion De ConsultasOptimizacion De Consultas
Optimizacion De Consultas
Oto Tumax
 
Control interno y auditoria informática
Control interno y auditoria informáticaControl interno y auditoria informática
Control interno y auditoria informáticaRoberto Porozo
 
Curso ai iso 27001
Curso ai iso 27001Curso ai iso 27001
Curso ai iso 27001
marojaspe
 
Pentesting
PentestingPentesting
Pentesting
Eventos Creativos
 
Tsp (Team Software Process )
Tsp (Team Software Process )Tsp (Team Software Process )
Tsp (Team Software Process )
silviachmn
 

La actualidad más candente (20)

Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Calidad de datos
Calidad de datos Calidad de datos
Calidad de datos
 
Exploratory data analysis
Exploratory data analysisExploratory data analysis
Exploratory data analysis
 
Diccionario De Datos
Diccionario De DatosDiccionario De Datos
Diccionario De Datos
 
PCI DSS: Justificacion del Cumplimiento
PCI DSS: Justificacion del CumplimientoPCI DSS: Justificacion del Cumplimiento
PCI DSS: Justificacion del Cumplimiento
 
Taller de gobierno y gestión de TI
Taller de gobierno y gestión de TITaller de gobierno y gestión de TI
Taller de gobierno y gestión de TI
 
1. limpieza y transformación de datos
1. limpieza y transformación de datos1. limpieza y transformación de datos
1. limpieza y transformación de datos
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Difference between fact tables and dimension tables
Difference between fact tables and dimension tablesDifference between fact tables and dimension tables
Difference between fact tables and dimension tables
 
Semana 2: Componentes de la Infraestructura Tecnológica
Semana 2: Componentes de la Infraestructura Tecnológica Semana 2: Componentes de la Infraestructura Tecnológica
Semana 2: Componentes de la Infraestructura Tecnológica
 
Norma ISO 38500
Norma ISO 38500Norma ISO 38500
Norma ISO 38500
 
Diagrama de secuencia
Diagrama de secuenciaDiagrama de secuencia
Diagrama de secuencia
 
Exploratory data analysis
Exploratory data analysisExploratory data analysis
Exploratory data analysis
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Requisitos funcionales y no funcionales
Requisitos funcionales y no funcionalesRequisitos funcionales y no funcionales
Requisitos funcionales y no funcionales
 
Optimizacion De Consultas
Optimizacion De ConsultasOptimizacion De Consultas
Optimizacion De Consultas
 
Control interno y auditoria informática
Control interno y auditoria informáticaControl interno y auditoria informática
Control interno y auditoria informática
 
Curso ai iso 27001
Curso ai iso 27001Curso ai iso 27001
Curso ai iso 27001
 
Pentesting
PentestingPentesting
Pentesting
 
Tsp (Team Software Process )
Tsp (Team Software Process )Tsp (Team Software Process )
Tsp (Team Software Process )
 

Similar a Herramientas y recursos tecnológicos para el Data Science

Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientist
Carlos Toxtli
 
Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021
Roman Herrera
 
capacitación Data science.pptx
capacitación Data science.pptxcapacitación Data science.pptx
capacitación Data science.pptx
MichaelBelmarCabrera
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
Abel Alejandro Coronado Iruegas
 
06 Periodismo Digital - arquitectura de informacion
06  Periodismo Digital - arquitectura de informacion06  Periodismo Digital - arquitectura de informacion
06 Periodismo Digital - arquitectura de informacion
Marcelo Luis Barbosa dos Santos
 
Chiclayo 2012
Chiclayo 2012Chiclayo 2012
Chiclayo 2012Dangel DC
 
Silabo bases de_datos_II
Silabo bases de_datos_IISilabo bases de_datos_II
Silabo bases de_datos_II
Marcelo Herrera
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
Oscar Valdivieso
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
Doris Aguagallo
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
Liliana Charco
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
Inés Rosero
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
Chars Orden
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
Yoly QC
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiWilliam Lozano
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
Mary Tenelema
 
silabo
silabosilabo
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiPaúl Cacuango
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
Dyego de Alvaro
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Abel Alejandro Coronado Iruegas
 

Similar a Herramientas y recursos tecnológicos para el Data Science (20)

Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientist
 
Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021
 
Rc ricardo prado
Rc ricardo pradoRc ricardo prado
Rc ricardo prado
 
capacitación Data science.pptx
capacitación Data science.pptxcapacitación Data science.pptx
capacitación Data science.pptx
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
06 Periodismo Digital - arquitectura de informacion
06  Periodismo Digital - arquitectura de informacion06  Periodismo Digital - arquitectura de informacion
06 Periodismo Digital - arquitectura de informacion
 
Chiclayo 2012
Chiclayo 2012Chiclayo 2012
Chiclayo 2012
 
Silabo bases de_datos_II
Silabo bases de_datos_IISilabo bases de_datos_II
Silabo bases de_datos_II
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
silabo
silabosilabo
silabo
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 

Último

e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
diegozuniga768
 
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdfPaíses_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
JC Díaz Herrera
 
Presentación diagrama de flujo del desarrollo aronautico.pptx
Presentación diagrama de flujo del desarrollo aronautico.pptxPresentación diagrama de flujo del desarrollo aronautico.pptx
Presentación diagrama de flujo del desarrollo aronautico.pptx
cmrodriguezortiz1103
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Emisor Digital
 
Desarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamientoDesarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamiento
ManuelaReina3
 
Análisis Datos imprecisos con lógica difusa.pdf
Análisis Datos imprecisos con lógica difusa.pdfAnálisis Datos imprecisos con lógica difusa.pdf
Análisis Datos imprecisos con lógica difusa.pdf
ReAViILICo
 
Diapositivas D.I.P.. sobre la importancia que tiene la interpol en Honduraspptx
Diapositivas D.I.P.. sobre la importancia que tiene la interpol en HonduraspptxDiapositivas D.I.P.. sobre la importancia que tiene la interpol en Honduraspptx
Diapositivas D.I.P.. sobre la importancia que tiene la interpol en Honduraspptx
WalterOrdoez22
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
SantiagoMejia99
 
Ojiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datosOjiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datos
JaimeYael
 
Presentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramasPresentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramas
JosMuoz943377
 
Instituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdfInstituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdf
JC Díaz Herrera
 
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
EliseoLuisRamrez
 
Desarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento InformaticaDesarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento Informatica
floralbaortega88
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
IrapuatoCmovamos
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
MelanieYuksselleCarr
 
PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.
MELANYANELKACRUZLEON
 
Claves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdfClaves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdf
Emisor Digital
 

Último (17)

e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
 
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdfPaíses_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
 
Presentación diagrama de flujo del desarrollo aronautico.pptx
Presentación diagrama de flujo del desarrollo aronautico.pptxPresentación diagrama de flujo del desarrollo aronautico.pptx
Presentación diagrama de flujo del desarrollo aronautico.pptx
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
 
Desarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamientoDesarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamiento
 
Análisis Datos imprecisos con lógica difusa.pdf
Análisis Datos imprecisos con lógica difusa.pdfAnálisis Datos imprecisos con lógica difusa.pdf
Análisis Datos imprecisos con lógica difusa.pdf
 
Diapositivas D.I.P.. sobre la importancia que tiene la interpol en Honduraspptx
Diapositivas D.I.P.. sobre la importancia que tiene la interpol en HonduraspptxDiapositivas D.I.P.. sobre la importancia que tiene la interpol en Honduraspptx
Diapositivas D.I.P.. sobre la importancia que tiene la interpol en Honduraspptx
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
 
Ojiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datosOjiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datos
 
Presentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramasPresentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramas
 
Instituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdfInstituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdf
 
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
 
Desarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento InformaticaDesarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento Informatica
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
 
PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.
 
Claves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdfClaves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdf
 

Herramientas y recursos tecnológicos para el Data Science

  • 1. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
  • 2. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 • Introducción – ¿qué es la ciencia de datos? • Perfiles de un científico de datos – roles, skills-set • El proceso del Data Science • La importancia de la calidad de los datos • Herramientas para adquisición, procesamiento y visualización de datos • Herramientas para web scraping, dataviz e integración • El contexto actual de la Ciencia de Datos • ¿Cómo prepararnos en Ciencia de Datos? Agenda
  • 3. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción GoogleTrends (2021). https://trends.google.co.in/trends/explore?date=all&q=Data%20Science,Machine%20Learning,Data%20Visualization,Artificial%20Intelligence,Deep%20Learning ¿Qué es la Ciencia de Datos? De forma reciente el término de ciencia de datos se ha vuelto muy trendy y despierta el interés por conocer de estos temas.
  • 4. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción . ¿Qué es la Ciencia de Datos? La ciencia de datos se trata de procesar datos! Data science is about data! La ciencia de datos es un campo multidisciplinario enfocado en extraer información para ayudar a una organización a tomar mejores decisiones.
  • 5. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción La ciencia de datos (data-science), el aprendizaje artificial o inteligente (ML - machine learning) y la minería de datos (data mining) son términos que comúnmente se utilizan de forma indistinta (Kelleher y Tierney, 2018), Se puede simplificar la definición de estos conceptos (Robinson, 2018): • la ciencia de datos nos brinda el entendimiento (insights), • el aprendizaje automático produce predicciones y • la inteligencia artificial produce acciones La ciencia de datos se distingue porque su objetivo es especialmente humano (obtener información y comprensión de lo que significa) y puede darse de forma descriptiva, exploratoria o a nivel de causalidad. Entra en escena un profesional, el científico de datos (data scientist), quien hará la interpretación de los hallazgos para obtener las conclusiones. ¿Qué es la Ciencia de Datos?
  • 6. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción Con la analogía de los LEGOs se puede interpretar muy bien las tareas que se realizan en la Ciencia de Datos. https://web.stanford.edu/group/sdgc/cgi-bin/ycisl/?p=4927
  • 7. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Perfil de un científico de datos Entonces un profesional del área debe tener una cierta preparación para llevar a cabo las actividades propias del proceso del data science La ciencia de datos se trata de procesar datos! Data science is about data!
  • 8. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Los conocimientos y habilidades de un científico de datos (skills) comprenden diversas áreas Perfil de un científico de datos
  • 9. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Se puede conformar un equipo de trabajo con la integración de varios profesionales del Data Science con diferentes niveles de especialización • Data Business Person • Data Creative • Data Developer • Data Researcher • Data Enginner Perfil de un científico de datos
  • 10. El proceso del Data Science
  • 11. El proceso del Data Science
  • 12. El proceso del Data Science
  • 13. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Data Wrangling. https://es.slideshare.net/gramener/data-wrangling-67544392 Proceso del DS: diversidad de tipos y fuentes de datos
  • 14. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 • incompletos: carecen de valores de atributos, carecen de ciertos atributos de interés o solo contienen datos agregados Ejem: ocupación=“” • ruidosos (noisy): contienen valores atípicos (outliers), fuera de rango ó con errores (errores ortográficos, fonéticos y tipográficos, transposiciones de palabras, varios valores en un solo campo concatenados de forma libre), etc Ejem., salario = “-10.00” • inconsistentes: contienen discrepancias en códigos o nombres (sinónimos y apodos, variaciones de prefijo y sufijo, tienen abreviaturas, truncamiento e iniciales) Ejemplos: Edad=“42” FechaNacimiento=“03/07/1997” rating “1,2,3”, rating “A, B, C” Los Datos en el mundo real están sucios (dirty-data)* * Helena Galhardas. DEI IST. (based on the slides: “A Survey of Data Quality Issues in Cooperative Information Systems”, Carlo Batini, Tiziana Catarci, Monica Scannapieco, 23rd International Conference on Conceptual Modelling (ER 2004)) Proceso del DS: importancia de la calidad de los datos
  • 15. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Rachael Tatman (2017) 5-Day Data Challenge in Kaggle! https://www.kaggle.com/rtatman/data-cleaning-challenge-handling-missing-values Proceso del DS: Tareas de limpieza de datos
  • 16. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso de DS: Adquisisición e integración de datos https://datafloq.com/read/what-is-etl/6948 ETL - ELT: Procesos de adquisición, transformación y carga de datos Con el Big Data ha cambiado significativamente el orden de los procesos. Ahora se transforman "sobre la marcha" cuando lo necesitan los científicos de datos. Incluso se pueden combinar para sacar las ventajas de ambos métodos. ELT para ingestas rápidas de datos no estructurados y ETL para flexibilidad y seguridad. A este enfoque se le conoce como: ETLT (Extract, Transform, Load, Transform). https://www.astera.com/es/type/blog/etl-vs-elt-whats-the-difference/
  • 17. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso del DS : La fase de adquisición de datos Los datos pueden venir de diferentes fuentes (internas, externas ) Y puede ser que seamos los propietarios o que tengamos que “adquirirlos” de alguna manera, mediante acceso vía: • Bases de datos estructuradas • Web scraping • APIs (Interfaces definidas para intercambio estructurado de datos) Énfasis en la etapa de recuperación / adquisición / recolección de Datos
  • 18. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso del DS: Adquisición de datos con Web scraping https://www.edureka.co/blog/web-scraping-with-python/ Para extraer datos usando web scraping solo necesitamos seguir los siguientes pasos: 1. Localizar la URL que queremos escrapear 2. Analizar el código de la página 3. Identificar los datos de interés dentro del código de la página 4. Escribir un programa que separe los datos del código de la página 5. Ejecutar el código y extraer los datos 6. Almacenar los datos en el formato apropiado 7. Repetir el proceso por cada URL o fuente de datos
  • 19. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Ejemplo de scraping de los libros Best-Sellers en Amazon -- extracción de dataset de libros más vendidos Proceso del DS: Adquisición de datos con Web scraping
  • 20. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso del DS: Librerías para hacer Web scraping https://pythonbasics.org/pandas-web-scraping https://doc.scrapy.org/en/latest/intro/tutorial.html https://oak-tree.tech/blog/python-web-scraping-selenium Con Python se tienen varias posibilidades para levar a cabo proyectos de Web scraping • Request • BeautifulSoup • Selenium (RPA*) • Pandas • Scrapy *RPA – Robotic Process Automation
  • 21. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para hacer Web scraping También existen una gran variedad de Plataformas y Herramientas comerciales para realizar tareas de scraping • ScrapeHero.com • Simplescraper.io • parsehub.com • webscraper.io • webhose.io • scraperAPI.com • APIfy.com
  • 22. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para hacer DataViz El DataViz El principal objetivo de la visualización de datos es facilitar el acceso a grandes para analizar y comprender grandes volúmenes de datos. Gracias a la información recopilada, analizada y visualizada, es posible identificar tendencias, comparaciones y recomendaciones. Tableau es una plataforma de análisis visual que transforma la forma en que usamos los datos para resolver problemas, lo que permite que las personas y las organizaciones aprovechen al máximo sus datos para la toma de decisiones. • tableau.com
  • 23. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para hacer DataViz PowerBI es la plataforma de Microsoft líder en el segmento de plataformas de análisis y business intelligence. Permite encontrar rápidamente valiosa información con una alta integración de la tecnología Microsoft en sus datos para ayudar a tomar mejores decisiones empresariales. • PowerBI.com
  • 24. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para Ciencia de Datos – End to End KNIME Plataforma integradora, especializada para crear y producir ciencia de datos utilizando un entorno fácil e intuitivo, permitiendo que todas las partes interesadas en el proceso de ciencia de datos se concentren en lo que mejor hacen… • Knime.com
  • 25. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Contexto actual de la Ciencia de Datos ¿Quiénes están aplicando el DS en el mundo? en México? ¿cómo es el mercado laboral? existe demanda por profesionales de estas áreas? La cultura del Data Driven – Empresas Data Driven ¿Dónde buscar información? • StackOverflow 2021 Developer Survey • Robert Half - Technology Salary Guide • empleosti.com.mx • Indeed.com • Linked-In Empleos y demanda de empleos para DS
  • 26. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Para conocer más sobre Ciencia de Datos También, una gran opción para aprender y mantenerse al tanto de los nuevos avances en estas áreas son los foros de discusión, blogs y portales especializados. A continuación, una breve lista de sitios recomendados: • Towards Data Science https://towardsdatascience.com/ • Kaggle https://www.kaggle.com/ • Hackernoon.com https://hackernoon.com/ • Medium https://medium.com/ • Open Data Science https://odsc.com/ • Data Science Central https://www.datasciencecentral.com/ • Harvard Data Science Review https://hdsr.mitpress.mit.edu/ Finalmente, algunos perfiles interesantes para seguir también en twitter son: • @IDC - IDC.com • @kaggle - Kaggle.com • @kdnuggets - KDNuggets • @DataScienceCtrl - DataScience Central • @TDataScience - Towards Data Science
  • 27. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Donde aprender y especialirme en Ciencia de Datos ¿Qué ofertas hay disponibles para aprender DS? • Gran oferta de especialidades, cursos, diplomados, bootcamps en DS • ¿Quiénes ofertan?: universidades, institutos, empresas tecnológicas, alianzas. • Costos, modalidad, duración • ¿Qué perfil tendrá el egresado? • Data Businessperson • Data Creative • Data Developer • Data Researcher
  • 28. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Donde aprender y especialirme en Ciencia de Datos ¿Qué ofertas hay disponibles para aprender DS? Facultad de Telemática • Maestría en Tecnologías de Internet área de cómputo cognitivo
  • 29. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Preguntas - comentarios Muchas gracias! J. Román Herrera Morales Email: rherrera@ucol.mx