Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Análisis Estadístico en la Analítica Predictiva

12 views

Published on

Análisis Estadístico en la Analítica Predictiva

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Análisis Estadístico en la Analítica Predictiva

  1. 1. � Pedro Enrique Ch�vez Farfan pedro.chavez@addkw.org LPI Director Limitless Power of Information Business Analytics Society https://addkw.com/ El an�lisis estad�stico� El an�lisis estad�stico es un conjunto de procesos logicos y matematicos que incluyen diversas� � � � � � � � � � � � � � actividades como: recolecci�n, organizaci�n, resumen, presentaci�n de datos, an�lisis, y� � � � � � � � � � comienza con la identificaci�n de la poblaci�n o proceso a estudiar.� � La poblaci�n representa el conjunto de individuos que deseamos estudiar y generalmente suele� � � � � � � � � � � � � ser inaccesible. Es, en definitiva, un colectivo homog�neo que re�ne unas caracter�sticas� � � � � � � � � � � � determinadas. La muestra es un subconjunto accesible y limitado de la poblaci�n, sobre el que� � � � � � � � � � � � � � � realizamos las mediciones o el experimento con la idea de obtener conclusiones o inferencias� � � � � � � � � � � � � � generalizables a la poblaci�n.� �
  2. 2. � Pedro Enrique Ch�vez Farfan pedro.chavez@addkw.org LPI Director Limitless Power of Information Business Analytics Society https://addkw.com/ � El an�lisis estad�stico puede dividirse en: estad�stica descriptiva y estad�stica inferencial.� La estad�stica descriptiva analiza y describe a una poblaci�n en base a sus datos agregados, en� � � � � � � � � � � � � � � � tanto la estad�stica inferencial establece conclusiones, suposiciones o juicios anticipados que� � � � � � � � � � � deben demostrarse en base a experimentos o pruebas.� � La estad�stica descriptiva analiza los datos agregados de la poblaci�n y los muestra de una� � � � � � � � � � � � � � � manera gr�fica o num�rica. Cuando los datos de la muestra poblacional son de tipo num�rico� � � � � � � � � � � � � � � continuo se emplea la media o desviaci�n est�ndar para el an�lisis de agregados, en tanto en los� � � � � � � � � � � � � � � � � casos que los datos sean de tipo categor�a se emplean los valores de frecuencias y/o� � � � � � � � � � � � � � � porcentajes.� �
  3. 3. � Pedro Enrique Ch�vez Farfan pedro.chavez@addkw.org LPI Director Limitless Power of Information Business Analytics Society https://addkw.com/ De otro lado para realizar inferencias sobre la poblaci�n la estad�stica emplea patrones sobre los� � � � � � � � � � � � � � � datos muestrales, tomando en consideraci�n tambi�n la aleatoriedad.�� Una inferencia o hip�tesis es una conclusi�n o juicio anticipada que debe ser demostrada y que� � � � � � � � � � � � � � � � est� basada en hechos, proposiciones o principios generales o particulares sobre los datos. � Toda inferencia se enuncia a trav�s de hip�tesis. Las pruebas de hip�tesis en palabras simples� � � � � � � � � � � � � � � consisten en responder si/no a preguntas espec�ficas sobre los datos. Las inferencias o hip�tesis� � � � � � � � � � � � � � pueden convertirse en pron�sticos o predicciones. Este an�lisis puede tambi�n incluir� � � � � � � � � � � extrapolaci�n para replicar las conclusiones a otros �mbitos y obtener nuevas conclusiones, o� � � � � � � � � � � � � interpolaci�n de series de tiempo o datos espaciales y tambi�n procesos de miner�a de datos.� � � � �
  4. 4. � Pedro Enrique Ch�vez Farfan pedro.chavez@addkw.org LPI Director Limitless Power of Information Business Analytics Society https://addkw.com/ Procedimientos y pruebas estad�sticas� Algunas de las pruebas estad�sticas m�s usadas en Anal�tica Predictiva son:� - An�lisis Varianza (ANOVA): Estos modelos son usados para analizar las diferencias entre� � � � � � � � � � � � grupos de medias y la varianza entre los grupos.� - Prueba de Chi Cuadrado: sirve para someter a prueba hip�tesis referidas a distribuciones� � � � � � � � � � � � � de frecuencias. Esta prueba contrasta frecuencias observadas con las frecuencias� � � � � � � � � � esperadas de acuerdo con la hip�tesis nula.�� - Coeficiente de correlaci�n Pearson: medida del grado de dependencia lineal entre dos� � � � � � � � � � � � variables� - Coeficiente de correlacion - rango de Spearman: medida de la dependencia estad�stica� � � � � � � � � � � � entre 2 variables.� - An�lisis de Factores: Describe la varianza entre variables observadas y correlacionadas y� � � � � � � � � � � � variables no observadas.� - Desviaci�n ponderada de la media al cuadrado: medida de bondad del ajuste� - An�lisis de regresi�n: estimaci�n de la relaci�n existente entre variables.� - T de Student: medida de la diferencia significativa entre 2 grupos de datos.� - An�lisis de series de tiempo: an�lisis de la secuencia de datos medidos en intervalos de� � � � � � � � � � � � � � � tiempos sucesivos.� - K vecinos m�s cercanos (k nearest-neighbor): es un m�todo no param�trico para� � � � � � � � � � � � clasificaci�n y regresi�n, que predice los valores de los objetos o las categor�as de los� � � � � � � � � � � � � � � elementos basadas en las k muestras de entrenamiento m�s cercanas.� - Clasificador Naive Bayes: clasificador probabil�stico simple basado en la aplicaci�n del� � � � � � � � � � � teorema de Bayes con fuerte suposiciones independientes.� - Support vector machines: modelo de aprendizaje supervisado con algoritmos asociados� � � � � � � � � � que analizan datos y reconocen par�metros y que son usados para an�lisis de regresi�n y� � � � � � � � � � � � � � � clasificaci�n.� - El clasificador mayoritario: toma datos no an�malos y los incorpora dentro de sus� � � � � � � � � � � � � c�lculos. Esto hace que los resultados del modelo de predicci�n sean lo mas validos� � � � � � � � � � � � � � posibles.� - Regresi�n log�stica: t�cnica mediante la cual valores desconocidos de una variable� � � � � � � � � � � discreta pueden predecirse basados en valores conocidos de una o m�s variables discretas� � � � � � � � � � � � � o continuas.� - Modelamiento UpLift: modela el cambio en la probabilidad causada por el desarrollo de� � � � � � � � � � � � � una acci�n.�
  5. 5. � Pedro Enrique Ch�vez Farfan pedro.chavez@addkw.org LPI Director Limitless Power of Information Business Analytics Society https://addkw.com/ � � � � � � �

×