Upcoming SlideShare
×

493 views
451 views

Published on

0 Likes
Statistics
Notes
• Full Name
Comment goes here.

Are you sure you want to Yes No
• Be the first to comment

• Be the first to like this

Views
Total views
493
On SlideShare
0
From Embeds
0
Number of Embeds
404
Actions
Shares
0
0
0
Likes
0
Embeds 0
No embeds

No notes for slide
• Estadística tiene 2 significados: Uso común información numérica La ciencia que se ocupa de recolectar, organizar , presentar, analizar e interpretar datos para ayudar en la toma de desiciones más efectiva. Preguntar pára que usan estadística en tu empresa
• Data can be further classified as being qualitative or quantitative. The statistical analysis that is appropriate depends on whether the data for the variable are qualitative or quantitative.
• In general, there are more alternatives for statistical analysis when the data are quantitative.
• http://onlinestatbook.com/2/introduction/measurement_demo.html Se encuentra que la marca 1 es más dulce que la 2 con 30-36-43-57-75-79 (ver promedios) 4- Sex, Race, and Teacher effectiveness are qualitative Age, Number of hours, and Calificación promedio are quantitative 5- Sex: nominal Race: nominal Age: ratio Number of hours: ratio Grade point average: ratio Teacher effectiveness: ordinal
• No rebasa el conocimiento que aportan los mismos datos Hace uso de gráficas, tablas y diagramas que muestran los datos y facilitan su interpretación Estadística deductiva (general a lo particular)
• – Rebasa el contenido de los datos-. Population . the set of all elements of interest in a particular study Sample . a subset of the population Inferencia estadística . the process of using data obtained from a sample to make estimates and test hypotheses about the characteristics of a population Census . collecting data for a population Sample survey . collecting data for a sample A population is a collection of all possible individuals, objects, or measurements of interest. A sample is a portion, or part, of the population of interest
• Hacer el ejercicio de lo que se gana en una empresa. Mejor medida la Moda Hablar sobre fórmula de desviación estándar. Desviación= Sum(observado-modelo)^2
• Pago mucho o poco?.... Ver que queden en el rango de la media. Hablar de dispersión aquí.
• The variance is a measure of variability that utilizes all the data. It is based on the difference between the value ofeach observation ( xi ) and the mean ( for a sample, m for a population). Mencionar en este momento COVARIANZA y coeficiente de covarioación , sólo mencionar r= Sxy/SxSy
• The standard deviation of a data set is the positive square root of the variance. It is measured in the same units as the data , making it more easily interpreted than the variance.
• Comentar sobre el error estándar (en muestreo)
• Bajar archivo Saldo en tarjetas de crédito
• The most common numerical descriptive statistic is the average (or mean ). Gasto promedio, based on the 300 observaciones, is \$753.68 (found by summing the 300 credit card’s balance and then dividing by 300).
• Hay dos formas en las cuales la distribución se puede desviar de la normal; Falta de simetría : Skewness (sesgo) Falta de : Curtosos
• An important measure of the shape of a distribution is called skewness . The formula for computing skewness for a data set is somewhat complex. Skewness can be easily computed using statistical software. -------------------------------------------------------------------------------------- Symmetric (not skewed) Skewness is zero. Mean and median are equal. -------------------------------------------------------- Moderately Skewed Left -.31 Skewness is negative. Mean will usually be less than the median. ------------------------------------------------------------------------------- Moderately Skewed Right .31 Skewness is positive. Mean will usually be more than the median. ------------------------------------------------------------------------------ Highly Skewed Right 1.25 Skewness is positive (often above 1.0). Mean will usually be more than the median. ------------------------------------------------------------------------------
• El  coeficiente de  curtosis  mide cuan &apos;puntiaguda&apos; es una distribución respecto de un estándar. Este estándar es una forma acampanada denominada &apos;normal&apos;, y corresponde a una curva de gran importancia en estadística. http://www.spssfree.com/spss/analisis3.html Una curva Mesocúrtica tiene un Coeficiente de Curtosis  cercano  a cero. Una Leptocúrtica, un valor notoriamente mayor que cero y una Platicúrtica valores menores que cero.
• http://www.shodor.org/interactivate/activities/NormalDistribution/
• Pago mucho o poco?.... Ver que queden en el rango de la media. Hablar de dispersión aquí. Percentiles: p por ciento de los observaciones son menores o iguales a este valor 1er cuartil=(25/100)*70= 17.5= 18. (se redondea siempre hacia arriba) =&gt; valor de la 18ª posición = 445 3er cuartil= (75/100)*70= 52.5 = 53. =&gt; valor de la 53ª posición = 525
• ***** ojo Laboratorio 02 “Relating Histograms and Box and Whisper Plots******** A box is drawn with its ends located at the first and third quartiles. A vertical line is drawn in the box at the location of the median (second quartile). Limits are located (not drawn) using the interquartile range (IQR). Data outside these limits are considered outliers The locations of each outlier is shown with the symbol * The lower limit is located 1.5(IQR) below Q 1. Lower Limit: Q1 - 1.5(IQR) = 445 - 1.5(80) = 325 The upper limit is located 1.5(IQR) above Q 3 Upper Limit: Q3 + 1.5(IQR) = 525 + 1.5(80) = 645 There are no outliers (values less than 325 or greater than 645) in the apartment rent data.
• When comparing two or more groups, it is generally a good idea to start by creating some form of side-by side  boxplots  or quantile plots. These plots reveal important information about the location, spread, and shape of the distribution of scores in each group La gráfica muestra que la sonrisa falsa dio lugar a la mayor indulgencia y la expresión neutra llevó a lo menor indulgencia. La mediana para una sonrisa falsa es más alta que el percentil 75 para la expresión neutral. Las distribuciones no parecen tener mucho sesgo: la media y la mediana son casi iguales y las medianas están a punto a mitad de camino entre los percentiles 25 y 75. Summarizing the results: (a) the average of the three smile conditions is significantly different from the neutral control condition, (b) the three smile conditions are not significantly different from each other, and (c) only the false smile condition is significantly different from the neutral control. Among the possible states of the population are: (a) All three smile conditions are different from the neutral condition and (b) Only the false-smile condition is different from the neutral condition. The former possibility appears more likely than the latter because there were at least hints of differences between the felt and neutral conditions and between the miserable and neutral conditions whereas there was no evidence of differences among the three smile conditions.
• Usamos un modelo que represente a la población. Usualmente los científicos prueban hipótesis: predecir acerca de los parámetros poblacionales. Hipótesis nula. Hipótesis alternativa. Lo que hacemos es probar los datos en el modelo. Si el modelo ajusta: esto es si se explica la mayor parte de la variación, entonces decimos que la hipótesis es verdadera.
• Nunca sabemos determinísticamente los resultados, trabajamos probabilísticamente 6 copas, en donde se sirve el té o el azúcar primero
• 20 combinaciones . Ver archivo excel C1 C2 C3 C4 C5 C6 1 T T T A A A 2 T T A T A A 3 T T A A T A 4 T T A A A T 5 T A T T A A 6 T A T A T A 7 T A T A A T 8 T A A T T A 9 T A A T A T 10 T A A A T T 11 A T T T A A 12 A T T A T A 13 A T T A A T 14 A T A T T A 15 A T A T A T 16 A T A A T T 17 A A T T T A 18 A A T T A T 19 A A T A T T 20 A A A T T T
• Como decir que el modelo es una buena representación de la realidad? Recolectamos los datos y estos tendrán una variación. Hat dos tipos de variación: sistemática y Unisistemática El calculo del estadístico dependiendo de la prueba, z, t , chi cuadrada, F Si el estadístico es mayor que uno, nuestro modelo puede explicar mayor variación de la que no puede explicar. A mayor variación que explica el modelo, menor es la probabilidad de que ocurra por casualidad. Cuando esta probabilidad es menor que 0.05 (criterio de Fisher) aceptamos que el modelo nos da la suficiente certeza que explica lo que sucede en el mundo real. Aceptamos la Ha.
• – Rebasa el contenido de los datos-. Population . the set of all elements of interest in a particular study Sample . a subset of the population Inferencia estadística . the process of using data obtained from a sample to make estimates and test hypotheses about the characteristics of a population Census . collecting data for a population Sample survey . collecting data for a sample A population is a collection of all possible individuals, objects, or measurements of interest. A sample is a portion, or part, of the population of interest
• Hablar de probabilidad aquí Chevalier de Méré, noble francés hace 300 años. Probabilidad de obtener par de 1s en un par de dados Blaise Pascal 1er intento de contestar con su amigo Pierre de Fermat 1650 Pierre-Simon de Laplace 1as obras de probabilidad 1812.Theorie Analytique des Probabilites Probabilidad as a Numerical Measure of the Likelihood of Occurrence Sum P(x) = 1 0&lt;=P(x)&lt;=1 Asignación de probabilidades M clásico M subjetivo M frecuencia relativa TODO es sobre saber contar Hacer primero el ejercicio con 4 alumnos y seleccionar un equipo de 3. 4! / 3!(4-3)! = 4 combinaciones A second useful counting rule enables us to count the number of experimental outcomes when n objects are to be selected from a set of N objects. ¿cuántas combinaciones hay en el melate? (47 6) = 10,737,537 -&gt; en excel combinat(47,6) A second useful counting rule enables us to count the number of experimental outcomes when n objects are to be selected from a set of N objects. En excel. Permutaciones(47,6) -&gt; 7,731,052,560 ¿Cuántas maneras hay de asignar los cuatro primeros lugares de un concurso de creatividad que se verifica en las instalaciones de nuestro instituto, si hay 14 participantes? Solución: Haciendo uso del principio multiplicativo, 14x13x12x11 = 24,024 maneras de asignar los primeros cuatro lugares del concurso Esta solución se debe, a que al momento de asignar el primer lugar tenemos a 14 posibles candidatos, una vez asignado ese lugar nos quedan 13 posibles candidatos para el segundo lugar, luego tendríamos 12 candidatos posibles para el tercer lugar y por último tendríamos 11 candidatos posibles para el cuarto lugar. Luego si N es el total de participantes en el concurso y n es el número de participantes que van a ser premiados, y partiendo de la expresión anterior, entonces. 14x13x12x11= N x (N - 1) x (N - 2) x ………. x (N – n + 1) si la expresión anterior es multiplicada por (N – n)! / (N – n)!, entonces = N x (N –1 ) x (N – 2) x ……… x (N – n + 1)x (N – n)! / (N – n)! = N!/ (N – n)!

1. 1. Sesión 1Sesión 1Conceptos BásicosConceptos BásicosEstadística en lasorganizaciones CD4001Dr. Jorge Ramírez Medina
2. 2. Información del cursoInformación del cursoDr Jorge Ramírez MedinaEGADE Business School• Trabajo parcial 10• Tareas 40• Exámenes rápidos 50• Total 100
3. 3. TemarioDr. Jorge Ramírez MedinaEGADE Business SchoolSesión Temas1 Conceptos Básicos2 Correlación y Regresión3 Comparación de medias4 Pruebas de Hipótesis de dos poblaciones5 Anova6 Repaso y evaluación final
5. 5. ContactoTeléfono: (55) 5864555 ext 2244Correo: jorge.ramirez@itesm.mx;mssg: jorge.ramirez@itesm.mxSkype: Karoshi.Darkside;Second Life: Karoshi DeznoTwitter: @KaroshiDeznoDr. Jorge Ramírez MedinaEGADE Bussines School
7. 7. Tiene que ver contoma de decisiones“Hay tres tipos de mentiras: las mentiras, las malditas mentirasy las estadísticas”Benjamin Disraeli“Las cifras no mienten; los mentirosos las imaginan”PopularSe ha comprobado que de cada 10 televidentes, el 100% vetelevisión,Dr Jorge Ramírez MedinaEGADE Business School
8. 8. Definición deEstadísticaEs la ciencia pura y aplicada que tratade la recolección, organización,presentación y análisis de conjuntos dedatos con el fin de obtenerconclusiones o inferencias y establecersu grado de incertidumbreDr Jorge Ramírez MedinaEGADE Business School
9. 9. Dr Jorge Ramírez MedinaEGADE Business SchoolDatos Cualitativosson Etiquetas o nombres que se utilizan para identificarson Etiquetas o nombres que se utilizan para identificarun atributo de cada elemento.un atributo de cada elemento.A menudo son conocidos como Datos CategóricosA menudo son conocidos como Datos CategóricosUtilizan la escala ordinal o nominalUtilizan la escala ordinal o nominalPueden ser numéricos o no numéricosPueden ser numéricos o no numéricosEl análisis estadístico con Datos Cualitativos esEl análisis estadístico con Datos Cualitativos esmás reciente y más complejo.más reciente y más complejo.
10. 10. Dr Jorge Ramírez MedinaEGADE Business SchoolLos Datos Cuantitativos son valores numéricos queLos Datos Cuantitativos son valores numéricos queQue indican cuanto o cuántos:Que indican cuanto o cuántos:discretosdiscretos, si miden cuantos, si miden cuantosdiscretosdiscretos, si miden cuantos, si miden cuantoscontinuoscontinuos, si mide cuánto, no existe separación, si mide cuánto, no existe separaciónEntre los posibles valores de los DatosEntre los posibles valores de los Datoscontinuoscontinuos, si mide cuánto, no existe separación, si mide cuánto, no existe separaciónEntre los posibles valores de los DatosEntre los posibles valores de los DatosLos datos cuantitativos son siempre numéricos.Los datos cuantitativos son siempre numéricos.Las técnicas estadísticas tradicionalmente se enfocaronLas técnicas estadísticas tradicionalmente se enfocaronInicalmente en datos cuantitativos..Inicalmente en datos cuantitativos..Datos Cuantitativos
11. 11. Dr Jorge Ramírez MedinaEGADE Business SchoolCualitativosCualitativos CuantitativosCuantitativosNuméricosNuméricos NuméricosNuméricosNo numéricosNo numéricosDatosDatosNominalNominal OrdinalOrdinal NominalNominal OrdinalOrdinal IntervaloIntervalo RazónRazónEscalas de mediciónEscalas de medición
13. 13. Dr Jorge Ramírez MedinaEGADE Business SchoolEstadística InferencialEl propósito de esta rama es obtenerpredicciones de una población con base eninformación obtenida de una muestra.
14. 14. Modelos estadísticossimples• Medidas de tendencia Central– Media, Moda, Mediana• Medidas de dispersión– Varianza, Desviación estándarDr. Jorge Ramírez MedinaEGADE Business School
15. 15. Ejemplo Salarios425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615Dr. Jorge Ramírez MedinaEGADE Business School
16. 16. Dr Jorge Ramírez MedinaEGADE Business Schoolse calcula de la siguiente manera:se calcula de la siguiente manera:La varianza es el promedio de la diferencia de losLa varianza es el promedio de la diferencia de loscuadrados entre cada valor de datos y la media.cuadrados entre cada valor de datos y la media.Para unamuestraPara unapoblaciónVarianza( )122−−Σ=nxxs i( )nxi22 µσ−Σ=NN
17. 17. Dr Jorge Ramírez MedinaEGADE Business SchoolSe calcula de la siguiente manera:Se calcula de la siguiente manera:Para unamuestraPara unapoblaciónDesviación Estándar2ss = σ σ= 2
18. 18. Dr Jorge Ramírez MedinaEGADE Business Schoolse calcula como sigue:se calcula como sigue:Coeficiente deVariaciónEl coeficiente of variación indica que tan grande es laEl coeficiente of variación indica que tan grande es ladesviación estándard en relación a la media.desviación estándard en relación a la media.Para unamuestraPara unapoblación( )%100×xs %100×µσ
19. 19. Cálculo en el ejemploDr Jorge Ramírez MedinaEGADE Business School      × = × =      54.74100 % 100 % 11.15%490.80sx22996.47 54.74s s= = =La desviaciónLa desviaciónestándardestándardes cerca deles cerca del11% de la media11% de la media• Varianza• Desviación estándar• Coeficiente de Variación22 ( )2,996.161ix xsn−= =−∑
22. 22. Dr Jorge Ramírez MedinaEGADE Business SchoolAnalizar los saldos de las tarjetas de los clientes deun banco. (300 observaciones)Ejemplo; cuánto gastas?
25. 25. Dr Jorge Ramírez MedinaEGADE Business SchoolRelativeFrequency.05.10.15.20.25.30.350Sesgo = 0Sesgo = 0SesgoRelativeFrequency.05.10.15.20.25.30.350Sesgo =Sesgo = −− .31.31RelativeFrequency.05.10.15.20.25.30.350Sesgo = .31Sesgo = .31RelativeFrequency.05.10.15.20.25.30.350Sesgo = 1.25Sesgo = 1.25
27. 27. Desviación estándar ycontorno de la distribuciónDr Jorge Ramírez MedinaEGADE Business School
28. 28. Ejemplo Salarios425 430 430 435 435 435 435 435 440 440440 440 440 445 445 445 445 445 450 450450 450 450 450 450 460 460 460 465 465465 470 470 472 475 475 475 480 480 480480 485 490 490 490 500 500 500 500 510510 515 525 525 525 535 549 550 570 570575 575 580 590 600 600 600 600 615 615Valor más bajo = 425 1er Cuartil = 445Mediana = 4753er Cuartil = 525 Mayor valor = 615Dr Jorge Ramírez MedinaEGADE Business School
29. 29. 325 400 425 450 475 500 525 550 575 600 645Q1 = 445 Q3 = 525Q2 = 475Diagrama de Caja• Los bigotes (líneas punteadas) se dibujan del final de la caja alos valores más grandes y pequeños dentro de los límitesSmallest valueinside limits = 425Largest valueinside limits = 615Dr Jorge Ramírez MedinaEGADE Business School
33. 33. El modelo representa elmundo real?• Para cuantificar el efecto en la poblaciónseguimos un proceso de cuatro pasos:1. Generar una hipótesis2. Recolectar los datos3. Ajuste del modelo4. Evaluar el modeloDr. Jorge Ramírez MedinaEGADE Business School
34. 34. Trabajamos en elárea de la probabilidadDr. Jorge Ramírez MedinaEGADE Business SchoolRonald Fisher, 19252 copas, 50%6 copas, 5%Confianza del 95%
35. 35. Trabajamos en elárea de la probabilidadDr. Jorge Ramírez MedinaEGADE Business SchoolT AT T AAT T A T AAT T A A TAT T A A ATT A T T AA
38. 38. Dr Jorge Ramírez MedinaEGADE Business SchoolVariable aleatoriaUna variable aleatoria es una descripción numéricadel resultado de un experimento.Una variable aleatoria discreta puede asumir unnúmero finito de valores o una secuencia infinita deValores.Una variable aleatoria continua puede asumircualquier valor numérico en una intervalo o unconjunto de intervalos.
39. 39. Dr Jorge Ramírez MedinaEGADE Business SchoolTome x = número de TVs vendidas en la tiendaen un día. x puede tomar 5 valores (0, 1, 2, 3, 4)Ejemplo: Tiendas deTodoVariable aleatoria discreta con un númerofinito de valores.
40. 40. Dr Jorge Ramírez MedinaEGADE Business SchoolVariable aleatoria discreta con un númeroinfinito de valores.Podemos contar los clientes pero no hay unlímite finito de los que puedan llegar.Tome x = número de clientes que llegan a la tiendaen un día. x puede tomar 5 valores 0, 1, 2, 3, 4…..Ejemplo: Tiendas deTodo
41. 41. Dr Jorge Ramírez MedinaEGADE Business SchoolPregunta Random Variable x TypeTamaño deLa familiax = Número of dependientesreportados para el censoDiscretaDistancia de lacasa a la escuelax = Distancia en kms. de lacasa a la escuelaContinuaTener mascotaperros y/ogatosx = 1 si no tiene mascota;= 2 si tiene perro(s) únicamente;= 3 si tiene gato(s) únicamente;= 4 si tiene perro(s) y gatos(s)DiscretaVariables aleatorias
42. 42. Dr Jorge Ramírez MedinaEGADE Business SchoolLa distribución de probabilidad de una variablealeatoria describe como las probabilidades estándistribuidas sobre los valores de la variable.Podemos representar la distribución discreta deprobabilidad con una tabla, una gráfica o una ecuación.Distribuciones deprobabilidad discretas
43. 43. Dr Jorge Ramírez MedinaEGADE Business SchoolLa distribución de probabilidad está definida por una funciónde probabilidad, f(x), la cuál provee la probabilidad paracada valor de la variable aleatoria.Las condiciones requeridas para una función deProbabilidad discreta son;ff((xx)) >> 00ΣΣf(x) = 1f(x) = 1Distribuciones deprobabilidad discretas
44. 44. Dr Jorge Ramírez MedinaEGADE Business Schooldesarrolle una representación tabular de la distribuciónde probabilidad de las ventas de TVsUtilizando los datos de ventas de TV’sUnidades NúmeroVendidas de días0 801 502 403 104 20200x f(x)0 .401 .252 .203 .054 .101.0080/200Distribuciones deprobabilidad discretas
45. 45. Dr Jorge Ramírez MedinaEGADE Business School.10.20.30.40.500 1 2 3 4Valores de la Variable Aleatoria x (ventas de TV)ProbabilidadRepresentación gráfica de la distribución de probabilidadDistribuciones deprobabilidad discretas
46. 46. Dr Jorge Ramírez MedinaEGADE Business SchoolValor Esperado yVarianzaEl valor esperado, o media, de una variable aleatoriaes una media de su localización.La varianza resume la variabilidad en los valores dela variable aleatoria.La desviación estándar, , está definida como laraíz cuadrada positiva de la varianza.Var(x) = σ 2= Σ(x - µ)2f(x)E(x) = µ = Σxf(x)
47. 47. Dr Jorge Ramírez MedinaEGADE Business SchoolValor esperadoNúmero esperado de TVsNúmero esperado de TVsvendidas en un día.vendidas en un día.x f(x) xf(x)0 .40 .001 .25 .252 .20 .403 .05 .154 .10 .40E(x) = 1.20Valor Esperado yVarianza
48. 48. Dr Jorge Ramírez MedinaEGADE Business SchoolVarianza y Desviación estándar01234-1.2-0.20.81.82.81.440.040.643.247.84.40.25.20.05.10.576.010.128.162.784x - µ (x - µ)2f(x) (x - µ)2f(x)Varianza de las ventas diarias = σ 2= 1.660xTVsal cuadradoDesviación estándar de las ventas diarias = 1.2884 TVsValor esperado yvarianza