Estadistica primera parte
Upcoming SlideShare
Loading in...5
×
 

Estadistica primera parte

on

  • 16,401 views

 

Statistics

Views

Total Views
16,401
Slideshare-icon Views on SlideShare
16,401
Embed Views
0

Actions

Likes
4
Downloads
180
Comments
5

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

15 of 5 Post a comment

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Estadistica primera parte Estadistica primera parte Document Transcript

    • Estadística Una forma de adquirir conocimiento Prof. EEC Angel Luis Vicentín Conceptos básicos • Población: conjunto completo de individuos, objetos o datos que el investigador está interesado en estudiar. – Muestra: Subconjunto de la población. • Variable: Cualquier propiedad o característica de algún evento, objeto o persona, que puede tener diversos valores en diferentes instantes según las condiciones. – Independiente: es aquella que es controlada por el investigador. – Dependiente: es la que mide el observador. Mide el efecto que la variable independiente ejerce sobre ésta. • Dato: es el resultado de la medición hecha sobre un evento o fenómeno. • Estadístico: valor calculado a partir de los datos de una muestra. • Parámetro: valor calculado a partir de los datos de una Prof. EEC Angel Luis Vicentín población.
    • Estadística Descriptiva: Estudia las técnicas que utilizan los datos muestras obtenidos para hacer inferencias sobre poblaciones. Estadística Inferencial: Involucra las técnicas que se emplean para obtener datos muestrales y, a partir de ellas, hacer inferencias sobre sus respectivas poblaciones Las Técnicas Estadísticas son importantes tanto para los estudios observacionales, como los experimentos reales Prof. EEC Angel Luis Vicentín Escalas • Nominales: Asigna nombres a los distintos valores que asume una variable. • Ordinales: Asigna un orden a los distintos valores de la variable. • De Intervalos: Asigna un número. Escalas numéricas sin cero absoluto. • De proporción: Asigna un número. Escala numérica con cero absoluto. Prof. EEC Angel Luis Vicentín
    • Variables • Continua: es aquella que, en teoría, puede asumir un número infinito de valores entre unidades adyacentes de una escala. • Discreta: es aquella para la cual no existen valores posibles entre las unidades adyacentes de una escala. • Deterministica: es aquella cuyo valor está fijado por el comportamiento de otra. • Aleatoria: es aquella cuyo valor no puede ser determinado por el comportamiento de otra. Prof. EEC Angel Luis Vicentín Distribución de Frecuencias • Es una tabla donde se presenta los valores de los datos y su frecuencia de aparición. – Ej: Notas de los Notas Frecuencia 10 1 alumnos de Lic.en 9 2 Ed. Física: 8 3 7 4 6 5 5 6 4 7 3 8 2 9 Prof. EEC Angel Luis Vicentín 1 10
    • Distribución de Frecuencias • Sin Agrupamientos: por la cantidad de mediciones no se justifica agrupar las frecuencias. • Agrupadas: se agrupan los datos por intervalos de clases. Ej: los grupos etáreos. – Rango = Dato máximo – Dato mínimo – Amplitud de intervalo = Rango Cantidad de intervalos Prof. EEC Angel Luis Vicentín Frecuencias agrupadas Para construir una tabla de Frecuencias agrupadas procedemos: 1. Determinar el Rango de los datos. 2. Determinar la Amplitud de cada intervalo. 3. Enumerar los límites de cada intervalo de clase, colocando el intervalo que contiene al dato mínimo en la parte inferior. 4. Contar los datos en bruto en los intervalos de clase adecuados 5. Sumar las cuentas de cada intervalo para hallar las frecuencias de cada intervalos Prof. EEC Angel Luis Vicentín
    • Frecuencias AGrupadas Supongamos que un grupo de 70 alumnos fueron evaluados con un examen. La escala de las notas van de 0 a 100. Se obtuvieron 70 notas cuyo valor máximo fue de 99 y el mínimo de 46 Por lo tanto el rango de datos es: Rango =99-46 = 53 y la amplitud del intervalo es: 53 I = ---------------- = 5.3 10 Que se redondea a 5. Prof. EEC Angel Luis Vicentín Distribución de Frecuencias • Distribución de Frecuencias Relativas indica la proporción del número total de datos que aparecen en cada intervalo. • Distribución de Frecuencias Acumuladas indica el número de datos que caen por debajo del límite real superior de cada intervalo. • Distribución de porcentajes acumulados indica el porcentaje de datos que caen por debajo del límite real superior de cada intervalo • Punto percentil: es el valor sobre la escala de medida, debajo del cual cae un porcentaje dado de los datos en la distribución. Prof. EEC Angel Luis Vicentín
    • Calculo de Percentiles Los percentiles, entregan la idea de "posición" de los datos, es decir, avisan a partir de qué observación o intervalo de clase se ha acumulado un determinado porcentaje de observaciones. Cuando hablemos de percentil de orden k, significa que debemos identificar una observación (caso discreto) o un intervalo de clase (caso continuo) de tal manera que la frecuencia asociada a ese valor lleva acumulado el k% de las observaciones. Por ejemplo: • Me interesa saber, cuál fue la nota que el 50 % (o el 30% o el 75%) de los alumnos la superó ( o no la superó)? Prof. EEC Angel Luis Vicentín Intervalo de f fr fA fA % Clase 95 – 99 4 0.06 70 100.00 90 – 94 6 0.09 66 94.29 85 – 89 7 0.10 60 85.71 80 – 84 10 0.14 53 75.71 Acá está 75º punto percentil 75 – 79 16 0.14 43 61.43 Acá está el 50º punto percentil 70 – 74 9 0.23 27 38.57 65 – 69 7 0.13 18 25.71 Acá está el 25º punto percentil 60 – 64 4 0.10 11 15.71 55 – 59 4 0.06 7 10.00 50 – 54 2 0.03 3 4.29 45 – 49 1 0.01 1 1.43 N= 70 1.00 Prof. EEC Angel Luis Vicentín
    • Pk = XL + (i/fi) (fP acumulada – fL acumulada) Pk :Punto k-esimo percentil XL :Valor del límite real inferior del intervalo que contiene el punto percentil. i : Amplitud del Intervalo. fi : Frecuencia del Intervalo que contiene el punto percentil. fP acumulada: frecuencia de datos que están por debajo del punto percentil. fL acumulada: frecuencia de datos que está por debajo del límite real del intervalo que contiene al punto percentil. Punto percentil 50 P50 = 77,00 Prof. EEC Angel Luis Vicentín Rangos Percentiles • Es el porcentaje de datos con valores menores que el del dato en cuestión. • Es el valor “opuesto” al punto percentil, ahora sabemos el punto percentil y debemos calcular el porcentaje de datos que están por debajo de él. Ej: cuántos alumnos sacaron menos de 75 puntos? Prof. EEC Angel Luis Vicentín
    • Cálculo de Rangos Percentiles fL acumulada + (fi /i) ( X – XL ) • Rango Percentil = ----------------------------------------------------- x 100 N • fL acumulada: frecuencia de datos que está por debajo del límite real del intervalo que contiene al punto percentil. • XL :Valor del límite real inferior del intervalo que contiene el punto percentil. • i : Amplitud del Intervalo. • fi : Frecuencia del Intervalo que contiene el punto percentil. • fP acumulada: frecuencia de datos que están por debajo del punto percentil. • Rango percentil de 86 = 78,71 Prof. EEC Angel Luis Vicentín Gráficos de las distribuciones de frecuencias • Una gráfica cartesiana tiene 2 ejes en ángulo recto. Eje X (horizontal, abscisas), eje Y (vertical, ordenadas). • Cada eje tiene una unidad de medida. • En el eje X se localizan los datos y en el otro eje la característica que se quiere medir. • Tener en cuenta la escala con que se miden los datos. • Cada eje tiene un rótulo que indica qué se mide y con qué escala. Título. Prof. EEC Angel Luis Vicentín
    • Gráficos de Barras • Usualmente para escalas nominales Prof. EEC Angel Luis Vicentín El Histograma Es un caso de gráfico de barras, utilizado para representar datos agrupados y/o en escala de proporciones. Los intervalos se representan en el eje X. Cada barra representa la frecuencia de un intervalo. Se marca el punto medio de cada barra, luego se unen los puntos y se extiende un “intervalo” contiguo con frecuencia 0. Prof. EEC Angel Luis Vicentín
    • Curva de Frecuencias • Las distribuciones de frecuencias acumuladas absolutas y de porcentajes también se pueden graficar. Prof. EEC Angel Luis Vicentín Formas Prof. EEC Angel Luis Vicentín
    • Diagrama de tallos y hojas • Son alternativas sencillas de histogramas. 95 57 76 93 86 80 89 76 76 63 74 94 96 77 65 79 60 56 72 82 70 Diagrama de Tallo y Hojas 67 79 71 77 52 76 68 4 6 72 88 84 70 83 93 76 5 2 4 6 6 7 8 82 96 87 69 89 77 81 87 65 77 72 56 78 78 6 0 2 3 3 5 5 6 7 7 8 9 58 54 82 82 66 73 79 7 0 0 1 2 2 2 3 4 4 5 6 6 6 6 6 6 7 7 7 7 8 8 9 9 9 86 81 63 46 62 99 93 82 92 75 76 90 74 67 8 0 1 1 2 2 2 2 2 3 4 6 6 7 7 8 9 9 9 0 2 3 3 3 4 5 6 6 9 Prof. EEC Angel Luis Vicentín Medidas de Tendencia central • Son medidas que permiten describir el comportamiento de una distribución. Se llaman así porque determinan valores centrales de la distribución. Sirven para cuantificar y comparar distribuciones de frecuencias. • La Media Aritmética ( promedio ) X • La Mediana (P50) Me • La Moda Mo Prof. EEC Angel Luis Vicentín
    • La Media Aritmética • Es la suma de los datos dividido la cantidad de datos. X = Σ xi = x1 + x2+ …+ xn N N μ: en el caso de población. Prof. EEC Angel Luis Vicentín Propiedades de la media aritmética • La media es sensible al valor exacto de TODOS los datos de la distribución. • La suma de las desviaciones con respecto a la Media es 0. Σ (xi – X) = 0. La media es el punto de equilibro de la distribución. • La Media es muy sensible a los datos extremos. • La suma de los cuadrados de las desviaciones de todos los datos con respecto a su media es mínima. Σ (xi – X)2 • De todas las MTC la Media es la que menos sujeta está a la variación debido al muestreo. Prof. EEC Angel Luis Vicentín
    • La Media Global • La media de varios grupos de datos es igual a la suma del producto entre la cantidad de datos de cada grupo por la media de ese grupo dividido la suma de las cantidades. X global = Σ ni Xi Σ ni X global = n1 X1 + n2X2 +…+ntXt n1+n2+…..+nt Prof. EEC Angel Luis Vicentín La Mediana • Me o Mdn • Es el valor de la escala debajo del cual está el 50 % de los datos. Es igual a P50 • La mediana es el dato central, si el número de datos es impar. • Si el número de datos es par, la Me me considera el promedio de los datos centrales. Prof. EEC Angel Luis Vicentín
    • Propiedades de la mediana • La Me es menos sensible que la Media a los datos extremos. Datos Media Mediana 3,4,6,7,10 6 6 3,4,6,7,100 24 6 3,4,6,7,1000 204 6 • La Me está mas sujeta a la variabilidad de la muestra que la Media. La Me es menos estable que la Media, de una muestra a otra por lo tanto no es tan útil para la estadística inferencial. Prof. EEC Angel Luis Vicentín La Moda • Es el dato mas frecuente. Mo. • Se halla observando los datos. En datos agrupados es el punto medio del intervalo que contiene la mayor frecuencia. • Distribuciones unimodales: tienen una sola Mo. • Distribuciones bi o polimodales: tienen dos o mas Mo. • Es la menos usada de las MTC, ya que es la menos estable de una distribución a otra. Prof. EEC Angel Luis Vicentín
    • MTC y simetría Me =Mo = X Mo Me X X Prof. EEC Angel Luis Vicentín Mo Me Medidas de Variabilidad • La variabilidad tiene que ver con qué tan alejados están los datos de la Media. • Cuantifican la extensión de la dispersión de los datos respecto a la Media. • Existen tres medidas mas usadas: – El Rango – La Desviación Estándar – La Varianza
    • El Rango • Se define como la diferencia entre el dato máximo y el dato mínimo de una distribución. • Es fácil de calcular. • Proporciona una medida, relativamente inexacta de la dispersión, porque solo mide la dispersión de los datos extremos y no de los intermedios. • Es sensible a los datos extremos. La Desviación Estándar • El Puntaje de Desviación nos permite saber qué tan lejos está un dato en bruto con respecto a la Media de la distribución. • Es la diferencia (resta) entre cada valor y su Media. • La suma de los puntajes de desviación es igual a 0. • Se aplica la siguiente fórmula: S= Σ (xi – X)2 N-1
    • Cálculo de la Desviación Estándar x x - X (x – X)2 2 -4 16 Σ (xi – X)2 4 -2 4 S= N–1 6 0 0 40 8 2 4 S= = 3,16 4 10 4 16 0 40 La Varianza • Es el cuadrado del Medida Muestra Población desvío estándar. S2 • Es utiliza en la estadística Media Aritmética X μ inferencial. Desviación estándar s σ • Tener en cuenta: σ2 Varianza s2 La Curva Normal • Es una curva teórica de los datos de una población en forma de campana. N 2 2 Y= e –(x-μ) /2σ 2πσ 45 40 35 30 25 20 15 10 5 0 0 2 4 6
    • Correlación • Se usa para comparar si los datos de una distribución se relacionan con las de otras. • Si dos variables están relacionadas, una podría ser causa de la otra. • La correlación se ocupa principalmente, de establecer si existe una relación, así como determinar su magnitud y dirección. • La regresión lineal se encarga, principalmente, de efectuar predicciones. • Sirve para determinar la confiabilidad de un test. Relaciones • Una gráfica de dispersión es una gráfica de parejas de valores de X y valores de Y. • Una relación lineal entre dos variables es aquella que puede representarse con la mejor exactitud posible mediante una línea recta. Salto en largo Alumnos Altura Salto en largo 5 1 1,65 3,97 4,8 4,6 Marca de Salto 2 1,70 3,85 4,4 3 1,75 4,01 4,2 4 4 1,80 4,21 3,8 5 1,85 4,18 3,6 3,4 6 1,90 4,22 3,2 3 1,6 1,65 1,7 1,75 1,8 1,85 1,9 1,95 Altura
    • Relaciones • Relación Positiva: indica que existe una relación directa ( X aumenta, Y también) entre las variables. • Relación Negativa: indica que hay una relación inversa ( X aumenta, Y disminuye), entre las variables. • Relaciones Perfectas: todos los puntos caen sobre la recta. • Relaciones imperfectas: no todos los puntos caen sobre la recta. • Es mas común este tipo de relaciones. Correlación • Trata la dirección y el grado de la relación. • El grado puede ser: desde perfecto a no existir relación • La dirección podrá ser positiva o negativa. • Coeficiente de Correlación lineal r de Pearson. • r cerca de -1 entonces relación negativa perfecta • r cerca de 0 entonces no existe relación • r cerca de +1 entonces existe relación positiva
    • Coeficiente r de Pearson Σ xy – Σx Σ y N r= (Σx)2 (Σy)2 Σ x2- Σ y2- N N • También permite expresar la variabilidad de Y explicada por medio de X. ( valores reales vs. Valores obtenidos por la relación ) • Yi – Y = ( Yi – Y’ ) + (Y’ – Y ) Desviación de Yi Error en la Desviación de Yi predicción que explicada mediante la utiliza la relación relación entre X e Y entre X e Y • Σ(Y – Y) i 2 = Σ ( Y – Y’ ) i 2 + Σ (Y’ – Y ) 2 Variabilidad Variabilidad total Variabilidad total de Y de los errores de de Y por el predicción efecto de X Σ (Y’ – Y ) 2 proporción de la • r= variable Y Σ(Y – Y) i 2 explicada por X
    • Coeficiente r2 • Es el coeficiente de determinación • r2 = es igual a la proporción de la variabilidad total de Y de la que da cuenta, o es explicada por X. • El coeficiente r y r2 pueden utilizarse en escala de proporción. • Existen otros coeficientes de correlación que se pueden aplicar en otras escalas. Interpretación de la Correlación • Que haya correlación entre 2 variables puede darse porque: – La correlación entre X e Y sea espuria • Mala toma de datos • Errores de cálculo • Datos no representativos – Que X es la causa de Y – Que Y es la causa de X – Que haya otra variable que cause la correlación entre X e Y.
    • Regresión Lineal • Analiza la relación entre 2 o mas variables para determinar una predicción. • La Correlación mide la magnitud y la dirección de la relación. • La Regresión Lineal determina cómo se predice el comportamiento, sobre todo cuando la relación no es perfecta. • Método de los mínimos cuadrados: es la línea de predicción que hace mínima las diferencia entre los valores observados y los obtenidos de la relación Construcción de la recta de regresión por mínimos cuadrados La ecuación de la línea de regresión por mínimos cuadrados está dada por: Y’ es el valor predicho o estimado de Y bY es la pendiente de la recta que Y’ = bY X+ aY minimiza los errores de predicción de Y. aY es la ordenada al origen de la recta que minimiza los errores de predicción de Y. Σ XY – (ΣX) (ΣY) N bY = aY= Y – bY X ΣX2 – (ΣX)2 N
    • Regresión de X sobre Y • Y’ = bY X+ aY significa que los valores de Y se “predicen” a partir de los valores de X. • También se puede hacer lo opuesto, es decir predecir X a partir de valores observados de Y. • X’ = bx Y+ ax X’ es el valor predicho o estimado de X bx es la pendiente de la recta que minimiza los errores de predicción de X. ax es la ordenada al origen de la recta que minimiza los errores de predicción de Y. Σ XY – (ΣX) (ΣY) N bY = ΣY2 – (ΣY)2 N a x= X – b Y Y Error Estándar de la Estimación • Siempre hay errores en la predicción. • Es útil conocer ese error. • El error estándar de la estimación nos da la medida de la desviación promedio de los errores de predicción en torno a la línea de regresión. Σ(Y – Y’)2 • S nx = N-2