Variables Estadísticas Unidimensionales

12,263
-1

Published on

Trabajo de Estadística
José Luis Guzmán
Sofía Llorca
Alberto Espuelas

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
12,263
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
63
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Variables Estadísticas Unidimensionales

  1. 1. Conceptos estadísticosProyecto Integrado Tema 1Población Se denomina población al conjunto de todos los elementos que cumplen una determinada característica, que deseamos medir oEjemplo: Los alumnos de un curso.Muestra Se denomina muestra a cualquier subconjunto de la población.Ejemplo: 10 alumnos escogidos al azar.Individuo (objeto) En estadística, se considera individuo a cada uno de los elementos de la población.Ejemplo: Un alumnoCarácter estadístico Conjunto de propiedades (aspectos) que pueden estudiarse en los individuos de una población. · Un carácter permite clasificar a los individuos de la población. • Un carácter puede ser cuantitativo si se puede medir. Ejemplo: Discreto: Número de hermanos. Continuo: Velocidad de un vehículo • Un carácter es cualitativo si no se puede medir (se compara). Ejemplo: Color de los ojosSe define modalidad como las diferentes posibilidades de un carácter. 1
  2. 2. Proyecto Integrado Tema 1Variable estadística. El conjunto de valores que toma un carácter estadístico. Dependiendo del carácter, una variable estadística puede ser cuantitativa o cualitativa. • Variable discreta: Una variable estadística se llama discreta cuando sólo puede tomar determinados valores (con más precisión, cuando puede tomar un número finito o infinito numerable de valores). • Variable continua: La variable se llama continua cuando puede tomar todos los valores de un intervalo (valores tan próximos como se quiera). Ejemplos: (Véanse caracteres estadísticos) 2
  3. 3. Organización de los datos: tablas deProyecto Integrado Tema 1frecuenciasUna distribución de frecuencias es una tabla en la que se organizan los datos en clases,es decir, en grupos de valores que describen una característica de los datos y muestrael número de observaciones del conjunto de datos que caen en cada una de las clases.La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio,en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjuntode datos junto con el número de veces que aparece, es decir, su frecuencia absoluta. Sepuede complementar la frecuencia absoluta con la denominada frecuencia relativa,que indica la frecuencia en porcentaje sobre el total de datosTipos de frecuencia:Frecuencia absoluta La frecuencia absoluta (f i ) es el número de veces que aparece un determinado valor en un estudio estadísticoLa suma de las frecuencias absolutas es igual al número total de datos, quese representa por N.Frecuencia absoluta acumulada. La frecuencia acumulada F i es la suma de las frecuencias absolutas en sentido descendente 3
  4. 4. Proyecto Integrado Tema 1Frecuencia relativa La frecuencia relativa n i es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos.La suma de las frecuencias relativas es igual a 1.Facilitan el análisis de los datos, en especial para comparar distribucionesde frecuencias basadas en diferentes números de observacionesFrecuencia relativa acumulada. La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta acumulada de un determinado valor y el número total de datos. Se puede expresar Diagrama depor ciento en tantos BarrasLas representaciones gráficas deben conseguir que un simple análisis visual ofrezca lamayor información posible. Según el tipo del carácter que estemos estudiando,usaremos una representación gráfica u otra.Diagrama de barrasEl diagrama de barras es un gráfico sobre ejes cartesianos en el que distribuimos en eleje X o eje de abscisa: ·Las modalidades si el carácter es cualitativo ·Los valores si la variable es no agrupadaSobre ellos se levantan barras o rectángulos de igual base (que no se solapen) cuyaaltura sea proporcional a sus frecuencias. También se suelen utilizar para seriescronológicas y pueden, asimismo, representarse horizontalmente, intercambiando losejes. 4
  5. 5. HistogramasProyecto Integrado Tema 1La representación gráfica contribuye a un mejor análisis de los datos. Facilita lacomprensión del fenómeno considerado. Pierde detalle pero se obtiene otro tipo deinformación.Gráficos utilizados: histograma, polígono de frecuencia y ojiva son útiles, ya queresaltan los patrones de los datos y atraen la atención. Un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valoresEn el eje vertical se representan las frecuencias, y en el eje horizontal los valores de lasvariables, normalmente señalando las marcas de clase, es decir, la mitad del intervaloen el que están agrupados los datos.Se utiliza cuando se estudia una variable continua, como franjas de edades o altura dela muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valorescontinuos.Regla de Nordclife:Cuando la variable estadística toma muchos valores o es continua conviene agruparlaen intervalos, utilizando grandes dosis de sentido común o bien, en algunos casos esútil utilizar el criterio de NORDCLIFE, que establece que el número de datos debecoincidir con la raíz cuadrada del número de datos.Ejemplo:Las edades de las personas que acuden al logopeda, a lo largo de un año son:3,2,11,13,4,3,2,4,5,6,7,3,4,5,3,2,5,6,27,15,4,21,12,4,3,6,29,13,6,17,6,13,6,5,12,26.Hay 36 datos, entonces la raíz de 36, es 6 y ese será el número de intervalos que vamosa tomar.El Rango estadístico es 27, ya que se obtiene de restarle al mayor dato (29, en estecaso) el menor (2).Sin embargo, por conveniencia, para que sea más fácil operar, lo agrandamos a 30 paraque sea múltiplo de 6. 5
  6. 6. Proyecto Integrado Tema 1Ejemplo de histograma:Los datos son el número de espectadores en 32 partidos del equipo nacional (en miles).42,1 51,0 30,0 35,2 29,3 10,9 16,1 51,647,0 51,4 35,2 31,7 17,8 67,0 43,2 23,725,2 36,1 32,3 51,7 46,0 12,2 21,1 29,014,3 47,2 31,3 35,4 29,1 23,0 10,3 34,2En primer lugar, dividimos los datos en intervalos de igual anchura.El valor mínimo de la muestra es 10,3 y el valor máximo es 67,0. Ponemos intervalos deanchura 10 y construimos una tabla de frecuencias.Clases (intervalos de variable estadística)Construimos el histograma: Con diferencia a los datos discretas, las barras están conectadas. Además, observamos que igual que para los datos discretas, es posible construir el histograma con frecuencias absolutas o relativas o con frecuencias (absolutas o relativas) acumuladas. 6
  7. 7. Proyecto Integrado Tema 1Tipos de histogramas• Diagramas de barras simplesRepresenta la frecuencia simple (absoluta o relativa)mediante la altura de la barra la cual es proporcional ala frecuencia simple de la categoría que representa.• Diagramas de barras compuestaSe usa para representar la información de una tablade doble entrada sea a partir de dos variables, lascuales se representan así; la altura de la barrarepresenta la frecuencia simple de las modalidades ocategorías de la variable y esta altura esproporcional a la frecuencia simple de cadamodalidad.• Diagramas de barras agrupadasSe usa para representar la información de una tabla dedoble entrada o sea a partir de dos variables, el cual esrepresentado mediante un conjunto de barras como seclasifican respecto a las diferentes modalidades. 7
  8. 8. Proyecto Integrado Tema 1• Polígono de frecuenciasEs un gráfico de líneas que se las frecuencias absolutas de losvalores de una distribución en el cual la altura del puntoasociado a un valor de las variables es proporcional a lafrecuencia de dicho valor.• Ojiva porcentualEs un gráfico acumulativo, el cual es muy útil cuando sequiere representar el rango porcentual de cada valor en unadistribución de frecuencias. 8
  9. 9. Función de distribuciónProyecto Integrado Tema 1La función de distribución describe el comportamiento probabilístico de una variablealeatoria X asociada a un experimento aleatorio y se representa como:F(x) ó FxPara estudiar la función de distribución distinguiremos entre el caso discreto y el casocontinuo.Variable discretaSe denomina distribución de variable discreta a aquella cuya función de probabilidadsólo toma valores positivos en un conjunto de valores de X finito o infinito numerable.A dicha función se le llama función de masa de probabilidad. En este caso ladistribución de probabilidad es la suma de la función de masa, por lo que tenemosentonces que:Y, tal como corresponde a la definición de distribución de probabilidad, esta expresiónrepresenta la suma de todas las probabilidades desde hasta el valor x.Ejemplo 1:Si una persona compra una papeleta en una rifa, en la que puede ganar de 5.000 € ó unsegundo premio de 2000 € con probabilidades de: 0.001 y 0.003. ¿Cuál sería el preciojusto a pagar por la papeleta?μ = 5000 · 0.001 + 2000 · 0.003 = 11 €Ejemplo 2:Sea X una variable aleatoria discreta cuya función de probabilidad es: pi x 0 0,1 1 0,2 2 0,1 3 0,4 4 0,1 5 0,1 9
  10. 10. Proyecto Integrado Tema 11. Calcular, representar gráficamente la función de distribución.2. Calcular las siguientes probabilidades:p (X < 4.5)p (X < 4.5) = F (4.5) = 0.9p (X ≥ 3)p (X ≥ 3) = 1 - p(X < 3) = 1 - 0.4 = 0.6p (3 ≤ X < 4.5)p (3 ≤ X < 4.5) = p (X < 4.5) - p(X < 3) = 0.9 - 0.4 = 0.5Ejemplo 3:Un jugador lanza dos monedas. Gana 1 ó 2 € si aparecen una o dos caras. Por otraparte pierde 5 € si no aparece cara. Determinar la esperanza matemática del juego y siéste es favorable.E = {(c,c);(c,x);(x,c);(x,x)}p(+1) = 2/4p(+2) = 1/4p(−5) = 1/4μ = 1 · 2/4 + 2 · 1/4 - 5 · 1/4 = −1/4. Es desfavorable 10
  11. 11. Proyecto Integrado Tema 1Variable continuaSi tenemos una variable continua X, podemos definir la función acumulada dedistribución de la misma manera que para una variable discreta.F(x) = P(X ≤ x).Ahora esta función sería una función suave y no una función escalón, pero tendrá lasmismas propiedades que la función de distribución para una variable discreta.F(−∞) = 0, F(∞) = 1, F(x + #) ≥ F(x) para cualquier # > 0.Ejemplo:¿Cuáles de las siguientes funciones pueden ser funciones de distribución para unavariable continua X? Las funciones 1 y 3 pueden ser funciones de distribución. La función 2 es negativa en el rango −1 < x < 0.Los siguientes dibujos muestran las funciones dedistribución en casos 1 y 3: 11
  12. 12. Reducción numérica de los datosProyecto Integrado Tema 1Se busca reducir los datos de nuestra investigación con el fin de expresarlos ydescribirlos de alguna manera (conceptual, numérica o gráficamente), de tal maneraque respondan a una estructura sistemática, inteligible para otras personas, y por lotanto significativa. La reducción de datos es una clase de operación que se realiza a lolargo de todo el proceso de investigación y pude hacerse de distintas formas(conceptual, numérica o gráficamente, como se indicó), pero que en la investigacióncualitativa se refiere más que nada a la categorización y dosificación de los datos.Cuando estudiamos una determinada población según el carácter C y tenemosrecogidos los datos correspondientes a las distintas modalidades del carácter, laprimeraforma de reducir dichos datos es mediante las tablas estadísticas y lasrepresentaciones gráficas.Aunque‚ a estas nos permiten obtener, de una manera rápida, una idea aproximada delcomportamiento de la distribución, conviene estudiar las distribuciones de una formamás rigurosa.Es por esto por lo que vamos a estudiar la manera de resumir y sintetizar el grannúmero de datos de una distribución en unos pocos números que nos proporcionenuna idea, lo más aproximadamente posible, de toda la distribución. El estudio de estosnúmeros se referirá a su significado, su cálculo e interpretación.Estos números de los que hablamos reciben el nombre de parámetros estadísticos.Hay muchos parámetros estadísticos. Suelen clasificarse según el papel que juegan, envarios tipos:- Medidas de posición, señalan la situación de algunos valores importantes en ladistribución: cuartiles, deciles, centiles. Podemos destacar las Medidas decentralización o de tendencia central: ya que "tienden" a situarse hacia el centro delconjunto de datos. También se les llama promedios: moda, media, mediana.- Medidas de dispersión, que nos indican si los datos numéricos están agrupados o noalrededor de los valores centrales (grado de alejamiento de los datos.): desviaciónmedia, varianza, desviación típica...- Medidas de asimetría, para señalar si la distribución está sesgada hacia uno u otrolado.- Medidas de apuntamiento o curtosis, que indican si la distribución es mas o menospuntiaguda.Evidentemente, todo proceso de síntesis conlleva una pérdida de información. Peroesta pérdida se compensa con el hecho de trabajar con pocos parámetros con unsignificado muy preciso. 12
  13. 13. Medidas descriptivasProyecto Integrado Tema 1Son valores numéricos calculados a partir de la muestra y que nos resumen la informacióncontenida en ella.Las medidas descriptivas surgen con la necesidad de disponer medidas que resuman ocondensen los datos y por tanto el objetivo que se persigue es la sintetización de lainformación que nos aportan los datos con la menor pérdida posible.Los parámetros se recogen en tres grupos principales dependiendo de su función:medidas de posición, medidas de centralización y medidas de dispersión. Aunqueexisten algunas menos usuales como medidas de forma o medidas robustas.Muchas de ellas no tienen sentido para las variables cualitativas. 13
  14. 14. Proyecto Integrado Tema 1Medidas de centralizaciónMedia aritmética ( ): Es el valor obtenido al sumar todos los datos y dividir el resultado entre el númerototal de datos. Informa sobre la tendencia general sobre la variable X en una muestra de n sujetos. Es la más importante.La letra µ se usa para la media aritmética de una población, es decir, el valor esperadode una variableCálculo para datos ordenados de forma creciente:Cálculo para datos agrupados:Ejemplo:La media aritmética de un conjunto de números positivos siempre es igual o superior ala media geométrica 14
  15. 15. Proyecto Integrado Tema 1Propiedades : • La suma de las desviaciones de todas las puntuaciones de una distribución respecto a la media de la misma igual a cero. Por ejemplo: X ~ 8, 3, 5, 12, 10 8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 = 0 • La suma de los cuadrados de las desviaciones de los valores de la variable con respecto a un número cualquiera se hace mínima cuando dicho número coincide con la media aritmética. • Si a todos los valores de la variable se les suma un mismo número, la media aritmética queda aumentada en dicho número. • Si todos los valores de la variable se multiplican por un mismo número la media aritmética queda multiplicada por dicho número.Observaciones: • La media se puede hallar sólo para variables cuantitativas. • La media es independiente de las amplitudes de los intervalos. • La media es muy sensible a los valores extremos. Si tenemos una distribución con los siguientes pesos: 65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg. La media es igual a 74 kg, que es una medida de centralización poco representativa de la distribución. La aparición de una observación extrema hará que la media se desplace en esa dirección. • La media no se puede calcular si hay un intervalo con una amplitud indeterminada. • Es muy sensible a los valores extremos de la variable: todas las observaciones intervienen en el cálculo de la media, así, la aparición de una observación extrema hará que la media se desplace en esa dirección. • No es recomendable usar la media como medida central en las distribuciones muy asimétricas. 15
  16. 16. Proyecto Integrado Tema 1Mediana(Me): el lugar central de todos los datos cuando éstos están ordenadosEs el valor que ocupa el lugar central de todos los datos cuando éstos están ordenadosde menor a mayor. de menor a mayor.Cálculo para datos ordenados de forma creciente:Si n es impar, la mediana es el valor que ocupa la posición (n + 1) / 2.Si n es par, la mediana es la media aritmética de las dos observaciones centrales, queocuparan las posiciones n/2 y n/2+1.Es decir: Me = (xn / 2 + (xn / 2 + 1)) / 2Por ejemplo: X ~ 2, 3, 4, 4, 4, 5, 5, 6, 6,7n es par y se hace la media de las posiciones: n/2 ≡ 4 y n/ 2+1 ≡ 5-> Me= 4,5Cálculo para datos agrupadosLi es el límite inferior de la clase donde se encuentra lamediana. es la semisuma de las frecuencias absolutas.Fi-1es la frecuencia acumulada anterior a la clase mediana.ai es la amplitud de la clase.La mediana es independiente de las amplitudes de los intervalos.Por ejemplo:Propiedades: • Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la distribuciones asimétricas (X ∼ 2, 5, 7, 9, 12 y X ∼ 2, 5, 7, 9, 125 en este caso la variable, sino del orden de las mismas. Por ello es adecuado su uso en media cambia, pero no la mediana). • Es de cálculo rápido y de interpretación sencilla, pero no tiene sentido su cálculo en variables de tipo cualitativo o nominal, al igual que la media. • A diferencia de la media, la mediana de una variable es siempre un valor de la variable que se estudia (ej. La mediana de una variable número de hijos toma siempre valores enteros). 16
  17. 17. Proyecto Integrado Tema 1Moda (Mo): La moda es el valor que tiene mayor frecuencia absoluta. Se puede hallar la moda para variables cualitativas y cuantitativas.Cálculo para datos ordenados de forma creciente:Mo es el valor xi que se repita más veces.Ejemplo: 1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9Puede ser más de un xi, pero si todas las puntuaciones tienen la misma frecuencia nohay moda.Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda se puede hacercomo el promedio de las dos puntuaciones adyacentes. Ejemplo: 0, 1, 3, 3, 5, 5, 7, 8 Mo = 4Cálculo para datos agrupadosTodos los intervalos tienen la misma amplitudLi es el límite inferior de la clase modal.fi es la frecuencia absoluta de la clase modal.fi--1 es la frecuencia absoluta inmediatamente inferior a la clase modal.fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.ai es la amplitud de la clase.También se utiliza otra fórmula de la moda que da un valoraproximado de ésta.Ejemplo: 17
  18. 18. Proyecto Integrado Tema 1Los intervalos tienen amplitudes distintasPrimero hallamos la altura (hi)La clase modal es la que tiene mayor alturaEjemplo:Media geométrica:Dada una población o muestra con n elementos distintos, se llama media geométricade esos elementos a la raíz n-ésima de su producto:Por ejemplo:Media armónica (H):La media armónica, de una cantidad finita de números es igual al recíproco, oinverso, de la media aritmética de los recíprocos de dichos valores.Así, dados n números x1, x2, ... , xn la media armónica será igual a:La media armónica resulta poco influida por la existencia de determinados valoresmucho más grandes que el conjunto de los otros, siendo en cambio sensible a valoresmucho más pequeños que el conjunto.La media armónica no está definida en el caso de que exista algún valor nulo. 18
  19. 19. Proyecto Integrado Tema 1Medidas de posición:Las medidas de posición (no central) dividen un conjunto de datos en grupos con elmismo número de individuos. Entre ellas destacan los cuartiles, deciles y percentiles.Cuartiles Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil esprecisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cualqueda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil,es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de losdatosCálculo para datos ordenados de menor a mayor:Buscamos el lugar que ocupa cada cuartil mediante la expresión:Si N es par, se coge, además, el valor adyacente siguiente y se calcula la mediaaritmética de ambos.Ejemplo: 19
  20. 20. Proyecto Integrado Tema 1Cálculo para datos agrupadosEn primer lugar buscamos la clase donde se encuentra, en la tabla de las frecuenciasacumuladas.Por ejemplo:DecilesLos deciles son ciertos números que dividen la sucesión de datos ordenados en diezpartes porcentualmente iguales. Son también un caso particular de los percentiles. Son los nueve valores que dividen al conjunto de datos ordenados en diez partes igualesLos deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc. D5coincide con la mediana.Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar elaprovechamiento académico. 20
  21. 21. Proyecto Integrado Tema 1Cálculo:En primer lugar buscamos dónde se encuentra la clase ,en la tabla de las frecuencias acumuladas.Si no disponemos de los datos ordenados, se hallan de la siguiente forma: Li es el límite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase.Por ejemplo:Cáculo de D4 de la distribución de la tabla: 21
  22. 22. Proyecto Integrado Tema 1PercentilesLos percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación oclasificación de las personas cuando atienden características tales como peso,estatura, etc. Los percentiles son valores que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales.Estos son los 99 valores que dividen en cien partes iguales el conjunto de datosordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99.En primer lugar buscamos dónde se encuentra la clase ,en la tabla de las frecuencias acumuladas.Si no disponemos de los datos ordenados, se hallan de la siguiente forma: Li es el límite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase.Por ejemplo:Calcular P60 de la distribución de la tabla: 22
  23. 23. Medidas de dispersiónProyecto Integrado Tema 1Las medidas de tendencia central tienen como objetivo el sintetizar los datos en unvalor representativo, las medidas de dispersión nos dicen hasta que punto estasmedidas de tendencia central son representativas como síntesis de la información.Representan la separación, la dispersión, la variabilidad de los valores de ladistribución respecto al valor central. Distinguimos entre medidas de dispersiónabsolutas, que no son comparables entre diferentes muestras y las relativas que nospermitirán comparar varias muestras.Dispersión absolutaRango Diferencia entre el valor mínimo y el valor máximo en un grupo de números aleatorios. Se suele simbolizar con R. • Ordenamos los números según su tamaño. • Restamos el valor mínimo del valor máximoEjemplo: Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valorunitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores seencuentran en un rango de: Rango = 5 23
  24. 24. Proyecto Integrado Tema 1Desviación media absolutaLas medidas de dispersión como el rango o el rango intercuartílico son pocosignificativas y sólo se apoyan en dos datos, sería conveniente tener una medida de ladispersión de los datos respecto a la media (valor en el que se resumen todos losdatos) y en la que tomásemos información de todas la observaciones.Una medida para conocer la dispersión de los datos sería ver que errores se comentenal dar la media en lugar del auténtico valor, en el valor i-ésimo cometeríamos un error . Si sumamos todas las desviaciones. Se compensan las desviaciones positivas ynegativas, por lo no podemos conocer la desviación. Para corregir ese problemapodemos considerar todos los errores que calculemos como positivos, para ello bastacon tomar el valor absoluto, si además consideramos la media de esos erroresobtenemos la desviación media.La desviación respecto a la media es la diferencia en valor absoluto entre cada valor de la variable estadística y la media aritmética. Di = |x - x| La desviación media (Dx) es la media aritmética de los valores absolutos de las desviaciones respecto a la media.Por ejemplo:Calcular la desviación media de la distribución: 9, 3, 8, 8, 9, 8, 9, 18 24
  25. 25. Proyecto Integrado Tema 1Si los datos están agrupados:Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación mediaes:Por ejemplo:Calcular la desviación media de la distribución:Propiedades • Nos da la media de la dispersión de los datos. • Intervienen para su cálculo todos los datos. • Cada vez que insertemos un dato nuevo se modificará. • Al intervenir un valor absoluto los cálculos son complicados. • A mayor concentración de los datos entorno a la media menor será su valor. • DM es no negativa • DM=0 si y sólo si todos los valores son coincidentes. 25
  26. 26. Proyecto Integrado Tema 1Varianza (σ2)La desviación media es una medida de dispersión de datos correcta pero presenta uninconveniente y es la complejidad de manipulación al intervenir valores absolutos. Seríaconveniente encontrar otra medida que no presente el problema inicial (que no se compensenlas dispersiones negativas con las positivas) y cuyo manejo sea más sencillo. Otra forma deevitar la compensación de dispersiones es elevar al cuadrado la diferencia y es más sencillotrabajar con cuadrados que con valores absolutos, teniendo en cuenta esta consideraciónintroduciremos el concepto de varianza. La varianza (σ2)es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.Observaciones: • La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas. • En los casos que no se pueda hallar la media tampoco será posible hallar la varianza. • La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado.Cálculo:Podemos simplificar los cálculos así:Cálculo para datos agrupados:Podemos simplificarlo así: 26
  27. 27. Proyecto Integrado Tema 1Ejemplos:Calcular la varianza de la distribución: 9, 3, 8, 8, 9, 8, 9, 18Primero se calcula la media aritmética.Se utiliza:Sustituimos:Calcular la varianza de la distribución de la tabla:Propiedades: • Siempre es positiva • Si a todos los valores de la variable se les suma un número la varianza no varía. • Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número. • Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total. Si todas las muestras tienen el mismo tamaño: Si las muestras tienen distinto tamaño: 27
  28. 28. Proyecto Integrado Tema 1Desviación típica (σ)Con la varianza se elevan al cuadrado las unidades de medida, sería interesante teneruna medida de dispersión con las mismas unidades de la media y los datos, esto lopodemos conseguir haciendo la raíz cuadrada positiva de la varianza, a la quellamaremos desviación típica. La desviación típica (σ) es la raíz cuadrada de la varianza.Observaciones: • La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas. • En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica. • Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.Cálculo:Cálculo para datos agrupados:Ejemplos:Calcular la desviación típica de la distribución: 9, 3, 8, 8, 9, 8, 9, 18 28
  29. 29. Proyecto Integrado Tema 1Calcular la desviación típica de la distribución de la tabla:Propiedades: • Es siempre positiva • Si a todos los valores de la variable se les suma un número la desviación típica no varía. • Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número. • Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones típicas se puede calcular la desviación típica total. o Si todas las muestras tienen el mismo tamaño: o Si las muestras tienen distinto tamaño: 29
  30. 30. Proyecto Integrado Tema 1Dispersión relativaCuando las medias de dos distribuciones son iguales, es fácil comparar cuál de ellas esmás dispersa, pero cuando las medias son distintas, no siempre podemos comparar sudispersión; en particular si las distribuciones corresponden a variables con distintossistemas de medida.En estos casos, hemos de utilizar otras medidas que prescindan de las unidades demedida, lo que nos permitirá comparar variables de diferente tipo. Estas son lasmedidas de dispersión relativas.Coeficiente de variación Pearson Es una medida de dispersión relativa. Se utiliza cuando se pretenden comparar la dispersión de dos variables:Propiedades:1. Cuanto menor sea el coeficiente de variación, menor será la dispersión de la muestra y, portanto, más representativa será su media y más homogéneos los valores de la distribución.2. No se puede calcular si la media es cero.3. Si la media es muy próxima a cero, el coeficiente de variación puede resultar erróneo, por loque no es recomendable su uso.4. No tiene dimensiones, por lo que permite comparar distribuciones con distintas unidades.5. Utiliza toda la información de la distribución.6. Se anula cuando la desviación típica es cero. En este caso no hay dispersión, y todos losvalores son iguales. 30
  31. 31. Diagrama Box-WhiskerProyecto Integrado Tema 1Estos diagramas, también llamados de “Caja con bigotes”, son una presentación visualque describe varias características importantes, al mismo tiempo, tales como ladispersión y simetría.Para su realización se representan los tres cuartiles y los valores mínimo y máximo delos datos, sobre un rectángulo, alineado horizontal o verticalmente.ConstrucciónUna gráfica de este tipo consiste en una caja rectangular, donde los lados más largosmuestran el recorrido intercuartílico. Este rectángulo está dividido por un segmentovertical que indica donde se posiciona la mediana y por lo tanto su relación con loscuartiles primero y tercero(recordemos que el segundo cuartil coincide con lamediana).Esta caja se ubica a escala sobre un segmento que tiene como extremos los valoresmínimo y máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes.Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato ocaso que no se encuentre dentro de este rango es marcado e identificadoindividualmenteEjemplo de distribuciones de edadesUtilizamos la edad de un colectivo de 20 personas. 36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33 24 34 40Ordenar los datosPara calcular los parámetros estadístico, lo primero es ordenar la distribución 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45 31
  32. 32. Proyecto Integrado Tema 1Cálculo de cuartilesQ1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N =20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:Q1=(24 + 25) / 2 = 24,5Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de lavariable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; lamediana es la media aritmética de dicho valor y el siguiente:me= Q2 = (33 + 34)/ 2 =33,5Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. Ennuestro caso, como 3N / 4 = 15, resultaQ2=(39 + 39) / 2 = 39Dibujar la caja y los bigotesEl bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)La primera parte de la caja a (Q1, Q2),La segunda parte de la caja a (Q2, Q3)El bigote de la derecha viene dado por (Q3, Xmáx). 32
  33. 33. Cómo realizar una encuestaProyecto Integrado Tema 1Cuando se decide utilizar la encuesta como medio de recogida de información se llevaran acabo ordenadamente las siguientes fases:1) Determinación de los objetivosLo primero es definir los objetivos de la encuesta, la información concreta requerida y lapoblación que la puede facilitar. En esta etapa es fundamental la utilización de informaciónsecundaria existente acerca del tema a estudiar y de la población a analizar.2) Determinación del tipo de encuestaSe deberá identificar cual es el tipo de encuesta más idóneo para llevar a cabo la investigación.La encuesta podrá ser personal, telefónica o postal aunque las nuevas tecnologías ofrecennuevos métodos para le realización de encuestas como el correo electrónico o a través de unapágina Web. La elección de un tipo de encuesta u otro vendrá determinada por el tema de lainvestigación, la población a estudiar y el presupuesto disponible.3) Diseño del cuestionarioEl diseño del cuestionario es fundamental y requiere un especial cuidado y atención. Elcuestionario es el instrumento para la obtención de la información y por tanto su diseño esesencial para alcanzar los objetivos deseados.4) Codificación del cuestionarioUna vez diseñado y testado el cuestionario debemos codificarlo antes de realizar el trabajo decampo, con el fin de evitar posibles errores de diseño. La codificación del cuestionario facilitala tabulación de los datos resultantes y su análisis posterior a través de un programainformático.5) MuestreoSe aplica un muestreo estadístico para seleccionar una muestra representativa de la población.6) Trabajo de campoLlegado este punto estamos en condiciones de comenzar a entrevistar a los integrantes de lamuestra seleccionada. El trabajo de campo deberá ser supervisado por el investigador paraevitar distorsiones.7) Tabulación de datos.Una vez finalizado el trabajo de campo y con los cuestionarios cumplimentados, se tabulanestadísticamente los datos obtenidos.8 )Análisis de resultados y elaboración del informe. 33
  34. 34. Proyecto Integrado Tema 1Por último, se analizan los datos tabulados y en base a los resultados y conclusiones se redactael informe final de la investigación 34
  35. 35. Proyecto Integrado Tema 1Ejercicios finales1. Dos compañías aseguradoras tienen formas diferentes de pagar a sus empleados. La compañía A lo hace mediante un sueldo fijo mensual y la compañía B a través de un porcentaje sobre los seguros realizados. La distribución de los salarios por categorías es:a) Por término medio, ¿gana más un empleado de la compañía A o de la B?b) Calcular y comentar la representatividad de los sueldos medios.c) ¿Cuál es el sueldo más frecuente en la compañía A?d) Aunque en la compañía B el sueldo se gana por méritos, ¿crees que el reparto desalarios por categorías es equitativo?e) Si en la compañía B el salario fuese el anterior más un fijo de 10000 pesetas, ¿cuálsería el salario medio y la desviación típica?Solución:a) Sean:X = «sueldo (en miles de pesetas) de los empleados de la compañía A».Y = «sueldo (en miles de pesetas) de los empleados de la compañía B»Y=107.842105X=84.5b) VX = 0.27273876, VY = 0.31479111, los sueldos están menos dispersos en la empresaA.c) Mo = 80000 pesetas.d) IG(Y) = ‘.200456171e) Z = Y + 10Z = Y + 10 = 107.842105 + 10 = 117.842105 35
  36. 36. Proyecto Integrado Tema 1SZ =SY 36
  37. 37. Proyecto Integrado Tema 12. Se comparan dos tipos de rosca de tornillo para ver su resistencia ala tensión. Seprueban 50 piezas de cada tipo de cuerda bajo condiciones similares, la marca A tuvouna resistencia promedio a la tensión de 78.3 Kg, mientras que la marca B tuvo unaresistencia promedio de 87.2 Kg. Se sabe de antemano que las desviacionespoblacionales son de 6.5 Kg para la marca A y 6.3 Kg para la B.Determine el intervalo de confianza del 95% para la diferencia de las dos mediaspoblacionales.Solución: 37

×