Estadistica descriptiva Unidad I

  • 10,981 views
Uploaded on

Contenidos relacionados con la unidad I

Contenidos relacionados con la unidad I

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
10,981
On Slideshare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
239
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • El pensamiento estadístico es la forma en que la información se ve, se proceso y se convierte en pasos de acción. Es una filosofía de pensamiento, no una forma de realizar cálculos matemáticos. El pensamiento estadístico utiliza el concepto de que toda la actividad consiste en un conjunto de pasos interconectados que deben complementarse y completarse para lograr una meta planeada. El pensamiento estadístico incluye el reconocimiento de que los datos son intrínsecamente variables (no hay dos cosas o personas exactamente iguales, en todos los sentidos) y que la identificación. Medición, control y reducción de la variación proporcionan oportunidades para mejorar la calidad. Variación hay en todo proceso, este principio proporciona el enfoque para el mejoramiento del trabajo. La presencia de la variación crea la necesidad del pensamiento estadístico. Si no hubiera variación, los procesos podrían ejecutarse mejor, los productos tendrían la calidad desead, el servicio podría ser mas consistente y los directivos podrían administrar mejor. Enfocarse en la variación es una estrategia clave para el logro de la mejora. El pensamiento estadístico tiene la acepción de algo permanente, algo que forma parte de nuestra lógica corriente, es trascender la lógica determinística y complementarla don nuevos elementos que resulten mas eficientes en situaciones de variabilidad e incertidumbre.
  • La estadística es un método empleado en la toma de decisiones frente a la incertidumbre, partiendo de datos numéricos y calculando los riesgos. La importancia de este procedimiento de llegar a una decisión es obvia cuando se considera que vivimos en un mundo en el que los acontecimientos futuros siempre están cargados de diversos grados de incertidumbre. Cuando arrojamos una moneda al aire el resultado es aleatorio y por ningún motivo cierto. Sabemos que al tirar una moneda al aire, nos puede dar cara o sello, y que los resultados tienen iguales posibilidades. En otras palabras, la aleatoriedad de una población de una población de todas las posibles tiradas es tal, que la mitad de ellas debe ser cara y la otra mitad sello. Este principio es sencillo de manejar y la decisión es fácil de tomar. Por ejemplo, si se nos invitara a participar en un juego de arrojar la moneda, con la condición que ganaríamos dos bolívares si resulta cara y que perderíamos un bolívar si resulta sello, nos inclinaríamos a aceptar la oferta porque sabemos que hay iguales posibilidades de cara o sello. Sin embargo otras veces, esta aleatoriedad o estado natural , de una situación problemática determinada es desconocida. Por ejemplo, si la moneda está sesgada, no habrá iguales posibilidades de cara o sello. En este caso, en que el estado natural o aleatoriedad es desconocido ¿Cómo decidiríamos sui se nos ofreciera la misma apuesta descrita anteriormente? Tendríamos que realizar experimentos u observaciones para comprobar la regularidad de la moneda para decidir si aceptamos la oferta de jugar. Supongamos que para probar la moneda, la tiramos 10 veces y todas las tiradas resultan sello, podemos suponer que la moneda está sesgada y declinamos la oferta. Intuitivamente podemos saber que la decisión es acertada pero no sabemos exactamente porqué. La regularidad de la moneda reside en la distribución de los resultados de todas las posibles tiradas de la moneda. Sabemos que si la moneda no está cargada, la mitad de los resultados debe ser cara y la otra mitad sello. Estamos dispuestos a jugar con esta moneda porque cada tirada se considera como una selección aleatoria de esta población infinita y, cabe esperar un 50 y 50%. La prueba se considera como un muestreo de diez observaciones tomada de esta población imaginaria de todas las tiradas posibles. Sin embargo, es posible desde el punto de vista de las variaciones aleatorias, que una moneda no cargada de diez caras consecutivamente; Aun así, la información muestral nos ha llevado a la conclusión que la moneda está cargada y en consecuencia declinamos jugar. Esta decisión estadísticamente es acertada, ¿Por qué?, Porque al tirar una moneda es posible una muestra de diez sellos, pero es muy improbable. El ejemplo anterior ilustra el procedimiento de tomar la decisión estadísticamente. La decisión estadística puede entonces definirse como el proceso de tomar una decisión con base en datos numéricos y consideraciones de probabilidad. Puesto que una información parcial (muestra, en nuestro caso las 10 tiradas ) no elimina la incertidumbre en su totalidad, la decisión estadística se toma enfrentando esta incertidumbre
  • Recopilación de datos Los datos necesitan ser primero recopilados antes de poder ser interpretados y transformados en información útil, sobre cuya base tomar decisiones. La manera en que este procedimiento de recopilación de datos se lleva a cabo es clave para determinar el posterior valor de cualquier descripción, explicación y predicción que se realice con dichos datos. Como consumidor de información, usted no debería olvidar jamás que el modo en que los datos son recolectados es siempre crítico para su valor posterior como información. Es así de simple: si la base del análisis es basura, el resultado del análisis, no importa cuán sofisticado, también será basura. Si utilizare, sin advertirlo, datos recogidos con procedimientos inadecuados, entonces sus conclusiones y decisiones basadas en el análisis de dichos datos serán igualmente inadecuadas. Desafortunadamente, cuando consumimos información no siempre (y de hecho casi nunca) tenemos acceso a los métodos utilizados para recoger los datos. Este es un problema serio, incluso para profesionales de la estadística. Pero esta no es la única “mina” que usted encontrará en el peligroso campo de la interpretación y uso de información estadística. Lamentablemente, la manipulación de la información a pesar de ser tremendamente dañina, es práctica común y, a veces, extremadamente sofisticada.
  • ANALISIS ESTADISTICO El análisis estadístico se divide en tres grandes tipos : univariado, bivariado y multivariado. • En el análisis univariado se describen las características de una variable por vez. También se lo llama estadística descriptiva. • En el análisis bivariado se investiga la influencia de una variable que es independiente, por vez, con respecto a la variable dependiente. • En el análisis multivariado se investiga la influencia de dos o mas variables independientes, junto o no a una o mas variables asociadas ( covariables o cofactores ) sobre una o másvariables dependientes. Análisis Univariado de Variables Numéricas El análisis de los datos tiene como objetivo el responder a las preguntas que se hicieron los investigadores, pero para llegar a ese punto primero se debe describir las variables o datos que se recogieron durante el estudio. Para describir una variable numérica se la puede ordenar de mayor a menor y observar cuantos pacientes corresponden a cada cifra ( histograma ), encontrar su media, SD, valores mínimos y máximos, etc., dependiendo de cada estudio en particular. La da la idea de la tendencia central de esa v. numérica, es el promedio aritmético de la v. en cuestión. El histograma representa la frecuencia de ptes. dentro de determinados rangos de la v numérica. Esto se denomina distribución de frecuencias.
  • La mayor parte de la información estadística que aparece en los diarios, revistas, informes y demás publicaciones consistente en datos resumidos y presentados en forma comprensible para el lector. Estos resúmenes de datos, que pueden ser tabulares, gráficos o numéricos se llaman estadísticas descriptivas.
  • Cuando los datos de una variable están dispersos, la dispersión sigue un cierto patrón. Inicialmente todos los datos no nos dicen nada por si mismos, pero si los dividimos en clases o celdas ordenadamente, puede aclararse la forma de su dispersión, es decir, puede aclararse la forma en que están distribuidos. Una distribución de frecuencia informa sobre los valores concretos que adopta una variable y sobre el número (y porcentaje) de veces que repite cada uno de esos valores A medida que el número de observaciones crece, es necesario condensar mas los datos en tablas apropiadas, a fin de presentar, analizar e interpretar los resultados en la forma correcta. Se pueden agrupar los datos en clases de acuerdo con las divisiones establecidas que convienen al intervalo de las observaciones. Tal arreglo de datos se llama distribución de frecuencias . Cuando las observaciones se agrupan o condensan en tablas de distribución de frecuencia, el proceso de análisis e interpretación de los datos es mucho mas manejable y significativa. Se pueden aproximar las características principales de los datos, lo cual compensa el hecho de que al agrupar datos, se pierde la información inicial de las observaciones individuales. La distribución puede verse con claridad en forma de representación gráfica mediante un “ histograma de frecuencias” . En el histograma que es una representación visual de los datos puede observarse fácilmente tres propiedades esenciales de una distribución: Forma, tendencia central o acumulación, y dispersión o variabilidad de los datos. De esta forma, el histograma da una idea del proceso, lo que un simple examen de los datos tabulados no lo hace. Hay muchos métodos para construir histogramas. Cuando los datos son numerosos, es muy útil reunirlos en clases y se recomienda utilizar entre 5 y 15 (clases). Para realizar el histograma se marcan las clases sobre el eje de abscisas, y sobre cada clase se levanta un rectángulo de altura proporcional al número de observaciones de la variable (frecuencias absolutas) que caen en la clase. El agrupamiento de los datos en clases condensa los datos originales, lo que da como resultado una pérdida de algo del detalle. Así, cuando el número de observaciones es relativamente pequeño, o cuando las observaciones toman pocos valores, puede construirse el histograma a partir de la distribución de frecuencia de los datos sin agrupar, dando lugar a los diagramas de barras.
  • Al construir una tabla de distribución de frecuencias, se debe tener en cuidado en la selección del número de clases para obtener un intervalo de clase o ancho conveniente y de establecer las fronteras de cada clase sin que se traslapen. Se recomienda usar entre 5 y 20 clases. Los conjuntos de datos con mayor cantidad de elementos requieren por lo general mas clases. Los conjuntos de datos con menos elementos se resumen con frecuencia en cinco o seis clases. El objetivo es usar los suficientes datos para mostrar su variación, pero no tantas para que algunos sólo tengan unos cuantos elementos. Ancho de clase: Al desarrollar una tabla de distribución de frecuencias, es conveniente que cada intervalo de clase tenga la misma medida (o anchura). (Ver fórmula diapositiva). El ancho de clases obtenido con la ecuación de la diapositiva, puede ajustarse a un valor conveniente con base en la preferencia de quien desarrolla la distribución de frecuencias. Por ejemplo un ancho de clases calculado de 9,28 se puede ajustar a 10, simplemente porque 10 es un valor mas conveniente para trazar una distribución de frecuencias. Límite de clase: Se deben escoger los límites de clase de tal manera que cada valor del dato pertenezca a una sola clase y sólo a una. El límite inferior de clase , es el valor mínimo posible de los datos que se asignan a la clase. El límite superior de clase , es el valor máximo posible de los datos que se asignan a la clase. EJEMPLO: Arreglo ordenados de rendimientos totales a un año Que alcanzaron 59 fondos de crecimiento 20.4 23.8 25.6 26.2 27.6 27.7 28.3 28.6 28.8 28.9 28.9 29.3 29.3 29.5 29.9 30.1 31.5 31.6 31.6 31.8 31.9 32.1 32.3 32.3 32.4 32.8 32.9 32.9 33.0 33.3 33.4 33.7 33.8 34.0 34.0 34.3 34.7 34.7 34.8 35.0 38.2 39.0 39.4 40.7 41.1 42.8 42.9 43.3 43.4 43.5 43.6 43.7 44.6 44.7 45.4 45.7 46.6 48.0 48.6 48,6 - 20,4 Ancho de clase = ____________ = 4,7 6 Seis clases son suficientes (según criterio) Por conveniencia el ancho se redondea = 5 Se establece el intervalo de clase en 5%. El primer intervalo va de 20 a menos de 25%, el segundo de 25 a menos de 30% y así sucesivamente, hasta asignar las 6 clases con un ancho de intervalo de 5% sin traslapes. Tenemos entonces: RENDIMIENTO TOTAL A UN AÑO No. de FONDOS De 20.0 a menos de 25.0 2 25.0 “ 30.0 13 30.0 “ 35.0 24 35.0 “ 40.0 4 40.0 “ 45.0 11 45.0 “ 50.0 5 Total 59 La desventaja de esta tabla resumen es que no muestra la distribución de los datos individuales dentro de un intervalo de clase en particular. En consecuencia, para los 4 fondos cuyo rendimiento total de un año se encuentra entre el 35 y 40 %, no queda claro, si los valores se distribuyen en todo el intervalo, o se aglomeran cerca del 35 o 40%. Sin embargo, el punto medio de clase (37,5) se usa para representar los rendimientos totales a un año de los 4 fondos que están contenidos en ese intervalo.
  • En el diagrama de tallos y hojas cada valor se descompone en dos partes el primer o primeros dígitos (tallo o stem ) y los segundos (hojas o leaf ). Por ejemplo, el valor 23, puede descomponerse en un tallo de 2 y una hoja de 3; el valor 12.300 puede descomponerse en un tallo de 12 y una hoja de 3 etc. Cada tallo puede ocupar una o más filas. En el SPSS si un tallo ocupa una sola fila, sus hojas contienen dígitos del 0 al 9; Si ocupa dos filas, (Como en la diapositiva el tallo 2 ocupa dos filas de hojas, así como también los tallos 3 y 4) las hojas de la primera fila contiene dígitos del 0 al 4; y las de la segunda fila dígitos del 5 al 9. Etc. La anchura del tallo viene indicada en la parte inferior del diagrama ( stem width ), este dto es imprescindible para interpretar correctamente el diagrama. En el ejemplo, el tallo tiene una anchura de 10, lo que significa que los valores del tallo hay que multiplicarlos por 10. Así que un tallo de 1 vale 10; un tallo de 2 vale 20 y así sucesivamente. Las hojas completan la información del tallo, así en nuestro ejemplo, el tallo 1 tiene 4 hojas, que representa cuatro edades: 18 18 19 19. Cada hoja puede representar mas de un caso y viene indicado en la parte inferior del diagrama, each leaf,
  • Discusión simplificada: Supongamos que un guardabosques está interesado en conocer el porcentaje de osos feroces que existen en el parque Yellowstone. El porcentaje de todos los osos feroces es el parámetro de la población que interesa al guardia. Para inferir el resultado, decide tomar una muestra de osos u observar que porcentaje de ellos, en la muestra son peligrosos. En esta forma puede encontrar la muestra estadística y usarla para estimar el parámetro de la población. 1. Supongamos que estamos interesados en el número de veces que les toma a los estudiantes de secundaria el memorizar un fragmento de un discurso. Usted lo mide en una muestra de 300 estudiantes. Solución: el parámetro de interés es el promedio de veces que todos los estudiantes de secundaria necesitan para memorizar este material. La estadística correspondiente es el promedio de veces que en una muestra de 300 estudiantes se requiere para memorizar este trozo de discurso.
  • Variables dependientes e independientes Una distinción de particular importancia es aquella entre variables dependientes e independientes. Los términos “dependiente” e “independiente” se utilizan para representar una relación de “causalidad” entre dos variables. La relación es la siguiente: el valor de la variable dependiente ‘depende’ del valor de la variable independiente. En otras palabras: la variable independiente determina, en alguna medida (medida que puede ser mayor o menor), el valor de la variable dependiente. Utilizando otros términos, la variable independiente “causa” la variable dependiente. O sea que el comportamiento de la variable dependiente se podría predecir sobre la base del comportamiento de la variable independiente. Por ejemplo, consideremos la siguiente hipótesis: un buen maestro causa que los estudiantes aprendan. En este caso, “buen maestro” es la variable independiente, mientras que “grado de aprendizaje” (de los estudiantes) es la variable dependiente. Pero no siempre es fácil, o ni siquiera posible, saber cuál es la variable dependiente y cuál la independiente en una relación. Siguiendo con el ejemplo anterior, ¿es cierto que el aprendizaje de los niños resulta de la calidad del maestro? Por ejemplo, ¿el hecho de que los estudiantes de la escuela A tengan un mejor rendimiento que los de la escuela B significa que los maestros de la escuela A son mejores que los de la escuela B? Para empezar, quizás los estudiantes de la escuela A son más aventajados en cierto respecto, o hay otros elementos que causan ese mayor aprendizaje que no tienen nada que ver con los maestros. El problema de la determinación de causalidad (¿cuáles variables son dependientes y cuáles independientes?) es uno de los problemas más serios que enfrenta la estadística. El análisis empírico o estadístico sólo puede decirnos si dos variables parecen estar relacionadas, pero no puede decirnos: (a) si de hecho existe una relación de dependencia y (b) cuál es la dirección de dicha relación (cuál es la “causa” y cuál el efecto o la variable “causada”). Necesitamos una “teoría” para dar plausibilidad a una relación empírica. Considere la siguiente cuestión: ¿Es el aumento del ingreso per cápita de un país que causa mejoras en el nivel de educación o la mejora en el nivel de educación que causa mejoras en el ingreso per cápita? ¿O tal vez un tercer factor es la causa de ambos? ¿Cultura? Este complejo y viejo debate no se puede resolver sólo sobre la base del análisis estadístico, aunque la estadística es un importante instrumento en nuestros continuos esfuerzos por dilucidar estas cuestiones. El debate mencionado ha persistido por décadas, además, porque muchas de las teorías que han sido propuestas para explicar la relación entre educación y desarrollo económico no pueden ser refutadas sólo sobre la base del análisis empírico..
  • Variables cuantitativas: : Son aquellas cuyos valores se pueden expresar en cantidades numéricas. (edad, estatura, etc). Las mediciones hechas sobre variables cuantitativas conllevan información respecto a la cantidad. Variables Cualitativas: Son aquellas variables que expresan características, cualidades o propiedades del fenómeno observado (profesión, raza, etc.). No son mensurables, pero si es posible establecer cuando una variable cualitativa tiene mas alto nivel que otra( por ejemplo entre dos personas podemos atribuirle mas simpatía a una que a otra) Para establecer niveles atribuibles a las variables cualitativas, se les asigna números relativos a cada nivel. Por ejemplo 0= simpatía; 1= antipatía. Se pueden definir tantos niveles como se considere conveniente. Escala Nominal : Es la escala de medición mas baja, como su nombre lo indica consiste en designar o nombrar las observaciones o clasificaciones en varias categorías mutuamente excluyentes o colectivamente exhaustivas. Una medida nominal se crea cuando se utilizan nombres para establecer categorías dentro de las cuales las variables pueden registrarse exclusivamente ej. Masculino – femenino; Sano – enfermo. Las escalas nominales sólo trabajan con información cualitativa que no puede ser ordenada. Este tipo de escala es la menos informativa de todas. Algunas características cualitativas de las variables que deseamos medir no pueden ser ‘ordenadas’ de acuerdo a algún criterio de medición, tales como por ejemplo, nombres de países, regiones o colores. Estas características se refieren simplemente a “nombres” (de ahí el término variables “nominales”). Por ejemplo, Pakistán, Rusia, Nicaragua y Fiji son nombres de países y por lo tanto no pueden ser ordenados. En consecuencia, una escala nominal “no mide, sino que más bien nombra” Los diferentes tipos de escuelas de acuerdo a sus fuentes de financiamiento, esto es, públicas, privadas o mixtas, constituyen otro ejemplo de una variable, esta vez del área de la educación, que sólo puede ser representada utilizando una escala nominal. Escala Ordinal : Siempre que las observaciones no sólo difieran de categoría a categoría, sino que además puedan clasificarse por grados de acuerdo algún criterio , se dice que se mide sobre una escala ordinal. ejemplos: nivel socioeconómico: bajo – medio – alto Actitud: en desacuerdo – indeciso – de acuerdo Una escala ordinal es simplemente un ranking u ordenamiento de objetos, de mayor a menor, por así decirlo. Por ejemplo, si observamos un mapa del mundo podemos rápidamente ordenar los cuatro países anteriormente mencionados de acuerdo a su aparente área geográfica. El ranking, de mayor a menor, sería el siguiente: 1. Rusia; 2. Pakistán; 3. Nicaragua; 4. Fiji. Resulta evidente que una escala ordinal, al entregarnos información sobre el orden de unos objetos, nos provee de una mayor información acerca de los objetos observados que una escala nominal. Sin embargo, una escala ordinal no nos dice nada respecto de las distancias cuantitativas entre los objetos ordenados. Así, en nuestro ejemplo, la escala ordinal nos entrega información sobre el orden de las áreas de los países, pero no nos dice exactamente cuánto más grandes son unos países que otros. Escala de Intervalo: Es una escala mas especializada que la nominal o la ordinal, en el sentido que, con esta escala no solo es posible ordenar las mediciones, sino que también se conoce la distancia entre dos mediciones cualesquiera. Se toman valores enteros y el cero es arbitrario y, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. Sin lugar a dudas, podemos decir que la escala de intervalo es la primera escala verdaderamente cuantitativa y a los caracteres que posean esta escala de medida pueden calculársele todas las medidas estadísticas a excepción del coeficiente de variación. Este tipo de escalas nos proveen de información mucho más precisa, a la vez que nos permiten llevar a cabo mediciones mucho más sofisticadas que las escalas nominales u ordinales. Las escalas de intervalo no sólo nos informan acerca del orden de unos objetos, sino que también acerca de las distancias o diferencias numéricas entre dichos objetos. De hecho, estas escalas nos permiten medir y comparar esas distancias o diferencias con precisión. En otras palabras (y de aquí el nombre de escalas de intervalo), las distancias o ‘intervalos’ de igual tamaño en la escala son de hecho iguales no importando dónde en la escala se realice la medición. Por ejemplo, los resultados numéricos de los exámenes académicos pueden ser medidos usando escalas de intervalo. Las escalas de intervalo, sin embargo, no poseen una definición única del valor cero . En otras palabras, el cero es arbitrario en el sentido de que no representa ausencia absoluta de la característica que se desea medir. En este sentido las escalas de intervalo son equivalentes a termómetros, en los que el valor cero no representa la ausencia absoluta de calor. En nuestro ejemplo anterior, si un estudiante obtiene un resultado de cero puntos en un examen, ello obviamente no significa que el estudiante no sepa absolutamente nada acerca de la materia evaluada. El comportamiento humano es casi siempre medido utilizando escalas de intervalo. Escala de Razón : El nivel mas alto de medición es esta escala, y se diferencia de la escala de intervalo, porque el valor de cero, significa ausencia de la magnitud que estamos midiendo. En la escala de razón se pueden tomar valores decimales. La distancias expresadas en Km., millas etc. Son ejemplo de medición en una escala de razón, ya que en todos los casos tienen un origen común: el cero. Variables discretas: Son aquellas que sólo toman un determinado número de valores, porque entre dos valores consecutivos no puede haber ningún otro; el número de estudiantes de una clase es una variable discreta, ya que sólo tomará valores de 2 – 3 – 4 , no encontraremos valores de 2,5 ; 3,5 Las escalas de razón proveen el mayor grado de información posible acerca de los objetos medidos y permiten las descripciones e inferencias estadísticas más sofisticadas. Este tipo de escalas se distingue de las de intervalo por que poseen un cero que no es arbitrario , es decir, que representa la ausencia absoluta de la cualidad que se está midiendo. Ello nos permite comparar ‘razones’ (de ahí el nombre de la escala) o relaciones numéricas del tipo, por ejemplo, “A es tres veces más pesado que B”, sobre la simple base de que en la escala el valor de A es tres veces mayor que el de B. En el ejemplo anterior sobre las áreas geográficas de cuatro países, el valor de dichas áreas en kms2 podría ser medido utilizando una escala de razón. En este caso un valor de cero significaría la completa ausencia de área geográfica (¿un país ‘virtual’?). Así, por ejemplo, simplemente dividiendo el área de Rusia (17,075,200 kms2) por el área de Fiji (18,270 kms2), uno puede afirmar con certeza que el territorio de Rusia es 935 veces más extenso que el de Fiji. En educación, las escalas de razón se utilizan, por ejemplo, en el área del financiamiento de la educación. Por ejemplo, algunos distritos podrían recibir “dos veces” o “tres veces” más dólares por estudiante que otros. Variables continuas : Puede tomar cualquier valor dentro de un intervalo. Ejemplo: el peso, la estatura
  • Los niveles de medición, constituyen la herramienta formal más potente en la clasificación de los métodos estadísticos, en descriptivos e inferenciales. De esta forma las escalas determinan el análisis. Asumiendo que los estadísticos pueden calcularse dependiendo de la escala de medida usada, cuestión que es ignorada en muchos análisis estadísticos. Adicionalmente la clasificación de las variables y la forma como se etiquetan influyen en la creación de la matriz de datos.

Transcript

  • 1. Estdistica Ender Meleán Septiembre de 2009
  • 2. ESTADÍSTA DESCRIPTIVA
  • 3. ESTADÍSTICA
    • “ ES LA DISCIPLINA QUE SE OCUPA DE 1) LA RECOLECCIÓN, ORGANIZACIÓN, RESUMEN Y ANÁLISIS DE DATOS, Y 2) LA OBTENCIÓN DE INFERENCIAS A PARTIR DE UN VOLUMEN DE DATOS CUANDO SE EXAMINA UNA PARTE DE ELLOS”. (Daniel, 2004:2)
    • “ LA ESTADÍSTICA DESCRIPTIVA PUEDE DEFINIRSE COMO LOS MÉTODOS QUE INVOLUCRAN LA RECOPILACIÓN, CARACTERIZACIÓN Y PRESENTACIÓN DE UN CONJUNTO DE DATOS, CON EL FIN DE DESCRIBIR VARIAS DE SUS CARACTERÍSTICAS”. (Berenson, Levine y Krehbiel. 2001:5)
  • 4. PENSAMIENTO ESTADÍSTICO
    • “ CONJUNTO DE PROCESOS DEL PENSAMIENTO QUE SE ORIENTAN A LA FORMA DE ENTENDER, ADMINISTRAR Y REDUCIR LA VARIACIÓN” (Berenson y Levine, 2001:4)
    • “ CONJUNTO DE PRINCIPIOS Y VALORES QUE PERMITEN
    • IDENTIFICAR LOS PROCESOS, CARACTERIZARLOS,
    • CUANTIFICARLOS, CONTROLAR Y REDUCIR SU
    • VARIACIÓN PARA IMPLANTAR ACCIONES DE MEJORA ”.
    • (Snee, 1993)
  • 5. ANALISIS ESTADÌSTICO
    • “ Ciencia que recoge, ordena y analiza los datos de una muestra extraída de una determinada población, para hacer inferencias de esa población valiéndose del cálculo de probabilidades” (Amon, 1979)
    • Nos permite:
    • Tomar decisiones
    • Solucionar problemas
  • 6. APLICACIONES DE LA ESTADÍSTICA
    • Contabilidad:
    • Para seleccionar muestras con propósitos de auditoría.
    • En contabilidad de costos.
    • Finanzas:
    • Para estar al tanto de las medidas financieras en el transcurso del tiempo.
    • Para desarrollar formas de pronosticar valores de estas medidas en momentos futuros.
    • Administración:
    • Para describir las características de los empleados dentro de una organización.
    • Para mejorar la calidad de los productos fabricados o de los servicios procurados por la organización.
    • Mercadeo:
    • Para determinar la proporción de clientes que prefieren un producto en vez de otro y la razón de esto.
    • Para sacar conclusiones respecto a la estrategia de publicidad que sería más útil para el incremento de ventas de un producto.
    Casi todas las áreas del saber requieren del pensamiento estadístico. Las disciplinas de estudio que dependen ampliamente del análisis estadístico, incluyen, pero no se limitan a, marketing, finanzas economía e investigación de operaciones. La contabilidad y gerencia financiera también se basan en principios estadísticos.
  • 7. TIPOS DE ESTADÍSTICA
    • ESTADÍSTICA INFERENCIAL: Pueden definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población, basándose sólo en los resultados de la muestra.
    • ESTADISTICA DESCRIPTIVA: Puede definirse como aquellos métodos que incluyen la recolección, presentación y caracterización de un conjunto de datos con el fin de describir apropiadamente las diversas características de ese conjunto de datos.
  • 8. INFERENCIA ESTADÍSTICA Proceso y resultado de extraer conclusiones respecto a una población a partir de una o más muestras . M P conclusiones El eslabón absolutamente crucial entre los resultados que se obtienen de la muestra y la capacidad para generalizar esos resultados a la población, es el supuesto de que un muestreo repetido de la población producirá un conjunto de datos representativos de la población. Si esto no sucede, no se podrá aplicar las pruebas de la estadística inferencial.
  • 9. PARA QUE SIRVE EL ANÁLISIS ESTADÍSTICO Ciencias Formales (Matemáticas, Física, Medicina) Deducción lógica. Empíricas (psicología, sociología, Economía,) Generalización inductiva
    • En las ciencias empíricas el objetivo fundamental es el de encontrar relaciones de tipo general (leyes), capaces de explicar eventos reales cuando se dan las circunstancias apropiadas. (Se descubren y verifican observando el mundo real).
    • La generalización inductiva , intenta ir desde lo que considera que es verdad para un número reducido de observaciones hasta la afirmación de que eso mismo es verdad para el total de observaciones posibles de la misma clase.
    • La generalización inductiva . En las ciencias empíricas las fuentes de variación existentes son numerosas y difícil de identificar, medir y controlar, por ello necesita una metodología especial que las valide: “ El análisis estadístico”
    • En situaciones aleatorias en que la misma causa puede producir cualquiera de un conjunto de resultados posibles (Respuesta al tratamiento de un paciente) es necesario recurrir al análisis estadístico para extraer conclusiones fiables. (Reducción de la incertidumbre).
  • 10. Presentación ordenada de datos
    • Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra.
    Bioestadística U. de Málaga Género Frec. Hombre 4 Mujer 6
  • 11. Datos desordenados y ordenados en tablas
    • Variable: Género
      • Modalidades:
        • H = Hombre
        • M = Mujer
    • Muestra:
      • M H H M M H M M M H
      • equivale a HHHH MMMMMM
    Bioestadística U. de Málaga Género Frec. Frec. relat. porcentaje Hombre 4 4/10=0,4=40% Mujer 6 6/10=0,6=60% 10=tamaño muestral
  • 12. Ejemplo
    • ¿ Cuántos individuos tienen menos de 2 hijos?
      • frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255 = 674 individuos
    • ¿Qué porcentaje de individuos tiene 6 hijos o menos?
      • 97,3%
    • ¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual?
      • 2 hijos
    ≥ 50% Bioestadística U. de Málaga
  • 13. Cuando se tiene un número considerable de datos de un experimento estadístico, se ordenan y clasifican en una tabla numérica a fin de obtener de ella la mejor información y facilitar su interpretación. Se refiere a observaciones independientes entre sí. AGRUPACIÓN Y REPRESENTACIÓN DE DATOS ESTADÍSTICOS Tabulación Simple: Calificaciones de los participantes Puntos Matemáticas Estadística 0 - 5 6 - 10 11 - 15 16 - 20 6 8 20 11 9 12 14 10 Total 45 45
  • 14. Tabulación Compleja: Se refiere a observaciones dependientes entre sí Estudiantes relación estatura peso Peso - Kg Estatura - mts Fuente: Nijad Hamdan Rendimiento estudiantil por materias Doctorado Educación Asignatura % Aprobados % Aplazados % Deserción Estadística Instrumentos Multivariante A. Del Discurso 43,2 55,7 65,0 77,0 47,8 32,3 32,5 20,0 9,0 12,0 2,5 3,0 55 - 60 61 - 65 66 - 70 71 - 75 76 - 80 1,50 a 1,55 2 5 3 1 1,56 a 1,60 4 1,61 a 1,65 1 2 1,66 a 1,70 5 1,70 a 1,75 3 4 2
  • 15. DISTRIBUCIONES DE FRECUENCIA Cuando se trabaja con conjuntos grandes de datos, es útil organizarlos y resumirlos por medio de la construcción de una tabla que liste los distintos valores posibles de los datos, individual o por grupos, junto con el número de veces que se presentan dichos valores. (frecuencias ) Diferencia entre ordenamiento de datos y frecuencia Ordenamiento de notas en Estadística 9 9 10 11 11 11 12 12 13 13 13 14 14 14 14 16 17 17 19 20 Clase Frecuencia 9 - 11 6 12 - 14 9 15 - 17 3 18 - 20 2
  • 16. DISTRIBUCIÓN DE FRECUENCIAS
    • Es una tabla de resumen en la cual los datos se colocan en agrupamiento o categorías establecidas en forma conveniente de clases ordenadas numéricamente
    • Una distribución de frecuencia informa sobre los valores concretos que
    • adopta una variable y sobre el número (y porcentaje) de veces que repite
    • cada uno de esos valores
    • Exponen la información recogida en la muestra, de forma que no se pierda
    • nada de información (o poca).
    • Las distribuciones de frecuencia se construyen por las siguientes razones:
    • Resume conjunto grande de datos
    • Se logra cierta comprensión respecto a la naturaleza de los datos
    • Se logra tener un avance para construir gráficas importantes
  • 17. DISTRIBUCIÓN DE FRECUENCIAS
    • Obtención de intervalos de clase
    • Es conveniente que cada intervalo tenga la misma medida (o anchura).
    Valor más alto – Valor más bajo
    • Selección del número de clases
    • Una gran cantidad de observaciones requiere un mayor número de clases. Sin embargo una distribución de frecuencias debe tener como mínimo 5 clases, pero no mas de 15
    Número de clases deseado Ancho de Clase =
  • 18.
    • Frecuencias relativas (porcentajes): Idem, pero dividido por el total
      • Frecuencias absolutas: Es el número de datos que caen en cada uno de los intervalos estructurados (clase)
    Clase Frecuencia Frecuencia Relativa 9 - 11 6 0.30 30% 12 - 14 9 0.45 45% 15 - 17 3 0.15 15% 18 - 20 2 0.10 10% Clase Frecuencia 9 - 11 6 12 - 14 9 15 - 17 3 18 - 20 2
  • 19.
      • Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas. Es la frecuencia absoluta acumulada hasta cada clase.
    Clase Frecuencia Frecuencia Frecuencia Relativa Acumulada 9 - 11 6 0.30 30% 6 12 - 14 9 0.45 45% 15 15 - 17 3 0.15 15% 18 18 - 20 2 0.10 10% 20
  • 20. Distribuciones de frecuencia, frecuencia acumulada, frecuencia relativa, frecuencia porcentual y frecuencia relativa acumulada Daniel 2004:21 Intervalos Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia de clase acumulada relativa porcentual r. acumul. 10 - 16 4 4 0.0237 2.37 0.0237 20 – 29 66 70 0.3905 39.05 0.4142 30 - 39 47 117 0.2781 27.81 0.6923 40 – 49 36 153 0.2130 21.30 0.9053 50 - 59 12 165 0.0710 7.10 0.9763 60 – 69 4 169 0.0237 2.37 1.0000 Total 169 1.0000 100
  • 21. EJEMPLO: Arreglo ordenados de rendimientos totales a un año Que alcanzaron 59 fondos de crecimiento Por conveniencia el ancho se redondea = 5 DISTRIBUCIÓN DE FRECUENCIAS Seis clases son suficientes 20.4 23.8 25.6 26.2 27.6 27.7 28.3 28.6 28.8 28.9 28.9 29.3 29.3 29.5 29.9 30.1 31.5 31.6 31.6 31.8 31.9 32.1 32.3 32.3 32.4 32.8 32.9 32.9 33.0 33.3 33.4 33.7 33.8 34.0 34.0 34.3 34.7 34.7 34.8 35.0 38.2 39.0 39.4 40.7 41.1 42.8 42.9 43.3 43.4 43.5 43.6 43.7 44.6 44.7 45.4 45.7 46.6 48.0 48.6 = 4,7 48,6 - 20,4 6 Ancho de intervalo =
  • 22. Se establece el intervalo de clase en 5%. El primer intervalo va de 20 a menos de 25%, el segundo de 25 a menos de 30% y así sucesivamente, hasta asignar las 6 clases con un ancho de intervalo de 5% sin traslapes. La desventaja de esta tabla resumen es que no muestra la distribución de los datos individuales dentro de un intervalo de clase en particular. En consecuencia, para los 4 fondos cuyo rendimiento total de un año se encuentra entre el 35 y 40 %, no queda claro, si los valores se distribuyen en todo el intervalo, o se aglomeran cerca del 35 o 40%. Sin embargo, el punto medio de clase (37,5) se usa para representar los rendimientos totales a un año de los 4 fondos que están contenidos en ese intervalo. RENDIMIENTO TOTAL A UN AÑO No. de FONDOS De 20.0 a menos de 25.0 2 25.0 30.0 13 30.0 35.0 24 35.0 40.0 4 40.0 45.0 11 45.0 50.0 5 Total 59
  • 23. GRAFICOS
  • 24. Gráficos para v. cualitativas
    • Diagramas de barras
      • Alturas proporcionales a las frecuencias (abs. o rel.)
      • Se pueden aplicar también a variables discretas
    • Diagramas de sectores (tartas, polares)
      • No usarlo con variables ordinales.
      • El área de cada sector es proporcional a su frecuencia (abs. o rel.)
    • Pictogramas
      • Fáciles de entender.
      • El área de cada modalidad debe ser proporcional a la frecuencia. ¿De los dos, cuál es incorrecto?.
  • 25. Gráficos para variables numéricas
    • Son diferentes en función de que las variables sean discretas o continuas. Se utilizan con frec. absolutas o relativas.
      • Diagramas barras para v. discretas
        • Se deja un hueco entre barras para indicar los valores que no son posibles
      • Histogramas para v. continuas
        • El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en el intervalo.
  • 26.  
  • 27. CONSTRUCCIÓN DE HISTOGRAMAS INDICANDO CANTIDAD DE CLASES.
      • 1..Archivo “EDAD DANIEL”
      • 2.- Determinar el Ancho de clase
      • a. Localizar la menor y mayor edad.
      • Analizar > Estd. Descrip. > Pasar “EDAD” > Opciones >
      • Marcar solamente “minimo” y Máximo”
    Valor más alto – Valor más bajo N úmero de clases deseado Ancho de Clase = Ancho de Clase = 63 - 18 5 = 9
  • 28. ANCHOS DE CLASE 18 + 9 = 27 1 er Ancho de clase = 27 + 9 = 36 2 do Ancho de clase = 36 + 9 = 45 3 er Ancho de clase = 45 + 9 = 54 4 º Ancho de clase = 54 + 9 = 63 5 º Ancho de clase = 18 - 27 27 - 36 36 - 45 45 - 54 54 - 63 FORMAR NUEVA VARIABLE AGRUPADA : 3. Transformar - Recodificar - En variables diferentes
  • 29.  
  • 30.
    • POLÍGONOS DE FRECUENCIA
    • (v. continuas)
    • Se construye uniendo con segmentos de recta los puntos medios de las marcas de clase en la parte superior de cada intervalo. Al unir las marcas mediante líneas rectas se obtiene el polígono de frecuencia.
    • Cuando se comparan dos o mas conjuntos de datos, resulta imposible la construcción de histogramas en la misma gráfica.
    POLÍGONOS DE FRECUENCIA 0 10 20 30 40 50 60 70 80 90 100 20 40 60 80 Puntos medios Frecuencias absolutas
  • 31. GRÁFICAS DE TALLO Y HOJAS Sistema gráfico muy útil para representar conjunto de datos “cuantitativos”. Presenta una gran similitud con el histograma y tiene el mismo propósito.
    • Muestra la ubicación de la mayor concentración de
    • mediciones
    • Revela la presencia o ausencia de simetría
    • Conserva la información contenida en las mediciones
    • individuales
    Abrir el archivo “Edad Daniel” y seguir las instrucciones de la próxima diapositiva
  • 32. EDAD Stem-and-Leaf Plot Frequency Stem & Leaf 4,00 1 . 8899 26,00 2 . 01112222223333333444444444 40,00 2 . 5555666666666667777777777888888899999999 30,00 3 . 000000000011111112222233344444 17,00 3 . 56667777788888999 19,00 4 . 0000001112222333444 17,00 4 . 55566777788888899 11,00 5 . 00011223333 1,00 5 . 6 4,00 6 . 1233 Stem width: 10,00 Each leaf: 1 case(s) Despliegue de tallos y hojas de la variable “EDAD” del archivo Edad Daniel
  • 33. DEFINICIONES BÁSICAS
    • POBLACIÓN: Cualquier colección de unidades que pueden interesar en un estudio. Esta colección debe estar bien definida, de tal forma que se puedan distinguir entre sus miembros aquellos que lo son y los que no lo son.
    • MUESTRA: Es una parte (sub-conjunto) de la población, obtenida con el propósito de investigar propiedades que posee la población. Es decir, se pretende que dicho sub-conjunto, represente a la población a la cual se extrajo.
    • MEDICIÓN CUALITATIVA Y CUANTITATIVA : Una medida es un número o denominación que podemos asignar a una unidad de observación . Si este número expresa dimensiones o capacidades, se denomina medición cuantitativa, si registra características, atributos o actitudes se denomina medición cualitativa
  • 34.
    • PARÁMETRO: Es una medida de resumen que describe una característica de toda una población. Por lo general se simboliza con letras griegas, así:
    DEFINICIONES BÁSICAS µ
    • ESTADÍSTICO: Es una medida de resumen que se calcula para describir una característica a partir de una sola muestra de la población. Se calcula a partir de los datos de la muestra y, por lo tanto sirve para estimar parámetros. Generalmente es simbolizado por letras latinas minúsculas, así: media muestral
    x
  • 35. ANÁLISIS ESTADÍSTICO
    • TIPO DE VARIABLE
    • TIPO DE INVESTIGACIÓN
    VARIABLE : Propiedad que puede variar y cuya variación es susceptible a medirse u observarse. Sampieri. (2003:143) EJEMPLOS: Sexo, atractivo físico, la religión, la agresividad verbal, presión arterial, nivel socio económico . Las variables adquieren valor para la investigación científica cuando llegan a relacionarse con otras (formar parte de una hipótesis o una teoría).
  • 36.
    • UNA VARIABLE:
      • SE MIDE
      • CAMBIA
  • 37. CLASIFICACIÓN DE LAS VARIABLES VARIABLE CUALITATIVA ORDINAL CUANTITATIVA DISCRETA CONTINUA NOMINAL
  • 38. NIVEL DE MEDICIÓN NOMINAL Nombra las observaciones en categoría mutuamente excluyente
    • Sexo
    • Raza
    • Diagnósticos
    ORDINAL Hay orden y jerarquía
    • Nivel Socioeconómico
    • Bajo, medio y alto.
    • Actitud:
    • En desacuerdo, Indeciso,
    • de acuerdo
    INTERVALO El cero es un valor arbitrario
    • Temperatura
    RAZÓN El cero es un valor absoluto
    • Peso
    • Distancias Km., pie