Mi parte de proba de 5.2 hasta el ultimo

952 views

Published on

esta es la parte que me toco en la clase de probabilidad wiiiiiii

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
952
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Mi parte de proba de 5.2 hasta el ultimo

  1. 1. 5.2. DIAGRAMA DE DISPERSIÓN<br />Representación gráfica del grado de relación entre dos variables cuantitativas.<br />A continuación se comentan una serie de características que ayudan a<br />comprender la naturaleza de la herramienta.<br />Un Diagrama de Dispersión muestra la posibilidad de la existencia de<br />correlación entre dos variables de un vistazo.<br />Simplifica el análisis de situaciones numéricas complejas.<br />El análisis de datos mediante esta herramienta proporciona mayor información<br />que el simple análisis matemático de correlación, sugiriendo posibilidades y<br />alternativas de estudio, basadas en la necesidad de conjugar datos y procesos<br />en su utilización.<br />5.2.1 TABLA DE DATOS<br />Una tabla es un cuadro que consiste en la disposición conjunta, ordenada y normalmente totalizada, de las sumas o frecuencias totales obtenidos en la tabulación de los datos, referentes a las categorías o dimensiones de una variable o de varias variables relacionadas entre sí. Las tablas sistematizan los resultados cuantitativos y ofrecen una visión numérica, sintética y global del fenómeno observado y de las relaciones entre sus diversas características o variables. En ella, culmina y se concreta definitivamente la fase clasificatoria de la investigación cuantitativa.<br />5.2.2 CONSTRUCCION DE DIAGRAMAS<br />Cuando se tienen varias características para una misma población, es necesario saber si dichas características son independientes unas de otras, o si por el contrario están relacionadas y el valor de una característica para un elemento de la población depende del valor de otra característica de dicho elemento. Por ejemplo, si fuéramos a analizar el peso y la estatura de un grupo de personas, podríamos encontrar que existe una relación directa entre estas dos características. Pero si analizamos, por ejemplo, la estatura de la persona y su nivel de ingresos mensuales, observaríamos que no hay ninguna relación entre estas dos características, es decir, que son independientes. Si dos características de una misma población son independientes, es necesario analizar cada una por separado. Sin embargo, si las características están relacionadas, basta con analizar sólo una de ellas, y la otra característica puede obtenerse a partir de la primera (usándola como variable predictora), o puede establecerse la correlación entre ellas, de tal forma que los análisis realizados reflejen la estructura de correlación o dependencia existente entre ellas. <br />Dadas dos variables X y Y tomadas sobre el mismo elemento de la población, el diagrama de dispersión es simplemente un gráfico de dos dimensiones, donde en un eje (la abscisa) se grafica una variable, y en el otro eje (la ordenada) se grafica la otra variable. Si las variables están correlacionadas, el gráfico mostraría algún nivel de correlación (tendencia) entre las dos variables. Si no hay ninguna correlación, el gráfico presentaría una figura sin forma, una nube de puntos dispersos en el gráfico. La figura siguiente presenta el diagrama de dispersión para una secuencia de dos números aleatorios generados usando el mismo método (realmente es una misma secuencia, donde un número se genera a partir del número anterior, y se examina la autocorrelación resultante). Si el método es adecuado, no debería haber ninguna correlación en la secuencia de datos. Como puede observarse, no existe, aparentemente ninguna correlación entre las dos series de datos. La tabla siguiente presenta la serie de valores graficados (obsérvese que el valor de la variable Y es el valor anterior de la variable X). <br />La tabla y el gráfico siguientes presentan el diagrama de dispersión para el producto Interno Bruto de un país (en millones de dólares) y el consumo de energía (en GWh) para un período de varios años. Como se observa, existe una relación directa entre estas dos variables. Es decir, si podemos predecir o estimar el PIB para un año dado, podríamos estimar cual sería aproximadamente el consumo para el mismo año. <br />Coeficiente de correlación muestral Otra forma de mirar la relación existente entre dos variables es mediante el coeficiente de correlación muestral, r el cual está definido como: <br />y Sx y Sy corresponden a las desviaciones muestrales de las variables X y Y respectivamente. Si no existe ninguna relación entre las dos variables este coeficiente debe dar aproximadamente cero, tiende a +1 si existe una correlación positiva, y hacia −1 si la correlación es negativa. Para el primer conjunto de datos (números aleatorios) tenemos lo siguiente: Sx = 0.287, Sy = 0.292, Sxy = 0.0104 Þ Rxy = 0.104/(0.287×0.292) = 0.124, lo cual muestra que la estructura de correlación es muy débil, es decir, podemos concluir que no existe ninguna relación entre las dos variables. Para el siguiente conjunto de datos (PIB y Consumo de Energía) los estadísticos son: Sx = 5396.3, Sy = 3993.9, Sxy = 21071652.22 Þ Rxy = 21071652.22/(5396.3×3993.9) = 0.978, lo cual confirma la relación existente entre el PIB y el consumo de energía. <br />5.3 Estimacion Mediante la Linea de Regresion<br />Este Coeficiente como ya se dijo mide la fuerza de la relación entre las variables. El coeficiente tiene el signo que tiene b y su valor estará El signo menos en el índice significa una relación negativa y un signo más una correlación positiva. El coeficiente se obtiene sacando la raíz cuadrada al coeficiente de determinación y se simboliza con “r”. <br />En este caso el coeficiente r tiene signo positivo ya que toma el valor de b obtenido con las ecuaciones normales toma valor positivo. <br />La correlación entre los valores de dos variables es un hecho. El que lo consideremos satisfactorio o no, depende de la interpretación. Otro problema que representa la correlación es cuando se pregunta si una variable, de algún modo causa o determina a la otra. La correlación no implica causalidad. Si las variables X e Y están correlacionadas, esto puede ser por que X causa a Y, o porque Y causa a X o porque alguna otra variable afecta tanto a X como Y, o por una combinación de todas estas razones; o puede ser que la relación sea una coincidencia. <br />5.3.1 ECUACIÓN DE LA RECTA COMO AJUSTE DE DATOS. <br />El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en <br />un diagrama de dispersión se conoce como “el método de los mínimos cuadrados”. La recta <br />resultante presenta dos características importantes: <br />1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste <br />∑ (Yー - Y) = 0. <br />Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta daría <br />una suma menor de las desviaciones elevadas al cuadrado ∑ (Yー- Y) -> 0 (mínima). <br />La obtención de los valores de a y b que minimizan esta función es un problema que se puede resolver recurriendo a la derivación parcial de la función en términos de a y b: llamemos G a la función que se va a minimizar: <br />Tomemos las derivadas parciales de G respecto de a y b que son las incógnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier método ya sea igualación o matrices para obtener los valores de a y b. <br />Esta ecuación permite estimar el valor de para cualquier valor de X, por ejemplo: Una ciudad que tiene un porcentaje de graduados a nivel superior del 28% la mediana de ingreso para la ciudad será: <br />5.3.2 MODELOS<br />En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio.<br />5.4 METODOS DE MINIMOS CUADRADOS<br />El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en <br />un diagrama de dispersión se conoce como “el método de los mínimos cuadrados <br />5.4.2 Estimacion Coeficientes de Regresion<br /> La forma general de la ecuación de regresión múltiple con dos variables independientes es:<br /> Y=a+b1x1+b2x2<br />Y=X1,X2 : Variables Independientes<br />a : es la ordenada del punto de intersección con el eje Y.b1 : Coeficiente de Regresión (es la variación neta en Y por cada unidad de<br />variación en X1.).b2 : Coeficiente de Regresión (es el cambio neto en Y para cada cambio<br />unitario en X2).Prueba Global.- esta prueba investiga básicamente si es posible que todas las variables independientes tengan coeficientes de regresión netaiguales a 0. <br />5.5 Error estándar en la estimación <br />El error estándar de la estimación designado por sYX mide la disparidad “promedio” entre los valores observados y los valores estimados de . Se utiliza la siguiente formula. <br />Debemos entonces calcular los valores de para cada ciudad sustituyendo en la ecuación los valores de los porcentajes de graduados de cada ciudad estudiada. <br />5.6 Coeficientes Determinacion Y Correlacion<br />El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las varables es lineal (es decir, si representaramos en un gáfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta). <br />No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación<br />las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado. <br />Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un gráfico y ver que forma describen. <br />El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula: <br />Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la “x” menos su media, por la “y” menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra. <br />Denominador se calcula el produto de las varianzas de “x” y de “y”, y a este produto se le calcula la raíz cuadrada. <br />Los valores que puede tomar el coeficiente de correlación “r” son: −1 < r < 1 <br />Si “r” > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1. <br />Por ejemplo: altura y peso: los alumnos más altos suelen pesar más. <br />Si “r” < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a −1. <br />Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos. <br />Si “r” = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación (parabólica, exponencial, etc.) <br />De todos modos, aunque el valor de “r” fuera próximo a 1 o −1, tampoco esto quiere decir obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este resultado podría haberse debido al puro azar. <br />5.6.1 Coeficiente de determinación de la muestra<br />El coeficiente de determinación es la principal forma en que podemos medir la extensión, o fuerza de asociación que existe entre dos variables, X y Y. Puesto que hemos desarrollado una muestra de puntos para desarrollar las líneas de regresión, nos referimos a esta medida como el coeficiente de determinación de la muestra.<br />El coeficiente de determinación de la muestra se desarrolla de la relación entre dos tipos de variación: la variación de los valores Y en conjunto de los datos alrededor de <br /> la línea de regresión ajustada<br /> su propia media<br />el termino variación en estos dos casos se refiere a “la suma de un grupo de desviaciones cuadradas”. Al usar esta definición, entonces es razonable expresar la variación de los valores Y alrededor de la línea de regresión con esta ecuación:<br />variación de los valores Y alrededor de la línea de regresión = <br />la segunda variación, la de los valores de Y con respecto a su propia media, esta determinada por <br />variación de los valores de Y alrededor de su propia media = <br />uno menos la razón entre estas dos variaciones es el coeficiente de determinación de la muestra que se simboliza r2 <br />esta ecuación es una medida del grado de asociación lineal entre X y Y<br />Una correlación perfecta es aquella en que todos los valores de Y caen en la línea de estimación , por lo tanto el coeficiente de determinación es 1<br />Cuando el valor del coeficiente de determinación es 0 quiere decir que no hay correlación entre las dos variables<br />En los problemas con que se topa la mayoría de los responsables de la toma de decisiones, r2 caerá en alguna parte entre estos dos extremos de 1 y 0. recuerde, no obstante que un r2 cercano a 1 indica una fuerte correlación entre X y Y, mientras que un r2 cercano a 0 significa que existe poca correlación entre estas dos variables.<br />Un punto que debemos subrayar fuertemente es que r2 mide solo la fuerza de una relación lineal entre dos variables.<br />5.6.2 Coeficiente de correlación de la muestra. <br />En estadística, el coeficiente de correlación de la muestra, es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.<br />Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia<br />Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student<br />5.7 Problemas practicos de ajuste de curvas<br />El ajuste de curvas consiste en encontrar una curva que contenga una serie de puntos y que posiblemente cumpla<br />una serie de restricciones adicionales. Esta sección es una introducción tanto a la interpolación (cuando se espera un<br />ajuste exacto a determinadas restricciones) y al ajuste de curvas/análisis de regresión (cuando se permite una<br />aproximación).<br />Ajuste de líneas y curvas polinómicas a puntos<br />Empecemos con una ecuación polinómica de primer grado:<br />Esta línea tiene pendiente a. Sabemos que habrá una línea conectando dos puntos cualesquiera. Por tanto, una<br />ecuación polinómica de primer grado es un ajuste perfecto entre dos puntos.<br />Si aumentamos el orden de la ecuación a la de un polinomio de segundo grado, obtenemos:<br />Esto se ajustará exactamente a tres puntos. Si aumentamos el orden de la ecuación a la de un polinomio de tercer<br />grado, obtenemos:<br />que se ajustará a cuatro puntos.<br />Una forma más general de decirlo es que se ajustará exactamente a cuatro restricciones. Cada restricción puede ser<br />un punto, un ángulo o una curvatura (que es el recíproco del radio, o 1/R). Las restricciones de ángulo y curvatura se<br />suelen añadir a los extremos de una curva, y en tales casos se les llama condiciones finales. A menudo se usan<br />condiciones finales idénticas para asegurar una transición suave entre curvas polinómicas contenidas en una única<br />spline. También se pueden añadir restricciones de orden alto, como " el cambio en la tasa de curvatura" . Esto, por<br />ejemplo, sería útil en diseños de intercambios en trébol para incorporaciones a autopistas, para entender las fuerzas a<br />las que somete a un vehículo y poder establecer límites razonables de velocidad.<br />Si tenemos más de n + 1 restricciones (siendo n el grado del polinomio), aún podemos hacer pasar la curva<br />polinómica por ellas. No es seguro que vaya a existir un ajuste exacto a todas ellas (pero podría suceder, por<br />ejemplo, en el caso de un polinomio de primer grado que se ajusta a tres puntos colineales). En general, sin embargo,<br />se necesita algún método para evaluar cada aproximación. El método de mínimos cuadrados es una manera de<br />comparar las desviaciones.<br />Ahora bien, podríamos preguntarnos la razón de querer un ajuste aproximado cuando podríamos simplemente<br />aumentar el grado de la ecuación polinómica para obtener un ajuste exacto. Existen varias:<br />• Incluso si existe un ajuste exacto, no quiere decir necesariamente que podamos encontrarlo. Dependiendo del<br />algoritmo que se use, podríamos encontrar un caso divergente, donde no se podría calcular el ajuste exacto, o el<br />coste computacional de encontrar la solución podría ser muy alto. De cualquier modo, tendríamos que acabar<br />aceptando una solución aproximada.<br />• Quizá prefiramos el efecto de promediar datos cuestionables en una muestra, en lugar de distorsionar la curva<br />para que se ajuste a ellos de forma exacta.<br />• Los polinomios de orden superior pueden oscilar mucho. Si hacemos pasar una curva por los puntos A y B,<br />esperaríamos que la curva pase también cerca del punto medio entre A y B. Esto puede no suceder con curvas<br />polinómicas de grados altos, ya que pueden tener valores de magnitud positiva o negativa muy grande. Con<br />polinomios de grado bajo existen más posibilidades de que la curva pase cerca del punto medio (y queda<br />garantizado que pasará exactamente por ahí, en los de primer grado).<br />Ajuste de curvas 2<br />• Los polinomios de orden bajo tienden a ser suaves y las curvas de los polinomios de orden alto tienden a ser<br />" bulbosas" . Para definir esto con más precisión, el número máximo de puntos de inflexión de una curva<br />polinómica es n-2, donde n es el orden de la ecuación polinómica. Un punto de inflexión es el lugar de una curva<br />donde cambia de radio positivo a negativo. Obsérvese que la " bulbosidad" de los polinomios de orden alto es sólo<br />una posibilidad, ya que también pueden ser suaves, pero no existen garantías, al contrario que sucede con los<br />polinomios de orden bajo. Un polinomio de grado quince podría tener, como máximo, trece puntos de inflexión,<br />pero podría tener también doce, once, o cualquier número hasta cero.<br />Ahora que hemos hablado del uso de grados demasiado bajos para conseguir un ajuste exacto, comentemos qué<br />sucede si el grado de una curva polinómica es mayor del necesario para dicho ajuste. Esto es malo por las razones<br />comentadas anteriormente si los polinomios son de orden alto, pero también nos lleva a un caso en que exista un<br />número infinito de soluciones. Por ejemplo, un polinomio de primer grado (una línea) restringido por un único<br />punto, en lugar de los dos habituales, nos dará un número infinito de soluciones. Esto nos trae el problema de cómo<br />comparar y escoger una solución única, lo que puede ser un problema tanto para humanos como para el software. Por<br />esta razón es mejor escoger el polinomio de menor grado posible para obtener un ajuste exacto en todas las<br />restricciones, y quizá incluso un grado menor si es aceptable una aproximación al ajuste.<br />

×