• Like
  • Save
Activus book 61 - Estadísticas básicas para la Gestión
Upcoming SlideShare
Loading in...5
×
 

Activus book 61 - Estadísticas básicas para la Gestión

on

  • 289 views

La globalización, las nuevas tecnologías, la abundancia de datos, un mundo en constante y vertiginoso cambio, este es el escenario complejo en el cual se desarrollan los negocios. ...

La globalización, las nuevas tecnologías, la abundancia de datos, un mundo en constante y vertiginoso cambio, este es el escenario complejo en el cual se desarrollan los negocios.
Justamente por ello, la correcta toma de decisiones estará fuertemente influenciada por la capacidad para decidir, y el contar con más y mejores herramientas para analizar los diferentes escenarios.
Contar con infinidad de datos, no significa precisamente contar con información.

Statistics

Views

Total Views
289
Views on SlideShare
288
Embed Views
1

Actions

Likes
0
Downloads
3
Comments
0

1 Embed 1

https://twitter.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Activus book 61 - Estadísticas básicas para la Gestión Activus book 61 - Estadísticas básicas para la Gestión Document Transcript

    • SERGIO D. SALIMBENI Introducción a las Estadísticas Activus Book 61 Ing. Sergio D. Salimbeni, MBA, PhD Página 1
    • Contenido 1. Introducción .................................................................................................... 3 2. Estadísticas .................................................................................................... 4 2.1. Introducción a las estadísticas ................................................................. 4 2.2. Estadística Descriptiva............................................................................. 5 2.3. Medidas de Tendencia Central y de Dispersión ...................................... 8 2.4. Medidas de tendencia central .................................................................. 8 2.5. Medidas de dispersión ........................................................................... 10 2.6. Medidas de Asimetría ............................................................................ 11 2.7. Ejemplo numérico .................................................................................. 13 3. Probabilidades.............................................................................................. 16 3.1. Tipos de Probabilidad ............................................................................ 17 3.2. Teorema de Bayes ................................................................................ 19 3.3. Distribución de Probabilidad .................................................................. 20 4. Regresión y Correlación ............................................................................... 26 4.1. Correlación entre variables .................................................................... 26 4.2. Regresión Lineal Simple ........................................................................ 29 4.3. Regresión lineal múltiple ........................................................................ 30 4.4. Regresión no lineal ................................................................................ 31 4.5. Pronósticos ............................................................................................ 31 4.6. Regresión Logística ............................................................................... 32 5. Índice de Ilustraciones .................................................................................. 35 6. Índice de tablas ............................................................................................ 36 7. Índice de Ecuaciones ................................................................................... 37 8. Índice Onomástico ........................................................................................ 38 9. Bibliografía ................................................................................................... 39 Ing. Sergio D. Salimbeni, MBA, PhD Página 2
    • 1. Introducción La globalización, las nuevas tecnologías, la abundancia de datos, un mundo en constante y vertiginoso cambio, este es el escenario complejo en el cual se desarrollan los negocios. Justamente por ello, la correcta toma de decisiones estará fuertemente influenciada por la capacidad para decidir, y el contar con más y mejores herramientas para analizar los diferentes escenarios. Contar con infinidad de datos, no significa precisamente contar con información. Datos ordenados, organizados de forma coherente, son los que proveerán buena información. Desde este punto de vista, un dato no será más que una unidad de información, que en sí mismo no aportaría demasiado. Ahora bien, si se trata ese conjunto de datos con herramientas acordes, con sistemas de ayuda para la toma de decisiones, ello nos estará proveyendo Información. Una vez que el profesional cuenta con información de buena calidad, es cuando esta bajo su responsabilidad el tomar las mejores decisiones, eligiendo entre diferentes alternativas. En el mundo de la administración se encontrarán diferentes e innumerables situaciones donde se deban tomar decisiones, ya sea en escenarios de certidumbre, incertidumbre o en ambientes de riesgo. Se estudiarán desde las bases de las probabilidades y las estadísticas, hasta diferentes técnicas y modelos de simulación, de modo de resolver de la mejor manera posible, es decir optimizando los resultados, cada una de esas situaciones. ………………………………………………………………………………………… Ing. Sergio D. Salimbeni, MBA, PhD Página 3
    • 2. Estadísticas 2.1. Introducción a las estadísticas Históricamente, el desarrollo de la estadística puede ser entendido a partir de dos fenómenos distintos: la necesidad de los gobiernos de colectar datos censarios, y el desarrollo de la teoría del cálculo de las probabilidades 1. Han sido colectados datos a lo largo de toda la historia. En las civilizaciones Egipcia, Griega y Romana, algunos datos primarios eran recopilados con propósitos impositivos y / o militares. En la Edad Media, la iglesia recolectaba datos e informaciones sobre nacimientos, muertes y casamientos. En los Estados Unidos, la Constitución de 1870 determinaba la realización de censos cada 10 años. Actualmente son necesarias para ciudadanos y organizaciones de todo tipo, y en todo el mundo. Estadística Descriptiva Como el propio nombre lo sugiere, la organización, sumatoria y descripción de un conjunto de datos es llamada estadística descriptiva. Estadística Inferencial El inicio de la formulación matemática de la teoría de las probabilidades, se dio a partir de las investigaciones sobre los juegos de azar, a mediados del siglo XVII, por medio de correspondencias entre el filósofo Pascal, y el jugador Chevalier de Mere2. 1 2 (Martins 2005),pag.19 ibidem Ing. Sergio D. Salimbeni, MBA, PhD Página 4
    • Otros matemáticos como Bernoulli, DeMoivre y Gauss, establecieron las bases de la estadística Inferencial. Más allá de ellos, en realidad recién en el siglo XX es que los métodos de las técnicas de la estadística Inferencial, fueron desarrollados por estadísticos como Pearson, Fisher y Gosset entre otros. Se puede definir entonces a la Estadística Inferencial, como métodos que tornan posible la estimación de características de una población basada en resultados muestrales. Se entiende por Población o universo, a la totalidad de los ítems, objetos o personas bajo consideración. Se entiende por muestra, a una parte de la población que es seleccionada para el análisis. 2.2. Estadística Descriptiva Niveles de mensuración Es indispensable que el investigador tenga en claro el nivel de mensuración de la variable que pretende analizar, pues depende de ese nivel de mensuración, las posibles operaciones aritméticas entre sus valores y correspondientes técnicas estadísticas permitidas para el análisis. Nivel Nominal El nivel nominal, envuelve simplemente el hecho de enumerar, rotular o clasificar un objeto, persona o característica, por medio de números u otros símbolos. Por ejemplo: 1 Católico Ing. Sergio D. Salimbeni, MBA, PhD Página 5
    • 2 3 4 5 Judío Protestante Musulmán Otros Nivel Ordinal Dada una variable con nivel de mensuración nominal en que la relación (mayor que) valga para todos los pares de clases, es que se tiene entonces una escala ordinal. Se ve en el siguiente ejemplo: Valor en la Escala Profesión 80 Ingeniero químico 70 Ingeniero de producción 60 Actor Nivel de Intervalos En este caso, la variable puede asumir varias categorías que guarden una relación de orden, además de los intervalos iguales de medición; ejemplos de estos niveles de intervalos son: peso, altura, volumen, etc. Un punto a tener en cuenta en este caso, es que el cero es arbitrario, no es absoluto. Niveles de razón En este caso, el nivel de intervalos sí incluye el cero, que es real y absoluto. Este cero absoluto significa que, en la escala, hay un punto donde no existe la propiedad. Normalmente, las variables con niveles de mensuración nominal y ordinal se denominan Cualitativas, mientras que las variables con niveles de mensuración de intervalos o razón son llamadas variables Cuantitativas. Ing. Sergio D. Salimbeni, MBA, PhD Página 6
    • Descripción Grafica de las variables cuantitativas El gráfico de barras, horizontales o verticales, y el diagrama de “torta”, son los diagramas más utilizados para estos casos. Básicamente, ellos muestran las cantidades observadas para cada “nivel”. Se ve esto en el siguiente ejemplo: Ilustración 1 - Gráficos para variables Cualitativas Descripción Gráfica de Variables Cuantitativas Los histogramas son los gráficos más adecuados para la descripción de datos oriundos de variables cuantitativas. Básicamente, ellos muestran las frecuencias de las observaciones para cada valor o conjunto de valores de las variables que se desean describir. Un ejemplo típico para estos casos es la distribución de las edades en una población determinada. Se grafica este ejemplo en la siguiente ilustración. Ing. Sergio D. Salimbeni, MBA, PhD Página 7
    • Rango de Edades 18 - 25 26 - 32 33 - 39 40 - 46 47 - 53 54 - 60 61 - 65 Cantidades Observadas 6 10 13 8 6 5 2 Cantidades Observadas 14 12 10 8 6 4 2 0 18 - 25 26 - 32 33 - 39 40 - 46 47 - 53 54 - 60 61 - 65 Cantidades Observadas Ilustración 2 - Gráficos para variables Cuantitativas 2.3. Medidas de Tendencia Central y de Dispersión 2.4. Medidas de tendencia central Media Aritmética La medida de tendencia central más común para un conjunto de datos es la Media Aritmética, promedio o simplemente media. Se la representa por la letra X y se la calcula de la siguiente forma: Ecuación 1 - Media Aritmética Mediana (Media Geométrica) La mediana es el valor de la variable que deja el mismo número de datos antes y después que él, una vez que los mismos fueran ordenados. De acuerdo con esta definición, el conjunto de datos menores o iguales que la mediana representarán el 50% de los datos, y los que sean mayores que la mediana representarán el otro 50% del total de datos de la muestra. Ing. Sergio D. Salimbeni, MBA, PhD Página 8
    • Como se verá más adelante, la mediana coincide con el percentil 50, con el segundo cuartil y con el quinto decil. En el caso de variables discretas, se puede calcular la mediana, de acuerdo a la cantidad de elementos (impar o par) de las siguientes maneras: Ecuación 2 - Mediana Cuantiles El término cuantil fue usado por primera vez por Kendall en 1940. El cuantil de orden p de una distribución (con 0 < p < 1) es el valor de la variable “xp” que marca un corte de modo que una proporción p de valores de la población es menor o igual que “xp”. Por ejemplo, el cuantil de orden 0,36 dejaría un 36% de valores por debajo y el cuantil de orden 0,50 se corresponde con la mediana de la distribución. Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales, entendidas estas como intervalos que comprenden la misma proporción de valores. Los más usados son: Cuartil Los Cuartiles, que dividen a la distribución en cuatro partes (corresponden a los cuantiles 0,25; 0,50 y 0,75); Los Cuartiles (Q) son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales Ilustración 3 - Cuartiles Ing. Sergio D. Salimbeni, MBA, PhD Página 9
    • Quintil Los Quintiles, que dividen a la distribución en cinco partes (corresponden a los cuantiles 0,20; 0,40; 0,60 y 0,80); Decil Los deciles son aquellos que dividen a la distribución en diez partes iguales. Percentil Los Percentiles son aquellos que dividen a la distribución en cien partes. Moda En estadística, la Moda es el valor con una mayor frecuencia en una distribución de datos. Para distribuciones simples (sin agrupamiento en clases), la identificación de la moda está dada por la simple observación del elemento que presenta la mayor frecuencia. 2.5. Medidas de dispersión Las medidas de dispersión son medidas estadísticas utilizadas para analizar el grado de variabilidad, o dispersión, de los valores entorno de la Media. Los mismos sirven para medir la representatividad de la Media. Amplitud Total Ing. Sergio D. Salimbeni, MBA, PhD Página 10
    • La amplitud es una medida de dispersión dada por la diferencia entre el mayor y el menor valor de la serie. Ecuación 3 - Amplitud Total Varianza Como se desea medir la dispersión de los datos en relación a la Media, es interesante analizar los desvíos de cada valor (xi) en relación a la media (X). Si los mismos fueran bajos, se tendrá poca dispersión, caso contrario, la dispersión será grande. El cálculo de la varianza se basa en el promedio de la sumatoria de los cuadrados de los desvíos o alejamientos, tal como se indica a continuación: Ecuación 4 - Varianza Desvío estándar El desvío estándar, o desviación típica (σ), es una medida de centralización o dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística descriptiva. Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación típica es una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable. Ecuación 5 - Desvío Estándar 2.6. Medidas de Asimetría Coeficiente de variación Ing. Sergio D. Salimbeni, MBA, PhD Página 11
    • El coeficiente de variación se trata de una medida relativa de dispersión. Mientras que la amplitud total, la varianza, y el desvío estándar, son medidas absolutas de dispersión, este coeficiente de variación mide la dispersión relativa. De este modo se tiene: Ecuación 6 - Coeficiente de variación Coeficiente de variación relativo En este caso, el coeficiente se refiere al valor relativo respecto de la media aritmética. De este modo, se dice que: Ecuación 7 - Coeficiente de Variación Relativo Definición del “Outlier” En los trabajos de colección de datos, puede suceder que algunas mediciones escapen de los resultados esperados. A esto se los conocen como “outliers”. Se pueden definir los “outliers”, por ejemplo, a aquellas observaciones que queden fuera de un CV relativo de 3. Coeficiente de asimetría de Pearson Se entiende por asimetría al grado de alejamiento, de una distribución, de la unidad de simetría. En una distribución simétrica, hay igualdad de valores de la media, la mediana y la moda. Ecuación 8 - Coeficiente de Pearson Ing. Sergio D. Salimbeni, MBA, PhD Página 12
    • A continuación, otro ejemplo de histogramas, donde se representan las calificaciones obtenidas en una materia, para la totalidad de los alumnos. Ilustración 4 - Histograma 2.7. Ejemplo numérico Para ejemplificar todo lo visto anteriormente, se toma un caso práctico sobre el cual se podrá analizar de manera simple todas estas medidas estadísticas. Considérese una empresa compuesta por 60 empleados. Se conoce el salario neto de cada uno de ellos, y se lo representa en una tabla y gráfica como la que se observa a continuación: Ilustración 5 - Representación de salarios de todos los empleados de una empresa Ing. Sergio D. Salimbeni, MBA, PhD Página 13
    • En este tipo de casos, y con el fin de simplificar el análisis, se realiza el denominado intervalo de clases. Intervalos 2.000 4.000 6.000 8.000 10.000 12.000 14.000 16.000 Esto se entiende como que en el intervalo de entre $1000 y $3000 (representado por $2000 en la tabla a la izquierda) se tienen 14 empleados con ese rango de salarios. Cant. 14 10 6 9 6 6 7 2 Se tienen 10 empleados que cobran entre $3000 y $5000 (4000 en la tabla), y así sucesivamente. Con esta información (de clases) se grafica un histograma como el que se ve en la siguiente ilustración: Cantidades por Clase 16.000 14.000 12.000 10.000 8.000 6.000 4.000 2.000 0 2 4 6 8 10 12 14 16 Ilustración 6 – Histograma por clases Aplicando todas las definiciones anteriores, se pueden calcular los siguientes valores: Población Mínimo Máximo Amplitud Cant. Clases Tamaño de Intervalos Ing. Sergio D. Salimbeni, MBA, PhD 60 $ 1.000 $ 16.000 $ 15.000 6,9 $ 2.167 Medidas de Tendencia Central Media Aritmética $ 7.683 Mediana $ 15.000 1er Cuartil $ 4.000 2do Cuartil $ 7.500 3er Cuartil $ 11.250 1er Decil 1er Percentil $ 2.000 2do Percentil $ 3.000 Página 14
    • Medidas de Posición Moda Medidas de Asimetría Coeficiente de Pearson $ 3.000 Medidas de Dispersión Amplitud total Desviación Estándar Intervalo de Confianza $ 15.000 $ 4.508 957 0,28 Tabla 1 - Medidas de Tendencia Central y de Dispersión En resumen, tanto la media, como la mediana, el modo y el desvío estándar, son de las medidas más utilizadas en la estadística básica. Respecto de este último, el desvío estándar, el cual será visto frecuentemente en las técnicas cuantitativas, se puede utilizar unas simples reglas empíricas, a saber:  Un desvío estándar ( , contiene entre el 60% y el 80% de todas las observaciones muestrales.  Dos desvíos estándar (2 , contienen aproximadamente el 95% de las observaciones.  En un intervalo de (3 , se encuentran prácticamente el 100% de las observaciones.3 …………………………………………………………………………………………… 3 (Martins 2005) pag.55 Ing. Sergio D. Salimbeni, MBA, PhD Página 15
    • 3. Probabilidades Todo sería bastante más sencillo si no existieran las incertidumbres, si todo fuese ciento por ciento certero. Pero, la realidad muestra que las cosas no son así, que muchas cosas pueden o no suceder, dependiendo de diferentes factores no siempre mensurables. Debido a esto, existen posibilidades, en mayor o menor grado, de que algo ocurra; esta posibilidad mensurada es la probabilidad. Se define probabilidad como el planteamiento numérico acerca de las posibilidades de que ocurra un evento. Ecuación 9 - Probabilidad Existen dos reglas básicas en las matemáticas de la probabilidad: 1. La probabilidad P de que ocurra cualquier evento o estado de la naturaleza es mayor o igual que cero y menor o igual que uno. Una probabilidad “0” indica que dicho evento nunca ocurrirá. Una probabilidad igual a “1” indica que dicho evento siempre ocurra. 2. La suma de las probabilidades simples de todos los resultados posibles de una actividad debe ser igual a “1” Propiedad de un elemento complementario: Se dice que un elemento es complementario, cuando sumado al primero es igual a uno. De esta forma: Ing. Sergio D. Salimbeni, MBA, PhD Página 16
    • P(Ā) = 1 – P(A) 3.1. Tipos de Probabilidad Probabilidad subjetiva La probabilidad subjetiva es aquella que se determina en base a la experiencia y sentido común de la persona que la determina. Por ejemplo, cuando un gerente de ventas dice que existe una probabilidad del 80% de que se cumpla con la cuota de ventas. Probabilidad Objetiva Es la que se basa en experiencias sistemáticas, a través de sucesivas pruebas, del número de veces que un evento ocurre. Por ejemplo, lanzando sucesivamente una moneda, y luego de varios intentos, se puede concluir que en la mitad de los casos el resultado será “cara” mientras que, obviamente, en la otra mitad de las veces el resultado será “cruz”; o sea, existe una probabilidad objetiva del 50% para cada caso. Eventos mutuamente excluyentes Se dice que ciertos eventos son mutuamente excluyentes cuando sólo uno de ellos puede ocurrir en cualquier prueba; por ejemplo “cara” o “cruz” en la moneda. Eventos colectivamente exhaustivos Se dice que los eventos son colectivamente exhaustivos si la lista de resultados incluye todos los resultados posibles. El ejemplo anterior del lanzamiento de la moneda, también cumple con esta propiedad, ya que cara o cruz representan todos los resultados posibles. Adición de Eventos Ing. Sergio D. Salimbeni, MBA, PhD Página 17
    • Los eventos pueden ser mutuamente excluyentes o no. En el primer caso, significa que la ocurrencia de una alternativa, hace imposible la aparición de la otra. En el segundo caso, puede aparecer un área de solución común. Mutuamente excluyentes: P(A o B) = P(A) + P(B) No mutuamente excluyentes: P(A o B) = P(A) + P(B) – P(A y B) P(A) P(A y B) P(B) Ilustración 7 - Adición de Probabilidades Eventos estadísticamente independientes o dependientes Dos eventos se dicen estadísticamente independientes, cuando la ocurrencia de uno no tiene efecto en la probabilidad de ocurrencia del otro. Por ejemplo en el lanzamiento de dos dados en forma simultánea. Dos eventos se dicen estadísticamente dependientes, cuando la ocurrencia de uno se basa en el resultado del otro. Por ejemplo, si en una cuba tuviera tres bolas negras y tres blancas, cuál es la probabilidad de tomar una negra y que la segunda sea negra también. Independientes: P(AB) = P(A) x P(B) Dependientes: P(A/B) = P(AB) / P(B) Ing. Sergio D. Salimbeni, MBA, PhD Página 18
    • 3.2. Teorema de Bayes El Teorema de Bayes se utiliza para incorporar información adicional a medida que se dispone de ella, ayudando a calcular probabilidades posteriores o revisadas. Lo anterior, significa que se pueden tomar datos nuevos o recientes y entonces revisar y mejorar los cálculos anteriores de probabilidades de un evento. Esto se ilustra en la siguiente figura: Probabilidades Previas Proceso de Bayes Probabilidades Posteriores Información Previa Ilustración 8 - Uso del Proceso de Bayes Suponga tener tres gavetas idénticas, la gaveta G1 contiene dos monedas de $0,50, la gaveta G2 dos monedas de $1 y la gaveta G3 una moneda de $0,50 y otra de $1. Se elije una gaveta. La probabilidad de haber elegido la G1, G2 o G3 es la misma y es de 1/3, esta es la denominada probabilidad a-priori. Ahora se retira una moneda de la gaveta antes elegida y se verifica que es una moneda de $1. Las probabilidades a priori se pueden ajustar ahora en base a esa nueva información. En este caso, las probabilidades ajustadas serán: P (G1) = 0 P (G2) = 2/3 y P (G3) = 1/3 Estas son las denominadas probabilidades a posteriori. Ing. Sergio D. Salimbeni, MBA, PhD Página 19
    • Las probabilidades revisadas se pueden calcular de una forma directa a mediante el empleo de la forma general de Teorema de Bayes: Ecuación 10 – Probabilidades ajustadas - Bayes donde Ā es el complemento del evento A. 3.3. Distribución de Probabilidad Variables Aleatorias Una variable aleatoria asigna un número real a cada resultado posible o evento en un experimento. Por ejemplo X = número de celulares vendidos en un día. Variable aleatoria discreta Sea X una variable aleatoria, si el número de valores posibles de X fuese finito, o infinito numerable, se dice que X es una variable aleatoria discreta. Variable aleatoria continúa Sea X una variable aleatoria, si el contra-dominio de X es un intervalo, o un conjunto de intervalos, denominamos a X como una variable aleatoria continua. Considérese el siguiente ejemplo. Ing. Sergio D. Salimbeni, MBA, PhD Página 20
    • Se le pregunta a 100 estudiantes, si un libro de texto en particular les fue de ayuda para la preparación de su examen final. Las respuestas debían escogerse entre las siguientes: 5 Muy de acuerdo 4 De acuerdo 3 Neutral 2 En desacuerdo 1 Muy en desacuerdo De esta manera se obtendrá una distribución de probabilidad discreta calculada mediante el enfoque de la frecuencia relativa. Los resultados obtenidos fueron los siguientes: Respuestas Muy de Acuerdo De acuerdo Neutral En desacuerdo Muy en desacuerdo Variable Aleatoria x 5 4 3 2 1 Número de esutdiantes que respondieron Probabilidad y 10 20 30 30 10 100 P(x) 0,1 0,2 0,3 0,3 0,1 1 Tabla 2 - Distribución de Probabilidad Discreta Ing. Sergio D. Salimbeni, MBA, PhD Página 21
    • Ilustración 9 - Ejemplo de resultado de encuesta Esta distribución respeta las tres reglas requeridas por todas las distribuciones de probabilidad: 1. Los eventos son mutuamente excluyentes y colectivamente exhaustivos. 2. Los valores individuales de probabilidad se encuentran entre 0 y 1 3. La suma total de los valores de probabilidad es 1 Valor Esperado de una Distribución de Probabilidad Discreta Una vez establecida una distribución de probabilidad, la primera característica que generalmente se nota es la tendencia central de la distribución. El valor esperado, una medida de la tendencia central, se calcula como el promedio ponderado de los valores de la variable aleatoria: Ecuación 11 - Valor Esperado Ve(x) = (5)(0,1) + (4)(0,2) + (3)(0,3) + (2)(0,3) + (1)(0,1) = 2,9 Ing. Sergio D. Salimbeni, MBA, PhD Página 22
    • El valor esperado de 2,9 implica que la respuesta media está entre (2) desacuerdo y (3) neutral, y que la respuesta promedio está más cerca de neutral. Distribución Binomial En los negocios, muchas veces se encuentra este tipo de distribución, conocida también como Bernoulli, donde sólo se encuentran dos resultados posibles, tales como éxito o fracaso. Para aplicarse una distribución binomial, se deben cumplir las siguientes condiciones: 1. 2. 3. 4. Cada prueba en un proceso Bernoulli sólo tiene dos resultados posibles. La probabilidad permanece igual de una prueba a la siguiente Las pruebas son estadísticamente independientes. El número de pruebas es un entero positivo. Nuevamente, un ejemplo clásico para este caso es el lanzamiento de una moneda. Distribución Normal La distribución Normal, es una de las más utilizadas, y se caracteriza por ser simétrica, y puede ser más o menos “aplastada”. La ecuación que la representa, es medianamente compleja, y es la siguiente: Ecuación 12 - Distribución Normal Donde: Variable aleatoria Ing. Sergio D. Salimbeni, MBA, PhD Página 23
    • Número promedio Base de logaritmos naturales = 2,718 Desvío estándar Debido a la dificultad para su cálculo, es que se utilizan tablas normalizadas para hallar sus valores, tal como se verá en adelante. Distribución Normal Distribución Normal Distribución Normal 0,3000 0,3500 0,4500 0,2500 0,3000 0,4000 0,3500 0,2500 0,2000 0,3000 0,2000 0,2500 0,1500 0,1500 y 0,1000 y 0,0500 0,0500 0,0000 1 2 3 4 5 6 7 8 9 10 y 0,1000 0,0500 0,0000 0,2000 0,1500 0,1000 0,0000 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 Ilustración 10 - Distribuciones "Normales" Distribución Exponencial La distribución exponencial, también llamada distribución exponencial negativa, se utiliza para manejar problemas de filas de espera, por ejemplo. Su función probabilidad, está dada por: Ecuación 13 - Distribución Exponencial Distribución de Poisson Una importante distribución de probabilidad discreta es la distribución de Poisson. La misma complementa a la distribución exponencial, y está descripta por la siguiente ecuación: Ecuación 14 - Distribución de Poisson Ing. Sergio D. Salimbeni, MBA, PhD Página 24
    • Distribución de Poisson Distribución de Poisson 0,4000 0,4000 0,3500 0,3500 0,3000 0,3000 0,2500 0,2500 0,2000 0,2000 0,1500 0,1500 0,1000 0,1000 0,0500 0,0500 0,0000 0,0000 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 Ilustración 11 - Distribución de Poisson …………………………………………………………………………………………… Ing. Sergio D. Salimbeni, MBA, PhD Página 25
    • 4. Regresión y Correlación 4.1. Correlación entre variables La búsqueda de asociación entre variables, es frecuentemente uno de los propósitos de las investigaciones empíricas.4 La posible existencia de relación entre variables orienta al análisis, conclusiones y hallazgos en la investigación. Suponga que Ud. cree, intuye, que existe alguna “relación” entre la publicidad que realiza de un producto, y el nivel de las ventas del mismo. Observa mes a mes que, en la medida que invierte más en publicidad, aumentan las ventas. ¿Existe alguna “relación” entre lo que Ud. invierte en publicidad y el volumen de ventas? ¿Hay alguna forma de ver si esa relación es lineal o no? ¿Se puede comprobar científicamente una relación entre ambas variables (ventas y publicidad) dentro de ciertos márgenes de error? A ese tipo de relaciones se las denominará “correlación”. Se define entonces correlación a la fuerza y dirección de una relación, lineal o no, entre dos variables independientes. Se verán a continuación, algunas medidas de asociación entre dichas variables. Suponga tener un grupo de alumnos, que hayan cursado dos materias que, ud en principio crea que exista alguna relación entre ambas. Tabula para cada uno de sus alumnos, las calificaciones de ambas materias y lo grafica. La representación de cada una de ambas calificaciones, para cada alumno, en un par de ejes cartesianos (en este caso Dirección general en función de Comercialización) se denomina “Diagrama de Dispersión”. El Diagrama de dispersión es la representación de supuestamente relacionadas, en un par de ejes cartesianos. dos variables, Lo antes mencionado se representa en la siguiente ilustración: 4 (Martins 2005) p.288 Ing. Sergio D. Salimbeni, MBA, PhD Página 26
    • María Calificaciones Comercialización (x) Calificaciones Dirección General (y) Juan 75 85 Pedro 80 85 Juana 60 65 José 55 60 85 80 Catalina Marcelo Rosa 95 70 95 60 75 80 Roberto Silvia 80 80 65 60 100 100 90 80 70 60 50 40 30 20 10 0 95 90 Calificaciones Comercialización (x) 85 Calificaciones Dirección General (y) 75 80 70 65 Silvia Rosa Roberto Marcelo José Catalina Juana Juan Pedro María 60 55 50 50 60 70 80 90 100 Ilustración 12 - Diagrama de Dispersión La correlación entre variables puede ser:  Simple o Múltiple  Positiva o Negativa  Lineal o No Lineal La correlación se dice simple, cuando se estudian sólo entre dos variables. Si el análisis es realizado entre más de dos variables, es denominada múltiple, y obviamente la resolución es sólo analítica, ante la imposibilidad de representar un diagrama de dispersión de más de dos variables. Se dice positiva, cuando el aumento de la variable independiente, genera un incremento en la variable dependiente, tal como el ejemplo de la inversión en publicidad y las ventas. Será negativa en el caso contrario, por ejemplo cuando se incrementa la inflación y esto genera una disminución en las ventas. En los casos de observarse una relación, en el diagrama de dispersión, aproximada a una línea, es denominada correlación lineal. Si la mejor representación de la relación entre variables, no es representada por la ecuación de una recta, sino por cualquier otra función, es denominada entonces No lineal. Ing. Sergio D. Salimbeni, MBA, PhD Página 27
    • Coeficiente de Correlación de Pearson Este coeficiente, es un indicador de la “fuerza” de una relación lineal simple. Se trata de una asociación entre las dos variables, que independientemente de sus unidades, pueden variar entre -1 y +1. En el caso de que dicho coeficiente sea igual a 1, se dice que existe una correlación absoluta positiva, mientras que en el caso de -1 es una correlación absoluta negativa. En el caso del coeficiente ser 0, dice de una correlación inexistente. Veamos lo dicho anteriormente en los siguientes diagramas de dispersión. 120 100 95 100 90 85 80 80 60 75 70 40 65 60 20 55 0 50 50 60 70 80 90 0 100 Ilustración 13 Correlación Lineal Positiva 2 4 6 8 10 12 Ilustración 14 - Correlación Lineal Negativa 120 45 40 100 35 80 30 25 60 20 40 15 10 20 5 0 0 0 2 4 6 8 10 0 12 2 4 6 8 10 12 Ilustración 16 - Correlación Exponencial Ilustración 15 - Correlación Nula Cálculo del Coeficiente de Correlación: r= Sxy Sxx Syy donde: Ing. Sergio D. Salimbeni, MBA, PhD Página 28
    • S xx = x 2 - x ) 2 y ) 2 - y 2 S yy = n n S xy = ( x.y ) - x  y n 4.2. Regresión Lineal Simple La inferencia estadística fue tratada en términos de una única variable. Así, cuando por ejemplo se tenía una muestra de empresas, se consideraba una variable por vez, como para analizar la facturación. Mientras tanto, cuando se tiene una muestra de una empresa, y hay varias variables que pueden ser observadas en cada unidad de la muestra, el número de empresas, salarios, etc. En el primer caso, cada unidad está asociada con las medidas de varias variables. Se va a considerar en este caso, el análisis de dos únicas variables, el análisis bi-variado. Primordialmente, el análisis de regresión se usa con el propósito de previsión. El objetivo es desarrollar un modelo estadístico que se pueda usar para prever valores de una variable dependiente “y” en función de una variable independiente “x”, o de varias variables independientes “x, y, z”. Para el análisis de regresión lineal simple, es recomendable construir un gráfico bidimensional, el denominado Diagrama de Dispersión, tal como se observa en la siguiente ilustración. La idea es encontrar una función, lineal en este caso, que mejor represente dichos valores conocidos y representados en este gráfico x-y. Una vez encontrada dicha función, es simple encontrar cualquier valor de y, entrando con un valor x. Este es el denominado modelo de regresión. 10 9 8 7 6 5 4 3 2 1 0 1 1 2 5 4 Ilustración 17 - Diagrama de Dispersión Ing. Sergio D. Salimbeni, MBA, PhD Página 29
    • Observando el diagrama de dispersión, se puede tener una idea del tipo de relación entre las dos variables. La naturaleza de la relación puede tomar varias formas, desde una simple relación lineal, a una complicada función matemática, exponencial u otra. El modelo de regresión lineal simple, se puede representar a través de la siguiente función: Ecuación 15 - Regresión Lineal Simple donde: y x α β ε Es la variable dependiente Es la variable independiente Es el valor de intercepción de la recta Es el valor de la pendiente de la recta Es el error aleatorio de y para una observación No se irá al detalle matemático de cómo obtener esta ecuación ya que no es al alcance de este estudio, pero sí es muy importante su interpretación conceptual para poder aplicarlo a la administración, haciendo uso de herramientas tales como planillas de cálculo o “software” específicos. 4.3. Regresión lineal múltiple Muchas aplicaciones prácticas de análisis de regresión, exigen modelos más complejos de que un análisis de regresión lineal simple. Por ejemplo, un análisis más real para explicar el precio de venta de un inmueble, no se haría sólo en función del valor municipal, sino que incluiría otras variables tales como su antigüedad, materiales utilizados, equipamiento, y otros. Es en estos casos donde se justifica un modelo de regresión múltiple. La ecuación representativa para estos casos es: Con una simple planilla Excel puede pronosticarse un valor, en base a datos históricos, y luego realizar las proyecciones futuras. Lo mismo puede hacerse, Ing. Sergio D. Salimbeni, MBA, PhD Página 30
    • para estimar valores desconocidos, en base a otros sí ya conocidos, como por ejemplo en la estimación del valor de venta de un inmueble, conociendo el valor a que se han vendido algunos similares a él, tomando en consideración los metros cuadrados, la localización, la antigüedad y el valor municipal. 4.4. Regresión no lineal Los modelos de regresión vistos hasta ahora son modelos lineales. Sin embargo, a veces existen relaciones no lineales entre las variables. Pueden utilizarse algunas transformaciones sencillas de las variables para crear un modelo aparentemente lineal a partir de una relación no lineal. Este recurso permite utilizar herramientas como el Excel y otros programas de regresión lineal para llevar a cabo los cálculos. y = b0 + b1 x + b2 x2 haciendo ahora z = x2 y = b0 + b 1 x + b 2 z De esta forma, una función no lineal podría asemejarse a una lineal con el fin de poder resolverla más fácilmente. 4.5. Pronósticos Como se ha mencionado anteriormente, este análisis de regresión y correlación, es muy utilizado para pronóstico, por ejemplo de ventas, tal como se ilustra a continuación. Supóngase analizar 6 períodos de ventas (históricos) “Y”, en base a la inversión en publicidad en TV (x1) y en revistas especializadas (x2). Ing. Sergio D. Salimbeni, MBA, PhD Página 31
    • Sergio Salimbeni Ejemplo Regresión Múltiple Forecasting Multiple regression Data Y Period 1 Period 2 Period 3 Period 4 Period 5 Period 6 Coefficients Forecast x1 x2 6 7 15 18 20 23 3 4 8 8 10 11 1 2 3 5 8 6 -0,7247292 2,02617329 0,16787004 12,44 6 Error analysis Forecast Error Absolute Squared 5,52166065 0,47833935 0,47833935 0,22880853 7,71570397 -0,715703971 0,71570397 0,51223217 15,9882671 -0,988267148 0,98826715 0,97667196 16,3240072 1,67599278 1,67599278 2,8089518 20,8799639 -0,879963899 0,8799639 0,77433646 22,5703971 0,429602888 0,42960289 0,18455864 Total -7,10543E-15 5,16787004 5,48555957 Average -1,18424E-15 0,86131167 0,91425993 Bias MAD MSE SE 1,35222774 6 Correlation 0,98864058 Ilustración 18 - Ejemplo de Regresión Múltiple Esto indica que en el período 1, se invirtió 3 millones de pesos en publicidad en TV, y 1 millón de pesos en publicidad en revistas especializadas, obteniendo ventas por 6 millones de pesos. Esto es lo que se observa en la primera fila del cuadro anterior. Del mismo modo, se van tabulando todos esos datos conocidos de dichos seis períodos. En base a ellos, se realiza un análisis de correlación múltiple, obteniendo los coeficientes correspondientes. Luego, con los mismos, se puede pronosticas, por ejemplo, cuáles serían las ventas en el próximo período (7) si se invirtieran 6 millones de pesos en publicidad en TV y otros 6 millones de pesos en publicidad en revistas especializadas. Esta es una aplicación típica de un análisis de regresión y correlación lineal múltiple. 4.6. Regresión Logística En los modelos de regresión lineal simple o múltiple, la variable independiente (y) se expresa por una variable numérica. A pesar de ello, en algunas Ing. Sergio D. Salimbeni, MBA, PhD Página 32
    • aplicaciones la variable dependiente es nominal, o sea que se expresa a través de sólo dos categorías (dos valores). En estos casos, los métodos de cuadrados mínimos no ofrecen estimaciones posibles. Una buena aproximación a ello, es el uso de la regresión logística, la cual permite la utilización de un modelo de regresión para calcular, prever, la probabilidad de que un evento en particular ocurra, en base a un conjunto de variables independientes que puedan o no ser numéricas. La regresión logística se basa en la siguiente razón: Para una muestra de datos de dichas variables, se tendrá: Ecuación 16 - Regresión logística donde Supóngase, por ejemplo, que el departamento de marketing de una empresa de tarjetas de crédito pretenda lanzar una campaña para que sus usuarios con uso estándar cambien para una tarjeta exclusiva, ofreciendo un descuento para la tasa anual de la nueva tarjeta. Para una muestra de 30 clientes con tarjeta común fueron medidas las variables: Y = cambiaría para una nueva tarjeta (0 = no; 1 = sí) X1i= total de gastos en el año anterior en $ X2i = posee tarjeta adicional (0 = no; 1 = sí) Se desea una estimativa de compra para de una nueva tarjeta para un cliente con gastos de $36mil y una tarjeta adicional. La ecuación representativa para este ejemplo es: Entonces Ing. Sergio D. Salimbeni, MBA, PhD Página 33
    • O sea, 70,16% es la probabilidad estimada de compra para una nueva tarjeta, de un cliente con gastos de $36000 que posee tarjeta adicional. Finalmente, se debe mencionar que se cometen algunos errores comunes con los modelos de regresión, por lo que es necesario tener precauciones cuando se utilizan. La correlación no necesariamente significa causalidad, o la estimación en rangos más allá de los conocidos tampoco puede asegurarse como válida; es por ello que si bien es un método útil, debe ser usado con cuidado. ………………………………………………………………………………………… Ing. Sergio D. Salimbeni, MBA, PhD Página 34
    • 5. Índice de Ilustraciones ILUSTRACIÓN 1 - GRÁFICOS PARA VARIABLES CUALITATIVAS ....................................................................................... 7 ILUSTRACIÓN 2 - GRÁFICOS PARA VARIABLES CUANTITATIVAS .................................................................................... 8 ILUSTRACIÓN 3 - CUARTILES ................................................................................................................................ 9 ILUSTRACIÓN 4 - HISTOGRAMA .......................................................................................................................... 13 ILUSTRACIÓN 5 - REPRESENTACIÓN DE SALARIOS DE TODOS LOS EMPLEADOS DE UNA EMPRESA ....................................... 13 ILUSTRACIÓN 6 – HISTOGRAMA POR CLASES ......................................................................................................... 14 ILUSTRACIÓN 7 - ADICIÓN DE PROBABILIDADES ..................................................................................................... 18 ILUSTRACIÓN 8 - USO DEL PROCESO DE BAYES ...................................................................................................... 19 ILUSTRACIÓN 9 - EJEMPLO DE RESULTADO DE ENCUESTA ......................................................................................... 22 ILUSTRACIÓN 10 - DISTRIBUCIONES "NORMALES" ................................................................................................. 24 ILUSTRACIÓN 11 - DISTRIBUCIÓN DE POISSON ...................................................................................................... 25 ILUSTRACIÓN 12 - DIAGRAMA DE DISPERSIÓN ...................................................................................................... 27 ILUSTRACIÓN 13 CORRELACIÓN LINEAL POSITIVA .................................................................................................. 28 ILUSTRACIÓN 14 - CORRELACIÓN LINEAL NEGATIVA ............................................................................................... 28 ILUSTRACIÓN 15 - CORRELACIÓN NULA ............................................................................................................... 28 ILUSTRACIÓN 16 - CORRELACIÓN EXPONENCIAL .................................................................................................... 28 ILUSTRACIÓN 17 - DIAGRAMA DE DISPERSIÓN ...................................................................................................... 29 ILUSTRACIÓN 18 - EJEMPLO DE REGRESIÓN MÚLTIPLE............................................................................................ 32 Ing. Sergio D. Salimbeni, MBA, PhD Página 35
    • 6. Índice de tablas TABLA 1 - MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN ................................................................................ 15 TABLA 2 - DISTRIBUCIÓN DE PROBABILIDAD DISCRETA ............................................................................................ 21 Ing. Sergio D. Salimbeni, MBA, PhD Página 36
    • 7. Índice de Ecuaciones ECUACIÓN 1 - MEDIA ARITMÉTICA ....................................................................................................................... 8 ECUACIÓN 2 - MEDIANA..................................................................................................................................... 9 ECUACIÓN 3 - AMPLITUD TOTAL ........................................................................................................................ 11 ECUACIÓN 4 - VARIANZA .................................................................................................................................. 11 ECUACIÓN 5 - DESVÍO ESTÁNDAR ....................................................................................................................... 11 ECUACIÓN 6 - COEFICIENTE DE VARIACIÓN ........................................................................................................... 12 ECUACIÓN 7 - COEFICIENTE DE VARIACIÓN RELATIVO ............................................................................................. 12 ECUACIÓN 8 - COEFICIENTE DE PEARSON ............................................................................................................. 12 ECUACIÓN 9 - PROBABILIDAD ............................................................................................................................ 16 ECUACIÓN 10 – PROBABILIDADES AJUSTADAS - BAYES ........................................................................................... 20 ECUACIÓN 11 - VALOR ESPERADO ...................................................................................................................... 22 ECUACIÓN 12 - DISTRIBUCIÓN NORMAL .............................................................................................................. 23 ECUACIÓN 13 - DISTRIBUCIÓN EXPONENCIAL ....................................................................................................... 24 ECUACIÓN 14 - DISTRIBUCIÓN DE POISSON .......................................................................................................... 24 ECUACIÓN 15 - REGRESIÓN LINEAL SIMPLE .......................................................................................................... 30 ECUACIÓN 16 - REGRESIÓN LOGÍSTICA ................................................................................................................ 33 ECUACIÓN 17 - PROMEDIO PONDERADO ................................................................ ¡ERROR! MARCADOR NO DEFINIDO. ECUACIÓN 18 - CRITERIO DE REALISMO .................................................................. ¡ERROR! MARCADOR NO DEFINIDO. ECUACIÓN 19 - VALOR ESPERADO DE LA INFORMACIÓN PERFECTA .............................. ¡ERROR! MARCADOR NO DEFINIDO. Ing. Sergio D. Salimbeni, MBA, PhD Página 37
    • 8. Índice Onomástico A AOA · Activity On Arrow - Actividad en la flecha AON · Activity On Node - Actividad en el Nodo C CPM Critical Path Method · 86 Cuartil · Dividen a la distribución en cuatro partes iguales D Decil · Deciles son aquellos que dividen a la distribución en diez partes E EMV · Expected Monetary Value) EMwPI · Expectec Value with Perfect Information M Moda · es el valor con una mayor frecuencia en una distribución de datos. P PDM Precedence Diagramming Method · 87 PEPS · Primero en Entrar, Primero en Salir Percentil · Son aquellos que dividen a la distribución en cien partes PERT Program evaluation and Revision Technic · 86 PL · Programación Lineal PMBok Project Management Book · 87 Q Quintil · dividen a la distribución en cinco partes iguales I inecuaciones · Desigualdades lineales Ing. Sergio D. Salimbeni, MBA, PhD Página 38
    • 9. Bibliografía  Barry Rnder, Ralph M. Stair, Michael E. Hanna. Métodos cuantitativos para los negocios. México: Pearson, 2006.  Cachero, Manuel López. Análisis y Adopción de Decisiones. Madrid: Ediciones Pirámide, 1998.  Fiani, Ronaldo. Teoria dos Jogos. Rio de Janeiro: Editora Campus, 2004.  Kotler, Philip. Dirección de la mercadotecnia - Análisis, Planeación, Implementación y Control. 7ma. México, 1993.  Martins, Gilberto de Andrade. Estatística Geral e Aplicada. Sao Paulo: Editora Atlas, 2005. Ing. Sergio D. Salimbeni, MBA, PhD Página 39