2008 minitab-15
Upcoming SlideShare
Loading in...5
×
 

2008 minitab-15

on

  • 2,133 views

manual de minitab version 15, tomado de internet deutora: Dra. Josefa Marín Fernández del Departamento de Estad ística e Investigación Operativa Facultad de Matem áticas de la Universidad de ...

manual de minitab version 15, tomado de internet deutora: Dra. Josefa Marín Fernández del Departamento de Estad ística e Investigación Operativa Facultad de Matem áticas de la Universidad de Murcia (Octubre de 2008)

Statistics

Views

Total Views
2,133
Views on SlideShare
2,120
Embed Views
13

Actions

Likes
0
Downloads
63
Comments
1

1 Embed 13

http://formacionpspleon1.blogspot.com 13

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

2008 minitab-15 2008 minitab-15 Document Transcript

  • Manual de MINITAB 15 para Windows Autora: Dra. Josefa Mar´n Fern´ ndez ı a Departamento de Estad´stica e Investigaci´ n Operativa ı o Facultad de Matem´ ticas a Universidad de Murcia Octubre de 2008 1
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 2 ´ Indice de contenidos 1. Introducci´ n a Minitab 15 para Windows o 4 1.1. Elementos de Minitab 15 para Windows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2. Entrada de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3. Grabaci´ n de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . . . 5 1.4. Lectura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.5. Opciones principales del men´ Calc . . . . . . . . . . . . . . . . . . . . . . . u . . . . . . . . . . . . 6 1.5.1. Operaciones por filas mediante la opci´ n Calc⇒Calculator . . . . . . o . . . . . . . . . . . . 6 1.5.2. Operaciones por columnas mediante la opci´ n Calc⇒Column Statistics o . . . . . . . . . . . . 7 1.5.3. Operaciones por filas mediante la opci´ n Calc⇒Row Statistics . . . . o . . . . . . . . . . . . 7 1.5.4. Tipificaci´ n de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . . . 7 1.5.5. Creaci´ n de datos por patr´ n . . . . . . . . . . . . . . . . . . . . . . . o o . . . . . . . . . . . . 8 1.5.6. Creaci´ n de resultados aleatorios de una distribuci´ n conocida . . . . . o o . . . . . . . . . . . . 8 1.6. Opciones principales del men´ Data . . . . . . . . . . . . . . . . . . . . . . . u . . . . . . . . . . . . 8 1.6.1. Apilamiento de columnas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.6.2. Desapilamiento de columnas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.6.3. Ordenaci´ n de los datos . . . . . . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . . . 8 1.6.4. Ordenaci´ n por rangos . . . . . . . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . . . 9 1.6.5. Codificaci´ n o clasificaci´ n de datos . . . . . . . . . . . . . . . . . . . o o . . . . . . . . . . . . 9 1.7. Algo m´ s sobre la ventana Session . . . . . . . . . . . . . . . . . . . . . . . . a . . . . . . . . . . . . 9 1.8. Algo m´ s sobre la ventana Proyect Manager . . . . . . . . . . . . . . . . . . . a . . . . . . . . . . . . 10 1.9. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2. Estad´stica descriptiva. Representaciones gr´ ficas ı a 11 2.1. Distribuci´ n de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o . . . . 11 2.2. Estad´stica descriptiva con la opci´ n Stat⇒Basic Statistics⇒Display Descriptive Statistics . . ı o . . . . 11 2.3. Representaciones gr´ ficas con la opci´ n Stat⇒Basic Statistics⇒Display Descriptive Statistics a o . . . . 12 2.4. Representaciones gr´ ficas con la opci´ n Graph . . . . . . . . . . . . . . . . . . . . . . . . . a o . . . . 13 2.4.1. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.4.2. Diagrama de sectores o de pastel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.4.3. Diagrama de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4.4. Diagramas bivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3. Probabilidad. Variables aleatorias 16 3.1. Muestras aleatorias de las distribuciones usuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.2. Funci´ n de densidad y funci´ n de probabilidad . o o . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.3. Funci´ n de distribuci´ n (probabilidad acumulada) o o . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4. Inversa de la funci´ n de distribuci´ n (percentiles) o o . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.5. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4. Introducci´ n a la inferencia estad´stica o ı 23 4.1. Generaci´ n de muestras aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . 23 4.1.1. M´ todo de la transformada inversa . . . . . . . . . . . . . . . . . . . . . . e . . . . . . . . . . 23 4.1.2. M´ todo del rechazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e . . . . . . . . . . 23 4.2. Funci´ n de distribuci´ n emp´rica . . . . . . . . . . . . . . . . . . . . . . . . . . . o o ı . . . . . . . . . . 24 4.3. Aproximaci´ n a la distribuci´ n en el muestreo . . . . . . . . . . . . . . . . . . . . o o . . . . . . . . . . 25 4.3.1. Utilizaci´ n de macros para la aproximaci´ n a la distribuci´ n en el muestreo o o o . . . . . . . . . . 26 4.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5. Inferencia param´ trica y no param´ trica e e 28 5.1. Contraste sobre una media. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . . . . 28 5.1.1. Contraste sobre una media cuando la desviaci´ n t´pica poblacional es conocida . . . . . . . . o ı 28 5.1.2. Contraste sobre una media cuando la desviaci´ n t´pica poblacional es desconocida . . . . . . o ı 28 5.2. Comparaci´ n de dos varianzas poblacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 29 5.3. Comparaci´ n de dos medias poblacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 30 5.3.1. Comparaci´ n de dos medias con muestras independientes y varianzas poblacionales descono- o cidas pero iguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 3 5.3.2. Comparaci´ n de dos medias con muestras independientes y varianzas poblacionales descono- o cidas y distintas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 5.3.3. Comparaci´ n de dos medias con muestras relacionadas (apareadas o asociadas) . . . . . . . . o 31 5.4. Contrastes no param´ tricos de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 31 5.4.1. Gr´ ficos probabil´sticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a ı 32 5.4.2. Contraste de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 5.5. Contraste chi-cuadrado sobre independencia de dos variables . . . . . . . . . . . . . . . . . . . . . . 32 5.5.1. Datos en una tabla de doble entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.5.2. Datos en dos (o tres) columnas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.6. Contraste chi-cuadrado sobre homogeneidad de dos poblaciones . . . . . . . . . . . . . . . . . . . . 34 5.7. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 4 1. Introducci´ n a Minitab 15 para Windows o 1.1. Elementos de Minitab 15 para Windows Al ejecutar Minitab 15 aparece la pantalla de la Figura 1. Figura 1: Pantalla inicial de Minitab 15 Como en cualquier otra aplicaci´ n Windows, esta pantalla inicial puede modificarse en cuanto al tama˜ o y a la o n disposici´ n de sus elementos. Se trata de una ventana t´pica de una aplicaci´ n Windows que, de arriba a abajo, consta o ı o de los siguientes elementos: En la primera l´nea aparece la barra de t´tulo con el nombre de la ventana y los botones de minimizar, maximizar ı ı y cerrar. En la segunda l´nea est´ la barra de menus con los 10 men´ s que luego comentaremos. ı a ´ u Las l´neas tercera y cuarta conforman la barra de herramientas donde, mediante botones con iconos, se representan ı algunas de las operaciones m´ s habituales. Si pasamos el puntero del rat´ n por cualquiera de ellos, aparecer´ en a o a la pantalla un texto indicando la funci´ n que se activa. o Despu´ s aparece la ventana de sesion (Session). Es la parte donde aparecen los resultados de los an´ lisis realizados. e ´ a Tambi´ n sirve para escribir instrucciones, como forma alternativa al uso de los men´ s. e u A continuaci´ n tenemos la hoja de datos (Worksheet). Tiene el aspecto de una hoja de c´ lculo, con filas y colum- o a nas. Las columnas se denominan C1, C2, . . ., tal como est´ escrito, pero tambi´ n se les puede dar un nombre, a e escribi´ ndolo debajo de C1, C2, . . . Cada columna es una variable y cada fila corresponde a una observaci´ n o e o caso. En la parte inferior aparece (minimizada) la ventana de proyecto (Proyect Manager). En Minitab un proyecto incluye la hoja de datos, el contenido de la ventana de sesi´ n, los gr´ ficos que se hayan realizado, los valores de las o a constantes y de las matrices que se hayan creado, etc. £   Para activar la ventana de sesi´ n (Session) podemos hacer clic sobre ella, podemos pulsar ¢Ctrl ¡ o podemos hacer o +m clic sobre su icono en la barra de herramientas£(primer icono de la Figura 2). Para activar la hoja de datos (Worksheet)   podemos hacer clic sobre ella, podemos pulsar ¢Ctrl ¡ o podemos hacer clic sobre su icono en la barra de herramientas +d (segundo icono de la Figura 2). Para activar la ventana de proyecto (Proyect Manager) podemos maximizarla, podemos £   pulsar ¢Ctrl ¡ o podemos hacer clic sobre su icono en la barra de herramientas (tercer icono de la Figura 2). +i 1.2. Entrada de datos Antes de realizar ning´ n an´ lisis estad´stico es necesario tener un conjunto de datos en uso, para lo cual podemos u a ı proceder de cuatro formas:
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 5 Figura 2: Iconos para activar las ventanas de sesi´ n, de datos o de proyecto o Escribirlos a trav´ s del teclado. e Obtenerlos desde un archivo. Pegarlos. Generarlos por patr´ n o de forma aleatoria. o Para introducir datos a trav´ s del teclado, activamos, en primer lugar, la ventana de datos. En la parte superior e aparece C1, C2, C3, . . . y debajo un espacio en blanco para poner el nombre de cada variable. La   £ flechita del extremo superior izquierdo de la hoja de datos se˜ ala hacia d´ nde se mueve el cursor al pulsar la tecla ¢Intro ¡ Por defecto apunta £   n o . £   hacia abajo, ↓ ; si se hace clic sobre ella, apuntar´ hacia la derecha, ¢→ ¡ Para escribir datos por columna no hay m´ s a . a ¢ ¡ £   que situarse en la casilla del caso 1, teclear el dato y pulsar la tecla ¢Intro ¡ La casilla activa se mover´ hacia abajo. . a Por ejemplo, podemos introducir los datos de la Figura 3, correspondientes a las calificaciones de una muestra de 8 alumnos en un determinado examen y el tiempo empleado en realizar dicho examen. Figura 3: Ejemplo para introducir datos a trav´ s del teclado e 1.3. Grabaci´ n de datos o ´ Una vez introducidos los datos, estos pueden guardarse en un fichero para poder ser utilizados en cualquier otro momento. Para guardar unicamente la ventana de datos hay que seleccionar File⇒Save Current Worksheet o File⇒Save Cu- ´ ´ rrent Worksheet As. Por ejemplo, podemos guardar los datos de la Figura 3 en un archivo que denominaremos No- tas Tiempo.mtw. Si queremos guardar toda la informaci´ n actual del programa (la hoja de datos, el contenido de la ventana de o sesi´ n, los gr´ ficos que se hayan realizado, los valores de las constantes y de las matrices que se hayan creado, etc.) o a usaremos la opci´ n File⇒Save Project o File⇒Save Project As. Es muy importante diferenciar entre ficheros de datos o ´ (.mtw) y ficheros de proyectos (.mpj). Tambi´ n se puede guardar solamente la ventana de sesi´ n. Para ello, la activamos y seleccionamos la opci´ n e o o File⇒Save Session Windows As. 1.4. Lectura de datos Un archivo s´ lo puede ser recuperado de la forma en que fue grabado. Si se ha grabado como hoja de datos (.mtw) o se recupera con la opci´ n File⇒Open Worksheet. Si se ha grabado como proyecto de Minitab (.mpj) se recupera con la o opci´ n File⇒Open Proyect. o Normalmente los ficheros de datos de Minitab 15 se encuentran en C:Archivos de programaMinitab 15EnglishSample Data y, como ya sabemos, llevan la extensi´ n .mtw. o
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 6 () Par´ ntesis e < Menor que ∗∗ Exponenciaci´ n o > Mayor que ∗ Multiplicaci´ n o <= Menor o igual que / Divisi´ n o >= Mayor o igual que AND Operador Y + Suma = Igual que OR Operador O − Resta <> No igual que NOT Operador NO (a) Operadores aritm´ ticos e (b) Operadores relacionales (c) Operadores l´ gicos o Cuadro 1: Operaciones aritm´ ticas, relacionales y l´ gicas e o Por ejemplo, podemos abrir el fichero de datos Pulse.mtw. Su contenido fue recogido en una clase de 92 alum- nos. De cada estudiante se observ´ su pulso antes de correr, Pulse1; su pulso despu´ s de correr, Pulse2; si corri´ o o e o no, Ran (1=S´ corri´ , 2=No corri´ ); si es fumador o no, Smokes (1=S´ fuma, 2=No fuma); el sexo, Sex (1=Hombre, ı o o ı 2=Mujer); su altura en pulgadas, Height; su peso en libras, Weight; y su nivel de actividad f´sica, Activity (0=Ninguna ı actividad f´sica, 1=Baja, 2=Media, 3=Alta). Se puede encontrar m´ s informaci´ n de este fichero de datos con la opci´ n ı a o o Help⇒Help⇒Indice. Bajo la frase Escriba la palabra clave a buscar se teclea Pulse.mtw y despu´ s se hace clic en Mostrar o e se hace doble clic sobre el nombre de dicho fichero. Con la opci´ n File⇒Open Worksheet se pueden leer otros tipos de archivos de datos como hojas de c´ lculo de Excel, o a Lotus 1-2-3, dBase, etc. Para tener informaci´ n m´ s detallada sobre el tipo de ficheros que se pueden leer, se puede o a seleccionar File⇒Open Workshhet y, en el cuadro de di´ logo resultante, se hace clic sobre Ayuda. a ´ 1.5. Opciones principales del menu Calc Si queremos que en la ventana de sesi´ n (Session) aparezcan los comandos que va a utilizar Minitab en las opciones o que vamos a explicar en los siguientes apartados, activamos la ventana de sesi´ n y luego seleccionamos Editor⇒Enable o Commands. 1.5.1. Operaciones por filas mediante la opci´ n Calc⇒Calculator o En este apartado vamos a ver el modo de generar nuevas variables mediante transformaciones efectuadas sobre los valores de las variables ya definidas. Para practicar esta opci´ n tendremos abierto el fichero de datos Pulse.mtw. o En el Cuadro 1 se encuentran recogidos los operadores aritm´ ticos, relacionales y l´ gicos que est´ n permitidos. e o a Tanto las expresiones aritm´ ticas como las l´ gicas se eval´ an de izquierda a derecha. Todas las expresiones entre e o u par´ ntesis se eval´ an antes que las que est´ n fuera de los par´ ntesis y ante varios operadores en el mismo nivel, el e u a e orden de preferencia (de mayor a menor) es el que figura en el Cuadro 1 (de arriba a abajo). Para construir una nueva variable mediante transformaciones de otras ya existentes, se tiene que elegir la opci´ n o Calc ⇒Calculator con lo que se abre una ventana que tiene cinco partes fundamentales: arriba a la derecha est´ el a lugar para escribir el nombre de la nueva variable (Store result in variable), a la izquierda aparece la lista de variables y constantes existentes, a la derecha est´ el lugar destinado a la definici´ n de la nueva variable (Expression), debajo hay a o una calculadora y la lista de funciones que se pueden utilizar (Functions). En primer lugar se asigna un nombre a la variable que queremos generar, escribiendo el mismo en el cuadro Store result in variable. Normalmente se va a tratar de una variable nueva, pero tambi´ n cabe la posibilidad de especificar una e de las ya existentes. En tal caso la modificaci´ n consistir´ en sustituir los valores antiguos de la variable con los nuevos o a resultantes de la transformaci´ n num´ rica que se efect´ e. o e u Una vez que se ha asignado el nombre a la variable, el siguiente paso es definir la expresi´ n que va a permitir o calcular los valores de la misma. Tal expresi´ n se escribe en el cuadro Expression y puede constar de los siguientes o elementos: nombres de variables del fichero original, constantes, operadores y funciones. Para escribir dicha expresi´ n, o se puede teclear directamente pero es recomendable emplear la calculadora, la lista de variables y constantes y la lista de funciones (activando el cuadro Expression y haciendo doble clic sobre la variable, sobre la constante o sobre la funci´ n). Una vez que hemos terminado de escribir la expresi´ n, pulsamos en OK. o o Por ejemplo, del fichero de datos Pulse.mtw vamos a calcular la media geom´ trica de las variables Pulse1 y Pulse2 e (ra´z cuadrada del producto de ambas variables). Para ello, seleccionamos la opci´ n Calc⇒Calculator; en Store result in ı o variable tenemos que teclear la posici´ n de la columna que contendr´ los resultados (una columna, CJ, que est´ vac´a) o a e ı o el nombre que queremos darle a dicha columna. Si el nombre contiene espacios en blanco, hay que escribirlo entre comillas simples; por ejemplo, vamos a denominar a la nueva variable ’media geom´ trica Pulse1 Pulse2’. En Expression e tenemos que colocar (utilizando, como hemos dicho, la calculadora y la lista de variables) la operaci´ n que se realiza o ´ para determinar la media geom´ trica indicada: (’Pulse1’ * ’Pulse2’)**(1 / 2). Por ultimo, pulsamos en OK. e
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 7 1.5.2. Operaciones por columnas mediante la opci´ n Calc⇒Column Statistics o La opci´ n Calc⇒Column Statistics calcula, para una columna (o variable), uno de los estad´sticos siguientes: o ı n Sum suma xi i=1 n Mean media aritm´ tica e x= xi /n i=1 n 2 Standard deviation cuasi-desviaci´ n t´pica S = o ı (xi − x) / (n − 1) i=1 Minimum m´nimo dato ı xmin Maximum m´ ximo dato a xmax Range recorrido total R = xmax − xmin Median ´ mediana=valor que deja por debajo de el el 50 % de los datos n Sum of squares suma de cuadrados x2 i i=1 N total n´ mero total de casos=N nonmissing+N missing u N nonmissing n´ mero de casos para los cuales sabemos el resultado de la variable = n u N missing n´ mero de casos para los cuales no sabemos el resultado de la variable u El resultado del estad´stico calculado se puede almacenar (opcionalmente) en una constante, si lo indicamos en ı Store result in. Por ejemplo, del fichero de datos Pulse.mtw vamos a determinar la mediana de los datos de la columna Height y vamos a guardar el resultado en una constante que vamos a denominar Mediana de altura. Para ello, seleccionamos Calc⇒Column Statistics; activamos la opci´ n Median; hacemos clic en el recuadro que hay a la derecha de Input variable o y seleccionamos (haciendo doble clic sobre su nombre) la columna Height; en Store result in tecleamos ’Mediana de altura’ y pulsamos en OK. Minitab guarda esta constante tambi´ n como K1. Esta constante se puede consultar, en cualquier e momento, en la ventana Proyect Manager (concretamente en WorksheetsPulse.mtwConstants) y puede ser utilizada en c´ lculos posteriores. a 1.5.3. Operaciones por filas mediante la opci´ n Calc⇒Row Statistics o La opci´ n Calc⇒Row Statistics calcula los mismos estad´sticos del apartado anterior, pero por filas, en vez de por o ı columnas. En este caso, a diferencia del anterior, es totalmente necesario rellenar el recuadro Store result in ya que los resultados forman una nueva variable o columna. Por ejemplo, del fichero de datos Pulse.mtw vamos a hallar la media aritm´ tica (por filas) de la variables Pulse1 e y Pulse2 y guardar los resultados en una nueva columna (variable) denominada Media aritm´ tica Pulse1 Pulse2. Para e ello, seleccionamos Calc⇒Row Statistics; activamos la opci´ n Mean; hacemos clic en el recuadro que hay debajo de o Input variables y seleccionamos (haciendo doble clic sobre sus nombres) las columnas Pulse1 y Pulse2; en Store result in tecleamos ’Media aritm´ tica Pulse1 Pulse2’ y pulsamos en OK. e Las operaciones realizadas con esta opci´ n tambi´ n pueden realizarse mediante Calc⇒Calculator. o e 1.5.4. Tipificaci´ n de datos o Con la opci´ n Calc⇒Standardize se calcula, en una nueva columna o variable, los datos tipificados o estandarizados o de una de las columnas de nuestra hoja de datos. Hay varias formas de tipificar los datos pero la m´ s usual es la a siguiente: Si xi son los datos de la muestra, x es la media y S es la cuasi-desviaci´ n t´pica o desviaci´ n t´pica insesgada, o ı o ı los datos tipificados o estandarizados son yi = (xi − x)/S. Esto se logra dejando activada la opci´ n subtract mean and o divide by standard deviation. Por ejemplo, vamos a crear una nueva variable (columna), designada por Pulse1 Tipificada, que contenga los datos de Pulse1 tipificados o estandarizados. Para ello, seleccionamos Calc⇒Standardize; en Input columns seleccionamos (ha- ciendo doble clic sobre su nombre) la columna Pulse1; en Store results in tecleamos ’Pulse1 Tipificada’; dejamos activada la opci´ n Substract mean and divide by standard deviation y pulsamos en OK. o Las operaciones realizadas con esta opci´ n tambi´ n pueden realizarse mediante Calc⇒Calculator. o e
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 8 1.5.5. Creaci´ n de datos por patr´ n o o Con la opci´ n Calc⇒Make Patterned Data se generan datos siguiendo un determinado patr´ n. o o Por ejemplo, si queremos generar una lista de los siguientes 100 n´ meros: 0 01, 0 02, 0 03, . . ., 1, seguiremos los u siguientes pasos: Como estos datos no tienen nada que ver con los datos del fichero Pulse.mtw, abrimos una nueva hoja de datos con la opci´ n File⇒New. En el cuadro de di´ logo que aparece seleccionamos Minitab Woorksheet. A esta nueva hoja de datos o a Minitab le asignar´ el nombre Worksheet J, siendo J un n´ mero natural. Luego podemos cambiarle el nombre con la a u opci´ n File⇒Save Current Worksheet As. Seleccionamos, a continuaci´ n, la opci´ n Calc⇒Make Patterned Data⇒Simple Set o o o of Numbers. En Store patterned data in podemos teclear C1 o un nombre, por ejemplo ’Patron entre 0 y 1’. En From first value ´ tecleamos 0,01, en To last value escribimos 1 y en In steps of ponemos 0,01. Tanto en List each value como en List the whole sequence dejamos lo que est´ puesto por defecto, que es 1. Una vez obtenida la nueva columna vamos a denominar a Ejemplo Practica 1.mtw a la nueva hoja de datos utilizando la opci´ n File⇒Save Current Worksheet As. o 1.5.6. Creaci´ n de resultados aleatorios de una distribuci´ n conocida o o En Minitab podemos generar datos de distribuciones usuales utilizando la opci´ n Calc⇒Random Data. o Por ejemplo, en el fichero de datos Ejemplo Practica 1.mtw vamos a generar 100 datos de una distribuci´ n Uni- o forme en el intervalo (0, 1) (100 n´ meros aleatorios comprendidos entre 0 y 1). Para ello, seleccionamos la opci´ n u o Calc⇒Random Data⇒Uniform; en Number of rows of data to generate ponemos 100; en Store in column escribimos el nombre de la nueva columna: ’100 datos de U(0,1)’; en Lower endpoint tecleamos 0 y en Upper endpoint escribimos 1. Esta opci´ n ser´ utilizada en posteriores pr´ cticas. o a a ´ 1.6. Opciones principales del menu Data S´ lo se explicar´ n algunas de las opciones m´ s utilizadas del men´ Data. En el cuadro de di´ logo de cada opci´ n o a a u a o existe un bot´ n Help que la explica bastante bien. o 1.6.1. Apilamiento de columnas Con la opci´ n Data⇒Stack⇒Columns se pueden apilar varias columnas en una sola. Opcionalmente se puede indi- o car de qu´ columna procede cada valor mediante una nueva variable (sub´ndices). Si no se hace esta indicaci´ n no se e ı o podr´ identificar la procedencia de cada dato. a Para practicar esta opci´ n vamos a apilar los datos de la columna Patron entre 0 y 1 y de la columna 100 datos de o ´ U(0,1) del fichero de datos Ejemplo Practica 1.mtw. Para ello, seleccionamos la opci´ n Data⇒Stack⇒Columns; activamos o el recuadro Stack the following columns y seleccionamos (haciendo doble clic sobre sus nombres) las dos columnas que queremos apilar: ’Patron entre 0 y 1’ ’100 datos de U(0,1)’; en Store stacked data in activamos la opci´ n Column of current ´ o worksheet y tecleamos la posici´ n de una columna que est´ vac´a, por ejemplo, C3. En Store subscripts in tecleamos la o e ı posici´ n de la columna en la que queremos guardar la procedencia de cada dato, por ejemplo, C4. Es conveniente dejar o activada la opci´ n Use variable names in subscript column. o 1.6.2. Desapilamiento de columnas La opci´ n Data⇒Unstack columns permite separar una columna en varias seg´ n los valores de la columna de alguna o u variable (que contiene los sub´ndices). Esta opci´ n es la contraria de la explicada en el apartado anterior. ı o Por ejemplo, de la hoja de datos Pulse.mtw vamos a desapilar los resultados de la variable Pulse2 (pulso despu´ s e de correr) seg´ n los resultados de la variable Ran (¿corri´ o no?). Para ello, seleccionamos Data⇒Unstack Columns; en u o Unstack the data in seleccionamos (haciendo doble clic sobre su nombre) la variable o columna Pulse2; en Using subscripts in seleccionamos (haciendo doble clic sobre su nombre) la columna que contiene la procedencia de cada dato, que es Ran; en Store unstacked data in activamos la opci´ n After last column in use y dejamos activado Name the columns containing o the unstaked data. 1.6.3. Ordenaci´ n de los datos o La opci´ n Data⇒Sort ordena los datos de una columna seg´ n los resultados de una o varias columnas. Lo normal o u es ordenar una columna seg´ n los resultados de dicha columna. Esto es lo que vamos a explicar. u Por ejemplo, en la hoja de datos Pulse.mtw vamos a crear una nueva variable (columna), designada por Pulse1 ordena- do, que contenga los resultados de la variable Pulse1 ordenados de menor a mayor. Para ello, seleccionamos Data⇒Sort;
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 9 en Sort column seleccionamos (haciendo doble clic sobre su nombre) la variable Pulse1; en By column volvemos a se- leccionar la misma columna. Si dejamos desactivada la opci´ n Descending la ordenaci´ n se har´ de menor a mayor o o a resultado, que es lo que queremos. En Store sorted data in activamos Column of current worksheet y tecleamos el nombre que queremos ponerle a dicha columna: ’Pulse1 ordenado’. Tenemos que tener cuidado con la ordenaci´ n de columnas debido a que los resultados de esta nueva variable no o guardan correspondencia con los casos originales. Por ejemplo, la primera persona observada tiene un pulso antes de correr (resultado de Pulse1) igual a 64 pulsaciones por minuto, no 48 pulsaciones por minuto, como nos ha salido en el primer lugar de la columna Pulse1 ordenado. Como podemos observar, el menor valor de Pulse1 es 48 y el mayor valor es 100. 1.6.4. Ordenaci´ n por rangos o La opci´ n Data⇒Rank crea una nueva columna que indica la posici´ n que ocupar´a cada dato si los orden´ ramos o o ı a de menor a mayor. Cuando dos o m´ s valores de la columna son iguales (empates) se asigna a cada uno de ellos el a rango medio de los rangos que tendr´an si fueran distintos. Por ejemplo, si los dos resultados m´ s peque˜ os estuviesen ı a n empatados, en principio ocupar´an los n´ meros de orden 1 y 2; pero al estar empatados, los rangos de los dos valores ı u coinciden entre s´ y coinciden con (1 + 2)/2 = 1 5. ı Con la hoja de datos Pulse.mtw podemos practicar esta opci´ n creando una nueva columna, que denominaremos o Rangos de Pulse1, en la cual aparecer´ la posici´ n que ocupar´a cada resultado de la variable Pulse1 si los orden´ semos a o ı a de menor a mayor (con la correcci´ n mencionada por empates). Para ello, seleccionamos Data⇒Rank; en Rank data in o elegimos (haciendo doble clic sobre su nombre) la columna Pulse1 y en Store ranks in escribimos ’Rangos de Pulse1’. El primer resultado de Rangos de Pulse1 es igual a 22 5 porque el valor 64 (observaci´ n primera de la variable o Pulse1) ha aparecido 4 veces (casos numerados con el 1, 5, 49 y 71 de la variable Pulse1) y estos valores ocupar´an los ı n´ meros de orden 21, 22, 23 y 24; pero como est´ n empatados se les asigna el mismo rango: la media aritm´ tica de u a e estos cuatro rangos; es decir, (21 + 22 + 23 + 24)/4 = 22 5. 1.6.5. Codificaci´ n o clasificaci´ n de datos o o La opci´ n Data⇒Code permite la clasificaci´ n o codificaci´ n de los datos de una columna. Se puede codificar o o o transformando datos num´ ricos en datos num´ ricos, datos num´ ricos en datos de texto, datos de texto en datos de e e e texto, datos de texto en datos num´ ricos, etc. e Por ejemplo, con la hoja de datos Pulse.mtw podemos codificar la variable Pulse1 de la forma siguiente: intervalo de Pulse1 nueva categor´a ı [48,65] Pulso bajo (65,83] Pulso medio (83,100] Pulso alto Para ello, seleccionamos Data⇒Code⇒Numeric to Text. En Code data from columns seleccionamos (haciendo doble clic sobre su nombre) la variable Pulse1. En Store coded data in column escribimos el nombre la nueva variable, por ejem- plo, ’Codificacion de Pulse1’. En la primera l´nea de Original values escribimos 48:65 (todos los resultados comprendidos ´ ı entre 48, incluido, y 65, incluido) y en la primera l´nea de New escribimos Pulso bajo. En la segunda l´nea de Original ı ı values escribimos 65:83 (todos los resultados comprendidos entre 65, sin incluir, y 83, incluido) y en la segunda l´nea de ı New escribimos Pulso medio. En la tercera l´nea de Original values escribimos 83:100 (todos los resultados comprendidos ı entre 83, sin incluir, y 100, incluido) y en la tercera l´nea de New escribimos Pulso alto. ı 1.7. Algo m´ s sobre la ventana Session a Ya hemos visto que una de las utilidades de la ventana de sesi´ n es la de servir para la presentaci´ n de los comandos o o aplicados en cada opci´ n de las que hemos realizado. Adem´ s, podemos repasar resultados obtenidos con anterioridad o a movi´ ndonos hacia arriba en dicha ventana. Los resultados incluidos en la ventana de sesi´ n pueden grabarse como e o un fichero de texto (txt) activando dicha ventana y seleccionando File⇒Save Session Window As. Tambi´ n podemos usar e las opciones de marcar, copiar y pegar para pasar los resultados obtenidos a editores de texto. Adem´ s, es posible a imprimir todos sus contenidos activando dicha ventana y seleccionando File⇒Print Session Window. Una vez seleccionada la ventana de sesi´ n, la activaci´ n de la opci´ n Editor⇒Enable Commands permite ejecutar los o o o comandos de Minitab. Por ejemplo, si tecleamos en la ventana de sesi´ n (tras MTB >) Mean C1 y pulsamos el bot´ n £   o o ¢Intro ¡ el programa calcula media aritm´ tica de los datos de la columna C1 de la hoja de datos activa. Si escribimos , £   e Let K2=1/3 y pulsamos el bot´ n ¢Intro ¡ el programa guarda el valor 1/3 en la correspondiente constante. Si tecleamos o , ahora Print K2, el programa nos da el valor de dicha constante.
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 10 L´ gicamente, es m´ s sencillo el manejo de Minitab utilizando los men´ s, pero los comandos pueden incorporarse o a u posteriormente a los programas (macros) que construyamos. Adem´ s, una vez habilitado el lenguaje de comandos, a u ´ cuando ejecutemos una opci´ n del men´ , esta se escribir´ en la ventana de sesi´ n, con lo que podremos ver cu´ l es la o a o a sintaxis concreta del comando que queremos utilizar. Para que el contenido de la ventana de sesi´ n pueda modificarse, debemos activar dicha ventana y seleccionar o Editor⇒Output Editable, con lo que podemos rectificar f´ cilmente cualquier error, modificar comandos ejecutados ante- a riormente o simplemente preparar los resultados para ser imprimidos. Una vez activada la opci´ n Editor⇒Output Editable, la ventana de sesi´ n es el lugar en el que se ejecutan los macros o o o programas, tanto los que construyamos nosotros como los que incluye Minitab o los realizadas por otros usuarios. Los macros llevan la extensi´ n .mac y normalmente est´ n incluidos en el directorio C:Archivos de programaMinitab o a 15EnglishMacros. En la versi´ n 15 de Minitab solamente se incluyen cuatro macros, pues los resultados del resto de o los macros de la versi´ n anterior pueden conseguirse con distintas opciones de los men´ s. o u 1.8. Algo m´ s sobre la ventana Proyect Manager a £ Ya sabemos que para activar la ventana de proyecto (Proyect Manager) podemos maximizarla, podemos pulsar   ¢Ctrl ¡ o podemos hacer clic sobre su icono en la barra de herramientas. +i ´ Esta ventana presenta toda la informaci´ n disponible en forma de directorios. Resulta ser especialmente util cuando o se maneja una gran cantidad de datos. El directorio Session nos muestra, de forma resumida y organizada, la informa- ci´ n correspondiente a dicha ventana. El directorio History presenta (en lenguaje de comandos) todas las operaciones o que hemos realizado. A diferencia de lo que ocurr´a con la ventana de sesi´ n, no sirve para ejecutar comandos ni ı o ´ macros, y en el no se muestran los resultados de la ejecuci´ n de los comandos. En este directorio aparece solamente o el programa de las operaciones que hemos realizado, y su contenido puede consultarse o copiarse directamente para la realizaci´ n de macros. Los directorios de datos, Worksheets, contienen informaci´ n sobre las columnas (variables), o o constantes y matrices manejadas en cada ventana de datos que se est´ utilizando. Adem´ s, indican el n´ mero de datos e a u incluidos en una columna, as´ como los datos ausentes de la misma (Missing). ı 1.9. Ejercicios propuestos 1.1. Con la hoja de datos Pulse.mtw haz lo siguiente: a) Crea una nueva variable, designada por Sexo, que contenga los datos de la variable Sex pero cuyos resulta- dos aparezcan con las palabras Hombre (en vez de 1) y Mujer (en vez de 2). b) Desapila los resultados de la variable Pulse1 seg´ n los resultados de la variable Sexo. Calcula la media u aritm´ tica de estas dos nuevas columnas. Interpreta los resultados. e 1.2. Con la hoja de datos Yield.mtw haz lo siguiente: a) Calcula los resultados de la variable media geom´ trica de las columnas Time, Temp, Yield y Cost (ra´z cuarta e ı del producto de las cuatro variables). Denomina a la nueva variable Media geom´ trica. e b) Codifica los datos de la variable Media geom´ trica de la forma indicada en la siguiente tabla: e intervalo categor´a ı (40,50] A (50,60] B (60,70] C c) Calcula una nueva columna en la que aparezcan los rangos de la variable Media geom´ trica. e 1.3. Una determinada universidad ha plantado 6 variedades distintas de alfalfa en 4 campos experimentales dife- rentes a fin de estudiar si hay diferencias significativas en la producci´ n. Los datos se encuentran en el fichero o Alfalfa.mtw, donde C1 es la producci´ n, C2 es la variedad y C3 es el campo experimental. o a) Ordena los datos de la producci´ n (Yield) en orden creciente. ¿Cu´ l es el dato que ocupa el d´ cimo lugar? o a e b) Desapila los datos de la producci´ n (Yield) seg´ n los distintos campos experimentales (Field). Calcula la o u media aritm´ tica (por filas) de las cuatro columnas resultantes (media de la producci´ n en los cuatro e o campos experimentales). Denomina a la nueva variable Media produccion 4 campos y determina su mediana. ´
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 11 2. Estad´stica descriptiva. Representaciones gr´ ficas ı a 2.1. Distribuci´ n de frecuencias o Para hacer la distribuci´ n de frecuencias de una o m´ s variables, podemos utilizar la opci´ n Stat⇒Tables⇒Tally o a o Individual Variables. Para practicar esta opci´ n, podemos abrir el fichero de datos (Worksheet) Pulse.mtw. Recordemos que su contenido o fue recogido en una clase de 92 alumnos. De cada estudiante se observ´ su pulso antes de correr, Pulse1; su pulso o despu´ s de correr, Pulse2; si corri´ o no, Ran (1=S´ corri´ , 2=No corri´ ); si es fumador o no, Smokes (1=S´ fuma, 2=No e o ı o o ı fuma); el sexo, Sex (1=Hombre, 2=Mujer); su altura en pulgadas, Height; su peso en libras, Weight; y su nivel de actividad f´sica, Activity (0=Ninguna actividad, 1=Baja, 2=Media, 3=Alta). Si queremos saber el n´ mero de casos (frecuencia ı u absoluta) y el porcentaje de cada una de las categor´as de la variable Activity, utilizamos la opci´ n Stat⇒Tables⇒Tally ı o Individual Variables; en el recuadro Variables seleccionamos, de la lista de variables de la izquierda, la columna Activity y en Display activamos Counts y Percents. Podemos ver, en la ventana de sesi´ n (Session), que hay 21 alumnos con nivel o alto de actividad f´sica, y que un 66’3 % de ellos tiene un nivel medio de actividad f´sica. ı ı 2.2. Estad´stica descriptiva con la opci´ n Stat⇒Basic Statistics⇒Display Descriptive Statis- ı o tics En la pr´ ctica anterior vimos que la opci´ n Calc⇒Column Statistics calcula, para una columna (o variable), uno de a o los estad´sticos siguientes: Sum (suma), Mean (media arim´ tica), Standard deviation (cuasi-desviaci´ n t´pica), Minimum ı e o ı (m´nimo resultado), Maximum (m´ ximo resultado), Range (recorrido o amplitud total), Median (mediana), Sum of squares ı a (suma de cuadrados), N total (n´ mero total de casos o tama˜ o muestral), N nonmissing (n´ mero de casos para los cuales u n u sabemos el resultado de la variable) y N mising (n´ mero de casos para los cuales no sabemos el resultado de la variable). u A continuaci´ n vamos a trabajar con una opci´ n mucho m´ s amplia, que nos permite, entre otras cosas, calcular m´ s o o a a un estad´stico y trabajar con m´ s de una variable (columna) a la vez. ı a La opci´ n Stat⇒Basic Statistics⇒Display Descriptive Statistics permite obtener los estad´sticos descriptivos m´ s usua- o ı a les de las columnas (variables) de la hoja de datos. Tambi´ n permite calcularlos separando los valores de una columna e seg´ n el valor de otra. Adem´ s puede realizar una serie de gr´ ficas que nos permiten resumir la informaci´ n contenida u a a o en los datos. Para practicar esta nueva opci´ n, podemos calcular los estad´sticos descriptivos m´ s importantes de las variables o ı a Pulse1, Height y Weight de la hoja de datos (Worksheet) Pulse.mtw. Para ello, seleccionamos Stat⇒Basic Statistics⇒Display Descriptive Statistics y en el recuadro Variables del cuadro de di´ logo resultante seleccionamos, de la lista de columnas a que tenemos a la izquierda, las tres variables Pulse1, Height y Weight. En la ventana de sesi´ n nos salen los resultados, o para cada una de las tres variables, de los siguientes estad´sticos descriptivos: ı N n´ mero de casos para los cuales sabemos el resultado de la variable u N* n´ mero de casos para los cuales no sabemos el resultado de la variable u N Mean media aritm´ tica e x= xi /N √ i=1 SE Mean error est´ ndar de la media S/ N a N 2 StDev cuasi-desviaci´ n t´pica o ı S= (xi − x) / (N − 1) i=1 Minimum m´nimo dato ı Q1 ´ primer cuartil=valor que deja por debajo de el el 25 % de los datos Median ´ mediana=segundo cuartil=valor que deja por debajo de el el 50 % de los datos Q3 ´ tercer cuartil=valor que deja por debajo de el el 75 % de los datos Maximum m´ ximo dato a Con la misma hoja de datos, podemos calcular los estad´sticos de la variable Pulse2 (Pulso despu´ s de correr) sepa- ı e rando sus resultados seg´ n los valores de la variable Ran (¿corri´ o no corri´ ?). Para ello, seleccionamos Stat⇒Basic u o o Statistics⇒Display Descriptive Statistics; en el recuadro Variables del cuadro de di´ logo resultante seleccionamos la varia- a ble Pulse2; y en By variables (Optional) seleccionamos la variable Ran. En consecuencia, en la ventana de sesi´ n aparecen o los resultados de los mencionados estad´sticos de la variable Pulse2 separados para cada grupo de resultados de la ı variable Ran. Por ejemplo, podemos comprobar que para el grupo de personas que s´ corri´ (Ran=1) la media del pulso ı o es 92 51 y la mediana es 88, mientras que para el grupo de personas que no corri´ (Ran=2) la media del pulso es 72 32 o y la mediana es 70.
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 12 El bot´ n Statistics del cuadro de di´ logo que aparece con la opci´ n Stat⇒Basic Statistics⇒Display Descriptive Statistics o a o conduce a una nueva ventana en la cual se pueden elegir los estad´sticos que queremos determinar de las variables ı que hemos seleccionado en el recuadro Variables. Haciendo clic sobre el bot´ n Help se obtiene informaci´ n sobre el o o significado de cada uno de estos estad´sticos. Algunos de ellos ya han sido explicados anteriormente. Los estad´sticos ı ı descriptivos que podemos seleccionar (cuando pulsamos el bot´ n Statistics) son los siguientes: o n Mean media aritm´ tica e x= xi /n √ i=1 SE of mean error est´ ndar de la media a S/ n n 2 Standard deviation cuasi-desviaci´ n t´pica o ı S= (xi − x) / (n − 1) i=1 Variance cuasi-varianza S2 S Coefficient of variation coeficiente de variaci´ n insesgado CV = 100 o |x| First quartile primer cuartil q1 Median mediana Me = q 2 Third quartile tercer cuartil q3 Interquartile range recorrido intercuart´lico ı RI = q 3 − q1 Trimmed mean media de los datos eliminando el 5 % de los valores m´ s peque˜ os y el 5 % de los valores m´ s grandes a n a n Sum suma xi i=1 Minimum m´nimo dato ı xmin Maximum m´ ximo dato a xmax Range recorrido total R = xmax − xmin N nonmissing n´ mero de casos para los cuales sabemos el resultado de la variable = n u N missing n´ mero de casos para los cuales no sabemos el resultado de la variable u N total n´ mero total de casos=N nonmissing+N missing u Cumulative N n´ mero acumulado de casos (esto tiene sentido cuando se ha rellenado el recuadro By variables) u Percent porcentaje de casos (esto tiene sentido cuando se ha rellenado el recuadro By variables) Cumulative percent porcentaje acumulado de casos (esto tiene sentido cuando se ha rellenado el recuadro By variables) n Sum of squares suma de cuadrados x2 i i=1 n 3 Skewness coeficiente de asimetr´a ı g1 = m3 /S 3 , con m3 = (xi − x) / (n − 1) i=1 n 4 4 Kurtosis coeficiente de apuntamiento g2 = (m4 /S ) − 3, con m4 = (xi − x) / (n − 1) i=1 MSSD media de los cuadrados de las sucesivas diferencias Para practicar, podemos comprobar que el coeficiente de variaci´ n de la variable Height de la hoja de datos (Works- o heet) Pulse.mtw es igual a 5 33. 2.3. Representaciones gr´ ficas con la opci´ n Stat⇒Basic Statistics⇒Display Descriptive Sta- a o tistics El bot´ n Graphs del cuadro de di´ logo que aparece con la opci´ n Stat⇒Basic Statistics⇒Display Descriptive Statis- o a o tics permite elegir alguno de los siguientes gr´ ficos (por defecto no se realiza ninguno) de las variables que hemos a seleccionado en el recuadro Variables: Histogram of data o histograma, que agrupa los datos en intervalos, representando sobre ellos rect´ ngulos de area a ´ proporcional a la frecuencia absoluta de cada intervalo; Histogram of data, with normal curve o histograma al que se le superpone la curva de la distribuci´ n normal de o media igual a media muestral de la variable seleccionada y desviaci´ n t´pica igual a la cuasi-desviaci´ n t´pica o ı o ı muestral de dicha variable; Individual value plot o gr´ fico de valores individuales, que representa los datos en forma de puntos, y a
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 13 Boxplot of data o diagrama caja-bigote, que representa los valores m´nimo y m´ ximo (extremos de los bigotes), los ı a cuartiles Q1 y Q3 (extremos de la caja) y la mediana. Dentro de la caja tendremos el 50 % de los datos de la a ´ muestra y en cada bigote tendremos el 25 % de los datos m´ s extremos. Este ultimo tipo de gr´ fico nos permite a ´ visualizar tanto el valor central como la dispersi´ n de los datos, y es muy util a la hora de comparar datos de o distintas muestras o grupos. Por ejemplo, de la hoja de datos (Worksheet) Pulse.mtw, podemos realizar el histograma (con la curva normal superpuesta) de la variable Height, el gr´ fico de valores individuales de la variable Activity y el diagrama caja-bigote de a la variable Pulse1. 2.4. Representaciones gr´ ficas con la opci´ n Graph a o Adem´ s de los gr´ ficos que se obtienen con la Stat⇒Basic Statistics⇒Display Descriptive Statistics, podemos crear a a representaciones gr´ ficas con el men´ Graph. a u Una opci´ n importante de todos los gr´ ficos creados a trav´ s del men´ Graph es que haciendo clic sobre ellos o a e u con el bot´ n derecho del rat´ n y activando la opci´ n Update Graph Automatically del men´ contextual que aparece, el o o o u gr´ fico cambia autom´ ticamente al modificar los datos con que se han construido (ya sea a˜ adiendo, modificando o a a n eliminando). 2.4.1. Histograma Se puede obtener el histograma de una variable con la opci´ n Graph⇒Histogram. Esta opci´ n ofrece 4 tipos: Simple, o o With Fit, With Outline and Groups y With Fit and Groups. Por ejemplo, podemos hacer el histograma simple de la variable Weight de la hoja de datos Pulse.mtw. Para ello, seleccionamos la opci´ n Graph⇒Histogram. De las cuatro opciones que aparecen seleccionamos Simple. En el cuadro o de di´ logo resultante seleccionamos la variable Weight para ponerla en el recuadro Graph variables. Podemos cambiar a el aspecto que tendr´a el gr´ fico por defecto, pulsando en los botones que aparecen en este cuadro de di´ logo: Scale, ı a a Labels, Data View, Multiple Graphs y Data Options. Para m´ s informaci´ n sobre las acciones de estos botones, pulsar el a o bot´ n Help del mismo cuadro de di´ logo. En principio, podr´amos dejar todas las opciones por defecto a la hora de o a ı realizar este primer histograma. El histograma resultante podemos copiarlo en el portapapeles, haciendo clic sobre el gr´ fico con el bot´ n derecho a o del rat´ n y seleccionado, del men´ contextual que resulta, la opci´ n Copy Graph. De esta manera, podr´amos pegarlo o u o ı en otro programa bajo Windows, por ejemplo, uno de edici´ n de gr´ ficos como Paint Shop Pro. Tambi´ n podemos o a e almacenarlo en la ventana de proyecto, Proyect Manager (concretamente en el directorio ReportPad) haciendo clic sobre el gr´ fico con el bot´ n derecho del rat´ n y seleccionando, del men´ contextual que resulta, la opci´ n Append Graph to a o o u o Report. Tambi´ n tenemos la posibilidad de grabarlo, en varios formatos (gr´ fico propio de Minitab, mgf, jpg, png, bmp, e a etc.). Para ello solo tenemos que cerrar el gr´ fico (bot´ n × ) y pulsar en S´ cuando Minitab nos pregunte si queremos a o ı guardar el gr´ fico en un fichero aparte. a Una vez obtenido el histograma es posible cambiar su aspecto. Para ello, hacemos clic sobre el gr´ fico, clic sobre a la parte del gr´ fico que queremos cambiar y doble clic sobre esa parte. Aparece, entonces, una nueva ventana que nos a permite hacer dicha transformaci´ n. Los cambios m´ s usuales son: cambio en la escala del eje horizontal, cambio en o a el eje vertical, aspecto de las barras, intervalos sobre los que se sit´ an las barras, aspecto de la ventana del gr´ fico y u a cambio en las proporciones del gr´ fico. Para practicar con estas opciones vamos a cambiar el histograma simple de la a variable Weight de la hoja de datos Pulse.mtw de la siguiente manera: Que el t´tulo sea Histograma de la variable Peso. ı Que las barras sean de color azul claro con una trama de relleno oblicua y con los bordes de color azul oscuro. Que haya 7 intervalos de la misma amplitud y que en el eje horizontal aparezcan los l´mites de los intervalos (no ı los puntos medios). Que el texto del eje horizontal sea Peso de los alumnos, en libras. Que en el eje vertical se muestren 13 marcas (ticks). Que el texto del eje vertical sea Frecuencia absoluta. 2.4.2. Diagrama de sectores o de pastel Este gr´ fico resume los datos de una columna contando el n´ mero de datos iguales y represent´ ndolos mediante a u a sectores proporcionales al n´ mero de datos de cada clase. Se utiliza con datos cualitativos o de tipo discreto con pocos u resultados distintos. Se obtiene con la opci´ n Graph⇒Pie Chart. o
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 14 Por ejemplo, podr´amos hacer el diagrama de pastel de los datos de la columna Activity de la hoja de datos Pulse.mtw. ı Para ello, en el cuadro de di´ logo que resulta al seleccionar Graph⇒Pie Chart, dejamos activada la opci´ n Chart counts a o of unique values y seleccionamos la columna Activity en el recuadro Categorical variables. Podemos cambiar el aspecto que tendr´a el gr´ fico por defecto, pulsando en los botones que aparecen en este cuadro de di´ logo: Pie Options, Labels, ı a a Multiple Graphs y Data Options. En principio, podr´amos dejar todas las opciones por defecto a la hora de realizar este ı primer diagrama de sectores. Igual que ocurr´a con el histograma, una vez obtenido el diagrama de pastel podemos copiarlo en el portapapeles, o ı almacenarlo en el directorio ReportPad de la ventana Proyect Manager, o grabarlo en un fichero aparte. Tambi´ n es posible e cambiar su aspecto una vez obtenido, haciendo clic sobre el gr´ fico, clic sobre la parte del gr´ fico que queremos a a cambiar y doble clic sobre esa parte. Para practicar vamos a cambiar el gr´ fico de sectores anterior de la siguiente a manera: Que el t´tulo sea Gr´ fico de sectores de la variable Actividad F´sica. ı a ı Que junto a los sectores circulares aparezca la frecuencia absoluta y el porcentaje de cada categor´a (clic sobre ı uno de los sectores circulares con el bot´ n derecho del rat´ n, opci´ n Add, Slice Labels). o o o 2.4.3. Diagrama de barras Este tipo de gr´ fico se utiliza con datos cualitativos o de tipo discreto con pocos resultados distintos. El diagrama a de barras se construye colocando en el eje horizontal los resultados (o categor´as) de la variable y subiendo, sobre ı ellos, unas barras (rect´ ngulos o l´neas) de altura igual a la frecuencia absoluta (o la frecuencia relativa o el porcentaje) a ı de cada resultado (o categor´a). Se obtiene con la opci´ n Graph⇒Bar Chart. ı o Por ejemplo, podr´amos hacer el diagrama de barras de los datos de la columna Activity de la hoja de datos Pulse.mtw. ı Para ello, en el cuadro de di´ logo que resulta al seleccionar Graph⇒Bar Chart, dejamos activada la opci´ n Counts of a o unique values del recuadro Bars represent y dejamos tambi´ n activado el modelo Simple del diagrama de barras. En el e cuadro de di´ logo resultante, seleccionamos la columna Activity en el recuadro Categorical Variables. Como las categor´as a ı son n´ meros concretos (0, 1, 2 y 3) es m´ s riguroso que, en vez de barras, aparezcan solamente l´neas verticales; por u a ı tanto, activamos el bot´ n Data View y en el cuadro de di´ logo resultante activamos solo la opci´ n Proyect lines. o a o Igual que ocurr´a con los gr´ ficos anteriores, una vez obtenido el diagrama de barras podemos copiarlo en el ı a portapapeles, o almacenarlo en el apartado ReportPad de la ventana Proyect Manager, o grabarlo en un fichero aparte. Tambi´ n es posible cambiar su aspecto una vez obtenido, haciendo clic sobre el gr´ fico, clic sobre la parte del gr´ fico e a a que queremos cambiar y doble clic sobre esa parte. Tambi´ n podemos observar que si hacemos clic sobre el gr´ fico y e a luego pasamos el rat´ n por encima de las barras, se nos indica la frecuencia absoluta de cada categor´a. Para practicar o ı vamos a cambiar el diagrama de barras anterior de la siguiente manera: Que el t´tulo sea Diagrama de barras de la variable Actividad F´sica. ı ı Que las barras (l´neas) sean de color rojo y de un tama˜ o (grosor) de 3 puntos. ı n Que en el eje vertical se muestren 13 marcas (ticks). Que el texto del eje vertical sea Frecuencia absoluta. Que el texto del eje horizontal sea Actividad F´sica (0=Ninguna, 1=Baja, 2=Media, 3=Alta). ı Que en la parte superior de cada barra aparezca la frecuencia absoluta de cada categor´a (clic sobre una de las ı barras con el bot´ n derecho del rat´ n, opci´ n Add, Data Labels, dejar activado Use y-values labels). o o o Con la opci´ n Graph⇒Bar Chart existe la posibilidad de seleccionar una nueva variable para determinar las barras o dentro de cada grupo; esto se realiza seleccionando Cluster (para un diagrama de barras agrupado seg´ n los resultados u de otra variable) o Stack (para un diagrama de barras apilado seg´ n los resultados de otra variable). Por ejemplo, con u el fichero de datos Pulse.mtw vamos a hacer el diagrama de barras de la variable Activity en grupos definidos por la variable Sex. Para ello, en el cuadro de di´ logo que resulta al seleccionar Graph⇒Bar Chart, dejamos activada la opci´ n a o Counts of unique values del recuadro Bars represent y activamos el modelo Cluster del diagrama de barras. En el siguiente cuadro de di´ logo seleccionamos, de la lista de variables de la izquierda, las columnas Activity y Sex para ponerlas en el a recuadro Categorical variables. Una vez obtenido dicho diagrama de barras es conveniente modificarlo para que sea m´ s a explicativo, por ejemplo vamos a hacer lo siguiente: Que el t´tulo sea Diagrama de barras de la variable Actividad F´sica en grupos definidos por la variable Sexo, ı ı escrito con letra Arial y con un tama˜ o de 10 puntos. n Que las barras tengan distinto color seg´ n los resultados de la variable Sex y que aparezca una leyenda explicativa u (doble clic sobre una de las barras, en el cuadro de di´ logo resultante seleccionar la carpeta Groups, en el recuadro a Assign attributes by categorical variables seleccionar la variable Sex.)
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 15 Que en el eje vertical se muestren 10 marcas (ticks). Que el texto del eje vertical sea Frecuencia absoluta. Que en el eje horizontal todo est´ escrito con la fuente Verdana, en negrita y con un tama˜ o de 8 puntos. Que e n en dicho eje aparezcan los nombres de las variables en espa˜ ol: Actividad F´sica en vez de Activity, y Sexo en n ı vez de Sex. Que en el mismo eje los resultados de la variable Sex no sean 1 y 2 sino Hombre y Mujer. Y los resultados de la variable Activity no sean 0, 1, 2 y 3 sino Ninguna, Poca, Media y Alta. 2.4.4. Diagramas bivariantes La opci´ n Graph⇒Scatterplot realiza una gr´ fica con los datos (bivariantes) de dos columnas de la misma longitud. o a Por ejemplo, de la hoja de datos Pulse.mtw podemos representar la altura en pulgadas, Height, frente al peso en libras, Weight. Para ello, seleccionamos la opci´ n Graph⇒Scatterplot, en el cuadro de di´ logo que aparece selecciona- o a mos Simple, en el siguiente cuadro de di´ logo, en el recuadro Y Variables seleccionamos (de la lista de variables de la a izquierda) Height, en el recuadro X Variables seleccionamos Weight. Podemos cambiar el aspecto que tendr´a el gr´ fico ı a por defecto, pulsando en los botones que aparecen en este cuadro de di´ logo: Scale, Labels, Data View, Multiple Graphs y a Data Options. En principio, podr´amos dejar todas las opciones por defecto a la hora de realizar este primer diagrama de ı dispersi´ n. Se puede comprobar que la nube de puntos resultante se agrupa cerca de una l´nea recta, lo que significa o ı que hay una clara relaci´ n lineal entre las dos variables. o Igual que ocurr´a con los gr´ ficos anteriores, una vez obtenido el diagrama de dispersi´ n se puede copiar en ı a o el portapapeles, o almacenar en el apartado ReportPad de la ventana Proyect Manager, o grabar en un fichero aparte. Tambi´ n es posible cambiar su aspecto una vez obtenido haciendo doble clic sobre la parte del gr´ fico que queremos e a modificar. Para practicar vamos a diagrama de dispersi´ n anterior de la siguiente manera: o Que el t´tulo sea Diagrama de dispersi´ n de la Altura frente al Peso. ı o Que los s´mbolos sean rombos verdes de tama˜ o 1. ı n Que en el eje horizontal se muestren 14 marcas (ticks). Que el texto del eje horizontal sea Peso de los alumnos, en libras. Que en el eje vertical se muestren 10 marcas (ticks). Que el texto del eje vertical sea Altura de los alumnos, en pulgadas. La opci´ n Graph⇒Scatterplot es la que se utiliza para hacer la representaci´ n gr´ fica de una determinada funci´ n o o a o f (x). Para ello es necesario tener en una columna los valores de x (generalmente creados por patr´ n) y en otra o columna los resultados de y = f (x) (generalmente calculados a partir de la opci´ n Calc⇒Calculator). Por ejemplo, o vamos a hacer la representaci´ n gr´ fica de la funci´ n f (x) = (1 + x)(1 − x2 ) en el intervalo [−3, 3]. Para ello se o a o procede de la siguiente manera: 1) Se abre una hoja de datos nueva (File, New, Minitab Worksheet). 2) Mediante la opci´ n Calc⇒Make Patterned Data⇒Simple Set of Numbers se crea una nueva columna que denomina- o remos x y que contendr´ todos los n´ meros comprendidos entre el -3 y el 3 con un incremento de 0, 01. En la a u columna x habr´ un total de 601 n´ meros. a u 3) En otra columna se calculan los resultados de la funci´ n funci´ n f (x) = (1 + x)(1 − x2 ) para cada valor de o o la columna x. Para hacerlo, se selecciona Calc⇒Calculator; en Store result in variable tecleamos f(x); en Expression tenemos que colocar, utilizando la calculadora y la lista de variables que aparecen en este cuadro de di´ logo, la a siguiente expresi´ n: (1+’x’)*(1-’x’**2) o 4) Para representar gr´ ficamente la funci´ n se elige la opci´ n Graph⇒Scatterplot, despu´ s se elige With connect line. a o o e En el siguiente cuadro de di´ logo, en Y variables se selecciona, de la lista de variables de la izquierda, la columna a ’f(x)’ y en X variables se selecciona la columna ’x’. Ser´a conveniente quitar los puntos del gr´ fico, dejando s´ lo ı a o la l´nea de conexi´ n, para lo cual se hace doble clic sobre la curva, en Attributes⇒Symbols se marca la opci´ n ı o o Custom y en Type se selecciona None (buscando hacia arriba). Luego se hace un clic dentro del gr´ fico, pero no a sobre la curva. Tambi´ n se puede lograr lo mismo de la siguiente manera: se elige la opci´ n Graph⇒Scatterplot; se selecciona e o Simple; en el siguiente cuadro de di´ logo, en Y variables se selecciona la columna ’f(x)’ y en X variables se selecciona a la columna ’x’; se activa el bot´ n Data View y en el cuadro de di´ logo resultante se deja activada solamente la o a opci´ n Connect line. o
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 16 3. Probabilidad. Variables aleatorias 3.1. Muestras aleatorias de las distribuciones usuales Como ya se ha visto anteriormente, en Minitab podemos generar datos de distribuciones usuales utilizando la opci´ n Calc⇒Random Data. Esta opci´ n permite generar una muestra de datos de cualquier columna de la hoja de datos o o actualmente abierta o de una de las distribuciones de probabilidad que aparecen listadas. En primer lugar, vamos a crear una nueva hoja de datos que llevar´ por nombre Probabilidad.mtw. A continuaci´ n, a o vamos a crear una columna, en dicha hoja de datos, que lleve por nombre 100 datos de N(5,2) y que contenga 100 datos aleatorios procedentes de una distribuci´ n N (5, 2) (Normal de media 5 y desviaci´ n t´pica 2). Para ello, seleccionamos o o ı Calc⇒Random Data⇒Normal; en Number of rows of data to generate tecleamos 100; en Store in column tecleamos el nombre ’100 datos de N(5,2)’; en Mean tecleamos 5 y en Standard deviation ponemos un 2. A continuaci´ n vamos a hacer el histograma de la muestra aleatoria obtenida en la columna ’100 datos de N(5,2)’. o Para ello, recordemos que hay que seleccionar la opci´ n Graph⇒Histogram. En el cuadro de di´ logo resultante elegimos o a With Fit. En el siguiente cuadro de di´ logo, en Graph variables seleccionamos, de la lista de variables que tenemos a a la izquierda, la columna ’100 datos de N(5,2)’ y pulsamos OK. En la representaci´ n gr´ fica podemos apreciar que el o a histograma est´ cerca de la curva Normal superpuesta, lo cual es l´ gico puesto que hemos creado una muestra de una a o distribuci´ n Normal. Tambi´ n podemos ver, en la leyenda que aparece en la parte superior derecha del gr´ fico, que la o e a media de la muestra obtenida se aproxima a 5 y la desviaci´ n t´pica se aproxima a 2. o ı Genera ahora una muestra de la misma distribuci´ n, N (5, 2), pero de tama˜ o 10000 y haz el histograma corres- o n pondiente a los datos de la nueva muestra. ¿Qu´ aprecias respecto al ajuste de la gr´ fica a la curva Normal? ¿Piensas e a que tiene que ver con el tama˜ o de la muestra? n La opci´ n Calc⇒Random Data tambi´ n nos puede servir para calcular el valor aproximado de cualquier medida o o e momento de cualquier distribuci´ n. Por ejemplo, para calcular la mediana de una distribuci´ n Exponencial de media o o 15 podemos crear 5000 datos aleatorios de dicha distribuci´ n y despu´ s determinar la mediana de la columna creada. o e Para ello, seleccionamos Calc⇒Random Data⇒Exponential; en Number of rows of data to generate tecleamos 5000; en Store in column tecleamos el nombre ’5000 datos de E(15)’; en Scale tecleamos el valor de la media, que es 15, y en Threshold dejamos lo que aparece por defecto, que es cero. Recordemos que para determinar la mediana de una columna tenemos varias posibilidades, una es la opci´ n Calc⇒Column Statistics y otra es la opci´ n Stat⇒Basic Statistics⇒Display Descriptive o o Statistics. Para determinar la mediana de la muestra de la distribuci´ n Exponencial de media 15, nosotros vamos a o utilizar la opci´ n Calc⇒Column Statistics; en Statistic activamos Median; en Input variable seleccionamos (de la lista de o variables de la izquierda) la columna ’5000 datos de E(15)’ y no escribimos nada en el recuadro Store result in. En la ventana de sesi´ n nos aparece el resultado de la mediana deseada, que podemos comprobar que se aproxima al valor o real de la mediana de una distribuci´ n Exponencial de media 15, que es Me = −15 ln 0 5 = 10 3972077 · · · . Cuanto o m´ s grande sea el tama˜ o muestral, tanto m´ s se aproximar´ el valor de la mediana de la muestra al valor te´ rico de a n a a o dicha mediana. La distribuci´ n Discrete que aparece en el men´ de la opci´ n Calc⇒Random Data no es un modelo concreto, sino o u o que sirve para cualquier modelo discreto previamente introducido en dos columnas; una para los valores que toma x y otra para los resultados de sus probabilidades p(x). Por ejemplo, podemos generar una muestra aleatoria de tama˜ o n 1000 de la distribuci´ n discreta que tiene por funci´ n de probabilidad p(x) = x/55 para x = 1, 2, . . . , 10 y podemos o o comprobar gr´ ficamente que aproximadamente se cumplen las probabilidades te´ ricas. Para ello, se procede de la a o siguiente manera: a) Mediante la opci´ n Calc⇒Make Patterned Data⇒Simple Set of Numbers se crea una nueva columna, que podemos o denominar x, con los valores 1, 2, 3, . . . , 10. Esta columna contiene los posibles resultados de la variable aleatoria discreta. b) Mediante la opci´ n Calc⇒Calculator, se calculan los resultados de la funci´ n de probabilidad para todos y cada o o uno de los valores de la columna x. A la nueva columna la podemos denominar p(x). Recordemos que es mejor emplear la lista de variables y la calculadora de dicho cuadro de di´ logo que teclear las operaciones y los a nombres de las variables. c) Se selecciona Calc⇒Random Data⇒Discrete; en Number of rows of data to generate tecleamos 1000; en Store in co- lumn tecleamos ’muestra modelo discreto’; en Values in seleccionamos, de la lista de variables de la izquierda, la columna x; en Probabilities in seleccionamos, de la lista de variables de la izquierda, la columna p(x). La nueva columna ’muestra modelo discreto’ contiene la muestra deseada. Con una probabilidad muy alta, el dato que m´ s a habr´ aparecido ser´ el 10 puesto que es el valor m´ s probable, con probabilidad p(10) = 0 18 y el dato que a a a menos habr´ aparecido ser´ el 1 puesto que es el valor menos probable, con una probabilidad p(1) = 0 0 18. a a d) Hacemos un diagrama de barras de la columna ’muestra modelo discreto’ para comprobar que aproximadamente se cumplen las probabilidades te´ ricas. Para ello, se selecciona Graph⇒Bar Chart, dejamos activada la opci´ n o o
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 17 Simple y hacemos clic en OK. En el siguiente cuadro de di´ logo, en Categorical variables seleccionamos, de la lista a de variables de la izquierda, la columna ’muestra modelo discreto’. Si pasamos el cursor sobre cada una de las barras del gr´ fico resultante podemos ver la frecuencia absoluta de cada uno de los 10 valores de x. Como tenemos a una muestra de tama˜ o 1000, para averiguar la frecuencia relativa (que es lo que se aproxima a la probabilidad), n tenemos que dividir la frecuencia absoluta entre 1000. Comprobemos que la frecuencia absoluta del resultado 10 se aproxima a 0 18 · 1000 = 181 81. Como ya sabemos, la distribuci´ n Uniforme genera n´ meros aleatorios de tipo continuo comprendidos entre dos o u n´ meros cualesquiera. La distribuci´ n Integer es su equivalente en el caso discreto; es decir, genera n´ meros aleatorios u o u de tipo discreto (n´ meros enteros) comprendidos entre dos n´ meros enteros cualesquiera. Por ejemplo, vamos a utilizar u u esta distribuci´ n para simular los resultados de 1000 lanzamientos de un dado. Para ello, seleccionamos Calc⇒Random o Data⇒Integer; en Number of rows of data to generate tecleamos 1000; en Store in column tecleamos el nombre ’1000 lanzamien- tos dado’; en Minimum value tecleamos 1 y en Maximum value ponemos un 6. Ahora podemos comprobar gr´ ficamente que a aproximadamente se cumplen las probabilidades te´ ricas. Para ello, vamos a hacer un diagrama de barras de los datos o obtenidos: Se selecciona Graph⇒Bar Chart⇒Simple y en Categorical variables se elige la columna ’1000 lanzamientos dado’. Si pasamos el cursor sobre cada una de las barras del gr´ fico resultante podemos ver la frecuencia absoluta de cada a uno de los 6 resultados posibles. Como tenemos una muestra de tama˜ o 1000, para averiguar la frecuencia relativa n (que es lo que se aproxima a la probabilidad), tenemos que dividir la frecuencia absoluta entre 1000. Comprobemos 1 que la frecuencia absoluta de cada resultado se aproxima a 6 · 1000 = 166 6. Si un determinado suceso A tiene por probabilidad p; es decir, P (A) = p, podemos aproximarnos al verdadero valor de la probabilidad p generando una columna con una muestra aleatoria de gran tama˜ o de la distribuci´ n de n o Bernoulli de par´ metro p y luego calculando la media de dicha columna (pues la media te´ rica de la distribuci´ n de a o o Bernoulli de par´ metro p es igual a p). Vamos a utilizar lo anterior para averiguar, aproximadamente, el valor de la a probabilidad de que el valor m´nimo de 5 observaciones de una distribuci´ n N (12, 4) sea menor que 10. Este suceso ı o lo vamos a denotar por A; es decir, A=el valor m´nimo de 5 observaciones de una distribuci´ n N (12, 4) es menor ı o que 10, y a su probabilidad la vamos a denotar por p; es decir, P (A) = p. Para averiguar el valor aproximado de la probabilidad p hacemos lo siguiente: a) Generamos 5 muestras de tama˜ o grande (por ejemplo, 10000) procedentes de una distribuci´ n N (12, 4), cada n o una de ellas en una columna de Minitab. A estas columnas las podemos denominar Y 1, Y 2, Y 3, Y 4 e Y 5. Cada fila se puede considerar como una muestra de tama˜ o 5 procedente de una distribuci´ n N (12, 4). Por tanto, n o hemos obtenido 10000 muestras de tama˜ o 5 de dicha distribuci´ n Normal. n o b) Utilizamos la opci´ n Calc⇒Row Statistics para calcular el m´nimo de cada muestra de tama˜ o 5; es decir, de- o ı n terminamos la funci´ n m´nimo (por filas) de las columnas Y 1, Y 2, Y 3, Y 4 e Y 5. Denominamos a la nueva o ı columna ’M´nimo Y1 a Y5’. ı c) Utilizamos la opci´ n Calc ⇒Calculator para determinar el resultado de la expresi´ n l´ gica ’M´nimo Y1 a Y5’<10. A o o o ı la nueva columna la denominamos M´nimo<10. Esta nueva columna es una muestra aleatoria de una distribuci´ n ı o de Bernoulli de par´ metro igual a la probabilidad del suceso A, pues la operaci´ n anterior ha asignado el valor a o 1 si el suceso A ocurre, y ha asignado el valor cero si A no ocurre. d) Con la opci´ n Calc⇒Column Statistics calculamos la media (Mean) de la columna M´nimo<10. Dicha media es una o ı estimaci´ n o aproximaci´ n al par´ metro p de la distribuci´ n de Bernoulli de par´ metro igual a la probabilidad o o a o a del suceso A y por tanto es una estimaci´ n o aproximaci´ n de la probabilidad del suceso A. o o Como ya sabemos, el Teorema Central del L´mite nos dice que si tenemos n variables aleatorias independientes ı id´ nticamente distribuidas, X1 ,. . ., Xn , con media µ y varianza σ 2 , entonces: e I) Cuando n es suficientemente grande, la variable Suma Muestral (Sn = X1 + · · · + Xn ) tiene, aproximadamente, una distribuci´ n Normal de media nµ y varianza nσ 2 . o II ) Cuando n es suficientemente grande, la variable Media Muestral (X = Sn /n) tiene, aproximadamente, una distribuci´ n Normal de media µ y varianza σ 2 /n. o Para practicar con lo anterior, se propone el siguiente ejercicio: Genera 5 muestras de tama˜ o grande (por ejemplo, n 10000) de cualquier distribuci´ n, por ejemplo, de una variable Uniforme en el intervalo (0, 1). Denomina X1, X2, X3, o X4 y X5 a esas 5 columnas. Mediante la opci´ n Calc⇒Row Statistics (utilizada dos veces) crea dos columnas nuevas: o la primera columna (Suma) la calculas mediante la suma (por filas) de las cinco columnas X1, X2, X3, X4, X5; y la segunda columna (Media) la calculas mediante la media aritm´ tica (por filas) de las cinco columnas X1, X2, X3, e X4, X5. Haz el histograma (con la curva Normal superpuesta) de estas dos nuevas columnas, Suma y Media. ¿Qu´ se e puede observar en estas gr´ ficas? Determina las medias y las varianzas de las dos columnas nuevas, Suma y Media, y a compara los resultados con los te´ ricos. Recordemos que la media de una distribuci´ n Uniforme en el intervalo (a, b) o o
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 18 es igual a (a + b)/2 y la varianza es (b − a)2 /12. Por tanto, para cada Xi la media te´ rica es 1/2 = 0 5 y la varianza o te´ rica es 1/12 = 0 08 3. En consecuencia, para la variable aleatoria Sn la media ser´a 5 · 0 5 = 2 5 y la varianza ser´a o ı ı 5 · 0 08 3 = 0 41 6. Y para la variable aleatoria X la media ser´a 0 5 y la varianza ser´a 0 08 3/5 = 0 01 6. ı ı 3.2. Funci´ n de densidad y funci´ n de probabilidad o o Minitab puede calcular el resultado de la funci´ n de densidad (o de la funci´ n de probabilidad) para un valor o o concreto o para una lista de valores. Para ello hay que elegir la opci´ n Calc⇒Probability Distributions y a continuaci´ n o o el nombre de la variable aleatoria: Chi-square (Chi-cuadrado de Pearson), Normal, F (de Snedecor), t (de Student), Uniform (Uniforme), Binomial, Hypergeometric (Hipergeom´ trica), Discrete, Integer, Poisson, Beta, Cauchy, Expo- e nential, Gamma, Laplace, etc. Dentro del cuadro de di´ logo que aparecer´ hay que seleccionar Probability Density (para las distribuciones conti- a a nuas) o Probability (para las distribuciones discretas). Para entender mejor el inter´ s de esta opci´ n, vamos a determinar los resultados de la funci´ n de densidad de una e o o distribuci´ n N (0, 1) (Normal Est´ ndar) para una lista de valores que vamos a crear (todos los n´ meros comprendidos o a u entre -4 y 4, con un incremento de 0, 01). Luego haremos la representaci´ n gr´ fica de esta funci´ n de densidad. Para o a o ello se procede de la siguiente manera: a) Mediante la opci´ n Calc⇒Make Patterned Data⇒Simple Set of Numbers crearemos una nueva columna que denomi- o naremos ’x de -4 a 4’ y que contendr´ todos los n´ meros comprendidos entre el -4 y el 4 con un incremento de a u 0, 01. En la columna ’x de -4 a 4’ habr´ un total de 801 n´ meros . a u b) En otra columna se calculan los resultados de la funci´ n de densidad de la variable aleatoria Normal Est´ ndar o a para cada valor de la columna ’x de -4 a 4’. Para hacerlo, se selecciona Calc⇒Probability Distributions⇒Normal; se activa Probability density; en Mean y en Standard deviation se deja lo que aparece por defecto (cero y uno, respectiva- mente); en Input column se selecciona, de la lista de variables de la izquierda, la columna ’x de -4 a 4’ y en Optional storage se teclea el nombre de la columna que contendr´ los resultados de la funci´ n de densidad; por ejemplo, a o ’f(x) N(0,1)’. c) Finalmente, para representar gr´ ficamente la funci´ n de densidad de la variable aleatoria Normal Est´ ndar se a o a elige la opci´ n Graph⇒Scatterplot, despu´ s se elige With connect line. En el siguiente cuadro de di´ logo, en Y o e a variables se selecciona, de la lista de variables de la izquierda, la columna ’f(x) N(0,1)’ y en X variables se selecciona la columna ’x de -4 a 4’. Ser´a conveniente quitar los puntos del gr´ fico, dejando s´ lo la l´nea de conexi´ n, para lo ı a o ı o cual se hace doble clic sobre la curva, en Attributes⇒Symbols se marca la opci´ n Custom y en Type se selecciona o None (buscando hacia arriba). Luego se hace un clic dentro del gr´ fico, pero no sobre la curva. a Para completar el ejemplo anterior, podr´amos superponer en un mismo gr´ fico las curvas de densidad de las ı a distribuciones N (0, 1) (Normal Est´ ndar), t2 (t de Student con 2 grados de libertad), t5 (t de Student con 5 grados de a libertad) y t30 (t de Student con 30 grados de libertad) con el fin de comprobar que la distribuci´ n tn se va aproximando o a la distribuci´ n N (0, 1) cuando va aumentando el valor del par´ metro n. Para ello, se procede de la siguiente manera: o a a) Se selecciona Calc⇒Probability Distributions⇒t; se activa Probability density; en Degrees of freedom se teclea 2; en Input column se selecciona, de la lista de variables de la izquierda, la columna ’x de -4 a 4’ y en Optional storage se teclea el nombre de la columna que contendr´ los resultados de la funci´ n de densidad de t2 ; por ejemplo, ’f(x) a o t2’. b) Se selecciona Calc⇒Probability Distributions⇒t; se activa Probability density; en Degrees of freedom se teclea 5; en Input column se selecciona, de la lista de variables de la izquierda, la columna ’x de -4 a 4’ y en Optional storage se teclea el nombre de la columna que contendr´ los resultados de la funci´ n de densidad de t5 ; por ejemplo, ’f(x) a o t5’. c) Se selecciona Calc⇒Probability Distributions⇒t; se activa Probability density; en Degrees of freedom se teclea 30; en Input column se selecciona, de la lista de variables de la izquierda, la columna ’x de -4 a 4’ y en Optional storage se teclea el nombre de la columna que contendr´ los resultados de la funci´ n de densidad de t30 ; por ejemplo, ’f(x) a o t30’. d) Se selecciona la opci´ n Graph⇒Scatterplot⇒With connect line. En el cuadro de di´ logo que aparece, junto al 1 en o a Y variables seleccionamos la columna ’f(x) N(0,1)’ y en X variables seleccionamos la columna ’x de -4 a 4’; junto al 2 en Y variables seleccionamos la columna ’f(x) t2’ y en X variables seleccionamos otra vez la columna ’x de -4 a 4’; junto al 3 en Y variables seleccionamos ’f(x) t5’ y en X variables seleccionamos otra vez ’x de -4 a 4’; y junto al 4 en Y variables seleccionamos la columna ’f(x) t30’ y en X variables seleccionamos otra vez la columna ’x de -4 a 4’. Luego pulsamos Multiple graphs y en el cuadro de di´ logo resultante activamos la opci´ n Overlay on the same graph. Como a o ya hemos dicho anteriormente, ser´a conveniente quitar los puntos del gr´ fico, dejando s´ lo la l´nea de conexi´ n. ı a o ı o
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 19 Ahora vamos a calcular los resultados de la funci´ n de probabilidad de la distribuci´ n discreta B(200, 0 4) (Bino- o o mial de par´ metros n = 200 y p = 0 4), vamos a hacer su representaci´ n grafica y vamos a averiguar el valor de la a o media de dicha variable aleatoria discreta. Para ello procedemos de la siguiente manera: a) Mediante la opci´ n Calc⇒Make Patterned Data⇒Simple Set of Numbers crearemos una nueva columna que deno- o minaremos ’x de 0 a 200’ y que contendr´ todos los resultados posibles de la distribuci´ n B(200, 0 4), que, como a o sabemos, son: 0, 1, 2, · · · , 200. b) Calculamos los resultados de la funci´ n de probabilidad de B(200, 0 4) para todos y cada uno de los valores de o la columna ’x de 0 a 200’. Para ello, seleccionamos la opci´ n Calc⇒Probability Distributions⇒Binomial; activamos o Probability; en Numbers of trials tecleamos 200; en Event probability tecleamos 0,4; en Input column elegimos, de la lista de variables de la izquierda, la columna ’x de 0 a 200’ y en Optional storage tecleamos el nombre de la columna que contendr´ los resultados de la funci´ n de probabilidad; por ejemplo, ’p(x) B(200,0,4)’. a o c) Ahora vamos a hacer la representaci´ n gr´ fica bidimensional que tiene en el eje horizontal los resultados de la o a columna ’x de 0 a 200’ y en el eje vertical los resultados de la columna ’p(x) B(200,0,4)’. Para ello, se selecciona la opci´ n Graph⇒Scatterplot, despu´ s se elige With connect line. En el siguiente cuadro de di´ logo, en Y variables o e a se selecciona, de la lista de variables de la izquierda, la columna ’p(x) B(200,0,4)’ y en X variables se selecciona la columna ’x de 0 a 200’. Como ya hemos dicho anteriormente, ser´a conveniente quitar los puntos del gr´ fico, ı a dejando s´ lo la l´nea de conexi´ n. Se puede comprobar que esta representaci´ n gr´ fica se aproxima mucho a o ı o o a la curva de densidad de una distribuci´ n Normal, lo cual se debe a lo siguiente: cuando n es grande y p no se o √ acerca a 0 ni a 1, entonces B(n, p) se aproxima a N (np, npq), siendo q = 1 − p. d) Tambi´ n vamos a calcular la media te´ rica de la distribuci´ n B(200, 0 4). Recordemos que la media de una e o o distribuci´ n discreta es E(X) = o xi · p(xi ). Por tanto, usamos la opci´ n Calc ⇒Calculator. En Store result o in variable tecleamos el nombre de la columna que contendr´ los resultados de los productos xi · p(xi ); por a ejemplo, ’x p(x)’; en Expression ponemos (empleando la lista de variables y la calculadora de dicho cuadro de di´ logo) ’x de 0 a 200’*’p(x) B(200,0,4)’. Ahora tenemos que calcular la suma de todos los resultados a de la columna ’x p(x)’, para lo cual elegimos la opci´ n Calc⇒Column Statistic; activamos Sum; en Input variable o seleccionamos, de la lista de variables de la izquierda, la columna ’x p(x)’ y dejamos desactivada la opci´ n Store o result in. En la ventana de sesi´ n podemos ver el resultado de la media, que es igual a E(X) = n·p = 200·0 4 = o 80. De forma similar podr´amos determinar cualquier otro momento de dicha distribuci´ n discreta. ı o 3.3. Funci´ n de distribuci´ n (probabilidad acumulada) o o Para calcular el resultado de la funci´ n de distribuci´ n de una variable aleatoria, F (t) = P (X ≤ t), hay que o o elegir la opci´ n Calc⇒Probability Distributions y a continuaci´ n el nombre de la variable aleatoria. Dentro del cuadro de o o di´ logo que aparece hay que seleccionar Cumulative Probability. a Por ejemplo, vamos a calcular la probabilidad P (X ≤ −1 36), siendo X una variable aleatoria Normal Est´ ndar. a Como P (X ≤ −1 36) = F (−1 36), para calcular su resultado seleccionamos la opci´ n Calc⇒Probability Distributions⇒Normal; o activamos Cumulative Probability; en Mean y en Standard deviation dejamos lo que aparece por defecto (cero y uno, res- pectivamente). No activamos la opci´ n Input column sino la opci´ n Input constant, en donde colocamos el valor -1,36. o o Podemos almacenar el resultado en una constante tecleando en el recuadro Optional storage una K seguida de un n´ me- u ro o poniendo un nombre a dicho resultado. Si no rellenamos el recuadro Optional storage, el resultado aparece en la ventana de sesi´ n. Se puede comprobar que la probabilidad pedida es P (X ≤ −1 36) = F (−1 36) = 0 086915. o Si queremos calcular probabilidades de los tipos P (X > a), P (a < X < b), P (|X| < |a|), P (|X| > |a|), tenemos que utilizar l´ piz y papel, y aplicar las propiedades de la probabilidad para llegar a expresiones en las que a s´ lo aparezcan probabilidades del tipo P (X ≤ x) (funci´ n de distribuci´ n), pues estas son las que calcula Minitab. o o o ´ No tenemos que olvidar, por ejemplo, que si X es una variable aleatoria continua, entonces P (X = a) = 0 para todo a, por lo que se cumplen las siguientes igualdades: P (X ≤ x) = P (X < x), P (X ≥ x) = P (X > x), · · · . Pero si X es una variable aleatoria discreta, las probabilidades P (X ≤ x) y P (X < x) no son (en general) iguales. Vamos a hacer algunos ejemplos: Si X ≡ B(85, 0 55), entonces P (50 ≤ X < 60) = P [(X < 60) − (X < 50)] = P (X < 60) − P (X < 50) = P (X ≤ 59) − P (X ≤ 49) = F (59) − F (49) = 0 997638 − 0 724689 = 0 272949. Si X ≡ N (0, 1), entonces P (|X| ≥ 1 75) = P [(X ≤ −1 75) ∪ (X ≥ 1 75)] = P (X ≤ −1 75) + P (X ≥ 1 75) = 2 · P (X ≤ −1 75) = 2 · F (−1 75) = 2 · 0 0400592 = 0 080118. Si X ≡ N (6 5, 1 85), entonces P (5 ≤ X < 7) = P [(X < 7) − (X < 5)] = P (X < 7) − P (X < 5) = P (X ≤ 7) − P (X ≤ 5) = F (7) − F (5) = 0, 606524 − 0, 208737 = 0 397787.
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 20 √ Como ya hemos dicho, cuando n es grande y p no se acerca a 0 ni a 1, entonces B(n, p) se aproxima a N (np, npq), siendo q = 1 − p. Vamos a poder observarlo con el siguiente ejemplo: Sea X una variable aleatoria B(200, 0 4) y sea Y una variable aleatoria Normal de media 80 y desviaci´ n t´pica o ı 6’928203. Vamos a comprobar (mediante una representaci´ n gr´ fica conjunta) que las funciones de distribuci´ n de o a o ambas variables son muy parecidas. La soluci´ n es la siguiente: o a) Calculamos los resultados de la funci´ n de distribuci´ n de B(200, 0 4) para todos y cada uno de los valores de o o dicha columna ’x de 0 a 200’. Para ello, seleccionamos la opci´ n Calc⇒Probability Distributions⇒Binomial; activamos o Cumulative probability; en Numbers of trials tecleamos 200; en Event probability tecleamos 0,4; en Input column elegimos, de la lista de variables de la izquierda, la columna ’x de 0 a 200’ y en Optional storage tecleamos el nombre de la columna que contendr´ los resultados de la funci´ n de distribuci´ n de la Binomial; por ejemplo, ’F(x) B(200,0,4)’. a o o b) Calculamos los resultados de la funci´ n de distribuci´ n de N (80, 6 928203) para los mismos valores de x, es o o decir, para los valores de la columna ’x de 0 a 200’. Para ello, se elige Calc⇒Probability Distributions⇒Normal; se activa Cumulative probability; en Mean se teclea 80; en Standard deviation se pone 6,928203; en Input column elegimos, de la lista de variables de la izquierda, la columna ’x de 0 a 200’ y en Optional storage tecleamos el nombre de la columna que contendr´ los resultados de la funci´ n de distribuci´ n de la Normal; por ejemplo, ’F(x) N(80,6,9)’. a o o c) Ahora vamos a superponer, en un mismo gr´ fico, las dos funciones de distribuci´ n. Para ello, se selecciona a o la opci´ n Graph⇒Scatterplot⇒With connect line. En el cuadro de di´ logo que aparece, junto al 1 en Y variables o a seleccionamos la columna ’F(x) B(200,0,4)’ y en X variables seleccionamos la columna ’x de 0 a 200’, y junto al 2 en Y variables seleccionamos la columna ’F(x) N(80,6,9)’ y en X variables seleccionamos otra vez la columna ’x de 0 a 200’. Luego pulsamos Multiple graphs y en el cuadro de di´ logo resultante activamos Overlay on the same graph. Como ya a hemos dicho anteriormente, ser´a conveniente quitar los puntos del gr´ fico, dejando s´ lo la l´nea de conexi´ n. ı a o ı o 3.4. Inversa de la funci´ n de distribuci´ n (percentiles) o o En ocasiones, en lugar de querer calcular probabilidades de sucesos, se desea justamente lo contrario, conocer el valor x que hace que la probabilidad del suceso (X ≤ x) sea igual a un valor determinado p; es decir, hallar x para que se cumpla P (X ≤ x) = p; esto no es m´ s que calcular percentiles de variables aleatorias. Para calcular el resultado a de los percentiles de una variable aleatoria hay que elegir la opci´ n Calc⇒Probability Distributions y a continuaci´ n o o el nombre de la variable aleatoria. Dentro del cuadro de di´ logo que aparece hay que seleccionar Inverse cumulative a probability. Por ejemplo, vamos a calcular el valor x que verifica P (X ≤ x) = 0 98, cuando X ≡ χ2 (Chi-cuadrado de 20 Pearson con 20 grados de libertad). Para ello seleccionamos la opci´ n Calc⇒Probability Distributions⇒Chi-Square. En o el cuadro de di´ logo activamos Inverse cumulative probability. Dejamos lo que aparece por defecto (cero) en Noncentrality a parameter. En Degrees of freedom tecleamos 20. No activamos la opci´ n Input column sino la opci´ n Input constant, en donde o o colocamos el valor 0,98. Podemos almacenar el resultado en una constante tecleando en el recuadro Optional storage una K seguida de un n´ mero o poniendo un nombre a dicho resultado. Si no rellenamos el recuadro Optional storage, el u resultado aparece en la ventana de sesi´ n. Se puede comprobar que el valor x que verifica P (X ≤ x) = 0 98 es o 35 0196; es decir, P (X ≤ 35 0196) = 0 98, siendo X ≡ χ2 . 20 Si queremos calcular los valores a y b tales que las probabilidades de los tipos P (X > a), P (a < X < b), P (|X| < |a|), P (|X| > |a|) sean iguales a un cierto resultado, tenemos que utilizar l´ piz y papel, y aplicar las a propiedades de la probabilidad para llegar a expresiones en las que s´ lo aparezcan ecuaciones del tipo P (X ≤ x) = p o (percentiles), pues estas son las que calcula Minitab. ´ Vamos a hacer algunos ejemplos: Sea X una variable aleatoria que sigue una distribuci´ n t de Student con 30 grados de libertad (X ≡ t30 ). Halla o el valor de a que cumple P (|X| > a) = 0 2. Soluci´ n: o P (|X| > a) = 0 2 ⇒ P [(X < −a) ∪ (X > a)] = 0 2 ⇒ P (X < −a) + (X > a) = 0 2 ⇒ 2P (X > a) = 0 2 (por ser sim´ trica) ⇒ P (X > a) = 0 1 e ⇒ P (X ≤ a) = 0 9 ⇒ F (a) = 0 9 ⇒ a = 1 310415 Sea X una variable aleatoria que sigue una distribuci´ n F de Snedecor con 10 grados de libertad en el numerador o y 20 grados de libertad en el denominador (X ≡ F10,20 ). Halla el valor de a que verifica la siguiente igualdad: P (|X| ≤ a) = 0 9.
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 21 Soluci´ n: o P (|X| ≤ a) = 0 9 ⇒ P [−a ≤ X ≤ a] = 0 9 ⇒ P [(X ≤ a) − (X < −a)] = 0 9 ⇒ P (X ≤ a) − P (X < −a) = 0 9 ⇒ P (X ≤ a) = 0 9 ya que P (X < −a) = 0 ⇒ F (a) = 0 9 ⇒ a = 1 936738 Para distribuciones discretas, en general, fijado un p, no necesariamente existe un valor x que verifique F (x) = p, por lo que el programa dar´ los dos valores de x para los cuales F (x) est´ m´ s cerca de p. Por ejemplo, para la a a a distribuci´ n Binomial B(3, 0 5) con p = 0 7 se obtienen los valores x = 1 y x = 2. Si almacenamos el resultado en o una constante, Minitab opta por el mayor (en este caso, x = 2). 3.5. Ejercicios propuestos 3.1. Utilizando procedimientos similares a los explicados en la secci´ n 3.1 haz los siguientes ejercicios: o a) Determina, de manera aproximada, la probabilidad de superar 310 kilos en un viaje en ascensor el que suben 4 personas cuyos pesos proceden de una distribuci´ n Normal de media 75 kilos y desviaci´ n t´pica o o ı 7 kilos. b) Determina, de manera aproximada, la probabilidad de que un sistema, que consta de 3 componentes conec- tados en serie, siga funcionando despu´ s de 800 horas si cada componente tiene tiempo de funcionamiento e exponencial de media 1000 horas e independiente de las dem´ s. a c) Aproxima las probabilidades de la suma de dos dados. Representa gr´ ficamente los resultados mediante a un diagrama de barras. ¿Cu´ l es el valor m´ s probable de la suma de dos dados? a a d) Calcula el valor aproximado de la probabilidad de que al lanzar 100 monedas al aire se obtengan entre 45 y 55 caras. Basta con que generes una muestra (de tama˜ o grande, por ejemplo, 10000) de la correspondiente n distribuci´ n Binomial y despu´ s crees una muestra de Bernoulli a partir de la expresi´ n l´ gica 45 ≤ X ≤ o e o o 55, donde X es la columna que contiene la muestra de la distribuci´ n Binomial. o e) Si seleccionamos al azar dos n´ meros comprendidos entre 0 y 1, calcula el valor aproximado de las pro- u babilidades siguientes: I) La suma de ambos sea menor que 1 (la probabilidad exacta es 0, 5). II ) El producto de ambos sea menor que 0, 25 (la probabilidad exacta es 0, 25(1 + ln 4) 0, 5965). 3.2. Utilizando procedimientos similares a los explicados en la secci´ n 3.2 haz los siguientes ejercicios: o a) Representa, en una misma gr´ fica, distintas funciones de densidad de distribuciones chi-cuadrado de Pear- a son con n grados de libertad; por ejemplo, para n = 5, n = 10, n = 30 y n = 50. Los valores del eje horizontal pueden ser: 1, 2, · · · , 120. Comprueba que cuanto m´ s aumenta n, m´ s se aproxima dicha curva a a de densidad a la del modelo Normal. b) Sea X una variable aleatoria Binomial de par´ metros n = 100 y p = 0 01 y sea Y una variable aleatoria a de Poisson de media λ = 1. Comprueba (mediante una representaci´ n gr´ fica conjunta) que las funciones o a de probabilidad de ambas variables son casi iguales. 3.3. Utilizando procedimientos similares a los explicados en la secci´ n 3.3 haz los siguientes ejercicios: o a) Sea X una variable aleatoria que sigue una distribuci´ n de Poisson de par´ metro 8, X ≡ P(λ = 8). o a Calcula: I) P (X = 8). II ) P (X < 6). III ) P (X > 7). IV ) P (X ≤ 5). V) P (X ≥ 9). VI ) P (5 < X < 15). VII ) P (5 ≤ X ≤ 15). b) Sea X una variable aleatoria que sigue una distribuci´ n Chi-cuadrado con n grados de libertad, X ≡ χ2 . o n Calcula: I) Para n = 12, P (X < 4 8). II ) Para n = 20, P (X > 4 8).
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 22 III )Para n = 4, P (3 3 < X < 9 4). IV ) Para n = 25, P (|X| > 1 5). V ) Para n = 14, P (|X| < 4 5). c) Sea X una variable aleatoria Chi-cuadrado de Pearson con 200 grados de libertad y sea Y una variable aleatoria Normal de media 200 y desviaci´ n t´pica 20. Comprueba (mediante una representaci´ n gr´ fica o ı o a conjunta) que las funciones de distribuci´ n de ambas variables son muy parecidas. o d) Sea X una variable aleatoria t de Student con 120 grados de libertad y sea Y una variable aleatoria Normal de media 0 y desviaci´ n t´pica 1 008439. Comprueba (mediante una representaci´ n gr´ fica conjunta) que o ı o a las funciones de distribuci´ n de ambas variables son muy similares. o 3.4. Utilizando procedimientos similares a los explicados en la secci´ n 3.4 determina el valor de k que verifica las o siguientes igualdades: a) P (X < k) = 0 9. b) P (X > k) = 0 05. c) P (|X| < k) = 0 98. d) P (|X| ≥ k) = 0 1. para cada uno de tres casos siguientes: I) Si X es una variable aleatoria que sigue una distribuci´ n Normal Est´ ndar. o a II ) Si X es una variable aleatoria que sigue una distribuci´ n Chi-cuadrado de Pearson con 50 grados de o libertad. III ) Si X es una variable aleatoria que sigue una distribuci´ n Exponencial de media igual a 2. o
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 23 4. Introducci´ n a la inferencia estad´stica o ı 4.1. Generaci´ n de muestras aleatorias o Podemos generar datos de distribuciones usuales utilizando la opci´ n Calc⇒Random Data, como ya se ha visto o en anteriores pr´ cticas. Esta opci´ n permite generar una muestra aleatoria de cualquier columna de la hoja de datos a o actualmente abierta o de una de las distribuciones de probabilidad que aparecen listadas. Por ejemplo, vamos a crear una nueva hoja de datos que llevar´ por nombre Muestras.mtw y, a continuaci´ n, vamos a crear una columna, en dicha a o hoja de datos, que lleve por nombre 1000 datos de chi50 y que contenga 1000 datos aleatorios de una distribuci´ n chi- o cuadrado de Pearson con 50 grados de libertad (χ2 ). 50 Para generar una muestra aleatoria de una columna de la hoja de datos actualmente abierta utilizamos la opci´ n o Calc⇒Random Data⇒Sample from Columns. En esta opci´ n se supone que todos los datos de la columna tienen la misma o probabilidad de ocurrir. Podemos elegir entre el muestreo con reemplazamiento o el muestreo sin reemplazamiento. Por ejemplo, vamos a generar una muestra aleatoria de tama˜ o 30, sin reemplazamiento, de los datos de la columna n 1000 datos de chi50. Para ello, seleccionamos la opci´ n Calc⇒Random Data⇒Sample from Columns. En Number of rows to o sample tecleamos 30; en el recuadro siguiente (From columns) seleccionamos, de la lista de variables que tenemos a la izquierda, la columna 1000 datos de chi50; en Store samples in tecleamos el nombre de la columna que contendr´ la a ´ muestra solicitada, por ejemplo, submuestra de chi50 y, por ultimo, dejamos desactivada la opci´ n Sample with replacement. o Hay que tener en cuenta que si el muestreo es sin reemplazamiento, el tama˜ o muestral no puede superar al n´ mero n u de datos de la columna de la cual procede la muestra. Para generar muestras aleatorias de modelos discretos no incluidos en la lista de distribuciones utilizamos la opci´ n o Calc⇒Random Data⇒Discrete, como ya hemos visto en la pr´ ctica anterior. Recordemos que previamente a la utilizaci´ n a o de esta opci´ n tenemos que introducir en una columna los valores que toma la variable, xi , y en otra columna los o resultados de sus probabilidades, p(xi ) = P (X = xi ). Para generar muestras aleatorias de modelos continuos no incluidos en la lista de distribuciones tenemos dos alternativas, que se explican en los dos sub-apartados siguientes. 4.1.1. M´ todo de la transformada inversa e Para utilizar este m´ todo debemos conocer la expresi´ n expl´cita de la funci´ n de distribuci´ n, F (t), de la variable e o ı o o aleatoria continua. El procedimiento es el siguiente: I) En una columna, que podemos denominar u, se genera una muestra aleatoria, del tama˜ o deseado (n), procedente n de una distribuci´ n uniforme en el intervalo (0, 1); es decir, se generan n n´ meros aleatorios comprendidos entre o u 0 y 1: u1 , . . . , un . Estos ser´ n resultados aleatorios de la funci´ n de distribuci´ n de la variable aleatoria continua. a o o II ) Se determina la expresi´ n expl´cita de la inversa de la funci´ n distribuci´ n, F −1 (u). o ı o o III ) Mediante la opci´ n Calc⇒Calculator, se calculan los resultados de la inversa de la funci´ n de distribuci´ n para o o o todos y cada uno de los valores de la columna u; es decir, se calculan F −1 (u1 ), . . . , F −1 (un ). A la nueva columna la podemos denominar F-1(u) y es la que contiene la muestra del modelo continuo deseado. Como ejemplo, vamos a generar una muestra aleatoria de tama˜ o 100 de la variable aleatoria continua cuya funci´ n n o de distribuci´ n es F (x) = x3 para 0 < x < 1, F (x) = 0 si x ≤ 0 y F (x) = 1 si x ≥ 1. Recordemos que la o √ funci´ n inversa de F (x) = x3 es F −1 (u) = 3 u = u1/3 que, en el recuadro de la expresi´ n num´ rica de la opci´ n o o e o Calc⇒Calculator se escribe (empleando la lista de variables y la calculadora de dicho cuadro de di´ logo) de la siguiente a manera: ’u’**(1/3). 4.1.2. M´ todo del rechazo e Para utilizar este m´ todo debemos conocer la expresi´ n expl´cita de la funci´ n de densidad, f (x), de la variable e o ı o aleatoria continua. El procedimiento es el siguiente: 1) Debemos disponer de un intervalo (a, b) tal que f (x) = 0 para todo x ∈ (a, b). Y debemos calcular una cota superior de f (x); es decir, un valor k que verifique f (x) ≤ k para todo x ∈ (a, b). 2) En una columna, que podemos denominar x, se genera una muestra aleatoria de tama˜ o grande (al menos del n doble del tama˜ o final deseado), procedente de una distribuci´ n uniforme en el intervalo (a, b). n o 3) En otra columna, que podemos denominar y, se genera una muestra aleatoria, del mismo tama˜ o que en el paso n anterior, procedente de una distribuci´ n uniforme en el intervalo (0, k). o 4) Mediante la opci´ n Calc⇒Calculator, se calculan los resultados de la funci´ n de densidad para todos los valores o o de la columna x. A la nueva columna la podemos denominar f(x).
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 24 5) Mediante la opci´ n Calc⇒Calculator, obtenemos una columna que nos indique si y < f (x). La nueva columna o (de ceros y unos) la denominaremos y<f(x). Recordemos que un uno significa que s´ se cumple la condici´ n y un ı o cero significa que no se cumple la condici´ n. o 6) Mediante la opci´ n Data⇒Unstack Columns separamos los valores de la columna x para los cuales se verifique la o condici´ n y < f (x). La columna que contenga estos valores constituir´ la muestra deseada. o a Este m´ todo presenta la desventaja de que no puede elegirse el tama˜ o muestral resultante. e n Como ejemplo, vamos a generar una muestra aleatoria de tama˜ o grande (no muy lejano de 100) de una variable n 6 aleatoria continua cuya funci´ n de densidad es f (x) = 5 (x + x2 ) si 0 < x < 1 y cero en el resto. Podemos tener en o cuenta las siguientes indicaciones: Podemos partir de un tama˜ o muestral inicial de 250. n El valor de a es 0 y el valor de b es 1. La cota superior de la anterior funci´ n de densidad se alcanza en x = 1 pues dicha funci´ n es creciente. Por o o tanto: 6 6 12 k = cota superior = f (1) = (1 + 12 ) = · 2 = = 2, 4 5 5 5 6 En el recuadro Expression de la opci´ n Calc⇒Calculator la funci´ n f (x) = 5 (x + x2 ) se escribe (empleando la o o lista de variables y la calculadora de dicho cuadro de di´ logo) de la siguiente manera: (6/5)*(’x’+’x’**2). a La opci´ n Data⇒Unstack Columns se utiliza, en este ejemplo de la siguiente forma: En Unstack the data in seleccio- o namos, de la lista de variables de la izquierda, la variable ’x’. En Using subscripts in seleccionamos la columna que contiene la procedencia de cada dato, que es ’y<f(x)’. En Store unstacked data activamos la opci´ n After last column o in use y dejamos activado Name the columns containing the unstaked data. 4.2. Funci´ n de distribuci´ n emp´rica o o ı La distribuci´ n emp´rica asociada a una muestra X1 , . . . , Xn de tama˜ o n es la distribuci´ n de tipo discreto que o ı n o 1 toma dichos valores con probabilidad igual a n para cada uno de ellos. Su correspondiente funci´ n de distribuci´ n o o es un estad´stico que se aproxima a la verdadera funci´ n de distribuci´ n de la que proceden los datos de la muestra y ı o o se llama funci´ n de distribuci´ n emp´rica. Para obtener la funci´ n de distribuci´ n emp´rica se procede de la siguiente o o ı o o ı manera: I) Se ordenan los valores de la muestra de forma creciente con la opci´ n Data⇒Sort, almacenando los nuevos o resultados en una columna que podemos denominar muestra ordenada. II ) Mediante la opci´ n Calc⇒Make Patterned Data⇒Simple Set of Numbers se crea una nueva columna, que podemos o 1 2 3 denominar F emp´rica, con los valores n , n , n , . . . , 1. Esta columna contiene los resultados de la funci´ n de ı o distribuci´ n emp´rica. o ı Para comprobar que, efectivamente, la funci´ n de distribuci´ n emp´rica se aproxima a la funci´ n de distribuci´ n o o ı o o de la que proceden los datos de la muestra, se puede hacer lo siguiente: 1) Mediante la opci´ n Calc⇒Probability Distributions se calculan los resultados de la funci´ n de distribuci´ n real para o o o todos y cada uno de los valores de la columna muestra ordenada. A esta nueva columna la podemos denominar F real. 2) Se hace una representaci´ n gr´ fica conjunta de las dos funciones de distribuci´ n. Para ello, se selecciona la o a o opci´ n Graph⇒Scatterplot⇒With connect line. En el cuadro de di´ logo que aparece, junto al 1 en Y variables se- o a leccionamos la columna F emp´rica y en X variables seleccionamos la columna muestra ordenada; junto al 2 en Y ı variables seleccionamos la columna F real y en X variables seleccionamos otra vez la columna muestra ordenada. Luego pulsamos Multiple graphs y en el cuadro de di´ logo resultante activamos la opci´ n Overlay on the same graph. a o Recordemos que es conveniente quitar los puntos dejando s´ lo la l´nea de conexi´ n: para ello, se hace doble clic o ı o sobre la curva; en Attributes⇒Symbols se marca la opci´ n Custom, y en Type se selecciona None (buscando hacia o arriba). Como ejemplo, podemos determinar la funci´ n de distribuci´ n emp´rica de la muestra contenida en la columna o o ı 1000 datos de chi50 (1000 datos aleatorios de una distribuci´ n chi-cuadrado de Pearson con 50 grados de libertad), o comprobando despu´ s que, efectivamente, la funci´ n de distribuci´ n emp´rica se aproxima a la funci´ n de distribuci´ n e o o ı o o de la que proceden los datos de la muestra (mediante la representaci´ n gr´ fica conjunta de las dos funciones de o a distribuci´ n). Para ello, seguiremos los pasos anteriores y tendremos en cuenta las siguientes indicaciones: o
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 25 La opci´ n Data⇒Sort se utiliza de la siguiente manera: En Sort column seleccionamos, de la lista de variables de o la izquierda, la variable ’1000 datos de chi50’. En By column volvemos a seleccionar la misma columna, ’1000 datos de chi50’. Dejamos desactivada la opci´ n Descending para que la ordenaci´ n se haga de menor a mayor. En Store o o sorted data in activamos Column of current worksheet y lo rellenamos con el nombre que queremos ponerle a dicha columna: ’muestra ordenada’. Para generar una lista con los siguientes 1000 n´ meros: 1/1000 = 0 001, 2/1000 = 0 002, 3/1000 = 0 003, . . ., u 1, seguiremos los siguientes pasos: Seleccionamos la opci´ n Calc⇒Make Patterned Data⇒Simple Set of Numbers. o En Store patterned data in tecleamos ’F emp´rica’. En From first value tecleamos 0,001, en To last value escribimos 1 y ı en In steps of ponemos 0,001. Para calcular los resultados de la funci´ n de distribuci´ n real para todos y cada uno de los valores de la columna o o ’muestra ordenada’ hacemos lo siguiente: Se selecciona la opci´ n Calc⇒Probability Distributions⇒Chi-Square. En el o cuadro de di´ logo resultante activamos Cumulative Probability. Dejamos lo que sale por defecto en Noncentrality a parameter. En Degrees of freedom ponemos 50. En Input column seleccionamos la columna ’muestra ordenada’ y en Optional storage tecleamos el nombre de la nueva columna, ’F real’. 4.3. Aproximaci´ n a la distribuci´ n en el muestreo o o En general, dado un estad´stico T basado en una muestra X1 , . . . , Xn de alg´ n modelo de probabilidad, no es ı u sencillo encontrar la distribuci´ n exacta de T (distribuci´ n en el muestreo). Por esta raz´ n, conviene disponer de o o o m´ todos aproximados para calcularla. Para ello, se puede obtener una muestra de valores de T , T1 , . . . , Tm , generando e m muestras de tama˜ o n del modelo elegido y calculando T para cada una de ellas. La distribuci´ n emp´rica de la n o ı muestra T1 , . . . , Tm es una aproximaci´ n de la distribuci´ n de T . Este procedimiento se conoce con el nombre de o o M´ todo de Montecarlo. Esta aproximaci´ n ser´ mejor cuanto mayor sea m. e o a Por ejemplo, vamos a aproximar la distribuci´ n en el muestreo del estad´stico media muestral, X = X1 +X2 para el o ı 2 modelo normal est´ ndar. Antes de hacer este ejemplo, es conveniente que en la ventana de sesi´ n (Session) aparezcan a o los comandos que va a usar Minitab en las opciones que vamos a utilizar, para lo cual activamos la ventana de sesi´ n y luego seleccionamos Editor⇒Enable Commands. Como Minitab calcula estad´sticos por filas, para aproximar la o ı distribuci´ n en el muestreo del estad´stico T = X1 +X2 en el modelo normal est´ ndar vamos a proceder de la siguiente o ı 2 a manera: 1) Mediante la opci´ n Calc⇒Random Data⇒Normal generamos, en una columna que denominaremos X1, una mues- o tra aleatoria de tama˜ o 1000 procedente de una distribuci´ n normal est´ ndar. n o a 2) Generamos, en una columna que denominaremos X2, otra muestra aleatoria de tama˜ o 1000 procedente de una n distribuci´ n normal est´ ndar, otra vez mediante la opci´ n Calc⇒Random Data⇒Normal. o a o 3) Mediante la opci´ n Calc⇒Row Statistics calculamos la media (Mean) por filas de X1 y X2; es decir, determinamos o la expresi´ n X1 +X2 , y guardamos los resultados en una nueva columna que denominaremos media. Esta columna o 2 contiene una muestra de tama˜ o 1000 del estad´stico media muestral, X. n ı 4) Con la opci´ n Data⇒Sort ordenamos los valores de la muestra contenida en la columna media de forma creciente, o almacenando los nuevos resultados en una columna que denominaremos media ordenada. 5) Mediante la opci´ n Calc⇒Make Patterned Data⇒Simple Set of Numbers creamos una nueva columna, que denomi- o naremos F empirica media, con los valores 1/1000 = 0 001, 2/1000 = 0 002, 3/1000 = 0 003, . . . , 1. Esta columna contiene los resultados de la funci´ n de distribuci´ n emp´rica del estad´stico X. o o ı ı 6) Mediante la opci´ n Calc⇒Probability Distributions calculamos los resultados de la funci´ n de distribuci´ n real o o o de la media muestral X para todos y cada uno de los valores de la columna media ordenada. Recordemos que, en este caso, el estad´stico media muestral, X, sigue una distribuci´ n normal de media 0 y desviaci´ n t´pica ı o o ı 1 √ = 0, 70710678. A la nueva columna la denominaremos F media real. 2 7) Hacemos una representaci´ n gr´ fica conjunta de las dos funciones de distribuci´ n. o a o Podemos ver, en la ventana de sesi´ n, que los comandos de Minitab necesarios para hacer este proceso han sido o los siguientes:
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 26 MTB > Name c12 "x1" MTB > Random 100 ’x1’; SUBC> Normal 0,0 1,0. MTB > Name c13 "x2" MTB > Random 100 ’x2’; SUBC> Normal 0,0 1,0. MTB > Name c14 "media" MTB > RMean ’x1’ ’x2’ ’media’. MTB > Name c15 "media ordenada" MTB > Sort ’media’ ’media ordenada’; SUBC> By ’media’. MTB > Name c16 "F empirica media" MTB > Set ’F empirica media’ DATA> 1( 0,01 : 1 / 0,01 )1 DATA> End. MTB > Name c17 "F media real" MTB > CDF ’media ordenada’ ’F media real’; SUBC> Normal 0,0 0,70710678. MTB > Plot ’F empirica media’*’media ordenada’ ’F media real’*’media ordenada’; SUBC> Symbol; SUBC> Connect; SUBC> Overlay. 4.3.1. Utilizaci´ n de macros para la aproximaci´ n a la distribuci´ n en el muestreo o o o Minitab contiene un lenguaje de programaci´ n sencillo pero potente, que permite elaborar una gran variedad o de programas hechos a la medida del usuario, como ya se indic´ en la primera pr´ ctica. Estos programas se llaman o a macros. Las instrucciones de las macros pueden contener los t´picos controladores de flujo que se usan en los lenguajes ı de programaci´ n; por ejemplo: o IF/ELSEIF/ELSE/ENDIF permite ejecutar diferentes bloques de comandos dependiendo de una condici´ n l´ gica. o o DO/ENDDO permite repetir un bloque de comandos una serie de veces. WHILE/ENDWHILE repite un bloque de comandos mientras la expresi´ n l´ gica es cierta. o o NEXT transfiere el control del flujo a la condici´ n l´ gica en las sentencias DO y WHILE. o o BREAK sale forzosamente de los bucles DO y WHILE. GOTO/MLABEL permite saltar desde la l´nea GOTO p hasta la l´nea MLABEL p saliendo de cualquier bucle, condici´ n, etc. El ı ı o n´ mero p no puede ser una variable, debe ser un d´gito. u ı EXIT termina la macro y devuelve el control a la ventana de sesi´ n de Minitab. o Existen macros globales y macros locales. Las macros locales tienen m´ s posibilidades que las globales. La es- a tructura de una macro local es la siguiente: MACRO Es obligatorio ponerlo [Identificador] Nombre + variables de entrada y salida # Comentarios Minitab no lee las l´neas que empiezan por # ı [Declaraci´n de variables] o L´neas distintas para las constantes, vectores y matrices ı [Cuerpo de la macro] ENDMACRO Es obligatorio ponerlo Veamos c´ mo automatizar la aproximaci´ n a la distribuci´ n en el muestreo del estad´stico media muestral, T = o o o ı X1 +···+Xn n , para el modelo normal est´ ndar, aprovechando las l´neas de comandos de Minitab que aparec´an en la a ı ı ventana de sesi´ n. Hay que tener en cuenta que antes calcul´ bamos 2 (n = 2) muestras de tama˜ o m (porque era m´ s o a n a r´ pido as´) pero ahora lo vamos a hacer tal y como lo hemos explicado en el M´ todo de Montecarlo; es decir, vamos a a ı e generar m muestras de tama˜ o n del modelo normal est´ ndar. Los pasos ser´ n los siguientes: n a a 1) Activamos la ventana de sesi´ n y en el men´ Editor activamos Output Editable y desactivamos Enable Commands. o u Borramos todo el contenido de la ventana de sesi´ n, incluso la fecha. o 2) Tecleamos lo siguiente: MACRO SimulaMedia m n y z # Simula la funci´n de distribuci´n de la media muestral de una variable normal est´ndar o o a # m: constante que indica el n´mero de muestras u
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 27 # n: constante que indica el tama~o de las muestras n # y: columna donde se van almacenando las medias y donde luego se ordenan de menor a mayor # z: columna que almacena la funci´n de distribuci´n emp´rica de la media muestral o o ı MCONSTANT m n i t k # Declaraci´n de las constantes o MCOLUMN x y z # Declaraci´n de las variables (vectores) o # i: constante que indica el n´mero de iteraci´n u o # t: constante auxiliar que va almacenando cada componente del vector y # k: constante auxiliar que va almacenando cada componente del vector z # x: columna donde se almacenan las muestras aleatorias DO i=1:m Random n x; Normal 0 1. Mean x t Let y(i)=t ENDDO Sort y y; By y. Let k=1/m Set z k:1/k End Plot z*y; Connect. ENDMACRO 3) Ahora tenemos que grabar el texto del macro en la carpeta C:Archivos de programaMinitab 15EnglishMacros, pero como la versi´ n 15 de Minitab proh´be que se grabe una ventana de sesi´ n en una carpeta de archivos de o ı o Minitab entonces vamos a grabar el macro en el escritorio (por ejemplo) y luego lo copiaremos en la carpeta mencionada. Para ello, seleccionamos la opci´ n File⇒Save Session Windows As y grabamos en el escritorio el o texto de la ventana de sesi´ n y le ponemos el nombre SimulaMedia.mac. Luego copiamos dicho archivo en la o carpeta C:Archivos de programaMinitab 15EnglishMacros. Para aproximar la distribuci´ n en el muestreo del estad´stico X = X1 +X2 del modelo normal est´ ndar pode- o ı 2 a mos hacer lo siguiente. Con la ventana de sesi´ n activada, en el men´ Editor activamos Enable Commands y teclea- o u mos %SimulaMedia 100 2 c1 c2. Esto genera 100 muestras aleatorias de tama˜ o 2 del modelo normal est´ ndar, n a guarda los resultados de las 100 medias muestrales (ordenadas de menor a mayor) en la columna c1; guarda los resul- tados de la funci´ n de distribuci´ n emp´rica de la media muestral en la columna c2, y representa gr´ ficamente dicha o o ı a funci´ n de distribuci´ n emp´rica, que ser´ la aproximaci´ n a la funci´ n de distribuci´ n en el muestreo del estad´stico o o ı a o o o ı X1 +X2 2 . Aumentando el valor de m (en es caso m = 100) se obtiene una mejor aproximaci´ n. o 4.4. Ejercicios propuestos 4.1. Abrir el fichero de datos (Worksheet) Acid.mtw que se encuentra, como ya sabemos, en el directorio C:Archivos de programaMinitab 15EnglishSample sData. Extraer una muestra aleatoria de tama˜ o 10 (con reemplazamiento) n de los datos de la columna Acid1. Calcular la media y la cuasi-desviaci´ n t´pica de dicha muestra. o ı 4.2. Mediante el m´ todo de la transformada inversa, generar una muestra aleatoria (de tama˜ o 1000) del modelo e n cuya funci´ n de distribuci´ n es F (x) = x − (x2 /4) si 0 < x < 2, F (x) = 0 si x ≤ 0 y F (x) = 1 si x ≥ 2. La o o √ inversa de la funci´ n F (x) = x − (x2 /4) para 0 < x < 2 es F −1 (y) = 2 − 2 1 − y para 0 < y < 1. o 4.3. Mediante el m´ todo del rechazo, generar una muestra aleatoria (de un tama˜ o no lejano de 100) del modelo e n cuya funci´ n de densidad es f (x) = x3 /20 si 1 < x < 3 (y cero en el resto). ¿Qu´ tama˜ o muestral ha salido? o e n 4.4. Obtener una muestra aleatoria de tama˜ o 1000 del modelo F de Snedecor con 20 grados de libertad en el n numerador y 40 grados de libertad en el denominador y comparar (mediante una representaci´ n gr´ fica conjunta) o a la funci´ n de distribuci´ n emp´rica con la funci´ n de distribuci´ n te´ rica. o o ı o o o 4.5. Aproximar (mediante la creaci´ n de una macro) la distribuci´ n en el muestreo del estad´stico T = X1 +X2 −X3 o o ı para el modelo normal est´ ndar. Aproximar el valor de la varianza de dicho estad´stico. Comparar (mediante a ı una representaci´ n gr´ fica conjunta) la funci´ n de distribuci´ n emp´rica y la funci´ n de distribuci´ n te´ rica de o a o o ı o o o T . Recordemos que T sigue un modelo normal de media 0 y varianza 3.
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 28 5. Inferencia param´ trica y no param´ trica e e £   ¢ Observaci´ n ¡ Si denotamos el nivel de significaci´ n por α, en todos los contrastes de hip´ tesis que realicemos con Minitab, el valor en el o o o que nos tenemos que fijar es el nivel cr´tico o p-valor, ya que: ı Si p-valor > α ⇒ aceptamos la hip´ tesis nula, H0 . o Si p-valor < α ⇒ rechazamos la hip´ tesis nula y, por tanto, aceptamos la hip´ tesis alternativa, H1 . o o 5.1. Contraste sobre una media. Intervalo de confianza para la media El contraste de hip´ tesis sobre una media sirve para tomar decisiones acerca del verdadero valor poblacional de la o media de una variable aleatoria. 5.1.1. Contraste sobre una media cuando la desviaci´ n t´pica poblacional es conocida o ı Esta t´ cnica es v´ lida solamente si la poblaci´ n es Normal o el tama˜ o muestral, n, es grande (en la pr´ ctica, e a o n a n ≥ 30). Para hacer este test hay que seleccionar Stat ⇒Basic Statistics ⇒1-Sample Z. Esta opci´ n tambi´ n nos da el intervalo o e de confianza para la media poblacional, µ. Para realizar los ejemplos de contrastes param´ tricos vamos a utilizar el fichero de datos (Worksheet) Pulse.mtw, e por lo cual lo abriremos ahora. Recordemos que su contenido fue recogido en una clase de 92 alumnos. De cada estudiante se observ´ su pulso antes de correr, Pulse1; su pulso despu´ s de correr, Pulse2; si corri´ o no, Ran (1=S´ corri´ , o e o ı o 2=No corri´ ); si es fumador o no, Smokes (1=S´ fuma, 2=No fuma); el sexo, Sex (1=Hombre, 2=Mujer); su altura en o ı pulgadas, Height; su peso en libras, Weight; y su nivel de actividad f´sica, Activity (1=Baja, 2=Media, 3=Alta). ı Vamos a suponer que conocemos el valor de la desviaci´ n t´pica poblacional de la variable Pulse1 (pulso antes de o ı correr), σ = 10 pulsaciones por minuto. Comprobemos si se puede aceptar, con un nivel de significaci´ n de α = 0 05, o que el pulso medio poblacional antes de correr es mayor de 70. Si µ denota la media poblacional de la variable X=Pulso antes de correr, el contraste que tenemos que hacer es H0 : µ ≤ 70 frente a H1 : µ > 70. Como es un test sobre una media poblacional con desviaci´ n t´pica poblacional conocida y como el tama˜ o mues- o ı n tral es grande (n = 92), podemos utilizar la opci´ n Stat ⇒Basic Statistics ⇒1-Sample Z. En Samples in columns se o selecciona, de la lista de variables de la izquierda, la columna o columnas para las cuales se va a realizar este tipo de contraste; en nuestro caso se selecciona Pulse1. Dejamos desactivada la opci´ n Summarized data pues aqu´ se pondr´an o ı ı los resultados del tama˜ o muestral y de la media muestral. En Standard deviation se teclea el valor de la desviaci´ n t´pica n o ı poblacional, σ, que es 10. Se activa Perform hypothesis test y en Hypothesized mean se especifica el valor, µ0 , con el que se compara la media poblacional, que es 70. Si pulsamos el bot´ n Options nos aparece un nuevo cuadro de di´ logo con o a las siguientes opciones: Confidence level: Por defecto se muestra un intervalo de confianza al 95 % para la media poblacional µ. Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de confianza. En nuestro caso, podemos dejar lo que aparece por defecto, es decir, 95. Alternative: Aqu´ se especifica cu´ l es la hip´ tesis alternativa: less than significa que la hip´ tesis alternativa es H1 : ı a o o µ < µ0 , not equal significa que la hip´ tesis alternativa es H1 : µ = µ0 y greater than significa que la hip´ tesis o o alternativa es H1 : µ > µ0 . Tengamos en cuenta que con la opci´ n less than el intervalo de confianza para la o media ser´ del tipo (−∞, b), con la opci´ n not equal el intervalo de confianza para la media ser´ del tipo (a, b) y a o a con la opci´ n greater than el intervalo de confianza para la media ser´ del tipo (a, +∞). En nuestro caso, tenemos o a que seleccionar greater than ya que la hip´ tesis alternativa es H1 : µ > 70. o Podemos comprobar, en la ventana de sesi´ n, que el p-valor es 0 003, claramente menor que el nivel de signifi- o caci´ n, α = 0 05. En consecuencia, rechazamos la hip´ tesis nula y, por tanto, aceptamos la hip´ tesis alternativa; es o o o decir, aceptamos que la media poblacional de la variable Pulse 1 es mayor de 70 pulsaciones por minuto. El intervalo de confianza al 95 % para la media poblacional, asociado a este contraste de hip´ tesis, es (71 15, +∞). o 5.1.2. Contraste sobre una media cuando la desviaci´ n t´pica poblacional es desconocida o ı Igual que en el apartado anterior, esta t´ cnica es v´ lida solamente cuando la poblaci´ n es Normal o el tama˜ o e a o n muestral, n, es grande (en la pr´ ctica, n ≥ 30). a Para realizar este contraste param´ trico hay que seleccionar Stat ⇒Basic Statistics ⇒1-Sample t. La manera de e utilizar esta nueva opci´ n es la misma que en el apartado anterior. o Vamos a aplicar este m´ todo para comprobar si se puede aceptar, con un nivel de significaci´ n de α = 0 05, que e o el pulso medio poblacional antes de correr es igual a 71 pulsaciones por minuto. Lo que queremos comprobar es si
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 29 la media poblacional de la variable Pulse1 es igual a 71 pulsaciones por minuto, suponiendo ahora desconocida la desviaci´ n t´pica poblacional (lo cual es cierto). Si µ denota la media poblacional de la variable Pulse1, el contraste o ı que tenemos que hacer es H0 : µ = 71 frente a H1 : µ = 71. Podemos comprobar, en la ventana de sesi´ n, que el p-valor es 0 107, claramente mayor que el nivel de significa- o ci´ n, α = 0 05, por lo que podemos aceptar la hip´ tesis nula; es decir, aceptamos que la media poblacional del n´ mero o o u de pulsaciones por minuto antes de correr es igual a 71. El intervalo de confianza al 95 % para la media poblacional de dicha variable es (70 59, 75 15). 5.2. Comparaci´ n de dos varianzas poblacionales o En el apartado siguiente vamos a estudiar el problema de la comparaci´ n de dos medias poblacionales en el caso o en que observemos dos variables aleatorias Normales (una en cada poblaci´ n), suponiendo que se han extra´do dos o ı muestras aleatorias (una de cada poblaci´ n) independientes. Veremos en dicho apartado que necesitamos saber si las o varianzas poblacionales (que ser´ n desconocidas) son iguales o distintas. Por este motivo estudiamos ahora el contraste a de comparaci´ n de varianzas en el caso en que desconozcamos los valores de las medias poblacionales. o Este procedimiento estad´stico solamente es v´ lido cuando las dos poblaciones son Normales. Para comprobarlo ı a podemos realizar, previamente, un test no param´ trico de Normalidad (v´ ase la secci´ n 5.4). e e o Para realizar este test param´ trico hay que seleccionar Stat ⇒Basic Statistics ⇒2 Variances. e Ejemplo 1. Comprobemos si se puede aceptar, con un nivel de significaci´ n de α = 0 05, que la varianza poblacional o del pulso de los hombres antes de correr es igual a la varianza poblacional del pulso de las mujeres antes de correr. Lo que se quiere es comparar la varianza poblacional de la variable Pulse1 para los grupos en los que la variable 2 2 2 2 Sex vale 1 (Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H0 : σ1 = σ2 frente a H1 : σ1 = σ2 , siendo X1 la variable Pulso de los hombres antes de correr y X2 la variable Pulso de las mujeres antes de correr. Como no hay relaci´ n alguna entre el grupo de hombres y el grupo de mujeres, podemos afirmar que las muestras o son independientes. Por tanto, nos encontramos ante un contraste de comparaci´ n de dos varianzas poblacionales, con o muestras independientes y medias poblacionales desconocidas. Para hacer este contraste se selecciona Stat ⇒Basic Statistics ⇒2 Variances. Se deja activada la opci´ n Samples in one o column; en Samples se selecciona, de la lista de variables de la izquierda, la columna Pulse1; en Subscripts se selecciona, de la lista de la izquierda, la columna Sex; dejamos desactivada la opci´ n Summarized data pues aqu´ se pondr´an los o ı ı resultados de los tama˜ os muestrales y de las varianzas muestrales. Si pulsamos el bot´ n Options nos aparece un nuevo n o cuadro de di´ logo con las siguientes opciones: a Confidence level: Por defecto se muestra un intervalo de confianza al 95 % para la diferencia de desviaciones t´picas ı poblacionales, σ1 − σ2 . Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de confianza. En nuestro ejemplo, podemos dejar lo que aparece por defecto, es decir, 95. Title: Aqu´ se puede escribir un t´tulo para el resultado del contraste. En nuestro ejemplo, podemos dejarlo en blanco. ı ı Como resultado de este contraste obtenemos una nueva ventana que contiene dos gr´ ficos y los resultados de dos a tests de hip´ tesis sobre comparaci´ n de dos varianzas (el test F de Snedecor y el test de Levene). Podemos comprobar o o que el p-valor para el test F de Snedecor es 0 299; claramente mayor que el nivel de significaci´ n, α = 0 05, por lo o que podemos aceptar la hip´ tesis nula; es decir, podemos aceptar que la varianza poblacional del pulso de los hombres o antes de correr es igual a la varianza poblacional del pulso de las mujeres antes de correr. Con el test de Levene tambi´ n e aceptar´amos la hip´ tesis nula pues el p-valor es igual a 0 148. ı o Ejemplo 2. Comprobemos, ahora, si se puede aceptar, con un nivel de significaci´ n de α = 0 05, que la varianza o poblacional del pulso de los hombres despu´ s de correr es igual a la varianza poblacional del pulso de las mujeres e despu´ s de correr. Lo que se quiere es comparar la varianza poblacional de la variable Pulse2 para los grupos en los e 2 2 que la variable Sex vale 1 (Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H0 : σ1 = σ2 frente a 2 2 H1 : σ1 = σ2 , siendo X1 la variable Pulso de los hombres despu´ s de correr y X2 la variable Pulso de las mujeres e despu´ s de correr. e Para hacer este contraste se selecciona Stat ⇒Basic Statistics ⇒2 Variances. Se deja activada la opci´ n Samples in one o column; en Samples se selecciona, de la lista de variables de la izquierda, la columna Pulse2; en Subscripts se selecciona, de la lista de la izquierda, la columna Sex; y dejamos desactivada la opci´ n Summarized data. o Como resultado de este contraste obtenemos una nueva ventana, en la que se puede comprobar que el p-valor para el test F de Snedecor es 0 003, claramente menor que el nivel de significaci´ n, α = 0 05, por lo que tenemos que o rechazar la hip´ tesis nula y, por tanto, aceptar que la varianza poblacional del pulso de los hombres despu´ s de correr o e es distinta de la varianza poblacional del pulso de las mujeres despu´ s de correr. Con el test de Levene llegamos a la e misma conclusi´ n pues el p-valor es igual a 0 011. o
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 30 5.3. Comparaci´ n de dos medias poblacionales o En general, un contraste para decidir sobre la hip´ tesis nula H0 : µ1 = µ2 frente a la hip´ tesis alternativa H1 : o o µ1 = µ2 es bastante frecuente y constituye uno de los primeros objetivos de cualquier investigador que se inicia en estad´stica. Los m´ todos de resoluci´ n del problema var´an seg´ n las muestras sean independientes o apareadas, y ı e o ı u seg´ n las varianzas poblacionales sean conocidas o desconocidas. Dentro del caso en que las varianzas poblacionales u sean desconocidas, el m´ todo depende de si son iguales o distintas. El caso de muestras independientes y varianzas e poblacionales conocidas no se puede hacer con Minitab. Trataremos, a continuaci´ n, el resto de los casos. o 5.3.1. Comparaci´ n de dos medias con muestras independientes y varianzas poblacionales desconocidas pero o iguales Este procedimiento solamente es v´ lido cuando las dos poblaciones son Normales o los dos tama˜ os muestrales a n son grandes (en la pr´ ctica n1 , n2 ≥ 30). a Para realizar este test param´ trico hay que seleccionar Stat ⇒Basic Statistics ⇒2-Sample t. e Comprobemos si se puede aceptar, con un nivel de significaci´ n de α = 0 05, que el pulso medio poblacional de o los hombres antes de correr es igual al pulso medio poblacional de las mujeres antes de correr. Lo que se quiere es comparar la media poblacional de la variable Pulse1 para los grupos en los que la variable Sex vale 1 (Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H0 : µ1 = µ2 frente a H1 : µ1 = µ2 , siendo X1 la variable Pulso de los hombres antes de correr y X2 la variable Pulso de las mujeres antes de correr. En el Ejemplo 1 de la secci´ n o 5.2 hemos comprobado que se puede aceptar que la varianza poblacional del pulso de los hombres antes de correr es igual a la varianza poblacional del pulso de las mujeres antes de correr. Por tanto, nos encontramos ante un contraste de comparaci´ n de dos medias poblacionales, con muestras independientes y varianzas poblacionales desconocidas o pero iguales. Aunque las variables aleatorias X1 y X2 no sean normales, se puede aplicar este contraste debido a que los tama˜ os muestrales son suficientemente grandes: n1 = 57 y n2 = 35. n Para hacer este contraste se selecciona Stat ⇒Basic Statistics ⇒2-Sample t. Se deja activada la opci´ n Samples in one o column; en Samples se selecciona, de la lista de variables de la izquierda, la columna Pulse1; en Subscripts se selecciona, de la lista de la izquierda, la columna Sex; dejamos desactivada la opci´ n Summarized data pues aqu´ se pondr´an los o ı ı resultados de los tama˜ os muestrales y de las medias muestrales; y activamos Assume equal variances ya que hemos n comprobado que las varianzas poblacionales son desconocidas pero iguales. Si pulsamos el bot´ n Options nos aparece o un nuevo cuadro de di´ logo con las siguientes opciones: a Confidence level: Por defecto se muestra un intervalo de confianza al 95 % para la diferencia de medias poblacionales, µ1 − µ2 . Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de confianza. En nuestro ejemplo, podemos dejar lo que aparece por defecto, es decir, 95. Test difference: Aqu´ se pone el valor con el que se compara la diferencia de medias poblacionales, µ0 . La hip´ tesis ı o nula H0 : µ1 = µ2 es equivalente a H0 : µ1 − µ2 = 0, por lo que el valor con el que se compara la diferencia de medias poblacionales, en este ejemplo, es cero; es decir, µ0 = 0. En consecuencia, nosotros dejamos lo que aparece por defecto (cero). Alternative: Aqu´ se especifica cu´ l es la hip´ tesis alternativa: less than significa que la hip´ tesis alternativa es H1 : ı a o o µ1 − µ2 < µ0 , not equal significa que la hip´ tesis alternativa es H1 : µ1 − µ2 = µ0 y greater than significa o que la hip´ tesis alternativa es H1 : µ1 − µ2 > µ0 . Tengamos en cuenta que con la opci´ n less than el intervalo o o de confianza para µ1 − µ2 ser´ del tipo (−∞, b), con la opci´ n not equal el intervalo de confianza ser´ del tipo a o a (a, b) y con la opci´ n greater than el intervalo de confianza ser´ del tipo (a, +∞). En nuestro ejemplo, tenemos o a que dejar lo que aparece por defecto, que es not equal, ya que la hip´ tesis alternativa es H1 : µ1 = µ2 , que es o equivalente a H1 : µ1 − µ2 = 0. Podemos comprobar, en la ventana de sesi´ n, que el p-valor es 0 006, claramente menor que el nivel de significa- o ci´ n, α = 0 05, por lo que debemos rechazar la hip´ tesis nula y, por tanto, aceptar la hip´ tesis alternativa. Aceptamos o o o que el pulso medio poblacional de los hombres antes de correr es distinto del pulso medio poblacional de las mujeres antes de correr. Como la media muestral del pulso de las mujeres (76 9) es mayor que la media muestral del pulso de los hombres (70 42) podr´amos, incluso, aceptar que la media poblacional del pulso de las mujeres es mayor que la me- ı dia poblacional del pulso de los hombres. El intervalo de confianza al 95 % para la diferencia de medias poblacionales, µ1 − µ2 , es (−10 96, −1 91). 5.3.2. Comparaci´ n de dos medias con muestras independientes y varianzas poblacionales desconocidas y o distintas Igual que en el apartado anterior, este procedimiento solamente es v´ lido cuando las dos poblaciones son Normales a o los dos tama˜ os muestrales son grandes (en la pr´ ctica n1 , n2 ≥ 30). n a
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 31 Para realizar este test param´ trico hay que seleccionar, igual que antes, Stat ⇒Basic Statistics ⇒2-Sample t. Hay que e rellenar el cuadro de di´ logo de manera similar al apartado anterior, con la salvedad de que, en este caso, hay que a desactivar la opci´ n Assume equal variances. o Comprobemos si se puede aceptar, con un nivel de significaci´ n de α = 0 05, que el pulso medio poblacional o de los hombres despu´ s de correr es igual al pulso medio poblacional de las mujeres despu´ s de correr. Queremos e e comparar la media poblacional de la variable Pulse2 para los grupos en los que la variable Sex vale 1 (Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H0 : µ1 = µ2 frente a H1 : µ1 = µ2 , siendo X1 la variable Pulso de los hombres despu´ s de correr y X2 la variable Pulso de las mujeres despu´ s de correr. En el Ejemplo 2 de la e e secci´ n 5.2 hemos comprobado que se puede aceptar que la varianza poblacional del pulso de los hombres despu´ s o e de correr es distinta de la varianza poblacional del pulso de las mujeres despu´ s de correr. Por tanto, nos encontramos e ante un contraste de comparaci´ n de dos medias poblacionales, con muestras independientes y varianzas poblacionales o desconocidas y distintas. Aunque las variables aleatorias X1 y X2 no sean normales, se puede aplicar este contraste debido a que los tama˜ os muestrales son suficientemente grandes: n1 = 57 y n2 = 35. n Para hacer el contraste se selecciona Stat ⇒Basic Statistics ⇒2-Sample t. Se deja activada la opci´ n Samples in one o column; en Samples se selecciona, de la lista de variables de la izquierda, la columna Pulse2; en Subscripts se selecciona, de la lista de la izquierda, la columna Sex; dejamos desactivadas las opciones Summarized data y Assume equal variances. Si pulsamos el bot´ n Options nos aparece un cuadro de di´ logo similar al ejemplo anterior. En este cuadro de di´ logo o a a dejamos lo que aparece por defecto (Confidence level: 95, Test difference: 0, Alternative: not equal). Podemos comprobar, en la ventana de sesi´ n, que el p-valor es 0 007, claramente menor que el nivel de significa- o ci´ n, α = 0 05, por lo que debemos rechazar la hip´ tesis nula y, por tanto, aceptar la hip´ tesis alternativa. Aceptamos o o o que el pulso medio poblacional de los hombres despu´ s de correr es distinto del pulso medio poblacional de las muje- e res despu´ s de correr. Como la media muestral del pulso de las mujeres despu´ s de correr (86 7) es mayor que la media e e muestral del pulso de los hombres despu´ s de correr (75 9) podr´amos, incluso, aceptar que la media poblacional del e ı pulso de las mujeres despu´ s de correr es mayor que la media poblacional del pulso de los hombres despu´ s de correr. e e El intervalo de confianza al 95 % para la diferencia de medias poblacionales, µ1 − µ2 , es (−18 65, −3 02). 5.3.3. Comparaci´ n de dos medias con muestras relacionadas (apareadas o asociadas) o Este procedimiento solamente es v´ lido cuando la variable aleatoria diferencia, D = X1 − X2 , es Normal o el a tama˜ o muestral com´ n, n, es grande (en la pr´ ctica, n ≥ 30). n u a Para realizar este test param´ trico hay que seleccionar Stat ⇒Basic Statistics ⇒Paired t. e Comprobemos si se puede aceptar, con un nivel de significaci´ n de α = 0 05, que el pulso medio poblacional antes o de correr es igual al pulso medio poblacional despu´ s de correr. Lo que se quiere es comparar la media poblacional de e la variable Pulse1 con la media poblacional de la variable Pulse2. El contraste que tenemos que hacer es H0 : µ1 = µ2 frente a H1 : µ1 = µ2 , siendo X1 la variable Pulso antes de correr y X2 la variable Pulso despu´ s de correr. Como e las dos variables est´ n observadas en los mismos individuos, podemos afirmar que las muestras est´ n relacionadas; a a es decir, son apareadas o asociadas. Por tanto, nos encontramos ante un contraste de comparaci´ n de dos medias o poblacionales con muestras apareadas. Aunque las variables aleatorias X1 y X2 no sean normales, se puede aplicar este contraste debido a que los tama˜ os muestrales son suficientemente grandes: n1 = n2 = n = 92. n Para hacer este contraste se selecciona Stat ⇒Basic Statistics ⇒Paired t. Se deja activada la opci´ n Samples in columns; o en First sample se selecciona, de la lista de variables de la izquierda, la columna Pulse1; en Second sample se selecciona, de la lista de variables de la izquierda, la columna Pulse2; y dejamos desactivada la opci´ n Summarized data (differences) o pues aqu´ se pondr´an los resultados del tama˜ o muestral y de la media muestral de las diferencias. Si pulsamos el ı ı n bot´ n Options nos aparece un cuadro de di´ logo similar al de la opci´ n anterior (2-Sample t⇒Options). En este cuadro o a o de di´ logo dejamos lo que aparece por defecto (Confidence level: 95, Test difference: 0, Alternative: not equal). a Podemos comprobar, en la ventana de sesi´ n, que el p-valor es igual a 0 000, claramente menor que el nivel de o significaci´ n, α = 0 05, por lo que debemos rechazar la hip´ tesis nula y, por tanto, aceptar la hip´ tesis alternativa. o o o Aceptamos, por tanto, que el pulso medio poblacional antes de correr es distinto del pulso medio poblacional despu´ s e de correr. Como la media muestral del pulso despu´ s de correr (80 00) es mayor que la media muestral del pulso e antes de correr (72 87) podr´amos, incluso, aceptar que la media poblacional del pulso despu´ s de correr es mayor ı e que la media poblacional del pulso antes de correr. El intervalo de confianza al 95 % para la diferencia de medias poblacionales, en este caso, es (−9 92, −4 34). 5.4. Contrastes no param´ tricos de bondad de ajuste e Los contrastes de hip´ tesis presentados en las secciones anteriores coinciden en dos caracter´sticas: permiten con- o ı trastar hip´ tesis referidas a alg´ n par´ metro y requieren del cumplimiento de determinadas condiciones sobre las o u a
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 32 poblaciones originales de las que se extraen los datos (generalmente normalidad). Estas dos caracter´sticas combina- ı das permiten agrupar a este tipo de contrastes en una gran familia de t´ cnicas denominadas contrastes param´ tricos. e e Pero en muchas ocasiones no se cumplen las condiciones necesarias para poder hacer un contraste param´ trico, por lo e que se tienen que aplicar otras t´ cnicas que llamaremos contrastes no param´ tricos. e e En los contrastes no param´ tricos de bondad de ajuste se trata de determinar, a trav´ s de una muestra, si una e e variable aleatoria se ajusta bien a una cierta distribuci´ n dada de antemano (Normal, Exponencial, Weibull, etc.). o 5.4.1. Gr´ ficos probabil´sticos a ı Este m´ todo de bondad de ajuste se basa en el hecho de que si una muestra, X1 , . . . , Xn , proviene de un modelo e con funci´ n de distribuci´ n F , entonces F (X1 ), . . . , F (Xn ) es una muestra del modelo Uniforme en el intervalo o o (0, 1), por lo que, una vez ordenada, los valores esperados de dicha muestra ser´ n: 1/n, 2/n, · · · , 1. De esta forma, a si representamos gr´ ficamente los F (Xi ) ordenados frente a los i/n, el gr´ fico debe ser aproximadamente una l´nea a a ı recta. En algunos casos esta linealidad se mantiene aunque se estimen los par´ metros desconocidos de F . Es decir, el a ajuste ser´ bueno si la gr´ fica es aproximadamente una recta. Este tipo de t´ cnicas dan s´ lo una aproximaci´ n gr´ fica, a a e o o a aunque, en algunos casos, van acompa˜ ados de alg´ n contraste de bondad de ajuste. Si es as´, aceptaremos la hip´ tesis n u ı o nula de ajuste a la distribuci´ n te´ rica si el p-valor es mayor que el nivel de significaci´ n (que usualmente es α = 0 05). o o o Para realizar los gr´ ficos probabil´sticos se selecciona Graph⇒Probability Plot. a ı Vamos a utilizar este m´ todo para comprobar si las variables aleatorias Pulse1 (pulso antes de correr) y Pulse2 e (pulso despu´ s de correr) pueden considerarse Normales (cuando est´ n observadas en toda la poblaci´ n). Para ello, e a o seleccionamos Graph⇒Probability Plot⇒Single. En Graph variables seleccionamos, de la lista de variables de la izquierda, las columnas Pulse1 y Pulse2; pulsamos en Distribution y, en el cuadro de di´ logo resultante, dejamos lo que est´ por a a defecto (Normal) y no rellenamos la opci´ n Historical Parameters ya que no sabemos los resultados de las estimaciones o de la media y de la desviaci´ n t´pica poblacionales. Nos aparecen dos gr´ ficos, uno para cada una de las variables se- o ı a leccionadas. Adem´ s, vemos que aparecen, en la parte superior derecha de las representaciones gr´ ficas, los resultados a a de un contraste de normalidad; concretamente, el test de Anderson-Darling. Podemos ver que el gr´ fico probabil´stico de la variable Pulse1 no se aproxima mucho a una recta. Adem´ s, el a ı a p-valor del test de normalidad es igual a 0 013. Si consideramos un nivel de significaci´ n de α = 0 01 entonces el o p-valor es levemente mayor que α, por lo que podr´amos aceptar la hip´ tesis nula de que la variable Pulse1 es Normal. ı o Pero si consideramos un nivel de significaci´ n de α = 0 05 (que es lo usual) entonces el p-valor es menor que α, por o lo que no podemos aceptar la hip´ tesis nula de que la variable Pulse1 es Normal. o Por otra parte, podemos observar que el gr´ fico probabil´stico de la variable Pulse2 tampoco se aproxima mucho a a ı una recta. Adem´ s, el p-valor del test de normalidad es, en este caso, menor que 0 005. Ahora, tanto si consideramos a un nivel de significaci´ n de α = 0 01 como si consideramos un nivel de significaci´ n de α = 0 05 resulta que el o o p-valor es menor que α, por lo que no podemos aceptar la hip´ tesis nula de que la variable Pulse2 es Normal. Se o puede comprobar que si hacemos el mismo procedimiento para comprobar si Pulse1 sigue un modelo Lognormal, el gr´ fico resultante se aproxima a una recta y adem´ s, el p-valor es 0 159, claramente mayor que los habituales niveles a a de significaci´ n (0 05 o 0 01), por lo que podr´amos aceptar que Pulse1 sigue un modelo Lognormal. o ´ ı 5.4.2. Contraste de normalidad Si queremos ajustar a un modelo Normal, en Minitab podemos usar la opci´ n Stat⇒Basic Statistics⇒Normality Test. o Vamos a utilizar esta opci´ n para comprobar si se puede aceptar que la variable Height (altura, en pulgadas) puede o considerarse Normal. Para ello usamos Stat⇒Basic Statistics⇒Normality Test; en Variable seleccionamos, de la lista de variables de la izquierda, la columna Height; en Percentile Lines dejamos lo que est´ activado por defecto, que es None; a en Tests for Normality podemos activar uno de los siguientes tres tests: Anderson-Darling, Ryan-Joiner o Kolmogorov- ´ Smirnov. Por ejemplo, vamos a activar el ultimo test, Kolmogorov-Smirnov. El recuadro Title vamos a dejarlo en blanco. El resultado es un gr´ fico probabil´stico en el cual tambi´ n est´ indicado el p-valor, que es igual a 0 086. Este p-valor a ı e a es mayor que los habituales niveles de significaci´ n (0 05 o 0 01), por lo que podr´amos aceptar que la variable Height o ´ ı sigue un modelo Normal. 5.5. Contraste chi-cuadrado sobre independencia de dos variables ´ Hasta ahora se ha considerado una unica variable cuyas observaciones en una poblaci´ n daban lugar a ciertas o hip´ tesis convenientes de contrastar mediante un test. Sin embargo, es frecuente el problema de estudiar conjuntamente o dos variables en los mismos individuos y preguntarse si existe o no alg´ n tipo de relaci´ n entre ellas, es decir, si los u o valores que tome una de ellas van a condicionar de alg´ n modo los valores de la otra. El m´ todo estad´stico para u e ı
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 33 responder a tal pregunta var´a con el tipo de variables implicadas. Cuando ambas son cualitativas, la t´ cnica oportuna es ı e el test chi-cuadrado de Pearson; aunque este m´ todo tambi´ n se puede emplear cuando las variables son cuantitativas. e e En Minitab hay dos formas de aplicar este contraste, seg´ n tengamos recogidos los datos: u 5.5.1. Datos en una tabla de doble entrada Si, en la hoja de datos (Worksheet), los datos est´ n recogidos en una tabla de doble entrada, se utiliza la opci´ n a o Stat⇒Tables⇒Chi-Square Test (Two-Way Table in Worksheet). Vamos a hacer el siguiente ejemplo: Se desea averiguar si existe asociaci´ n entre el sexo y el uso de la biblioteca. o A tal efecto, se tom´ una muestra aleatoria de 30 mujeres y 30 hombres y se les clasific´ como en la tabla siguiente: o o usuarios no usuarios hombres 6 24 mujeres 14 16 Para realizar este contraste con Minitab, en primer lugar tenemos que introducir la tabla de doble entrada an- terior en una nueva hoja de datos (Worksheet) que podemos denominar Contrastes.mtw. Los datos tienen que ser introducidos tal como se muestra a continuaci´ n: o Ahora seleccionamos Stat⇒Tables⇒Chi-Square Test (Two-Way Table in Worksheet); en Columns containing the table elegi- mos, de la lista de variables de la izquierda, las columnas C1 y C2; es decir, SI y NO, y pulsamos en OK. En la ventana de sesi´ n podemos ver el resultado del p-valor, que es 0 028. Si consideramos un nivel de significaci´ n de α = 0 01 o o entonces el p-valor es mayor que α, por lo que podr´amos aceptar la hip´ tesis nula de independencia. Pero si consi- ı o deramos un nivel de significaci´ n de α = 0 05 (que es lo usual) entonces el p-valor es menor que α, por lo que no o podr´amos aceptar la hip´ tesis nula de independencia, aceptando entonces que existe relaci´ n entre el sexo y el uso de ı o o la biblioteca. 5.5.2. Datos en dos (o tres) columnas Si en la hoja de datos estos se encuentran recogidos en dos (o tres) columnas, se utiliza Stat⇒Tables⇒Cross ´ Tabulation and Chi-Square. Ejemplo 1. Vamos a hacer el mismo ejemplo que en el subapartado anterior, pero con la opci´ n Stat⇒Tables⇒Cross o Tabulation and Chi-Square. Para ello, en primer lugar tenemos que introducir los datos (en la Worksheet Contrastes.mtw) tal como se muestra a continuaci´ n:o Como se puede observar, hemos creado tres nuevas columnas que contienen todas las combinaciones posibles de resultados de las dos variables y sus frecuencias conjuntas: la columna sexo tiene por resultados H (hombre) y M (mujer); la columna usuario tiene por resultados SI (la persona s´ es usuaria de la biblioteca) y NO (la persona no es usuaria de la ı biblioteca); la columna frecuencia contiene las frecuencias conjuntas de todas y cada una de las combinaciones posibles de los resultados de las dos variables mencionadas. Ahora seleccionamos Stat⇒Tables⇒Cross Tabulation and Chi-Square. En Categorical variables se tienen que especificar las variables para las cuales vamos a hacer el test de independencia; en nuestro ejemplo, en For rows tenemos que seleccionar, de la lista de variables de la izquierda, la columna sexo; en For columns tenemos que seleccionar, de la lista de variables de la izquierda, la columna usuario. El recuadro For layers (capas) lo dejamos en blanco. En Frequencies are in tenemos que seleccionar, de la lista de variables de la izquierda, la columna frecuencia. Pulsamos el bot´ n Chi-Square o y, en el cuadro de di´ logo resultante, dejamos activada la opci´ n Chi-Square Analysis y pulsamos OK. Dejamos lo que a o aparece por defecto en el cuadro de di´ logo inicial y pulsamos en OK. En la ventana de sesi´ n podemos comprobar a o
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 34 que los resultados del contraste de hip´ tesis son los mismos que antes (p-valor=0 028) y, por tanto, las conclusiones, o obviamente, son las mismas. Ejemplo 2. Para utilizar la opci´ n Stat⇒Tables⇒Cross Tabulation and Chi-Square no es necesario que tengamos una o columna con las frecuencias de cada combinaci´ n de resultados de dos variables; tambi´ n se puede utilizar dicha o e opci´ n si solamente tenemos dos columnas que contienen los resultados de una variable bidimensional, (xi , yi ), pero o es necesario que las dos variables sean de tipo discreto, con pocos resultados distintos; de lo contrario no se puede aplicar este contraste. Para hacer un ejemplo de este caso, vamos a activar la hoja de datos Pulse.mtw. Vamos a comprobar si existe dependencia entre las variables Smokes (la persona es fumadora o no) y Sex (sexo). La hip´ tesis nula es H0 : no o existe relaci´ n entre el sexo y ser fumador o no. Como vemos, en la Worksheet los datos est´ n recogidos en dos o a columnas (no en tres). Para realizar este contraste seleccionamos Stat⇒Tables⇒Cross Tabulation and Chi-Square; en For rows seleccionamos la columna Smokes; en For columns seleccionamos la columna Sex; no escribimos nada en For layers (capas) y tampoco escribimos nada en Frequencies are in. Pulsamos el bot´ n Chi-Square y, en el cuadro de di´ logo o a resultante, activamos Chi-Square Analysis y Expected cell counts, y pulsamos OK. Finalmente, volvemos a pulsar OK en el cuadro de di´ logo inicial. En la ventana de sesi´ n nos aparece lo siguiente: a o Como podemos observar, aparecen las frecuencias observadas y las frecuencias esperadas bajo la hip´ tesis nula. o ´ Podemos comprobar que estas ultimas frecuencias son todas mayores o iguales que 5, por lo cual se puede aplicar esta t´ cnica (el test chi-cuadrado de independencia). Recordemos que este contraste solamente puede aplicarse si todas las e frecuencias esperadas bajo la hip´ tesis nula son mayores o iguales que 1 y, adem´ s, todas las frecuencias esperadas o a bajo la hip´ tesis nula son mayores o iguales que 5, salvo para un 20 % como m´ ximo. Si no ocurriera esto, Minitab o a nos lo especificar´a en la ventana de sesi´ n, y por tanto el test quedar´a invalidado. Como podemos ver, tenemos ı o ı el resultado del estad´stico χ2 y el resultado del p-valor, que es 0 216, claramente mayor que los habituales niveles ı de significaci´ n (0 05 o 0 01), por lo que podemos aceptar la hip´ tesis nula de independencia de las dos variables o ´ o aleatorias; es decir, podemos aceptar que no existe relaci´ n entre el sexo y ser fumador o no. o 5.6. Contraste chi-cuadrado sobre homogeneidad de dos poblaciones En dos poblaciones distintas observamos una misma variable aleatoria, y extraemos una muestra aleatoria simple de cada poblaci´ n para comprobar si un determinado par´ metro poblacional (µ, σ 2 , . . .) toma id´ ntico valor en ambas o a e poblaciones. Pero como no se cumplen las condiciones necesarias para aplicar un contraste de hip´ tesis param´ trico o e con dos muestras, entonces vamos a realizar un contraste de hip´ tesis no param´ trico. Sin embargo, ocurre que la o e hip´ tesis nula no se puede enunciar como la igualdad de los dos par´ metros poblacionales, sino que ahora debemos o a comprobar si la variable aleatoria tiene la misma distribuci´ n en las dos poblaciones. Esta hip´ tesis se resume diciendo o o que las dos poblaciones son homog´ neas. e El contraste chi-cuadrado de homogeneidad es el mismo que el test chi-cuadrado de independencia de variables explicado en el apartado anterior, aunque la hip´ tesis nula no sea la misma. o Para realizar este tipo de contraste en Minitab se utilizan las mismas dos opciones explicadas en el apartado anterior; es decir, si los datos est´ n recogidos en una tabla de doble entrada, se utiliza Stat⇒Tables⇒Chi-Square Test (Two- a Way Table in Worksheet), y si los datos se encuentran recogidos en dos (o tres) columnas, se utiliza Stat⇒Tables⇒Cross Tabulation and Chi-Square.
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 35 Vamos a hacer el siguiente ejemplo: Se selecciona una muestra aleatoria simple de estudiantes de inform´ tica de a universidades privadas y otra de universidades p´ blicas, y se les somete a una prueba de rendimiento, calificada de u 0 a 500. Los resultados son los expuestos en la tabla siguiente. Deseamos saber si la distribuci´ n en la prueba de o rendimiento es la misma para universidades privadas que para universidades p´ blicas. u [0,275] [276,350] [351,425] [426,500] privadas 6 14 17 9 p´ blicas u 30 32 17 3 El objetivo es contrastar la hip´ tesis H0 : la distribuci´ n de los resultados de la prueba es la misma en las universidades o o p´ blicas que en las privadas, frente a la hip´ tesis H1 : la distribuci´ n no es la misma. u o o Para realizar este contraste de homogeneidad con Minitab, en primer lugar tenemos que introducir la tabla de doble entrada anterior (en la hoja de datos Contrastes.mtw). Los datos tienen que ser introducidos tal como se muestra a continuaci´ n: o Ahora seleccionamos Stat⇒Tables⇒Chi-Square Test (Two-Way Table in Worksheet); en Columns containing the table elegi- mos, de la lista de variables de la izquierda, las columnas privadas y publicas; y pulsamos en OK. En la ventana de sesi´ n ´ o podemos ver lo siguiente: Recordemos, otra vez, que este contraste solamente puede aplicarse si todas las frecuencias esperadas bajo la hip´ tesis nula son mayores o iguales que 1 y, adem´ s, todas las frecuencias esperadas bajo la hip´ tesis nula son o a o mayores o iguales que 5, salvo para un 20 % como m´ ximo. El 20 % de las casillas ser´a el 20 % de 8, que es 1 6. a ı Como solamente una de las frecuencias esperadas es menor que 5, podemos aplicar esta t´ cnica. El resultado del p- e valor es 0 001, claramente menor que los habituales niveles de significaci´ n (0 05 o 0 01) por lo que rechazamos la o ´ hip´ tesis nula y, en consecuencia, aceptamos que la distribuci´ n de los resultados de la prueba no es la misma en las o o universidades p´ blicas que en las privadas. u 5.7. Ejercicios propuestos 5.1. En una muestra aleatoria simple de 15 individuos que consultan bases de datos, el tiempo (en minutos) que est´ n a utilizando el ordenador para realizar esta tarea es: 22 13 17 14 15 18 19 14 17 20 21 13 15 18 17 Comprobar, mediante el contraste de Kolmogorov-Smirnov, si la variable aleatoria X=Tiempo empleado en consultar bases de datos por ordenador es Normal. Si es posible, responder a la siguiente pregunta: ¿se puede aceptar que la media poblacional del tiempo empleado en consultar bases de datos por ordenador es mayor que 15 minutos?
  • Dra. Josefa Mar´n Fern´ ndez • Manual de MINITAB 15 para Windows ı a 36 5.2. Los siguientes datos corresponden a las edades de una muestra de 10 personas que visitan un centro de c´ lculo. a 19 24 83 30 17 23 33 19 68 56 Mediante la realizaci´ n de un gr´ fico probabil´stico, comprobar si la variable aleatoria X=Edad de las personas o a ı que visitan el centro de c´ lculo es Normal. Si es posible, responder a la siguiente pregunta: ¿se puede aceptar a que la media poblacional de la edad de las personas que visitan el centro de c´ lculo es menor que 40 a˜ os? a n 5.3. En la siguiente tabla aparece el n´ mero de pr´ stamos diarios realizados por dos bibliotecas durante 20 d´as u e ı elegidos al azar. Biblioteca A 65 74 47 81 71 52 74 81 48 68 Biblioteca B 57 63 38 70 68 46 63 75 39 57 ¿Se puede aceptar, con un nivel de significaci´ n de 0’05, que la varianza poblacional del n´ mero de pr´ sta- o u e mos diarios realizados por la biblioteca A es igual a la varianza poblacional del n´ mero de pr´ stamos diarios u e realizados por la biblioteca B? ¿Se puede aceptar, con un nivel de significaci´ n de 0’05, que el n´ mero me- o u dio poblacional de pr´ stamos diarios realizados por la biblioteca A es igual al n´ mero medio poblacional de e u pr´ stamos diarios realizados por la biblioteca B? e 5.4. Se les pregunt´ a 30 matrimonios, elegidos al azar, el n´ mero de veces que hab´an ido a alguna biblioteca en los o u ı ´ tres ultimos meses, siendo los resultados los siguientes: Hombre Mujer Hombre Mujer Hombre Mujer 12 8 8 10 25 14 30 11 14 15 12 16 10 12 20 12 8 10 20 16 13 19 23 20 15 10 11 6 14 17 14 9 7 7 8 10 11 12 6 7 12 23 9 10 8 6 27 10 7 7 15 20 32 27 5 4 42 35 14 18 ¿Podemos afirmar que hay diferencia significativa entre los hombres y las mujeres de los matrimonios en cuanto al n´ mero medio de veces que van a la biblioteca? u 5.5. Se desea saber la opini´ n del profesorado en relaci´ n con un proyecto por el cual todos los libros comprados o o por los departamentos se llevar´an a una biblioteca general universitaria ubicada en un edificio independiente de ı las facultades. Para ello, se selecciona una muestra aleatoria de 370 profesores de distintos rangos acad´ micos e (A.E.U.= Ayudante de Escuela Universitaria, A.F.= Ayudante de Facultad, T.E.U.=Titular de Escuela Universi- taria, T.U.= Titular de Universidad, C.U.= Catedr´ tico de Universidad). Los resultados se reflejan en la siguiente a tabla: A.E.U. A.F. T.E.U. T.U. C.U. en contra 30 55 95 14 12 indiferente 15 20 17 8 10 a favor 10 25 38 8 13 Determinar si existe relaci´ n entre el rango acad´ mico y la opini´ n de los profesores respecto del proyecto o e o mencionado. 5.6. Los siguientes datos corresponden al n´ mero de libros cient´ficos y de ficci´ n prestados a adultos residentes en u ı o ´ dos areas de una determinada ciudad: cient´ficos ı de ficci´ n o ´ area A 870 745 ´ area B 304 251 ´ ¿Hay diferencia significativa entre las dos areas respecto del tipo de libro demandado?