• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content

Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Like this document? Why not share!

Bioestadistica, Daniels.

on

  • 9,851 views

 

Statistics

Views

Total Views
9,851
Views on SlideShare
9,851
Embed Views
0

Actions

Likes
1
Downloads
359
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Bioestadistica, Daniels. Bioestadistica, Daniels. Document Transcript

    • 1.1 INTRODUCCION 1.4 MUESTREO ALEATORIO SIMPLE1.2 ALGUNOS CONCEPTOS BAsICOS 1.5 COMPUTADORAS Y ANIDSISBIOESTADiSTICO1.3 MEDIDAS Y ESCALAS DEMEDICION 1.6 RESUMEN1.1 INTRODUCCIONCon frecuencia se recuerda el hecho de que se vive en la edad de la informacion,asi que, oportunamente, este libro es acerca de informacion: como se obtiene,como se analiza y como se interpreta. A la informacion que trata este libro se Iellama datos, los cuales estan disponibles en forma de niimeros.Los objetivos de este libro sondos: 1) ensefiar al estudiante a organizar yresumir datos; 2) ensefiarle como tomar decisiones respedo a un gran volumende datos al examinar solo una pequefia parte de ellos. Los conceptos y metodosnecesarios para lograr el primer objetivo se presentan bajo el titulo de estadisticadescnptiva, y el segundo objetivo se logra mediante el estudio de 10 que se conacecomo estadistica inforencial. En este capitulo se estudia la estadistica descriptiva.Del capitulo 2 al 5 se estudian los t6picos que conforman la base de la inferenciaestadistica, y en elresto dellibro se expone la estadistica inferenciaLPuesto que.este libro esta disefiado para personas que se preparan parainiciar 0 que ya cursan una carrera en el area de ciencias de la salud, el material ylos ejercicios reflejan los problema:s y actividades que tales personasprobablemente encontraran en la practica de su trabajo.1
    • 2 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA1.2 ALGUNOS CONCEPTOS BAsICOSAI igual que en todos los campos del aprendizaje, la estadistica tiene su propiovocabulario. AIgunas de las expresiones frecuehtes en el estudio de la estadfsticason nuevas para quienes no han tenido relaci6n previa con el tema. Otros terminos,aunque parecen familiares, probablemente tienen significados especializados quedifieren del significado asociado por costumbre a dichos terminos. Los siguientesterminos se utilizan extensamente en todo ellibro.Datos Los datos son la materia prima de la estadfstica. Para este prop6sito sepuede definir a los datos como numeros. Las dos clases de numeros que se utilizanen estadfstica son numeros que resultan de la toma --en el sentido literal del termi­no- de medidas, y aquellos que resultan del proceso de conteo. Por ejemplo, cuandouna enfermera pesa al paciente 0 Ie toma 1a temperatura, se obtiene 1a medida queconsiste en una cantidad, por ejemp10 150 libras 0 100 grados Farenheit. Un tipobastante diferente de numeros se obtiene cuando el administrador de un hospitalcuenta el numero de pacientes, quiza 20, dados de alta en un dfa. Cada uno de lostres numeros es un dato (datum) y los tres juntos son datos.Estadlstica En la seccion anterior esta imp1icito el significado de la estadfstica.Pero, para ser mas precisos, se puede decir que la estadistica es la disciplina que seocupa de 1) la recoleccion, organizacion, resumen y analisis de datos, y 2) la obtenci6n deinferencias a partir de un volumen de datos cuando se examina solo una parte de estos.Las personas que realizan estas actividades estadfsticas deben estar prepara­das para interpretar y comunuar los resultados a los demas, tal como 10 demande lasituaci6n. En terminos sencillos, se puede decir que los datos son numeros, que losnumeros contienen informacion y que el prop6sito de la estadistica es investigar yevaluar 1a naturaleza y el significado de esa informacion.Fuente de datos EI desempeflo de actividades estadfsticas obedece a la necesi­dad de responder a diversas preguntas. Por ejemplo, los medicos probablementequieran encontrar respuestas a preguntas con respettoa la utilidad relativa de pro­cedimientos de tratamiento alternativos. Losadministradores posiblemente quie­ran responder a preguntas respecto a areas de interescomo el espfritu de equipo delos empleados 0 el uso de las instalaciones. Cuando se determina que el enfoqueadecuado para buscar una respuesta a la pregunta requiere del uso de la estadistica,se comienza a investigar datos apropiados que sirvan como la materia prima en lainvestigacion. Estos datos norrnalmente esrnn disponibles de una 0 mas fuentescomo las siguientes: .1. Registros rutinarios. Es diffcil imaginar algun tipo de organizaci6n queno lleve registros de 1aoperacion diaria de sus actividades. Mientras que losregisttosclinicos de un hospital, por ejemplo, contienen una inmensa canti­dad de informaci6nacerca de los pacientes, los registros contables de lainstituci6n contienen datos en abundancia sobre las actividades financierasdel hospital. Cuando surge la necesidad de tener datos, se debe buscar prime­ro en los registros que se llevan rutinariamente.
    • 31.2 ALGUNOS CONCEPTOS BAsICOS2. Encuesta. 8i los datos necesarios para contestar una pregunta no estandisponibles a partir de los registros almacenados de manera rutinaria, lafuente 16gica puede ser una encuesta. Por ejemplo, suponga que el admi­nistrador de una cHnica desea obtener informacion respecto a Ia forma detransporte que utiliza el paciente para visitar la cHnica. 8i Ia forma de admi­sion no contiene una pregunta acerca del transporte, es posible llevar acabo una encuesta entre los pacientes para obtener esta informacion.3. Experimentacion. Frecuentemente, los datos necesarios para responder unapregunta estan disponibles solo como resultado de la experimentacion. Talvez una enfermera quiere saber que estrategia es mejor para maximizar elseguimiento de las indicaciones medicas por parte del paciente. La enferme­ra podria conducir un experimento en el que se prueben diferentes estrate­gias para motivar el cumplimiento del tratamiento en distintos pacientes. Laevaluacion subsecuente de las respuestas a las diversas estrategias puede ca­pacitar a Ia enfermera para decidir cual es mas efectiva.4. Fuentes externas. Los datos necesarios para responder a una pregunta pue­den ya existir como informes publicados, bancos de datos disponibles 0 en laliteratura de investigacion. En otras palabras, uno se puede encontrar conque alguien mas ya planteo la misma pregunta y que la respuesta que obtuvopuede aplicarse a la situacion presente.Bioestadistlca Las herramientas de Ia estadistica se utilizan en muchos cam­pos: negocios,ensefianza, psicologia, agricultura y economia, por mencionar algu­nos cuantos. Cuando los datos que se analizan proceden de las ciencias biologicas 0medicas, se utiliza el termino bioestadistica para diferenciar esta aplicacion particu­lar de las herramientas y conceptos de la estadfstica general. Dicha aplicacion es laque se estudia en este libra.Variable Una caracteristica se clasifica como variable si, tal como se observa, seencuentra que esta toma diferentes valores en diferentes personas, lugares 0 cosas.Esto se hace por la simple razon de que la caracterfstica no es la misma cuando seobserva en diferentes sujetos. Algunos ejemplos de variables son: presion sanguf­nea diastolica, frecuencia cardiaca, estaturas de varones adultos, peso de ninos enedad preescoIar, y la edad de los pacientes que consultan a un dentista.Variable cumditativa Una variable cuantitativa es aquella que puede medirse enla forma usual. 8e pueden obtener mediciones de la estatura de los varones adultos, delpeso de los ninos en edad preescolar, y de la edad de los pacientes que consultan a undentista. Estos son ejemplos de variables cuantitativas. Las mediciones hechas sobre va­riables cuantitativas conllevan informaci6n respecto a cantidad.Variable cualitatlva Algunas caracteristicas no pueden ser medidas como laestatura, el peso y la edad. Muchas de ellas solo se pueden clasificar, por ejemplo,cuando a una persona enferma se Ie da un diagnostico medico 0 cuando se deter­mina que alguien pertenece a un grupo etnico dado, 0 bien, cuando se dice queuna persona, Iugar 0 cosa poseen 0 no alguna caracteristica de interes. En tales­
    • 4 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICAcasos, la medicion consiste en una clasificacion. Y las variables a las que uno se refierese Haman variables cualitativas. Las mediciones hechas sobre este tipo de variablescdntienen informacion respecto a los atributos.Aunque en el caso de las variables cualitativas las mediciones no se llevan a caboen el sentido usual de la palabra, se puede contar el numero de personas, lugares 0cosas pertenecientes a varias categorfas. EI administrador de un hospital, por ejem­plo, puede contar el n6.mero de pacientes internados en un dfa, con base en cada unode los diagnosticos de admision. Estos conteos 0 jrecuencias, como se denominan, sonel numero que se maneja cuando el analisis involucra variables cualitativas.Variable alealoria Siempre que se determina la estatura, el peso 0 la edad deun individuo, el resultado frecuentemente se denomina valor de la variable respec­tiva. Cuando los valores se originan como resultado de factores aleatorios (al azar),que no pueden predecirse con exactitud y anticipacion, la variable se llama variablealeatoria. Un ejemplo de variable aleatoria es la estatura de los adultos; cuandonacen los ninos no es posible predecir con exactitud la estatura que tendran en suedad adulta; la estatura que alcanza un adulto es el resultado de muchos factoresgeneticos y ambientales. Los valores resultantes de los procedimientos de medicionse denominan observaciones 0 medidas.Variable· alealoria discreta Las variables pueden caracterizarse aun mascomo discretas 0 continuos. Puesto que la definicion rigurosamente matematica delas variables discreta y continua va mas aHa del limite de este libro, en su lugar sepresentan definiciones menos formales y un ejemplo de ca~ una.Una variable discreta se caracteriza por separaciones 0 interrupciones en la escala devalores que puede tomar. Estas separaciones 0 interrupciones indican la ausencia devalores entre los valores especfficos que puede asumir la variable. Algunos ejemplosilustran el punto. EI numero de admisiones diarias en un hospital general es unavariable aleatoria discreta, puesto que el numero de admisiones por dia debe repre­sentarse con numeros enteros tales como 0, 1,203. EI numero de admisiones enun dfa determinado no puede ser 1.5, 2.997 0 3.333. EI n6.mero de caries, amalga­mas 0 perdida de dientes por nino en una escuela primaria es otro ejemplo de unavariable discreta.Variable alealoria continua Una variable aleatoria continua no posee las sepa­raciones 0 interrupciones tipicas de una variable a/eatoria discreta. Una variable aleatoriacontinua puede tomar cualquier valor dentro de un intervalo espedficado de valo­res asumidos poria variable. Entre los ejemplos de variables continuas se hallan lasdiversas mediciones que pueden hacerse en individuos tales como su estatura, pesoy diametro craneano. Sin importar cuan cerca esten las estaturas de dos personas,teoricamente siempre es posible encontrar otra persona cuya estatura se encuentreentre las dos estaturas de referenda.Ahora bien, debido a las limitaciones de los instrumentos de medicion disponi­bles, las observaciones sobre variables que son inherentemente continuas se registrancomo si fueran discretas. La estatura, por ejemplo, normalmente se redondea hacia elcuarto, media 0 pulgada completa mas cercanos, mientras que si se cuenta con el ins­trumento de medicion adecuado, esa medida puede hacerse tan precisa como se desee.
    • 1.3 MEDIDAS Y ESCALAS DE MEDICION 5Poblacion Habitualmente se considera a una poblacion como una coleccionde entidades, por 10 general personas. Sin embargo, una poblacion 0 coleccion deentidades puede estar compuesta de animales, maquinas, plantas 0 celulas. Paralos propositos de este libro, una poblaci6n de entidades se define como la colecci6n masgrande de entidades de interes en un momento particular. Si se toma la medida dealguna variable para cada una de las entidades en una poblacion, se obtiene unapoblacion de valores para esa variable. Por 10 tanto, una poblaci6n de valores sepuede definir como la mayor colecci6n de valores para una variable aleatoria, los cualesson de interes en un momento particular. Por ejemplo, si se tiene interes en conocer elpeso de todos los niiios inscritos en el sistema de educacion primaria del estado,la poblacion esta formada por todos esos pesos. Si se tiene interes solo en el pesode los estudiantes inscritos en el primer grado, se tiene una poblacion diferente,compuesta por los pesos de los estudiantes de primer grado. Por 10 tanto, laspoblaciones se determinan 0 definen con base en el campo de interes. Las pobla­ciones pueden ser finitas 0 infinitas. Si una poblacion de valores consiste en unnumero fijo de esos valores, se dice que la poblacion es finita. Si, por otra parte,una poblacion consiste en una sucesion interminable de valores, entonces es unapoblacion infinita.Muestra Una muestra puede definirse simplemente como una parte de una po­blaci6n. Suponga que una poblacion se compone de los pesos de todos los niiiosinscritos en el sistema de educacion primaria del estado, y se escoge para el analisissolo una fraccion de los niiios; entonces se tiene unicamente una parte de la pobla­cion, es decir, se tiene una muestra.1.3 MEDIDAS YESCALASDEMEDICIONEn la seccion anterior se utilizo varias veces la palabra medici6n en su sentido usualy, con seguridad, ellector ha comprendido claramente el significado deseado. Sinembargo, la palabra medici6n puede tener una defininicion mas cientifica. De he­cho, existe una gran cantidad de obras dedicadas al tema de mediciOn. Una partede estas obras se ocupa tambien de la naturaleza de los numeros que resultan de lasmediciones. Expertos en el tema de mediciones, hablan de escalas de medicion quedan como resultado la categorizacion de mediciones de acuerdo con su naturaleza.En este apartado se define la medici6n y las cuatro escalas de medici6n resultantes.El estudio del tema con mas detalle, se encuentra en las obras de Stevens (1, 2).MediciOn Se define como la asignaci6n de numeros a objetos 0 eventos de acuerdocon un conjunto de reglas. Las diversas escalas de medicion son consecuencia deque la medici6n puede llevarse a cabo seglin diferentes conjuntos de reglas.Escala nominal La escala de medici6n mas baja es la escala nominal. Como sunombre 10 indica, consiste en designar 0 "nombrar" las obserVaciones 0 clasificarlasen varias categorias mutuamente excluyentes y colectivamente exhaustivas. La prac­tica de utilizar numeros para distinguir entre diversos diagn6sticos medicos consti­
    • 6 CAPITULO 1 INTRODUCCION A LA BIOESTADisTICAtuye una medicion sobre una escala nominal. Otros ejemplos incluyen dicotomfas. como masculino-femenino, sano-enfermo, menor de 65 aiios de edad-mayor de 65aiios de edad en adelante, nifio-adulto y casado-soltero.Escala ordinal Siempre que las observaciones no solo difieran de categoria acategoria, sino que ademas puedan clasificarse por grados de acuerdo con alglincriterio, se dice que se miden sobre una escala ordinal. Los padentes convalescien­tes pueden c1asificarse como sin mejoria, mejorados y bastante mejorados. Las per­sonas pueden clasificarse de acuerdo con su estado sodoeconomico como de clasebaja, de clase media 0 clase alta. La inteligencia de los niiios puede estar por enci­ma del promedio, promedio 0 por debajo del promedio. En cada uno de estosejemplos, todos los miembros de cualquiera de las categorias se consideran iguales,pero los miembros de una categoria se consideran inferiores, peores 0 menores quelos de otra que, a su vez, guarda una relacion similar con otra categorfa. Por ejem­plo, un paciente bastante mejorado esta en mejor estado de salud que uno clasifica­do como mejorado, mientras que un paciente que ha mejorado esta en mejorcondicion que uno sin mejoria. Por 10 general, es imposible inferir que la diferenciaentre los miembros de una de las categorias y la categoria inmediata adyacentesea igual ala diferenda entre los miembros de esa categoria y los miembros de lacategorfa adyacente a ella. El grade de mejoria entre los sin mejoria y los mejora­dos quiza no sea el mismo que el :que existe entre los mejorados y los bastantemejorados. La implicacion es que si se hiciera una division mas fina, que produje­ra mas categorfas, estas podrfan tambien ordenarse de manera semejante. Lafuncion de los numeros asignados a datos ordinales es la de ordenar (0 asignar unacategoria seglin el rango) las observaciones desde las mas bajas hasta las mas altas;de aqui el termino ordinal.Escala de intervalos La escala de intervalos es una escala masespecializadaque la nominal 0 la ordinal en el sentido de que, con esta escala, no soloes posibleordenar las mediciones, sino que tambien se conoce la distancia entre dos medicio­nes cualesquiera. Por ejemplo, se sabe que la diferencia entre una medida de 20 yuna medida de 30 es igual a la diferencia entre lasmedidas de,30 y 40. La capaci­dad para hacer esto implica el uso de una distancia unitaria y un punto cero, loscuales son arbitrarios. El punto cero seleccionado no es necesariamente un ceroverdadero en el sentido de que no indica una ausencia total de la cantidad que seesta midiendo. Quiza el mejor ejemplo de una escala de intervalos es la forma enque generalmente se mide la temperatura (grados Fahrenheit 0 Celsius). La uni­dad de medidon es el grado, y el punto de comparadon es el que se seleccionaarbitrariamente como "cero grados", el cual no implica una ausencia de calor. Laescala de intervalos, a diferencia de las escalas nominal y ordinal, es una escalarealmente cuantitativa.Escala de razones El nivel mas alto de medicion es la escala de razones. Estaescala se caracteriza por el hecho de que puede determinarse tanto la igualdad delas razones como la de los intervalos. Y para esta escala es fundamental un puntocero verdadero. La medicion de rasgos tan familiares como altura, peso y longitud,hacen uso de este tipo de escala.
    • 1.4 MUESTREO ALEATORIO SIMPLE 71.4 lIUESTREO ALFATOmO SIMPLETal como se sefialo can anterioridad, uno de los prapositos de este libra es ensefiarlos conceptos de inferencia estadfstica, la cual puede ser definida como sigue:DEFINICIONLa inferencia estadistica es el procedillliento por lllediodel cual se llegaa una conclusion acerca de unapoblacion con base en los resultados que se obtienen deuna llluestra extraida de esa poblacion.Existen muchas clases de muestras que pueden obtenerse de una poblaci6n.Sin embargo, no se puede utilizar cualquier tipo de muestra como base para hacerinferencias validas acerca de la poblacion. En general, para realizar una inferenciavalida acerca de una poblacion se necesita un muestreo de la poblacion fundamen­tado cientfficamente. Tambien existen muchas c1ases de muestras cientificas quepueden obtenerse de una poblacion. La mas sencilla es la muestra aleatoria sim­ple. En esta secci6n se define la muestra aleatoria simple y se explica como obtener­la de la poblacion.Si se utiliza la letra N para designar el tamafio de una poblacion finita, y laletran para designar el tamafio de la muestra, es posible definir una muestra aleatoriasimple como: .DEFINICIONSi se extrae una muestra de tamaiio n de una poblaci6n detalllano N, de lllanera que cada llluestra posible de tamanon tenga la lllisllla probabilidad de ser seleccionada, lallluestra se llallla muestra aleatoria simple.El sistema de seleccion de muestras que satisface la definicion anterior se llamamuestreo aleatorio simple.Mas adelante se demuestra el pracedimiento del muestreo aleatorio simple,pero antes se considera la cuesti6n de si se muestrea con reemplazo a sin reemplazo.Cuando se utiliza un muestreo con reemplazo, cada elemento de la poblacion estadisponible para cada seleccion. Par ejempl0, como parte de un estudio de duracionde la estancia, se selecciona una muestra de una poblacion de pacientes que alguna vezfueran internados en el hospital. Suponga que el muestreo comprende la seleccion deuna muestra de expedientes, tornados del archivo del departamento de registra medi­co, de los pacientes dados de alta. En el muestreo con reemplazo se selecciona unexpediente para incluirlo en la muestra, se registra la duracion de la estancia y se de­vuelve el expediente al archivo. AI devolver el expediente a la "poblacion" este puedeser seleccionado de nuevo, en cuyo caso, el tiempo de estancia se registrara una vezmas. En un muestreo sin reemplazo, el expediente extrafdo no se regresa al archivodespues de registrar el data que se investiga, sino que se separa hasta extraer toda la
    • 8 CAPiTULO I INTRODUCCION A LA BIOESTADiSTICAmuestra. Con este procedimiento, un expediente debe aparecer solo una vez enla muestra. En la practica, por 10 general, un muestreo siempre se hace sin reempla­zoo La importancia y significado de esto se explica mas adelante; por ahora, es nece­sario estudiar la manera en que se selecciona una muestra aleatoria simple. Paraasegurar una seleccion totalmente aleatoria, se debe seguir algful procedimiento ob­jetivo, pues se intenta evitar el uso dejuicios subjetivos para decidir que elementos dela poblacion constituyen una muestra aleatoria. En el siguiente ejemplo se muestraun metodo para elegir una muestra aleatoria simple a partir de una poblacion.EJEMPLO 1.4.1Clasen et al. (A-I) estudiaron la oxidacion de esparteina y mefenitoina en ungrupo de individuos residentes en Groenlandia. Se representaron dos poblacionesen su estudio: habitantes del este y del oeste de Groenlandia. Los investigadores seinteresaron en comparar los dos grupos con respecto a las variables de interes.La tabla 1.4.1 muestra las edades de 169 individuos del oeste de Groenlandia.Para propositos ilustrativos, considere que estos individuos forman una poblacionde tamafio N = 169 de la que se quiere obtener una muestra aleatoria simple detamafio 10.TABlA 1.4.1 Edades de 169 individuos que participan en unestudio de oxidacion de esp81teina y mefenitoinaIndividuo num. Edad Individuo nUm. Edad Individuo num. Edad1 27 57 29 113 452 27 58 26 114 283 42 59 52 115 424 23 60 20 116 405 37 61 37 117 266 47 62 27 118 297 30 63 63 119 488 27 64 44 120 539 47 65 22 121 2710 41 66 44 122 3811 19 67 45 123 5312 52 68 40 124 3313 48 69 48 125 2414 48 70 36 126 2515 32 71 51 127 4316 35 72 31 128 3917 22 73 28 129 4018 23 74 44 130 2219 37 75 63 131 2520 33 76 30 132 2121 26 77 21 133 26(Continua)
    • 1.4 MUESTREO ALEATORIO SIMPLE 9TABlA 1.4.1 (Continuaci6n)Individuo num. Edad Individuo num. Edad Individuo num. Edad22 22 78 50 134 4123 48 79 30 135 4724 43 80 31 136 3025 34 81 30 137 4226 28 82 24 138 3327 23 83 26 139 3128 61 84 56 140 2929 24 85 31 141 3730 29 86 26 142 4031 32 87 23 143 3132 38 88 18 144 2633 62 89 38 145 3034 25 ·90 53 146 2735 34 91 40 147 2636 46 92 23 148 3637 24 93 24 149 2438 45 94 18 150 5039 26 95 49 151 3140 29 96 49 152 4241 48 97 39 153 3442 34 98 32 154 2743 41 99 25 155 2844 53 100 32 156 3145 30 101 23 157 4046 27 102 47 158 2847 22 103 34 159 2948 27 104 26 160 2949 38 105 46 161 2450 26 106 21 162 2851 27 107 19 163 2252 30 108 37 164 5053 32 109 36 165 3054 43 110 24 166 3855 29 III 51 167 2856 24 112 30 168 23169 39FUENTE: Reproducido can autorizaci6n de Kim BI1iisen, M. D.
    • 10 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICASolucion: Una forma de seleccionar lUla muestra aleatoria simple es utilizar unatabla de nfuneros aleatorios como la tabla A, que se. muestra en el apendi­ceo EI primer paso es localizar un punto de partida aleatorio en la tabla.Esto se puede hacer de varias formas: una de ellas es quitar la vista de lapagina mientras se toca esta con la punta del lapiz. EI punto de partidaaleatorio es el dfgito mas cercano allugar donde apunte ellapiz. Supongaque el punta de partida aleatorio, obtenido mediante el procedimientodescrito, se encuentra en la intersecci6n del rengl6n 21 y la columna 28.El dfgito en ese PlUlto es 5. Puestd que se tienen unicamente 169 valorespara elegir, s610 se puede utilizar nfuneros aleatorios dell a1169. Resultaconveniente seleccionar numeros de tres dfgitos, de manera que solamen­te pueda elegirse entre los numeros del 001 a1169. El primer numero detres dfgitos para el punto de partida aleatorio es 532, un numero que nose puede utilizar. AI recorrer la tabla hacia abajo, aparecen los numeros196,372,654,928 Yfinalmente el137, que es un numero que sf se puedeutilizar. La edad del sujeto que tiene ellugar 137 de la tabla 1.4.1 es 42, yeste constituye el primer valor de la muestra. Se procede a registrar elnumero aleatorio y la edad correspondiente en la tabla 1.4.2. Los nume­ros aleatorios se registran para ver cuales fueron seleccionados. Puestoque se trata de una muestra sin reemplazos, no se incluye dos veces unmismo valor. AI continuar con este procedimiento se obtienen los nuevenumeros aleatorios restantesjunto con sus edades respectivas, tal como semuestra en la tabla 1.4.2. Observe que, cuando se llega al final de la co­lumna, simplemente se avanzo tres digitos hasta el 028 y se continu6 ha­cia arriba de la columna. Tambien se pudo haber comenzado desde laparte de arriba de dicha columna con el numero 369.De esta forma se obtiene la muestra aleatoria simple de tamano 10a partir de la poblacion de tamano 169. En todo estudio futuro, siempreque se utilice el termino de muestra aleatoria simple, se entendera quedicha muestra se obtiene de esta forma 0 de una equivalente.TABlA 1.4.2 Muestra de 10edades extralda de las edades de la tabla t .4.t Numero Numero de individuoaleatorio de la muestra Edad137 1 42114 2 28155 3 28028 4 61085 5 31018 6 23164 7 50042 8 34053 9 32108 10 37•
    • 111.5 COMPUTADORAS Y AJ~ALISIS BIOESTADISTICOEJERCICIOS1.4.1 Utilice latabla de numerus aleatorios para seleccionar un nuevo punto aleatorio de partida,y extraiga otra muestra aleatoria simple de tamafto 10 apartir de la tabla 104.1. Registre lasedades de losindividuos de la nueva muestra. Guarde sus datos para uso futuro. ~Cual es lavariable de interes en este ejercicio? ~Que escala de medici6n se utiliz6 para obtener lasmediciones?1.4.2 Ebja otra muestra aleatoria simple de tamafio lOa partir dela poblaci6n representada enla iabla 104.1. Compare a los sujetos de esta muestra con los de las muestras obtenidas en elejerCicio 1.4. L (Existen individuos que aparezcan en ambas muestras? ~Cuantos? Compa­re las edades de los individuos en las dos inuestras. ~Cuantas edades de la primera muestrase duplicaron en la segunda?1.5 COMPUTADORAS YANAuSIS BIOESTADiSTICOLa difusi6n relativamente reciente del uso de la computadora ha tenido un granimpacto, particularmente en el analisis bioestadistico y, en general, en la investiga­ci6n de ciencias de la salud. La necesidad de efectuar un gran numero de calculosaritmeticos como parte del analisis estadistico de los datos solo vive en el recuerdode aquellos investigadores y profesionales cuyas carreras son anteriores a la llama­da "revolucion de las computadoras". Las computadoras pueden ejecutar calculosmas rapidos y mucho mis predsos de 10 que puede un tecnico humano. El uso delas computadoras hace posible que los investigadores dediquen mas tiempo a me­jorar la calidad de los datos originales y a la interpretacion de resultados.El predominio actual de las computadoras y la disponibilidad de gran canti­dad de programas de software para estadfstica han revoludonado aun mas el calcu­10 estadistico. EI estudiante interesado en los paquetes de software estadisticoencontrara fiUY utiles las revistas como The American Statistician, publicacion tri­mestral del American Statistical Association (Asodadon Estadistica de Estados Uni­dos de Norteamerica), donde regularmente aparecen las resefias y promoci6n dedichos paquetes.Muchas de las computadoras actualmente en el mercado estan equipadascon capacidad para generar numeros aleatorios. Los investigadores pueden utili­zar las computadoras para generar los numeros aleatorios que necesiten, comoalternativa al uso de tablas impresas de numeros aleatorios. En realidad, los nu­meros "aleatorios" generados por muchas computadoras son realmente numerospseudoaleatorios porque son el resultado de una formula determinfstica. Sin em­bargo, Fishman (3) asegura que los numeros parecen ser satisfactorios para mu­chos prop6sitos practicos.La utilidad de la computadora en las ciencias de la salud no se limita alanalisis estadistico. El estudiante interesado en aprender mas acerca del uso de lacomputadora en ciendas de la salud encontrara utiles los libros de Hersh (4), Johns(5), Miller et al. (6), y Saba y McCormick (7). Aquellos que quieran obtener mayor
    • 12 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICAbeneficio de la Internet probablemente quieran consultar los libros Physicians Guideto the Internet (8) y Computers in Nursings Nurses Guide to the Internet (9). Los avancesactuales en el empleo de la computadora en los campos de biologfa, medicina yotros se publican en algunas revistas dedicadas al tema, como: Computers in Biologyand Medicine, Computers and Biomedical Research, InternationalJournal ofBio-MedicalComputing, ComputerMethods and Programs in Biomedicine, ComputerApplications in theBiosciences y Computers in Nursing.En este libro se utilizan salidas impresas de computadora para ejemplificar eluso de computadoras en el analisis bioestadfstico; los paquetes de software estadis­tico como MINITAB, SPSS YSAS®, para computadoras personales obedecen al mis­mo proposito. Seutilizo MINITAB para Windows en los ejemplos que muestran eluso de MINITAB. Despues de ingresar los datos para la aplicacion, MINITAB ini­cia con una barra de menu como la siguiente:tile ~dit Manip Qale 5.tat Graph ~ditor Window HelpPara cada ejemplo que se utiliz6 para ilustrar MINITAB se muestra el procedi­miento de Windows (identificado como "Caja de dialogo") y los comandos corres­pondientes (con el membrete "Comandos de la sesion") que tambien pueden teclearse.1.6 RESllMENEn este capitulo se presentan los conceptos basicos de estadfstica. Se define a laestadistica como un area que se dedica a la recolecci6n y descripcion de datos, as!como a la elaboracion de inferencias estadfsticas. Se define la inferencia estadfsti­ca como el procedimiento por medio del cual se obtienen conclusiones acerca deuna poblacion con base en la informacion contenida en la muestra extraida de esapoblacion. Se estudia que el tipo basico de muestreo para hacer inferencias validases el muestreo aleatorio simple. Se describe como milizar las tablas de numerosaleatorios para obtener muestras aleatorias simples de una poblacion.Se presentan las definiciones de algunos terminos basicos, como variable ymuestra, que se usan en el estudio de la estadistica. Tambien se habla acerca de lamedicion y se definen cuatro escalas de medicion: nominal, ordinal, de intervalos yde razones:Por ultimo, se menciona la importancia de las computadoras en el desarrollode las actividades propias de la estadistica.PREGUNTAS YEJERCICIOS DE REPASO1. Explique que significa estadfstica descriptiva.2. Explique que significa estadistica inferenciaL
    • 13BIBLIOGRAFlA3. Defina:a) Estadistica b) Bioestadfsticac) Variable d) Variable cuantitativae) Variable cualitativa f) Variable aleatoriag) Poblaci6n h) Poblaci6n finitai) Poblaci6n infinita j) Muestrak) Variable discreta 1) Variable continuam) Muestra aleatoria simple n) Muestreo con reemplazo0) Mliestreo sin reemplazo4. Defina la palabra medici6n.5. Enumere, describa y compare las cuatro escalas de medici6n.6. Para cada una de las siguientes variables indique si son cuantitativas 0 cualitativas, y especi­fique la escala de medicion que se utilizo cuando se tomaron las mediciones en cada una delas siguientes:a) Posicion social de los miembros de esta clase en relacion con los demas. b) Diagnosticos de admisi6n de pacientes admitidos en clinicas de salild mental. c) Peso de los bebes nacidos en un hospital en un ano. d) Sexo de los bebes nacidos en un hospital en un ano. e) Rango de movilidad de la articulaci6n del codo de estudiantes inscritos en un programa de estudios de ciencias de la salud. f) Temperatura axilar de bebes con un dia de nacidos en el hospital. 7. Para cada una de las siguientes situaciones, responda los incisos a-e:a) (Cmil es la muestra del estudio?b) (Cual es la poblaci6n?c) lCua! es la variable de interes?d) (CUantas mediciones se hicieron para ca1cular los resultados informados?e) (Que escala de medici6n se utilizo?Situaci6n A. Un estudio de 300 hogares en un pequeno pueblo sureno revel6 que 20 por ciento tiene al menos un hijo en edad escolar. Situaci6n B. Un estudio de 250 pacientes admitidos en un hospital durante el ano pasado revel6 que, en promedio, los pacientes viven a 22.5 kilometros del hospital. BffiUOGRAFiABibliografia de metodologia1. S. S. Stevens, "On the Theory ofScales ofMeasurement". Science. 103,677-680.2. S. S. Stevens, "Mathematics, Measurement and Psychophysics", in S. S. Stevens (editor).Handbook ofExperimental Psychology, Wiley. New York.
    • 14 CAPITULO 1 INTRODUCCION A LA BIOESTADISTICA3. George S. Fishman, Concepts and Methods in Discrete Event Digital Simulation, Wiley, New York.4. William R. Hersh, Information Retrieval: A Health Care Perspective, Springer, New York.5. Merida L. Johns, Information Management for Health Proftssions, Delmar Publishers, Albany,NY.6. MarvinJ. Miller, KenricW. Hammond y Matthew G. Hile (editores), Mental Health Computing,Springer, New York.7. Virginia K. Saba y Kathleen A. McCormick, Essentials ofComputers for Nurses, McGraw-Hill,New York.8. Lee Hancock, Physicians Guide to the Internet, Lippincott-Raven, Philadelphia.9. Leslie H. Nicoll y Teena H. Ouellette, Computers in Nursings Nurses Guide to the Intemet,Lippincott, Philadelphia..Bibliografia de aplicacionesA-I. Knud Clasen, Laila Madsen, Kim Brylsen, Kurt Albylge, Susan Misfeldt y Lars F. Gram,"Sparteine and Mephenytoin Oxidation: Genetic Polymorphisms in East and West Greenland",Clinical Pharmacology & Therapeutics, 49,624-631.
    • 2.1 INTRODUCCION 2.4 ESTADISllCA DESCRIPTIVA:MEDIDAS DE TENDENCIA CENTRAL2.2 ARREGLO ORDENADO2.5 ESTADISllCA DESCRIPTIVA:2.3 DATOS AGRUPADOS Y MEDIDAS DE DISPERSIONDISTRIBUCION DEFRECUENCIAS 2.6 RESUMEN2.t JNTRODUCCIONEn el capitulo 1 se establecio que la toma de mediciones y el proceso de conteoproducen numeros que contienen informacion. El objetivo de la gente que aplicaherramientas estadisticas a esos numeros es determinar la naturaleza de esainformacion. Esta tarea es mucho mas facil si los numeros estan organizados yresumidos. Cuando se hacen las mediciones sobre entidades de una poblaci6n 0. muestra, los valores resultantes estan disponibles para el investigador 0estadfstico como una masa de datos desorganizados. Las mediciones que no hansido organizadas, procesadas 0 manejadas de alguna otra forma se les llama datoscrudos (materia prima). A menos que el numero de observaciones seaextremadamente pequeno, es improbable que esos datos crudos proporcionensuficiente informaci6n hasta que sean puestos en alglin orden.En este capitulo se ensenan algunas tecnicas para organizar y procesar datos detal manera que sea mas facil determinar que informacion contienen. Lo mas actualen procesamiento de datos es el calculo de un numero individual que de algunamanera incluye informaci6n importante acerca de los datos que sirvieron paracalcularlo. A estos numeros individuales utilizados para describir datos se les llamamedidas descriptivas. Despues de estudiar este capitulo el estudiante podra calcularalgunas medidas descriptivas tanto para poblaciones como para muestras de datos.EI proposito de este capitulo es desarrollar en el estudiante habilidadespara poder manejar la informacion numerica que se encuentre como profesionalen ciencias de la salud. Entre mejor capacitado este para manejar tal informacion,tendra una mejor idea del ambiente y de las fuerzas que generan la informacion.15
    • 16 CAPITULO 2 ESTADISTICA DESCRIPTIVA2.2 ARREGLO OBDENADOEI primer paso para organizar datos es preparar un arreglo ordenado. Un arregloordenado es una lista de valores de un grupo (sea poblacion 0 muestra) en orden demagnitud de menor a mayor valor. Se recomienda el uso de la computadora si elnumero de mediciones a ordenar es bastante grande.Un arreglo ordenado permite determinar con rapidez los valores de las medi­ciones mas pequefias, de las mas grandes, y otros aspectos acerca de los datos arre­glados que pudieran necesitarse en caso de urgencia. A continuaci6n se muestra laconstrucci6n de un arreglo ordenado con los datos que se estudiaron en el ejemplo1.4.1.EJEMPL92.2.1La tabla 1.4.1. contiene una lista de las edades de los individuos que participaronen el estudio de residentes de Groenlandia, estudiados en el ejemplo 104.1. Comopuede apreciarse, esta tabla desordenada requiere de mucha investigaci6n paradeterminar informacion basica como la edad de los individuos mas j6venes hastalos mas viejos.Soludon: La tabla 2.2.1 presenta los datos de la tabla 1.4.1 en forma de arregloordenado. AI referirse a la tabla 2.2.1 es posible determinar rapidamen­te la edaddel individuo mas joven (18) y la edad del mas viejo (63).Tambien es posible identificar con facilidad que casi tres cuartas partesde los individuos tienen menos de 40 afios de edad. •Anii1isisporcompldadom Cuando se requieren cilculos adicionales yorganiza­cion de un conjunto de datos en forma manual, el trabajo se facilita mediante un arre­glo ordenado. Si los datos son analizados por computadora, esto no es aconsejableTABIA2.2.1 Arreglo ordenado de las edades de los individuos de latabla 1.4.118 18 19 19 20 21 21 21 22 22 22 22 2222 23 23 23 23 23 23 23 24 24 24 24 2424 24 24 24 25 25 25 25 26 26 26 2626 .26 26 26 26 26 26 27 27 27 27 27 27 2727 27 27 28 28 28 28 28 28 28 29 29 2929 29 29 29 29 30 30 30 30 30 30 30 3030 30 31 31 31 31 31 31 31 32 32 32 3232 33 33 33 34 34 34 34 34 35 36 36 3637 37 37 37 37 38 38 38 38 38 39 39 3940 40 40 40 40 40 41 41 41 42 42 42 4243 43 43 44 44 44 45 45 45 46 46 47 4747 47 48 48 48 48 48 48 49 49 50 50 5051 51 .52 52 53 53 53 53 56 . 61 62 63 63
    • 172.3 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIASDialog box: Manip .. Sort Session command: II Sort~===i 0 Qescendingl====i 0 Dgscending}====i 0 D&.5c"Qdingo Descendin§!~~~ l;,;l.l@iIL:1MTB > Sort Cl C2;SUBC> By Cl.FIGURA 2.2.1 Caja de diaIogo para e1 ejemplo 2.2.1.para preparar un arreglo ordenado, a menos que se necesite para prop6sitos de refe­rencia 0 para otro uso. La computadora no necesita que el usuario haga un arregloordenado antes de meter los datos para construir la distribuci6n de frecuencias ypara hacer otros amllisis.Si desea un arreglo ordenado, muchos paquetes de software para computado­ni contienen rutinas para construirlo. Por ejemplo, suponga que se usa el MINITABYque las edades de la tabla 104.1 estan en la columna 1. El comando SORT C1 C2dasifica las edades y las pone en la columna 2, como 10 muestra la tabla 2.2.1. Si seutilizael paquete MINITAB para Windows, y los datos se colocan en la columna1, el proceso es como sigue: con el mouse haga die en Manip, luego en Sort,escriba c1 en la caja etiquetada como "Sort column[s]", escriba c2 en la caja eti­quetada como "Store sorted column[s] in" (para tener los datos dasificados enc2), y escriba c1 en la caja etiquetada "Sort by column". Si desea ordenar enforma descendente haga dic en "Descending". Si no se selecciona esa opci6n eneste punto, el resultado es una clasificaci6n en orden ascendente. Finalmente, hagadic en OK. La caja de dialogo para el ejemplo 2.2.1 se muestra en la figura 2.2.1.2.3 DATOSAGRUPADOSYDISTRIBUCIONDE FRECUENCIASAunque un conjunto de observaciones puede hacerse mas comprensible y mas sig­nificativo por medio de un arregloordenado, es mas util el resumen que se obtienemediante la agrupaci6n de datos. Antes de la era de las computadoras, uno de losprincipales objetivos de agrupar grandes conjuntos de datos era el de facilitar elcalculo de varias medidas descriptivas, como porcentajes y promedios. Debido a
    • 18 CAPiTULO 2 ESTADiSTICA DESCRIPTIVA. que las computadoras pueden ejecutar esos calrulos a partir de grandes conjuntossin agrupacion previa, actualmente el proposito principal de agrupar los datos es elde resumir la informacion. Se debe tener en mente que los datos contienen infor­macion y que el resumen es una forma sencilla para determinar su naturaleza.Para agruparun conjunto de observaciones se debe seleccionar un conjuntode intervalos contiguos que no se traslapen, para que cada valor en el conjunto deobservaciones pueda ser puesto en uno y solo uno de los intervalos. Estos intervalosnormalmente se identifican como intervalos de clase.Una de las primeras consideradones ruando se agrupan datos es la de ruantosintervalos se deben incluir. Resulta inadecuado incluir pocos intervalos, porque seperderia informacion. Por otro lado, si se utilizan muchos intervalos, el objetivo deresumir no se consigue. La mejor guia en este caso, asi como para la toma de otrasdedsiones sobre la agrupadon de datos, es el conocimiento de los datos. Puede serque los intervalos de clase queden determinados por los precedentes, como en elcaso de las tabulaciones anuales, en las que los intervalos de clase de los afios anterioresse conservan para propositos comparativos. Una regIa empfrica que habitualmente sesigue establece que deben ser.entre seis y 15 intervalos. Si hay menos de seis intervalos,los datos se han resumido en exceso y la informaci6n que contienen se habra perdido.Si hay mas de 15 intervalos, los datos no fueron resumidos 10 suficiente.Quienes deseen gufas mas espedficas para decidir cuantos intervalos de claseson necesarios, pueden utilizar la f6rmula propuesta por Sturges (1). Esta formulase enuncia k = 1 + 3.322(loglO n), donde k es el numero de intervalos de clase y n esel numero de valores en el conjunto de datos en observaci6n. La respuesta que seobtiene con la regla de Sturges no es definitiva, sino que se debe considerar unica­mente como gufa. El numero de intervalos de clase especificado par esta regIadebera incrementarseo disminuirse por conveniencia y para lograr una presenta­cion mas clara.Por ejemplo, suponga que una muestra tiene 275 observaciones para agrupar.Ellogaritmo base 10 de 275 es 2.4393. Con la aplicacion de la formula de Sturgesse obtiene k = 1 + 3.322(2.4393)::::: 9. En la practica, otras consideraciones puedensugerir el uso de 8 0 menos, 0 quiza 10 0 mas intervalos de clase.Otra preguntaque se debe responder se refiere a la amplitud del intervalo declase. Los intervalos de clase generalmente deben ser de la misma amplitud, aun­que algunas veces esto es imposible. La amplitud se determina dividiendo el rangoentre k, que es el numero de intervalos de clase. Simbolicamente, la amplitud de losintervalos de clase esta dada por:Rw (2.3.1)kdonde R (el rango) es la diferencia entre la observacion mas pequefia y la masgrande dentro del conjunto de datos. Por 10 general, con este procedimiento seobtiene una amplitud que no es conveniente usar, y de nuevo se debe utilizar elsentido comun para elegir la amplitud (normalmente cercana a la que se obtienecon la ecuacion 2.3.1) que sea mas conveniente.
    • 192.3 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIASExisten otras reglas empiricas que son de gran ayuda para armar intervalosde clase utiles. Cuando la naturaleza de los datos los hace adecuados, la amplitud delos intervalos de clase de 5 0 10 unidades y amplitudes multiplos de 10 tienden ahacer que el resumen sea mas comprensible. Cuando se utilizan estas amplitudes esuna buena practica tener ellimite inferiorde cada extrema de intervalo en 0 0 5.Generalmente los intervalos de clase se almacenan de menor a mayor: es decir; elprimer intervalo de clase contiene las mediciones mas pequenas y el ultimo inter­valo contiene las mediciones mas grandes. Cuando sea este el caso, ellimite infe­rior del primer intervalo de clase debe ser menor 0 igual que la medici6n maspequena en el conjunto de datos, y ellimite superior del ultimf) intervalo de clasedebe ser mayor 0 igual que la medici6n mas grande.Aunque muchos paquetes de software para microcomputadora contienen ru­tinas para construir intervalos de clase, frecuentemente requieren que el usuarioregistre la amplitud del intervalo y el numero de intervalos deseados. A continua­ci6n se utilizan las 169 edades incluidas en la tabla 1.4.1 y arregladas en la tabla2.2.1 para ilustrar la construcci6n de la distribuci6n de frecuencias.EJEMPLO 2.3.tSe quiere saber cuantos intervalos de clase se tienen en la distribuci6n de frecuen­cias de datos y tambien se quiere saber que tan amplios deben ser los intervalos.Solucion: Para tener una idea del numero de intervalos a utilizar, la aplicaci6n dela regIa de Sturges indica:k = 1 + 3.322(log 169)= 1 + 3.322(2.227886705)"" 8Ahora, al dividir el rango entre 8 para darse una idea de la ampli­tud de los intervalos de clase, se obtiene:R = 63 -18 = 45 =5.625k 8 8Es evidente que un intervalo de clase con una amplitud de 5 0 10 esmas conveniente y significativo para ellector. Suponga que se decide quesea 10. Ahora es posible construir los intervalos. Puesto que el valor maspequeno en la tabla 2.2.1 es 18 y el mayor es 63, entonces los intervalosinician con 10 Yterminan con 69. Se obtienen los siguientes intervalos:10-19 20-29 30-39 40-49 50-59 60-69
    • 20 CAPiTULO 2 ESTADiSTICA DESCRIPTIVAPuede observarse que hay 6 de esos intervalos, es dedr, dos menosque el numero de intervalos calculados con la regIa de Sturges..AIgunas veces resulta util referirse al centro Hamado punta mediadel intervalo de clase, el cual se determina sumando los limites extre­mosdel intervalo de clase y dividiendo entre 2~ Por ejemplo, el puntomedio del intervalo de clase 10-19 es (10 + 19)/2= 14.5. •Cuando se agrupan datos manualmente, determinar el numero de valoresque caen dentro de cada intervalo de clase es solo un problema de busqueda en elarreglo ordenadoy conteo del numero de observadones que caen en los distintosintervalos. Si se aplica esto al ejemplo anterior, se obtiene la tabla 2.3.1.Una tabla de este tipo se canoce como distribucwn de frecuencias. En ella semuestra como se distribuyen los valores dentro de los intervalos de clase espedfica­dos. AI consll,ltarla, es posible determinar la frecuenda de ocurrencia de los valoresdentro de cualquiera de los intervalos.Frecuencias relaiivas En ocasiones, puede ser de utilidad conocer la pro­pordon, en lugar del nlimero, de valores que caen dentro de un intervalo de claseen particular. Esta informacion se obtiene dividiendo el numero de valores en unintervalo de clase particular entre el numero total de valores. Si en el ejemplo ante­rior se pretende conocer la proporci6n de valores entre 30 y 39, inclusive, se divide47 entre 169, para obtener .2781. Esto indica que 47 de 169, ~7/169, 0 0.2781 delos valores caen entre 30 y 39. AI multiplicar .2781 por roo se obtiene el porcen­taje de valores entre 30 y 39. Con 10 anterior se puede decir que el 27.81 porciento de los individuos tienen entre 30 y 39 alios de edad. Finalmente, a la pro­pordon de valores que caen dentro de un intervalo de clase se Ie conoce como lafrecuencia relativa de acurrencias en ese intervalo.TABlA 2.3.1 Distribuci6nde frecuencias de lasedades de los 169individuos incluidos en latalJla 1.4.1 y2.2.1Intervalos de clase Frecuencias10-19 420-29 6630-39 4740-49 3650-59 1260-69 4Total 169
    • 212.3 DATOS AGRUPADOSYDISTRIBUCION DE FRECUENCIASTABlA 2.3.2 Distribuciones de: frecuencia, frecuencia acumulada,frecuencia relativa y frecuencia relativa acumulada de las edades delos sujetos descritos en el ejemplo 1.4.1FrecuenciaIntervalos de Frecuencia Frecuencia relativaclase Frecuencia acumulada relativa acumulada10-19 4 4 .0237 .023720-29 66 70 .3905 .414230-39 47 117 .2781 .692340-49 36 153 .2130 .905350-59 12 165 .0710 .976360-69 4 169 .0237 1.0000Total 169 1.0000Para determinar la frecuencia de valores que caen dentro de dos 0 mas in­tervalos de clase, se obtiene la suma del numero de valores que caen dentro de losintervalos de clase correspondientes. Analogamente, si se pretende conocer lafrecuencia relativa de ocurrencia de valores que caen dentro de dos 0 mas interva­los de clase, entonces, se suman las frecuencias relativas respectivas. Se puedensumar, 0 acumular, las frecuencias y las frecuencias relativas para facilitar la obten­cion de informacion acerca de las frecuencias 0 frecuencias relativas de valoresdentro de dos 0 mas intervalos de clase contiguos. La tabla 2.3.2 muestra losdatos de la tabla 2.3.1 con las frecuencias acumuladas, frecuencias relativas y frecuen­cias relativas acumuladas.Si el interes esta centrado en la frecuencia relativa de los valores que caenentre 30 y 59, entonces se utiliza la columna de las frecuencias relativas acumuladasde la tabla 2.3.2 y se resta .4142 de .9763 para obtener .5621.Se puede utilizar elpaquete de software estadfstico MINITAB para obteneruna tabla comparable con Ja tabla 2.3.2. MINITAB genero los valores de la tablacon las frecuencias relativas y frecuencias relativas acumuladas expresados en por­centajes. EI procedimiento incluye asignar codigos a los intervalos de clase y meterla informacion a traves del teclado. Cuando se asignan los codigos 0, 1, 2, 3, 4 Y5,respectivamente, a las seis clases de intervalos, se debeteclear el siguiente comando:MTB> Code (10: 19)0 (20:29)1 (30:39)2 (40:49)3 (50:59)4 (60:69)5 c1 c2La caja de dialogo, los comandos de la sesion y la salida se muestran en lafigura 2.3.1.E1 histograma Es posible presentar una distribucion de frecuencias (0una distribucion de frecuencias relativas) graficamente en forma de histograma, quees un tipo especial de grafica de barras.
    • 22 CAPITULO 2 ESTADISTICA DESCRIPTIVACaja de dialogo: Comandos de la sesi6n:MTB> C2iStat >-­ Tables >-- Tally SUBC> CountsiSUBC> CumCountsiTeclear C2 en Variables. Verifique Counts, SUBC> Percents;Percents, Cumulative Counts y SUBC> CumPercents.Cumulative percents en Display. Clic OKResultados:Resumen estadlstico para variables discretasC2 Count CumCnt Percent CumPct0 4 4 2.37 2.371 66 70 39.05 41.422 47 117 27.81 69.233 36 153 21.30 90.534 12 165 7.10 97.635 4 169 2.37 100.00N 169FIGURA2.3.1 Distribuci6n de frecuencia, frecuencias acumuladas, porcentajes y porcentajesacumulados de las edades de los individuos descritos en el ejemplo 1.4.1, tal como 10 construy6el paquete MINITAB.Para construir un histograma, los valores de la variable respectiva se ponensabre el eje horizontal, y las frecuencias (0 frecuencias relativas, si as! se quiere) deocurrencia, en el eje vertical. Sobre cada intervalo de clase, arriba del eje hori­zontal, se levanta una barra rectangular, 0 celda, como algunas veces se Ie nom­bra, hasta que intercepte con la frecuencia respectiva. Las barras del histogramadeben ser adyacentes, y es necesario tomar en cuenta los lfmites correctos de losintervalos de clase para evitar la separacion de barras en la grafica.El nivel de precision que se observa en los datos obtenidos y que tienen medi­ciones ~obre una escala continua indica algUn orden de redondeo. El orden de redon­dec refleja la preferencia personal del informante 0 las limitaciones de los instrumentosde medicion empleados. Cuando una distribucion de frecuencia se construye a par­tir de los datos, los Hmites de los intervalos de clase frecuentemente reflejan el gradode precision de los daws originales. Esto mismo se ha efectuado en el ejemplo. Sinembargo, se sabe que algunos de los valores que caen dentro del segundo intervalode clase, por ejemplo, probablemente seran un poco menores que 20 mientras que
    • 232.3 DATOS AGRUPADOS Y DISTRIBUCION DE FRECUENCIAS70TABlA 2.3.3 Datos de laiabla 2.3.t que muestra los60IImites COll"ectos de losintervalos de clase 50Intervalos de clase Frecuencias ::l 400c:Q):::JQ)9.5-19.5 4 t,)30u:19.5-29.5 66 2029.5-39.5 4739.5-49.5 361049.5-59.5 1259.5-69.5 4Total 169otros seran un poco mayores que 29, cuando la medici6n es precisa. AI considerar lacontinuidad implfcita de la variable, y suponiendo que los datos fueran redondeadosal entero positivo inferior mas pr6ximo, entonces es 16gico suponer que 19.5 y 29.5son los limites correctos para este segundo intervalo. Los limites correctos para cadaintervalo de clase se toman como semuestra en la tabla 2.3.3.Si se elabora una grafica utilizando estos lfmites de intervalos de clase como labase de los rectangulos, no habra separaciones entre las barras, y se obtendra elhistograma que se muestra en la figura 2.3.2. Se utiliz6 el paquete MINITAB paraelaborar el histograma. Se almacenaron los datos en la columna 1 y se Ie nombr6"Edad". El procedimiento se muestra en la figura 2.3.3. EI mensaje 14.5:64:5110indica que el primer punto medio es 14.5, que el ultimo punto medio es 64.5 y quelos intervalos estan igualmente espaciados en incrementos de 10 unidades. Se con­sider6 un espacio delimitado por el eje horizontal y ellfmite exterior formado porlas barras en la figura 2.3.2.14.5 24.5 34.5 44.5 54.5 64.5EdadFIGURA 2.3.2 Histograma de las edades de169 individuos a partir de la tabla 2.3.1.Caja de dialogo: Comandos de la sesi6n:Graph ,.. HistogramTeclear Edad en X.MTB> Histogram Edad;SUBC> MidPoint 14.5:64.5/10;SUBC> Bar.Clic Options. Elegir MidPoint. Teclear14.5:64.5/l0 en MidPoint/cutPoint positions:Clic OK dos veces.FIGURA 2.3.3 Caja de diilogo y comandos de la sesi6n de MINITAB para elaborar elhistograma a partir de los datos del ejemplo 1.4.1.
    • 24 CAPITULO 2 ESTADISTICA DESCRIPTIVAAI espacio entre los limites del histograma se Ie conoce como area delhistograma. A cada observacion se Ie asigna una unidad de esta area. Puesto que setienen 169 observaciones, el histograma tiene en total 169 unidades. Cada harracontiene cierta proporcion del area total, de acuerdo con la frecuencia. La segundabarra, por ejemplo, contiene 66/169 del area. Esto, como ya se estudi6, es la fre­cuencia de ocurrencia de los valores entre 19.5 y 29.5. A partir de esto se observaque las subareas del histograma definidas por las barras corresponden a las fre­cuencias de ocurrencia de valores entre los lfmites de las areas de la escala horizon­tal. El porcentaje de una subarea particular del area total del histograma es igual ala frecuencia relativa de ocurrencia de los valores entre los puntos correspondientessobre el eje horizontal.El polfgono de jrecuencia Una distribuci6n de frecuencia tambien puedeser representada graficamente por medio de un poligono de frecuencia, que es unadase especial de grafica lineal. Para dibujar este poHgono, primero se hace unamarca arriba del punto medio de cada intervalo de clase, representado sobre el ~jehorizontal de la grafica, como se muestra en la figura 2.3.2. La altura con respectodel eje horizontal de una marca dada corresponde ala frecuencia del intervalo dec1ase. AI unir las marcas mediante lineas rectas se obtiene el poligono de frecuen­cia. La figura 2.3.4 muestra el polfgono de frecuencia para los datos de edades de latabla 2.2.1.Observe que el poligono cae sobre el eje horizontal en los extremos en lospuntos que corresponderian a los puntos medios en caso de haber una celda adi­donal en cada extremo del histograma correspondiente. Esto permite que el areatotal sea delimitada. El area total bajo el poligono de frecuencia es igual al area bajo70 7060 60"550 ro550c:<Il:::l(Je?u..403020c:<Il:::l(Je?u..40302010 100 014.5 24.5 34.5 44.5 54.5 64.5 14.5 24.5 34.544.5 54.5 64.5Edad EdadFIGURA2.3.4 Pollgono defrecuencia para las FIGURA 2.3.5 Histograma y poligono de fre­edades de 169 individuos incluidas en la tabla cuencia para las edades de 169 individuos inclui­2.2.1. das en la tabla 2.2.1.
    • 252.3 DATOS AGRUPADOS Y DlSTRIBUCION DE FRECUENCIASel histograma. La figura 2.3.5 muestra el poligono de frecuencia de la figura 2.3.4sobrepuesta al histograma de la figura 2.3.2. Esta figura permite observar la rela­cion entre las dos formas graficas para un mismo conjunto de datos.Desplkgues de lalla y hajas atro sistema grafico muy util para representarconjuntos de datos cuantitativos es el despliegue de tallo y hojas. Un despliegue deeste tipo presenta una gran similitud con el histograma y tiene el mismo proposito.Un despliegue construido correctamente, al igual que un histograma, proporcionainformacion respecto al rango del conjunto de datos, muestra la ubicacion de lamayor concentracion de mediciones y revela la presencia 0 ausencia de simetrfa.Una ventaja del despliegue de tallo y hojas sobre el histograma es que conserva lainformacion contenida en las mediciones individuales. Tal informacion se pierdecuando las mediciones son asignadas a los intervalos de clase del histograma. Comose vera mas adelante otra ventaja adicional del despliegue es que puede construirsedurante el proceso de marcaje, de tal forma que se elimina el paso intermedio (lapreparacion de un arreglo ordenado).Para construir un despliegue se divide cada medicion en dos, la primera partese llama tallo y la segunda, hojas. EI tallo se forma con uno 0 mas digitos iniciales de lamedicion, y las hojas se forman con uno 0 mas de los digitos restantes. Todos losnumeros divididos se muestran en un solo despliegue; los tallos forman una columnaordenada de menor a mayor. En la columna de tallos se incluyen todos aquellos quese encuentren dentro del rango de los datos, aun cuando una medicion con ese tallono este en el conjunto de datos. Los renglones del despliegue contienen las hojasordenadas en una lista a la derecha de sus respectivos tallos. Cuando las hojas seforman con mas de un digito, todos los digitos despues del primero se pueden bo­rrar. Los decimales, cuando ocurren en los datos originales, se omiten en el desplie­gue. Los tallos se separan de sus hojas mediante una linea vertical. Asi, se observa queun despliegue tambien es un arreglo ordenado de los datos.Los despliegues de tallo y hojas son mas eficientes en conjuntos de datos rela­tivamente pequeiios. Como una norma, no es aconsejable utilizarlos en informesanuales 0 en otros medios de difusion para el publico en general. Son una ayudabasica para que investigadores y tomadores de decisiones comprendan la natura­leza de sus datos. Los histogramas son mas adecuados para las publicaciones decirculacion externa. EI siguiente ejemplo ilustra la construccion del desplieguede tallo y hojas.FJEMPLO 2.3.2Utilice los datos de edades de la tabla 2.2.1 para construir un despliegue de tallo yhojas.Soindon: Puesto que todas las mediciones son numeros de dos dfgitos, se tienentallos y hojas de un digito cada uno. Por ejemplo, la medicion 18 tieneun tallo de 1 y una hoja de 8. La figuni 2.3.6 muestra el despliegue detallo y hojas para los datos.
    • 26 CAPITULO 2 ESTADISTICA DESCRIPTIVATallo Hoja1 88992 0111222222333333344444444455556666666666677777777778888888999999993 0000000000111111122222333444445666777~7888889994 0000001112222333444555667777888888995 0001122333366 1233FIGURA 2.3.6 Despliegue de tallo y hojas para las edades de 169 individuos incluidas en la tabla2.2.1 (unidad de tallo = I, unidad de hoja = I).EI paquete de software estadistico MINITAB se puede utilizar paraelaborar el despliegue de tallo y hojas. Con los datos en la columna 1,Hamada "Edad", el paquete produce y presenta una salida como la que semuestra en la figura 2.3.7. El subcomando increment especifica la distanciadesde el primer tallo hasta el siguiente. Los numeros en las columnas delextrema izquierdo de la figura 2.3.7 proporcionan informacion respectoal numero de observaciones (hojas) en una linea dada y por encima deella, 0 el numero de observaciones en esa linea y en la de abajo.Caja de dialogo: Comandos de la sesi6n:MTB > Stem-and-Leaf Edadi.Graph >- Characte~ Graphs >- Histogram >­ SUBC> Increment 10.Stem-and-LeafTedear Edad en Variables. Tedear 10 en Increment. ClicOK.Resultados: Oespliegue en modo caracter de tallo y hojas Stem-and-Leaf of Edad N= 169 Leaf Unit = 1.0 4 1 889970 2 01112222223333333444444444555566666666666777777777788888889999999+(47) 3 00000000001111111222223334444456667777788888999 . 52 4 0000001112222333A4455566777788888899 16 5 000112233336 4 6 1233FIGURA 2.3.7 Despliegue de tallo y hojas preparado por el paquete MINITAB a partirde los datos de las edades incluidas en la tabla 2.2.1.
    • EJERCICIOS 27Por ejemplo, el numero 70 sobre la segunda linea indica que hay70 observaciones (u hojas) en esa linea yen la de arriba. EI numero 52en la cuarta linea (contando desde arriba) dice que hay 52 observacio­nes en esa linea y en todas las de abajo. El numero entre parentesisdice que hay 47 observaciones en esa lInea. Los parentesis indican lalineaque contiene la observaci6n central si el numero total de observa­ciones es impar, 0 las dos observaciones centrales si el numero total deobservaciones es par.EI signa + al final de la segunda linea de la figura 2.3.7 indica quela frecuencia para esa linea (el grupo de edades de 20 a 29) excede lacapacidad de la lfnea, y que existe al menos una hoja adicional que no semuestra. En este caso, la frecuencia para el grupo de edades de 20-29 esde 66. En la linea hay s6lo 65 hojas, as! que el signo + indica que existeuna hoja mas, un 9, que no se muestra. •Una manera para no exceder la capacidad dela linea es tener mas lineas. Estose puedehacer acortando la distancia entre las lfneas, es decir, reduciendo la ampli­tud de los intervalos de c1ase. Para este ejemplo, se puede utilizar un intervalo dedases con amplitud 5, as! que la distancia entre las lfneas es de 5. La figura 2.3.8muestra el resultado producido por el paquete MINI1AB para el despliegue detallo y hojas.Stem-and-Leaf of Edad N 169Leaf Unit 1.04 1 889930 2 0111222222333333344444444470 2 5555666666666667777777777888888899999999(30 ) 3 000000000011111112222233344444 69 3 56667777788888999 52 4 0000001112222333444 33 4 55566777788888899 16 5 00011223333 5 5 6 4 6 1233 FIGURA 2.3.8 Despliegue de tallo y hojas preparado por el paquete MINITAB a partirde los datos de las edades incluidas en la tabla 2.2.1, con intervalos de clase de amplitud =5.EjERCICIOS2.3.1 En un estudio de la actividad proliferativa del cancer de seno, Veronese y Gambacorta (A-1)utilizaron los metodos inmunohistoquimico y de anticuerpos monoclonal Ki-67. Los investi­gadores obtuvieron tejido tumoral de 203 pacientes con carcinoma de pecho. Los pacientes
    • 28 CAPiTULO 2 ESTADISTICA DESCRIPTIVAtenfan entre 26 y 82 aftos de edad. La siguiente tabla muestra los valores de !{i-67 (expresa­dos en porcentajes) para esos pacientes.10.12 10.80 10:54 27.30 8.3810.15 5.48 23.50 32.60 42.7019.30 16.40 4.40 26.80 16.6033.00 11.65 26.30 1.73 35.909.63 9.31 7.40 9.35 14.78~1.42 25.11 12.60 17.96 41.1228.30 19.50 15.92 19.40 7.194.65 73.00 17.84 10.90 2.7421.09 11.95 33.30 .. 4.53 19.401.00 27.00 9.03 51.20 6.4013.72 32.90 9.80 2.43 2.008.77 9.40 35.40 51.70 43.503.00 4.70 14.00 15.00 3.604.09 9.20 6.20 5.00 15.0017.60 50.00 10.00 20.00 30.005.22 5.00 15.00 25.00 10.0012.70 30.00 10.00 15.00 20.007.39 4.00 25.00 20.00 30.0021.36 49.85 29.70 19.95 5.0011.36 24.89 29.55 10.00 38:908.12 28.85 19.80 4.99 6.003.14 5.00 44.20 30.00 9.884.33 9.20 4.87 10.00 29.105.07 2.00 3.00 2.00 2.968.10 4.84 9.79 5.00 9.504.23 10.00 19.83 20.00 4.7713.11 75.00 20.00 5.00 4.554.07 14.79 8.99 3.97 30.006.07 15.00 40.00 18.79 13.7645.82 4.32 5.69 1.42 18.575.58 12.82 4.50 4.41 1.885.00 10.00 4.12 14.24 9.119.69 8.37 6.20 2.07 3.124.14 2.03 2.69 3.69 5.424.59 10.00 6.27 6.37 13.7827.55 9.83 6.55 8.21 3.423.51 9.10 11.20 6.88 7.538.58 5.00 29.50 9.60 6.0314.70 5.60 28.10 5.48 7.006.72 3.32 13.52 5.70 17.8013.10 9.75 7.37FUENTE: Utilizado con autorizaci6n de Silvio M. Veronese, Ph. D.
    • EJERCICIOS 29a) Construya con los datos:Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativas Una distribuci6n de frecuencias acumuladas Una distribuci6n de frecuencias relativas acumuladas Un histograma Un poligono de frecuencia b) ~Que porcentaje de las mediciones es menor que 10? c) ~Que proporci6n de individuos tiene mediciones mayores 0 iguales que 20? d) ~Que porcentaje de mediciones esta entre 20 y 49, inclusive? e) ~Cuantas mediciones son mayores que 39? t) ~Que proporci6n de las mediciones es menor que 10 0 mayor que 69? g) Alguien selecciona aleatoriamente una medici6n de este conjunto de datos y Ie pide que adivine el valor. ~Cual seria su respuesta? ~Por que? b) La distribuci6n de frecuencias y sus histogramas pueden ser descritas de varias maneras segUn su forma. Por ejemplo, puede ser simetrica (la mitad izquierda es al menos aproxima­damente igual a la mitad de la derecha), con inclinaci6n a la izquierda (las frecuencias tien­den a incrementarse conforme-Ias medicionesse iilcrementan en tamano), con inclinaci6n a la derecha (las frecuencias tienden a decrecer conforme las mediciones disminuyen en tama­no), 0 en forma de U (las frecuencias son-altas en cada extrema y cortas en el centro). ~C6mo se describe esta distribuci6n? 2.3.2 Jarjour et al. (A-2) realizaron un estudio en el que se midieron los niveles de histamina delfluido de lavado bronquialveolar (BAL, siglas en ingles) en individuos con rinitis alergica,individuos con asma y voluntarios normales. Una de las mediciones obtenidas es la protei­na total Olg/ml) en muestras de BAL. Los siguientes son los resultados de 61 muestrasanalizadas:76.33 57.73 74.78 100.36 73.5077.63 88.78 77.40 51.16 62.20149.49 86.24 57.90 72.10 67.2054.38 54.07 91.47 62.32 44.7355.47 95.06 71.50 73.53 57.6851.70 114.79 61.70 47.2378.15 53.07 106.00 35.9085.40 72.30 61.10 72.2041.98 59.36 63.96 66.6069.91 59.20 54.41 59.76128.40 67.10 83.82 95.3388.17 109.30 79.5558.50 82.60 153.5684.70 62.80 70.1744.40 61.90 55.05FUENTE: Utilizado con autorizaci6n de Nizar N. ]arjour, M. D.
    • 30 CAPITULO 2 ESTADISTICA DESCRIPTIVAa) Construya con los datos:Una distribuci6n de frecuenciasUna distribuci6n de frecuencias relativasUna distribuci6n de frecuencias acumuladasUna distribuci6n de frecuencias relativas acumuladasUn histogramaUn polfgono de frecuenciab) ~Que porcentaje de mediciones esta entre 55 y 114, inclusive? c) ~Cuantas mediciones son menores que 95? d) ~Que proporci6n de las mediciones es mayor 0 igual que 75? e) ~Que porcentaje de mediciones es menor que 55 0 mayor que 114.99? f) Remitase al ejercicio 2.3.1 inciso h para describir la distribuci6n de proteina total en las muestras de BAL en terminos de simetria e inclinaci6n. 2.3.3 Ellis etal. (A-3) realizaron un estudio para investigar las caracteristicas de uni6n de la imipraminaa las plaquetas en pacientes maniacos y comparar los resultados con datos equivalentes depersonas sanas y pacientes depresivos. Como parte del estudio, los investigadores obtuvieronlos valores maximos de uni6n a la molecula receptora (Brna) en estos individuos. Los siguientesvalores son de 57 inqividuos estudiados que fueron diagnosticados con depresi6n unipolar.1074 392 286 179372 475 511 530473 319 147 446797 301 476 328385 556 416 348769 300 528 773797 339 419 697485 488 328 520334 1114 1220 341670 761 438 604510 571 238 420299 306 867 397333 80 1657303 607 790768 1017 479FUENTE: Utilizado con autorizaci6n de Peter E. Ellis.a) Construya con los datos:Una distribuci6n de frecuenciasUna distribuci6n de frecuencias relativasUna distribuci6n de frecuencias acumuladasUna distribuci6n de frecuencias relativas acumuladasUn histogramaUn polfgono de frecuenciab) ~Que porcentaje de mediciones es menor que 500?c) ~Que porcentaje de mediciones esta entre 500 y 999, inclusive?
    • EJERCICIOS 31d) ~Que porcentaje de mediciones es mayor que 749?e) Describa estos datos con respecto a la simetria e incIinaci6n tal como se estudi6 en el ejercicio2.3.1, inciso h. f) C:Cuantas de las mediciones son menores que 1000? 2.3.4 EI objetivo de un estudio de Herrman et at. (A-4) era determinar la prevalencia de des6rdenesmentales severos en una muestra representativa de convictos de tres centros de readaptaci6nsocialen Melboume, Australia. Los tres grupos de convictos se cIasificaron como: aquellos queestuvieron de acuerdo en ser entrevistados, aquellos que rehusaron ser entrevistados y aquellosque estuvieron de acuerdo en sustituir a aquellos que se rehusaron a participar. Ademas deevaluar la prevalencia de des6rdenes mentales entre los individuos, los investigadores ob­tuvieron informaci6n del tiempo de sentencia y tiempo de confinamiento al momento delestudio. Los siguientes datos son el tiempo minimo de sentencia (en dfas) para cada indivi­duo que rehus6 la entrevista.18 4380 0 3604955 720 1095 7272190 730 365 1275450 455 180 3443650 0 2340 25552920 540 360 545270 545 180 901000 0 2005 60270 150 717 540180 1825 3710 90910 2920 180 66090 270 2555 365253 284 4015 3100450 330 2885 1050360 0 730 901460 1000 3160 4501095 1460 910 1200635 360 360 1201953 0 466 1460844 120 2920 409360 1095 240 910570 330 4745 0951 540 88 1125540 730 545450 90450 1670730FUENTE: Utilizado con autorizacion de HelenHerrman, M. D.a) Construya con los datos: Una distribuci6n de frecuencias relativasUna distribuci6n de frecuencias acumuladasUna distribuci6n de frecuencias relativas Un histogramaUna distribuci6n de frecuencias acmnuladas Un poligono de frecuencia
    • 32 CAPITULO 2 ESTADISTICA DESCRIPTIVAb) Describa estos datos con respecto a la simetria e inclinad6n tal como se estudi6 en elejercido 2.3.1, indso h.c) ~Por que se cree que los datos esuin inclinados de esa manera?d) ~C6mo podrian utilizar los investigadores esta informacion en estudios posteriores?e) (Cmintas mediciones son mayores que 729?f) (Que porcentaje de mediciones es menor que 1460?2.3.5 La siguiente tabla muestra e1 numero de horas de sueno de 45 pacientes de un hospital comoconsecuencia de la administracion de derto anestesico.7 10 12 4 8 7 3 8 512 11 3 8 1 1 13 10 44 5 5 8 7 7 3 2 38 13 1 7 17 3 4 5 53 1 17 10 4 7 7 11 8a) Construya a partir de estos datos:Una distribuci6n de frecuencias Un histogramaUna distribuci6n de frecuendas relativas Un poHgono de frecuenciab) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en elejercicio 2.3.1, inciso h.2.3.6 Los siguientes datos corresponden al numero de ninos que nacieron durante un ano, en 60hospitales comunitarios:30 55 27 45 56 48 45 49 32 57 47 5637 55 52 34 54 42 32 59 35 46 24 5732 26 40 28 53 54 29 42 42 54 53 5939 56 59 58 49 53 30 53 21 34 28 5052 57 43 46 54 31 22 31 24 24 57 29a) Construya a partir de estos datos:Una distribuci6n de frecuenciasUna distribuci6n de frecuencias relativasUn histogramaUn poligono de frecuendab) Describa estos datos con respecto a la simetria e inclinaci6n tal como se estudi6 en elejercicio 2.3.1, inciso h.2.3.7 En un estudio acerca de los niveles de resistenda fisica de estudiantes varones de recienteingreso a la universidad, se registraron las siguientes puntuaciones con base en algunas ruti­nas de ejercicios.254 281 192 260 212 179 225 179 181 149182 210 235 239 258 166 159 223 186 190180 188 135 233 220 204 219 211 245 151198 190 151 157 204 238 205 229 191 200222 187 134 193 264 312 214 227 190 212165 194 206 193 218 198 241 149 164 225265 222 264 249 175 205 252 210 178 159220 201 203 172 234 198 173 187 189 237272 195 227 230 168 232 217 249 196 223232 191 175 236 152 258 155 215 197 210(ContinUa)
    • EJERCICIOS 33214· 278 252 283 205 184 172 228 193 130218 213 172 159 203 212 117 197 206 198169 187 204 180 261 236 217 205 212 218191 124 199 235 139 231 116 182 243 217251 206 173 236 215 228 183 204 186 134188 195 240 163 208a) Construya a partir de estos datos: Una distribuci6n de frecuencias Una distribuci6n de frecuencias relativasUn poligono de frecuenciaUn histogramab) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en elejercicio 2.3.1, inciso h.2.3.8 Las edades indicadas a continuaci6n corresponden a 30 pacientes atendidos en la sala deurgencias de un hospital un viernes por la nocbe. Construya un despliegue de tallo y hojascon esos datos. Describir estos datos con respecto a la slmetrfa e inclinaci6n tal como seestudi6 enel ejercicio 2.3.1, inciso h.. 35 32 21 43 39 6036 12 54 45 37 5345 23. 64 10 34 2236 45 55 44 55 4622 38 35 56 45 572.3.9 Los siguientes datos corresponden a los cobros realizados a 25 pacientes en la sala de urgen­cias de dos hospitales urbanos. Construya un despliegue de tallo y hojas para cada conjuntode datos. :Que sugiere la comparaci6n de los dos despliegues respecto a los dos hospitales?Describa los dos conjuntos de datos con respecto a la simetrfa e inclinaci6n tal como seestudi6 en el ejercicio 2.3.1. inciso h.Hospital A249.10 202.50 222.20 214.40 205.90214.30 195.10 213.30 225.50 191.40201.20 239.80 245.70 213.00 238.80171.10 222.00 212.50 201.70 184.90248.30 209.70 233.90 229.80 217.90Hospital B199.50 184.00 173.20 186.00 214.10125.50 143.50 190.40 152.00 165.70154.70 145.30 154.60 190.30 135.40167.70 203.40 186.70 155.30 195.90168.90 166.70 178.60 150.20 212.40
    • 34 CAPITULO 2 ESTADISTICA DESCRIPTIVA2.3.10 Para este ejercicio es necesario utilizar los datos del ejemplo 1.4.1 desplegados en latabla 1.4.1.a) Construya intervalos de clase con amp1itud 5 para:Una distribuci6n de frecuenciasUna distribuci6n de frecuencias relativasUna distribuci6n de frecuencias acumuladasUna distribuci6n de frecuencias relativas acumuladasUn histogramaUn poHgono de frecuenciab) Describa estos datos con respecto a la simetrfa e inclinaci6n tal como se estudi6 en elejercicio 2.3.1, incisoh.2.3.11 Los objetivos de una investigaci6n realizada por Skjelbo et ai. (A-5)fueron examinar: a) larelaci6n entre el metabolismo de La cloroguanida y la eficacia de la profilaxis contra la mala­ria;·o) el metabolismo de la mefenitoina y su relaci6n con el metabolismo de la cloroguanidaentre habitantes de Tanzania. A partir de la informacion proporcionada por las muestras deorina de 216 individuos, los investigadores calcularon el porcentaje de inmutabilidad de S­mefenitofna hacia R-mefenitoina (porcentaje SIR). Los resultados son los siguientes:0.0269 0.0400 0.0550 0.0550 0.0650 0.0670 0.0700 0.07200.0760 0.0850 0.0870 0.0870 0.0880 0.0900 0.0900 0.09900.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.09900.0990 0;0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.09900.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.0990 0.09900.0990 0.0990 0.0990 0.0990 0.0990 0.1000 0.1020 0.10400.1050 0.1050 0.1080 0.1080 0.1090 0.1090 0.1090 0.11600.1190 0.1200 0.1230 0.1240 0.1340 0.1340 0.1370 0.13900.1460 0.1480 0.1490 0.1490 0.1500 0.1500 0.1500 0.15400.1550 .0.1570 0.1600 .0.1650 0.1650 0.1670 0.1670 0.16770.1690 0.1710 0.1720 0.1740 0.1780 0.1780 0.1790 0.17900.1810 0.1880 0.1890 0.1890 0.1920 0.1950 0.1970 0.20100.2070 0.2100 0.2100 . 0.2140 0.2150 0.2160 0.2260 0.22900.2390 0.2400 0.2420 0.2430 0.2450 0.2450 0.2460 0.24600.2470 0.2540 0.2570 0..2600 0.2620 0.2650 0.2650 0.26800.2710 0.2800 0.2800, 0.2870 0.2880 0.2940 0.2970 0.29800.2990 0.3000 0.3070 0.3100 0.3110 0.3140 0.3190 0.32100.3400 0.3440 0.3480 0.3490 0.3520 0.3,530 0.3570 0.36300.3630 0.3660 0.3830 0.3900 0.3960 0.3990 0.4080 0.40800.4090 0.4090 0.4100 0.4160 0.4210 0.4260 0.4290 0.42900.4300 0.4360 0.4370 0.4390 0.4410 0.4410 0.4430 0.45400.4680 0.4810 0.4870 0.4910 0.4980 0.5030 0.5060 0.52200.5340 0.5340 0.5460 0.5480 0.5480 0.5490 0.5550 0.59200.5930 0.6010 0.6240 0.6280 0.6380 0.6600 0.6720 0.68200.6870 0.6900 0.6910 0.6940 ().7040 0.7120 0.7200 0.72800.7860 0.7950 0.8040 0.8200 0.8350 0.8770 0.9090 0.95200.9530 0.9830 0.9890 l.()120 l.0260 l.0320 1.0620 1.1600FUENTE: Utilizado con autorizaci6n de Erik Skjelbo, M. D.
    • EJERCICIOS 35a) Construya con los datos las siguientes distribuciones: frecuencia, frecuencia relativa, fre­cuencia acumulada y frecuencia relativa acunmlada; asi como las siguientes graficas:histograma, poligono de frecuencia y desplieglte de tallo y hojas. .b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en elejercicio 2.3.1, inciso h. .c) Los investigadores definieroncomo metabolizantes de bajo rendimiento de mefenitoina acualquier individuo con un porcentaje mefenitofna SIR mayor a .9. ~Cuantos y que porcenta­je de individuos son metabolizantesde bajo rendimiento?d) ~Cuantos y que porcentaje de individuos tienen porcentajes menores que.7, entre .3 y.6999, inclusive, y mayores que .4999?2.3.12 Schmidt et al. (A-6) efectuaron un estudio para investigar si la autotransfusi6n de sangreextraida del mediastino podia reducir el numero de pacientes que necesitaba transfusionesde sangre homologay reducir la cantidadde sangre hom61oga transfundida utilizando crite­rios de transfusion fijos. La siguiente tabla muestra las estaturas en centimetros de 109 indi­viduos de los cuales 97 son varones.1.720 1.710 1.700 1.655 1.800 1.7001.730 1.700 1:820 1.810 1.720 1.8001.800 1.800 1.790 1.820 1.800 1.6501.680 1.730 1.820 1.720· 1.710 1.8501.760 1.780 1.760 1.820 1.840 1.6901.770 1.920 1.690 1.690 1.780 1.7201.750 1.710 1.690 1.520 1.805 1.7801.820 1.790 1.760 1.830 1.760 1.8001.700 1.760 1.750 1.630 1.760 1.7701.840 1.690 1.640 1.760 1.850 1.8201.760 1.700 1.720 1.780 1.630 1.6501.660 1.880 1.740 1.900 1.8301.600 1.800 1.670 1.780 1.8001.750 1.610 1.840 1.740 1.7501.960 1.760 1.730 1.730 1.8101.810 1.775 1.710 1.730 1.7401.790 1.880 1.730 1.560 1.8201.780 1.630 1.640 1.600 1.8001.800 1.780 1.840 1.8301.770 1.690 1.800 1.620FUENTE: Utilizado con autorizaci6n de Henrik Schmidt, M. D.a) Construya con los datos las siguientes distribuciones: frecuencia, frecuencia relativa, fre­cuencia acumulada y frecuencia relativa acumulada; as! como las siguientes grMicas: histograma, poligono de frecuencia y despliegue de !;allo y hojas. b) Describa estos datos con respecto a la simetria e inclinacion tal como se estudio en el ejercicio 2.3.1, inciso h. . c) ~C6mo se puede explicar la forma de distribucion de estos datos? d) ~Que tan altos son el6.42 por ciento de individuos mas altos? e) ~Que tan altos son ell0.09 por ciento de individuos de menor estatura?
    • 36 CAPITULO 2 ESTADISTICA DESCRIPTIVA2.4 ESTADiSTICADESCRIPTIVA:MEDIDAS DE TENDENCIA CENTRALAunque las distribuciones de frecuencia sirven a prop6sitos muy titiles, existenmuchas situaciones en que se requieren otros tip6s de resumen de datos. Lo que senecesita, en muchos casos, es la: posibilidad de condensar datos por medio de uns610 ntimero llamado medida descriptiva. Las medidas descriptivas pueden calcularsea partir de los datos de unamuestra 0 de una poblaci6n. Para distinguirlas entre sfse tienen las siguientes definiciones:DEFINICIONES1. Una Inedida descriptiva calculada a partir de los datosde una m1,lestra se llaIna estadistica.2. Una Inedida descriptiva calculada a partir de los datosde una poblacion se llaIna parametro.Algunos tipos de medidas descriptivas se pueden calcular a partir de un con­junto de datos. Sin embargo, este capitulo se limita al estudio de las medidas detendencia central y de las medidas de dispersion. Las medidas de tendencia central seconsideran en esta secci6n, y las medidas de dispersi6n, en la siguiente.Encada una de las medidas de tendenda central, de las que se discuten s6lotres, tinicamente un valor delconjunto de datos se considera como el representati­vo del todo. Las medidas de tendencia central conllevan informaci6n respecto alvalor promedio de un conjunto de valores. Tal como se vera, la palabra promedio sepuede definir en diversas formas.Las tres medida~ de tendencia central de uso mas frecuente son: la media, lamoda y la mediana.La media aritmetica La medida de tendencia central mas conocida es la me­dia aritmetica. Esta es la medida descriptiva que la mayona de las personas tienenen mente cuando se habla de "promedio". EI adjetivo aritmetica distingue a estamedia de otras que se puedan calcular. Puesto que no se estudian otras medias eneste libro, no debe ser causa de confusi6n si al referirse a la media aritmetica s610 sedice media. La media se obtiene sumando todos los valores en una poblaci6n 0muestra y dividiendo entre el ntimero de valores sumados.FJEMPLO 2.4.1Obtenga la edad media de la poblaci6n de los 169 individuos registrados en latabla 1.4.1.Soluci6n: Se procede de la siguiente forma:27+27+···+23+39edad media =-------­169579716934.302•Los tres puntos en el numerador representan valores que no se muestran paraeconomizar espacio.
    • 2.3 ESTADisTICA DESCRIPTIVA: MEDIDAS DE TENDENCIA CENTRAL 37Formula general para la media Es conveniente generalizar el procedi­miento para obtener la media y, ademas ,representarlo en notaci6n de forma mascompacta. Se inicia por designar a la variable aleatoria con la letra mayiiscula X. Eneste ~empl0 X representa a la variable aleatoria de edad. Los valores espedficospara una variable aleatoria se representan con la letra minuscula x. Para referirse alprimero, alsegundo, al tercer valor, y asf sucesivamente, se afiade un subfndice a lax. Por ejemplo, a partir de la tabla 1.4.1 se tiene:Xl = 27, x;1 = 27, ..., = 39X l69En general, un valor comun para la variable aleatoria se designa con Xi y el valorfinal en una poblaci6n finita de valores, con xN donde N es el numero de valores enla poblacion. Por ultimo, se utiliza la letra griega Il para simbolizar la media de lapoblacion. Ahora se puede escribir la formula general para la media de una pobla­ci6n finita como sigue:NLXi(2.4.1)Il=~NEl simbolo :2.:1significa que todos los valores para la variable se suman desde elprimero hasta el ultiIJ1.o. A este slmbolo L se Ie conoce como signa de sumataria, y seutiliza extensamente en este libro. Cuando por el contexto sea obvio cuales son losvalores que se suman, los simbolos de arriba y de abajo del signo L se omiten.La media de la muesira Cuando se calcula laIl1edia para una muestra devalores, el procedimiento reciendescrito requiere algunas modificaciones en la nota­cion. Se utiliza 3c para identificar a la media dela muestra, yn para indicar el numerode valoresenla muestra. For 10 tanto, la media de la muestra se expresa como sigue:(2.4.2) nEJEMPLO 2.4.2. En el capitulo 1 se obtuvo una muestra aleatoria simple de 10 individuos a partir delapoblacion mostrada en la tabla 1.4.1. Ahora corresponde calcular la edad mediade los 10 individuos en la inuestra. .Soludon: Las edades (vease la tabla 1.4.2) de los 10 individuos de la muestra son:XI =42,x =28,x =28,x 61,xs 31,x6 =23,x7 =50,xs =34,xg = 32,2 3 4x10= 37. AI sustituir los datos de la muestra en la ecuaci6n 2.4.2 se obtiene:n:2.Xi 42+28+ ... +37366x=~= =-=36.6n 10 10•
    • 38 CAPITULO 2 ESTADISTICA DESCRIPTIVAPropiedades de ta media La media aritmetica tiene ciertas prapiedades,algunas deseables y otras no tanto. Algunas de estas propiedades son las siguientes:1. Es unica. Para un conjunto de datos existe·una y s610 una media aritmetica.2. Simplicidad. EI calculo y comprension de lamedia aritmetica son sencillos.3. Puesto que todos y cada uno de los valores en d conjunto de datos entran enel dtlculo de la media, esta es afectada por cada valor. Por 10 tanto, los valoresextremos influyen sobre la media y, en algunos casos, pueden distorsionarlatanto que llega a ser indeseable como medida de tendencia central.A contipuacion se muestra un ejemplo de como los valores extremos puedenafectar la media. Considere la siguiente situacion: cinco medicos que trabajan encierta area son llamadosa declarar sus cobras por realizar cierto procedimiento.Suponga que se reporta 10 siguiente: $75, $75,$80, $80 Y$280. EI cobra mediopara los cinco medicos es de $118, un valor que no es muy representativo del con­junto de datos. El unico valor atlpico del conjunto tuvo el efecto de inflar la media.La mediana La mediana de un conjunto finito de valores es aquel valor quedivide al conjunto en dos partes iguales, de forma que el numero de valores mayo­res 0 iguales a la mediana es igual al numera devalores menores 0 iguales a esta. Siel numero de valores es impar, la mediana es el valor medio 0 central siempre ycuando todas las variables sean arregladas eri orden de magnitud. Cuando el nu­mera de valores en e!: conjunto es pat, no existe un valor medio unico, sino queexisten dos valores medios. En tal caso, la mediana corresponde a la media de esosdos valores centrales, cuando todos los valores son arreglados en orden de magni­tud. Es decir, la mediana del conjuntode datos .es la (n+ 1) 12-esima observacion,cuando las observaciones han sido ordenadas. Por ejemplo, si se tienen 11 observa­cjones, la mediana es la (11 + 1) 12 ~ 6-esima observadon ordenada. Si se tienen12 observaCiones, la mediana es la (12+ 1)/2=6.5-esima observacion ordenada yesel valor que esta entre la sexta y septima observaci6n ordenada.EJEMPLO 2.4.3Encuentre la mediana de los datos contenidos en la tabla 2.2.1.Soluci6n: En la tabla, los valores ya estan ordenados, de modo que s610 se requiereencontrar losqos valores medios.El valor medio es el (n+ 1)/2 =(169+ 1)12 170/2 85-esimo. Contando desde el mas pequeno hasta el 85­esimo valor se observa que corresponde al 31. Por 10 tanto, la edad me­diana de los 169 individuos es de 31 anos. •FJEMPLO 2.4.4Obtenga ahora la edad mediana para los ind}viduos de la muestra descrita en elejemplo 2.4.2.
    • 392.5 ESTADisTICA DESCRIPTIVA: MEDIDAS DE DISPERSIONSoluci6n: Al arreglar las 10 edades en orden de magnitud desde el valor mas pe­quefio hasta el mas grande seobtiene 23,28,28,31,32,34,37,42,50,61. Puesto que se trata de un numero impar de valores, no existe solo unvalor central. Sin embargo, los dos valores del centro son 32 y 34, asf quela mediana es (32 + 34)/2 = 33. •_ Propiedades de la mediana Entre las propiedades de la mediana se en­cuentran las siguientes:1. Es unica. Al igual que en el caso de la media, existe solamente una medianapar~un conjunto de datos.2. Simplicidad. Es muy sencillo calcularla.3. Los valores extremos no tienen efectos importantes sobre la mediana, 10 quesf ocurre con la media.La moda La moda de un conjunto.devalores es aquel valor que ocurre conmayor frecuencia. Si todos los valores son diferentes, no hay moda. Por otra parte,un conjunto devalores puede tener mas de una moda.FJEMPLO 2.4.5Encuentre laedad modal de los individuos cuyas edades se presentan en la tabla 2.2.1.Soluci6n: El conteo de las edades en la tabla 2.2.1 revela que la edad 26 ocurrecon mas frecuencia (11veces). La moda para esta poblaci6n de edadeses de 26. •Para ilustrar un conjunto de valores que tiene mas de una moda, considere unlaboratorio con diez empleados cuyas edades son: 20, 21,20,20,34,22,24,27,27Y27. Se puede decir que estos datos tienen dos modas 20 y 27. Una muestra queconsista en los valores 10, 21, 33, 53 Y 54 no tiene moda,puestoque todos losvalores son diferentes.La moda se puedeutilizarpara describir datos cualitativos. Por ejemplo, su­ponga que los pacientes de una cHnica de salud mental durante un afio dado reci­bieron uno de los siguientes diagnosticos: retardo mental, sfndrome cerebralorganico, psicosis, neurosis y trastornos de personalidad.El diagh6stico que ocurrecon mayor frecuencia en el grupo de pacientes se denominarfa diagnostico modal.2.5 ESTADISllCA DESCRIP11VA:MEDIDA.." DE DISPERSIONG dispersion de un conjunto de observaciones se refiere a la variedad que muestranestas. Una medida de dispersion conlleva informacion respecto ala cantidad totalde variabilidad presente en el conjunto de datos. Si todos los valores son iguales,no hay dispersion, perosi no todos son iguales, entoncesexiste dispersi6n en losdatos. La magnitud de la dispersion es pequefia cuando los valores, aunque dife­rentes, son cercanos entre sf. La figura 2.5.1 muestra los pollgonos de frecuencia
    • 40 CAPiTULO 2 ESTADiSTICA DESCRIPTIVAPobIaci6n A,...".........~, Poblacl6n B,",,)1FIGUBA 2.5.t Dos distribuciones de frecuencias con igualmedia pero diferente magnitud de dispersi6n.para dos poblaciones que tienen medias iguales, pero diferente magnitud de varia­bilidad. La poblacion B, mas variable que la poblaeion A, es mas dispersa. Si losvalores estan ampliamente esparcidos, la dispersion es mayor. Otros ti!:rminos sino­nimos de dispersion son: variaciOn, expansion y dispersion.El mngo 0 inlervalo de variacion Una forma de medir la vanacion en uneonjunto de valores es ealculando el rango. Este es la difereneia entre el valor mas pe­quenoy el mas grande en un eonjumo de observaciones. Si se representa el rango comoR, el valor mayor como xL Yel valor menor como xs el rango se ealcula como sigue:(2.5.1)EJEMPLO 2.5.1Caleule el rango de las edades de los individuos de la muestra estudiada en elejemplo 2.4.2.Soluci6n: Puesto queel individuo mas joven en la muestra tiene 23 anos y el masviejo tiene 61, el rango calculado es:R = 61- 23 .38•La utilidad de rango es limitada. EI hecho de que toma en consider;acion solo dosvalores hace que sea una medida pobre de dispersion. Su ventaja principal es lasimplicidad de su caleulo. .La variancia Cuando los valores de un conjunto de observaciones se eneuen­tran ubicados cerca de su media,la dispersion es menor que cuando estan esparcidos.En consecuencia, sepuede pensar intuitivamente que es posible medir la disper­sion en funcion del esparcimiento de los valores alrededor de su media. Esta medi­
    • 412.5 ESTADISTICA DESCRIPTIVA: MEDIDAS DE DISPERSIONcion se efectlia mediante 10 que se conoce como variancia. Por ejemplo, para calcu­lar la variancia de una muestra de valores, se resta la media de cada uno de losvalores individuales, las diferencias se elevan al cuadrado y despues se suman entresf. Esta suma de desviaciones elevadas al cuadrado de los valores con respecto a lamedia se divide entre el tamafio de la muestra, menos 1, para obtener la varianciade la muestra. Si se asigna la letra S2 para simbolizar la variancia de la muestra, elprocedimiento descrito se expresa como sigue:9 i=l (2.5.2)s-=..:..,.:---­n-lFJEMPl,O 2.5.2.Calcule la varianda de las edades de los individuos estudiadas en el ejemplo 2.4.2.Soluci6n:.(42 -36.6)2 + (28 -36.6)2 +... +(37 36.6)291196.399997= ---,.,--;--- 132.933333•9Grados de libertad La razon de dividir entre n - 1, en lugar de entre n, comohubiera de esperarse, es una consideracion teorica conocida comogradas de libertad.En el calculo de la variancia, se puede decir que hay n - 1 gradas de libertad. Elrazonamiento es como sigue: la suma de lasdesviaciones de los valores individualescon respecto a su media es igual acero, hecho que puede demostrarse. Si se cono­cen los valores de n 1 de las desviaciones a partir de la media, entonces se conoceel n-esimo valor, ya que queda determinado automaticamente debido a la restric­cion de que todos los valores de n se sumen a cero. Desde un punto de vista practi­co, dividir las diferencias al cuadrado entre n 1en lugar de entre n resulta necesariopor razones del usa de la variancia de la muestra en los procedimientos de inferen­cia que se estudian posteriormente. Elconcepto de grados de libertad se tratara denuevo mas adelante. Los estudiantes interesados en profundizar en este aspectopueden consultar el articulo de Walker (2).Cuando se calcula la variancia a partir de una poblacion finita de N valores, sesigue el procedimiento recien descrito, excepto que se resta Jl de cada x y se divideentre N en lugar de N-l. Si se asigna el sfmbolo (52 para la variancia de una pobla­cion finita, la formula es la siguiente:(2.5.3)NDesviaclOn estdndar La variancia representa unidades al cuadrado, por 10que no es una medida adecuada de dispersioilsi se pretende expresar este concep­to enlerminos de las unidades originales. Para obtener la medida de dispersion enunidades originales, simplemente se obtiene la rafz cuadrada de la variancia. El
    • 42 CAPITULO 2 ESTADISTICA DESCRIPTIVAresultado se llama desviaci6n estandar. En general, la desviacion estandar de unamuestra se obtiene mediante la siguiente formula:(2.5.4)sn-lLa desviacion estandar de una poblacion finita se obtiene con la raiz cuadradade la cantidad resuitante de la ecuacion 2.5.3.El coeftciente de variacion La desviacion estandar es util como medida devariacion en un determinado conjunto de datos. Sin embargo, cuando se quierecomparar la dispersion de dos conjuntos de datos, la comparacion de las dosdesviaciones estandar puede dar un resultado equivocado. Esto puede ocurrir silas dos variables involucradas tienen medidas en diferentes unidades. Por ejem­plo: se pretende conocer, para una poblacion dada, si los niveles de colesterol enel suero, medidos en miligramos por cada 100 mI, son mas variados que el pesodel cuerpo, medido en libras 0 kilogramos. .Ademas, aunque se utilice la misma unidad de medicion, las dos medias pue­den diferir bastante. Si la desviaci6n estandar de los pesos de los ninos de primergrado de primaria son comparadas contra la desviaci6n estandar de los pesos delos estudiantes de preparatoria de reciente ingreso, se encontrani que esta ultimaes numericamente mayor que la anterior, debido a que los pesos mismos son mayo­res y no porque la dispersion sea mayor.Lo que se necesitaensituaciones como esta es una medida de variancia rela­tiva en lugar de una de variancia absoluta. Tal medida la constituye el coeficiente devariaci6n, el cual expresa la desviacion estandar como un porcentaje de la media. Laformula es como sigue:. sc.v. = -= (100) (2.5.5)xSe aprecia entonces que, como la media y las desviacionesestandar se expre­san en la misma unidad de medici6n, la unidad de medici6n se cancela al calcularel coeficiente de variaci6n. Entonces se obtiene una medida independiente de launidad de medici6n.FJEMPLO 2.5.3Los siguientes resultados corresponden ados muestras formadas por varones:Muestra 1 Muestra 2Edad 25 anos 11 afiosPeso medio 145libras 80 librasDesviacion estandar 10libras 10 librasEl prop6sito es saber ~uaI tiene mayor variabilidad, los pesos de individuos de 25anos 0 los de 11 afios.
    • 432.5 ESTADISTICA DESCRIPTIVA: MEDIDAS DE DISPERSI6NSolucion: Una comparacion de las desviaciones estandar puede conducir a la con­clusi6n de. que las dos muestras tienen igual variabilidad. Sin embargo,si se cakulan los coeficientes de variacion, se obtiene para los sujetos de25. aiios de edad:C.V. ~(100)=6.9145y para los de 11 anos de edad:10C.V. == -(100) =12.580Si se comparan estos resultados, la impresi6n recibida es diferente. •EI coeficiente de variaci6n tambien es utH para comparar los resultados obte­nidos por diferentes personas que efectuan investigaciones que involucran la mis­rna variable. Debido a que el coeficiente de variaci6nes independiente de la escalade medici6n, constituye una estadistica util para comparar la variabilidad de dos 0.m~s variables medidas en escalas diferentes. Por ejemplo, podrfa utilizarse el coefi­cienle de variaci6n para comparar la variabilidad de los pesos de una muestra deindividuos cuyos p!,=sos se expresan en libras y la variabilidad de los pesos de otramuestra, expresados en kilogramos.Analisisporcomputadnra Los paquetes de software para computadora pro­porcionan una variedad de posibilidades para el Gilculo de las medidas descripti­vas. En la figura 2.5.2 se muestra una impresi6n de las medidas descriptivasdisponibles en el paquete MINITAB. Los datos son las edades correspondientes alejemplo 2.4.2. Con los datos de la columna 1, el procedimiento MINITAB se mues­tra en la figura 2.5.3.En las salidas impresas Ql y Q3 son el primer y tercer cuartil, respectivamen­teo Estas medidas se describen mas adelante en este capitulo.TRMEAN significa media arreglada. La media arreglada se utiliza algunas ve­ces en lugar de la media aritmetica, como medida de rendencia central. Se calculadespues de que algunos valores extremos son excluidos. Por 10 tanto, la media arre­glada no tiene la desventaja de ser influenciada indebidamente por los valores ex­tremos como en el caso de la media aritmetica. EI termino SEMEAN significa enwestdndar de La media. Esta medida, al igual que la media arreglada, se estudiara condetalle en un capitulo pr6ximo. La figura 2.5.4 muestra, para los mismos datos, lasalida impresa de SAS® que se obtiene al utilizar la instrucci6n PROC MEANS.N10MEAN36.60MEDIAN33.00TRMEAN35.25STDEV11. 53SEMEAN3.65MIN23.00MAX61.00 28.00Q344.00FIGURA 2.5.2 La impresi6n de medidas descriptivas calculadas a partir de la muestra deedades del ejemplo 2.4.2 con el paquete de software estadistico MINITAB.
    • 44 CAPITULO 2 ESTADISTICA DESCRIPTIVACaja de dialogo: Comandos de lei sesi6n:Stat >- Basic Statistics >- Descriptive Statistics MTB > Describe C1Teclear Cl en Variables. Elegir Tabular form bajoDisplay options. Clic OK.FIGURA 2.5.3 EI procedimiento del paquete MINITAB para calcular las medidas des­criptivas a partir de los datos del ejemplo 2.4.2.Perce",iles y cuartiles La media y la mediana son casos especiales de lafamilia de panimetros conocidos comoparametros de localizaci6n. Estas medidas des­criptivasse Haman parametros delocalizacion porque pueden utilizarse para desig­nar ciertas posiciones sobre eleje horizontal cuando se elabora una grMica de ladistribucion de una variable. En ese sentido, los parametros de localizacion "ubi­can" la distribucion sobre el eje horizontaL Por ejemplo, una distribucion con unamediana de 100 se localiza a la derecha de una distribution con una mediana de50, en la grafica de las dos distributiones. Otros parametros de localization son lospercentiles y cuartiles. Se puede definir un percentil como sigue:DEFINICIONDado un conjunto de n observaciones Xl X 2, •••, X n , elp-esu,:..o percentil P es el valor de X, tal que p por ciento 0menos de lasobservaciones son menores que P y (100 - p)por ciento 0 menos de las observaciones son mayores que P.Los subindices en P sirven para distinguir un percentil de otro. El decimopercentiI, por ejemplo, se designa como PIO, el septuagesimo se expresa como P70,y aSl sucesivamente. El percentil quincuagesimo es la mediana, y se designa como EI vigesimo quinto percentil suele representar el primer cuartil, y se expresaPsocomo Qj AI qUincuagesimo percentil (la mediana) se Ie conoce como segundo cuartilo cuartilmedio, denotado por Q2 y al septuagesimo quinto percentil se Ie llama tercercuartil, Qs.VARIABLE N MEAN STANDARD MINIMUM MAXIMUMDEVIATION VALUE VALUEEDADES 10 36.6QOOOOOO 11.52967187. 23.00000000 61.00000000STD ERROR SUM VARIANCE C.V.OF MEAN3.64600238 366.00.000000 132.93333333 31. 502FIGURA 2.5.4 Salida impresa de las medidasdescriptivas c.alculadas a partir de la mues­tra de edades del ejemplo 2.4.2, con el paquete SAS®.
    • 452.5 ESTADtSTICA DESCRIPTIVA: MEDIDAS DE DISPERSIONCuandose pretende encontrar los cuartiles para el conjunto de datos, se uti­lizan las siguientes formulas:n+l ,. b ., d d---eSlma 0 servaClon or ena a42(n+l) n+l. .Q2 = =-- -eSlma observaClon ordenada4 2~------ -esima observaci6n ordenada4Alnplituddel intercuarlil Tal como se ha visto, el rango proporciona una medi­da no piocesada (cruda) de la variabilidad presente en un conjunto de datos. La des­venl:£!ja de la amplitud es el hecho de que esta se calcula a partir de dos valores, el masgrande y el mas pequeno. Una medida similar que refleja lavariabilidad entre el50 porciento central de las observaciones en el conjunto de datos es la amplitud del intercuartil.DEFINICI6NLa alIlpliQ.td del intercuartil (IQR) es la diferencia entreel tercero y el cuarto cuartil, es decir:(2.5.6) Un IQR grande indica Uila magnitud mayor de variabilidad entre el 50 por cientocentral de las observaciones relevantes, yun IQRpequeno indica una magnitud peque­nade variabilidad entre las observaciones relevantes. Puesto que estas expresiones sonbastante vagas, es mas informativa la comparaci6n de la amplitud del intercuartil conla magnitud del conjunto de datos completo. Se puede hacer la comparacion for­mando la razon del IQR con respecto a la amplitud (R) y multiplicando por 100. Esdecjrr 100(IQR/R) indica que el porcentaje de IQR es de toda la amplitud.Groftea de caja con valQres exirelUos (box and whisker) Un disposi­tivo visual muy util para comunicar la informacion contenida en un conjunto dedatos es la grafica de caja con valores extremos (algunas veces Hamada s610 boxplot).Para la construcci6n de esta grafica se usan los cuartiles de un conjunto de datos, yse siguen los cinco pasos que se mencionan a continuacion:I: Representar a la variable de interes sobre el eje de las x.2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo iz­quierdo este alineado can el primer cuartil QJ y el extremo derecho del cua­dro quede alineado can el tercer cuartil Q s3. Dividir el cuadro en dos partes con una linea vertical que se alinee con lamedianaQ24. Dibujar una linea horizontal desde el extremo izquierdo del cuadro hasta el puntoen donde quede alineada can la medici6n mas pequena en elconjunto de datos.5. Dibujar otra linea horizontal desde el extremo derecho del cuadro hasta elpunto donde se alinea con la medicion mas grande en el conjunto de datos.
    • 46 CAPITULO 2 ESTADISTICA DESCRIPTIVATABIA2~5.t Diameu-os (cm) de sarcomas puros extirpados del pechode 20 mujeres.:J,.,1.2 2.1 2.5 2.5 3.0 3.8 4.0 4.2 4.5 5.05.0 5.0 5.0 6.0 6.5 7.0 8.0 9.5 13.0FUENTE: William C. Pitts, Virginia A Rojas, Michael]. Gaffey, Robert V. Rouse, Jose Esteban,Henry F. Frierson, Richard L. Kempson y Lawrence M. Weiss, "Carcinomas with Metaplasiaand Sarcomas of the Breast", AmericanJournal ofClinical Pathology, 95, 623-632.El examen de la grafica para un conjunto de datos revela informacion respec­to a la magnitud de la dispersion, localizacion de la concentracion y simetria de losdatos.El siguiente ejemplo ilustra la construccion de la grMica de caja con valoresextremos.FJEMPLO 2.5.4En una revista medica de publicacion periodica, Pitts et al. (A-7) asegura que "loscarcinomas con metaplasia y sarcomas producidos dentro del seno son dificiles dediagnosticar ydasificar con precision debido a susvariados patrones histologicos ya su rareza". En un intento por estudiar mas detalles de las caracterfsticas biologi­cas, los autores investigaron una serie de sarcomas puros y carcinomas que exhibfanmetaplasia. La tabla 2.5.1 contiene ordenados en centfmetros los diametros de losneoplasmas extirpados del pecho de 20 individuos con sarcomas puros.Soluci6n: Lamedicion mas pequena y 1a mas grande son.5 y 13.0, respectivamen­te. El primer cuartil es QI = (20 + 1) / 4 5.25-esima medicion, la cuales 2.5 + (.25)(3.0 2.5) = 2.625. La mediana es Q2= (20 + 1) / 2 =1O.5-esima medicion igua1 a 4.5 + (.5)(5.0 -4.5) 4.75. E1 tercer cuarti1es Q3 = 3(20 + 1) / 4 = 15.75-esima medicion iguala 6.0 + (.75)(6.5­6.0) = 6.375. La amp1itud del intercuartil es IQR = 6.375 - 2.625 =3.75. La amplitud es 12.5, yel IQR es 100(3.75/12.5) == 30 porciento dela amplitud. La caja de valores extremos resultante se muestra en la figu­ra 2.5.5. ..AI examinar la figura 2.5.5 se observa- que 50 por ciento de las mediciones estanentre 2.6 y 6.4, los valores aproximados del primero y tercer cuartil, respectivamente.La barra vertical dentro de la caja muestra que la mediana esta cerca de 4.75.o 2 3 4 5 6 7 8 9 10 11 12 13 14Diametro (em)FIGUR-. 2.5.5 Caja de valores extremos del ejemplo 2.5.4.
    • 472.5 ESTADiSTICA DESCRIPTIVA: MEDIDAS DE DISPERSION14120 10E:;;la; B."0.",E" 6~420*IFIGURA 2.5.6 Caja. de valores extremos elaboradacon el paquete MINITAB a partir de la tabla 2.5.1.La linea mayor a la derecha indica que la distribuci6n de diametros esta inclinadahacia la derecha.Muchos paquetes de software estadistico tienen.la capacidad para construirgr:Hicas de caja con valores extremos. La figura 2.5.6 muestra una, construida conMINITAB a partir de los datos de la tabla 2.5.1. Se colotan los datos en la columna1, se renombra la variable con "Tumsize" (tamanodel tumor), y se procede comose muestra en lafigura 2.5.7. EI asterisco en la figura 2.5.6 sirve para alertar quehay un valor inusualmente mayor que los demas, Hamada outlier (valor muy alejado),el cualcorresponde al melanoma de 13 em de diametro. La linea superior en lafigura 2.5.6 se detiene en 9.5, y el valor mas grande no se considera que sea unvalor muyalejado. La figura 2.5.6 ejemplifica que la caja de valores extremos pue­de desplegarse tanto vertical como horizontalmente.En el paquete SAS® se utiliza la instrucci6n PROC UNIVARIATE para obtenerla grafica de valores extremos. Esta instrucci6n tambien produce otras medidas des­criptivas y desplegados, que incluyen graficas de tallo y hojas, medias, variancias ycuartiles. .Andlisis exploratorio de datos La grafica de caja con va10res extremos, aSIcomo la de tallo y hojas, son ejemplos de 10 que se conc:lCe como tecnicas de analisisde exploraci6n de datos. Estas tecnicas, populares debido al resultado del trabajo deTukey (3), permiten que el investigador examine datos de manera que estos revelentendencias y relaciones, identifiquen caracteristicas fmicas del conjunto de datos yfaciliten su descripci6n y resumen.Caja de dialogo: Comandos de la sesi6n:Stat> EDA > Boxplot MTB > BoxplotTeclear Tumsize en Y. Tumsize;En Data Display 1, seleccionar IQRange Box. sose > BOXiEn Data Display 2, seleccionar Outlier Symbol. sose > Symbol;Clic OK. sose > outlier.FIGURA 2.5.7 El procedimiento del paquete MINITAB paraproducir la figura 2.5.6.
    • 48 CAPITULO 2 ESTADISTICA DESCRIPTIVAEJERCICIOSCalcule para cada uno de los conjuntos de datos de los siguientes ejercicios, a) la media, b) lamediana, c) la moda, d) la amplitud, e) la varianza, f) la desviaci6n estandar, g) el coeficientede variacion y h) la amplitud del intercuartil. Cada conjunto de datos debe considerarsecomo una muestra. Para los ejercicios que se considere adecuado, prepare una gnifica de cajacon valores extremos y estudie la utilidad que proporciona este dispositivo paracomprenderla naturaleza de los datos. Seleccione para cada ejercicio la medida de tendencia central quepueda ser la mas apropiada para describir los datos. Establezca los razonamientos quejusti­fican cada elecci6n.2.5.1 Treinta pacientes con limitaciones cr6nicas severas de respiraci6n son sujetos de estudio porparte de Fernandez et al. (A-8), parainvestigar la eficacia del tramiento para mejorar el inter­cambio de gases. Los siguientes valores representan la superficie corporal de los pacientes:.2.10 1.74 1.68 1.83 1.57 1.71 1.73l.65 1.74 1.57 2.76 1.90 1.77FUENTE: Enrique Fernandez, Paltiel Weiner, Ephraim Meltzer, Mary M. Lutz, DavidB. Badish y Reuben M. Cherniack, "Sustained Improvement in Gas Exchange AfterNegative Pressure Ventilation for 8 Hours per Day on 2 Successive Days in ChronicAirflow Limitation", American Review ofRespiratory Disease, 144, 390-394,2.5.2 Los estudios de Dosman etal. (Ac9) permiten concluir que la aspiraci6n de aire frIO incrementala reactividad bronquial al inhalar histamina en pacientes asmaticos. Se estudiaron sietepacientes asmaricos con edades entre 19 y33 alios. Los valores de linea de base (en litros porminuto) del volumen espiratorio forzadp de los individuos de la muestra son los siguientes:3.94 1.47 2.06 2.36 3.74 3.43 3.78FUENTE:J.A. Dosman, W. C. Hodgson y D. W. Cockcroft, "Effect ofCold Air on theBronchial Response to Inhaled Histamine in Patients with Asthma",AmericanReviewofRespiratory Disease, 144, 45-50. .2.5.3 A 17 pa~ientes internados en los Aberdeen Teaching Hospitals, en Escocia, entre los afios de1980 Ymediados de 1988 se les diagnostic6 absceso hepatico pi6geno. Nueve pacientes,murieron. En un articulo de la revistaAge and Ageing, Sridharan et al. (A-10) afirmaron que"la elevada mortalidad por absceso hepatico piogeno se debe; al menos en parte, ala falta desospecha clinica". Lasedades de los individuos estudiados son las siguientes:63 72 62 69 . 71 84 81 .78 61 76 84 67 8669 64 87 76FUENTE: G.V Sridharan, S. P. Wilkinson y W. R. Primrose, "Pyogenic Liver Abscess in theElderly", Age and Ageing, 19, 199-203. Cortesfa de Oxford University Press.2.5.4 Arinami et al. (A-II) analizaron las respuestas auditivas del tallo cerebral en una muestra de12 varones con retardo mental afectados por el sll1drome de fragilidad del cromosoma X.Los valores de IQ para cada individuo son los sigt~ientes:17 22 17 18 17 19 34 26 14 33 21 29FUENTE: Tadao Arinami, Miki Sato, Susumu Nakajima e Ikuko Kondo, "AuditoryBrain-stem Responses in the Fragile X Syndrome",AmericanJournalofHuman Genetics,43; 46-51. Copyright" de la American Society of Human Genetics. Todos los dere­chos reservados. -Publicaci6n de la Universidad de Chicago.
    • 492.6 RESUMEN2.5.5 En un articulo de la revista AmericanJournal ofObstetrics and Gynecology, el doctor GiancarloMari (A-12) describio su estudio de la forma de ondas de la velocidad de flujo arterial san­guineo en la region pelvica y en las extremidades inferiores de fetos con crecimiento retarda­do. En este articulo afirmo que los datos preliminares sugieren que "el indice de pulsacionesde la arteria femoral no se puede utilizar como indicador de consecuencias fetales adversas,en tanto que el flujo ausente 0 retrogrado de la arteria umbilical parece que esta mascorrelacionado con las consecuencias fetales adversas". Los siguientes valores representanlas edades gestacionales (en semanas) de 20 fetos con crecimiento retardado estudiados:24 26 27 28 28 28 29 30 30 31 3232 33 33 34 34 35 35 35 36FUENTE: Giancarlo Mari, "Arterial Blood Flow Velocity Waveforms of the Pelvis andLower Extremities in Normal and GrowthCRetarded Fetuses", American Journal ofObstetrics and Gynecology, 165, 143-15l.2.5.6 El objetivo del estudio de Kuhnz et al. (A-13) es analizar ciertos parametros farmacocineticosbasicos en mujeres tratadas con anticonceptivos trifasicos de ingestion oral. Los pesos (enkilogramos) de las 10 mujeres que participaron en el estudio son:62 53 57 55 69 64 60 59 60 60FUENTE: Wilhelm Kuhnz, Durda Sostarek, Christiane Gansau, Tom Louton yMariane Mahler, "Single and Multiple Administration of a New Triphasic OralContraceptive to Women: Pharmacokinetics of Ethinyl Estradiol and Free andTotal Testosterone Levels in Serum", AmericanJournal ofObstetrics and Gynecology,165, 596-602.2.5.7 Ver el ejercicio 2.3.1.2.5.8 Ver el ejercicio 2.3.2.2.5.9 Ver el ejercicio 2.3.3.2.5.10 Ver el ejercicio 2.3.4.2.5.11 Ver el ejercicio 2.3.5.2.5.12 Ver el ejercicio 2.3.6.2.5.13 Ver el ejercicio 2.3.7.2.5.14 Stein y Uhde (A-14) examinaron el estado dinamico del eje tiroideo-hipotalamico-pituitarioen trastornos de panico mediante el estudio de las respuestas neuroendocrinas al protirelin enuna muestra de pacientes con trastornos de panico y una muestra de controles normales.Entre los datos recolectados en estos individuos se encontraron puntuaciones de comporta­miento como las medidas por la escala de ansiedad de Zung (ZAS, siglas en ingles de ZungAnxiety Scale). Los siguientes valores representan las puntuaciones de ZAS de los 26 indivi­duos con diagnostico de trastornos de panico.53 59 45 36 69 51 51 38 40 41 46 45 53 41 4645 60 43 41 38 40 35 31 38 36 35FUENTE: Utilizado con autorizaci6n de Thomas W Uhde, M. D.Construya una grafica de valores extremos con estos datos.2.6 RESUNIENEn este capitulo se examinan varios procedimientos estadfsticos descriptivos queincluyen organizaci6n de datos por medio de arreglo ordenado, distribuci6n defrecuencias, distribuci6n de frecuencias relativas, histogramas y poHgonos de fre­
    • 50 CAPITULO 2 ESTADISTICA DESCRIPTIVAcuencia. Se describen los conceptos de tendencia central y variaci6n, y junto conellos las medidas mas generales: media, mediana, moda, amplitud, variancia y des­viaci6n estandar. Se presenta el analisis exploratorio de datos mediante graficas devalores extremos y despliegue de tallo y hojas.Se destaca la importancia que tiene el empleo de la computadora como he­rramienta para calcular las medidas descriptivas y elaborar varias distribuciones apartir de grandes conjuntos de datos.PREGUNTAS YFJERCICIOS DE REPASO1. Defina los siguientes conceptos: a) Despliegue de tallo y hojas b) Grafica de valores extremos c) Percentil d)Cuartil e) Panlmetro de localizaci6n 1) Analisis exploratorio de datos g) Arreglo ordenado h) Distribuci6n de frecuencias i) Distribuci6n de frecuencias relativas j) Estadistica k) Panimetro 1) Poligono de frecuencia m) Umites correctos de intervalos de clase n) Histograma 2. Defina y compare las caracteristicas de la media, la mediana y la moda.3. ~Cuales son las ventajas y limitaciones de la amplitud como medida de dispersi6n?4. Explique por que se utiliza n 1 para calcular la variancia.5. ~Cual es el prop6sito del coeficiente de variaci6n?6. ~Cual es el prop6sito de la regia de Sturges?7. ~Que otro nombre recibe el quincuagesimo percentil (cuartil central 0 segundo)?8. Describa, desde su propio campo de estudio, una poblaci6n de datos donde podria ser (Itilconocer la tendencia central y la dispersion. Obtenga los valores reales 0 realistas a partir deesa poblaci6n y calcule la media, mediana, moda, variancia y desviaci6n estandar.9. Recolecte un conjunto de datos reales 0 realistas, en su campo de estudio para construir unadistribuci6n de frecuencias, una distribucion de frecuencias relativas, un histograma y unpolfgono de frecuencia.10. Calcu1e la media, mediana, moda, variancia y desviacion estandar para los datos del ejercicio 9.11. Localice un articulo de una revista de su campo de estudio en el que se hayan calculadomedidas de tendencia central y dispersion.12. En el ejercicio 2.5.14 se utilizan las puntuaciones de la escala de ansiedad de Zung (ZAS) de26 individuos con trastornos de panico que participaron en un estudiodirigido por Stein yUhde (A-14). En ese estudio tambien se incluyo a individuos sanos como controles (es decir,individuos que no padecen trastornos de panico). Los siguientes valores corresponden a laspuntuaciones de ZAS de 21 de estos individuos sanos.26 28 34 26 25 26 26 30 34 28 25 26 31 25 25 25 25 28 25 25 25FUENTE: Utilizado con autorizaci6n de Thomas W Uhde, M. D.
    • PREGUNTAS Y EJERCICIOS DE REPASO 51a) Combine estos valores con las puntuaciones del ejercicio 2.5.14 y elabore una grafica de tallo y hojas. b) Con base en la grafica de despliegue de tallo y hojas, describa en una palabra la naturaleza de los datos. c) tPor que luce asi la grafica del inciso b? d) Para la combinaci6n de datos de ZAS calcule: la media, moda, mediana, variancia y desviaci6n estandar. 13. Consulte el ejercicio 12 y calcule, s610 para los 21 controles sanos, la media, moda, mediana,variancia y desviaci6n estandar.14. Consulte el ejercicio 12 y calcule para los 26 individuos con trastornos de panico: la media,moda, mediana, variancia y desviaci6n estandar.15. ~Cual de los conjuntos de puntuaciones de ZAS tiene mas variabilidad: el integrado porindividuos sanos y enfermos, el conjunto de control de individuos sanos 0 el conjunto depacientes con trastornos de panico? ~C6mo se justifica la respuesta?16. Analice el ejercicio 12. ~Que medida de tendencia central considera mas adecuada paradescribir los valores de ZAS, la media 0 la mediana? ~Por que?17. Swifet al. (A-15) realizaron un estudio sobre la presencia de importantes enfermedades psi­quiatricas en portadores heterocig6ticos del gen causante del sfndrome de Wolfram. De acuer­do con los investigadores, el sindrome de Wolfram es un sindrome neurodegenerativoautos6mico recesivo, en el que 25 por ciento de los individuos que son homocig6ticos para laenfermedad tienen severos sintomas psiquiatricos que los conducen a intentos de suicidio u·hospitalizaci6n psiquiatrica. Entre los individuos estudiados se encontr6 a 543 parientesconsangufneos de los pacientes con sfndrome de Wolfram. A continuaci6n se muestra unadistribuci6n de frecuencia de las edades de estos parientes consanguineos:Edad Cantidad20-29 55 30-39 93 40-49 113 50-59 90 60-69 85 FUENTE: Ronnie Gorman Swift, Diane O. Perkins, Charles L.70-79 73Chase, Debra B. Sadler y Michael 80-89 29 Swift, "Psychiatric Disorders in 36 90-99 5 Families with Wolfram Syndrome",AmericanJoumal ofPsychiatry, 148,Total 543 775-779.Con base en estos datos, elabore una distribuci6n de frecuencias relativas, una distribud6nde frecuencias acumuladas y una distribuci6n de frecuencias relativas acumuladas.18. La motivaci6n de un estudio realizado por Roberts et 01. (A-l 6) fue su preocupad6n sobre si lasrecomendaciones vigentes de los requerimientos dieteticos de energfa probablemente subesti­man el total de energfa necesaria en varones adultosj6venes. Los sujetos del estudio fueron 14varones adultosj6venes sanos de peso corporal normal, quienes desarrollaban de tiempo com­pleto ocupaciones sedentarias como estudiantes 0 ayudantes de laboratorio. Los siguientesvalores son el indice de masa corporal (kglm2) para los 14 individuos en la muestra:- - _..... _---­
    • 52 CAPITULO 224.4 30.423.0 20.6ESTADISTICA DESCRIPTIVA21.4 25.1 21.3 23.8 20.8 22.9 20.9 23.2 21.126.0FUENTE: Susan B. Roberts, Melvin B. Heyman, William J. Evans, Paul Fuss, Rita Tsay y VernonR. Young, "Dietary Energy Requirements of Young Adult Men, Determined by Using theDoubly Labeled Witer Method", AmericanJournal ofClinical Nutrition, 54,499-505.a) Calcu1e media, moda, mediana, variancia, desviaci6n estandar y coeficiente de variaci6n. b) E1abore una grafica de tallo y hojas. c) E1abore una graflCa de va10res extremos. d) ~Que porcentaje de mediciones esta dentro de una desviaci6n estandar de 1a media, dentro de dos desviaciones estandar, y dentro de tres desviaciones estandar? 19. Consulte el ejercicio 18. Los siguientes son los pesos (kg) y estaturas (cm) de los 14 indivi­duos de 1a muestra estudiada por Roberts et al. (A-16):Pesos: 83.9 99.0 63.8 71.3 65.3 79.6 70.3 69.2 56.4 66.2 88.759.7 64.6 78.8Estaturas: 185 180 173 168 175 183 184 174 164 169 205161 177 174FUENTE: Susan B. Roberts, Melvin B. Heyman, William]. Evans, Paul Fuss, Rita Tsay y VernonR. Young, "Dietary Energy Requirements of Young Adult Men, Determined by Using theDoubly Labeled Water Method", AmericanJournal ofClinical Nutrition, 54,499-505.a) Para cada variable, ca1cu1e media, mediana, variancia, desviaci6n estandar y coeficiente de variaci6n. b) Para cada variable, elabore un despliegue de tallo y hojas, y una grafica de va10res extremos. c) ~Que conjunto de mediciones tiene mayor variabilidad, peso 0 estatura? ~Que bases tienesu respuesta?20. La siguiente tabla muestra la distribuci6n de edades de los casos de cierta enfermedad re­portada durante un ano en un estado en particular:Edad Numero de casos5-1415-2425-3435-4445-5455-6451012022135Total 175Para estos datos elabore una distribuci6n de frecuencias acumuladas, una distribuci6n defrecuencias relativas, una distribuci6n de frecuencias relativas acumuladas y un histograma.21. Nombre los tres sin6nimos de variaci6n (variabilidad).22. Como parte de un proyecto de investigaci6n, los investigadores obtuvieron los siguientesdatos sobre los niveles sericos de per6xido lipido (SLP, por las siglas en ingles de serum lipid
    • 53PREGUNTAS Y EJERCICIOS DE REPASOperoxide), a partir de los informes de laboratorio de una muestra de 10 individuos adultosque recibian tratamiento para la diabetes mellitus: 5.85, 6.17, 6.09, 7.70, 3.17, 3.83, 5.17,4.31,3.09,5.24. Calcule la media, mediana, variancia y desviaci6n estandar.23. Los siguientes valores corresponden a los niveles de SLP que se obtuvieron de una muestrade 10 adultos aparentemente sanos: 4.07, 2.71, 3.64, 3.37, 3.84, 3.83, 3.82,4.21,4.04,4.50.Calcule para estos datos la media, mediana, variancia y desviaci6n estandar. Compare losresultados con los del ejercicio 22. <Que es 10 que sugieren estos resultados con respecto alos niveles de SLP entre los pacientes con y sin diabetes mellitus? <Estos resultados proveensuficientes bases para tomar acci6n medica? Explique su respuesta.24. A continuaci6n se muestran las edades de 48 pacientes internados de urgencia en un hospi­tal. Elabore una grMica de tallo y hojas. <C6mo describiria la forma de estos datos?32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26 25. Se compararon dos metodos para colectar sangre para estudios de coagulaci6n. Los siguien­tes valores son el tiempo parcial de tromboplastina activada (APTT, siglas en Ingles), de 30pacientes en cada uno de los dos grupos. Elabore una grafica de valores extremos a partir decada conjunto de mediciones. Compare las dos grMicas. andican alguna diferencia en ladistribuci6n de los valores de APTr para ambos metodos? <.Que metodo tiene mayor me­diana? Compare el IQR del metodo 1con el IQR del metodo 2. <Para cwil metodo es el IQRun mayor porcentaje de R?Metodo 120.7 29.6 34.4 56.6 22.5 29.731.2 38.3 28.5 22.8 44.8 41.624.9 29.0 30.1 33.9 39.7 45.322.9 20.3 28.4 35.5 22.8 54.752.4 20.9 46.1 35.0 46.1 22.1Metodo 223.9 23.2 56.2 30.2 27.2 21.853.7 31.6 24.6 49.8 22.6 48.923.1 34.6 41.3 34.1 26.7 20.138.9 24.2 21.1 40.7 39.8 21.441.3 23.7 35.7 29.2 27.4 23.226. Exprese con palabras las siguientes propiedades de la media de 1a muestra:a) L(x :xy = un minimob) nX= LX c) L(x-x) 0 27. Un maestro de estadfstica indica a sus alumnos en el primer dia de clases que se aplicariancinco examenes durante el curso. Con las puntuaciones de cada examen para cada estudian­te, eI profesor calcula una medida de tendencia central que servici como calificaci6n final
    • 54 CAPITULO 2 ESTADISTICA DESCRIPTIVAdel curso del estudiante. Antes de tomar el primer examen se debe elegir si se quiere que lacalificaci6n sea la media 0 la mediana de las cinco calificaciones de los examenes. ~Cualescogeria ellector si fuera uno de los alumnos? (Por que?28. Considere los siguientes intervalos de clases para elaborar una distribuci6n de frecuencias de losniveles sericos de colesterol de los individuos que participaron en una campana de detecci6n:a) 50-74 b) 50-74 c) 50-75 75-99 75-99 75-100 100-149 100-124 100-125 150-174 125-149 125-150 175-199 150-174 150-175 200-249 175-199 175-200 250-274 200-224 200-225 etc. 225-249 225-250 etc. etc.(Que intervalo de clase sera el mas conveniente para el objetivo? (Por que? Establezca espe­dficamente por que los otros dos son menos convenientes.29. En un examen de estadistica se pidi6 a los estudiantes que elaboraran una distribuci6n defrecuencias de los niveles de creatina en la sangre (unidades/litro) para una muestra de 300individuos sanos. La media es de 95 y la desviaci6n estandar es de 40. Los estudiantes utili­zaron las siguientes amplitudes de los intervalos de clase:a) 1 b) 5c) 10 d) 15e) 20 1) 25Comente la conveniencia de utilizar estas amplitudes.30. De un ejemplo, relacionado con ciencias de la salud, de una poblaci6n de mediciones para 10cualla media sea una medida de tendencia central mejor que la mediana.31. De un ejemplo, relacionado con ciencias de la salud, de una poblaci6n de mediciones para10 cualla mediana sea una medida de tendencia central mejor que la media.32. Indique para las siguientes variables cual puede ser mejor medida de tendencia central: lamedia, mediana 0 moda, y explique su respuesta.a) Ingreso anual de las enfermeras tituladas en el Sureste.b) Diagn6stico de pacientes atendidos en el departamento de urgencias del hospital princi­pal de la ciudad.c) Pesos de losjugadores de basquetbol de la escuela preparatoria.33. Consulte el ejercicio 2.3.11 y calcule: media, mediana, variancia, desviaci6n estandar, pri­mer cuartil, tercer cuartil y amplitud del intercuartil. Elabore una grafica de valores extre­mos. (La media, moda y mediana son iguales? Si no, explique por que. Analice los datos enterminos de variabilidad. Compare el IQR con la amplitud. (Que sugieren las comparacio­nes respecto a la variabilidad de las observaciones?34. Consulte el ejercicio 2.3.12 y calcule: media, mediana, variancia, desviaci6n estandar, pri­mer cuartil, tercer cuartil y amplitud del intercuartil. Elabore una grafica de valores extre­mos. (La media, moda y mediana son iguales? Si no, explique por que. Analice los datos enterminos de variabilidad. Compare el IQR con la amplitud. (Que sugieren las comparacio­nes respecto a la variabilidad de las observaciones?35. Thilothammal et al. (A-17) realizaron un estudio para determinar la eficacia de la vacunaBCG (bacillus-Calmette-Guerin) para prevenir la meningitis tuberculosa. Entre los datos
    • 55BIBLIOGRAFIArecolectados en cada individuo esta la medicion del estado nutricional (peso real expresadocomo porcentaje del peso esperado para cada estatura real). La siguiente tabla muestra losvalores de los estados nutricionales para los 107 casos de estudio.73.3 54.6 82.4 76.5 85.4 92.3 55.5 68.380.5 71.0 56.8 80.6 72.2 76.9 100.0 65.950.4 66.0 83.0 72.3 100.0 64.5 79.6 74.050.9 71.0 76.5 99.6 55.7 88.7 72.7 67.364.8 74.0 72.6 80.7 79.3 72.4 78.1 66.374.0 72.7 65.9 73.3 109.0 65.7 96.072.8 73.6 70.0 77.4 84.4 73.6 73.872.0 97.5 130.0 68.1 76.4 79.6 70.059.7 89.6 76.9 74.6 86.4 64.1 50.590.9 70.5 88.2 70.5 67.7 76.9 73.076.9 78.1 63.4 58.8 74.0 68.6 55.071.4 84.6 123.7 93.7 73.2 80.045.6 92.5 65.6 61.3 66.3 84.077.5 76.9 80.2 76.9 70.060.6 59.0 84.7 78.2 91.9 FUENTE: Utilizada con autorizaci6n del67.5 76.9 82.6 doctor N. Thilothammal.a) Para estos datos, ca1cule las siguientes medidas descriptivas: media, mediana, moda, variancia, desviacion estandar, amplitud, primer cuartH, tercer cuartil e IQR. b) Elabore las siguientes graficas: histograma, poHgono de frecuencia, tallo y hojas, y valores extremos. c) Analice los datos en terminos de variabilidad. Compare el IQR con la amplitud. ~Quesugiere la comparaci6n respecto ala variabilidad de las observaciones?d) ~Que proporci6n de mediciones esta dentro de una desviaci6n estandar de la media, endos desviaciones estandar de la media y en tres desviaciones estandar de la media?e) ~Que proporcion de mediciones es menor que 100?f) ~Que proporcion de mediciones es menor que 50?BmUOGRAI<iABibliografia de metodologiaI. H. A. Sturges, "The Choice of a Class Interval",Journal ofthe American Statistical Association,21,65-66.2. Helen M. Walker, "Degrees of Freedom", TheJournal ofEducational Psychology, 31,253-269.3. John W. Tukey, Exploratory Data Analysis, Addison-Wesley, Reading, MA.Bibliografia de aplicacionesA-I. Silvio M. Veronese y Marcello Gambacorta, "Detection of Ki-67 Proliferation Rate in BreastCancer", AmericanJournal ofClinical Pathology, 95, 30-34.A-2. Nizar N.Jarjour, William]. Calhoun, Lawrence B. Schwartz y William W. Busse, "ElevatedBronchoalveolar Lavage Fluid Histamine Levels in Allergic Asthmatics Are Associated withIncreased Airway Obstruction", American Review ofRespiratory Disease, 144,83-87.
    • 56 CAPITULO 2 ESTADISTICA DESCRIPTIVAA·3. Peter M. Ellis, GrahamW Mellsop, Ruth Beestony Russell R. Cooke, "PlateletTritiated ImipramineBinding in Patients Suffering from Mania",journal ofAffective Disorders, 22, 105-110.A·4. Helen Herrman, Patrick McGorry, Jennifer Mills y Bruce Singh, "Hidden Severe PsychiatricMorbidity in Sentenced Prisoners: An Australian Study", Americanjournal ofPsychiatry, 148,236-239.A·5. Erik Skjelbo, Theonest K. Mutabingwa, Ib Bygbjerg, Karin K. Nielsen, Lars F. Gram y KimBrlsen, "Chloroguanide Metabolism in Relation to the Efficacy in Malaria Prophylaxis and theS-Mephenytoin Oxidation in Tanzanians", Clinical Pharmacology & Therapeutics, 59, 304-311.A·6. Henrik Schmidt, Poul Erik Mortensen, SjIlren Lars FjIllsgaard y Esther A. Jensen, "Autotrans­fusion Mter Coronary Artery Bypass Grafting Halves the Number of Patients Needing BloodTransfusion", Annals ofThoracic Surgery, 61, 1178-1181.A·7. William C. Pitts, Virginia A. Rojas, MichaelJ. Gaffey, Robert V. Rouse, Jose Esteban, Henry F.Frierson, Richard L. Kempson y Lawrence M. Weiss, "Carcinomas with Metaplasia andSarcomas of the Breast", Americanjournal ofClinical Pathology, 95, 623-632.A·S. Enrique Fernandez, Paltiel Weiner, Ephraim Meltzer, Mary M. Lutz, David B. Badish y ReubenM. Cherniack, "Sustained Improvement in Gas Exchange Mter Negative Pressure Ventilationfor 8 Hours per Day on 2 Successive Days in Chronic Airflow Limitation", American Review ofRespiratoiry Disease, 144, 390-394.A-9. J.A. Dosman, W C. Hodgson yD. W Cockcroft, "Effect ofCold Air on the Bronchial Responseto Inhaled Histamine in Patients with Asthma", American Review of Respiratory Disease, 144,45-50.A·I0. G. V. Sridharan, S. P. Wilkinson yW R. Primrose, "Pyogenic LiverAbscess in the Elderly", Ageand Ageing, 19, 199-203.A·1l. Tadao Arinami, Miki Sato, Susumu Nakajima e Ikudo Kondo, "Auditory Brain-stem Responsesin the Fragile X Syndrome", Americanjournal ofHuman Genetics, 43,46-51.A·12. Giancarlo Mari, "Arterial Blood Flow Velocity Waveforms ofthe Pelvis and Lower Extremitiesin Normal and Growth-Retarded Fetuses", Americanjournal of Obstetrics and Gynecology, 165,143-151.A·13. Welhelm Kuhnz, Durda Sostarek, Christiane Gansau, Tom Louton y Marianne Mahler, "Sin­gle and Multiple Administration of a New Triphasic Oral Contraceptive to Women:Pharmacokinetics of Ethinyl Estradiol and Free and Total Testosterone Levels in Serum",Americanjournal ofObstetrics and Gynecology, 165, 596-602.A·14. tv1urray B. Stein y Thomas W Uhde, "Endocrine, Cardiovascular, and Behavioral Effects ofIntravenous Protirelin in Patientswith Panic Disorder",Archives ofGeneral Psychiatry, 48, 148-156.A·15. Ronnie Gorman Swift, Diane O. Perkins, Charles L. Chase, Debra B. Sadler y Michael Swift,"Psychiatric Disorders in 36 Families with Wolfram Syndrome", Americanjournal ofPsychiatry,118,775-779.A·16. Susan B. Roberts, Melvin B. Heyman, William J. Evans, Paul Fuss, Rita Tsay y Vernon R.Young, "Dietary Energy Requirements ofYoung Adult Men, Determined by Using the DoublyLabeled Water Method", Americanjournal ofClinical Nutrition, 54, 499-505.A·17. N. Thilothammal, P. V. Krishnamurthy, Desmond K. Runyan y K. Banu, "Does BCG VaccinePrevent Tuberculous Meningitis?", Archives ofDisease in Childhood, 74, 144-147.
    • 3.1 INTRODUCCI6N 3.5 TEOREMA DE BAYES. PRUEBADE CLASIFICACI6N.3.2 DOS PERSPECTIVAS DE LA SENSIBIUDAD.PROBABILIDAD: OBJETIVA Y ESPECIFICIDAD Y VALORESSUBJETIVA QUE PREDICEN POSITIVIDADY NEGATIVIDAD3.3 PROPIEDADES ELEMENTALESDE LA PROBABIUDAD 3.6 RESUMEN3.4 CALCULO DE LA PROBABIUDADDE UN EVENTO3.1 INTRODUCCIONLa teorfa de la probabilidad es el fundamento para la inferencia estadistica. Sinembargo, esta teoria, que es una rama de las matematicas, no es el tema principalde este libro, por 10 que solo se estudiara.n los conceptos mas importantes. Losestudiantes que quieran abundar en este tema, pueden consultar los libros deprobabilidad disponibles en bibliotecas de muchos colegios y universidades. Serecomienda consultar las obras de Gut (1), Isaac (2) y Larson (3). Los objetivos deeste capitulo son que el estudiante aumente su capacidad matematica en el areade la probabilidad y brindarle ayuda en la comprension de los conceptos masimportantes. EI avance a 10 largo de este capitulo contribuira de manera importantea lograr el dominio de los procedimientos de la inferencia estadistica que sepresentan en el resto dellibro.El concepto de probabilidad no es ajeno a los trabajadores de la salud,puesto que 10 encuentran frecuentemente en la comunicacion diaria. Porejemplo, se puede escuchar que un medico dice que un paciente tiene unaoportunidad de sobrevivir a una operacion de 50-50. 0 bien, otro medico puededecir que esta 95 por ciento seguro de que un paciente tiene una enfermedad enparticular. Una enfermera de salud publica puede decir que 9 de cada 1057
    • 58 CAPITULO 3 ALGUNOS CONCEPTOS BlisICOS DE PROBABILiSTICApacientes suspendenin su cita. Tal como 10 muestran estos ejemplos, mucha genteexpresa la probabilidad en terminos de porcentajes. Al abordar con laprobabilidad matematicamente, es mas conveniente expresarla como fraccion (losporcentajes resultan de la multiplicacion de las fracciones por 100). De estaforma se mide la probabilidad de ocurrencia de alglin hecho mediante unnumero entre cero y uno. Para el hecho mas probable, el numero es mas cercanoa uno, y para el hecho menos probable, el numero es mas cercano a cero. Unhecho que no puede ocurrir tiene una probabilidad de cero, y un evento cuyaocurrencia es segura tiene probabilidad de uno.Los investigadores en ciencias de la salud continuamente se preguntan si losresultados de sus esfuerzos se dieron solo por casualidad 0 si alguna fuerza actuopara producir los efectos observados. Por ejemplo, suponga que seis de cada10 pacientes vfctimas de una enfermedad se curan despues de recibir ciertotratamiento. ~Es probable que hubiera ocurrido este porcentaje de cura sin quelos pacientes hubieran recibido el tratamiento 0 es esto evidenci<;t de unverdadero efecto curativo por parte del tratamiento? Se vera mas adelante quetales preguntas pueden contestarse a traves de la aplicacion de conceptos y leyesde probabilidad.3.2 DOS PERSPECTIVAS DE lAPROBABllIDAD: OBJETIVAYSUBJETIVAHasta muy recientemente, los estadisticos y matematicos ensefiaban la probabili­dad como un fenomeno objetivo, derivado de procesos objetivos.El concepto de probabilidad objetiva se puede dividir bajo los tftulos de 1) proba­bilidad cltisica 0 "a priori", y 2) frecuencia relativa 0 "a posteriori".Probabilidad cl6sica La probabilidad clasica data del siglo XVII en los trabajosde dos matematicos, Pascal y Fermat. Gran parte de esta teoria fue creada al intentarresolver problemas relacionados con los juegos de azar, como el juego de los dados.Algunos ejemplos tornados de dichosjuegos ilustran perfectamente los principios dela probabilidad c1asica. Par ejemplo, si un dado normal es lanzado, la probabilidadde que caiga un 1 es igual a 1/6, y es 10 mismo para los otros cinco lados. Si unacarta es sacada al azar de un mazo bien barajado, la probabilidad de sacar un cora­zon es de 13/52. Las probabilidades como estas se calculan atraves del razonamien­to abstracto. No es necesario lanzar un dado 0 sacar una carta para calcular esasprobabilidades. Allanzar un dado, se dice que cada uno de los seis lados tiene igualprobabilidad de aparecer, si no hay razon que favorezca a alguno de los seis lados.Analogamente, si no hay razon que favorezca el sacar alguna carta en particular, sepuede decir que cada una de las 52 cartas tiene la misma probabilidad de salir. Laprobabilidad se define en el sentido clasico como sigue:
    • 3.2 DOS PERSPECTIVAS DE LA PROBABILIDAD: OBJETIVA Y SUBJETlVA 59DEFINICIONSi un evento puede ocurrir de N formas, las cuales seexcluyen mutuamente y son igualmente probables, y si mde estos eventos poseen una caracteristica E, laprobabHidad de ocurrencia de E es igual a miN.Se lee P(E) como "la probabilidad de E". Esta definici6n se expresa como:P(E)=!!!:... (3.2.1)NProbabilidad defrecuencia relativa El enfoque de frecuencia relativa dela probabilidad depende de la repetibilidad de algunos procesos y la capacidadde contar el numero de repeticiones, as! como el numero de veces que algun even­to de interes ocurre. En este contexto, se puede definir la probabilidad de observaralguna caracteristica, E, de un evento como sigue:DEFINICIONSi algun proceso es repetido un gran numero de veces, n,y si algun evento resultante, con la caracteristica E,ocurre m veces, la frecuencia relativa de la ocurrencia deE, min, es aproximadamente igual a la probabilidad de E.Para expresar esta definicion en forma compacta se escribe:P( E)= m (3.2.2)nSin embargo, se debe tener en mente que, estrictamente hablando, min es s610 unaestimacion de P(E).Probabilidad subjetiva En los primeros alios de la decada de 1950, L. J.Savage (4) dio un gran impulso a 10 que se conoce como probabilidad "personalistica"o subjetiva. Este enfoque sostiene que la probabilidad mide la confianza que unindividuo tiene en la certeza de una proposici6n determinada. Este concepto nodepende de la repetibilidad de ninglin proceso. De hecho, al aplicar este concepto deprobabilidad, se puede calcular la probabilidad de un evento que s610 puede ocu­rrir una vez, por ejemplo, la probabilidad de descubrir una cura para el cancer enlos proximos diez aiios.Aunque el punto de vista subjetivo de la probabilidad ha gozado de granpopularidad, los estadisticos que tienen orientacion tradicional aun no la aceptandel todo.
    • 60 CAPITULO 3 ALGUNOS CONCEPTOS UASICOS DE PROBABILISTICA3.3 PROPIEDADES ELEMENTALES DEIA PROBABHIDADEn 1933 el matematico ruso A. N. Kolmogorov (5) formaliz6 el enfoque axiomaticode la probabilidad. Las bases de este enfoque estan inmersas en tres propiedades, delas que se deriva todo un sistema de teorfa de la probabilidad a traves del uso de lal6gica matematica. Estas tres propiedades son las siguientes:1. Dado alglin proceso (0 experimento) conn resultados mutuamente excluyentes(llamados eventos), E]> E2, ••• , En, la probabilidad de cualquier evento Ei es unnumero no negativo. Es decir:P(E):?: 0 (3.3.1)En otras palabras, todos los eventos deben tener una probabilidad mayor 0igual acero, requerimiento l6gico en vista de la dificultad de concebir una probabi­lidad negativa. Un concepto clave en el enundado de esta propiedad es el terminoresultados mutua,mente excluyentes. Se dice que dos eventos son mutuamente exclu­yentes si no pueden ocurrir en forma simultanea.2. La suma de las probabilidades de todos los resultados mutuamente excluyenteses igual a 1.P(E]) + ... + P(E,) = 1 (3.3.2)Esta es la propiedad de exhaustividad, y se refiere a que el observador de unproceso probabilfstico debe contemplar todos los eventos posibles, y cuando se to­man todos, su probabilidad total es igual a 1. El requerimiento de que los eventossean mutuamente exduyentes, especifica que los eventos E1, E2, ••• , En no se traslapen.Es decir, no pueden ocurrir dos de estos eventos al mismo tiempo.3. Considere dos eventos mutuamente excluyentes, Ei y E.. La probabilidad dela ocurrencia de 0 Ejes igual a la suma de sus probabflidades individuales.(3.3.3) Suponga que dos eventos no son mutuamente excluyentes, es decir, que pue­den ocurrir al mismo tiempo. En un intento por calcular la probabilidad de ocu­rrencia de Ei 0 Ej el problema de traslape ocurre y entonces el procedimiento podrfavolverse muy complicado.
    • 3.4 CALCULO DE LA PROBABIIJDAD DE UN EVENTO 613.4 cALCllLO DE IA PROBABllIDADDE llN EVENTOA continuacion se utilizan los conceptos y las tecnicas de las secciones anteriorespara calcular la probabilidad de eventos espedficos. Se presentanln ideas adiciona­les seglin sea necesario.FJEMPLO 3.4.1En un articulo de la revista AmericanJournal ofDrugs and Alcohol Abuse, Erickson yMurray (A-I) afirman que las mujeres estan consideradas como un grupo con ries­go especial de adiccion a la cocaina, y que se ha sugerido que sus problemas con lacocaina son mayores que en los hombres. Con base en la revision de textos especia­lizados y en el anaUsis de los resultados de un estudio original, estos investigadoresargumentan que no hay evidencia de que el uso de cocaina en las mujeres exceda alde los hombres, 0 que el indice de uso crezca mas rapido en comparacion con el delos hombres, 0 que experimenten mas problemas. Los sujetos de estudio de Ericksony Murray comprenden una muestra de 75 hombres y 36 mujeres. Los autores afir­man que los individuos son una muestra bastante representativa de adictos tipicosadultos sin tratamiento ni encarcelados. La tabla 3.4.1 muestra la frecuencia de usode la cocaina en el tiempo de vida y el sexo de los individuos. Suponga que seescoge a uno de enos aleatoriamente de entre la muestra. ~Que probabilidad existede que sea hombre?Soludon: Para propositos de ejemplificacion del calculo de las probabilidades, seconsidera a este grupo de III individuos como el grupo total de interes.Es decir, para este ejemplo, se considera a los individuos como una po­blacion. Se supone que hombres y mujeres son categorias mutuamenteexcluyentes, y que la probabilidad de seleccionar a cualquier persona esigual ala probabilidad de seleccionar a cualquier otra persona. Se defi-TABlA 3.4.1 Frecuencia de consumo de cocaina por generoentre adultos adictosFrecuencia de uso de cocafna Del sexo Del sexoen el periodo de vida masculino (M) femenino (F) Total1-19 veces (A) 32 7 3920-99 veces (B) 18 20 38100 + veces (C) 25 9 34111Total 75 36FUENTE: Cortesfa de Marcel Dekker, Inc. Reimpresi6n de Patricia G. Erickson y Glenn F. Murray,"Sex Differences in Cocaine Use and Experiences: A Double Standard?", American Journal ofDrug and Alcohol Abuse, 15,135-152.
    • 62 CAPITULO 3 ALGUNOS CONCEPTOS BAsICOS DE PBOBABILISTICAne la probabilidad deseada como el numero de individuos con la carac­terfstica de interes (hombre) dividida entre el total de individuos. Sepuede escribir en notaci6n probabilistica como sigue:P(M) total de hombres Itotal de individuos75/111 .6757 •Probabilidad condicional En ocasiones, el conjunto de todos los "resulta­dos posibles" puede constituir un subconjunto del conjunto universal. En otras pa­Iabras, la poblaci6n de interes se puede reducir mediante algun conjunto decondiciones, no aplicables a la poblaci6n total. Cuando se calculan las probabilida­des con un subconjunto del conjunto universal como denominador, el resultado esuna probabilidad condicional.Ala probabilidad calculada en el ejemplo 3.4.1, por ejemplo, se Ie puede consi­derar como una probabilidad condicional, debido a que el tamano del conjunto uni­versal sirvi6 como denominador. No hubo condiciones impuestas para restringir eltamaiio del denominador. Es posible pensar que esta probabilidad es unaprobabilidadmarginal, porque uno de los totales marginales se utiliz6 como numerador.En la tabla 3.4.1 se puede ver el concepto de probabilidad condicional.EJEMPLO 3.4.2Suponga que se escoge aleatoriamente a un individuo de entre los III y se encuen­tra que es un individuo del sexo masculino (M). ~Cual es la probabilidad de que esteindividuo haya consumido cocaina 100 veces 0 mas durante su vida (C)?Soluci6n: Ya no es importante saber el numero total de individuos, porque, al se­leccionar a un individuo del sexo masculino, los individuos del sexo fe­menino son eliminados. Entonces, se puede definir la probabilidaddeseada como: ~Que probabilidad existe de que un individuo haya con­sumido cocaina 100 veces 0 mas (C) durante su tiempo de vida, dadoque el individuo seleccionado es del sexo masculino (M)? Esta es unaprobabilidad condicional y se escribe como P(C 1M), donde la linea ver­tical se lee como "dado". Los 75 individuos del sexo masculino se vuel­yen el denominador de esta probabilidad condicional, y 25, el numerode individuos del sexo masculino que consumieron cocaina 100 veces 0mas durante su tiempo de vida, se vuelve el numerador. Por 10 tanto, laprobabilidad deseada es:P(CIM) 25/75 = .33 •Probabilidad conjunta Algunas veces se quiere encontrar la probabilidad deque un individuo seleccionado aleatoriamente a partir de un grupo de individuos po­sea dos caracterfsticas al mismo tiempo. A esta probabilidad se Ie conoce como probabi­lidad conjunta. El cilculo de la probabilidad conjunta se ejemplifica a continuaci6n:EJEMPLO 3.4.3En referencia a la tabla 3.4.1, ~cual es la probabilidad de que una persona selecciona­da aleatoriamente de entre los III individuos sea del sexo masculino (M) y que seauna persona que consumi6 cocaina 100 veces 0 mas durante su tiempo de vida (C)?
    • 633.4 CALCULO DE LA PROBABIUDAD DE UN EVENTOSoludon: La probabilidad buscada se puede escribir en notacion simbolica comoP(M n C), donde el sfmbolo n se lee como "interseccion" 0 "y". La ex­presion M n C indica que la condiciones My C son una ocurrencia con­junta. El mlmero de individuos que satisfacen ambas condiciones deseadases 25, y se encuentran en la tabla 3.4.1 en la interseccion etiquetadacomo columna M y renglon C. Puesto que la seleccion se realiza con eltotal de individuos del conjunto, el denominador es Ill. De tal maneraque la probabilidad se escribe como:P(M n C) 25/111 = .2252•Regia de la multiplicaci6n La probabilidad se puede calcular a partir deotras probabilidades. Por ejemplo, la probabilidad conjunta se puede calcular comoel producto de una probabilidad marginal y una probabilidad condicional adecua­das. A esta relacion se Ie conoce como regia de la multiplicaci6n de probabilidad. Seilustra con el siguiente ejemplo:EJEMPLO 3.4.4Se pretende calcular la probabilidad conjunta de seleccionar un individuo del sexomasculino (M) con una frecuencia de consumo de cocafna de 100 veces 0 mas (C)durante toda su vida, a partir del conocimiento de dos probabilidades convenien­tes, una marginal y otra condicional.Soludon: La probabilidad buscada es P(M n C). La probabilidad marginal ya estacalculada como P(M) 75/111 .6757, Yuna probabilidad condicionales P(CiM) = 25/75 .3333. Entonces sucede que estas son las probabi­lidades marginal y condicional adecuadas para calcular la probabilidadconjunta deseada que se puede calcular como: P(M n C)= P(M)P(CiM)= (.6757)(.3333) .2252. Observe que esto es 10 que se esperaba: elmismo resultado obtenido anteriormente para P(M n C). •Se puede afirmar que la regIa de la multiplicacion en terminos generales es comosigue: Para cualesquiera dos eventos A y B,peA n B) = P(B)P0IB), si P(B):;: 0 (3.4.1 )Para los mismos dos eventos A y B, la regIa de multiplicacion tambien se escribecomo peA n B) = P(A)P(B IA), si P0) :;: o.Es posible ver a traves de operaciones algebraicas que la regIa de la multipli­cacion, establecida en la ecuacion 3.4.1, se puede utilizar para encontrar una de lastres probabilidades expresadas si se conocen las otras dos. Por ejemplo, se puedeencontrar la probabilidad condicional P01 B) dividiendo peA n B) entre PCB). Estarelacion permite defmir formalmente la probabilidad condicional como sigue:
    • 64 CAPITULO 3 ALGUNOS CONCEPTOS BAsICOS DE PROBABILISTICADEFINICIONLa probabilidad condicional de A dado B es igual a laprobabilidad de A (j B dividida entre la probabilidad deB, siempre que la probabilidad de B sea diferente decero.Esto es:P(A IB)= P(A (I B) , P(B):f; 0 (3.4.2)P(B)Se ilustra el uso de la regIa de multiplicad6n para calcular la probabilidad condi­donal con el siguiente ejemplo:EJEMPl"O 3.4.5Se pretende utilizar la ecuaci6n 3.4.2 y los datos de la tabla 3.4.1 para enconttar laprobabilidad condidonal P(C1M).Soludon: De acuerdo con la ecuad6n 3.4.2,P(C 1M) = P(C (I M)/P(M)•Previamente, se obtuvo P(C (I M) P(M (I C) = 25/111 .2252. Tambien, sedetermin6 que P(M) 75/111 = .6757. Con estos resultados se puede calcularP(C 1M) .2252/.6757 .3333, el cual, tal como se esperaba, es el mismo resultadoque se obtuvo al utilizar las frecuencias directamente de la tabla 3.4.1.Regia de fa adicion La tercera propiedad de la probabilidad dada con ante­rioridad afirma que la probabilidad de la ocurrencia de uno de los dos eventosmutuamente excluyentes es igual a la suma de sus probabilidades individuales. Su­ponga, por ejemplo, que se escoge aleatoriamente a una persona de entre las IIIrepresentadas en la tabla 3.4.1. ~Cual es la probabilidad de que esta persona seadel sexo masculino (M) 0 del sexo femenino (F)? Se expresa esta probabilidad conlos simbolos P(M U F), donde el simbolo u se lee como "uni6n" u "0". Puesto que losdos generos son mutuamente excluyentes, P(M u P(M) + P(F) = (75/111) +(36/111) = .6757 + 3243 = 1.~y si los dos eventos no fueran mutuamente excluyentes? En este caso se uti­liza la regIa de la adici6n, la cual se enuncia como sigue:DEFINICIONDados dos eventos A y B, la probabilidad de que ocurra elevento A, el evento B 0 ambos es igual a la probabilidaddel evento A mas la probabilidad del evento B, menos laprobabilidad de que ocurran simultaneamente.
    • 3.4 CAI;.CULO DE LA PROBABILIDAD DE UN EVENTOLa regIa de la adici6n se puede escribir como sigue:P(A u B) =P(A) + P(B) - P(A (l B) (3.4.3)Para ilustrar el uso de la regIa dela adici6n se presenta el siguiente ejemplo.FJEMPLO 3.4.6Si se escoge aleatoriamente a una persona de los III individuos representados enla tabla 3.4.1, ~cUiil es la probabilidad de que esa persona sea del sexo masculino(M) 0 de que haya consumido cocafna 100 veces 0 mas durante su tiempo de vida(G) 0 ambas? .Soluci6n: La probabilidad que se busca es P(M u C). Con la regIa de adici6nsegUn se expresa en la ecuaci6n 3.4.3 esta probabilidad se puede escri­bir como P(M u C) = P(M) + P(C) - P(M (l C). Ya se sabe que P(M) =75/111 =.6757 YP(M (l C) = 25/111 = .2252. De la informaci6n de latabla 3.4.1 se calcula P(C) 34/111 .3063. AI sustituir estos resulta­dos en la ecuaci6n para P(M u C) se tiene P(M u C) = .6757 + .3063 ­.2252 = .7568. •Observe que 25 individuos que cumplen ambas condiciones: ser del sexo masculinoy haber consumido cocafna 100 veces 0 mas, esUin induidos entre los 75 individuosque son del sexo masculino, asf como en los 34 individuos que consumieron cocafna100 veces 0 mas. Dado que, en el calculo de la probabilidad, estos 25 se agregaronen el numerador dos veces, tienen que restarse una vez para superar los efectos deduplicaci6n 0 traslape.Eventos independientes Suponga que en la ecuaci6n 3.4.1 se dice que elevento B ya ocurri6, sin que este hecho afecte la probabilidad deA. Es decir, supon­ga que la probabilidad del evento A es el mismo a pesar de que ocurra 0 no elevento B. En esta situaci6n, P(A IB) = prAY. En tal caso se dice que los eventosA yBson eventO$ independientes. Por 10 tanto, la regiade la multiplicaci6n para dos eventosindependientes se Pllede escribir como sigue:peA u B) = P(B) P(A); P(A) ;r0, P(B);r 0 (3.4.4)Asf, se observa que si dos eventos son independientes, la probabilidad de queocurran conjuntamente es igual al producto de las probabilidades de sus ocurren­cias individuales.Advierta que d:tando dos eventoscon probabilidades diferentes de cero sonindependientes. cada una de las siguientes sentenciases verdadera:P(A IB) =P(A), P(B IA) ::: P(B), P(A (l B) =P(A)P(B)Dos eventos no son independientes a menos que todas.estas afirmaciones seanciertas. Es importante estar tonscientes de que los terminos independiente y mu­tuamente exclriyente no significan la misma cosa..
    • 66 CAPITULO 3 ALGUNOS CONCEPTOS BA.SICOS DE PROBABILISTICACon e1 siguiente ejemplo se ilustra el concepto de independencia.EJEMPLO 3.4~7En un grupo de preparatoria, que consta de 60 mqjeres y 40 varones, se observaque 24 chicasy 16 muchachos usan lentes. Si un estudiante es e1egido aleatoriamente,la probabilidad de que el estudiante use lentes, peE), es 401100, 0 .4.a) ~Cwil es la probabilidad de que un estudiante elegido aleatoriamente useletHes dado que es un estudiante varon?Solucion: Con la formula para calcular la probabilidadcondicional se obtiene comoresultado:P(EIB): P(EnB) = 16/100 =.4PCB) 40/100De esta forma, la informacion adicional de que el estudiante es un varonno altera la probabilidad de que el estudiante use lentes, ypeE) = peE IB). Se puede decir que los eventos "ser varon" y "usar lentes" en esegrupo, son independientes. Se puede mostrar que los eventos "usar len­tes", E, y "no servaron", B, tambien sonindependientes:peE IB) P(EnB) = 24/100 ",,24 =.4PCB) 60/100 60b) ~Cmil es la p~babilidad de que ambos eventos, queel estudiante use lentes ysea un varon, ocurran simultaneamente? .. Soiucion: Con el usode Ia regIa dada enla ecuadon3.4.1 setiene:PCE n B) P(B)P(EIB)pero, tal como ya se mostro, los eventos E yB son iildependientes, enton­ces, se sustituye peE IB) porpeE) para obtener mediante la ecuacion 3.4.4:peE n B) = P(B)P(E)(1:~)(1:~)=.16 •. Eventos complementarios Ya se calculo, mediante el usO de la tabla 3.4.1,que la probabilidad de que una persona seleccionada aleatoriamente de entre losIII individuos sea del sexo masculino es P(M) = 75/111 .6757; que la probabili­dad de que sea del sexo femenino es P(F) =36/111 .3243, Yqlle la suma de estas.. dos probabilidades es igual a 1. Esto eS cierto porque los eventos ser del sexo mas­culino y ser del sexo femenino son eventos complementarios. En general, se puede
    • 673.4 CAI,CULO DE LA PROBABIUDAD DE UN EVENTOhacer la siguiente afirmaci6n de los eventos complementarios: la probabilidad delevento A es igual a 1 menos la probabilidad de su complemento, que se escribecomo A, yP (A) (3.4.5)Esto resulta a partir de la tercera propiedad de probabilidad porque el even­to, A, y su complemento son mutuamente excluyentes.EJEMPLO 3~4~8Suponga que de 1200 admisiones al hospital general durante cierto periodo, 750son admisiones privadas. Si se designaa este como conjuntoA, entonces A es iguala 1200 -750 450. Se puede calcular que:P(A) == 750/1200 .625 y P(A) 450/1200==.375y queP(A) = 1 -P(A).375 1 .625.375 = .375•Probabilidad marginal Ya se utiliz6 el terminoprobabilidad marginal pararefe­rirse a la probabilidad donde el numerador de la probabilidad es un total marginalde una tabla igual que la tabla 3.4.1.Por ejemplo, cuando se calcula la probabili­dad de que una persona seleccionada aleatoriamente entre las 111 personas repre­sentadasen la tabla 3.4.1 sea un individuo del sexo masculino, el numerador de laprobabilidad es lacantidad total de individuos del sexo masculino, 75. Por 10 tanto,P(M) = 75/ 111 = .6757. Se puede definir la probabilidad marginal de maneramas general como sigue:DEFINICIONDada alguna variable que puede desglosarse en mcategorias designadas por Ai A 2, ••• , Ai .••, Am Y otravariable de ocurrencia conjunta que pueda desglosarse enn categorias designadas por B 1, B 2, •••, Bi •.., Bn,.laprobabilidad marginal de Ai P(A) es igual a la sum.a delas probabilidades conjuntas de Ai con todas lascategorias de B. Es decir,P(A) = LP(Ai n Bj), para.todoslos valores dej (3.4.6)Los siguientes ~jemplos muestran el uso d~ la ecuaci6n 3.4.6 paracalcular la proba­bilidad marginal.
    • 68 CAPITULO 3 ALGUNOS CONCEPTOS BAsICOS DE PROBABILiSTICAFJEMPLO 3.4.9Se pretende utilizar la ecuaci6n 3.4.6 y los datos de la tabla 3.4.1 para calcular laprobabilidad marginal P(M).Solucion: La variable genero se divide en dos categorias, individuos del sexo mascu­lino (M) y del sexo femenino (E). La variable consumo de cocafna sedivide en tres categorfas: de 1 a 19 veces (A), de 20 a 99 veces (B) y de1000 mas veces (C). La categorfa ser del sexo masculino ocurre conjun­tamente con las tres categorias de la variable frecuencia de consumo decocaina, Las tres probabilidades conjuntas que pueden calcularse sonP(M nA) = 32/111 .2883, P(M n B) = 18/ III = .1662, YP(M n C)= 25 / III .2252. Ahora, se calcula la probabilidad marginal P(M)sumando las tres probabilidades conjuntascomo sigue:P(M) =P(MnA) + P(M nB) + P(M nC)= .2883 + .1622 + .2252.6757•Tal como se esperaba, el resultado es igual al que se obtuvo al utilizar el total mar­ginal para individuos del sexo masculino empleado como numerador y el total deindividuos, como denominador.FJERCICIOS3.4.1 En un estudio de c6mo influye la violencia socialy polftica en los riesgos de complicaci6n delembarazo, Zapata et al. (A-2) recopilaron una gran cantidad de informaci6n de una muestrade 161 mujeres embarazadas coli edades entre 19 y 40 aiios inscritas en cuidados prenatalesen seis centros de salud en Santiago de Chile. En la siguiente tabla se aprecia la muestra deindividuos clasificados en referencia cruzada segiin el nivel de estudios y el numero de com­plicaciones prenatales:Numero de complicacionesprenatalesEscolaridad.(anos) ~2 0-1 Total1-3 22 53 754·8 9 23 329-10 10 27 37;:::11 5 12 17Total 46 115 161FUENTE: B. Cecilia Zapata, AnnabellaReboliedo, Eduardo Atalah, BethNewman y Mary-Clair King, "The Influence ofSocial and Political Vio­lence on the RiskofPregnancy Complications", Americanjournal ofPu­blic Health, 82, 685-690. Copyright!> American Public Health Association.
    • EJERCICIOS 69a) Suponga que Ste escoge aleatoriamente a una mujer de este grupo. ~Que probabilidad existe de que sea una mujer con dos 0 mas coll.lplicaciones prenatales? b) ~C6mo se Ie llama a la probabilidad calcuIada en el inciso a? c) Muestre como se calcula la probabilidad del inciso a con dos metodos adicionales. d) Si se escoge aleatoriamente a una mujer, <que probabilidad existe de que tenga dos 0 mas complicaciones de embarazo y tenga entre cuatro y ocho aftos de escolaridad? e) (Como se Ie llama a la probabilidad del inciso d?f) Suponga que se escoge aleatoriamente a una mujercon una 0 ninguna complicacion du­rante su embarazo. (Que probabilidad existede que tenga 11 aftos 0 mas de educaci6n? g) iC6mo se Ie llama a la probabilidad del inciso f? h) Suponga que se escoge aleatoriamente a una mujer. (Cual es la probabilidad de que tenga dos 0 mas complicaciones durante su embarazo 0 que tenga menos de cuatro aftos de esco­laridad, 0 que presente ambas condiciones? i) iComo se Ie llamaal metodo para obtener la probabilidad del inciso h? 3.4.2 En un articulo publicado en la revista CanadianJournalo/Public Health, Hammoud y Grindstaff(A-3) afirmaron que se estima que aproximadamente 15 por ciento de la poblaci6n de adul­tos canadienses son discapacitados en cierto grado. Los autores examinaron una muestra dela poblaci6n adulta de Canada para determinar las caracterfsticas de los discapacitados ffsi­camente y hacer una comparaci6n con una muestra aleatoria de personas sanas fisicamentey de los mismos grupos de edad. La siguiente tabla tiene los datos de los sujetos de Ia mues­tra clasificados por estado de discapacidad y ocupaci6n, por referencia cruzada.Estado de discapacidadOcupaci6n Discapacitados Sanos TotalAdministrativa 333 451 784Oficina 260 281 541Servicios 320 316 636Primaria 68 62 130Manufactura 297 317 614Total 1278 1427 2705FUENTE: Ali M. Hammoud yCarl F. Grindstaff, "SociodemographicCharacteristics of the Physically Disabled in Canada", Canadianjourna.l a/Public Health, 83, 57-60,a) eCuantas probabilidades marginales se pueden calcular a partir de estos datos? Enuncie cada una en notacion de probabilidades y realice los cilculos. b) eCuantas probabilidades conjuntas se pueden calcular? EnCmcieIas en notaci6n de proba­bilidades y realice los cilculos. c) (Cu<intas probabilidades condicionales se pueden calcular? Enuncielas en notaci6n de probabilidades y realice los caIculos. d) Utilice la regia de multiplicacion para calcular la probabilidad de que una persona seleccio­nada aleatoriamente sea una persona sana fisicamente y este empleada en una Q:ficina. e) (Como se Ie llama a la probabilidadcalculada en el inciso d?
    • -------70 CAPITULO 3 ALGUNOS CONCEPTOS BAsICOS DE PROBABILISTICAf) Galcule con la regia de la multiplicaci6n la probabilidad de que una persona seleccionadaaleatoriamente sea discapacitada, dado que tiene empleo en el area de la manufactura.g) ~C6mo se Ie llama ala probabilidad calculada en el inciso f?. h) Utilice el concepto deeventos complementarios para calcularla probabilidad de que unapersona seleccionada aleatoriamente sea un empleado administrativo.3.4.3 Consulte los datos del ejercicio 3.4.2, y enuncie las siguientes probabilidades con palabras:a) P(Oficinista (l fisicamente sano)b) P(Oficinista u ffsicamente sano)c) P(Oficinista I fisicamentesano)d) P(Oficinista). 3.4.4 Sriinsky et al. (A-4) realizaron un estudio para evaluar la eficacia y seguridad de una prepara­, cion de mesalamina oral recubierta de poHmero sensible al pH en pacientes con actividad deleve a moderada de colitis ulcerosa. En la siguiente tabla se muestran los resultados del trata­mientoal final de seis semanas, por tratamiento recibido:GJ:upo en tratamientoResultado Placebo Mesalamina, 1.6 gldia . Mesalamina, 2.4 gldiaEn 2 6 6Mejorado 8 13 15Estable 12 11 14Empeorado 22 14 8FUENTE: Reproducido con autorizaci6n de Charles A.Sninsky, David H. Cort, Fergus Shanahan,BernardJ. Powers, John T. Sessions, Ronald E. Pruitt, Walter H, Jacobs, Simon K. Lo, Stephan R.Targan,JamesJ. Cerda, Daniel E. Gremillion, ,yjlliamJ, Snape,John Sabel,.HoracioJ inich,JamesM, Swinehart y Michael P. DeMicco, "Oral Mesalamine (Asacol) for Mildly.to Moderately ActiveUlcerative Colitis", Annals ofInternal Medicine, 115,350-355, .a) ~Cual es la probabilidad de que un paciente seleccionado aleatoriamente entre en remi­si6n al final de seis semanas?b) ~Cual es la probabilidad de que unpaciente que recibeplacebo logre la remisi6n al finalde las seis semanas?c) ~Cual es la probabilidad de que un pacienteseleccionado aleatoriamente haya entrado enremision y sea uno de los que recibio placebo?d) ~Cual es la probabilidad de que un paciente seleccionado aleatoriamente sea uno de losque recibieron dosis de 2.4 g/dia 0 este en la lista de pacientesmejorados, 0 posea ambascondiciones?3.4.5 Si la probabilidad de ser zurdo en un grupo es de .05, ~cual es la probabilidad de ser diestro(suponiendo que no hay ambidestreza)?3.4.6 La probabilidad de que un paciente seleccionado aleatoriamente entre los residentes actua­les de un hospital sea del sexo masculino esde .6. La probabilidad de que el paciente sea delsexo masculino y haya sido internado para cinigia es de .2, Un paciente seleccionado aleato­riamente entre los residentes actuales es del sexo masculino, ~cuaI es la probabilidad de queel pacienteeste internado para cirugia? .
    • 3.5 TEORKMA DE-BAYES,PRUEBA DE .CI,ASIFICACION, SENSIBILIDAD 713.4.7 En cierta poblaci6n de pacientes hospitalizados la probabilidad de que un paciente, seleccio­nado aleatoriamente, est€: enfermo del coraz6n es de .35. La probabilidad de que un pacien­te enfermo del coraz6n sea fumador es de .86..tCual es la probabilidad de que un pacienteseleccionado aleatoriamente, de esta poblaci6n, sea fumador y est€: enfermo del coraz6n?3.5 TEOREMA DE BAYES, PRUEBA DECIASIFICACION, SENSmHIDAD,ESPECIFICIDAD YVALORES QUEPREDICEN POSITIVIDAD YNEGATIVIDADEn el campO de ciencias de la salud se utiliza ampliamente la aplicacion de leyesde probabilidad y conceptos relacionados en la eva,luacion de pruebas de detec­cion y criterios de diagnostico. A los medicos les interesa tener mayor capacidadpara predecir correctamente la presencia 0 ausencia de una enfermedad en par­ticular a partirdel conocimiento de los resultados (positivos.o negativos) de prue­bas y el estado de los sfntomas (presentes 0 aus~ntes) que se m~mifiestan. Tambien,es de interes la informacion respecto a la probabiFdad de resultados positivos 0negativos del~s pruebas y la, probabilidad d.epresencia 0 ausencia de un sfntomaespedfico en pacientes con 0 sin una enfermedad en particular..En pruebas de deteccion se debe considerar con(:uidado que no siempre sonpruebas irifalibles. Es decir, el procedimiento puede dar lm falso positivo 0 un falsonegativo,DEFINICIONES1. Un falso positivo resulta cuando una·prueba indica queel estado es positivo, cuando en realidades negativo.2. Un falso riegativo resultacuando una pmeba indica que·un estado es negativo, cuando en realidades positivo.En resumen, se debe responder a las siguientes preguntas para evaluar lautilidad de los resultados de la prueba y elestado de los sintomas para determinarsi el individuo tiene 0 no alguna enfermedad:1. Dado que un individuo tiene la enfermedad,. ~que prqbabilidad existe de quela prueba resulte J?ositiya (01a presencia de un sintoma)?, 2. Dado que un individuo no tiene la enfermedad, ~cual es la probabilidad deque laprueba: resulte negativa (0 ia~msencia de un sintoma)?3. Dada una prueba positiva de deteccion. (0 la presencia de un sintoma), ~queprob,abilidad existe de que,el individuo tenga la enfermedad?4. Da:do el resultado negativo de unaprueba de deteccion (0 la ausencia de•. un sintoma), ~cmil eslaprobabilidad de que el individuo no tenga la en­fermedad?
    • 72 CAPiTULO 3 ALGUNOS CONCEPTOS BAsICOS DE PROBABILiSTICATABlA 3.5.1 Muestra de n individuos (connlOuy grande) c1asificados en referenciacruzada segnn el estado de enferlOedad y elresultado de la prueba de detecci6nEnfermedadResultado dela prueba Presente (D) Ausente (D) TotalPositivo cn a b a+b Negativo cn c d c+ d Total a. + c b+d nSuponga que para una IDuestra den individuos (donden es un numero grande)se tiene la informaci6n que se muestra en la tabla 3.5.1. la tabla muestra para estos nindividuos sus estados con respecto a la enfermedad, y es el resultado de una prueba dedetecci6n disefiada para identificar a los individuos enfermos. Las entradas de las casi­llas n:!presentan el nfunero de individuos que caen en las categonas definidas por losencabezados de rengl6ny columna. Pot ejemplo, a es el numero de individuos quetienen la enfeimedad y un resultado positivo en la prueba de detecci6n.Tal como se explic6; se puede cakular una gran variedad de probabilidades apartir de la informaci6n desplegada en una tabla de doble via como la tabla 3.5.1. Porejemplo, se puede calcular la estimaci6n de la probabilidad condicional peT 1D) = a /(a + c). Esta proporci6n es una estimaci6n de lasensibilidadde la prueba de detecci6n.DEFINICION:La sensibilidadde una prueha (0 sintoma) es laprohahilidad de un resuhBdo positivo de la prueha(presencia Q ausencia del sintoma) dada la presencia dela enfermedad.Tambien se puede cakular la estimaci6n de la- probabilidad condicionalP(T 115) = d / (b +d). Esta proporci6n es unaestimaci6n dela especificidad de laprueba de detecci6n.DEFINICIONLa especificidad de una prueha (0 sintoma) es laprohahilidad de un resultadonegativode 1a prueha (0ausenciadel-sintoma) dada la ausencia de la enfermedad.A partir de los datos de la tabla 3.5.1 puede responderse ala pregunta 3 conel ca.lculo de la estimaci6n de la probabilidad condicional P(D I, T). Esta proporci6nes una estimaci6n de la probabilidad Hamada valor que predice la positividad de unaprueba de detecci6n (0 de un sintoma).
    • 3.5 TEOREMA DE BAYES, PRUEBA DE CLASIFICACION, SENSIBILIDAD 73DEFINICI6NEl valor que predice lapositividad de una prueba dedetecci6n (0 un sintoma) es la probabilidad de que unindividuo tenga la enfermedad, dado que el individuopresenta un resultado positivo en la prueba de detecci6n(0 presenta el sintoma).Amilogamente, la expresi6n p(DI T) es una estimaci6n de la probabilidadcondicional de que un individuo no presente la enfermedad dado que el resultadode la prueba de detecci6n es negativo (0 no presenta el sfntoma). La estimaci6n dela probabilidad mediante esta proporci6n se llama valorquepredice la negatividad de laprueba de detecci6n 0 del sfntoma.DEFINICI6NEl valor que predice lanegatividad de la prueba dedetecci6n (0 sintoma) es la probabilidad de que elindividuo no tenga la enfermedad, dado que el resuItadode la prueba de detecci6n es negativo (es decir nopresenta el sintoma).La estimaci6n del valor que predice la positividad 0 negatividad de una prue­ba (0 sintoma) puede obtenerse a partir;del conocimiento de la sensibilidad y espe­cificidad de la prueba (0 del sintoma) y delaprobabilidad de la enfermedad relevanteen la poblaci6n general. Para obtener la estimaci6n de estos valores de predicci6nse utiliza el teorema de Bayes, teorema de probabilidad atribuido a Thomas Bayes(1702-1761), cU~rigo Ingles iriteresado en las matematicas. Acontinuaci6n se enun­cia el teorema de Bayes, con la notaci6n indicadaen la tabla 3.5.1, para obtener elvalor que predice la positividad de una prueba de detecci6n (0 sfntoma):P(D IT) = . peT ID)P(D) .(3.5.1)peT ID)P(D)+P(T ID)P(D)EI amHisis de la composici6n de la ecuaci6n 3.5.1 resulta instructiva: Re­cuerde que seglin la ecuaci6n 3.4.21a probabilidad condicional P(D IT) es igual aP(D 11 T)/P(T). Paracomprender la 16gica del teorema de Bayes, se debe identifi­car que e1 numerador de la ecuaci6n 3.5.1 representa P(D 11 T) Yque el denomi­nador representa P(T). Se sabepor la regIa de.la multiplicaci6nde la probabilidaddada en la ecuaci6n 304.1 queel numerador de la ecuaci6n 3.5.1, P(TID) P(D), esigual a P(D 11 T). . . . .Ahora, observe que el denominador dela ecuaci6n 3.5.1 es igual a P(T). Se sabeque el evento T es el resultado de que un individuo esta clasificadocomo positivo conrespecto a la prueba de detecci6n (clasificado con presencia de un sfntoma). Un indi­viduo clasificado como positivo puede tener 0 no la enfermedad. Por 10 tanto, laocurrencia de T es el resultado de un individuo con la enfermedad y prueba positiva[P(D 11 T)] 0 que sin la enfermedad y con prueba positiva [P(D 11 T)]. Estos dos
    • 74 CAPITULO 3 ALGUNOSCONCEPTOS BA.SICOS DE PROBABILISTICAeventos son mutuamente excluyentes (su intersection es cera) y, consecuentemen­te,·par la regIa de adici6ndada par laecuacion 3.4.3, se puede escribir:P(T) =P(D n T) +P(D (1 T)Puesto que, por Ia regIa de la multiplication, P(Dn T) =P(T ID)P(D) YP(D n T)p(fID) P(D), se puede reescribir la etuaci6n 3.5.2 como sigue:P(T) := peT ID)P(D) +P(T 115)P(D) (3.5.3)y este es el denominador de la ecuad6n 3.5.1.Tambien, advierta que el numerador de la ecuaci6n 3.5.1 es igual a la sensibi­lidad por la tasa (de prevalenda) de la erifermedad; el denominador es igual alasensibilidad por la tasa de la enfermedad mas el term~no 1 menos la sensibilidadpor el termino 1 menos Ia tasa de la enfermedad.La evaluacion de laecuaci6n 3.5.1 responde ala pregunta 3. Para responderi. ala pregunta 4 se sigue, ahora; la linea de razonamiento ya conocida para llegar alsiguiente enuRciado del teorema de Bayes:- - P(TID)P(D)P(DIT}= __ (3.5.4)peT ID) P(D) +P(T ID) P(D)"La ecuad6n 3.5.4 permi~e calcular una estimaci6n de la prababilidad de que elindividuo con prueba negativa (0 que no presentael sfntoma), no tenga la enferme­dad, la cual.es el valor que predice la negatividad de la prueba de detecci6n 0 delsfntoma. , .Con el siguiente.ejemplose muestra el uso del teorema de Bayes para calcularel valor que predice la positividad:FJEMPLO 3.5.1Un equipo de investigaci6n medica pretende evaluar una prueba de detecd6n pro­puesta para la enfermedad de Alzheimer. La prueba se basa en una muestra aleatoriade 450 ehfermosy en otra muestra aleatoria independiente de 500 pacientes que no. presentansfntomas de la enfermedad. Las dos muestras se obtuvieron de una pobla­cion de individuos con edades de 65 alios 0 mas. Los resultados son los siguientes:eDiagnostico de Alzheimer?Resultado dela prueba Sf (D) No (jj) TotalPositivo (T) 436 5 441 Negativo (f) 14 4~5 509 Total 450 500 950
    • 75EJERCICIOS EJERCICIOSCon estos datos se estima quela prueba·de sensibilidad es P(TID) 436/450 =.97. La especificidad de la prueba es pCt Il5) ::::: 495/500 .99. Ahora, con estosresultados se calcula el valor que predice la positividad de la prueba. Esto es, sepretende estimar la: probabilidad de que un individuo con pnieba positiva esteenfermo de Alzheimer. A partir de los datos tabuladosse calcula P(TID) = 436/450 = .9689,-y que P(TID) 5/500 = .01. La sustitucion de estos resultados en laecuacion 3.5.1 da:P(D IT) (.9689) P(D)(.9689) P(D) +(.01) P(D)(3.5.5)Note que el valor que predice la positividad de la pruebadepende de la tasa de laenfermedad en la poblacion relevante en general. En este caso 1a poblacion masrepresentativa esta formada por individuos de 65 aflos 0 mas. Se hace enfasis deque la tasa de enfermedad en la poblad6n general mas represeniativa, P(D), no sepuede calcular a partir de los datos de la muestra, porque-las dos muestras inde­pendientes se obtuvieron de dos pobladones distintas. Por 10 tanto, se debe buscaren otro lugar una estimaci6n de P(D). Evans et at. (A-5) estimaron que 11.3 porciento de la poblacion de 65 aflos 0 mas en Estados Unidos tiene la enfermedad deAlzheimer. Al sustituir la estimacion de P(D) en la ecuacion 3.5.5 se obtiene:(.9689) (.113)P(D IT)(.9689) (.113)+(,01) (1-.113).Tal como se puede apreciar, en este caso, el valor predictivo de la prueba es muyalto. •3.5.1 Un equipo de investigacion medica pretende evaluar la utilidad de cierto sintoma (HamadoS) para el diagn6stico de determinada enfermedad. En una muestra aleatoria independien­te de 775 pacientescon esa enfermedad, 744 presentaron el sintoma. En una muestra aleatoriaindependientede 1380 individuos sin la enfermedad, 21 presentaron elsintoma.a) Para el contextode este ejercicio, ~que es un falso positivo?b) ~Que es un falso negativo?c) Calcule la sensibilidad de los sintomasd) Calcule la especificidad del sfntomae) Suponga que se sabe que la tasa de la enfermedad en la poblaci6n en general es .OOL2Cuai es el valor que predice la positividad del sintoma?1) ~Cual es el valor que predice la negatividad del sfntoma?g) Calcular los valores que predicen la -positividad y la negiltividad del sfntoma para lassiguientes tasas hipoteticas: .0001, .01 Y.10. . h) Con base en los resultados que se obtuvieron en el inciso g, ~que sepuede conduir acerca de los valore~ que predicen el sfntoma? 3.5.2 En un articulo titulado "Probability and Characteristics of Human Immunodeficiency VirusInfection in Male Greek Military Personnel with Tuberculosis", publicada en la revistaRespiration [62, 280-285], Bouros fJt at. utihzaron el teorema de Bayes para calcular la proba­
    • 76 CAPiTULO 3 ALGUNOS CONCEPTOS BAsICOS DE PROBABILtSTICAbilidad de que pacientes con tuberculosis esteninfectados con el VIE. Si puede conseguireste articulo, lea y escriba una crttica del mismo que incluya la respuesta a las siguientespreguntas:a) ~Los autores emplearoncorrectamente el teorema de Bayes? Expliqlle su respuesta.b) ~Se utilizaron las estimaciones de probabilidad correctas en los calculos? Explique surespuesta.c) ~Existe suficiente informacion disponible para repetir los calculos? Si es as!, (se puedellegar a los mismos resultados?3.5.3 Si esta disponible el articulo de Katz et al. ["Use ofBayess Theorem to Estimate the Impactof the Proposed CD4-Based Expansion of the AIDS Case Definition",joumal ofAcquiredImmune Deficiency Syndromes, 6, 295-297], lea y escriba una crttica que incluya las respuestas alas siguientes preguntas:a) ~Es unq aplicaci6n apropiada del teorema de Bayes? Explique su respuesta. b) (Existen diferencias entre esta aplicaci6n del teorema de Bayes y la aplicacion presentada en el ejercicio 3.5.1? Explique su respuesta. 3.6 RESUMENEn este capitulo se presentan algunas de las ideas basicas y conceptos de probabili­dad. EI objetivo es proveer suficiente "intuici6n" sobre la materia, de manera quelos aspectos probabilfsticos de la inferencia estadistica puedan ser Hicilmente com­prendidos y apreciados en capftulos posteriores.Se define como probabilidad a un m1mero entre 0 y 1 que mide la posibilidadde que ocurra alg(m evento. Se hace la distinci6n entre probabilidad subjetiva yobjetiva. La probabilidad objetiva se puede subdividir como probabilidad clasica 0de frecuencia relativa. Despues de establecer las tres propiedades de probabilidad, sedefine y muestra el carculo de los siguientes tipos de probabilidad: marginal, conjun­ta y condicional. Se aprende c6mo aplicar las reglas de adici6n y multiplicaci6n paracalcular ci,ertas probabilidades. Se estudia el significado de eventos independientes,mutuamente excluyentes y complementarios. Tambien, se estudia el significado deespecificidad, sensibilidad y valores que predicen la positividad y negatividad aplica­dos a pruebas de detecci6n 0 sintomas de enfermedad. Finalmente, se aprende c6moutilizar el teorema de Bayes para calcular la probabilidad de que un individuo esteenfermo, dado que el individuo tiene un resultado positivo en la prueba de detecci6n(0 bien, presenta el sintoma correspondiente).PREGUNTAS YEJERCICIOS DE REPASO1. Defina los siguientes conceptos:a) Probabilidad b) Probabilidad objetivac) Probabilidad subjetiva d) Probabilidad clasicae) Concepto de probabilidad f) Eventos mutuamente excluyentesde frecuencia relativag) Eventos independientes h) Probabilidad marginal.
    • 77PREGUNTAS Y EJERCICIOS DE REPASOi) Probabilidad conjunta j) Probabilidadcondicional k) Regia de la adici6n I) RegIa de la multiplicaci6n m) Eventos complementarios n) Falso positivo 0) Falso negativo p) Sensibilidad q) Especificidad r) Valor que predice la positividad s) Valor que predice la negatividad t) Teorema de Bayes 2. Nombre y explique las tres propiedades de la probabilidad.3. DesJarlais etai. (A-6) examinaron el fracaso para mantener reducidos los riesgos de SIDA enun estudio de consumo de drogas intravenosas en la ciudad de Nueva York. La siguientetabla muestra a los sujetos del estudio, en referencia cruzada; por estado de reducci6n deriesgos y numero de compaiieros sexuales en un mes promedio:Estado de reducci6n de rlesgosNu.mero de compafterossexuales/mes Ninguno Sin mantener Mantiene TotalNinguno 20 17 43 801 37 45 95 177>1 20 54 67 141Total 77 116 205 398FUENTE: Cortesia de Marcel Dekker, Inc. Reimpreso por Don C. Des Jarlais, Abu Abdul-Quader y Susan Tross, "The Next Problem: Maintenance of AIDS Risk Reduction Among Intravenous Drog Users", The InternationalJournal o/theAddictions, 26, 1279-1292. a) Si se selecciona a un individuo al azar, (cmiles la probabilidad de que este individuo nohaya iniciado ninguna reducci6n de riesgo?b) Si se selecciona a un individuo al azar, y este ha tenido mas de un compaiiero sexual, ~cu;iles la probabilidad de que haya mantenido la reducci6n de riesgo?c) Si se selecciona aleatoriamente a un individuo, ~cuaI es Ia probabilidad de que no hayatenido compaiieros sexuales y que no haya mantenido 1;:,t,reducci6n de riesgo?d) Si se selecciona al azar a un individuo, ~cual es la probabilidad de que haya tenido uncompaiiero sexual 0 no haya iniciado la reducci6n de riesgo?4. El prop6sito del estudio de Gehan et ai. (A-7) es definir Ia dosis 6ptima de lidocaina necesariaparareducir el dolor en la inyecci6nde propofol. De acuerdo conestos investigadores, elpropofolse utiliza como agente de acci6n rapida para inducci6n de anestesia. Sin embargo, a pesar deesto, muchas desventajas limitan su utilizaci6n debido al dolor generadci. Otros estudios mues­tran que la lidocama intravencisa suministrada antes 0 con el propofol reduce la frecuenda dedolor; En el estudio de Gehan et ai. (A-7) se utilizaron 310 padentes que recibieron anestesia. Seclasific6 a los padentes en cuatro categonas de acuerdo con la dosis de lidocaina. El grupoAnorecibi6lidocama, en tanto que los grupos B, C YD recibieron .1, .2 Y.4 mglkg, respectivamente,mezclado con propofol. EI grado de dolor experimentado por los padentes se calific6 de 0 a 3;los padentes que no experimentaron dolor recibieron una calificaci6n de O. La siguiente tablamuestra a los padentes, dasificados en referencia cruzada por grupo segCtp niveles de dosis ycalificaci6n por dolor:
    • 78 CAPITULO 3 ALGUNOS CONCEPTOS BAsICOS DE PROBABILISTICAGrupoCalificaci6npor dolor A B C D Total0 49 73 58 62 2421 16 7 7 8 382 8 5 6 6 253 4 1 0 0 5Total 77 86 71 76 310FUENTE: G. Gehan, P. Karoubi, F. Quinet, A. Leroy, C. Rathat yJ. L. Pourriat, " Optimal Dose ofLignocaine for Preventing Pain on Injection of Propofol", BritiSh journal ofAnaesthesia 66, 324-326. . a) Encuentre las siguientes probabilidades y expliquesu significado:1. P(O II D)2. PCB u 2)3. P(3IA)4. P(C)b) Explique porque cada una de las siguientes ecuaciones es 0 no una afirmaci6n verdadera:1. P(O liD) = hD II 0)2. P(2 u C) = P(C u 2)3. peA) = peA (10) + peA II 1) + peA II 2) + P(;t (13)4. PCB u 2) = PCB) + P(2) 5.P(DI0) = P(D) 6. P(C n 1)= P(C) pel)7. P(;t II B) = 08. P(2 II D) = P(D) P(21 D) .9. PCB (10) = PCB) PCB I0)5. A un centenar de mujeres casadas se les pregunt6 que metodo de control natal preferfan. Lasiguiente tabla muestra las 100 respuestas clasificadas en referencia cruzada por nive! educa­tivo y metodo de control..Nivel escolar .Metodo decontrol, Preparatoria Universidad Posgradonatal (A) (B) (C) TotalS 15 8 7 30T 3 7 20 30V, 5 5 15 25W 10 3 2 15Total 33 23 44 100
    • 79PREGUNTAS Y EJERCICIOS DE REPASOEncuentre las siguientes probabilidades:a) P(S) b)P(Vu C) c) P(A) d) peW)e) P(A Ivv) t) p(jj) "g) P(T riB) h) P[(T rI C)]6. EI departamento de salud de cierto pais recibe 25 solicitudes para una vacante que hay parauna enfermera en salud publica. De estas solicitudes, 10 son de mayores de 30 aiios y.15 demenores de 30 aiios de edad. Diecisiet~ tienen estudios universitarios y ocho tienen gradode maestrfa. De las que tienen menos de 30 aiios, seis tienen grade de maestria. Si al azar sehace una selecci6n de entre las 25 solicitantes, ~cual es la probabilidad de se1eccionar a unapersona que tenga mas de 30 aiios de ~dad 0 que tenga grade de maestrla?7. La siguiente tabla muestra 1000 aspirantes a la escuela de enfermeria, clasificadas de acuer­do con las calificaciones logradas en el examen de ingreso, a la universidad y a la calidad dela escue1a preparatoria de la que son egresadas, segUn un gmpo de profesores:Caiidad de las escuelas preparatoriasDeficiente Promedio SuperiorCalificaci6n (P) (A) (S) TotalBaja (L) 105 60 55 220Media (M) 70 175 145 390Alta (H) 25 65 300 390Total 200 300 500 1000a) Calcule a prob<j.bilidad de que unaaspirante seleccionada aleatoriamente de este grupo:1. Tengauna calificaci6n baja en e1 examen.2. Seagraduada de una preparatoria de calidad superior.3; Tenga una calificati6n baja enelexanien ysea graduada de una preparatoria de nivelsuperior.4. Tenga unacalificaci6n baja en el examen dado que se gradu6 en una preparatoria denivel superior.5. Tenga una calificaci6n alta 0 que sea graduada de una preparatoria de nivel superior.b) Calcule las.siguientes probabilidades: I.P(A) 2. P(H) 3. P(M) 4.P(A IH) 5.·P(M riP) 6. P(HIS) 8. Si la probabllidad de que una enfermera en salud publica encuentre a un paciente en casa esde .7, ~cual es la probabilidad (suponga independencia de evento&) de que en dos visitasdomiciliarias hechas en un dla ambos pacientes esten en casa?,9. La siguiente tabla muestra el resultado de 500 entrevistas hechas durante una investigacionpara estudiar la opinion de los residentes de derta ciudadacerea de la legalizacion del aborto.Los datos estan clasificados por area de la ciudad en donde se aplico ~l cuestionario.
    • 80 CAPITULO 3 ALGUNOS CONCEPTOS BAsICOS DE PROBABILISTICAResultadoArea de A favor En contra Abstinencia.la ciudad (F) (Q) (R) TotalA 100 20 5 125B 115 5 5 125D 50 60 15 125E 35 50 40 125Total 300 135 65 500, a) Si aleatoriamente se selecciona uncuestionario de entre los 500, ~cual es la probabilidadde que:·1. el encuestado este a favor de la legalizaci6n del aborto?2. el encuestado este en coritrade la legalizaci6n del aborto?. .3. el encuestado se abstenga?4. el encuestado viva en el area A, B,"D, E?5. el encuestado este a favor de la legalizaci6n del aborto, dado que reside en el area B?6. el encuestado se abstenga 0 resida en el area D? b) Calcule las siguientes probabilidades: 1. P(A nR) 2. P(QuD) 3. P(D)4. P(Q ID) 5. P(B IR) 6. P(F)10. En una poblaci6n, la probabilidad de que un individuo, elegido aleatoriamente, se expongaa determinado alergeno y tengauna ieacci6n frerite al mismo es de .60. La probabilidad deque un individuo expuesto al alergeno expedmente una reacci6n alergica es de .8. Si unindividuo es elegido aleatoriainente deesta poblaci6n, ~cuales la probabilidad de que seexponga al alergeno?11. Suponga que 3 por ciento de una poblaci6n de adultosha intenlado suicidarse. Tambien sesabe que 20 por ciento de esa poblaci6n vive en condiciones extremas·de pobreza. Si estos doseventos son independientes,~cuaI eslaprobabilidad de que unindividuo elegido aleatoriamentehaya intentado suicidarse y ademas.viva en condiciones extremas de pobreza?12. En una poblaci6n de mujeres, 4 por ciento tienen cancer de pecho, 20 por ciento son fuma·doras y 3 por ciento son fumadoras y tienen cancer de pecho. Si una mujer es elegida al azarde entre esa poblaei6n, ~cual es la probabilidad de que tenga,cancer de pecho, 0 sea fumado­ra 0 tenga ambas caracteristicas? "" . .~13. La probabilidad de que una persona elegida al azar de entre una poblaci6n presente elsintoma caracteristico de una enfermedad es de .2, y la probabilidad de que una personaelegida aleatoriamente presente esa enfermedad es de .23. La probabilidad de elegir a unapersona que tenga el sintoma y tambien la enfermedad es de .18. Si una persona elegida alazar de entre esa poblaci6n no presenta el sintoma, ~cuaI es la probabilidad de que tenga laenfermedad?14. Para cierta poblaci6n se definen los siguientes eventos para las edades de las madres en elmomenta de dar a luz: A = menos de 20 aDOS, B = 20-24 aDOS, C = 25-29 aDOS, D = 30-44aDOS. Los eventos A, B, Cy D en pares ~son mutuamente excluyentes?15. En referencia al ejercicio 14, establezca con palabras elevento E = (A u B).
    • 81BffiLIOGRAFIA16. En referencia al ejercicio 14, establezca con palabras el evento F= (B u C).17. En referencia al ejercicio 14, -=omente respecto al evento G = (A n B).18. Para cietta pobhici6n se definen los siguientes eventos con respecto a los niveles de lipoprotefnadel plasma (mg/dl):A = (l0-15); B = (~30); C= ($ 20). ~Son los eventosA y B mutuamenteexduyentes? My C?, i.E YC? Explique su respuesta para cada pregunta.19. En referencia al ejercicio 18, establezca con palabras el significado de los siguientes eventos:a)AuB b)AnB c)AnC d)AuC20. En referencia al ejercicio 18, establezca con palabras el significado de los siguientes eventos.a) if b) B c) C21. La siguiente tabla muestra los resultados de la evaluaci6n de la prueba de detecci6n en la queparticiparon una muestra aleatoriade 650 individuos con la. enfermedad y una segundamuestt:a aleatoria independiente de 1200 individuos sin la enfermedad.EnfermedadResultado del examen Presente .AusentePositivo 490 70 Negativo 160 1130 a) Calcule la sensibilidad de la prueba.b) Calcule la especificidad de la prueba.c) Si la tasa de la enfermedad en la poblaci6n en general es .002, ~cuaI es el valor que predicela positividad de la prueba?d) ms una estimaci6n satisfactoria 650/1850 de la tasa de la enfermedad en la poblaci6ngeneral? Explique su respuesta.22. La sensibilidad de una prueba de detecci6n es de .95 y su especificidad es .85. La tasa de laenfermedad para la que utiliz6la prueba es de .002. ~Cmll es el valor que predice la positividadde la prueba?BmUOGRAFiABibliografia de metodologia1. Allan Gut, An Intermediate Course in Probability, Springer-Verlag, New York.2. Richard Isaac, The Pleasures ofProbability, Springer-Verlag, New York.3. Harold J. Larson, Introduction to Probability, Addison-Wesley, Reading, MA.4. L. J. Savage, Foundations ofStatistics, Segunda edici6n revisada, Dover, New York.5. A. N. Kolmogorov, Foundations ofthe Theory ofProbability, Chelsea, NewYork. (Edici6n originalen aleman, publicada en 1933.)
    • 82 CAPITULO 3 ALGUNOS CONCEPTOS BA.SICOS DE PROBABILISTICABibliografia de aplicacionesA-I. Patricia G. Erickson y Glenn F. Murray, "Sex Differences in Cocaine Use and Experiences: ADouble ~tandard?", AmericanJournal ofDrug and Alcohol Abuse, 15, 135-152.A-2. B. Cecilia Zapata, Annabella Rebolledo, Eduardo Atalah, Beth Newman y Mary-Clair King,The Influen:ce of Social and Political Violence on the Risk of Pregnancy Complications",AmericanJournal ofPublic Health, 82,685-690.A-3. Ali M. Hammoud y Carl F. Grindstaff, "Sociodemographic Characteristics of the PhysicallyDisabled in Canada", CanadianJournal ofPublic Health, 83, 57-60.A-4. Charles A. Sninsky, David H. Cort, Fergus Shanahan, Bernard J. Powers, John T. Sessions,Ronald E. Pruitt, Walter H.Jacobs, Simon K. Lo, Stephan R. Targan,JamesJ. Cerda, DanielE. Gremillion, William J. Snape, John Sabel, Horacio Jinich, James M. Swinehart y MichaelP. DeMicco, "Oral Mesalamine (Asacol) for Mildly to Moderately Active Ulcerative Colitis",Annals ofInternal Medicine, 115, 350~355.A-5. D. A. Evans, P. A. Scherr, N. R. Cook, M. S. Albert, H. H. Funkeristein, L. A. Smith, L. E.Hebert, T. T. Wetle, L. G. Branch, M. Chqwn, C.JI. Hennekens, y J. O. Taylor, "EstimatedPrevalance ofAlzheimers Disease in the United States", Milbank Quarterly, 68, 267-289.A-6. Don C. Des Jarlais, Abu Abdul-Quader y Susan Tross, "The Next Problem: Maintenance ofAIDS Risk Reduction Among Intravenous Drug Users", The International Journal of theAddictions, 26, 1279.-1292.A-7. G. Gehan, P. Karoubi, F. Quinet, A. Leroy, C. Rathat y J. L. Pourriat, "Optimal Dose ofLignocaine for Preventing Pain on Injection of Propofol", BritishJournal ofAnaesthesia, 66,324-326. . ..
    • 4.1 INTRODUCCION En el capitulo anterior se presentaron los conceptos basicos de probabilidad y losmetodos para ca1cular la probabilidad de un eventQ. En este capitulo se amplla,nestos conceptos y se exploran formas para calcular las probabilidades de unevento bajo condiciones un poco mas complicadas. En este capitulo se estudianlas relaciones entre los valores de la variable aleatoria y las probabilidades de quesu ocurrencia pueda resumirse por medio de un mecanismo Hamado dislt"ibuci6nde probabilidad. La distribucion de probabilidad se puede expresar forma detabla, grafica 0 formula. Conocer la distribucion de probabilidades para lavariable aleatoria proporciona al medico y al investigador herramientas podero­sas para simplificar y describir un conjunto de datos, y para llegar a conclusionesacerca de la poblacion de datos sobre la base de una muestra de datos extraidosde lapoblacion.4.2 DISTRIBUCION DE PROBABllIDADDE VARIABLES DISCRETASPara iniciar el estudio de las distribuciones de probabilidad, se cbnsidera en primerlugar la distribucion de probabilidad de una variable discreta, ·la cual se definecomosigue:83
    • - - - - -CAPITULO 4 DISTRIBUCIONES DE PROBABILIDADDEFINICIONLa distribucion de probabilidad de una variable aleatoriadiscreta es una tabla, unagratica, una fannula u otrosistelDa utilizado para especificar todos losvaloresposibles de una variable aleatoria discreta junto con susprobabilidades respectivas.EJEMPLO 4.2.1 ..--~En un articulo de la revistaAmericanJournal o/Obstetrics and Gynecology, Buitendijk yBracken (A-I) aseguran que durante 25 afios se ha tornado mayor conciencia de losefectos potencialmente dafiinos de los medicamentos y quimicos en el desarrollode los fetos. En una poblaci6n de mujeres dadas de alta en maternidad, en unhospital del este de EUA, entre 1980 y 1982, los autores valoraron y estudiaron laasociaci6n del uso d~ medicamentos con varias caracteristicas de la madre, porejemplo uso de alcohol, tabaco y adicci6n a farmacos. Sus hallazgos sugieren quelaTABIA4.2.1 PrevalenciadelCODSUIDO de medicmnentosprescritosy no prescritos durante elembarazo enUelllujeres dadas dealtadepues del parto en un hospitaldel este de EUA·N6mero de medicamentos Frecuenciao 1425 1 1351 2 793 3 348 4 156 5 58 6 28 7 15 8 6 9 3 FUENTE: Simone Buitendijk y Michael B. Brac­10 ken, "Medication in Early Pregnancy: Prevalence12 of Use and Relationship to Maternal Characte­ristics", AmericanJournal ofObstetrics and Gyneco­Total 4185 logy, 165,33-40..mujer que muestra un comportamiento mas propenso a correr riesgos durante e1embarazo, tambien esta mas propensa a utilizar medicamentos durante el mismo.La tabla 4.2.1 muestra la prevalencia del consurno de medicamentos prescritos y noprescritos durante el embarazo entre las mujeres estudiadas.
    • 4.2 DISTRIBUCION DE PRQBABILIDAD DE VARIABLES DISCRETAS 85TABlA 4.2.2 Distribucion deprobabilldad del nUrnero demedicamentos consumidos con ysinprescripcion durante el embarazo entrelas mujeres desClitas en el ejemplo 4.2.tNumero de medicamentos (x) P(X =x)0 .3405I .32282 .18953 .08324 .03735 .01396 .00677 .00368 .00149 .000710 .000212 .0002Total 1.0000Se pretende construir la distribuci6n de probabilidad de la variable discretaX, donde X = nurnero de rnedicarnentos prescritos y no prescritos consurnidos porlos individuos estudiados.Soluci6n: Los valores de X son XI = 0, x2 1, ..., XlI = lOy X 12 = 12. Se calculan lasprobabilidades para estos valores dividiendo sus respectivas frecuenciasentre el total, 4185. Asl, porejemplo. P(X x) = 1425/4185 =.3405. EIresultado se rnuestra en la tabla 4.2.2 que representa la distribuci6n deprobabilidades deseada. •Altemativarnente. se puede presentar esta distribuci6n de probabilidad enforma grafica, como en la figura 4.2.1. En dicha figura, la longitud de cada barravertical indica la probabilidad para el valor correspondiente de x.En la tabla 4.2.2 se observa que los valores de P(X = x) son todos positivos.rnenores que 1. y la surna de los rnismos es igual a 1. Estas no son caracterfsticasparticulares de este ejernplo, sino que son caracterfsticas para todas las distribu­ciones de probabilidad de variable discreta. Por 10 tanto, se dan las siguientespropiedades indispensables en unadistribuci6n de probabilidad para una varia­ble discreta:1) 0.::;; P(X = x).::;; 12) LP(X= x) = 1
    • 86 CAPiTULO 4DISTRIBUCIONES DE PROBABILIDAD.35.34.33.32.31.30.29.28.27.26.25.24.23.22.21.20"0 ,19"J,l .18:0~ .17a: .16,15.14.13.12.11.10.09.08.07.06.05.04" .03.02,01o 2 3 4x (numero de medicamentos)FIG,URA 4.2.1 Representaci6n grafica de la distribuci6n de probabilidad de latabla 4.2.1.Tambien se observa que cada una de las probabilidades de la tabla 4.2.2 es lafrecuencia relativa de ocurrencia de cada valor de X.Cuando se tiene disponible la distribuci6n de probabilidad, es posible hacer afir­maciones acerca de la variable aleatoria X. Se muestra con los siguientes ejemplos.
    • 4.2 DISTRIBUCI6N DE PROBABILIDAD DE VARIABLES DISCRETAS 87EJEMPLO 4.2.2 .. . .~~Cual esla probabilipad d~ ,que una mujer seleq:ionada aleatoriamente sea una delas que consumieron tres medicamentos con 0 sin.prescripci6n?Solucion: Se puede escribir la probabilidad deseada comoP(X = 3). En la tabla4.2.2 se puede ver que la respuesta es .0832. •EJEMPLO 4.2.3~Cual es la probabilidad de que una mujer seleccionada aleatoriamente haya con­sumido uno 0 dos medicamentos?Solucion: Para responder a la pregunta, se utiliza la regIa de adici6n para eventosmutuamente excluyentes. Mediante el uso de la notaci6n de probabili­dad y los resultados de la tabla 4.2.21a respuesta se escribe como P(l u2) P(l) + P(2) .3228 + .1895 = .5123.. •lJiStrihuciOlles acumulqdas. AIgunas veces es mas conveniente trab~jar conla distribuci6n de probabilidad acumulada de una variable aleatoria. La distribuci6n deprobabilidadacumuladaparala variable discreta cuya distribuci6n de probabilidadesta dada en la tabla 4.2.2 puede obtenerse sumando sucesivamente las probabili­dades, P(X = x), que aparecen en la ultima columna. La probabilidad acumuladapara Xi se escribe como F(x) P(X:<;; x). Estoda la probabilidad de que Xsea menoro igual a un valor espedfico xiLa distribuci6n de probabilidad acumulada resultante se muestra en la tabla4.2.3. La grafica de la distribuci6n de probabilidad acumuladase muestra en lafigura 4.2.2. A una grafica de este tipo se Ie llama ojiva. La grafica de F(x) consistesolamente en las lineas horizontales. Las lfneas verticales s610 Ie dan una aparien­cia conectada. La longitud de cada linea vertical representa la misma probabilidadque la de la linea correspondiente en la figura 4.2.1. Por ejemplo, la longitud de lalfnea vertical en X 3 de la figura 4.2.2 representa la misma probabilidad quela longitud de la linea levantada en X 3 de la figura 4.2.1, 0 .0832 en la escalavertical.AI consultar la distribuci6n de probabilidad acumulada es posible responderrapidamente a las preguntas de los ejemplos siguientes: .EJEMPLO 4.2.4~Cual es la probabilidad de que una mujer seleccionada aleatoriamente sea una delas que consumieron dos 0 menos medicamentos?.. Solucion: La probahilidadbuscadase puede locaJizar directamente en la tabla 4.2.3,en ellado opuesto a x = 2, donde se observa que es .8528. Es decir, P(x:<;; 2) = .8528. Tambien se puede localizar la respuesta examinando lafigura 4.2.2 y determinando la altura de la grafica (medida sobre el ejevertical) arriba .del.valor de:J!: = 2. •
    • 88 CAPITULO 4 DISTRIBUCIONES DE PROBABILIDADTABlA 4.2.3 Distribucion de probabilidad acumulada del numerode medicamentos con y sin prescripcion utilizados durante elembann:o entre las mujeres descritas en el ejetUplo 4.2.1Numero de medicamentos (x) Frecuencia acumulada P(X:; 2)o1234567891012.3405.6633.8528.9360.9733.9872.9939.9975.9989.9996.99981.00001.00.95.90.85.80.75.70.65.60.55.50~r.....45.40.35.30.25.20.15.10.052 3 4 5 7o 8 9 10 11 12x (numero de medicamenlos)FIGURA4.2.2 Distribuci6n deprobabilidad acumulada del numero de medicamentos con 0sin prescripci6n utilizados durante el embaraZo entre las mujeres descritas en el ejemplo 4.2.1.
    • 394.3 DISTRIBUCION BINOMIALEJEMPIJO 4.2.5~GuaJ. es la probabilidad de que una mujer seleccionada aleatoriamente sea una delas que, consumieron menos de dos medicamentos?SoIudon:Puesto que una mujer que consumio menos de dos medicamentos indicaque consumio uno 0 ninguno, la respuesta es la probabilidad acumuladapara 1, esdecir, P(x < 2) = P(x S 1) == .6633. •EJEMPLO 4.2.6~Guales la probabilidad de que una mujer seleccionada aleatoriamente haya con­sumido cinco 0 mas medicamentos?Soludon: Para encontrar la respuesta se utiliza el conceptode probabilidad com­plementaria. EI conjunto de mujeres que consumen cinco 0 mas medi­c<:l.mentos es el complemento del conjllllto de mujeres que consumenmenos de cinco (es decir, cuatro 0 menos). La suma de las probabilida­des asociadas coneste conjunto es igual a 1. Esta relacion escrita ennotacion de probabilidad es P(x 2 5) + P(x s ,4) == 1. Por 10 tanto, P(x 25) = 1 - P(x s 4) = 1- .9733 = .0267. •EJEIUPLO 4.2.7~Gual es la probabilidad de que una mujer seleccionada aleatoriamente sea una delas que consumieron entre tres y cinco medicamentos, inclusive?Soludon: P(x s 5) = .9872 es la probabilidad de que una mujer haya consumidoentre cero y 5 medicamentos, inclusive. Para obtener la probabilidad deentre 3 y 5, se resta de .9872 la probabilidad de 2 0 menos. La respuestaescrita en notacion de probabilidad queda como: P(3 S x s 5) P(x s5) - P(x s 2) = .9872 - .8528 = .1344. •La distribuci6n de probabilidad dada en la tabla 4.2.1 esta desarrollada a partir dela experiencia real, asi que de encontrar otra variable siguiendo esta distributi6n,seria s6lo por casualidad. Sin embargo, las distribuciones de probabilidad de mu­chas variables de interes pueden determinarse 0 asumirse sobre la base de conside­raciones te6ricas. En las siguientes secciones, se estudian con detall,e tres de estasdistribuciones te6ricas de probabilidad: binomial, Poisson y normal.4.3 DISTRIBUCION BINOMIALLa distribuciOn binomial es una de las distribuciones utilizadas mas ampliamente enestadistica aplicada. La distribuci6n se deriva de llll procedimiento conocido comoensayo de Bernoulli, nombrado as! en honor del matematico suizo James Bernoulli(1654-1705), quien realiz6 contribuciones importantes en el campo de la probabi­lidad, induyehdo, particularmente, la distribucion binomial. Guanda en un proce­so aleatorio 0 experimento, llamado ensayo, puedeocurrir solo uno de dos resultadosmutuamente excluyentes, como vida 0 muerte, enfermo 0 sano, masculino 0 feme­nino, el ensayo se llama ensayo de Bernoulli.
    • 90 CAPITULO 4 DISTRIBUCIONES DE PROBABILIDADProceso de Bernoulli Una secuencia de ensayos deB-ernoulli forma un proce­so de Bernoulli, si se cumplen las siguientes condiciones:1. En cada ensayo ocurre uno de dos posibles resultados, IIiuWamente excluyentes.Uno delos posibles resultados.se.denota (arbitrariamente) como un exito y elotro., como fracaso. ," "2. La probabilidad de un exito, denotado porp, permanece constante de unensayo a otro, y la probabilidad de fracaso, 1 - p, se denota con q.3. Los ensayos son independientes, es decir, el resultado de alglin ensayo enparticular no es afectado por el resultado de cualquier otro ensayo.EJEMPLO 4.3.1Se desea calcular la probabilidadde x exitos en n ensayos de Bernoulli. Por ejem­plo, suponga que en cierta poblacion 52 por ciento de todos los nacimientos que seregistraron son varones. La interpretacion de esto es que la probabilidad del naci­miento de un varon registrado es de .52. Si aleatoriamente se escogen cinco regis­tros de nacimiento dentro de esa poblacion, ~cual es la probabilidad de queexactamente tres de ellos pertenezcan a varones?Solucion: Designe la ocurrencia de un registro para el nacimiento de un varoncomo "exito", y se aclara que esta es una designaciori arbitraria con finesde claridad y conveniencia y no refleja ninguna opinion respecto a lapreferencia relativa del nacimiento de varones frente a m:ujeres. La ocu­rrencia de un registro de nacimiento para un varon se designa comoexito, puesto que 10 que se busca son registros de nacimientos de varo­nes. Sise buscasen registros denacimientos de mujeres, estos sedan de­signados como exitos, y el registro de nacimientos de varones sedandesignados como fracasos. .Tambien es conveniente asignar el numero 1 a un exito (registrodel nacimiento de un varon) y un 0 para un fracasb (registro de naci­miento de una mujer).El proceso que finalmente resulta en un registro de nacimiento seconsidera como un proceso de Bernoulli.Suponga que, de los cinco registros de nacimiento seleccionados,resulta esta secuencia de sexos:VMVVMEn forma codificada se escribe de la siguiente forma: .. .10110Puesto que la probabilidad de un exito .~e denota conpyla probabi­lidad de un fracaso se denota con q, la probabilidad dela secuencia de losresultados anteriQres se calcula por medio de la regIa de multiplicacion:P(l, 0; 1; 1, 0) = pqppq = q2p3
    • 914.3 DISTRIBUCION BINOMIALLa regia de lamultiplicacion resulta adecuada para calcular esta proba­bilidad, puesto que sebusca la probabilidad de un varon, una mujer, unvaron, un varon y una mujer, en ese orden. En otras palabras, se requie­re la probabilidad conjunta de cinco eventos. Por razones de sencillez, seutilizan las comas en lugar de la notacion de interseccion, para separar10s resultados de los eventos en la expresion de la probabilidad..La probabilidad resultante es la de obtener la secuencia espedficaen el orden en que se muestran. Sin embargo, el interes no esta en elorden de ocurrencia de los registros. del nacimiento de varones y muje­res, sino, como .se ha manifestado previamente, en la probabilidad deocurrencia exacta de tres registros de nacimiento de varones de entrecinco registros seleccionados aleatoriamente"En lugar de ocurrir en lasecuencia mostrada con anterioridad (secuencia numero I), los tres exi­tos y dos fracasos pueden ocurrir tambien en alguna de las secuenciasadicionales dadas en la tabla adjunta.Numero Secuencia2 111003 100114 110105 110016 10101.7 011108 001119 0101110 01101Cada una de estas secuencias tiene la misma probabilidad de ocu­rrir yes igual a q2p3, probabilidad calculada para laprimera secuenciamencionada.Cuando se extrae una sola muestra de cinco elementos a partir deuna poblacion espedfica, solo se obtiene una secuencia de exitos 0 fra­casos. La pregunta, ahora, es: ,cual es la probabilidad de obtener lasecuencia numero 1;la secuencia numero 2... 0 la secuencia numero 10?Con la regIa de adicion se sabe que esta probabilidad es igual a la sumade las probabilidades individuales. En este ejemplo se requiere sumarlas 10 q2p3, 10 que equivale a multiplicar q2p3 por 10. Ahora se puederesponder a la pregunta original: ~cual es la probabilidad de observartres exitos (registros de nacimiento de un varon) y dos fracasos (registrosde nacimiento de una mujer) en la muestra aleatoria de 5 elementosextrafda de la poblacion especificada? Puesto que en Ia poblacion, p =.52 Yq = (l - P) (1 - .52) .48, la respuesta a la pregunta es:10(.48)2(.52)310(.2304)(.140608) .32•
    • 92 CAPITULO 4 DISTRIBUCIONES DE PROBABILIDADUso de la combinaci6n como procedimiento en maestros grandesFacilmente se puede anticipar que hacer una lista del numero de secuencias sehace mas y mas diffcil y tedioso segtin crece el tamano de la muestra, por 10 cuales necesario un metodo sencillo para contar el numero de secuencias. Este meto­do es proporcionado por la formula de conteo que permite determinar rapida­mente cuantos subcoIYuntos de objetos pueden formarse cuando en diferentessubconjuntos se utilizan numeros de objetos que componen el conjunto del cual seextraen. Cuando el orden de los objetos dentro de un subconjunto es inmaterial, elsubconjunto se llama combinacion de objetos. Si un conjunto consta de n objetos yse pretende formar un subconjunto de x objetos, sin ver el orden de los objetosdentro del subconjunto, el resultado se llama combinaci6n. Por ejemplo, se define lacombinacion como sigue cuando la combinacion se forma tomando x objetos de unconjunto de n objetos:DEFINICIONUna cornbinaci6n de n objetos tornados x a la vez es unsubconjunto desordenado de x de los n objetos.EI numero de combinaciones de n objetos que imeden formarse tomando x ala vez esta dado por:n!.GN =---- (4.3.1)x!(n-x)!donde: x!, que se lee x factorial, es el producto de todos los numeros enteros de xhasta 1. Es decir, xl = x(x - l)(x 2) ... (1). Observe que, por definicion, 01 1.En el ejemplo se tiene una muestra de n = 5 nacimientos y se tiene inten~s enencontrar la probabilidad de que tres de elIos sean nadmientos de varones.EI numero de secuencias para el ejemplo se caIcula con la ecuacion 4.3.1 comosigue:1201012En el ejemplo, x = 3 es el numero de exitos, as! que n - x 2 representa elnumero de fracasos. Luegose escribe la probabilidad de obtener exactamente xexitos en n ensayos:j(x) =nGxqn-xpx= nG/jrqn-N para x = 0, 1, 2, ..., n= 0, en caso contrario (4.3.2)A esta expresion se Ie llama distribudon binomial. En la ecuacion 4.3.2fix)P(X = x), donde X es la variable aleatoria, el numero de exitos es n ensayos. Se
    • 934.3 DISTRIBUCION BINOMIALTABlA 4.3.1 DistribucionbinomialNumero de exitos, x Probabilidad,f(x)o "Coq"-0pO1 "C1qn-lpl2 nC2qn-2p2xnTotal 1utilizaj{x) en Iugar de P(X x) porque es muy compacta y porque es de uso casiuniversal.La distribuci6n binomial se puede presentar en forma tabular como se mues­tra en la tabla 4.3.1.Se establece que Ia ecuacion 4.3.2 es una distribuci6n de probabilidad almostrar 10 siguiente:1. j{x) ~ 0 para todos los valores reales de x. Esto proviene del hecho de que n yp no son nfuneros negativos, por 10 que nexpx y (1-p)"-xtampoco 10 son, por10 tanto sus productos son mayores 0 iguales a cero.2. 2.,j{x) = 1. Esto se considera cierto al reconocer que 2.,,,Cxq" -xpx es igual a [(1 ­p) + p]" = I" = 1, que es la expresi6n binomial familiar. Si el binomio (q + p)nes desarrollado se tiene:+... +nqlpn-l +pnSi los terminos de la expansion son comparados, termino a termino, con losfix) de la tabla 4.3.1 se aprecia que son equivalentes, termino a termino,porque:f(O):::: "c~n-O pOf{l):::: C q"-l pt ::::nqn-lpln 1 .n(n 1)2
    • 94 CAPITULO 4 DISTRIBUCIONES DE PROBABILIDADFJEJtIPLO 4.3.2Otro ejemplo del uso de la distribucion binomial. Suponga que se sabe que 30 porciento de cierta poblacion es inmune a alguna enfermedad. Si se escoge una mues­tra aleatoria de 10 elementos de entre esta poblacion, ~cu<il es la probabilidad deque dicha muestra contenga exactamente cuatro personas inmunes?Solucion: Se tiene que la probabilidad de elegir una persona inmune es de .3. AIutilizar la ecuacion 4.3.1 se encuentra que:f(4) =IOC4 (.7)6(.3)4= 10! (.1l7649)(.0081)416!=.2001•Tabla binomial El calculo de una probabilidad empleando la ecuacion 4.3.1puede ser una labor tediosa si el tamafio de la muestra es grande. Por fortuna, lasprobabilidades para diferentes valores de n, pyx ya estan tabuladas, por 10 quesolo es necesario consultar la tabla conveniente para obtener la probabilidad de­seada. La tabla B del apendice es una de muchas tablas disponibles. Dicha tablapresenta la probabilidad de que x sea menor 0 igual a alglin valor espedfico. Esdecir, la tabla presenta las probabilidades acumul~tivas desde x = 0 hasta alglinnumero positivo especffico de exitos.El uso de la tabla se muestra utilizando el ejemplo 4.3.2, en el que se requierecalcular la probabilidad de x = 4 cuando n 10 yP=.3. De acuerdo con el estudiode la distribticion de probabilidad acumulada de la seccion anterior, se sabe que P(x4) puede calcularse restando P(X ~ 3) de P(X ~ 4). Si en la tabla B se localiza a p.3 para n = 10, se encuentra que P(X ~ 4) .8497 yP(X ~ 3) = .6496. La resta delprimero menos el segundo es igual a .8497 .6496 = .2001, 10 cual coincide con elcalculo manual.Con frecuencia el interes radica no solo en determinar las probabilidadespara valores especfficos de X, sino para intervalos donde la probabilidad de X esteentre, digamos, 5 y 10. Con el siguiente ejemplo se muestra 10 anterior:rJEJtIPLO 4.3.3Suponga que se sabe que en cierta poblacion 10 por ciento es daltonica. Si se extraeuna muestra aleatoria de 25 personas de esa poblacion, con la tabla B del apendice,encuentre la probabilidad de que:a) Existan cinco 0 menos daltonicos.Solucion: La probabilidad esta en una de las entradas de la tabla. Sin la necesidadde sumar ni restar, la probabilidad P(X ~ 5) = .9666.b) Existan seis 0 mas daltonicos.Soluci6n: Esta probabilidad no se puede encontrar directamente en la tabla. Paraencontrar la respuesta, se utiliza el concepto de probabilidades comple­mentarias. La probabilidad de que existan seis 0 mas daltonicos es el
    • 954.3DISTRIBUCION BINOMIALcomplemento de la probabilidad de que, existan cinco 0 menos. Es decir,este conjunto es el complemento del conjunto especificado en el incisoa; por 10 tanto: P(X?:. 1 - P(X::; 5) == I .9666 .0334c) Existan entre seis y nueve daltonicos, inclusive.Soludon: Esta probabilidad se encuentra restando la probabilidad de que X sea me­, nor 0 igual a 5 de la probabilidad de que X sea mayor 0 igual a 9. Es decir:P(6::; X::; 9) P(X::; 9) - P(X::; 5) .9999 .9666 .0333d) Existandos, tres 0 cuatro daltonicos:Soludou: Esta es la probabilidad de que X este entre 2 y 4, inclusive.P(X::; X::; 4) P(X::; 4)-P(X::; 1) .9020-.2712 = .6308 •Ulilizar la labia B cuandop > .5 La tabla B no da las probabilidades paravalores de p mayores a .5. Sin embargo, pueden obtenerse las probabilidades apartir de la tabla B replanteando el problema en terminos de probabilidad de fra­caso, I -p, en lugar de en terminos de probabilidadde exito p. Como parte delr:ep~antt::amiento, se debe pensar, tambien, en terrninos del numero de fracasos, nx, mas que en terrninos de exitos x. Esta idea se resume de lasiguiente manera:P(X xln,p> .50) =P(X n-xln,I-p) (4.3.3)Puesta en palabras, la ecuacion 4.3.3 dice que: "La probabilidad de que X seaigual a algu.n valor especffico dado el tamano de la muestra y una probabilidadmayorque .5, es igual ala probabilidad de que X sea igual a n ~x dado el tamano dela muestra y la probabilidad de un fracaso I-p". Con la finalidad de utilizar la tablabinomial, la probabilidad de un fracaso se trato como la probabilidad de un exito._Cuando pes mayor que .5, las probabilidades acumuladas pueden obtenerse a par­tir de la tabla B empleando la siguiente relacion:P(X::; xIn, p > .5) = P(X ?:. n - x In, 1 - p) (4.3.4)Finalmente, al utilizar la tabla B para calcular la probabilidad de que X sea mayor 0igual a alguna x cuando P > .5, se utiliza la siguiente relacion:P(X?:. xln,p > .5) P(X::; n-xln, I-P) (4.3.5)E,JEMPLO 4.3.4Encierta comunidad, en una tarde dada, en 85 por cientode las farnilias, alguno delos miembros esta en casa. Un equipo de investigacion sanitaria selecdona unamuestra aleatoria de 12 familias para realizaruna encuesta via telefonica. Con latabla B, calcule la probabilidad de que:
    • 96 CAPITUL04 DISTRIBUCIONES DE PROBABILIDADa) EI equipo encuentre a alguien en casa en 7 familias exactamente.Soluci6n: EI replanteamiento del problema es como sigue: Si en 15 por ciento delas familias no hay nadie en casa, ~cua:l es la probabilidad de que elequipo que realiza la encuesta no obtenga respuesta en 5 de 12 llama­das? La respuesta se calcula como sigue:P(X = 51n= 12, 15) P(Xs 5)-P(Xs 4)=.9954 - .9761 .0193b) EI equipo encuentre a alguien en casa en 5 familias 0 menos.Soluci6n: La probabilidad que se busca es:P(X S 51n = 12,p =.85) = P(X 212 51n = 12,p =.15)P(X271n 12,p .15)= 1 P(Xs 61n 12,p =.15)= 1 - .9993 .0007c) EI equipo encuentre a alguien en casa en 80 mas familias., .Soluci6n: La probabilidad que se busca es:P(X 2 81n = 12,p =.85) =P(X S 41n = 12,p =.15) = .9761 •La figura 4.3.1 muestra una representaci6n visual de la soluci6n para los tres incisosdel ejemplo 4.3.4.N6mero posible Numero posiblede exitos (alguien de fracasos (nadieen casal = x Condici6n de en casal = n -x, Condici6n deP(JtxITo) =.85 prohabilidad P(FRACASO) =.15 probabilidadInciso b P(X ~ 5112, .~5)6 6Inciso a CD P(X == 7112, .85) ®Inciso c P(X ~ 8112, .85)1112® 0P(X~ 7112, .15)P(X == 7112, .15 )p(X~4112, .15)FIGURA 4.3.1 Representaci6n esquematica de la soluci6n del ejemplo 4.3.4 (dentro de los6valos se encuentra el numero relevantede exitos y fracasos en cada caso).
    • FJERCICIOS EJERCICIOS 97Parameiros bilWmiales La distribucion binomial dene dos parametros, n yp. Son parametros en el sentido de que son suficientes para especificar una distri­bucion binomial. La distribucion binomial es en realidad una familia de distribu­ciones con cada uno de los valores posibles de n y p designando a un miembrodiferente de la familia. La media y la variancia de la distribucion binomial son J.l =np y ()2 = np(1 - P), respectivamente.La distribucion binomial, formalmente hablando, es aplicable en situacionesdonde el muestreo se realiza a partir de una poblacion infinita 0 a partir de unapoblacion finita con restitucion. Puesto que en la pnictica real las muestras sonnormalmente seleccionadas sin restitucion a partir de una poblacion finita, logica­mente surge la pregunta respecto a la conveniencia de una distribucion binomialen estas cirrunstancias. La conveniencia del uso de esta distribucion depende deque tan drastico es el efecto de esas condiciones en la invariabilidad de p de unensayo a otro. Normalmente se considera que ruando n es pequeno en relacion conN, el modelo binomial es aderuado. Algunos autores coinciden en que n es peque­no en relacion con N si N es al menos 10 veces mas grande que n.Se dispone de muchos programas de softwareestadfstico para realizar loscalculos de la probabilidad binomial en computadoras personales. Por ejemplo,MINITAB calcula las probabilidades individualmente 0 en forma acumulada paravalores espedficos de x, n y p. Suponga que se pretende encontrar las probabili­dades individuales desde x = 0 hasta x = 6 cuando n = 6 YP .3. Se meten losnumeros desde 0 hasta 6 en la columna 1 y se procede como 10 muestra la figura4.3.2. Si la pretension es encontrar las probabilidades acumuladas, se procedecomo en la figura 4.3.3.En cada uno de los siguientes ejercicios, suponga que N es suficientemente grande con rela­ci6n any que es posible utilizar la distribuci6n binomial para calcular las probabilidades quese piden.4.3.1 Sobre la base del amilisis de datos recolectados por el National Center for Health Statistics,Najjar y Rowland (A-2) informaron que 25.7 por ciento (redondear a 26 por ciento paraprop6sitos del calculo) de personas adultas de EVA tienen sobrepeso. Si se extrae una mues­tra aleatoria simple de 20 adultos, encuentre la probabilidad de que el numero de personascon sobrepeso, dentro de la muestra, sean:a) Exactamente tres personas b) Tres 0 mas personas c) Menos de tres d) Entre tres y siete, inclusive 4.3.2 Consulte el ejercicio 4.3.1. ~Cuantos adultos con sobrepeso se espera encontrar en la mues­tra de 20?4.3.3 Consulte el ejercicio 4.3.1. Suponga que se extrae una muestra aleatoria simple de cincoadultos. Con la ecuaci6n 4.3.2 encuentre la probabilidad de que el numero de personas consobrepeso en la muestra sea:a) Cero b) Mas de una c) Entre uno y tres, inclusive d) Dos 0 menos e) Cinco
    • 98 CAPITULO 4 DISTRIBUCIONES DE PROBABILIDADDatos:C1: 0 1 2 3 4 5 6Caja de dialogo: Comandos de la sesi6n:Calc> Probability Distributions>BinomialMTB >SUBC>PDF C1;BINOMIAL 6 0.3.Seleccionar Probability. Teclear 6 en Number oftrials. Teclear 0.3 en Probability of success. Se­leccionar Input column y teclear Cl. Clic OK.Resultados:Probability Density FunctionBinomial with n = 6 and px P(X =x)0.00 0.11761.00 0.30252.00 0.32413.00 0.18524.00 0.05955.00 0.01026.00 0.0007= 0.300000FIGURA 4.3.2 Calculo efectuado por el paquete MINITAB de la probabilidad binomialindividual para x = 0 hasta x = 6, cuando n 6 y P .3.4.3.4 Un informe del National Center for Health Statistics, basado en los datos de 1985, afirmaque 30 por ciento de la poblaciDn adulta de EUA son fumadores (A-3). Considere una mues­tra aleatoria simple de 15 adultos seleccionados en ese momento. Encuentre la probabilidadde que el numero de fumadores en la muestra sean:a) Tres b) Menos de cinco c) Entre cinco y nueve, inclusive d) Mas de cinco, pero menos de 10 e) Seis 0 mas 4.3.5 Consulte el ejercicio 4.3.4 y encuentre la media y variancia del numero de fumadores en lamuestra de tamafio 15.4.3.6 En referencia al ejercicio 4.3.4, suponga que se toma una muestra aleatoria simple de 25adultos hoy dia y se encuentra que dos son fumadores. tRace sospechar este resultado que elnumero de fumadores ha disminuido desde 1985? iPor que sf 0 por que no?
    • EJERCICIOS 99Datos:C1: 0 1 2 3 4 5 6Caja de dialogo: Comandos de la sesi6n:Calc> Probability Distributions> MTB > CDF C1;Binomial SUBC> BINOMIAL 6 0 • 3 •Seleccionar Cumulative probability. Teclear 6 enNumber of trials. Teclear 0.3 en Probability ofsuccess. Seleccionar Input column y .teclear CI.Clic OKResultados:Cumulative Distribution FunctionBinomial with n = 6 and p = 0.300000x P(X = x)0.00 0.11761.00 0.42022.00 0.74433.00 0.92954.00 0.98915.00 0.99936.00 1.0000FIGURA 4.3.3 Calculo efectuado por el paquete MINITAB de la probabilidad binomialacumulada para x = 0 hasta x = 6, cuando n = 6 YP = .3.4.3.7 La probabiJidad de que una persona que sufre de migrana tenga alivio con un farmacoespecffico es de-,9, Se seleccionan aleatoriamente a tres personas con migrana a las que se lesadministra el farmaco. Encuentre la probabilidad de que el numero de personas que logranalivio sean:a) Exactamente cero b) Exactamente uno c) Mas de unod) Dos 0 menos e) Dos 0 tres f) Exactamente tres4.3.8 En una investigaci6n realizada entre estudiantes de enfermerfa aspirantes al grade de maes­tria, 75 por ciento declararon que esperaban ser promovidos a un puesto mas alto un mesdespues de obtener el grado, Si este porcentaje representa a toda la poblaci6n, encontrar,para una muestra de 15, la probabilidad de que el numero de personas que esperan unapromoci6n un mes despues de obtener eI grado sean:a) Seis b) AI menos siete c) No mas de cinco d) Entre seis y nueve, inclusive4.3.9 Dado el parametro binomial p = ,8 Yn = 3, muestre mediante el desarrollo binomial dadoen la tabla 4,3.1 que i,f(x) = 1.
    • 100 CAPiTULO 4 DlSTRIBUCIONES DE PROBABILIDAD4.4 DISTRIBUCION DE POISSONLa siguiente distribuci6n discreta a considerar es la distribuci6n de Poisson, Hamadaasf en honor del matematico frances Simeon Denis Poisson (1781-1840), quientiene amplio reconocimiento por la publicaci6n de su trabajo en 1837. Esta distri­bud6n ha sido empleada extensamente en biologfa y medicina como modelo deprobabilidad. Haight (1), en el capitulo 7 de sulibro, presenta un repertorio muyamplio de aplicaciones.Si x es el numero de ocurrencias de algiin evento aleatorio en un intervalo deespacio 0 tiempo (0 algiin volumen de materia), la probabilidad de que x ocurra esdada pore-l.),,;f(x)=--, x=0,1,2... (4.4.1 )x!La letra griega A(lambda) es el parametro de la distribuci6n y es el numeropromedio de ocurrencias del evento aleatorio dentro del intervalo (0 volumen). EIsfmbolo e, es la constante (con cuatro decimales) 2.7183.Se puede mostrar que fix) ~ 0 para cada x y que r x f (x) 1; por 10 tanto, ladistribuci6n satisface los requerimientos para la distribuci6n de probabilidad.Proceso tk Poisson Como se ha visto, la distribuci6n binomial resuita de unconjunto de suposiciones acerca de un proceso impHcito para formar un conjuntode observaciones numericas. Lo mismo ocurre en el caso de la distribuci6n de Poisson.Las siguientes afirmaciones describen 10 que se conoce como proceso de Poisson.1. Las ocurrencias de los eventos son independientes. La ocurrencia de un even­to en un intervalol de espacio 0 tiempo no tiene efecto en la probabilidad deuna segunda ocurrencia del evento en el mismo, 0 en algiin otro intervalo.2. Te6ricamente, debe ser posible la ocurrencia de un evento en un numeroinfinito de veces dentro del intervalo.3. La probabilidad de una sola ocurrencia del evento en un intervalo dado esproporcional a la dimensi6n del intervalo.4. En cualquier fracci6n infinitesimal del intervalo, la probabilidad de mas deuna ocurrencia del eVf"nto es insignificante.Una caracterfstica interesante de la distribuci6n de Poisson es que la media yla variancia son iguales.Cuundo utilizur el modelo de Poisson La distribuci6n de Poisson se em-plea cuando se cuentan los eventos 0 entidades, distribuidos al azar en espacio 0tiempo. Es facil intuir cuando cierto proceso obedece a la ley de Poisson, y bajo estasuposici6n se puede calcular la ocurrencia de eventos 0 entidades en alguna unidad1 Por comodidad, la distribuci6n de Poisson se estudia en terminos de intervalos, aunque tambien inter­vienen otras unidades como volumen.
    • 1014.4 DISTRIBUCION DE POISSONde espacio 0 tiempo. Por ejemplo, suponiendo que la distribuci6n de alglin parasi­to entre miembros individuales huespedes sigue la ley de Poisson, y conociendo elparametro A, se puede calcular la probabilidad de que al seleccionar aleatoriamenteun huesped individual este produzcax nfunero de parasitos. En el siguiente capitu­lo se aprendera c6mo decidir si es recomendable suponer que un proceso especffi­co obedece la ley de Poisson.Se consideran los siguientes ejemplos que muestran el uso de la distribuci6nde Poisson para el calculo de probabilidades:FJEMPLO 4.4.1En un estudio de suicidas, Gibbons et al. (A-4) encontraron que la distribuci6n men­sual de adolescentes suicidas en el condado de Cook, Illinois, entre 1977 y 1987sigui6 una distribuci6n de Poisson con parametro A 2.75. Encuentre la probabili­dad de que un mes seleccionado aleatoriamente sea uno en el que ocurri6 el suici­dio de tres adolescentes.Solucion: Con la ecuaci6n 4.4.1 se encuentra que la respuesta es:e-2.752.753 (.063928)(20.796875)P(X=3)=:::: .221584•3! 6FJEMPLO 4.4.2En referencia al ejemplo 4.4.1, suponga que eI suicidio futuro de adolescentes en lapoblaci6n analizada seguira una distribuci6n de Poisson. ~Cual es la probabilidadde que un mes seleccionado aleatoriamente sea uno en eI que ocurriran tres 0cuatro suicidios?Solucion: Puesto que los dos eventos son mutuamente exduyentes, se utiliza laregIa de la adici6n:e-2.752.75 4P(X =3) +P(X =4) = .221584+--­4! •.221584 + .152338 = .373922En los ejemplos anteriores las probabilidades se evah1an directamente con la ecua­ci6n. Sin embargo, se puede utilizar la tabla C del apendice; en ella se encuentranlas probabilidades acumuladas para varios valores de Ay X.FJEMPLO 4.4.3Durante eI estudio de cierto organismo acuatico, se tom6 un gran numero de mues­tras de una laguna, y se cont6 eI numero de organismos en cada muestra. EI nume­ro promedio de organismos encontrados por muestra fue de dos. Suponga que elnumero de organismos sigue una distribuci6n de Poisson, y calcule la probabilidadde que la pr6xima muestra que se tome tenga un organismo 0 menos.Solucion: En la tabla C se aprecia que cuando A= 2, la probabilidad de que X S; 1es .406. Es decir, P(X S; 112) = .406. •.
    • 102 CAPITULO 4 DISTRIBUCIONES DE PROBABILIDADE,JEMPLO 4.4.4Consulte el ejemplo 4.4.3 y calcule la probabilidad de que la siguiente muestratenga exactamente tres organismos.Solucion: P(X ~ 312) P(X ~ 3) - P(X ~ 2) .857 - .677 := .180•E,JEMPLO 4.4.5Consulte el ejemplo 4.4.3 y encuentre la probabilidad de que la siguiente muestratenga mas de cinco organismos.Solucion: Puesto que el conjunto de mas de cinco organismos no inc1uye cinco, lapregunta se refiere a la probabilidad de observar seis 0 mas organismos.La respuesta se obtiene al restar la probabilidad de observar cinco 0 me­nos (organismos) de 1. Esto es:P(X> 512):= 1 P(X~ 5):= 1 .983:= .017•Datos:Cl: 0 1 2 3 4 5 6Gaja de dialogo: Comandos de la sesi6n:Calc> Probability Distributions> PoissonMTB >SUBC>PDF Cl;Poisson .70.Seleccionar Probability. Tec1ear .70 en Mean.Seleccionar Input column y teclear Cl. Clk OK.Resultados:Probability Density FunctionPoisson with mu = 0.700000x P(X = x)0.00 0.49661.00 0.34762.00 0.12173.00 0.02844.00 0.00505.00 0.00076.00 0.0001.FIGURA 4.4.1 Cileulo efectuado por el paquete MINITAB de la probabilidad de Poissonindividual para x = 0 hasta x 6 y A, = .7.
    • EJERCICIOS 103Muchos paquetes de software estadisticos calculan las probabilidades de Poisson, ypara este prop6sito se utiliz6 el paquete MINITAB. Suponga que se quiere encon­trar la probabilidad individual para x desde x 0 hasta x = 6, cuando A = .7. Semeten los datos de x en la columna 1 y se procede como se muestra en la figura4.4.1. Se obtienen las probabilidades acumuladas para los mismos valores de x y A.como se muestra en la figura 4.4.2.EJERCICIOS4.4.1 Suponga que se sabe que en cierta area de una gran ciudad el numero promedio de ratas pormanzana es de cinco. Suponga que el numero promedio de ratas sigue una distribuci6n dePoisson, y calcule la probabilidad de que en una manzana elegida aleatoriamente:a) Existan exactamente cinco ratas. b) Existan mas de cinco ratas. c) Existan menos de cinco ratas. d) Existan entre cinco y siete ratas, inclusive. Datos:Cl: 0 1 2 3 4 5 6Caja de dialogo: Comandos de la sesi6n:Calc> Probability Distributions> Poisson MTB > CDF Cl;Seleccionar Cumulative probability. Teclear .70 SUBC> Poisson .70.en Mean. Seleccionar Input column y teclear Cl.Clic OK.Resultados:Probability Distribution FunctionPoisson with mu = 0.700000x P(X = x)0.00 0.49661.00 0.84422.00 0.96593.00 0.99424.00 0.99925.00 0.99996.00 1.0000FIGURA 4.4.2 Calculo efectuado par el paquete MINITAB de la probabilidad de Poissonacumulada para x = 0 hasta x 6 y Ie = .7.
    • 104 CAPiTULO 4 DISTRIBUCIONES DE PROBABILIDAD4.4.2 Suponga que en un periodo de varios aftos el nfunero promedio de muertes por cierta enfer­medad no contagiosa es de 10. Si el numero de muertes por esa enfermedad sigue la distri­buci6n de Poisson, emil es la probabilidad de que durante el ano en curso:a) Exactamente siete personas mueran por esa enfermedadb) Diez 0 mas personas mueran por esa enfermedadc) No haya muertes por esa enfermedad4.4.3 Si el numero promedio de accidentes graves por ano en una fibrica grande (donde el nfunero deempleados es constante) es de cinco, calcule la probabilidad de que en el ano en curso haya:a) Exactamente siete accidentes b) Diez 0 mas accidentesc) Cero accidentes d) Menos de cinco accidentes4.4.4 En un estudio sobre a la efectividad de un insecticida contra cierto insecto, se fumig6 unagran area de tierra que, mas tarde, se examin6 por cuadrantes elegidos aleatoriamente y enla que se cont6 el numero de insectos vivos por secci6n. Experiencias previas han demostra­do que el numero promedio de insectos vivos por cuadrante, despues de fumigar, es de .5. Siel numero de insectos vivos por secci6n sigue una distribuci6n de Poisson, emil es la probabi­lidad de que cierto cuadrante elegido tenga:a) Exactamente un insecto vivo b) Cero insectos vivosc) Exactamente cuatro insectos vivos d) Uno 0 mas insectos vivos4.4.5 En cierta poblaci6n, cada ano se diagnostica un promedio de 13 nuevos casos de canceresofagico. Si la incidencia anual de este tipo de cancer sigue una distribuci6n de Poisson,calcule la probabilidad de que en un ano determinado el numero de nuevos casos diagnosti­cados de cancer sea:a) Exactamente 10 b) AI menos ochoc) No mas de 12 d) Entre nueve y IS, inclusive e) Menos de siete4.5 DISmmUCIONES DEPROBABHIDAD CONTINUALas distribuciones de probabilidad consideradas hasta aqui, binomial y de Poisson,son distribuciones de variable discreta. Ahora se consideran las distribucionesde variable aleatoria continua. En el capitulo 1 se dijo que una variable continua esaquella que puede asumir cualquier valor en un intervalo espedfico de valores.Consecuentemente, entre cualesquiera dos valores asumidos por la variable conti­nua existe un m1mero infinito de valores.Para comprender, la naturaleza de la distribuci6n de una variable aleatoriacontinua, considere los datos presentados en la tabla 1.4.1 yen la figura 2.3.2. En latabla hay 169 valores para la variable aleatoria edad. EI histograma de la figura2.3.2 esta construido con puntos espedficos localizados sobre una linea, que repre­senta la medici6n de interes y que forma una serie de rectangulos, cuyas bases sonlas distancias entre dos puntos espedficos, sobre la linea y cuyas alturas representanel numero de valores de la variable que caen entre los dos puntos especificados. Losintervalos delimitados por cualquier par de puntos especificados consecutivos sellaman intervalos de clase.
    • 1054.5 DISTRIBUCIONES DE PROBABILIDAD CONTINUAfIx)xFIGURA 4.5.1 Histograma resultante de un gran numero de valo­res y c1ases de intervalos pequenos.Como se estudi6 en el capitulo 2, las subareas del histograma corresponden a lasfrecuencias de ocurrencia de los valores de la variable entre los lfmites de la escalahorizontal de esas subareas. Esto proporciona un metodo para calcular la frecuen­cia relativa de ocurrencia de valores entre dos puntos especfficos; tan s610 es nece­sario determinar la proporci6n del area total del histograma que se encuentra entrelos puntos especificados. Esto se puede hacer mas convenientemente consultandolas columnas de frecuencia relativa 0 frecuencia relativa acumulada en la tabla 2.3.2.Imagine ahora una situaci6n donde el numero de valores de la variable aleatoriaes muy grande y la amplitud de los intervalos de clase es muy pequefia. EI histogramaresultante seria como el que se muestra en la figura 4.5.1.Si se conectan los puntos medios de las celdas del histograma en la figura4.5.1 para formar un poligono de frecuencia, se obtendra una figura mas suave queel polfgono de frecuencia de la figura 2.3.4.En general, cuanto mas se aproximan a infinito el numero de n observacio­nes, y la amplitud de los intervalos de clase se aproximan acero, el polfgono defrecuencia se aproxima a una curva mas suave como la que se muestra en la figura4.5.2. Estas curvas suaves se utilizan para representar gnlficamente las distribucio­fIx)FIGURA 4.5.2 Representaci6n grafica de una distribuci6n continua.
    • 106 CAPiTULO 4 DISTRIBUCIONES DE PROBABILIDADfIx)a xFIGURA4.5.3 Gratica de una distribuci6n continua quemuestra el area entre a y b.nes de las variables aleatorias continuas. Esto tiene algunas consecuencias impor­tantes cuando se trabaja con distribuciones de probabilidad. Primero, el area totalbajo la curva es igual a uno, como 10 es para el histograma, y la frecuencia relativade ocurrencia de los valores entre dos puntos especfficos cualesquiera, sobre el eje delas x, es igual al area total delimitada por la curva, el eje de las x y las rectas perpen­diculares levantadas sobre ambos puntos del eje de las x, tal como 10 muestra lafigura 4.5.3. La probabilidad de cualquier valor especifico de la variable aleatoria escera. Esto es logico, puesto que un valor especffico se representa como un puntosobre el eje de las x y el area por encima de ese punto es cero.COIRO encontrar el area bajo la curva En un histograma, seg(tn se havisto, las subareas de interes se calculan sumando areas representadas por las co­lumnas (celdas). En el caso de una curva, esta no presenta celdas, por 10 que se debebuscar un metodo para calcular las subareas. Este metodo es suministrado por el cileu­10 integral. Para calcular el area bajo la curva entre dos puntos cualesquiera a y b, seintegra lafunci6n de densidad de a a b. Unafunci6n de densidad es una formula em­pleada para representar la distribuci6n de una variable aleatoria continua. La inte­gracion es el caso lfmite de la sumatoria, aunque aqui no se efectua ningunaintegracion, puesto que las maternaticas involucradas estan mas aHa del alcance deeste Iibro. Tambien, como se ve mas adelante, para todas las distribuciones conti­nuas a considerar existe una forma mas fadl para calcular el area bajo la curva.Aunque la definicion de distribucion de probabilidad para una variablealeatoria continua esta implfcita en el estudio anterior, a modo de resumen se pre·senta como sigue en forma mas concreta.DEFINICIONA una funci6n no negativaf(x) se Ie llama distribucion deprobabilidad (tambien llamada, algunas veces, funci6n dedensidad de probabilidad) para la variable aleatoriacontinua X, si el area total deliInitada por su curva y eleje de las x es igual a 1 y si la subarea delimitada por lacurva, el eje de las x, y por las lineas perpendiculareslevantadas sobre dos puntos cualesquiera a y b da laprobabilidad de que X este entre los puntos a y b.
    • 4.6 DISTRIBUCI6N NORMAL 1074.6 DISTRIBUCION NORMALA continuaci6n se estudia la distribuci6n mas importante en toda la estadistica: ladistribucwn normal. La f6rmula para esta distribuci6n fue publicada por AbrahamDe Moivre (1667-1754) el 12 de noviembre de 1733. Muchos otros matem:hicosdestacan en la historia de la distribuci6n normal, induyendo a Carl FriedrichGauss (1777-1855). A esta distribuci6n frecuentemente se Ie llamadistribuciOn de Gausscomo reconocimiento a las contribuciones de este matematico.La densidad normal esta dada por/20)oo<X<oof(X) = (4.6.1)En la ecuaci6n 4.6.1, 1t Yeson constantes conocidas, 3.14159 ... y 2.71828 .. "respectivamente, que se utilizan con frecuencia en matematicas. Los dos parametrosde la distribuci6n son: ~, la media, y (J la desviaci6n est;indar. Para el objetivo deesta secci6n se puede pensar que ~ y (J son medidas de tendencia central y disper­si6n para la distribuci6n normal, respectivamente, tal como se estudia en el capitu­lo 2. Sin embargo, debido a que la variable aleatoria distribuida normalmente escontinua y toma valores entre 00 y + "", su media y desviaci6n estandar se puedendefinir de manera mas rigurosa, aunque estas definiciones no pueden darse sinutilizar el calculo. La grafica de la distribuci6n normal produce la ya conocida cur­va en forma de campana, tal como se muestra en la figura 4.6.1.Caracleristicas de la distribuci6n normal Las siguientes caracteristicasson las mas importantes para la distribuci6n normal.1. Es simetrica respecto a su media)1. Tal como se muestra en la figura 4.6.1, lacurva hacia cualquiera de los lados de ~ es una imagen de espejo de la del otrolado.2. La media, la mediana y la moda son todas iguales.3. EI area total bajo la curva sobre el de las x es una unidad de area. Estacaracterfstica se deduce del hecho de que la distribuci6n normal es una distri­buci6n de probabilidad. Debido a la simetria mencionada anteriormente, 50xJLFIGURA 4.6.1 Grifica de la distribud6n normaL
    • 108 CAPiTULO 4 DISTRIBUCIONES DE PROBABILIDADpor ciento del area esta a la derecha de la perpendicular levantada sobre Iamedia, y el otro 50 por ciento dellado izquierdo.4. Si se levantan perpendiculares a una distancia de una desviaci6n est<indar des­de la media hacia ambos lados, el area de1imitada por esas perpendiculares, eIeje de las x y la curva sera de 68 por ciento del area total, aproximadamente.Si los lfmites laterales se extienden ados desviaciones estandar en amboslados de la media, estara induido aproximadamente 95 por ciento del area, yextendiendolos a una distancia de tres desviaciones esrandar, aproximada­mente 99.7 del area total estara englobada. Las areas aludidas se muestran enla figura 4.6.2.,u-1u,u,u+1u x(a).025,u.025x(b).0015 .0015,u-3u ,u ,u+ 30 x{elFIGURA 4.6.2 Subdivision del area bajo la curva normal(las areas son aproximadas).
    • 1094.6 DISTRIBUCION NORMALxFIGURA 4.6.3 Tres distribuciones normales con diferente media, pero con la misma va­riabilidad.5. Los parametros J..l y cr determinan completamente la distribuci6n normal. Enotras palabras, por cada valor diferente de J..l y cr se especifica una distribuci6nnormal distinta. Los valores diferentes de J..l desplazan la grafica de la distribu­ci6n a 10 largo del eje de las x, tal como se muestra en la figura 4.6.3. Los valoresde cr determinan el grado de aplanamiento 0 levantamiento de la grafica de ladistribuci6n, tal como se muestra en la figura 4.6.4.DistribuciOn normal esttindar La ultima caracteristica mencionada de ladistribuci6n implica que la distribuci6n normal es realmente una familia de dis­tribuciones en la que un miembro se distingue de otro seglin los valores de J..l y cr.EI miembro mas importante de esta familia es la distribucion normal estdndar 0distribucion normal unitaria, Hamada as! en ocasiones porque tiene una media igual acero yuna desviaci6n estandar igual a 1. Esta distribuci6n se puede obtener a partirde la ecuaci6n 4.6.1, creando una variable aleatoria z = (x - J..l )/cr. La ecuaci6npara la distribuci6n normal estandar se escribe:/2, _ 00 <z < 00(4.6.2)xFIGURA 4.6.4 Tres distribuciones normales con diferente desviaci6n estandar pero conla misma media.
    • 110 CAPITULO 4 DISTRIBUCIONES DE PROBABILIDADFIGllRA 4.6.5 Distribuci6n normal estindar.La grafica de la distribuci6n normal estandar se muestra en la figura 4.6.5.Para calcular la probabilidad de que z tome un valor entre dos puntos cuales­quiera sobre el eje de las z, por ejemplo Zo y se debe calcular el area delimitadapor las perpendiculares levantadas en esos puntos, la curva y el eje horizontal. Talcomo se mendon6 anteriormente, las areas bajo la curva de una distribuci6n conti­nua se calculan integrando la funci6n entre dos valores de la variable. Entonces, enel caso de la normal estandar, para calcular directamente el area entre Zo Yz, esnecesario calcular la siguiente integral:r~-Zf2dzzo&Afortunadamente, no hay nada que ver con las integrales porque existen tablasdisponibles en las que se puede consultar el resultado de todas las integracionesque aqul puedan necesitarse. La tabla D, del apendice, es un ejemplo de estas ta­bIas. En el cuerpo de Ia tabla D se encuentran las areas bajo la curva entre O<:J y losvalores de z mostrados en Ia columna izquierda de la tabla. EI area sombreada de Iafigura 4.6.6 representa el area que aparece como Iista en la tabla, para los valoresentre O<:J y zo donde Zo es el valor espedfico de z.Ahora, con los siguientes ejemplos se muestra el uso de la tabla D.FIGURA 4.6.6 Area dada por la tabla D del apendice.
    • 1114.6 DISTRIBUCION NORMALEJEMPLO 4.6.1Dada la distribucion normal estandar, calcular el area bajo la curva, arriba del eje z,entre z = - 00 y z = 2.Soluci6n: Resulta utH dibujar la grafica de la distribudon normal estandar y som­brear el area que se pide tal como se muestra en la figura 4.6.7. Si selocaliza z 2 en la tabla D y se lee el valor correspondiente en elcuerpo de la tabla, se encuentra que el area solicitada es .9772. Estaarea se puede interpretar de diferentes formas: como la probabilidadde que una z elegida aleatoriamente de entre una pobladon de valores dez este entre - 00 y 2, como la frecuencia relativa de ocurrenda (0 pro­pordon) de valores de zentre -ooy 2, 0 bien se puede decir que 97.72 porciento de los valores de z estan entre 00 y 2. •o 2 zFIGUR- 4.6.7 Distribuci6n normal estandar que muestra elareaentrez = coy z = 2.EJEMPLO 4.6.2~Cual es la probabilidad de que una z, tomada al azar de entre los valores de z, esteentre -2.55 y +2.55?Soluci6n: La figura 4.6.8 muestra e 1 area que se pide. En la tabla D se da el areaentre 00 y 2.55, que se obtiene localizando el valor de 2.5 en la prime­ra columna de la izquierda de la tabla y buscando sobre el renglon hastao 2.55 xCurva normal estandar para mostrar P(-2.55 < z < 2.55).-2.55HGUKA 4.6.8
    • 112 CAPiTULO 4 DISTRIBUCIONES DE PROBABILIDADeneontrar la entrada de la columna eneabezada por 0.05. EI area es de.9946. Si se observa la grafiea dibujada es posible apreciar que el area esmayor que la que se pide, por 10 que es neeesario restar de .9946 el area ala izquierda de -2.55. AI consultar la tabla D, esta muestra que el area a laizquierda de -2.55 es .0054. Porlo tanto, la probabilidad que se busea es:P(-2.55 < z < 2.55) = .9946 - .0054 .9892•Suponga que se pide calcular la probabilidad de que z esta entre -2.55 y 2.55 inclu­sive. La probabilidad que se pide se expresa como P(-2.55 :s; z ~ 2.55). Como semencion6 en la seeei6n 4.5, P(z = zo) = 0, entonees, P(-2.55 :s; z :s; 2.55) = P(-2.55< z < 2.55) = .9892.EJEMPLO 4.6.3~Cuantos valores de z estan entre -2.74 y 1.53?Soindon: La figura 4.6.9 muestra e1 area que se pide. En la tabla D se encuentraque el area que esta entre 00 y 1.53 es .9370, y el area entre - 00 y -2.74es .0031. Para obtener la probabilidad se resta .0031 a .9370. Esto es,P(-2.74:S; z:s; 2.153) .9370 - .0031 = .9339-2.74 o 1.53 zFlGUR!4.6.9 CUIva normal estfuldar para mostrar la pro­porci6n de los valores de z entre z -2.74 y z 1.53.•EJEMPLO 4.6.4Dada la distribuci6n normal estandar, calcular P(z ;;:: 2.71).Soindon: EI area deseada se muestra en la figura 4.6.10. Para obtener el area a laderecha de z 2.71 se resta el area entre "" y 2.71 de 1. Asi,P(z;;:: 2.71) = I-P(z:S; 2.71)= 1- .9966.0034
    • EJERCICIOS 113o 2.71 zFIGUM 4.6.10 Distribuci6n normal estindar para mostrar P(z ~ 2.71).•EJEMPLO 4.6.5Dada la distribuci6n normal estandar, calcule P(.84 S z s2.45).Soluci6n: EI area que se desea calcular se muestra en la figura 4.6.11. Primero seobtiene el area entre 00 y 2.45 a Ia que se Ie resta el area entre - 00 y .84.En otras pa]abras,P(.84 s z s 2.45) = P(z s 2.45) P(z s .84)= .9929 - .7995= .1934•FJERCICIOSCurva normal esUindar para mostrar P(.84::;; z::;; 2.45).FIGUM 4.6.11Dada la distribuci6n normal estandar, calcule:4.6.14.6.24.6.3EI area bajo la curva entre z 0 y z 1.43.La probabilidad de que una z, sacada al azar, tenga un valor entre z = -2.87 YzP(z ~ .55). 4.6.4 pez 2: - .55).2.64.
    • 114 CAPiTULO 4 DlSTRIBUCIONES DE PROBABILIDAD4.6.5 P(Z < -2.33). 4.6.6 P(z < 2.33).4.6.7 P(-1.96S; Z S; l.!J). 4.6.8 P(-2.58 $ Z S; 2.58).4.6.9 P(-1.65:::; Z S; 1.65). 4.6.10 P(z = .74).Dadas las siguientes probabilidades, calcule Zj:4.6.11 P(z S; Zj) .0055. 4.6.12 P(-2.67 S; Z S; Zl) =.9718.4.6.13 P(z>Zj) =.0384. 4.6.14P(zjS;z$2.98)=.11l7.4.6.15 P(-Zj$ Z S;Zj) .8132.4.7 APLICACIONES DE DISTRIBUCION NORMALAunque su importancia en el campo de la estadfstica es indiscutible, uno puededarse cuenta de que la distribucion normal no es una ley inherente a todas lascaracterfsticas mesurables que ocurren en la naturaleza. Sin embargo, es verdadque muchas de estas caracterfsticas tienen una distribucion aproximadamente nor­mal. En consecuencia, aun cuando no existe variable alguna que en la practica seencuentre distribuida con precision, la distribucion normal se puede utilizar comomodelopara normalizar la distribucion de muchas variables de interes. Al utilizarla distribucion normal como modelo, es posible establecer afirmaciones de proba­bilidad mas utiles y mucho mas convenientes para algunas variables que si se utili­zara un modelo mas complicado. _La estatura y;la inteligencia humana son consideradas frecuentemente comoejemplos de variables que tienen aproximadamente una distribuci6n normal. Enotras palabras, muchas distribuciones importantes para el campo de la salud no sepueden describir correctamente mediante una distribucion normal.Sin embargo,si se sabe que la variable aleatoria sigue una distribucion aproximadamente normal0, en el caso de ignorarlo, se considera razonable hacer esta suposicion, la distribu­cion normal es de gran ayuda para el estadfstico en su esfuerzo para resolver pro­blemas practicos relativos a esa variable. Sin embargo, se debe tener en mente que10 normal en este contexto se refiere a las propledades estadfsticas para el conjuntode datos, y de ninguna manera implica normalidad en el sentido de condicionesmedicas 0 de salud.Existen varias razonesmas pot las que la distribuci6n normal es muy impor­tante en estadfstica, las cuales seran consideradas a su debido tiempo. Por ahora, seconsidera la forma de responder a preguntas sencillas de probabilidad acerca devariables aleatorias cuando se sabe, 0 es razonable suponer, que estas presentanuna distribuci6n aproximadamente normal.FJElIPLO 4.7.1Como parte de un estudio de la enfermedad de Alzheimer, Dusheiko (A-5) report6datos que son compatibles con la hip6tesis de que los pesos de los cerebros de lasvfctimas de esa enfermedad siguen 4na distribucion normal. A partir de los datosdevelados, se puede calcular la media de 1076.80 gramos con una desviaci6nestandar de 105.76 gramos. Si se asume que estos resultados son aplicables a todas
    • 4.7 APLICACIONES DE DISTRIBUCION NORMAL t15FIGURA4.7.1 De una distribuci6n normal a una distribu­ci6n aproximada de pesos de los cerebros de pacientes enfer­mos de Alzheimer (con estimaci6n de media y desviaci6nestandar).las vfctimas de Alzheimer, encuentre la probabilidad de que una victima selecciQna­da al azar tengaun c~rebro que pese menos de 800 gramus.Soludom En la figura 4.7.1 se puede apreciar la gnifita que describe la distribu­ci6nyel area sQmbreadaque cQrresPQnde a laprQbabilidad sQlicitada.Si la distribuci6n fuera una distribuci6n normal estandar CQn unamedia de 0 y una desviaci6n estandar de 1, serfa PQsible utilizar la tablaD para eilcQntrar la probabilidad CQn PQCQ esfuerzQ.AfQrtunadamente,es factible para cualquier distribuci6n nQrmaltransfQrmarla CQn facili­dad en una distribuci6n nQrmal estandar. EstQse IQgra transfQrmandQtQdus IQS valores de X en IQS valQres cQrrespondientes de z. EstQ significaque la media deX se puedevolver 0, la media de z; Enla figura 4.7.2 semuestran ambas distribuciQnes. Se puede determinar que e1 valor de z,z-2.62 0FIGURA 4.7.2 Distrihuci6n normal del peso de loscerebros (x) y la distribuci6n normal estandar (z).
    • 116 CAPiTULO 4 DISTRIBUCIONES DE PROBABILIDADpor decir ZO corresponde a una x de 800. Esto se hace con la siguienteformula:xz= (j (4.7.1)que transforma cualquier valor de x en cualquier distribucion normalpara los valores ccirrespondientes de zen ladistribucion normal estandar.Para este ejemplo se tiene:z = 800 -1076.80 = -2.62105.76Entonces, el valor buscado para Zo es -2.62.•AI ex~ullinar esta relacion minuciosamente, se observa que la distancia de la media,1076.80, hasta el valor de x, 800, es 800 1076.80 -276.80, que representa unadistancia de 2.62 unidades de desviacion est<indar. Cuando se transforman los valo­res correspondientes al peso del cerebro, la distancia del valor de z desde su media,O,es igual a la distancia del valor x correspondiente desde su media, 1076.80, enunidades de desviacion est<indar. A esto se refiere la distancia anterior de 2.62 uni­dadesdedesviaci6n est<indar. En la distribuci6n z, uI).adesviacion estandar es iguala 1,. y, en consecuencia, el punto en la escala dez se localiza a una dis.tancia de 2.62unidades de desviaci6n estandar antes de 0, es decir, z -2.62, resultado que seobtiene con la formula. AI consultar la tabla D, se encuentra que el area a la izquier­da de z= -2.62 es .0044. Se puede resumir este analisis como sigue:P(x < 800) =p(z < 800 1076.80) =P(z < -2.62) .0044105.76Para responder a la pregunta original, se dice que la probabilidad de que un pacienteseleccionado al azar tenga un cerebro que pese mehos de 800 gramos es de .0044.EJEMPLO 4.7.2Suponga que se sabe que la estatura de cierta poblacion de individuos sigue unadistribuci6n aproximadamente normal con media de 70 pulgadas y una desviaci6nestandar de 3 pulgadas. ~Cual es la probabilidad de que una persona seleccionadaal azar de este grupo tenga una estatura entre 65 y 74 pulgadas?Solucion: En la figura 4.7.3 se muestra la distribuci6n de las estaturas y la distribu­cion z que resulta de transformar los valores originales para determinarlas probabilidades deseadas. Se encuentra que el valor z correspondien­te para una x de 65 es:65-70 =-1.67 ...•.z3
    • 1174.7 APLICACIONES DE DISTRIBUCIONNQRMAL65 70 x-1.67 o 1.33 zFIGURA 4.7.3 Distribuci6n de estaturas (x) y la distribuci6nnormal estandar correspondiente (z).AnaIogamente, para x = 74 se tiene74-70 =1.33z3En la tabla D se encuentra que el area entre - 00 y -1.67 es de .0475 y elarea entre - 00 y 1.33 es .9082. El area deseada es la diferencia entre.9082 .0475 = .8607. En resumen,74P(65::; x::; 74 p(65;70< z::; 37°)P(- 1.67::; z::; 1.33) . P(- 00::; z::; 1.33) -P(- 00::; z::; 1.67) .9082 .0475 .8607 Por 10 tanto, la probabilidad .8607 responde a la pregunta original. •E,JEMPLO 4.7.3En una poblacion de 10,000 de las personas descritas en el ejemplo 4.7.2, ~cmintaspersonas se espera que tengan una estatura de 6 pies y 5 pulgadas 0 mas?
    • 118 CAPITULO 4 DISTRIBUCIONES DE PROBABIUDADSoluci6n: Primero se calcula la probabilidad de que una persona, elegida al azarentre esa poblacion, tenga una estatura de 6 pies y 5 pulgadas; esto es,P(x? 77) p[z? 77;70) =P(z? 2.33) =1-.9901 =.0099Se puede esperar que de las 10,000 personas: 10,000(.0099) = 99 ten­gan una estatura de 6 pies y 5 pulgadas (77 pulgadas) 0 mas. •Se puede utilizar el paquete MINITAB para calcular la probabilidad normal estandaracumulada. Suponga que se pretende encontrar la probabilidad acumulada para lossiguientes valores de z: -3, -2, -1, 0,2 Y3. Se meten los valores de zen la columna1 y se procede como se muestra en la figura 4.7.4.Datos:C1: -3 -2 -I 0 1 2 3Caja de dialogo: Comandos de la sesi6n:Calc> Probability Distributions> Normal MTB > PDF Cl;SUBC> Normal o 1.Seleccionar Cumulative probability. SeleccionarInput column y teclear Cl. Clic OK..R.esultados:. . .Cumulative Distribution FunctionNormal with mean = 0 and standarddeviation = 1.00000x P{X = x}-3.0000 0.0013-2.0000 0.0228-1.0000 0.15870.0000 0.5000LoOOO 0.84132.0000 0.97723.0000 0.9987. FIGURA4.t4 Calculos con el paquete MINITAB de-las probabilidades normales estindaracumuladas.
    • EJERCICIOS 119FJERCICIOS4.7.1 Suponga que las edades deinicio de cierta enfermedad tienen una distribuci6n aproximadacmente normal, con una media de 11.5 anos y una desviaci6n estandar de 3 anos. Un ninocontrae recientemente la enfermedad. Cual es la probabilidad de que la edad del nino sea:a) Entre 8.5 y 14.5 anos b) Mas de 10 afios c) Menos de 12 4.7.2 En un estudio de dactilografia, unacaracteristica cuantitativa.muy importante es el total desurcos en los 10 dedos de unindividuo. Suponga que el total de surcos en los dedos de losindividuoSen determinada poblaci6n tienen distribuci6n aproximadamente normal con unamedia de 140 y una desviaci6n estandar de 50. Calcule la probabilidad de que un individuo,.elegido al azar entre esa poblaci6n, tenga un total de surcos en los dedos:a) De 200 0 masb) Menos de 100c) Entre 100 y 200d) Entre 200 y 250e) En una poblacion de 10,000 personas,~Cuantos puede esperarse que tengan un total de200 surcos 0 mas?4.7.3 Si la capacidad de la cavidad craneana de una. poblacion tiene una distribuci6n aproximada­mente normal, con una media de 1400 cc y una desviacion estandar de 125 cc, calcule laprobabilidad de que una persona, elegida al azar entre esa poblaci6n, tenga una capacidadde cavidad craneana:a) Mayor que 1450 cc b) Menor que 1350 cc c) Entre 1300 y 1500 cc 4.7.4. Suponga que el tiempo promedio de permanencia hospitalaria por enfermedad cronicapara un tipo de paciente es de 60 dias, con una desviaci6n esmndar de 15. Si es razonablesuponer que se tiene una distribuci6n aproximadamente normal para el tiempo de hospita­lizacion, calcule la probabilidad de que un paciente, elegido aleatoriamente entre ese grupo,tenga una hospitalizacion:a) Mayor que 50 dias b) Menor que 30 dias c) Entre 30 y 60 dias d) De mas de 90 dias 4.7.5 Si el nive! total de colesterol en cierta poblaci6n tiene una distribuci6n aproximadamentenormal, con una media de 200 mgl100 m! y una desviaci6n estandar de 20 mg/lOO m!,calcule la probabilidad de que un individuo, elegido al azar de entre esa poblaci6n, tenga unnivel de colestero!:a) Entre 180 y 200 mg/100 mi b) Mayor que 225 mg/lOO m! c) Menor que 150 mg/lOO ml d) Entre 190 y 210 mg/IOO mi 4.7.6 Dada un:a pobla:cion con distribuci6n normal, con una media de75 y una variancia de 625,calcule:a) P(50:::; x:s; 100) b) P(x > 90).c) P(x < 60) d) P(x ~ 85) e) P(30:::; x:::; 110)
    • 120 CAPITULO 4 DISTRIBUCIONES DE PROBABILIDAD4.7.7 Los pesos de una poblaci6n de mujeres j6venes, tienen una distribuci6n aproximadamentenormal con una media de 132 libras y una desviaci6n estandar de 15. Calcule la probabili­dad, de que unajoven, elegida al azar entre esa poblaci6n, pese:a) Mas de 155 libras b) 100 libras 0 menos c) Entre 105 y 1451ibras4.8 RESllMENEn este capitulo, los conceptos de probabilidad descritos en el capitulo anterior seabordan con mas profundidad. Se analizan los conceptos de variables aleatoria,discreta y continua, asi como las distribuciones de probabilidad. Se examinan deta­lladamente, en especial, dos distribuciones de probabilidad discreta, la binomial yla de Poisson, y una distribucion de probabilidad continua, la normal. Tambien seestudia como esas distribuciones teoricas permiten formar enunciados de probabi­lidad para las variables aleatorias que son de interes para e1profesional de la salud.PREGUNTAS YEJERCICIOS DE REPASO1. ~Que es una variable aleatoria discreta? De tres ejemplos que sean de iriteres para el profe­sional de la salud.2. ~Que es una variable aleatoria continua? De tres ejemplos que sean de interes para el profe­sional de la salud.3. Defina la distribuci6n de probabilidad para una variable aleatoria discreta.4. Defina la distribuci6n de probabilidad para una variable aleatoria continua.5. ~Que es la distribuci6n de probabilidad acumulada?6. ~Que es un ensayo de Bernoulli?7. Describa la distribuci6n binomial.8. De un ejemplo de variable aleatoria que pueda seguir una distribuci6n binomial.9. Describa la distribuci6n de Poisson.10. De un ejemplo de variable aleatoria que pueda distribuirse de acuerdo con la ley de Poisson.11. Describa la distribuci6n normal.12. Describa la distribuci6n normal estandar y diga c6mo se utiliza en estadfstica.13. De un ejemplo de variable aleatoria que pueda seguir, al menos aproximadamente, unadistribuci6n normal.14. Utilice los datos de la respuesta a la pregunta 13 para demostrar el uso de la distribuci6nnormal estandar para responder a preguntas de probabilidad relacionadas con la variableseleccionada.
    • 121PREGUNTAS Y EJERCICIOS DE REPASO15. El metodo usual para ensenar una habilidad de cuidado personal a gente con retraso men­tal, es efectivo en 50 por ciento de los casos. Un nuevo metodo es ensayado con 10 personas.Si el nuevo metodo no es mejor que el habitual, 2cuM es la probabilidad, de que siete 0 masindividuos 10 aprendan?16. Los registros del personal de un gran hospital muestra que 10 por ciento de los empleadosde mantenimiento y aseo renuncian un ano despues de ser contratados. Si 10 nuevos em­pleados son contratados:a) "-Cual es la probabilidad de que exactamente la mitad de ellos se encuentren trabajando un ano despues? b) (Cual es la probabilidad de que ninguno renuncie un ano despues? c) 2.Cual es la probabilidad de que 3 de los 10 renuncien antes de terminar el ano? 17. En cierto pais en desarrollo, 30 por ciento de los ninos estan desnutridos. En una muestraaleatoria de 25 ninos de esa area, cual es la probabilidad de que el mimero de ninos desnu­tridos sea:a) Exactamente 10 b) Menos de cinco c) Cinco 0 mas d) Entre tres y cinco, inclusive e) Menos de siete, pero mas de cuatro 18. En promedio, dos estudiantes por hora son enviados para tratamiento en la sala de primerosauxilios en una gran escuela primaria. a) 2Cual es la probabilidad de que durante una hora dada, tres estudiantes lleguen a la sala de primeros auxilios para tratamiento? b) 2Cuat es la probabilidad de que durante una hora dada, dos 0 menos estudiantes seanenviados a la sala de primeros auxilios? c) (Cual es la probabilidad de que entre tres y cinco estudiantes, inclusive, sean enviados a la sala de primeros auxilios durante una hora dada? 19. En promedio, cinco fumadores pasan por la esquina de cierta calle cada 10 minutos. Cual esla probabilidad de que durante un periodo dado de 10 minutos el numero de fumadores quepasen sea de:a) Seis 0 menos b) Siete 0 masc) Exactamente ocho20. En cierta area de la ciudad sucede en promedio un suicidio por meso Encuentre la probabi­lidad de que durante un mes dado, el numero de suicidios sea:a) Mas de uno b) Menos de unoc) Mas de tres21. Los IQde individuos intemados en una escuela del estado para retrasados mentales tiene unadistribuci6naproximadamente normal con una media de 60 yuna desviaci6n estandar de 10. a) Calcule la cantidad de individuos con un IQ mayor a 75. b) 2Cmil es la probabilidad de que un individuo, elegido al azar, tenga un IQ entre 55 y 75? c) Calcule P(50 ~ X·~ 70). 22. EI supervisor de enfermeria encontr6 que el personal de enfermeria, en promedio, terminacierta tarea en 10 minutos. Si el tiempo requerido para completar la tarea sigue una distribu­ci6n aproximadamente normal con una desviaci6n estandar de 3 minutos, calcule:a) La cantidad proporcional de enfermeras que terminan esa tarea en menos de 4 minutos.
    • 122 CAPITULO 4 DlSTRIBUCIONES DE PROBABILIDADb) La cantidad proporcional de enfermeras que necesitan mas de 5 minutos para terminar dicha tarea. c) La probabilidad de. que una enfermera ala que recientemente se Ie asign6 la tarea, termine en 3 minutos. 23. Las calificaciones de una prueba de aptitud aplicada a estudiantes de enfermerfa sigue unadistribuci6n aproximadamente normal, con una media de 500 y una variancia de 10,000.a) (Que proporci6n de los individuos examinados lograra menos de 200 puntos?b) Una persona esta por resolver el examen.(Cual es la probabilidad de que logre unacalificaci6n de 650 0 mas puntos?c) (Que proporci6n lograra calificaciones entre 350 y 675 (puntos)? .24. Dada una variable binomial con media de 20 y variancia de 16, calcule n y p.25. Suponga que una variable X se distribuye normalmente, con una desviaci6n estandar de 10.Dado que .0985 de los valores de X son mayores que 70, (cual es valor de la media de X?26. Dada una variable aleatoria X distribuida normalmente, calcule el valor numerico de k, talque P(1l kcr 5, X 5, !l +- kcr) = .754.27. Dada la variable aleatoria X distribuida normaImente, con una media de 100 y una desvia­ci6n estandar de 15, calcule el valor numerico de k, tal que:a) P(X 5, k) = .0094b)P(Xzk)= .1093c) P(100 5, X ~ k) = .4778d) P(k ::;X 5, k) = .9660, donde k Yk son equidistantes de IL28; Dada una variable aleatoria X distribuida normalmente, con cr 10 y P(X 5, 40) .0080,calcule 11.29. Dada una variable aleatoria X distribuida normalmente, con cr = 15 YP(X ~ 50) =.9904,calcule 11.30. Dada unavariable aleatoriaX distribuida normalmente, con cr = P(X z 25) = .0526,calcule 11.31. Dada una variable aleatoria X distribuida normalmente, con !l = 25y P(X 5, 10) = .0778,calcule cr.32. Dada una variable aleatoria X distribuida normalmente, con 11 30y P(X 5, 50) .9772,calculecr.33. Explique por que cada una de las siguientes mediciones es 0 no el resultado de ensayos deBernoulli:a) EI sexo de recien nacidos.. b) Lq. dasificaci6n de la condici6n de los pacientes hospitalizados: estable, en condicionescriticas, regular, buena, mala.. c) EI peso en gramos de bebes recien nacidos.. 34. Explique por que cada una de las siguientes mediciones es 0 noel resultado de ensayos deBernoulli:a) EI numero de procedimientos quirfugicos aplicados en un hospital.en una semana.b) La temperatura de pacientes hospitalizados en grados Celsius. c) El registro de los signos vitales·de pacientes hospitalizados: normaIes 0 inestables.
    • BIBLIOGRAFIA 12335. Explique por que cada una de las siguientes distribuciones es 0 no una distribuci6n de pro­babilidad:a) x P(X =x) b) x . P(X= x)012340.150.250.100.250.3001230.150.200.300.10c) x P(X =x) d) x P(X =x)012340.15-0.200.300.200.15.-1012340.150.300.200.150.100.10BmllOGRAFIABibliografia de metodologia1. Frank A. Haight, Handbook ofthe Poisson Distribution, Wiley, New York.Bibliografia de aplicacionesA·I. Simone Buitendijk y Michael B. Bracken, "Medication in Early Pregnancy: Prevalence ofUsed and Relationship to Maternal Characteristics", American Journal of Obstfftrics andGynecolof!:J, 165, 33-40.A-2. National Center for Health Statistics, M. F. Najjar y M. Rowland, "Anthropometric ReferenceData and Prevalence of Overweight, United States, 1976-80", Vital and Health Statistics, SerieII, No. 238. DHHS Pub. No. (PHS) 87-1688, Public Health Service, U.S. Government PrintingOffice, Washington, DC..•A·3. National Centerfor Health Statistics,O. T. Thornberry, R. W. Wilson y P. M. Golden, "HealthPromotion Data for the 1990Qbjectives, Estimates from the National Health Interview Surveyof Health Promotion lj.nd Disease Prevention, United:States, 1985", Advance Data From Vitaland Health Statistics, No. 126. DHHS Pub. No. (PHS) 86-1250, Public Health Service,Hyattsville, MD..A-4. Robert D. Gibbons, David C. ClarkyJan1iawcett, "A Statistical Method for Evaluating Suici­de Clusters and Implementing Cluster Surveillance AmericanJournal ofEpidemiolof!:J, 132(Suplemento No. I), SI83-S191.A·5. S. D. Dusheiko, "Some Questions Concerning the Pathological Anatomy of AlzheimersDisease", Soviet Neurological Psychiatry, 7, 56-64. Publicada por InternacionalArts and SciencesPress, White Plains, NY.
    • 5.1 INTRODUCCION5.2 DISTRIBUCIONES MUESTRALES5.3 DISTRIBUCION DE LA MEDIA DELA MUESTRA5.4 DISTRIBUCION DE LADIFERENCIA ENTRE LAS MEDIASDE DOS MUESTRAS5.1 INTRODUCCION5.5 DISTRIBUCION DE LAPROPORCION DE LA MUESTRA5.6 DISTRIBUCION DE LADIFERENCIA ENTRE LASPROPORCIONES DE DOSMUESTRAS5.7 RESUMENAntes de examinar el tema de estudio de este capftulo es conveniente repasaralgunos de los conceptos importantes estudiados hasta ahora. En el capitulo 1 sepresenta un vocabulario estadfstico util y basico, y tambien se estudian losconceptos fundamentales para la recolecci6n de datos. En el capitulo 2 se haceresaltar los procesos de organizaci6n y resumen de datos. Aquf es donde seintroducen los conceptos de tendencia central y dispersi6n, y en donde se estudiac6mo ca1cular sus medidas descriptivas. En el capitulo 3 se presentan las ideasfundamentales de probabilidad y en el capitulo 4 se considera el concepto dedistribuci6n de probabilidad. Estos conceptos son importantes para comprenderla inferencia estadfstica, tema de estudio que abarca la mayor parte de este libro.Este capitulo sirve para vincular los conceptos ya mencionados, denaturaleza esencialmente descriptiva, con la mayorfa de los temas subsecuentes,seleccionados del area de estudio de la inferencia estadfstica.124
    • 5.2 DISTRIBUCIONES MUESTRALES 1255.2 DISTIUBUCIONES MUESmALESEl tema principal de este capitulo trata acerca de las distribuciones muestrales. Esnecesario destacar la importancia de un entendimiento claro de estas distribu­dones, ya que este concepto es la clave para comprender la inferencia estadfs­tica. Las distribuciones de probabilidad sirven para dos prop6sitos: 1) permitenresponder preguntas de probabilidad acerca de estadisticas muestrales y 2)proporcionan la teoria necesaria para hacervalidos los procedimientos de in­ferencia estadistica. En este capitulo se utiliza la distribuci6n muestral paracontestar preguntas de probabilidad acerca dela estadfstica muestral. Se deberecordar que en el capitulo 2 se dijo que la estadistica muestral es una medidadescriptiva, como la media, la mediana, la variancia 0 la desviaci6n estandarque se calcula a partir de los datos de la muestra. En los siguientes capftulos seestudia c6mo la distribud6n muestral hace validas las inferendas estadisticas.Por ahora, se inicia con la siguiente definicion.DEFINICIONLa distribucion de todos los valores posibles que puedeasumir una estadfstica, calculados a partir de muestrasdel mismo tamano, seleccionadas aleatoriamente de lamisma poblacion, se llamadistribuci6n muestrul de esaestadistica.Distribuciones muestrules: elaboraci6n Las distribuciones muestralespueden construirse empfricamente a partir de poblaciones finitas y discretas.Para ello, se procede como sigue:1. De una poblaci6n finita de tamano N, se extraen de manera aleatoria todaslas muestras posibles de tamano n.2. Se calcula Iii estadistica de interes para cada muestra.3. S~ ordenan en una c;olumna los distintos valores observados de la estadistica y,en otra col-qmna, las frecuencias de ocurrencia correspondientes de cada va­lor observado.Elaborar la distribuci6n muestral es una tarea formidable si la poblaci6nes de un tamano muy grande, e imposible si la poblaci6n es infinita. En ultimocaso, es posible obtener aproximaciones de las distribuciones muestrales to­mando un gran numero de muestras de un tamano dado.Distribuciones HllIestrales: curacteristicas irnporlantes Normalmente,para una distribuci6n muestral se tiene interes en conocer tres cosas: media, varianciayforma funcional (apariencia gnlfica).Es bien conocida la dificultad que existe para elaborar una distribuci6nmuestral de acuerdo con el procedimiento anterior cuando la poblaci6n es muygrande. Tambien constituye un problema cuando la poblaci6n es infinita. Eneste caso, 10 mejor que se puede hacer de manera experimental es aproximarla distribuci6n muestral de la estadfstica.
    • 126 CAPITULO 5 ALGUNAS DISTRIBUCIONES DE MUESTREO IMPORTANTESAmbos problemas pueden evitarse por medio de las matematicas. Aunquelos procedimientos que intervienen no son compatibles con el nivel matematicodeeste libro, las distribuciones muestrales pueden deducirse matematicamente.Ellectodnteresado puede consultar cualquiera de.los libros de texto de estadfs­tica matematica, por ejemplo, Larsen y Marx (1) 0 Rice (2).En las siguientes secciones se estudian algunas de las distribuciones mues­trales mas frecuentes.5.3 DISTRIBUCION DE IA MEDIADE IA MllESTRAUna distribuci6n muestral importante es la distribucionde la media de la muestra.A continuaci6n se da un ejemplo de como elaborar esta distribuci6n siguiendo lospasos del procedimiento descrito en la seccion anterior.EJEMPLO 5.3.1Considere una poblaci6nde tamano N = 5, la cual se compone de las edadesde cinco ninos que son pacientes externos de una clfnica de salud mental. Lasedades son las siguientes: Xl = 6, x2= 8, X3 10, x4 = 12 Y X5 = 14. La media11 para esa poblaciones igual a I.x)N = lOy la variancia es 8.TABLA 5.3.1 Todas las posibles llluestras de talllano n = 2 de unapoblacion de talllano N = 5. Las llluestras ar~iba 0 abajo de ladiagon31 principal resultan cuando el llluestreo es sin reelllplazos.Las llledia.."i dt~ las llluestras esmn entre parentesis.Segunda seleccion6 8 12 14Primeraseleccion681012146,6.(6)8,6(7)10,6(8)12,6(9)14,6(10)6,8(7)8,8(8)10,8(9)12, 8(10)14,8(11)6, lO(8)8, 10(9)10,10(10)12, 10(11)14; 10(12)6, 12(9)8, 12(10)10, 12(11)12, 12(12)14, 12(I3)6, 14(I 0)8,14(11)10, 14(12)12, 14(13)14, 14(14)
    • 127x5.3 DISTRIBUCION DE LA MEDIA DE LA liUESTRATABLA 5.3.2 Distribucion muestral dex calculada a pm·th· de las muestrasde la tabla 5.3.1FrecuenciaFrecuencia relativa6 1 1/257 2 2/258 3 3/259 4 4/2510 5 5/2511 4 4/2512 3 3/2513 2 2/2514 1 1/25Total 25 25/25Se calcula otra medida de dispersion y se designa con la letra S como sigue:40=lON-I 4Esta cantidad se utilizara en el siguiente capitulo. Por ahora, se pretende elaborarla distribucion muestral de la media de la muestra, X, con base en las muestras detamafio n == 2 seleccionadas de esta poblacion.Solucion: Seleccione todas las muestras posibles de tamafio n = 2 de esta pobla­ci6n. Estas muestrasljunto con sus medias, se encuentran en la tabla5.3~ 1~En este ejemplo se observa que, cuando el muestreo se efectua conreemplazos, hay 25 muestras posibles. En general, cuando e1 muestreo seneva a cabo con reemplazos, el numero de muestras posibles es igual aNn.Puede construirse la distribuci6n muestral de xordenando los di­ferentes valores de xen una columna, y sus frecuencias de ocurrencia enIa otra, tal como 10 muestra la tabla 5.3.2. •En la tabla 5.3.2 se aprecian los datos que satisfacen los requerimientospara la distribuci6n de probabilidad. Las probabilidades individuales todas sonmayores a 0 y la suma es igual a 1.Se mencion6 al principio que un interes principal radica en la formafuncional de la distribuci6n muestral, la media y la variancia. Ahora, estascaracteristicas se consideran para la distribucion muestral de la media de lamuestra, x.
    • 128 CAPITULO 5 ALGUNAS DISTRIBUCIONES DE MUESTREO IMPORTANTESfIx)654328 10 12 14 x6Distribucion de la poblacionfIX)65432,0Distribucion muestral de XFIGURA 5.3.1 Distribuci6n de la poblaci6n y distribuci6n muestral de x.DistribuciOn muestral d~x:fQrmafunciQnal En la figura 5.3.1 semuestra el histograma de xjunto con la distribucion de la poblacion. Es nota­ble la diferencia entre la apariencia del histograma de la poblacion y la delhistograma de la distribuci6n muestral de x. Mientras que el primero esta dis­tribuido uniformemente, el segundo crece gradualmente hasta un punto maxi­mo y despues decrece fonnando una figura simetrica.Distribuci6n muestral de x: la media EI siguiente paso es calcular lamedia, representada por /lx de la distribucion muestral. Para hacerlo, se su­man,las 25 medias de la muestra·y el resultado se divide entre 25. As!:LXi 6+7+7+8+···+14 250Il- = - - = - - - - - - - 10x N" 25 25,Es interesante notar que la media de ladistribucion muestral para x tie­ne el mismo valor que la media de la poblacion original.
    • 1295.3 DISTRIBUCION DE LA MEDIA DE LA lI>1UESTRADislribuei6n mueslral de x: varianeia Finalmente, el calculo de lavariancia de x, representada por es como sigue:<, L,(xj ilx)2cr;;=----­N"(6 10)2+(7-10)2+(7-10)2+... +(14 10)2=--------------------------------­25100=-=425Tambien se puede advertir que la variancia de la distribucion muestral no es igual ala variancia de la poblacion. Sin embargo, es interesante observar que Ia varianciade la distribucion muestral es igual a la variancia de la poblacion dividida entre eltamano de la muestra utilizada para obtener la distribuci6n muestral. Esto es:cr28cr~= =-=4x n 2A la raiz cuadrada de la variancia de la distribucion muestral, ~ = cr /.r;;,se Iellama error esttindar de fa media, 0 simplemente error estandar.Estos resultados no son coincidencias sino ejemplos de las caracteristicas delas distribuciones muestrales en general, cuando el muestreo es con reemplazo 0cuando se efectUa a partir de una poblaci6n infinita. Para generalizar, se debe dis­tinguir entre dos situaciones: muestreo a partir de una poblaci6n que sigue unadistribuci6n normal y muestreo a partir de una poblacion que no sigue una distri­bucion normaLDislribuciOn mueslral de x: mueslreo a partir de poblaeiones quesiguen una dislribuci6n normal Cuando el muestreo se realiza a partir deuna poblacion que sigue una distribucion normal, la distribucion de la media de lamuestra tiene las siguientes propiedades:1. La distribucion de x sera normal.2. La media, ilx, de la distribuci6n de xsera igual a la media de la poblaci6n dela cual se seleccionaron las muestras.3. La variancia, cri, de la distribuci6n de xsera igual a la variancia de la pobla­cion dividida entre el tamano de la muestra.ll#ueslreo a parlir de poblaciones que no signen dlslribuei6n normalCuando el muestreo seefectua a partir de una poblacion que no sigue una distribu­cion normal, se utiliza un teorema matematico conocido como teorema del limitecentral. La importancia de este teorema en la inferencia estadistica se resume en elsiguiente parrafo.
    • 130 CAPITULO 5 ALGUNAS DISTRIBUCIONES DE MUESTREO IMPORTANTESTeorema del limite centralDada una poblaci6n de cualquierforma funcional no normal can una media!!yvarianciafinita 0 2, La distribuci6n muestraL de x, calculada a partir de muesiras de tamano n dedicha poblacion, sera cc.si r.ormal con media!!y variancia 021n wando la muestra es muygrande.Observe que el teorema del limite central permite tomar muestras a partir depoblaciones con distribucion no normal y garantizar que se obtengan aproximada­mente los mismos resultados que si la poblacion tuviera una distribucion normal,siempre que se tome una muestra grande.La importancia de esto se demostrara mas adelante al estudiar que una distri­bucion muestral con distribucion normal es una herramienta importante en la infe­rencia estadfstica. En el caso de la media de la muestra, se dene la seguridad de quela distribucion muestral esta distribuida en forma al menos aproximadamente nor­mal con tres condiciones: 1) cuando se hace el muestreo a partir de una poblacioncon distribucion normal; 2) cuando se hace el muestreo a partir de una poblacion queno exhibe una distribucion normal y la muestra es grande, y 3) cuando se hace elmuestreo a partir de una poblacion cuya forma funcional se desconoce, siempreque el tamano de la muestra sea grande.Alllegar a este punto, surge una pregunta logica: (que tan grande debe ser lamuestra para que el teorema dellfmite central sea aplicable? No existe una sola respues­ta, pues el tamano de la muestra depende de la condicion de no-normalidad en lapoblacion. Una regIa empirica establece que, en la mayoria de las situaciones prac­ticas, una muestra de tamano 30 es suficiente. En general, la aproximacion a lanormalidad de la distribucion muestral para x llega a ser mucho mejor a medidaque crece el tamano de la muestra.Muestreo sin reemplazo Los resultados anteriores se han dado con la premisade que el muestreo es con reemplazo 0 que la muestra fue extrafda de una poblacioninfinita. En general, no se efectuan muestreos con reemplazo, y en muchos casospracticos, el muestreo debe hacerse a partir de una poblacion finita; por 10 tanto, esnecesario conocer el comportamiento de la distribucion muestral de la media de lamuestra con estas condiciones. Antes de hacer cualquier afirmacion general, convie­ne revisar nuevamente los datos de la tabla 5.3.1. Las medias de la muestra queresultan cuando el muestreo es sin reemplazos se presentan sobre la diagonal princi­pal, que son las mismas que estan por debajo de dicha diagonal, siempre y cuando seignore el orden en que se hicieron las observaciones. Se observa que hay 10 muestrasposibles. En general, cuando se extraen sin reemplazos muestras de tamano n a par­tir de una poblacion finita de tamano N, y se ignora el orden en que son extraidas lasmuestras, se obtiene el numero de muestras posibles mediante la combinacion de Ncosas tomadas n a la vez. En el siguiente ejemplo se tiene que:N! 51 5·4·31= 10 muestras posiblesn!(N n)! 2131 213!
    • 1315.3 DISTRIBUCION DE LA MEDIA DE LA MUESTRALa media de las lO medias muestrales es:Nuevamente se aprecia que la media de la distribuci6n muestral es igual a la me­dia de la poblaci6n.La variancia de la distribuci6n muestral se calcula como sigue:30- 310y en esta-ocasi6n se observa que la variancia de la distribuci6n muestral no esigual a la variancia de la poblaci6n dividida entre el tamano de la muestra,porque (J~ = 3", 8/2 = 4. Sin embargo,existe una relaci6n interesante que sedescubre al multiplicar (J2/n por (N n)/(N - 1). Esto es:n N 1Este resultado indica que si se multiplica la variancia de la distribuci6n muestralque se obtendria si el muestreo fuese con reemplazos, por el factor (N n)/(N­I), se obtiene el valor de la variancia de la distribuci6n muestral que resultacuando el muestreo es sin reemplazos. Es posible generalizar estos resultadoscon el siguiente enunciado:Cuando el muestreo es sin reemplazos a partir de una poblaci6n finita, la distribuci6nmuestral de x tendra una media J..L y variancian N-lSi el tamano de la muestra es muy grande, el teorema del Hmite central esaplicable y la distribuci6n muestral de x sera aproximadamente normal.Carreccion par pab/acion finita AI factor (N n)/(N 1) se Ie llamacorrecci6n por poblaci6n jinita, y se puede omitir cuando el tamano.de la muestraes pequeno en comparaci6n con el tamano de la poblaci6n. Cuando la pobla­cion es mucho mayor que la muestra, la diferencia entre (J2/n y «J2/n)[(N - n)/(N1)] es insignificante. Por ejemplo, si una poblaci6n tiene un tamano de 10,000Yel tamano de una muestra de esta poblaci6n es de 25, la correcci6n por po­blaci6n finita es igual a (10,000 - 25)/(9999) .9976. Multiplicar (J2/n por.9976 es casi equivalente a multiplicar por 1. La mayorfa de los estadfsticos noutilizan la correccion por poblaci6n finita a menos que la muestra sea de masde 5 por ciento de la poblaci6n. Es decir, la correcci6n de poblaci6n finita gene­ralmente se ignora cuando n/N:::; .05.
    • 132 CAPITULO 5 ALGUNAS DlSTRIBUCIONES DE MUESTREO IMPORTANTESDistribuci6n muestral de x: el resumen Las caracteristicas de la distribu­cion muestral de x se resumen en las dos siguientes condiciones:1. Cuando el muestreo se realiza a partir de una pobJacion distribuida normal­mente con una variancia de poblacion conocida:a) Ilx :::; Ilb) Ox =°If;;c) La distribucion muestral de x es normal.2. EI muestreo se efectua a partir de una poblacion que sigue una distribucionno normal con una variancia de poblacion conocida:a) Ilx =Ilb) Ox =°I~donde n IN::;; .05,- !N-nOx (o!-vn),I-­V N Ic) La distribucion muestral de xes aproximadamente normal.AplicaciQnes Como se vera en capitulos posteriores, el conocimiento y lacomprension de las distribuciones muestrales son necesarios para entenderlos conceptos de la inferencia estadfstica. La aplicacion mas sencilla para ladistribucion muestral de la media de la muestra es el ca.lculo de la probabilidadde obtener una muestra con una media de alguna magnitud especificada. Estose ilustra con algunos ejemplos.EJEMPLO 5.3.2Suponga que en una poblacion grande de seres humanos, la dimension del diame­tro craneal sigue una distribucion aproximadamente normal, con una media de185.6 mm y una desviacion estandar de 12.7 mm. ~CuaI es la probabilidad de que unamuestra aleatoria de tamafio lOde esta poblacion tenga una media mayor que 190?Soluci6n: Se sabe que la muestra individual que se estudia es solo una de todas lasmuestras posibles de tamano 10 que pueden ser extrafdas de la pobla­cion, de modo que la media a la que conduce es una de las xque formanparte de la distribucion muestral de xque, teoricamente, podria inferirsede esta poblacion.Cuando se dice que la poblacion tiene una distribucion aproxima­damente normal, se supone que la distribucion muestral de x sigue,para fines pnicticos, una distribuci6n normal. Tambien se sabe que lamedia y la desviaci6n estandar de la distribuci6n muestral son iguales a185.6 y J02.7)2 /10 =12.7/-110 = 4.0161, respectivamente. Se suponeque la poblacion es grande con respecto a la muestra, de manera que lacorreccion por poblacion finita puede omitirse.En el capItulo 4 se aprendi6 que siempre que se tenga una variablealeatoria con distribucion normal, esta puede transformarse facilmente
    • 1335.3 DISTRIBUCION DE LA MEDIA DE LA MUESTRAen una distribuci6n normal est<:indar. Ahora la variable aleatoria es x,lamedia de su distribuci6n es lix, y su desviaci6n estandar es (Jx (J / -Vn .AI modificar adecuadamente la formula anterior, se obtiene la siguientef6rmula para transformar la distribuci6n normal de xen la distribuci6nnormal estandarx Jlxz=--- (5.3.1)(5/{;;La probabilidad que responde a la pregunta formulada se representa enel area ala derecha de x 190 bajo la curva de la distribuci6n muestral.(a)xa x= .;;; =4.0161110.1357/kJi=185.6 190(b)1.09.1357o z(e)FIGURA 5.3.2 Distribuci6n de la poblaci6n, distribuci6n muestral y distribu­ci6n normal estandar, ejemplo 5.3.2: a) distribuci6n de la poblaci6n; b) distri­buci6n muestral de xpara muestras de tamafio 10; c) distribuci6n normal estfudar.
    • 134 CAPITULO 5 ALGUNAS DISTRIBUCIONES DE MUESTREO IMPORTANTESEsta area es igual al area de la derecha de:190-185.6z=----- 4.4 =1.104.0161 4.0161AI consultar la tabla normal estandar, se encuentra que el area a la dere­cha de 1.10 es .1357; por 10 tanto, se puede decir que la probabilidad deque la muestra de tamaiio 10 tenga una media mayor que 190 es .1357.La figura 5.3.2 muestra la relaci6n entre la poblaci6n original, ladistribuci6n muestral de x y la distribuci6n normal estandar. •EJEMPLO 5.3.3Si la media y desviaci6n estandar de la concentraci6n de hierro en el suero enhombres sanos es de 120 y 15 microgramos por cada 100 ml, respectivamente,~cual es la probabilidad de que una muestra aleatoria de 50 hombres normalestenga una media entre 115 y 125 microgramos por cada 100 ml?Soluci6n: No se especifica la forma funcional de la poblaci6n de valores de con­centraciones de hierro en el suero, pero dado que se tiene un tamaiio demuestra mayor que 30, se puede utilizar el teorema del lfmite centralpara transformar la distribuci6n muestral casi normal resultante de x(la cual tiene una media de 120 y una desviaci6n estandar de 15/-J5O =2.1213) en una distribuci6n normal estandar. La probabilidad buscada es:P(1l5 ~ x~125) = pl1l5 -120 ~ z ~ 125 -120]2.12 2.12= P(-2.36 ~ z ~ 2.36)= .9909 - .0091=.9818•EJERCICIOS5.3.1 La National Health and Nutrition Examination Survey de 1976-1980 (A-l) encontr6 que losniveles de colesterol en individuos varones, estadounidenses, con edades entre 20-74 afios,fue de 211. La desviaci6n estandar fue aproximadamente de 90. Considere la distribuci6nmuestral de la media de la muestra basada en muestras de tamafio 50 extraidas de estapoblaci6n de individuos varones. ~Cual es la media de la distribuci6n muestral y el errorestandar?5.3.2 El estudio mencionado en el ejercicio 5.3.1 report6 niveles de colesterol de 180 en varonescon edades entre 20 y 24 afios, con desviaci6n estandar de aproximadamente 43. Si se extraeuna muestra aleatoria simple de tamafio 60, calcule la probabilidad de que el nivel de colesterolde la media de la muestra sea:a) Entre 170 y 195 b) Abajo de 175c) Arriba de 190
    • 5.4 DISTRIBUCION DE LA DIFERENCIA ENTRE LAS MEDIAS 1355.3.3 Si las concentraciones de acido urico en hombres adultos normales siguen una distribuci6naproximadamente normal, con una media y desviaci6n estandar de 5.7 Y 1 mg por ciento,respectivamente, encuentre la probabilidad de que una muestra de tamafio 9 proporcioneuna media:a) Mayor que 6 b) Entre 5 y 6c) Menor que 5.25.3.4 Para cierto sector amplio de poblaci6n en un afio determinado, suponga que el numeromedio de dias de incapacidad es 5.4, con una desviaci6n estandar de 2.S dfas. Encuentre laprobabilidad de que una muestra aleatoria de tamafio 49 de esa poblaci6n tenga una media:a) Mayor a 6 dias b) Entre 4 y 6 dfasc) Entre 4.5 y 5.5 dfas5.3.5 Dada una poblacion distribuida normalmente can una media de 100Yuna desviaci6n estandarde 20, encuentre las siguientes probabilidades para una muestra de tamafio 16:a) P( X ~ 100) b) P(96 S xs lOS)c)P(x S 110)5.3.6 Dada: f.l= 50, (J 16 Yn = 64, calcular:a) P(45 S XS 55) b)P(x> 53)c)P(x< 47) d) P(49 s xs 56)5.3.7 Suponga que una poblaci6n se compone de los siguientes valores: 1,3,5,7,9. Construya ladistribuci6n muestral de xa partir de muestras de tamafio dos, seleccionadas sin reempla­zoo Calcule la media y la variancia de la distribuci6n.5.3.8 Utilice los datos del ejemplo 5.3.1 para obtener la distribuci6n muestral de X a partir demuestras de tamafio tres seleccionadas sin reemplazo. Calcule la media y la variancia.5.3.9 En una poblaci6n dej6venes de 17 afios de edad, la media del espesor del pliegue subescapular(en miHmetros) es de 9.7, con una desviaci6n estandar de 6.0. A partir de una muestraaleatoria simple de tamafio 40 extrafda de esa poblaci6n, calcule la probabilidad de que lamedia de la muestra:a) Sea mayor que 11 b) Sea menor 0 igual que 7.5 c) Este entre 7 y 10.55.4 DISmmUCION DE lA DIFERENCIA ENTRElAS MEDIAS DE DOS MUESTRASCon frecuencia, el interes en una investigacion se dirige hacia dos poblaciones.Especfficamente, puede ser que un investigador desee saber algo acerca de la dife­rencia entre las medias de dos poblaciones. En una investigacion, por ejemplo, elinvestigador tal vez deseara saber si es razonable concluir que dos medias poblacionalesson diferentes. En otra situaci6n, es posible que el investigador quiera conocer lamagnitud de la diferencia entre elIas. Un equipo de investigaci6n medica, por ejem­plo, quiza requiera saber si el nivel medio de colesterol en el suero es mayor en ungrupo de oficinistas que en un grupo de obreros. Si los investigadores concluyenque las medias de la poblaci6n son diferentes, es posible que deseen saber que
    • 136 CAPITULO 5 ALGUNAS DISTRIBUCIONES DE MUESTREO IMPORTANTEStanto difieren. El conocimiento acerca de la distribuci6n muestral de la diferenciaentre dos medias es muy utH en investigaciones de este tipo.JUuestreo a partir de poblaciones con distribucion normal Los ejem­plos siguientes describen la elaboraci6n y las caracterfsticas de la distribuci6nmuestral de la diferencia entre las medias de las muestras cuando el muestreo sehace a partir de dos poblaciones con distribuci6n normaLEJEMPLO 5.4.1Suponga que se tienen dos poblaciones de individuos. Una de ellas (la poblaci6n 1)ha experimentado alguna enfermedad que se considera esci asociada con retrasomental, y la otra (la poblaci6n 2) no ha experimentado tal enfermedad. Se cree que ladistribuci6n de calificaciones de inteligencia de cada una de las poblaciones presentauna distribuci6n aproximadamente normal con una desviaci6n estandar de 20.Suponga, tambien, que se toma una muestra de 15 individuos de cada pobla­ci6n y se calcula en cada muestra la media de las calificaciones de inteligencia, conlos siguientes resultados: Xl 92 Y x2 105. Si no hay diferencia entre las dospoblaciones con respecto a la media real de las calificaciones de inteligencia, ~cuales la probabilidad de observar una diferencia de esta magnitud (Xl - 0 mayorentre las medias de las muestras?Soludon: Para responder a esta pregunta es necesario conocer la naturaleza de ladistribuci6n muestral para la estadfstica principal, es decir, la diferenciaentre las dos medias de las muestras, ~ - x2 • Es importante notar que sebusca la probabilidad asociada con la diferencia entre las medias de dosmuestras en lugar de una. •Distribucion muestral de x1 : elaboracion Aunque en la practica nose intentarfa construir la distribuci6n muestral deseada, es posible una idea con­ceptual acerca de la forma en que podrfa efectuarse cuando el muestreo se realiza apartir de poblaciones finitas. Se comenzarfa por seleccionar de la poblaci6n 1 todaslas muestras posibles de tamano 15 y calcular la media de cada muestra. Se sabeque hay N,C., de tales muestras, donde N1, es el tamano de la poblaci6n y n115.De la misma forma, se podrfa seleccionar todas las posibles muestras de tamano 15de la poblaci6n 2 y calcular las medias. Se tomarian todos los pares posibles de lasmedias muestrales, una de la poblaci6n 1 y otra de la poblaci6n 2, asf como sudiferencia. En la tabla 5.1.1 aparecen los resultados de seguir este procedimiento.Cabe aclarar que, los 1 y los 2 en la ultima linea de la tabla no son exponentes sinoindicadores de poblaci6n 1 y 2, respectivamente.Distribucion muestral de x1 - caracteristicas Lo que se pretendees caIcular l;l distribuci6n de la diferencia entre las medias de las muestras. Sise elabora una grMica de las diferencias de las muestras contra sus frecuenciasde ocurrencia, se podrfa obtener una distribuci6n normal con una media iguala f.!J f.!2 la diferencia entre las medias reales de los dos grupos 0 poblaciones,y una variancia igual a (Of / nj ) + (O~ / n2 ). Esto es, el error estandar de la dife­rencia entre las medias serfa igual a ~(O~ / nj ) +(Oi / n2 ) .
    • 1375.4 DISTRIBUCION DE LA DIFERENCIA ENTRE LAS MEDLiSTABlA 5.4.1 Tabla de Qabajo pala elaboral la distlibuci6n de lasdifelencias entre las dos medias de las muestrasMuestras Muestras de Medias de las Medias de las Todas lasde la de la muestras de muestras de posibles diferenciaspoblacion 1 poblacion 2 la poblacion 1 la poblacion 2 entre las mediasnnil 12 xJl Xl2 Xll X l2n n21 Z2 X21 X22 xl! - X22n31n32 X31 XS2 XII XS2Para el ejemplo 5.4.1 habria una distribuci6n normal con una media iguala 0 (si no hay diferencia entre las medias reales de la poblaci6n) y una varianciade [(20)2/15] + [(20)2/15] = 53.3333. La gnifica de la distribuci6n muestral seilustra en la figura 5.4.1.Conversion a z Se sabe que la distribuci6n normal descrita en el ejemplo5.4.1 se puede transformar en una distribuci6n normal estandar mediante lamodificaci6n de una f6rmula estudiada con anterioridad. La nueva f6rmula escomo sigue:(Xl X2 ) (J.ll I-lz)z(J2 (J2_I +_2 (5.4.1)nJ nzEI area bajo la curva de XI - Xz correspondiente a la probabilidad buscada es elarea ala izquierda de Xl -X2 = 92 lOS -13. Suponiendo que no hay diferencia•u~ u~-+ - =53.33n1 n2P- x, x2= P-1 - P-2 = 0FIG[jRAS.4.1 Gnifica de la distribuci6n muestral de X; - x2cuando no existe diferenciaentre las medias de las poblaciones, ejemplo 5.4.1.
    • 138 -:APITULO 5 ALGUNAS DISTRIBUCIONES DE MUESTREO IMPORTANTESentre las medias de las poblaciones,el valor de z que corresponde a -13 es:-13 0 ~= -13 =-1.78z =-;=-=====(20)2 (20)2 ~53.3 7.3--+-­15 15AI consultar la tabla D, se encuentra que el area bajo la curva normal estandar a laizquierda de -1.78 es igual a .0375. Para responder a la pregunta original, se puededecir que, si no hay diferencia entre las medias poblacionales, la probabilidad de obte­ner una diferencia mayor 0 igual que 13 entre las medias de las muestras es de .0375.lJ1ues/reo a parlir de poblaciones normales El procedimiento anteriores valido incluso cuando el tamano de las muestras, nlYn2, son diferentes, y cuandolas variancias, cr~ y cr~, tienen valores diferentes. Los resultados te6ricos sobre losque se basa este procedimiento, se resumen de la siguiente forma.Dadas dos poblaciones con una distribucion normal, con medias III Y 112Y variancias (j~Y (j~, respectivamente, la distribucilin muestral de la diferencia, Xl - X2 , entre las mediasde muestras independientes de tamaiio nlY n2extraidas de esas poblaciones siguen unadistribucion normal con media III 112 Y variancia «j~ I n1) + «j~ I n2 ).iJ1ueslreo a partir de poblacioHes no normales La mayorfa de las vecesel investigador se enfrenta a uno de los siguientes problemas: 1) la necesidad deextraer muestras de una poblaci6n con distribuci6n no normal, 0 2) extraer mues­tras de poblaciones cuya forma funcional se desconoce. Una soluci6n para estosproblemas consiste en tomar muestras grandes, dado que, ruando el tamano de lasmuestras es grande, e1 teorema de1limite central es aplicable y la distribuci6n de ladiferencia entre las dos medias de las muestras sigue una distribuci6n aproximada­mente normal, con una media igua:I a III - 112 Yuna variancia de (cr~ / n1) +(cr~ /n2 ).Para calcular probabilidades asociadas con los valores espedficos de la estadfstica,e1 procedimiento es e1 mismo que el dado ruando el muestreo se hace a partir depoblaciones con disttibuci6n normal.EJElUPLO 5.4.2Suponga que se estableci6 que para cierto tipo de pacientes e1 tiempo promedio devisita domiciliaria hecha por una enfermera es de 45 minutos con una desviaci6nestandar de 15 minutos, y para un segundo tipo de paciente, el promedio de visitadomiciliaria es de 30 minutos con una desviaci6n estandar de 20 minutos. Si laenfermera visita al azar a 35 pacientes del primer tipo y 40 del segundo tipo, ~cuales la probabilidad de que el tiempo promedio de visita domiciliaria difiera entre losdos grupos por 20 minutos 0 mas?Soluci6n: No se menciona nada respecto a la forma funcional de las poblaciones,por 10 que se supone que esta caracteristica se desconoce, 0 que las po­blaciones no presentan una distribuci6n normal. Puesto que las mues­
    • 1395.4 DISTRIBUCION DE LA DIFERENCL~ ENTRE LAS MEDIAStras son grandes (mayores que 30) en ambos casos, se hace uso de losresultados del teorema dellfmite centraL Se sabe que la diferencia entrelas medias de las muestras sigue una distribuci6n al menos aproximada­mente normal con las siguientes media y variancia:I1x, -x, 111 - 112 =: 45 30 15cr: _ == cr~ + cr~ (15)2 + (20)2 == 16.4286x,-x, n n 35 40l 2El area bajo la curva de XI x2 que se busca se encuentra a 1a derecha de20. EI valor correspondiente de z en la distribuci6n normal estandar es:20 15 51.23~16.4286 4.0532En la tabla D se encuentra que el area a la derecha de z = 1.23 es1- .8907 .1093. Por 10 tanto, se puede decir que la probabilidad deque las visitas al azar de la enfermera difieran entre las dos medias por20 0 mas minutos es de .1093. La curva de Xl - x2 y la curva normalestandar correspondiente se muestran en la figura 5.4.2..1093.1093o 1.23 zFIGURA 5.4.2 Distribuci6n muestral de Xl - X Yla distribuci6n normal estandarcorrespondiente, ejemplo de visitas domiciliarias. •
    • 140 CAPiTULO 5 ALGUNAS DISTRIBUCIONES DE MUESTREO IMPORTANTESFJERCICIOS5.4.1 La referencia de los ejercicios 5.3.1 y 5.3.2 arroja los siguientes datos del nivel de colesterolen el suero de varones estadounidenses:Poblaci6n Edad Media Desviaci6n estandarA 20-24 180 43 B 25-34 199 49 Suponga que se escoge una muestra aleatoria simple de tamano 50 independiente, a partirde cad... poblaci6n. ~Cual es la probabilidad de que las diferencias entre las medias de lasmuestras (XB xA ) sea mayor que 25?5.4.2 En un analisis de gastos familiares anuales para el cuidado general de la salud, se investiga­ron dos poblaciones con los siguientes resultados:Poblaci6n 1: n l= 40, Xl = $346Poblaci6n 2: n2= 35, x2 = $300Si se sabe que la variancia de las poblaciones es de cr~ =2800 Ycr~ = 3250, respectivamente,~cuaI es la probabilidad de obtener resultados de muestras (XI - x2 ) tan amplios como losque se muestran, si no hay diferencia entre las medias de las dos poblaciones?5.4.3 Dadas dos poblaciones con distribuci6n normal, con medias iguales yvariancias crf 100 ycr~ = 80, ~cual es la probabilidad de que las muestras de tamano n1=25 Yn2 = 16, propor­cionen un valor de Xl - x2 mayor 0 igual que 8?5.4.4 Dadas dos poblaciones con distribuci6n normal, con medias iguales y variancias de crf =240 Y cr~ 350, ~cuaI es la probabilidad de que dos muestras de tamano nl=40 Yn2 = 35,respectivamente, proporcionen un valor de XI - x2 mayor 0 igual que 12?5.4.5 Para ambas poblaciones de hombres y mujeres j6venes de 17 anos de edad, las medias ydesviaciones estandar, respectivamente, del grosor del pliegue subescalpular son como si­gue: para los varones es de 9.7 y 6.0; para las mujeres es de 15.6 y 9.5. Si se obtiene unamuestra aleatoria simple de 40 varones y otra de 35 mujeres a partir de dicha poblaci6n,~cual es I, probabilidad de que la diferencia entre las medias de las muestras (xmujeres - xhombreJsea mayor que 10?".5 DISTRIBUCION DE IAPROPORCION DE IA MUESTRAEn las secciones anteriores se estudiaron las distribuciones muestrales para estadfs­ticas calculadas a partir de variables medidas. Sin embargo, frecuentemente se tie­ne interes en la distribuci6n muestral de estadfsticas, como la proporci6n de muestras,que resulta de los datos de conteo 0 frecuencias.
    • 1415.5 DISTRIBUCION DE LA PROPORCrON DE LA MUESTRAEJEMPLO 5.5.1Suponga que en una poblacion de seres humanos, .08 son daltonicos. Si laproporcion de la poblacion se designa como p, se puede decir para este ejem­plo que p = .08. Si se eligen aleatoriamente 150 individuos de esa poblacion,~cU(H es la probabilidad de que la proporcion en la muestra de individuosdaltonicos sea igual a .15?Solucion: Para responder a esta pregunta es necesario conocer algunas de laspropiedades de la distribucion muestral de la proporcion de la muestra.Se designara la proporcion de la muestra con el simbolo p.EI lector reconocera la similitud entre este ejemplo y los que sepresentan en la seccion 4.3, que se refieren a la distribucion binomial.Ademas, la variable daltonismo es una variable dicotomica, porque un in­dividuo se puede clasificar en una u otra de dos categorias mutuamenteexcluyentes, daltonico 0 no daltonico. En la seccion 4.3 se da la mismainformacion y se pide calcular el numero con la caracteristica de interes,mientras que en el presente ejemplo se busca la proporcion de la mues­tra que posea tal caracteristica. Mediante el uso de una tabla 10 suficien­temente grande de probabilidades binomiales, como la tabla B, es posibledeterminar la probabilidad asociada con el numero correspondiente ala proporcion de interes. Como se vera mas adelante, esto no sera nece­sario, porque se dispone de otro procedimiento que, en general, es masconveniente cuando el tamafio de la muestra es grande. •Distribucion mue.dral de /I: elaboracion La distribucion muestral dela proporcion de la muestra se puede obtener experimentalmente de la mismaforma que se sugiere para el caso de la media aritmetica y la diferencia entredos medias. A partir de la poblacion, que se supone es frnita, se toman todaslas muestras posibles de un tamafio dado y para cada muestra se calcula laproporcion de la muestra, p. Despues se elabora una distribucion de frecuen­cia de p, ordenando los valores distintos de pjunto con sus frecuencias deocurrencia. Esta distribucion de frecuencia (al igual que la distribucion de fre­cuencias relativas correspondiente) constituye la distribucion muestral de p.Distribucion muestral de /I: caracteristicas Cuando la muestra esgrande, la distribucion de las proporciones de la muestra es aproximadamentenormal de acuerdo con el teorema del limite central. La media de la distribucion!-ip que es el promedio de todas las proporciones posibles de la muestra, esigual a la proporcion real de la poblacion p, y la variancia de la distribucion,a; es igual a P(l - P) I no pq I n, donde q = 1 p. Entonces, para responder alas preguntas acerca de la probabilidad respecto a p, se utiliza la siguiente formula:AP Pz=-====(5.5.1 )~P(l:P)
    • 142 CAPiTULO 5 ALGUNAS D1STRIBUCIONES DE MUESTREO IMPORTANTESLa pregunta que surge ahora es: ~que tan grande debe ser la muestra paraque sea valido el uso de la aproximaci6n normal? Un criterio ampliamente utiliza­do es que np y n(l - p) deben ser mayores que 5, por 10 que se seguira dicha regIaen el presente texto.Ahora se esta en posibilidad de responder a la pregunta referente al daltonis­mo en la muestra de 150 individuos de una poblaci6n en la cual .08 son dalt6nicos.Puesto quenpyn (I-P) son mayores que 5 (IS0x .08= 12 YISO x .92 138), se puededecir que, en este caso, psigue una distribuci6n aproximadamente normal conuna media IJ.ji = P .08 Y ofi = P(I-p)/n= (.08)(.92)/150 =.00049. La probabili­dad buscada es el area bajo la curva de pala derecha de .IS. Esta area es igual alarea bajo la curva normal estandar a la derecha de:Ap-p .15-.08 .07z=-;:====- r====--=3.15.0222 La transformaci6n para la distribuci6n normal estandar se lleva a cabo de la mane­ra usual: z se calcula al dividir el error estandar entre la diferencia de un valor de laestadfstica y su media. AI utilizar la tabla D se tiene que el area a la derecha de z =3.15 es 1 - .9992 = .0008. Por 10 tanto, se puede decir que la probabilidad deobservar p~ .15 en una muestra aleatoria de tamaiio n 150 de una poblaci6n enla que p = .08 es .0008. De hecho, si se extrajera una muestra de este tipo, muchagente la consideraria un evento extraiio.Correcci6nporcontinuidad La aproximaci6n normal puede mejorar con lacorrecci6n por continuidad, un mecanismo que hace un ajuste en el caso de que unadistribuci6n continua se aproxime a una distribuci6n discreta. Suponga que se tie­ne x=np, el numero en la muestra que posee la caracteristica de interes, cuando laporci6n es p. Para aplicar la correcci6n por continuidad se calcula:x+.S-pZc =-==-,parax <np (5.5.2)o bienx .S--pz, = Wn ,para x> nppq/n (5.5.3)donde q 1 - p. La correcci6n por continuidad no produce una gran diferenciacuando nes grande. En el ejemplo de arriba np = 150(.15) 22.5 Y22.5 .5.08--=1c:;=50====-_ = 3.01100049Y P(P~.15)= 1 - .9987 = .0013. Este resultado no es muy diferente del que seobtiene sin la correcci6n por continuidad.
    • EJERCICIOS 143EJEMPLO 5.5.2Suponga que se conoce que en una poblaci6n de mujeres, 90 por ciento de quienescomienzan su tercer trimestre de embarazo han tenido alglin cuidado prenatal. Sise extrae de esta poblaci6n una muestra aleatoria de tamano 200, 2cual es la proba­bilidad de que la proporci6n de la muestra de las mujeres que han tenido alglincuidado prenatal sea menor que .85?Soluci6n: Se puede suponer que la distribuci6n muestral de ppresenta una distri­buci6n aproximadamente normal, con 11,; = .90 Y (J; = (.1)(.9) / 200.00045. Se calcula:.85 .90 -.05z = = == -2.36:V.00045 .0212EI area a la izquierda de -2.36 bajo la curva normal estandar es .0091.Por 10 tanto, P(P S .85) P(z S -2.36) =.0091. •EJERCICIOS 5.5.1 Una il1vestigaci6n del National Center for Health Statistics (Centro Nacional para la Estadfs­tica de la Salud) (A-2) encontre que a 33.2 por ciento de las mujeres de 40 anos de edad 0mas se les practice un examen de pecho (BPE) durante el ano anterior. Si se extrae unamuestra aleatoria simple de 200 individuos a partir de esa poblaci6n, ~cual es la probabili­dad de que la proporci6n de la muestra de mujeres a las que se les practice el examen BPEdurante elanD anterior este entre .28 y .37?5.5.2 A mediados de la decada de 1970. segiln informes del National Center for Health Statistics(A-3), 19.4 por ciento de la poblaci6n de adultos varones, en EVA, eran obesos. ~Cual es laprobabilidad de que, en una muestra aleatoria simple de 150 individuos, menos de IS porciento sean obesos?5.5.3 Vna investigaci6n realizada en 1990 por el National Center for Health Statistics (A-4), 19por ciento de los encuestados mayores de 18 anos, dijo no saber del virus VIH del SIDA.~Cual es la probabilidad de que en una muestra de 175 individuos de esa poblaci6n 25 porciento 0 mas no sepa de la existencia del virus del SIDA?5.5.4 Se sabe que un medicamento estandar utilizado para tratar cierta enfermedad es eficaz enun lapso de tres dias en 75 por ciento de los casos. Para evaluar la eficacia de un nuevomedicamento para tratar la misma enfermedad, este se administr6 a 150 personas que lapadedan. AI termino de tres dlas, sanaron 97 personas. Si este nuevo medicamento es taneficaz como el primero, ~cual es la probabilidad de obtener una proporci6n de pacientes quese recuperan tan pequena como esta?5.5.5 Dada una poblaci6n en la que p = .6 y una muestra aleatoria de esta poblaci6n de tamano100, calcule:b) PcpS .58) c) P(.56 ~ P~ .63)5.5.6 Se sabe que 35 por ciento de los miembros de una poblaci6n sufren de una 0 mas enferme­dades cr6nicas. ~Cual es la probabilidad de que en una muestra aleatoria de 200 individuos80 0 mas de ellos tengan al menos una enfermedad cr6nica?
    • 144 CAPITULO 5 ALGUNAS DISTRIBUCIONES DE MUESTREO IMPORTANTES5.6 DISfRmUCION DE lA DIFERENCIA ENTRElAS PROPORCIONES DE DOS MllESfRASCon frecuencia son de interes las proporciones de dos poblaciones y se desea averi­guar la probabilidad asociada con la diferencia de las proporciones calculadas apartir de muestras extraidas de cada una de dichas poblaciones. La distribuci6nmuestral pertinente es la distribuci6n de la diferencia entre las proporciones de dosmuestras.DistribuclOn ",uestral de /11 - /12: caracterlsticas Las caracteristicas deesta distribuci6n muestral se resumen como sigue:Si se extraen muestras aLeatorias independientes de tamafio n lYn2de dos poblaciones devariables dicotomicas, donde las proporciones de las observaciones con La caracteristicade interes en ambas pobLaciones son PlYP2 !espe,rtivamente, la distribuciOn de La diferen­cia entre las proporciones de las muestras, PI P2> es aproximadamente normal con unamedia de:con varianciacuando n1Y n2son [Jrandes.Se considera a n1 Yn2 suficientemente grandes cuandondl n2P2 nJ(l-P1), Yn2(l - P2), son mayores que 5.Dirf;tribucion nzuestral de /11 Y /12: elaboracion Para elaborar fisicamen­te la distribuci6n muestral de la diferencia entre las proporciones de dos muestras,se procede en la forma descrita en la seccion 5.4 para obtener la distribucion muestralde la diferencia entre dos medias.Dadas dos poblaciones suficientemente pequenas, es posible extraer de lapoblacion 1 todas las muestras aleatorias posibles de tamano nJy calcular a partirde cada conjunto de datos de la muestra, la proporcion de la muestra PI De lapoblaci6n 2, puede extraerse independientemente todas las muestras aleatoriassimples de tamano n2Ycalcular, para cada conjunto de datos de la muestra, laproporci6n de la muestra P2 Es posible calcular las diferencias entre todos lospares posibles de proporciones muestrales, donde un miembro de cada par tieneun valor PI> y el otro un valor P2 Asi la distribuci6n muestral de la diferencia entrelas dos proporciones de las muestras consta de todas las diferencias existentes acom­panadas de sus frecuencias de ocurrencia (0 frecuencias relativas). Para poblacionesgrandes finitas 0 poblaciones infinitas, es posible obtener un calculo aproximadode la distribuci6n muestral de la diferencia entre las proporciones de las muestras,tomando un gran numero de muestras aleatorias simples independientes para pro­ceder de la forma descrita.
    • 5.6 DISTRIBUCION DE LA DIFERENCIA ENTRE LAS PROPORCIONES 145Para responder a preguntas respecto a la diferencia entre las proporcio­nes de dos muestras, se utiliza la siguiente formula:(5.6.1)Z=-r==============EJEMPLO 5.6.1Suponga que la proporcion de consumidores moderados a grandes consumidores deestupefacientes ilegales es de .50 para la poblacion 1, en tanto que en la poblaci6n 2la proporci6n es de .33. ~Cual es la probabilidad de que muestras de tamaiio 100,extrafdas de cada una de las poblaciones, presente un valor de PI - P2 igual a .30?Solucion: Se supone que la distribuci6n muestral de PI - P2 es aproximadamentenormal, con una media dey variancia. (}2p,-p,=(.33)(.67)100.004711(.5)(.5)100EI area correspondiente ala probabilidad buscada es la que se encuen­tra bajo la curva de PI - P2 a la derecha de .30. AI transformar en ladistribucion normal estandar se obtiene(Pt -P2)-(PI-P2) :30 -.17. =.189Z=-r==============!PI(l-PI) P2(I-P2) ~.004711: +"------­V nl n2AI consultar la tabla D, se encuentra que el area bajo la curva normalestandar que esta a la derecha de Z 1.89 es 1 - .9706 = .0294. Por10 tanto, la probabilidad de observar una diferencia igual a .30 es de.0294. •EJEMPLO 5.6.2Se sabe que en una poblacion de adolescentes 10 por ciento de los varones sonobesos. Si la misma proporcion de mujeres en esa poblacion son obesas, ~cual es laprobabilidad de que una muestra al azar de 250 varones y 200 mujeres proporcioneun valor de PI - P2 ;:: .06 ? .Solucion: Se supone que la distribucion muestral de PI - P2 es aproximadamentenormal. Si la proporci6n de individuos obesos es la misma en ambaspoblaciones, la media de la distribucion es igual a 0 y la variancia es:
    • 146 CAPITULO 5 ALGUNAS DISTRIBUCIONESDE MTIESTREO IMPORTANTES.00081El area de interes bajo la curva de PI -P2 es la que se encuentra a laderecha de .06. El valor correspondiente de z es:.06-0z = 2.11~.00081AI consultar la tabla D se encuentra que el area a la derecha de z = 2.11es 1 .9826 =.0174. •EjERCICIOS5.6.1 En una poblaci6n de ninos con retraso mental, se sabe que la proporci6n de los que sonhiperactivos es de .40. Se extrajo una muestra aleatoria de tamano 120 de esa poblaci6n, yotra de tamano 100 a partir de otra pohlaci6n de ninos con el mismo problema. Si la propor­ci6n de ninos hiperactivos es la misma en ambas poblaciones, ~cual es la probabilidad de quela muestra presente comoresultado una diferencia PI P2de .160 mas?5.6.2 Se tienen bases para suponer que 40 por ciento de las casas en cierta area de la ciudad estanen malas condiciones. Una muestra aleatoria de 75 casas de esa area y otra compuesta de 90casas de otra secci6n dieron una diferenciade PI - P2 = .09. Si no hay diferencia en laproporci6n de casas en malas condiciones entre estas dos areas, ~cuaI es la probabilidad deobservar una diferencia de esta magnitud 0 mucho mayor?5.6.3 EI resultado de una investigaci6n realizada por el National Center for Health Statistics (A-5)revela que 14 y 23.8 por ciento de los hombres y de las mujeres, respectivamente, con edadesentre 20 y74 arros tienen una desviaci6n de 20 por ciento 0 mas con respecto a su peso ideal.Suponga que se extrae una muestra aleatoria simple de 120 varones y una muestra aleatoriasimple independiente de 130 mujeres. ~Cual es la probabilidad de que la diferencia entre lasproporciones de las muestras PF - PM este entre .04 y .20?5.7 RESUMENEI tema principal de este capitulo son las distribuciones muestrales, por 10 que aqulse presenta el concepto, aSI como los mas importantes tipos de distribuci6n muestral:1. Distribuci6n de la media de una muestra unica.2. Distribuci6n de la diferencia entre las medias de dos muestras.3. Distribuci6n de la proporci6n de la muestra;4. Distribuci6n de la diferenciaentre las proporciones dedos muestras.Se destaca la importancia de estos aspectos, y se exhorta allector para que seasegure que los ha comprendido antes de pasar al siguiente capitulo.
    • 147PREGUNTAS Y EJERCICIOS DE REIASOPHEGUNTAS YF-JERCICIOS DE REPASO1. ~Que es una distribucion muestral?2. Explique como se puede elaborar una distribucionmuestral a partir de una poblacion.3. Describa la distribtiCion muestral de la media de una muestra cuando el muestreo es conreemplazos a partir de una p~blacion que sigue una distribucion normal.4. Explique el teorema del Hmite central.5. mn que forma difiere la. distribucion muestraide la media <:ieuna muestra, cuando el muestreoes sin reemplazo~ de laodistribucion muestral que seobti~ne de un muestreo con reemplazo?6. Describa la distribucion muestral de la diferencia entre las medias de dos muestras.7. Describa la disttibucion muestral de laproporcion deia muestra cuando se seleccionanmuestras grandes..8. Describa la distribuci6ri: muestral de la diferencia entre las medias de dos muestras cuandose seleccionan muestras grandes.9. Explique el procediilli~nto que se sigue paraobtener la distribucion muestral de la diferen­cia entre las proporciones de las muestras con base en muestras grandesextrafdas de pobla­ciones finitas.· . .10. Suponga que se sabe que el tiempo de respuesta a un estimulo en particular en individuossanos es una variabie aleatoiii <;:dn distribucion normal,ccm una media de 15 segundos yuna variancia de 16. (Coal es la probabilidadde que una muestra al azar de 16 individuospropor~ione un tiempo de respuesta de 12 segundos 0 J:Iills? .11. Cierta empresatierie 2000 empleados. DuranteuIlano ~ci~nte, el gastomedio por emplea­do debido a servicios medic()s personaJes fue de $31.50, y la desvlaeion estandar de $6.00.~Cual es la probabilidad de que una muestra aleatoriasimple de 36 empleados proporcioneuna media entre $30y $33? 12. Suponga que en cierta poblacion de adictos la duraci6n media de abuso de drogas es de 5aiios y la desviaci6n estandar es de 3 aiios. ~Cual es la probabilidad de que.una muestraaleatoria simple de 36 individuosproporcioneuna media de abuso entre 4 y 6 aiios?13. Suponga que elconsumomedio de protefnas de una pobiacion es de 125 gramos por dfa,mientras que para otra poblaci6n el consumo medio es de 100 g. Si los valores de consumodiario de protefnas de;ambas poblaciones siguen una distribuci6n normal con una desvia­cion estandar de 15 gramos, ~cual es la probabilidad de que las muestras aleatorias e inde­pendientes de tamaiio 25 a partir de cada PQblacion presenten una diferencia entre lasmedias de las muestras de 120 menos? .. 14. Considere que dos medicamentos que se supone .sirven para redllcir el tiempode respuestaa cierto estlmulo son estudiados en un laboratorio. EI investigaclor se inclina a creer que lostiempos de respuesta, desimes de administrar ambos medicamentos, siguen una distribu­ci6n normal con variancias iguales de ,60. Como parte de la evalu,!ci6n de los dos medica­mentos, el medicamento A se aplica a 15individuos y el medicamento B se administra aotros 12. EI investigador esta interesado en saber entre que valores estaria 95 por cientocentral de todas las diferencias entre-las medias de las muestras, si ambos medicamentosfueron igualmente eficaces y si el ~xperimento se repitiera un gran mlmero de veces utilizan­do estos tamaiios de rn,uestras..15. Suponga que la concentraci6n de albumina en el suero de cierta poblacion de individuossigue una distrib1).f=iOn normal, con 1,lna media de 4.2 g!100 ml y una desviacion estandar de.5. Una muestra at azar de nueve de esos individuos sometidos a una closis diaria de cierto
    • 148 CAPITULOS ALGUNAS DISTRIBUCIONES DE MUESTREO IMPORTANTESesteroide oral produjo una concentraci6nmedia de .albumina en el suero de 3.8 g/100 m!.Con base en estos resultados, ~es probable queelesteroide oral disminuya la concentracionde albumina en el suero?16. Una encuesta llevada a cabo en un area grande de la ciudad revelil que, entre los estudiantesde preparatoria, 35 por ciento han fumado marihuana en una u otra ocasi6n. Si en unamuestra aleatoria de 150 de esos estudiantes s610 40 de ellos admitieron haber fumadomarihuana, ~que es 10 que se puede concluir?17. Una investigaci6n en 1989 por el National Center for Health Statistics revel6 que 7.1 porciento de los pacientes dados de alta despues de una corta estanCia en hospitales de EUAtenian edadeseritre 20 y 24 aoos de edad, inclusive. Si se extrae una muestra aleatoriasimple de tamaoo 150 de esa poblaci6n, ~cual esla probabilidad de que la proporci6n depacientesentre las edades de 20 y 24 afios se encuentre entre .05 y .lO?18. Una trabajadora social especiaIizada en problemas psiquiatricos piensa que, tanto en la co­munidad A como en la B, la proporci6n de adol~scentes que padecen algiin problema emo­cional 0 mental es de .20. En una muestra de 150 adolescentes de la comunidad A, 15 deellos presentaron problemas emocionales 0 mental.es. En una muestra de 100 adolescentesde la comunidadB, se presentan If)casos. Si la trabajadora social estaen 10 correcto, ~cuales la probabilidad de observar una diferencia tangrande como la que se observa entre estasdos muestras?.19. Un informe del NationalCenter for Health Statistics.(A-7) mostr6 que en Estados Unidos5.7 por ciento de los varones y 7.3de las mujeres con edades entre 20 y 74 afios tienendiabetes. Suponga que se toma una muestra aleatoria simple de 100 varones (V) yuna mues­tra independiente de 150 mujeres (M) a partir de Ia poblacion correspondiente. ~Cl!al e~ laprobabilidad de que la:diferencia entre las proporciones de las muestras con diabetes, PF PMsea mayor que .0!5? . . .20. tCuantas muestras aleatorias simples (sin reemplazos) de tamaoo 5 se pueden seleccionar apartir de una poblaci6n de lO?21. Se sabe que 27 por cientode determinada poblaci6n de adultos nunea han fumado. Consi­dere la distribucion muestral de la proporcion de una muestra basada enmuestras aleatoriassimples de tamafio 110 extraidas de esa poblacion.(Cual es la forma funcional de la distri­bucion muestral?22. . Consulte.eI ejercicio 21, y calcule la media y la variancia de la distribuci6n muestral.23. Consulte el ejercicio 21. (Cilll es la probabilidad de que una muestra aleatoria simple detamaoo 110, extraida de esta pobIacion,presente urtaproporci6n muestral menor que .18?24. En una poblaci6n de individuos que murieron de cancer pulmonar provocadQ por exposi­cion a asbesto, se encontr6 queIa media de los aoos transcurridos entre la exposici6n y elfallecimiento fuede 25, yla desviaci6n estandar de 7 aocl!;;. Considere la distribuci6n muestral. de las medias de las muestras con base en muestrasde tamaoo 35, Seleccionadas de esa pobla­.ci6n. ~Cual sera la lorma de la distribuci6n muestral?25. Consulte el ejercicio 24. (Cual es la media y la variancia de la distribucion muestral?26. Consulte el ejercicio 24. (CUiil es la probabilidad de que una muestra aleatoria simple detamafio 35, extraida de esa poblaci6n, presenteuna media entre 22 y 29?27. Para cada una de las siguientes poblaciones de mediciones, establezca si la distribuci6nmuestral de Ia media de la muestra sigue una disttibucion normal, aproximadamente nor­mal, oni siquiera aproximadamente normal cuando se calrulaa partir de muestras de tama­fio A) 10, B) 50 YC) 200. .
    • BIBLIOGRAFiA 149a) Ellogaritmo de los indices metab6licos. La poblaci6n sigue una distribuci6n normal.b) Tono vagal en reposo en adultos sanos. Lapoblaci6n sigue una distribuci6nnormal.c) La acci6n de la insulina en individuos obesos. La poblaci6n nose distribuyenormalmente.28. Para cada una de las siguientes situaciones de muestreo indique si la distribuci6n muestralde la proporci6n de la muestra puede aproximarse a una distribuci6n normal, y expliquepor que sf 0 por que no.a) p= .50, n=:8 b) P=.40, n = 30 c)p .10,n = 30 d) P= .01, n 1000 e) p := .90, n = 100 f) P .05, n = 150 BmUOGRAFfABibliografia de metodologia1. RichardJ. Larseny Morris L. Marx,An Introduction to Mathematical Statistics and Its Applicatims,segunda ediei6n, Prentice-Hall, Englewood Cliffs, NJ.2. John A Rice; Mathematical Statistics and Data Analysis, segunda edici6n, Duxbury, Belmont,CA.Bibliografia de aplicacionesA-I. National Center for Health Statistics, R. Fulwood, W. Kalsbeck, R. Rifkind, etal., "TotalSerum Cholest~rol Levels of Adults 20-74 years of Age: United States, 1976-80", Vital andHealth Statistics, Serie 11, No. 236. DHHS Pub. No. (PHS) 86-1686, Public Health Service,U.S. Government Printing Office, Washington, DC.A.2. D. A Dawson y G. B. Thompson, "Breast Cancer Risk Factors and Screening: United States,1987", National Center for Health Statistics, Vital and Health StatisticS, 10 (172).A-3. National Center for Health Statistics, S. Abraham, "Obese and Overweight Adults in theUnited States" Vztaland Health Statistics, Serie 11, No. 230.DHHS Pub. No. 83-1680, PublicHealth Service, U.S. Government Printing Office, Washington, DC.A-4. A M. Hardy, "AIDS Knowledge and Attitudes for October-December 1990"; Provisional datafrom the National Health Interview Survey. Advance data from vital and health statistics; No.204. National Center for Health Statistics, Hyattsville, MD..... A~5.. National Center for HealPl Statistics. Advance data from vital and health statistics: No. 51­60. National Center for Health Statistics, Vital and Health Statistics, 16 (6).A-6. E. J. Graves y L. J. Kozak, "National Hospital Discharge Survey: Annual Summary, 1989".National Center for Health Statistics, Vital and Health Statistics, 13(109).A-7. National Center for Health Statistics, W. C. Hadden y M. I. Harris, "Prevalence ofDiagnosedDiabetes, Undiagriosed Diabetes, and Impaired Glucose Tolerance in Adults 20-74 Years ofAge, United States, 1976-80", Vital and Health Statistics, Serie 11, No. 237. DHHS Pub. No.(PHS) 8.7-1687, Public Health Service, U.S. Government Printing Office, Washington, DC.
    • 6.16.26.36.46.56.66.1INTRODUCCIONINTERVALO DE CONFIANZAPARA LA MEDIA DE UNAPOBLACIONDISTRIBUCION tINTERVALO DE CONFIANZAPARA LA DIFERENCIA ENTREDOS MEDIASPOBLAC.ONALESINTERVALO DE CONFIANZAPARA LA PROPORCION DEUNA POBLACIONINTERVALO DE CONFIANZAPARA LA DIFERENCIA ENTRELAS PROPORCIONES DE DOSPOBLACIONESINTRODUCCION6.76.86.9·6.106.11DETERMINACION DEL TAMANODE LA MUESTRA PARA LAESTIMACJON DE LAS MEDIASDETERMINACION DEL TAMANODE LA MUESTRA PARA LAESTIMACION DE LASPROPORCIONES vINTERVALO DE CONFIANZA PARA LA VARIANCIA DE . POBLACIONES CONDISTRIBUCION NORMALINTERVALQ DE CQNFIANZA PARA LA RAZON DE LAS VARIANCIAS DE DOS POBLACIONES CON DISTRIBUCION NORMAL RESUMENEn es.t~ capitulo se analiza la estimaci6n, que es la primexa de las dos areas generales de la inferepcia estadistica. La segunda area general, pr,uebas de hipotesis, se estudia en el siguiente capitulo.- . En el capItulo I se define la inferencia estadfstica de la siguiente manera: DEFINICIONLa inferencia estadistica es el proeedimiento por mediodel eual sellega a eonclusiones aeerea de una poblaci6ncoli base en la inforIllaci6n que se obtiene a partir de unamuestra seleecionadade esa poblaei6n.EI proceso de estimacion implica calcular, a partir de los datos de unamuestra, alguna estadfstica que se ofrece como una aproximacion del panimetrocorrespondiente de la poblacion de la cual fueextraida la muestra.EI razonamiento en el que se basa la estimacion en el campo de las cienciasde la salud se apoya en la suposicion de que los trabajadores tengan interes en150
    • 1516.1 INTRODUCCIONparametros, como la media y la proporci6n, de varias poblaciones. Si este es elcaso, existe una buena razon por la que se debe confiar en los procedimientos dela estimacion para obtener informaci6n respecto a dichos parametros: muchaspoblaciones de interes, aunque finitas, son tan grandes que el costo de un estudiodel 100 por ciento seria prohibitivo.Suponga que al administrador de un gran hospital Ie interesa saber la edadpromedio de los pacientes internados en el transcurso de un ano. Es posible queconsidere demasiado laborioso consultar el registro de cada paciente internadoen el transcurso de ese ano y, en consecuencia, decide examinar una muestra delos registros a partir de la cual sea posible calcular una estimaci6n de la edadpromedio de los pacientes internados en ese ano.Un medico general puede estar interesado en saber que proporcion decierto tipo de individuoStratados con un determinadomedicamento presentanefectos secundarios indeseables. Sin duda, su idea de poblaci6n consiste en todasaquellas personas que alguna vez han sido 0 seran tratadas con este medicamen­to. Aplazar una conclusion hasta haber observado a la poblaci6n completa podriatener efectos adversos en el ejercicio de su profesion.Es,tos dos casos ejemplifican el interes por estimar la media y la proporcion. de una poblacion, respectivamente. Otros parametros, cuya estimacion se estudiaen estecapftulo, son la diferencia entre dos medias, entre dos proporciones, lavariancia de la poblaci6n y la razon de dos variancias.Se encontrara que para cada uno de los parametros estudiados, es posiblecalcular dos tipos de estimaci6n: estimaci6n puntual y estimaci6n por•intervalos.DEFINICIONUna estimaci6n puntual es un solo valor numericoutilizado para estimar.el·panimetro correspondiente de la.poblaci6n.DEFINICION Una estimaci6n POT intervalos consta de dos valoresnumericos que definen un intervalo que, con un gradoespecifico df;: confianza, se considera que incluye alparametro por estimar.Estos conceptos se explican en las secciones siguientes.
    • 152 CAPITULO 6 ESTlMACIONEleccion del estimador adecuado Esconveniente notar que se ha dado elnombre de estimacion a un solo valor calrulado, La regIa para calrular este valor aestimaci6n se conoce como estimador. Los estimadores generalmente se presentancomo f6rmulas. Por ejemplones un estimador de la media. de la poblaci6n, ).t. El valor numerico individual queresulta de la evaluaci6n de esta f6rmula s.e canoce como estimaci6n del parametro ).t.En muchos casos, es posible estimar un panimetro por media de mas de unestimador. Par ejemplo, se puede utilizar la mediana de la muestra para estimar lamedia de la poblaci6n. ~C6mo decidirentonces que estimador se debe utilizar paraestimar un parametro en particular?La decisi6n se basa en criterios que reflejanla "bondad" de los estimadores partirulares. Cuando se miden contra estos crite­rios, algunos estimadores son mejores que otros. Uno de estos criterios es la propie­dad de ser insesgado.DEFINICIONSe dice queun estimador, por ejemplo T, para elparametro () es un estimador insesgado de () si E(T) = ().E(T) significa "el valor esperado de Tn. Para una poblaci6n fmita, E(T) seobtiene tomando el valor promedio de T calculado a partir de todas las muestrasposibles de un tamafto dado que puedan extraerse de la poblaci6n. Es decir, E(T)=I-lr. Para una poblaci6n infinita, E(T) se define en terminos del calculo matematico.En el capitulo anterior se via que la media de la muestra, y la proporci6n dela muestra, la diferencia entre las medias de dos muestras, la diferencia entre lasproporciones de dos muestras son cada una estimadores insesgados de susparametros correspondientes. Esta propiedad qued6 implfcita ruando se dijo quelos parametros eran las medias de lasdistribuciones del muestrc;o correspondien­tes. Por ejemplo, dado que la media de la distribuci6n mliestral de xes igual a ).t,se sabe que x es un estimador insesgado de ).t. En este libra no se estudian losotros criterios para un buen estimador. Ellector interesado los encontrara deta­llados en muchos libras de estadfstica matematka.Poblaciones muestreatlnS y poblaciones objetivo EI investigador en elarea de la salud que utiliza los procedimientos de inferentia estadfstica debe estaral tanto de las diferencias entre dos tipos depoblaci6n:la poblacion muestreada y lapoblaci6n objetivo.DEFINICIONLa poblacion muestreada es la poblacion de la cual seextrae una.muestra.
    • 1536.1 INTRODUCCIONDEFINICIONLa poblacion objetivo es la poblacion de la que sepretende hacer una inferencia.Estas dos poblaciones pueden ser las mismas a no. Los pracedimientos deinferencia estadfstica permiten inferir respecto a las poblaciones muestreadas (siem­pre y cuando se hayan utilizado los metodos de muestreo correctos). Solo cuandola poblacion objetivo y la poblacion muestreada son las mismas, es posible utilizarpracedimientos de inferencia estadfstica para llegar a conclusiones acerca de la po­blaci6n objetivo. Si la poblacion muestreada y la poblacion objetivo son diferen­tes, el investigador puede llegar a conclusiones respecto a la poblaci6n objetivosolo can base en consideraciones no estadisticas.Par ejemplo, suponga que un investigador quiere estimar la eficacia de unmetoda para tratar la artritis reumatoide. La poblaci6n objetivo esta formada portodos los pacientes que sufren esta enfermedad, y no es practico extraer una mliestrade esta poblacion. Sin embargo, el investigador puede extraer una muestra de to­dos los pacientes can artritis reumatoide de alguna clfnica especifica. Estos pacien­tes constituyen la poblacion muestreada y, si se utilizan metodos de muestreoadecuados, es posible hacer inferencias respecto a esta poblacion muestreada conbase en la informacion de la muestra. Si el investigador quiere hacer inferenciasacerca de todos los pacientes con artritis reumatoide, debe utilizar metodos noestadfsticos. Quiza el investigador sepa que la poblaci6n muestreada es similar, canrespecto a todas las caracteristicas importantes, a la poblacion objetivo. Es decir, esposible que el investigador sepa que edad, sexo, gravedad de enfermedad, tiempode evolucion deesta, asf como otras datos, son similares en ambas poblaciones. Ycon base en esteconocimiento el investigador puede extrapolar sus descubrimien­tos ala poblacion objetivo.En muchos casas, la poblacion muestreada y la poblaci6n objetivo son identi­cas, y cuando esto ocurre, las inferencias en torno a la poblacion objetivo son direc­tas. Sin embargo, el investigador debe estar consciente de que este no siempre es elcaso, a fin de no caer en la trampa de hacer inferencias err6neas respecto a unapoblacion diferente de la que ha sida muestreada.Muestras alealarias y na alealarias En los ejemplos y ejercicios de estelibra, se supone que los datos analizados pravienen de muestras aleatorias. La es­tricta validez delos pracedimientos.estadisticos estudiados depende de esta suposi­cion. En muchos casas, en las aplicaciones reales es imposible a impractico utilizarmuestras verdaderamente aleatorias. En experimentos con animales, par ejemplo,los investigadores frecuentemente utilizan cualquier animal cori el que cuenta elproveedor a su prapia raza de crianza. Si los investigadores tuvieran que dependerde materialseleccionado al azar, se llevaria a cabo muy poca investigacion de estetipo. Una vez mas, las consideraciones no estadfsticas deben tamar parte en elpraceso de generalizacion. Los investigadores pueden afirmar que las muestrasrealmente utilizadas equivalen a muestras aleatorias simples, dado que no hay ra­
    • 154 CAPiTULO 6 ESTIMACIO:"lzon para creer que el material utilizado no es representativo de la poblacion de laque se desea hacer inferencias.En muchos proyectos de investigacion en el area de la salud se utilizan muestrasde conveniencia en lugar de muestras aleatorias. Puede ser que los investigadorestengan que confiar en voluntarios 0 en personas disponibles como los estudiantes desu clase. Nuevamente, se debe hacer generalizaciones con base en consideracionesno estadisticas. Sin embargo, las consecuencias de dichas generalizaciones puedenser utiles 0 pueden clasificarse desde erroneas hasta desastrosas.En algunos casos puede aplicarse aleatoriedad en un experimento aun cuan­do los individuos disponibles no sean seleccionados aleatoriamente de alguna po­blacion bien definida. Al comparar dos tratamientos, por ejemplo, a cada individuose Ie puede asignar aleatoriamente uno u otro de los tratamientos. Las inferenciasen tales casos se aplican a los tratamientos y no a los individuos y, en consecuencia,dichas inferencias son vaUdas. .6.2 INTERVALO DE CONFIANZAPARALI MEDIA DE UNA POBLICIONSuponga que un grupo de investigadores quiene estimar la media de una poblaci6nque sigue una distribucion normal. Para ello, extraen una muestra aleatoria detamafio n de la poblacion y ca1culan el valor de x, el cual utilizan como una estima­cion puntual de 11. Aunque este estimador de 11 posee todas las cualidades de unbuen estimador, se sabe que, debido a los caprichos del muestreo aleatorio, no sepuede esperar que xsea igual a 11. .Por 10 tanto, serfa mucho mas significativo estimar 11 mediante un intervaloque de alguna forma muestre su probable magnitud 11.DistribuciOn muestral y estimaci6n Para obtener dicha estimacion porintervalos, se debe aprovechar el conocimiento acerca de las distribucionesmuestrales. En este caso, puesto que el interes esta en la media de la muestra comoestimador de la media de una poblacion, es necesario recordar 10 que se sabe res­pecto a la distribucion muestral de la media de la muestra. .En el capitulo anterior se aprendio qu~ si el muestreo se realiza a partir deuna pohlacion con distribucion normal, la distribucion muestral de la media de lamuestra presenta una distribucion normal con una media Ilx igual a la media dela poblacion 11 yvariancia cr; igual a cro/n. Se podrfa graficar la distribucion muestralsi se supiera en que lugar del eje xse localiza. Con base en el conocimiento adqui­rido acerca de la distribucion normal, en general, se sabe aun mas sobre la distribu­ci6n de xpara estecaso. Por ejemplo, se sabe que sin irilportar d6nde se localizan,aproximadamente 95por ciento de los valores posibles de que constituyen ladistribuci6n, estan ados desviaciones estandarrespecto a la media. Los dos puntosque estan ados desviaciones estandar de la media son 1l-2crx y 1l+2crx de talmanera que el intervalo de 11 ±2cr contendra aproxil11adamente 95 por ciento dexlos valores posibles de x. Aunque 11 y Ilx son desconocidas, arbitrariamente sepuede poner la distribuci6n muestral de x sobre eleje x.Dado que se desconoce el valor de 11, la expresion )i ± 2crx no dice mucho. Sinembargo, se tiene una estimaci6n puntual de 11, que es x. (Resultaria uti} obtenerun intervalo en tomo a esta estimaci611 puntual de Il? La respuesta es S1. Suponga
    • 6.2 INTERVALO DE CONFIANZA PARA LA MEDIA DE UNAPOBLACION 155a/2 a/2,"FIGUR4 6.2.1 Intervalo de confianza de 95 por dento para !l.que se forman intervalos a partir de todos los valores posibles de x cakulados apartir de todas las niuestras posibles de tamafio n de la poblacion de interes. De esaforma se tendrfa un gran numerode intervalos de la forma x±2crx con amplitu­des todas igtiales a la del intervalo en torno a lall desconocida. Aproximadamente95 por ciento de estos intervalos tendria centros que caen dentro del intervalo ±2crxen torno a 11. Cada uno de estos intervalos que caen dentro de 2cr, en torno a 11pueden contener ala misma 11. Estas ideas se muestran en la figura 6.2.1. En dichafigura se observa que xl XiY x4 caen dentro del intervalo 2cr, en torno allY, enconsecuencia, los intervalos, 2cr, alrededor de las medias de la muestra induyen elvalor de IJ.. Las medias muestrales y Xs no caen derttro del intervalo 2cr;; entorno a IJ., y los intervalos de 2crx en torno a ellas n.o incluyen a IJ..FJElIPLO 6.2.1Suponga que un investigador, interesado en obtener una estimacion del nivel prome­dio de alguna enzima en cierta poblacion de seres humano, toma una muestra de 10individuos, determina elnivel de la enzima en cada uno de elIos, y calcula la media dela muestra x 22. Ademas, que lavariable de interes sigue una distribucion aproxima­damente normal, con una variancia de 45. Se desea estimar el valor de 11.Solucion: Un intervalo de confianza de aproximadamente 95 por dento para 11esta dado por:x±2cr,22±2 Gi/1022 ±2(2.1213)17.76,26.24•
    • 156 CAPITULO 6 ESTIMACIONComponentes para la estimaciOn del intervalo Examine la composi­cion para la estimacion del intervalo elaborada en el ejemplo 6.2.1. Este contieneen su centro la estimacion puntual para 11. Se identifica a 2 como un valor de ladistribucion normal estandar que indica a cuantos errores estandar estan aproxi­madamente 95 por ciento de los valores posibles de x. Este valor de Z se conocecomo coeficiente de confiabilidad. EI ultimo componente, (ix es el error estandar 0desviacion estandar, de la distribucion muestral de x. En general, una estimacionpor intervalos se expresa como sigue:estimador ± (coeficiente de confiabilidad) x (error estandar) (6.2.1)En particular, cuando el muestreo se realiza a partir de una distribucion nor­mal con variancia conocida, una estimacion por intervalos para Jl se expresa como:donde z(l_<1/2) es el valor de Z a la izquierda de donde esta 1 rtJ2 y ala derecha enque se encuentra rtJ2 del area bajo la curva.Interpretacion del intervalo de conftaru;a .~Como se interpreta el inter­valo de la ecuacion 6.2.2? En este ejemplo, donde el coeficiente de confiabilidad esigual a 2, se dice que, al repetirel muestreo, aproximadamente 95 por ciento de losintervalos construidos mediantela formula 6.2.2 induyen la media de la poblacion.Esta interpretacion se basa en la probabilidad de ocurrencia de diferentes valores dex. Es posible generalizar esta interpretacion si se designael area total b<tio la curvade x, que queda fuera del intervalo Jl ± 2(ix como ex y eIarea dentro del intervalocomo 1 - ex y dar la siguiente interpretaciOn probabilistica. de la formula 6.2.2.Interpretaci6n probabilisticaEn el muestreo repetido, de una poblaci6n condistribuci6n normal y desviaci6n estdndaf·conocida 100(1-a) por ciento de todos los intervalos de laforma X± Z(I_amOx incluyena la larga la media de la poblaci6n 11. .Ala cantidad 1 - (X, en este caso .95,se Ie conoce como eoeficiente (0 nivel) deconjianza, y al intervalo X±Z(1_"12)(ix se Ie conoce comointervalo de conjianza para Jl.Cuando (1 ex) =.95, al intervalo se Ie llama intervalo de confianza de 95 por cientopara Jl. En este ejemplo, se dice que existe 95 por ciento de confianza d~ que la mediade Ia poblacion este entre 17.76 y 26.24. A esto se Ie llama interpretacion practica de laformula 6.2.2. En general, se puede expresar de la siguiente manera:Interpretaci6n practicaCuando se hace un muestreo a partir de poblaciones que siguen una distribuci6n normaly con desviaci6n estdndar conocida, existe un 100(1 - a) por ciento de confianza de queel intervalo calculado x± z(l_aI2)Ox contiene la media de la poblaci6n Jl.
    • 6.2 INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACION 157En el ejemplo 6.2.1 es preferible, en lugar de 2,un valor mas exacto para z,1.96, que corresponde al coeficiente de confianza de.95. Los investigadores pue­den utilizar cualquier coeficiente de confianza;los mas utilizados son .90, .95 Y.99,a los .cuales se asocian factores de confiabilidad, de 1.645, 1.96 Y2.58, respectiva­mente.. Precision A la cantidad que se obtiene al multiplicar el factor de confiabilidadpor el error estandar de la media se Ie llama precision de la estimaci6n. Tambien, seIe llama margen de error.EJEMPLO 6.2.2Un fisioterapeuta desea estimar, con 99 por ciento de confianza, la media de fuerzamaxima de un musculo particular en cierto grupo de individuos. Se inc1ina a supo­ner que los valores de dicha fuerza muestran una distribucion aproximadamentenormal con una variancia de 144. Una muestra de 15 individuos que participaronen el experimento presento una media de 84.3.Soluci6n: En latabla D, el valor para z que corresponde a un coeficiente de con­fianza de .99 es 2.58. Este es el coeficiente de confiabilidad. El errorestandar es de ax 12/.fl5 =3.0984. Por 10 tanto, el intervalo de con­fianza de 99 por ciento para ~ es:84.3 ±2,58(3.0984)84.3 ± 8.076.3,92.3Se dice que se tiene 99 por ciento de confianza de que la media de lapoblacion este entre 76.3 y 92.3, porque al repetirel muestreo, 99 porciento de todos los intervalos que pueden construirse en la forma descri­ta, inc1uyen a la media de la poblacion. •Situaciones en las que la variable de interes sigue una distribucion aproximada­mentenormal con una variancia conocida son muy raras, y casi nunca se presentanen la practica. El prop6sito de los ejemplos anteriores en los que se supone queexiste esta condici6n ideal, fue el de formar las bases teoricas para construir inter­valos de confianza para las medias de la poblacion. En la mayorf;! de los casospracticos las variables no siguen una distribuci6n aproximadamente normal 0 no seconocen las variancias de la poblaci6n 0 suceden ambas cosas. En el ejemplo 6.2.3y en la secci6n 6.3 se explican los procedimientos que se utilizan en situacionesmenos ideales, pero mas comunes.Muestreo a partir de pobluciunes que nopresenlan una distribucionnormal No siempre es posible 0 prudente suponer que la poblaci6n de interes mues­tra una distribuci6n normal. Gracias al teOl"ema del limite central, esto no sera unproblema si se puede seleccionar una muestra 10 suficientemente grande. Se ha dichoque, para muestras grandes, la distribucion muestral de Xi presenta una distribuci6naproximadamente normal sin importar como esta distribuida la poblacion original.
    • 158 CAPiTULO 6 ESTIMACIONEJEMPLO 6.2.3Un equipo de investigadores esta interesado en la puntualidad de los pacientes en lascitas concertadas. En un estudio de flqjo depacientes en los consultorios de medicosgenerales se encontr6 que una muestra de 35 pacientes llegaba 17.2 minutos tarde alas citas, en promedio. Una investigaci6n previa habia demostrado que la desviaci6nestandar era de 8 minutos aproximadamente. Se tuvo la sensaci6n de que la distribu­ci6n de la poblaci6n no era normal. ~Cual es el intervalo de confianza de 90 porciento para 11, que es el promedio real de impuntualidad en las citas?Soluci6n: Dado que el tamafio de la muestra es bastante grande (mayor que 30) yse conoce la desviaci6n estandar de la poblaci6n, la situaci6n se aproxi­rna al teorema del limite central y se supone que la distribuci6n muestralde xpresenta una distribud6n aproximadamente normal. AI consultarla tabla D se encuentra que el coeficiente de confiabilidad que correspon­de a uri coeficiente de confianza de .90se aproxima a 1.645 si se interpola.El error estandar es de C5;z 8/-/35 1.3522, de modo que el intervalode confianza de 90 por ciento para 11 es17.2 ± 1.645(1:3522)17.2 ±2.215.0, 19.4.•Con frecuencia, cuando la muestra es 10 suficientemente grande para aplicar elteorema dellfmite central, la variancia de la poblacion se desconoce. En ese caso, sesustituye esta variancia conla de la muestra en la f6rmula para construir el interva­10 de confianza para la media de la poblacion.Andlisispor computadora Cuando se requiere de los intervalos de confianza,. se economiza una buena cantidad de tiempo mediante el uso de una computadora, lacual puede ser programada para construir los intervalos de datos no procesados.EJEMPLO 6.2.4Los siguientes datos corresponden a los valores de la actividad (micromoles porminuto por gramo de tejido) de cierta enzima medida en el tejido gastrico normalde 35 pacientes con carcinoma gastrico. ..::;60 1.189 .614 .788 .273 2.464 .5711.827 .537 .374 .449 .262 .448 .971.372 .898 .411 .348 1.925 .550 .622.610 .319 .406 .413 .767 .385 .674.521 .603 .533 .662 1.177 .307 1.499 .Mediante el uso del paquete de software para computadora MINITAB, se preten­de construirun intervalo de confianza de 95 por ciento para la media de la pobla­cion. Suponga que la variancia de la poblaci6n es iguala .36. No es necesariosuponer que la poblaci6n muestreada de valores sigue una distribuci6n normalporque el tamafio de la muestra es losuficientemente grande par:a aplicar el teore­rna del limite central.
    • 1596.2 INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACIONCaja de dialogo: Comandos de la sesi6n:Stat> Basic Statistics> 1-Sample z MTB > ZINTERVAl 95 .6 C1Teclear Cl en Variables. Se1ecdonar Confidence intervaly teclear 95 en la caja de texto. Teclear.6 en Sigma. ClicOK. .Resultados:Confidence IntervalsThe assumed sigma = 0.600VariableMicMolesN35Mean0.718StDev0.511SE Mean0.10195.0 % C.r.(0.519, 0.917)FIGURA 6.2.2 Procedimiento del paquete MINITAB para construir un intrevalo de con­fianza de 95 por ciento para la media de la poblacion, ejemplo 6.2.4.Solucion: Se introducen los datos en lacolumna 1 y se procede como se muestraen la figura 6.2.2. Estas instrucdones indican a la computadora quee1 factor de confiabilidad es z, que se necesita unintervalo de con­fianza de 95 por dento, que la desviaci6n estandarde la poblaci6n esde .6, y que los datos estan en la columna 1. El resultado indica que lamedia de la muestra es .718, la desviad6n estanda.r es .511 y e1 errorestandar de la media, a/f,;" es .6/.J35 .101.Se tiene 95 pordento ·de confianza de que la media de la pobla­ci6n se encuentra entre .519y ;917. . •Puede obtenerse los intervalos de confianza a traves de otros paquetes de sofuvare.Por ejemplo, SAS®, puede construir intervalos de confianza a traves de PROC MEANSo PROC UNIVARIATE.Otras eslimaciones de La tendencia central Tal como se ha visto, la me­dia es muy sensible a los valores extremos, es dedr, aquellos que se desvfan conside­rablemente de la mayorfa de las mediciones en el conjunto de datos. A dichos valoresse les conoce como sesgos. Tambien se puede apreciar que lamediana, que no essensible a las mediciones extremas, algunas veces se utiliza en lugar de la mediacomo medida de tendenda central cuando los sesgos estan presentes. Por la mis­rna raz6n, quiza se prefiera el uso de la mediana de la muestra como·estimador dela r.nediana de la poblaci6n cuando se requiere realizar inferencias acerca de latendenda central de la poblaci6n. No solamente se utiliza la mediana de la muestra
    • 160 CAPITULO 6 ESTlMACIONcomo una estimacion puntual para la mediana de la poblacion, sino que tambien esposible construir un intervalo de confianza para la mediana de la poblacion. Enesta obra no se proporciona la formula, pero esta se puede encontrar en la obra deRice (1).Media ajustada Los estimadores que son insensibles a los sesgos se Hamanestimadores eficaces. Otra medida y estimador eficaz de tendencia central es la mediaajustada. Para un conjunto de datos que contiene n mediciones se calcula el 1000;por ciento de la media ajustada como sigue:1. Ordenar las mediciones.2. Descartar las mediciones mas pequeiias y mas grandes que 100a por cientode las mediciones. El valor recomendado para a esta entre .1 y .2.3. Calcular la media aritmetica de las mediciones restantes.Observe que la mediana podrfa considerarse como 50 por ciento de la media ajus­tada. Se debe recordar que la media ajustada para el conjunto de datos es una de lasmedidas descriptivas que puede calcular MINITAB.FJERCICIOSConstruya para cada uno de los siguientes ejercicios los intervalos de confianza al 90, 95 Y99por ciento para la media de la poblacion y establezca para cada uno la interpretacionprobabilistica y practica. Indique cualinterpretacion puede ser mas aderuada para utilizarruando se trata sobre intervalos de confianza con alguien que no conoce de estadfstica yestablezca eI razonamientode por que se eUgi6. Explique por que los tres intervalos notjenen la misma amplitud. Indique cual de los tres intervalos es preferible como estimadorde la media de la poblacion, y establezca el razonamiento de la elecci6n.6.2.1 Se pretende estimar el numero promedio de latidos del coraz6n por minuto para ciertapoblaci6n. Se encontr6 que el numero promedio de latidos por minuto para 49 personas erade YO. Considere que esos 49 pacientes constituyen una muestra aleatoria y que la poblacionsigue una distribucion normal, con una desviaci6n estandar de 10.6.2.2 Se pretende estimar la concentraci6n media de bilirrubina indirecta en el suero en nmos decuatro dias de nacidos. La media para una muestra de 16 ninos es de 5.98 mg/lOO cc. Con­siderese que la concentraci6n de bilirrubina en los ninos de cuatro dfas de nacidos sigue unadistribucion aproximadamente normal con una desviaci6n estandar de 3.5 mg/IOO cc.6.2.3 En un estudio acerca de la duraci6n de la hospitalizacion dirigido por vados hospitales encooperacion, se extrajo una muestra aleatoria de 64 individuos con ulcera peptica de la listade todos los pacientes con esa enfermedad internados alguna vez en los hospitales partici­pantes. Se determin6 para cada uno de eUos el tiempo de hospitalizaci6n. Se encontr6 que laduraci6n media de hospitalizaci6n fue de 8.25 dfas y se sabe que la desviaci6n estandar dela poblaci6n es de tres dfas.6.2.4 Una muestrade 100 hombres adultos aparentemente sanos, de 25 anos de edad, muestrauna presi6n sist61ica sangufnea media de 125. Considere que la desviaci6n estandar de lapoblaci6n es de 15.
    • 1616.3 DISTRIBUCI6N6.2.5 Algunos estudios acerca de la enfermedad Alzheimer (EA)han mostrado un incremento enla producci6n de 14C02en pacientes con ese padecimiento. Durante un estudio, se obtuvie­ron los siguientes valores de 14C02a partir de 16 biopsias de neocorteza de pacientes con laenfermedad (EA):1009 1280 1180 12551547 2352 1956 10801776 1767 1680 2050 1452 2857 3100 1621Considereseque la poblaci6n sigue una distribuci6n normal conuna desviaci6n estandar de 350.6.3 DISTRIBUCION tEn la seccion 6.2 se describe un procedimiento para obtener un intervalo de con­fianza para la media de una poblaci6n. EI procedimiento requiere del conodmientode la varianda de la poblacion de la que se extrae la muestra. Puede parecer untanto extrafio que se tenga conocimiento de lavariancia de la poblacion y no seconozca elvalor de la media de la poblacion. De hecho, es comun, en situacio­nes como las que se han presentado, que se deSconozca tanto la variancia como lamedia de la poblacion. Esta situacionpresenta un problema respecto a la construc­cion delos intervalos de confianza. Por ejemplo, aun cuando la estadfsticax J1­Z=---cr/.,Jnpresenta una distribudon normal cuando la poblacion tambien tiene una distribuci6nnormal y sigue una distribuci6naproximadamente normal cuando n es muy grande,independientemenle de la forma funcional de la poblacion, no se puede hacer uso deeste hecho porque cr se desconoce. Sin embargo, no todo esrn perdido y la soluci6nmas logica para este problema es utilizar la desviacion estandar de ~ muestras = ~L(Xi - x)2/(n-l)para sustituir cr. Por ejemplo, cuando el tamafio de la muestra es mayor que 30, laconfianza en s como una aproximacion de cr es por 10 general sustancial, por 10 quese justifica la utilizacion de la teorfa de la distribudon normal para construir unintervalo de confianza para la media de la poblacion. En tal caso, se procede comose indica en la seccion 6.2.Cuando se tienen muestras pequefias es imprescindible encontrar otro proce­dimiento para construir intervalos de confianza.Como resultado del trabajo de Gosset (2), escrito bajo el seudonimo de"Student", se dispone de otra alternativa, conocida como distribuci6n t de Student,con frecuenda abreviada como distribuci6n t.La cantidadsigue esta distribucion.
    • 162 CAPiTULO 6 ESTIMACIONPropiedades de la distribucion t La distribuci6n t tiene las siguientes pro­piedades:1. Tiene una media de O.2. Es simetrica con respecto a la media.3. En general, tiene una variancia mayor que 1, pero esta tiende a I a medidaque aumenta el tamaiio de la muestra. Para df> 2, la variancia de la distribu­ci6n t es dfl(df - 2), donde df representa los grados de libertad. En formaalterna, puesto que df n - 1 para n > 3, se puede escribir la variancia de ladistribuci6n t como (n l)/(n 3).4. La variable t va de - hasta + 00.DO5. La distribuci6n t es realmente una familia de distribuciones, puesto que hayuna distribuci6n diferente por cada valor de la muestra de n - 1, que es eldivisor que se utiliza para ca1cularS2. Recuerde que n - 1 representa los gradosde libertad. En la figura 6.3.1 se muestran las distribuciones t correspondien­tes a algunos valores de los grados de libertad.6. Comparada con la distribuci6n normal, la.distribuci6n t es menos espigadaen el centro y tiene colas mas largas. En la figura 6.3.2 se compara la distribu­ci6n t con la distribuci6n normal.7. La distribuci6n t se aproxima ala distribuci6n normal a medida que n - 1 seaproxima al infinito.La distribuci6n t, al igual quela distribuci6n normal estandar, se ha tabuladoampliamente. Una de estas tablas es la tabla E del apendice. Tal como se puedeapreciar, se debe tomar en cuenta eLcoeficiente de confianza y los grados de liber­tad cuando se utiliza la tabla de la distribuci6n t.FIGUR"- 6.3.1 Distribuci6n t para diferentes grados de libertad.
    • -----1636.3 DISTRIBUCION__ Distribucion normal- - - Dislribucion IxFIGURA 6.3.2 Comparaci6n de las distribuciones normal yt.Es posible utilizar el paquete MINITAB paragraficar la distribuci6n t (paragrados espedficos de libertad) y otras distribuciones. Despues de asignar el ejehorizontal y las siguientes direcciones en el cuadro de Set Patterned Data, seleccio­ne del menu "Calc" y despues "Probability Distributions". Utilice el cuadro de dia­logo Plot para generar la grafica.Inlervalos de conJiQll%iaqllR uJilban fa dislribucion t El procedimientogeneral para construir intervalos de confianza no se ve afectado por la necesidadde utilizar la distribuci6n t en lugar de la distribuci6n normal estandar. Aun esnecesario usar la relaci6n expresada por:estimador ± (coeficiente de confiabiIidad) x (error estandar)Lo que es diferente es el origen del coeficiente de confiabilidad. Este se obtiene apartir de la tabla de la distribucion t en lugar de la tabla de la distribuci6n normalestandar. Para ser mas especfficos, cuando se obtienen muestras a partir de una distribu­cion normal cuya desviaci6n estdndi17; a; se desconoce, ellOO(1 - a) por ciento del intervalode confianza para la media de la poblaci6n, J1, estd dado por:(6.3.1)Es importante aclarar que el requisito para el uso valido de la distribucion t es quela muestra debe ser extrafda de una poblad6n con distribucion normal. Sin embar­go, la experiencia ha demostrado que se pueden tolerar desviaciones moderadasde esterequisito. Como consecuencia, la distribucion t se utiliza incluso cuando sesabe que la poblaci6n original se desvia de la normalidad. L<.l mayorfa de los inves­tigadores requieren que, al menos, pueda sostenerse el supuesto de una distribu­d6n de poblacion en forma de montfculo.EJEMPLO 6.3.1Maureen McCauley (A-I) realiz6 un estudio paraevaluar los efectos de un conjuntode instrucciones de mecanica en ellugar de labores sobre el desempeno laboral deobrerosjovenes recientemente contratados. Se utilizaron dos grupos de individuoselegidos aleatoriamente; uno de los grupos para aplicar el experimento y el otro
    • 164 CAPITULO 6 ESTlMACI6Ncomo grupo de control. EI grupo con el que se experimento recibio una hora decapacitacion impartida por un terapeuta ocupacional. EI grupo de control no reci­bio esta capacitacion. Para evaluar el esfuerzo de cada obrero para levantar, bajar,jalar y transportar objetos dentro del entorno laboral, se utilizo una lista de cotejopara la evaluacion de trabajo mecanico que inclufa criterios de referencia. Unatarea bien hecha recibio una calificacion de 1. EI grupo de control, formado por 15individuos, alcanzo una calificacion media de 11.53 en la evaluacion, con una des­viacion estandar de 3.681. Se supone que el grupo de control se comporto comouna muestra aleatoria extraida de una poblacion similar de individuos. Se pretendeutilizar los datos de la muestra para estimar la calificacion media para la poblacion.Soluci6n: Se puede utilizar la media de la muestra, 11.53, como una estimacionpuntualde la media de la poblacion, sin embargo, debido a que se desco­noce la desviacion estandar de la poblacion, se debe considerar que losvalores siguen una distribucion aproximadamente normal antes de cons­truir los intervalos de confianza para /l. Se considera que esta suposiciones razonable y que se necesita un intervalo de confianza de ~or cien­to; el estimador es i y el error estandar es s/ -r;; 681/"15 =.9504.Ahora, es necesario conocer el coeficiente de confiabilidad, el valor de tasodado al coeficiente de confianza de .95 y a los n 1 = 14 grados delibertad. Puesto que el intervalo de confianza de 95 por ciento deja .05del area bajo la curva de t para dividirse en dos colas iguales, se necesitael valor de tala derecha del cual esta el .025 del area. Este valor selocaliza en la tabla E, enla columna encabezada por t.975• Este es el valorpara tala izquierda delcual esta .975 del area bajo la curva. EI area a laderechade este valor es igual al .025 deseado. Ahora, sobre la columna degrados de libertad se localiza el numero 14. EIvalor para t se encuentra enla interseccion del renglon con la etiqueta 14 y la columna con la etiquetat.975• Se encuentra que este valqr para t, que representa al coeficiente deconfiabilidad, es 2.1448. Finalmente, el intervalo de confianza de 95 porciento se construye como sigue:11.53 ±2.1448(.9504)11.53 ± 2.049.49, 13.57.•Este intervalo puede interpretarse con ambos puntos de vista: probabiHstico ypractico. Puede asegurarse, en un 95 por dento, que 1a media, /l, correcta de lapoblacion se encuentra entre 9.49 y 13.57, porque al repetir el muestreo, 95 pordento de los intervalos construidos deigual manera incluyen a /l.Decidir entre z :r t Cuando se obtiene un intervalo de confianza para lamedia de una poblacion, se debe decidir si se utiliza un valor de z6 de t como factorde confiabilidad. Para hacer una elecci6n adecuada, se debe considerar el tamafto dela muestra, si la poblacion muestreada sigue una distribucion normal y si la varianciade la poblacion es conocida. La figura 6.3.3 muestra un diagrama de flujo que sepuede utilizar para decidir rapidamente si el factor de confiabilidad debe ser Z 0 t.
    • EJERCICIOS 165EJERCICIOS Sa aplica al leorema dellfmile centralFIGURA 6.3.3 Diagrama de flujo para deddir entre utililizar z y t cuando se haganinferencias respecto a las medias de la poblaci6n. (*Para utilizar un procedimiento noparametrico vease el capitulo 13.)Analisis par computadara Si el proposito es construir un intervalo de con­fianza con el programa MINITAB para la media de la poblacion cuando el estadfs­tico t es el factor de confiabilidad adecuado, el comando se inicia con la palabraTINTERVAL. Seleccione en Windows I-Sample t desde el menu de Basic Statistics.6.3.1 Utilice la distribud6n t para encontrar el factor de confiabilidad para el intervalo de confian­za basado en los siguientes coeficientes de confianza y tamafiosde las muestras.a b c dCoefidente de confianza .95 .99 .90 .95 Tamafio de la muestra 15 24 8 30 6.3.2 En una investigacion acerca de la dependencia del flujo y volumen de todo el sistema respi­ratorio en un grupo de pacientes con enfermedad obstructiva pulmonar cronica, conectadosa respiradores artificiales, Tantucci et ai. (A-2) registraron los siguientes valores de linea de
    • 166 CAPITULO 6 ESTIMACIONbase del flUjD continuo. inspiratDriD (Us): .90, .97, 1.03,1.10, 1.04, 1.00. CDnsidere que unamuestra aleatDria simple esta cDnfDrmada pDr seis individuDs a partir de una pDblacion que.sigue una distribuci6n nDrmal, CDn individuDs CDn la misma enfermedad.a) ~Cuat es la estimaci6n puntual de la media de la pDblaci6n?b) ~Cu;:il es la desviacion estandar de la muestra?c) ~Cu<l.l es la estimacion del error estandar para la media de la muestra?d) CDnstruya un intervalD de cDnfianza de 95 pDr ciento para el flUjD mediD cDntinuD inspi­ratDriD de la pDblaci6n.e) ~Cual es la precision de la estimacion?f) Explique la interpretaci6n prDbabilistica para este intervalD de confianza.g) Explique la interpretacion practica para este intervalD de cDnfianza.6.3.3 LlDyd y MaillDux (A-3) informaron IDS siguientes datDs acerca del peso. de la glandula pituitariaen una muestra de cuatrD ratas de Wistar Furth:media = 9.0 mg, error estandar para la media = .3FUEJ;.TE: Ricardo V Lloyd yJoe Mailloux, "Analysis ofS­100 Protein Positive Folliculo Stellate Cells in Rat PituitaryTissues", AmericanJournal ofPathology, 133, 338-346.a) ~Cual es la desviadon estandar de la muestra?b) CDnstruya un intervalD de confianza de 95 pDr ciento para el peso medio de la glandulapituitaria para una pDblacion similar de ratas.c) ~Que supDsiciDnes se necesitan para que sea validD el intervalo de cDnfianza del inciso b?d) ~Que interpretacion puede ser la mas indicada cuandD se trata sDbre intervalos de con­fianzacon alguien que no. sabe de estadfstica? Explique pDrque es la mas cDnveniente.e) 5i fuera necesario elabDrar un intervalD de cDnfianza de 90 pDr cientD para la media de lapDblaci6n, ~el intervalD de cDnfianza serta mayDr 0. menor que el intervalD de 95 pDr dentD?Explique su respuesta sin construir realmente el intervalD de cDnfianza.f) 5i [uera necesariD considerar un intervalo de CDnfianza de 99 pDr cientDpara lamedia dela poblacion, ~el intervalo de cDnfianza serra mayDr 0 menDr que el intervalD de 95 pDrdentD? Explique su respuesta sin cDnstruir realmentt; el intervalD de cDnfianza.6.3.4 Kaminski y Rechberger (A-4) encontrarDn en un estudio sDbre la preeclampsia que la mediade la presi6n sistolica sangufnea en 10 mujeres sanas y que no estan embarazadas es de 119,CDn una desviacion estandar de 2.1.a) 2Cual es el errDr estandar estimadD para la media?b) CDnstruya un intervalD de confianza de 99 pDr cientD para la media de la poblaci6n apartir de la cual puede considerarse que IDS 10 individuos conforman una muestra aleatoria.c) ~CUlil es la precisi6n estimada?d) ~Que consideraciones deben hacerse para comprobar la validez del intervalo de confiahza?6.3.5 Unamuestra de 16nifias de 10 afiDS pesan en promediD 71.5, con una desviacion estandarde 12libras. CDnsidere el calculD de intervalDs de cDnfianza de 90,95 y 99 pDr ciento para I-L
    • 1676.4 INTERVALO DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS MEDIAS6.3.6 Una muestra aleatoria simple conformada por 16 individuos aparentemente sanos presentalos siguientes valores de arsenico eliminado en la orina (miligramos por dfa).Individuo Valor Individuo Valor1 .007 9 .0122 .030 10 .0063 .025 11 .0104 .008 12 .0325 .030 13 .0066 .038 14 .0097 .007 15 .0148 .005 16 .011Elabore un intervalo de confianza de 95 por ciento para la media de la poblaci6n.6.4 INTERVALO DE CONFIANZA PARALA DIFERENCIA ENTRE DOS MEDIASPOBLACIONALESEn ocasiones se presentan casos en los que se desea estimar 1a diferencia entre 1amedia de dos poblaciones. A partir de cada poblacion se extrae una muestra aleatoriaindependiente y de los datos de cada una se calculan las medias muestrales XI y x2 respectivamente. En el capitulo anterior se dijo que el estimador XI - x2 ofreceuna estimacion insesgada de la diferencia entre las medias de las poblaciones, III ­112 • La variancia del estimador es (cr~ / nl) + (cr~ /n2). Tambien se menciono que,seglin las condiciones, la distribucion muestral de XI - x2puede presentar unadistribution al menos aproximadamente normal, de modo que en muchos casos seutiliza la teorfa adecuada para las distribuciones normales en el calculo de un inter­valo de confianza para III - 112• Cuando se conocen las variancias de la poblacion,el intervalo de confianza del 100(1 - ex) por ciento para III - 112 esta dado por(6.4.1)El analisis del intervalo de confianza para la diferencia entre las medias poblacionalesofrece informacion util para decidir si es 0 no probable que las medias de las dospoblaciones sean iguales. Cuando el intervalo no incluye al cero, se dice que elintervalo ofrece evidencia de que las dos poblaciones tienen medias diferentes.Cuando el intervalo incluye al cero, se dice que las poblaciones pueden tener me­dias iguales.Esto se ilustra a continuacion, para el caso donde el muestreo se realiza apartir de una distribucion normal.
    • 168 CAPITULO 6 ESTlMACI6NE;JEMPLO 6.4.1A un equipo de investigacion Ie interesa conocer la diferencia entre las concentracio­nes de acido urico en pacientes con y sin el sfndrome de Down. En un gran hospitalpara el tratamiento de pacientes con retardo mental, una muestra de 12 individuoscon el sindrome presenta una media de XI = 4.5 mgll00 mL En un hospital generalse encontro que una muestra de 15 individuos normales de la misma edad y sexopresenta un nivel medio de x2= 3.4. Si es razonable suponer que las dos poblacionesde valores muestran una distribucion normal y sus variancias son iguales a 1 y 1.5,calcule el intervalo de confianza de 95 por ciento para ~l - ~2Soluci6n: Para una estimacion puntual de III 112 se udliza Xl X2= 4.5 3.41.1. EI coeficiente de confiabilidad que corresponde a .95, localizado enla tabla D, es 1.96. EI error estandar esPor 10 tanto, el intervalo de confianza de 95 por ciento es1.1 ± 1.96(.4282)1.1±.84.26, 1.94Se dice que se dene una confianza de 95 por ciento de que la dife­rencia real, 111 - 112 este entre .26 y 1.94, porque en muestreos repetidos95 por ciento de los intervalos construidos de esa manera incluiria ladiferencia entre las medias reales.Puesto que el intervalo no incluye al cero, se concluye que las dospoblaciones tienen diferentes medias. •Muestreo a partir de poblaciones que no signen una distribuci6nItOrmal La construccion de un intervalo de confianza para la diferencia entre lasmedias de dos poblaciones, cuando el muestreo se realiza a partir de poblaciones nonormales, se lleva a cabo en la forma descrita en el ejemplo 6.4.1 si las muestras nly n2son grandes. Una vez mas, este es un resultado del teorema del limite central.Si se desconocen las variancias de la poblacion, se utilizan las variancias de lasmuestras para estimarlas.IUEMPLO 6.4.2Motivados por d conocimiento de la existencia de una gran cantidad de textospolemicos que sugieren que el estres, la ansiedad y la depresion son dafiinos para elsistema inmunologico, Gormanet ai. (4-5) condujeron un estudio en el que se con­sider6 a individuos varoneshomosexuales, algunos con VIH (virus de inmunodefi­ciencia humana) positivo y otros con VIH negativo. Los datos fueron registradoscon una amplia v<J.riedad de mediciones medicas, inmunologicas, psiquiatricas yneurol6gicas, una de las cuales corresponde al numero de celulas CD4+ en la san­
    • 6.4 INTERVALO DE CONFIANZA PAHALA DIFERENCIA ENTRE DOS MEDIAS 169gre. El numero promedio de celulas CD4+ para·112 individuos con infecci6n porVIR fue de 401.8 con una desviaci6n estandar de 226.4. Para los 75 individuos sinla infecci6n por VIR, la media y la desviaci6n estandar fueron de 828.2 y 274.9,respectivamente. Se pretende elaborar un intervalo de confianza de 99 por cientopara la diferencia de las medias de las poblaciones.Soluci6n: No hay informaci6n con respecto a la forma de la distribuci6n de lascelulas CD4+. Sin embargo, como el tamafto de las muestras es grande,el teorema del limite central asegura que la distribuci6n muestral de lasdiferencias entre las medias de la muestra siguen una distribuci6n aproxi­madamente normal, independientemente de que la distribuci6n de lavariable en las poblaciones no siga una distribuci6n normal. Se puedeutilizar este hecho para justificar el uso de la estadistica z como factorde confiabilidad en la construcci6n del intervalo de confianza. Tampocohay informaci6n acerca de las desviaciones estandar, por 10 que puedeemplearse las desviaciones estandar de las muestras para estimarlas. Laestimaci6n puntual para la diferencia entre las medias de las poblacio­nes es la diferencia entre las medias de las muestras, 828.2 - 401.8 =426.4. En la tabla D se encuentra que el factor de confiabilidad es 2.58.La estimaci6n del error estandar es .s __ = 274.92+ 226.42=38.2786Xl-X, 75 112Por la ecuaci6n 6.4.1 el intervalo de confianza de 99 por ciento para la diferenciaentre las medias de la poblaci6n es426.4 ± 2.58(38.2786)327.6, 525.2Se tiene la seguridad de 99 por ciento de que el promedio de celulasCD4+ en varones con VIR positivo difieren de la media para los varo­nes con VIR negativo por 327.6 a 525.2. •Distribuci6n t y la diferencia entre las medias Cuando no se conocenlas variancias y se pretende estimar la diferencia entre las medias de dos poblacio­nes con un intervalo de confianza, es posible utilizar la distribuci6n t para suminis­trar el factor de confiabilidad si se conocen ciertas suposiciones: se debe saber, 0suponer de buena fe, que las dos poblaciones muestreadas siguen una distribuci6nnormal. Respecto a las variancias de las poblaciones, se debe distinguir entre dossituaciones: 1) la situaci6n en la que las variancias son iguales y 2) la situaci6n en laque no 10 son. A continuaci6n se consideranambas sitp.aciones por separado.Varianciaspoblacifmales iguales Si la suposici6n sobre igualdad de lasvariancias de las poblaciones esta justificada, las dos variancias de las muestrascalculadas a partir de las muestras independientes pueden considerarse como esti­maciones de 10 mismo, es decir, la variancia comun. Parece 16gico, entonces, apro­vechar este hecho en el analisis en cuesti6n. Esto es precisamente 10 que se hacepara establecer una estimaci6n conjunta para la variancia comun. Esta variancia seobtiene mediante el caIculo promedio ponderado de las dos variancias de las mues­
    • 170 CAPITULO 6 ESTlMACI6Ntras. Cada variancia de la muestra es ponderada con base en sus grados de libertad.Si los tamafios de las muestras son iguales, este promedio ponderado es la mediaaritmetica de las variancias de las dos muestras. Si el tamano de las dos muestras esdistinto, el promedio ponderado aprovecha la informacion adicional proporcionadapor la muestra mayor. La estimacion conjunta se obtiene con la fOrmula:S2 = (nl _1)SI2 +(n2 l)s~p (6.4.2)+n2 -2nlAsf la estimacion del error estandar esta dada por:(6.4.3)y el intervalo de confianza de 100(1 a) por ciento para III 112 esta dada por:(6.4.4) El nfunero de grados de libertad utilizado para determinar el valor de t que se usapara construir el intervalo es n1+ n22, que es el denominador de la ecuacion6.4.2. Este intervalo se interpreta en la forma habitual.Los metodos que pueden emplearse para tomar la decision acerca de la igual­dad de las variancias de las poblaciones se estudian en la seccion 6.10 y 7.8.EJEMPLO 6.4.3Uno de los estudios de Stone et al. (A-6) tuvo como objetivo determinar los efectosdel ejercicio por un tiempo prolongado en los ejecutivos de una compania inscritos enun programa supervisado de acondicionamiento fisico. Se registraron datos de 13individuos (el grupo deportista) que voluntariamente se inscribieronel programa yque permanecieron activos por 13 anos en promedio, y de 17 individuos (el segun­do grupo, el sedentario) que decidieron no inscribirse. Entre los datos que se regis­traron acerca de los individuos esta el mlmero maximo de sentadillas realizadas en30 segundos. El grupo deportista obtuvo una media y una desviacion estandar de21.0 y 4.9, respectivamente. La media y la desviacion estandar para el grupo seden­tario fueron 12.1 y 5.6, respectivamente. Se considera que las dos poblaciones de mediciones de acondicionamiento muscular siguen una distribuci6n aproxirnada­mente normal, y que las variancias para ambas poblacionesson iguales. Se preten­de elaborar un intervalo de confianza de 95 por ciento para Ja diferencia entre las medias de !as poblaciones representadas por las dos muestras. Soluci6n: Primero, se utiliza la ecuaci6n 6.4.2 para ca.lcular la estimaci6n conjunta de la variancia comtin de las poblaciones.(13-1)(4.92)+(17 1)(5.62) =28.2113+17-2Cuando se consulta la tabla E con 13 + 17 - 2= 28 grados de libertad yel nivel de confianza de .95, se encuentra que eLfactor de confiabilidades 2.0484. Con la ecuacion 6.4.4 se calcula el intervalo de confianza de
    • 6.4 INTERVALO DE CONFIANZA PARA LA DIFERENCIA ENTRE DOS MEDIAS 17195 por ciento para la diferencia entre las medias de las poblaciones de lasiguiente manera:28.21 28.21(21.0-12.1)±2.0484 --+-­13 178.9 ± 4.00854.9,12.9Se tiene una confianza de 95 por ciento de que la diferencia entre lasmedias de las poblaciones estan entre 4.9 y 12.9. Se puede decir estoporque se sabe quesi se repite el amilisis muchfsimas veces y se calculanlos intervalos de confianza de la misma manera, cerca de 95 por cientode los intervalos de confianza induiran la diferencia entre las medias delas poblaciones.Debido a que los intervalos no induyen al cero,se conduye que lasmedias de las poblaciones son diferentes. •Variancias poblacionales distintas Cuando no se puede conduir que lasvariancias de dos poblaciones de interes son iguales, aun ruando pueda suponerseque las dos poblaciones presentan distribuciones normales, no es adecuado utilizar ladistribucion t como se acaba de describir para construir los intervalos de confianza.Una solucion al problema de variancias distintas fue propuesta por Behrens(3) y posteriormente fue verificada y generalizada por Fisher (4, 5). Neyman (6),Scheffe (7, 8) YWelch (9, 10) tambien proponen soluciones. EI problema es analiza­do en detalle por Cochran (11).EI problema gira en tomo al hecho de que la cantidadno sigue una distribuci6n t con nj + n 2 grados de libertad ruando las variancias2­de las poblaciones son distintas. Consecuentemente, la distribucion t no se puedeutilizar en la forma habitual pata obtener el factor de confiabilidad del intervalo deconfianza para la diferencia entre las medias de dos poblaciones que tienen varianciasdiferentes. La solucion propuesta por Cochran consiste en el calculo del factor deconfiabilidad, mediante la siguiente formula:wltj +w2tZtlf.-0f2 = (6.4.5)WI +w2donde, WI 512/ np W 2 = s~ / n2 , tl = tl _ para nj - 1 grados de libertad, y t2 = tl_w2aI2 ,para n2- 1 grados de libertad. Un intervalo aproximado de confianza del 100(1 ­a) por ciento para III - 112 esta dado por(6.4.6)
    • 172EJERCICIOS CAPITULO 6 ESTlMACIONFJEIUPLO 6.4.4En la investigacion de Stone et al. (A-6), descrita en el ejercicio 6.4.3, los investiga­dores tambien informaron los siguientes datos de las mediciones referentes a todaslas calificaciones del acondicionamiento muscular logradas por los individuos:Muestra n Media Desviaci6n estimdarGrupo deportista 13 4.5 .3 Grupo sedentario 17 3.7 1.0 Se considera que las dos poblaciones de todas las calificaciones de acondiciona­miento muscular siguen una distribuci6n aproximadamente normal. Sin embargo,no debe suponerse que las dos variancias poblacionales son iguales. Se pretendeconstruir un intervalo de confianza de 95 por ciento para la diferencia entre lasmedias de todas las calificaciones de acondicionamiento muscular para las dos po­blaciones representadas por las muestras.Soluci6n: Se utiliza t de la ecuaci6n 6.4.5 para calcular el factor de confiabilidad.En la tabla E se muestra que con 12 grados de libertad y 1 - .05/2 =.975, t( 2.1788. Analogamente, con 16 grados de libertad y 1- .05/2 =.975, t2 = 2.1199. Ahora Sf calcula(.32/13)(2.1788) + (1.02/17)(2.1199) .139784t= . . =(.32/13)+(1.02/17) .065747=2.1261Con la ecuaci6n 6.4.6, ahora se construye el intervalo de confianza de95 por ciento para la diferencia entre las medias de las dos poblaciones.2 2(4.5 3.7)±2.1261 .3 + 1.013 17.8 ± 2.1261 (.25641101).25,1.34Puesto que el intervalo no incluye acero, se concluye que las medias delas dos poblaciones son diferentes. •Cuando se construyen intervalos de confianza para la diferencia entre lasmedias de dos poblaciones, es posible utilizar la figura 6.4.1 para decidir rapida­mente si el factor de confiabilidad debe ser z, t 0 tf.Para cada uno de los siguientes ejercicios construya intervalos de confianza de 90, 95 y 99par ciento para las diferencias entre las medias poblacionales. Establezca consideracionesque hagan que el metodo seavalido. Determine las interpretaciones practica y probabilistica
    • clJ clJFIGURA 5.4.1 Diagrama de flujo para decidir si e1 factor de confiabilidad debe ser z, tot cuando se realizan inferencia inferencias acercade la diferencia entre las medias de dos pobladones. (*Para usar un procedimiento no parametrico, ver el capitulo 11.)
    • 174 CAPiTULO 6 ESTlMACIONpara cada intervalo construido. Suponga las variables bajo considerati6n en cada ejercicio yestablezca para que pueden servir a los investigadores esos resultados.6.4.1 EI objetivo de un experimento de Buckner et al. (A-7) consisti6 en estudiar los efectos delrelajamiento muscular inducido por el pancuronium en el volumen del plasma circulante.Los individuos estudiados son recien nacidos con un peso mayor a 1700 gramos, que necesi­taron de ayuda para respirar durante las primeras 24 horas despues de nacer y cumplieroncon otros criterios cHnicos. Cinco recien nacidos paraIizados con el pancuronium y sieterecien nacidos no tratados presentaron las siguientes estadisticas en la segunda de las tresmediciones del volumen de plasma (ml) hecha durante la respiraci6n mecanica.Paralizados 48.0. 8.1 No tratados 56.7 8.1 La segunda medici6n, para el grupo tratado, ocurri6 de 12 a 24 horas despues de la primeradosis de pancuronium. Para el grupo no tratado, las mediciones se hicieron de 12 a 24 horasdespues de iniciar la respiracion mecanica.6.4.2 Zuckery Archer (A-8) afirman que la N-nitrosobis (2-oxopropyl)amina (BOP) y las nitrosaminas/3-oxidizadas producen una alta incidencia de tumores de conductos pancreaticos en elhamster dorado sirio. Estudiaron los efectos en el peso sangufneo, en la glucosa del plasma,en la insulina yen los niveles de transamina glutamico-oxaloacetica del plasma (GOT) de loshamsters expuestos in vivo a la BOP. Los investigadores reportaron los siguientes resultadosen ocho animales tratados y 12 sin tratamiento:Variable Sin tratamiento Con tratamientoGlucosa del plasma (mglgl) 101 ± 5 74± 6FUENTE: Peter F. Zucker y Michael C. Archer, "Alterations Pancreatic Islet FunctionProduced by Carcinogenic Nitrosamines in the Syrian Hamster", AmericanJournalo/Pathology, 133, 573-577.Los datos son la media de la muestra ± la estimaci6n del error estandar de la media de lamuestra.6.4.3 Los objetivos de un estudio de Davis et al. (A-g) son evaluar 1) la eficacia del programa autoayuda "momento para dejar de fumar" cuando se utiliza con base de uno a uno en el hogar,y 2) la viabilidad de ensefiar temicas para abandonar el habito de fumar a los estudiantes deenfermerfa en bachillerato. A estudiantes graduados de enfermerfa inscritos en dos cursosde metodologia de la investigacion, de la Universidad de Ottawa, se les invit6 a participar enel proyecto. Se aplic6 un cuestionario de opcion multiple para abandonar el habito de fumara 120 estudiantes de enfermeria que participaron y a otros 42 estudiantes que no participa­ron antes ni despues del estudio. Se calcularon las diferencias entre las calificaciones antes ydespues del estudio, as! como las siguientes estadisticas a partir de las diferencias:
    • EJERCICIOS 175Grupo Media Desviaci6n estandarParticipantes (A) . 21.4444 15.392 No participantes (B) 3.3333 14.595 6.4.4 El doctor Ali Khraibi (A-IO), de la CHnica y Fundaci6n Mayo, condujo una serie de experi­mentos con el fin de evaluar las respuestas diureticas y natiureticas de ratas Okamoto espon­taneamente hipertensivas (REB) y ratas Wistar-Kyoto (WRY) para dirigir incrementos en lapresion hidrostatica renal intersticial (PBRI). Para aumentar la PBRI se utiIiz6 la expansi6ndirecta del volumen renal intersticial (DRIVE) a traves de una matriz implantada cronicamenteen el rinOn. Entre los datos registrados durante el estudio estan las siguientes mediciones deexcreci6n de sodio a traves de la orina (UNaV) durante el periodo de DRIVE:GrupoREB 6.32,5.72,7.96,4.83,5.27 2WKY 4.20,4.69,4.82, 1.08,2.10 FUENTE: Publicada con autorizaci6n del Dr. Ali A. Khraibi. 6.4.5 Osberg y Di Scala (A-II) realizaron un estudio centrado en la eficacia de los cinturones deseguridad para reducir 1esiones entre sobrevivientes de accidentes automoviHsticos interna­dos en hospitales, con edades de 4 a 14 afios. El estudio compar610s resultados de 123 ninosque utilizaron el cintur6n contra 290 que no 10 utilizaron entre aquellos que se vieton en­vueltos en tales accidentes y que fueron hospitalizados. El informe contenia la siguienteestadistica del numero de dfas en la unidad de cuidados intensivos:Grupo Media Error estandar estimadoUtiliz6 el cintur6n .83 .16 No utiliz6 el cintur6n 1.39 ..18 6.4.6 La medicion del diametro transversal del coraz6n de hombres y mujeres adultos presenta lossiguientes resultados:sxGrupo Tamafto de Ia muestra (cm) (cm)Varones 12 13.21 1.05 Mujeres 9 II.OO 1.01 Considere que las poblaciones siguen una distribucion normal con variancias iguales.
    • 176 CAPITULO 6 ESTIMACION6.4.7 Veintiruatro animales de laboratorio con deficiencia de vitamina D fueron divididos en dosgrupos iguales. EI grupo 1 recibi6 un tratamiento consistente en una dieta que proporciona­ba vitamina D. EI segundo grupo no fue tratado. AI termino del periodo experimental, semidieron las concentraciones de calcio ensuero, obteniendose los siguientes resultados:Grupo tratado: X 11.1 mg/ 100 ml,s = 1.5Grupo sin tratamiento: x= 7.8 mg / 100 ml, s = 2.0Considere que las poblaciones siguen una distribuci6n normal con variancias iguales.6.4.8 Ados grupos de nifios se les hicieron pruebas de agudeza vi~ual. El grupo 1 estuvo formadopor 11 nifios que recibieron la atenci6n de medicos privados. La calificaci6n media para estegrupo fue de 26 con una desviaci6n estandar de 5. El segundogrupo, que incluy6 14 nifiosque recibieron atenci6n medica por parte del departamento de salud publica, tuvo una cali­ficaci6n promedio de 21 con una desviaci6n estandar de 6. Suponga que las poblacionessiguen una distribuci6n normal con variancias iguales.6.4.9 El tiempo promedio de estancia de una muestra de 20 pacientes dados de alta de un hospitalgeneral es de siete dras, con una desviaci6n estaildar de dos dras. Una muestra de 24 paden­tes dados de alta de un hospital de enfermedades cr6nicas tuvo un tiempo promedio deestancia de 36 dfas con una desviaci6n estindar de 10 dias. Suponga que la poblaci6n sigueuna distribuci6n normal con variancias desiguales.6.4.10 En un estudio de factores que se consideran responsables de los efectos adversos del taba­quismo sobre la reproducci6n humana, se midieron los niveles de cadmio (nanogramos porgramo) en el tejido de la placenta de una muestra de 14 madres que fumaban y una muestraaleatoria independiente de 18 mujeres no fumadoras. Los resultados fueron los siguientes:No fumadoras: to.O, 8.4, 12.8,25.0, 11.8, 9.8, 12.5, 15.4, 23.5,9.4,25.1, 19.5,25.5,9.8,7.5, 11.8,12.2,15.0Fumadoras: 30.0,30.1,15.0,24.1,30.5,17.8,16.8,14.8,13.4,28.5, 17.5, 14.4, 12.5,20.4ms probable que el nivel medio de cadmio registrado sea mayor entre las fumadoras queentre las no fumadoras? ~Por que se llegarfa a esta conclusi6n?6.5 INTERVALO DE CONFIANZA PARAIA PROPORCION DE UNA POBIACIONMuchas preguntas de interes para que el tecnico en salud tienen relacion con lasproporciones de poblacion. ~Que propordon de padentes que redben un tipo espe­cial de tratamiento se recuperan? ~Que proporcion de alguna poblacion tiene ciertaenfermedad? ~Que propordon de una poblacion es inmune a derta enfermedad?Para estimar la proporcion de una poblacion se procede en la misma forma quecuando se estima la media de una poblacion. Se extrae una muestra de la poblacionde interes y se calcula su proporcion p. Esta se utiliza como el estimador puntualpara la proporcion de la pobladon. Un intervalo de confianza se obtiene mediantela siguiente formula general:estimador ± (coefidente de confiabilidad) X (error estandar)
    • EJERCICIOS EJERCICIOS 177En el capitulo anterior se vio que cuando np y n(1 - p) son mayores que 5, sepuede considerar que la distribuci6n muestral de pse aproxima bastante a unadistribuci6n normal. Cuando se cumple con esta condici6n, el coeficiente deconfiabilidad es algUn valor de z de la distribuci6n normal estandar. Esta visto queel error estandar es igual a (J p =.,fi(l-p)/ n. Puesto que p, que es el parametroque se trata de calcular, se desconoce. se debe utilizar pcomo una estimaci6n. Asf,se estima (J j; por medio de ~p(l":"P/n, y el intervalo de confianza de 100(1 - 0:.)por ciento para pesta dado por:p±Z(I-1J./2)~P(l- P) Fn (6.5.1)Este intervalo se interpreta tanto desde el punto de vista practico como probabilistico.FJEMPLO 6.5.1Mathers et al. (A-12) encontraron queen una muestra de 591 pacientes internadosen un hospital psiquiatrico, 204 admitieron que consuniieron marihuana al me­nos una vez durante su vida. Se pretende construir un intervalo de confianza de 95por ciento para la proporcion de individuos que consumieron marihuana durantesu vida en la poblaci6n muestreada de los internos del hospital psiquiatrico., . . ,Solucion: La mejor estima~i6n puntual para la proporci6Il de la poblaci6nes p==204/591 .3452: El tamafio de la muestray hiestimacion de ptienenuna magnitud suficiente parajustifK:ar el empleo de la distribucion nor­mal estandar paraelaborar un intervalo de confianza. EI coeficientede corifiabilidad que corresponde alnivel de confianza de .95 es 1.96 laestimacion del errorest:andar (Jp es ~p(l-p>/n =. (.3452)(.6548)/591.01956.El intervalo de confianza parap, de acuerdo con estos datos, es:.3452 ± 1.96(.01956) .3452 ± .0383 ..3069, .3835 Se puede decir que se tiene 95 por ciento de confianza de que la propor­cionpeste entre .3069 y .3835 ya que, al repetir el muestreo, casi 95 porciento de los intervalos construidos en la forma de este intervalo inclu­yen a la proporcion p real. Con base en estos resultados se espera, conuna confianza de 95 por ciento, encontrar que entre 30.69 y 38.35 porciento de los internados en el hospital psiquiatrico tiene antecedentesde consumo de marihuana. •Para cada uno de los siguientes ejercicios establezca la interpretacion prictica yprobabilisticade los intervalos que se pide construir. Identifique cada componente del intervalo: la estima­cion puntual, el coeficiente de confiabilidad yel error estandar., Explique por que los coefi­cientes de confiabilidad no son los misInos para todos los ejercicios.
    • 178 CAPITULO 6 ESTII:lACI6N6.5.1 En una investigaci6nde ninos maltratados en pacientes psiquiatricos, Brown y Anderson(A-IS) encontraron 166 pacientes en una muestra de 947, con antecedentes de abuso sexualy maltrato flsico. Construya un intervalo de confianza de 90 por dento para la proporci6n dela poblaci6n.6.5.2 Catania et at. (A-14) obtuvieron datos respecto al comportamiento sexual de una muestra dehombres y mujeres solteros, con edades entre 20 y 44, residentes en areas geoijfaficas carac­terizadas por tasas altas de enfermedades de transmision sexual e ingreso a programas dedrogas. De 1229 encuestados, 50 por ciento respondieron que nunca utilizaron preservati­vos. Construya un intervalo de confianza de 95 por ciento para la proporcion de la poblaci6nque nunca utiliza preservativos.6.5.3 Rothberg y Lits (A-I 5)estudiaron el efecto del estres de la maternidad durante el embarazoen el peso del producto. Los individuos eran 86 mujeres blancas con antecedentes de estresque no tenfan faetores de riesgo medico u obstetrico conoddo de peso bajo del producto.Los investigadores eneontraron que 12.8 por dento de las madres estudiadas dieron a luzbebes que cubrfan el criterio de peso bajo. Construya un intervalo de confianza de 99 porciento para la proporci6n de la poblaci6n.6.5.4 En una muestra aleatoria simple de 125 varones desempleados, quienes desertaron de laescuela preparatoria entre las edades de 16 y 21 anos inclusive, 88 declararon que eranconsumidores regulares de bebidas alcoh6litas. Construya un intervalo de eonfianza de 95por ciento para la proporcion de la poblacion.6.6 INTERVALO DE CONFIANZA PARA lA DIFERENCIAENTRE lAS PROPORCIONES DE DOS POBlACIONESA menudo se tiene interes en conocer la magnitud de la diferencia entre las proporcio­nes de dospoblaciones. Es posible que se quiera comparar, por ejemplo, entre hombresy mujeres, dos grupos de edades, dos grupos socioecon6micos 0 dos grupos de diag­nostico con respecto a la proporcion que posee alguna caractenstica de interes. Unestimador puntual insesgado de la diferencia entre dos proporciones de las poblacio­nes se obtiene.al calcular la diferencia de las proporciones de las muestras, PI P2Tal como Se ha visto, cuando n1Yn2son de gran tamano y las proporciones de lapoblacion no estan muy cerca de 0 0 de 1, es posible aplicar el teorema del limitecentral y utilizar la teona de la distribucion normal para obtener los intervalos de con­fianza. EI error estandar de la estimacion se calcula: mediante la siguiente formula:dado que, como regIa, se desconocen las proporciones de Ia poblacion. Un interva­10 de confianza de 100(1 - a) por ciento para PI P2 se obtiene as!:(6.6.1)Es posible interpretar este intervalo desde elpunto de vista probabiHstico y practico.
    • EJERCICIOS 179EJEMPLO 6.6.1Borst et al. (A-16) investigaron la relaci6n de desarrollo del ego, edad, sexo y diag­n6stico de .suicidio entre los internos adolescentes de la unidad de psiquiatria. Lamuestra consistia en 96 varones y 123 niiias con edades entre 12 y 16 aiios, seleccio­nados de entre los internados en la unidad de adolescentes y niiios de un hospitalpsiquiatrico privado. Se reportaron 18 niiios y 60 niiias con intento de suicidio. Consi­derese el comportamiento de las niiias como el de una muestra aleatoria simple apartir de una poblaci6n similar de niiias, y que los j6venes, igualmente, puedenconsiderarse como una muestra aleatoria simple extraida de una poblaci6n similarde niiios. Para estas dos poblaciones, se pretende construir un intervalo de confian­za de 99 por ciento para la diferencia entre las proporciones de los individuos conintento de suicidio.Soluci6n: Las proporciones para las niiias y niiios, respectivamente, son: Pc = 601123 = A878y PB = 18/96 .1875. La diferencia entre las proporcionesde lasmuestrases Pc PB = .4878 .1875 = .3003. El error estandarestimado de la diferenda entre las proporciones de las muestras es(.4878)(.5122) (.1875)(.8125)---~,~-~ +-------­123 96El factor de confiabilidad a partir de la tabla D es 2.58, de modo que elintervalo de confianza, con la f6rmula 6.6.1, es:.3003 ±2.58(.0602).1450,..4556Se dene la confianza de 99 por dento de que, para las poblacionesmuestteadas, la ptopord6n de intentos de suiddio entre las niiias exce­de a lapropord6n de intentosde suiddio entre los varones por .1450 y.4556.Puesto que el intervalo no incluye al cero, se concluye que las dosproporciones de pobladones son diferentes. •FJERCICIOS Para cada uno de los siguientes ejercicios establezca las interpretaciones pnicticas y probabi­listicas de los intervalos que se pide construir. Identifique cada componente del intervalo:la estimaci6n puntual, el coeficiente de confiabilidad y el error estandar. Explique por quelos coeficientes de confiabilidad no son el mismo para todos los ejercicios.6.6.1 Hargers et al. (A-17) del departamento de Salud PUblica y Ambiep.tal en. Amsterdam, condu­jeron un estudio en el que los individuos eran consumidores de drogasinyectables (CDI). Enuna muestrade 194 consumidores de metadona regular de largo plazo (MLP), 145 eranvarones. En una muestra de 189 CDIque no cons·umian MLP, 133 eran varones. Establezcalas consideraciones necesarias acerca de las muestras ypoblaciones representadas, y constru­
    • 180 CAPITULO 6 ESTlMACI6Nya un intervalo de confianza de 95 por ciemo para la diferenda entre las proporciones devarones en las dos poblaciones.6.6.2 Una investigaci6n de Lane et ai. (A-I8) valor6las diferencias en las pnicticas de deteccion decancer de seno entre muestras de mujeres predominantemente de bajos ingresos, con eda­des de 50 a 75 anos, que lltilizan los servicios de c1inicas de sailld para todo el estado, ymlljeres de la misma edad residentes en ciudades donde las c1inicas de salud son locales. Delas 404 encuestadas, seleccionadas en toda la comunidad, 59.2 por ciento estuvo de acuerdocon el siguiente comentario acerca del cancer de pecho: "las mujeres prolongan su vida sidetectan el cancer desde el inicio". De entre 795 usuarias de clinicas de salud en la mllestra,44.9 por ciento estuvo de acuerdo. Establezca las suposiciones apropiadas para elaborar unintervalo de confianzade 99 por ciento para la diferencia entre las dos proporciones de laspoblaciones de interes.6.6.3 Williams et at. (A-19) encuestaron a una muestra de 67 medicos y 133 enfermeras con fami­liares farmaco/dependientes. EI prop6sito del estudio era evaluar la influencia en los medi­EOS y enfermeras de estar estrechamente involucrados con una 0 mas personas farmaco/dependientes. Cincuenta y dos medicos y 89 enfermeras dijeron que vivian con personasfarmacoldependientes que adversamente afectaban 8U trabajo. E8tablezca todas las conside­raciones que crea necesarias para construir un intervalo de confianza de 95 por ciento parala diferencia entre las proporciones en las dos poblaciones de trabajadores que se esperaesten adversamente afectados por vivir con personas farmaco/dependientes.6.6.4 Aronow y Kronzon (A-20) identificaron los factores de riesgo coronado entre hombres ymujeres en una dinica de cuidados de la salud a largo plazo. De los 215 individuos negros,58 tienen diabetes mellitus al igual que 217 individuos blancos de 1140. Elabore un intervalode confianza de 90 por ciento de confianza.para la diferencia entre las proporciones de lasdos poblaciones. t:!Cuaies son las poblaciones correspondientes? ~Que consideraciones sonnecesarias para hacer valido el procedimiento de inferencia?6.7 DETEHMINAUON DEL TAMANO DE LAMUESTRA PARALA ESTIMACIONDEIAS MEDIASLa pregunta de que tan grande debe ser una muestra surge inmediatamente alinicio del planteamiento de cualquier encuesta 0 experimento. Esta es una pregun­ta importante y no se debe tratara la ligera. Tomar una muestra mas grande de 10necesario para obtener los resultados deseados es un desperdicio de recursos, mien­tras que, por otro lado, las muestras demasiado pequenas con frecuencia dan resul­tados que carecen de uso practico. En esta secci6n se estudia c6mo determinar eltamano de la muestra de acuerdo con la situaci6n. A continuaci6n se proporcionaun metodo para determinar el tamano de la muestra que se requiere para estimarIa media de la poblaci6n yen la siguiente secci6n se aplica este metodo para deter­minar el tamano de la milestra cuando se desea estimar la proporci6n de una po­blaci6n. Mediante extensi<mes directas de estos metodos, es posible determinar eltamano necesario de las muestras para situaciones mas complicadas.Objetivos El objetivo de la estimaci6n porintervalos es el de obtener intervalosestrechos con alta confiabilidad. Si se observan los componentes ~e un intervalo deconfianza,se veque 8U dimension esta determinada por la magnitud de la cantidad(coeficiente de confiabilidad) x (error estandar)
    • 1316.7 DETERMINACION DEL TAMANO PARA LA l-IUESTRA·ya que lamagnitud total del intervalo de confIanza es eldoble de esta cantidad. Seaprendi6 que a esta cantidad, generalmente, se Ie llama precisi6n de la estimaci6no margen de error. Para un error estandar dado, incrementar la confIabilidad signi­fIca un coefIciente con mayor confIabilidad. Yun coefIciente con mayor confIabilidadproduce unintervalo mas amplio.Por otra parte, si se ftia el coefIciente de confIabilidad, la unica manera deredudr la amplitud del intervalo es la reducci6n del error estandar. Dado que elerror estandar es igual a (J I:;J;;, y como (J es una constante, la unica forma deobtener un error estandar menor es tomar una muestra grande. ~Que tan grandedebeser la muestra? Esto depende del tamafio de (J, la desviad6n estandar de lapoblaci6n, asi como del grado de confIabilidad y dimensi6n del intervalo deseados.Suponga que se desea obtener un intervalo que se extienda d unidades haciauno y otro lado del estimador. Ellose enuncia:d:::: (coefIciente de confIabilidad) X (error estandar) (6.7.1.)Si el muestreo es con reemplazos, a partir de una poblaci6n infInita 0 de unaque sea 10 sufIcientemente grande como para ignorar la correcci6n por poblaci6nfInita, la ecuaci6n 6.7.1 se transforma en:(Jd z- (6.7.2)-r;;la cual, cuando se despeja n, nos da:(6.7.3)d2Cuando el nmestreo se hacesin reemplazos a partir de una poblaci6n fInita y pe­quefia, se requiere de la correcci6n por poblaci6n fInita, y la ecuaci6n 6.7.1 setransforma en:(J~d (6.7.4)fN~que al despejar n, resulta en:n::::-----­ (6.7.5)d2 (N 1) + Z2(J2Si puede omitirse la correcci6n por poblad6n fInita, la ecuaci6n 6.7.5 se re­duce a la ecuaci6n 6.7.3.Estillluci6n de (J 2 Las f6rmulas para el tamafio de la muestra requieren delconocimiento de (J2 pero, como ya se ha sefialado, la variancia de la poblaci6n casi
    • 132 CAPITULO 6 ESTlMACIONsiempre sedesconoce. Como resultado, esnecesarioestimar (J2. Las fuentes de esti­maci6n de(J2 que se utilizan con mas frecuencia son las siguientes:1. Se extrae una muestrapilato 0 prel~l11inar de lapoblaci6n y se puede utilizar lavariancia calculada a partir de esta muestra como unaestimaci6n de (J2. Lasobservaciones uti lizadas en la muestra piloto se toman como parte de la mues­trafinal, de modo que n (el tamaiio calculado de la muestra) n1, (el tamaiiode la muestra piloto) n2(el numero de observaciones necesarias para satisfacerel requerimiento total del tamaiio de la muestra).2. A partir de estudios anteriores osimilares es posible obtener estimaciones de (J2.3.Si se cree que la poblaci6n de la.cual se extrae la muestra.posee una distribu­ci6n aproximadamente nqrmal, se puede aprovechar el hecho de que la am­plitud es aproximadamente igual a 6 desviaciones estandar y calcular (J "" R/6.Este metodo requiere aIglin conocimiento acerca de los valores minimo ymaximo de la variable en la poblaci6n.EJEMPLO 6.7.1Un nutri6logo del departamento de salud,. al efectuar una encuesta entre una po­blacien de muchachas adolescentes con e1 fin de determinitr su ingesti6n diariapromedio de proteinas (medidas en gramos), busc6 el consejo de un bioestadisticocon respecto al tamaiio de la muestra que deberfa tomar.~Que procedimiento debe seguir el bioestadistico para asesorar al nutri610go?Antes de que el estadistico pueda ayudar el nutri6logo, este debe proporcionartres elementos de informaci6n: h dimensi6n deseada del intervalo de confianza, elnivel de confianza deseado y la magnitud de la variancia de la poblaci6n.Soludon: Suponga que el nutri6logo requiere un intervalo con una dimensi6n deaprQximadamente 10 gramos, es decir, la estimaci6n se deberfa encon­trar alrededor de 5 gramos de la media de la poblaci6n en ambas direc­ciones. En otras palabras, se desea un margen de error de 5 gramos.Suponga que se decide por un coeficiente de confian7..a de .95 y que conbase en su experiencia previa, el nutri6logo percibe que la desviaci6nestandar de la poblaci6n es probablemente de alrededor de 20 gramos.EI estadfstico dispone ya de la informaci6n necesaria para calcular eltamaiio de la muestra: z 1.96, (J = 20 y d 5. Suponga que el tamaiiode la poblaci6n es grande, asf queel estadistico puede ignorar la correc­ci6n por poblaci6n finita y utilizar la ecuaci6n 6.7.3. Con las sustitucio­nes adecuadas, el valor de n se calcula comoSe recomienda que el nutri610go tome una muestra de tamafio 62.AI calcular el tamaiio de una muestra a partir de las ecuaciones 6.7.3 06.7.5, el resultado se redondea al siguiente nurnero entero mayor si loscalculosdan un numerocon decimales. •
    • 1836.8 DETERMINACION DEL TAl1A.:NO PARA LAS PROPORCIONESEJERCICIOS, 6.7.1 La administradora de un hospital desea estimar el peso medio de los bebes nacidos en suhospital. Si se desea un intervalo de confianza de 99 por dento con una amplitud de 1 libra,~que tan grande debe ser la muestra de los registros de nacimiento? Suponga que un estima­, dor razonable para (J es 1 libra. ~De que tamano debe ser la muestra si el coeficiente deconfiabilidad se hace descender a .95?6.7.2 El director de la secdon de control dela rabia del departamento de salud publica, deseaextraer una muestra de los registros de mordidas de perro reportadas durante el transcursodel ano anterior para estimar la edad media de las personas mordidas. Requiere un intervalode confianza de 95 por dento, decide utilizar un valor de 2.5 para d y, a partir de estudiosanteriores, estima que la desviacion estandar de la poblacion esta alrededor de los 15 anos.~Que tan grande debe ser el tamano de la muestra?6.7.3 Un medico desea conocer el valor medio de glucosa en la sangre en ayunas (mg/lOO ml) depacientes atendidos en una clinica para diabeticos durante el transcurso de los ultimos 10anos. Determine el numero de registros que el medico debe examinar para obtener un inter­valo de confianza de 90 por ciento para 11 si la dimension requerida para el intervalo es de 6unidades y una muestra piloto presenta una variancia de 60.6.7.4 Se deseaestimar la edad media en la que a los padentes de esclerosis multiple se les diagnos­tico el padecimiento por primera vez. Se requiere un intervalo de confianza de 95 por dentocon una dimension de 10 anos. Si la variancia de la poblaci6n es de 90, ~que tan grandedebera ser la muestra?6.8 DETERMINACION DELTAMANO DE lA MUESTRAPARA lA ESIDIACION DE lAS PROPORCIONESEI metodo para estimar el tamafio de la muestra cuando se requiere estimar la pro­porcion de una poblacion es esencialmente el mismo que se describio para estimar lamedia de una poblacion. Se aprovecha el hecho de que la mitad del intervalo desea­do, d, se puede igualar al producto del coeficiente de confiabilidadyel error estandar.Sise supone que el muestreo ha sido hecho de manera aleatoria y que existencondiciones que garanticen que la distribuci6n de psea aproximadamente normal,se obtiene la siguiente formula para n cuando el muestreo es con reemplazo, cuan­do se realizaa partir de una poblacion infinita 0 ruando la poblacion muestreada es10 suficientemente grande como para hacer innecesario el uso de la correcci6n porpoblacion finita:n (6.8.1)dondeq = I-p.Si la correccion por poblacion finita no puede descartarse, la formula adecua­da paran es:(6.8.2)nd2(N -1)+z2pqeuan do N es grande en comparacion con n (es decir, n IN::; .05) se puedepasar por alto la correccion por poblacion finita, y la ecuacion 6.8.2 se reduce a laecuacion 6.8.1.
    • 184 CAPITULO 6 ESTIMACIONEstimacion de p Como puede observarse, ambas formulas requieren que seconozcaP" que es la prop orcion de poblacion que posee la caracteristica de interes.Obviamente, dado que este es el panimetro que se desea estimar, sera desconocido.Una solucion para este problema consiste en tomar una muestra piloto y calcularuna estimacion para utilizarla en lugar de p dentro de la formula para n. Algunasveces el investigador tendra nocion de algUn limite superior para pque podra uti­lizar en la formula. Par ejemplo, si se desea estimar la proporcion de alguna pobla­cion que presenta cierta discapacidad, es posible que se crea que la proporcion realno puede ser mayor que, digamos, .30. Se sustituye entonces ppor .30 en la formu­la para n. Si es imposible obtener una mejor estimacion, se puede igualar pa .5 yresolver para n. Dado que p .5 en la formula proporcionael maximo valor de n,este procedimiento dara una muestra 10 suficientemente grande para alcanzar laconfiabiIidad y la dimensi6n del intervalo deseadas. Sin embargo puede ser masgrande de 10 necesario y resultar mas costosa que si se dispusiera de una mejorestimacion de p. Este procedimiento se debe utilizar solamente si no se puede lle­gar a una mejor estimacion de p.FJEMPLO 6.8.1Se planea realizar una encuesta para determinar que proporcion de fami1ias encierta area carece de servicios medicos. Se cree que la proporcion no puede sermayor que .35. Se desea un intervalo de tonfianza de 95 por ciento con d = .05.~De que tamano se debe seleccionar 1a muestra de familias?Solucion: Si se omite la correcci6n por poblacion finita, se tienen (1.96)2(.35)(.65) =349.6(.05)2 ..Por 10 tanto, e1 tamano de la muestra es de 350.•FJERCICIOS6.8.1 Un epidemiQlogo desea saber que proporci6n de adultos que viven en una gran area metropo­lilmla tienen el subtipo ay del virus B de la hepatitis. Detennine el tamano de la muestra quepudiera ser necesario para estimar una proporci6n real cercana a .03, con una confianza de 95por demo. Se sabe que en un area metropolitana similar, la proporci6n de adultos con esaearacterfstica es de .20. Si los datos para otra area metropolitana no estuvieran disponibles y nose pudiera obtener una muestra piloto, (eual sena el tamano requerido de la muestra?6.8.2 Se planea realizar una encuesta para determinar que proporci6n de los estudiantes de se­cundaria de un sistema escolar metropolitano han fumado regularmente marihuana. Si nose euenta con una estimaei6n de p de estudios anteriores, no se puede extraer una muestrapiloto; se desea un eoefieiente de eonfianza de .95 y se decide utilizar el valor de d .04.Determine el tamano adecuado de la muestra. ~De que tamano debera ser la muestra paraobtener un intervalo de eonflanza de 99 por demo?6.8.3 EI administrador de un hospital desea saber que proporei6n de paeientes dados de alta estaninconformes con la atend6n redbida durante su hospitalizaci6n. Si d = .05, el coeficiente de
    • 6.9 INTERVALO DE CONFIANZA PARA LA VARIANCIA DE POBLACIONES 185confianza es de .95 y no se dispone de ninguna otra informacion, ~que tan grande debe serla muestra? ~Que tamafio debe tener si el valor de pes de aproximadamente .25?6.8.4 Una agencia de planificacion de la salud desea saber, en una region geognifica determinada,que proporcion de pacientes admitidos en hospitales para tratamiento de traumatismos aban­donaron el hospital por defundon. Se requiere de" un intervalo de confianza de 95 por dentocon una amplitud de .06, y a partir de otra evidencia, se estima que la proporcion de lapoblaci6nes de .20. ~Que tan grande debe ser la muestra?6.9 INTERVALO DE CONFIANZA PABA lA VARIANCIADE POBlACIONES CON DISTRIBUCION NORMALEstimaci6n puntual de la variancia de la poblaciOn En las seccionesanteriores se sugiri6 que cuando se desconoce Ia variancia de la poblaci6n es posi­ble utilizar la variancia de la muestra como un estimador. Es posible que ellector sepregunte respecto a la caUdad de este estimador. Se ha estudiado s610 un criterio debondad, el de ser insesgado, asi que es necesario revisar si la variancia de la mues­tra es un esthnador insesgado de la variancia de la poblaci6n. Para ser insesgado, elvalor promedio de la variancia de la muestra sobre todas las muestras posibles debeser iguala la variancia de la poblaci6n . Esto es, debe cumplirse la expresi6n E(S2)(j2. Para ver si esta condici6n se cumple en una situaci6n particular se considera elejemplo de la secci6n 5.3 para obtener una qistribuci6n muestral. En la tabla 5.3.1se presentan todas las muestras posibles de tamano 2 a partir de la poblaci6n for­mada con valores 6,8, 10, 12 Y14. Recuerde que dos medidas de dispersi6n paraesta poblaci6n se calcularon comoL(X 11)2 L(X 11)2(j2 = i - r- = 8 Y S2 = I r- =10N N-lSi se calcula la variancia de la muestra S2 = L(X; x)2j(n 1) para cada una de lasmuestras posibles que aparecen en la tabla 5.3.1, se obtienen las variancias muestralesde la tabla 6.9.1.TABlA 6.9.1 Variancias calenladas a partir de lasmnestras de la tabla 5.3.1Segundaextraccion6 8 10 12 14Primera extraccion6810121402818322 8 180 2 82 0 28 2 018 8 23218820
    • 186 CAPjTUL06 ESTIMACIONMuestreo con reemplazos Si el muestreo es con reemplazos, el valor espera­do de 52 se obtiene tomando la media de todas las variancias posibles de las mues­tras en la tabla 6.9.1. Cuando se hace esto, se obtiene:L s2 0 + 2 + ... + 2 + 0 200E(S2)=_._ = =-=8N" 25 25y se aprecia, por ejemplo, que cuando el muestreo es con reemplazos E(S2) = cr2,donde S2 =L(xi -;:W /(n -1) y cr2L(Xi 11)2/N. .Maestreo sin reemplazos Si se considera el caso donde el muestreo es sinreemplazos, el valor esperado deS2 se obtiene al tomar la media de todas las varianciaspor encima (0 por abajo) de la diagonal principal. Esto es2+8+···+2 10010lO lOque, tal como se observa, no es igual a cr2 sino igual a S2 L(X, 11)2 /(N -1).Estos resultados son ejemplos de principios generales, ya que es posible mos­trar en terminos generales que:E(S2) = cr2, cuando el muestreo se realiza con reemplazo E(52) = S2, cuando el muestreo se realiza sin reemplazo Cuando N es grande, N 1 YN son aproximadamente iguales y, en conse­cuencia, cr2y S2 serfm aproximadamente iguales.Estos resultados justifican el uso de S2 = L(xi · :%)2 /(n -1), cuando se calculala variancia de la muestra. Asimismo, debe notarse que, a pesar de que 52 es unestimador insesgado de cr2, s no es un estimador insesgado de cr. Sin embargo, elsesgo disminuye rapidamente a medida que aumentan.Estimacion por ildervalos de la variancia de anapoblacion Conuna estimaci6n puntual disponible, resulta 16gico preguntarse acerca de la cons­trucci6n de un intervalo de confianza para la variancia de una poblaci6n. El exito alconstruir un intervalo de confianza para cr2depende de la capacidad para encon­trar una distribuci6n muestral adecuada.La distribuciOn deji-cuadrada En general, los intervalos de confianza paracr2 se basan en la distribud6n muestral de (n - l)s2/cr2• Si se extraen muestras detamano n de una poblaci6n con distribuci6n normal, esta cantidad tiene una distri­buci6n conocida como distribuci6nji-cuadrada (x2) con n 1 grados de libertad. En elcapitulo siguiente se habIanl mas acerca de esta distribud6n, aqui s610 se did. queesta es la distribuci6n que sigue la cantidad (n - 1)s2/cr2y que resulta util para calcu­lar los intervalos de confianza para cr2cuando se cumple el supuesto de que lapobIaci6n sigue una distribuci6n normal.
    • 6.9 INTERVALO DE CONFIANZA PARA LA VARIANCIA DE POBLACIONF.S 187FIGURA 6.9.1 Distribuciones deji-cuadrada para algunosgrados de libertad k (Fuente:utilizada con.autorizaci6n de Paul G. Hoel y Raymond]. ] essen Basic Statistics for Businessand Economics, Wiley).En la figura 6.9.1 se muestran algunas distribuciones ji-cuadrada para dife­rentes grados de libertad. En la tabla F se encuentran los percentiles de la distribuci6nji-cuadrada. Los encabezados de las columnas dan los valores de X2 ala izquierda delos cuales esta una proporci6n del area total bajo la curva igual a los subIndices de X2.Las denominaciones de los renglones son los grados de libertad.Para obtener un intervalo de confianza de 100(1 a) porciento para al, seobtiene primero el intervalo de confianza de 1OO(1- a) por ciento para (n 1)s2/02.Para efectuar este procedimiento se seleccionan los valores X2 de la tabla F, de talmodo que a/2 quede a la izquierda del valor menor y a/2 quede a la derecha delvalor mayor. En otras palabras, los dos valores de X2 se seleccionan de modo quea se divide en partes iguales entre las dos colas de la distribuci6n. Estos dos valo­res de X2 se designan como X~12 y X!-(aI2) , respectivamente. Por 10 tanto, el intervalode confianza de 100(1- a) porcientopara (n - 1)s2/02 esta dado por2 (n -1)s2 2·Xa/2 < 2 < XI-(aI2)aAhora se utiliza esta ecuaci6n para obtener una f6rmula con 0 2como unicotermino centraL Primero, se divide cada termino por (n 1)s2 para obtener
    • 188 CAPITULO 6 ESTlMACIONSi se aplica el elemento redproco en esta ecuaci6n, se obtiene(n -1)s2 2 (n -1)s2--------->()>-------­X~/2 Xi-(a/2)N6tese que la direcci6n de las desigualdades cambian cuando se aplica el elementoredproco. Pero si se invierte el orden de los terminos se tiene(-I)s2 2 (n-l)s2--- < () < ------­ (6.9.1)X~-(a/2) ~/2que es un intervalo de confianza de 100(1- a.) por ciento para ()2. Si se toma la rafzcuadrada de cada termino de la ecuaci6n 6.9.1, se tiene el siguiente intervalo deconfianza de 100(1 - a.) para la desviaci6n estandar de la poblaci6n:(n l)s21..0.<n_--,1):.....S_2 < () < (6.9.2)~ X~a/2) .EJEMPLO 6.9.1En· una investigacion de los efectos de dietas con densidad baja en colesterollipoproteico, Rassias et al. (A-21) estudiaron a 12 individuos, hombres y mujeres,medianamente hipercolesterolemicos. Los niveles de colesterol (mmoVl) para estosindividuos fueron: 6.0, 6.4, 7.0, 5.8, 6.0, 5.8, 5.9, 6.7, 6.1, 6.5, 6.3, 5.8. Se suponeque los 12 individuos forman una muestra aleatoria simple extrafda de una pobla­cion de individuos similares que sigue una distribucion normal. Se pretende esti­mar, a partir de los datos de la muestra, la variancia de los nivelesdel colesterol delplasma en la poblacion, con un intervalo de confianza de 95 por ciento.Soluci6n: La muestra produce un valor para S2 .391868. Los grados de libertadson n - 1 = 11. Los valores convenientes para X2 a partir de la tabla F sonXf-(a/2)= 21.920 Y X;/2 3.1816. EI intervalo de confianza de 95 porciento para ()2 es11(.391868) < ()2 < 11(.391868).21.9203.1816.196649087 < ()2 < 1.35483656EI intervalo de confianza para () es.4434 < () < 1.1640. Se tiene un 95 por ciento de confiariza de que los panimetros esti­mados estan dentro de los lfmites especificados, porque se sabe que a lalarga, al muestrear varias veces, 95 por ciento de los intervalos construi­dos, como se llustro, incluirfan los parametros respectivos. •
    • FJERCICIOS EJERCICIOS 189Algunasprecauciones Aunque este metodo para obtener los intervalos deconfianza para cr2 se utiliza ampliamente, no carece de inconvenientes. Prime­ro, la suposicion de normalidad para la poblacion de la cual se extrae la mues­tra es muy importante, y los resultados pueden ser enganosos si se ignora estasuposicion.Otra dificultad con estos intervalos resulta del hecho de que el estimador noesta en el centro del intervalo de confianza, como en el caso delintervalo de con­fianza para ~. Esto se debe a que la distribudon de ji-cuadrada, a diferencia de lanormal, no es simetrica. La consecuencia pnictica de ello es que el metodo descritopara la obtencion de los intervalos de confianza para cr2no produce los intervalosde confianza mas cortos posibles. Tate y Klett (12) proporcionan tablas que puedenservir para veneer esta dificultad.6.9.1 Los objetivos del estudio de Kennedy yBhambhani (A-22) son utilizar las medidones psico­16gicas para determinar: la confiabilidad de la prueba de reerisayo del emulador de trabajodel equipo terapeutico de Baltimore durante tres tareas simUladas aplicadasen laintensidadde trabajo leve, medio y pesado, y examinar la validez de los criterios de las tareas al compa­rarlas contra las tareas rea1es hechas en un laboratorio de ambiente contro1ado. Los 30 indi­viduos son hombres sanos con eclades entre 18 y 35 anos. Los investigadores informaron unadesviaci6n est:andar de .57 para 1a variable consumo pico de oxigeno (Umin) durante uno de10sprocedimientos. Describa 1a poblaci6n, dela que fueron tornados los datos para 1a mues­tra, para hacer inferencias. Construya un intervalo de confianzade 95 por dento para lavariancia poblacional de la variable consumo de oxigeno.6.9.2 Kubic et al. (A-23) evaluaron los parametros hematol6gicosde 11 pacientes con la infeccion,docurnentada, de Bordetella pertussis. Los individuos estudiados son 11 ninos infectados, conedades entre un mes y 4.5 aDos. La cuenta de gl6bulos blancos (WBC)(x109/l) en los sujetosde estudio son 20.2, 15.4,8.4,29.8,40.9, 19.7,49.5, 12.1,32.0,72.9, 13.5 (Fuente: VirginiaL. Kubic, Paill T. Kubic y Richard D. Brunning, "The Morphologic and ImmunophenotypicAssessment ofthe LymphocytosisAccompanyingBordetellapertussis Infection",AmericanJoumalo/Clinical Pathology, 95, 809-815). Describa la poblad6n de la que podran tomarse los datospara hacer inferencias. Construyaun intervalo de confianza de 90 por dento para la varianciade la cuenta de gl6bulos blancos para esta poblaci6n.6.9.3 Se calcul6la capacidad vital forzada de 20 varones adu1tos sanos. La variancia de la muestrafue de 1,000,000. Construya intervalos deconfianza de 90 por ciento para cr2 y cr.6.9.4 En un estudio de los tiempos de circulaci6n sangufnea en el miocardio, se obtuvieron lostiempos de circulaci6n aparente en una muestra de 30.pacientes con enfermedad arterialcoronaria. Se encontr6 que la variancia de la muestra es de 1.03.Construya intervalos deconfianza de 99 dento para cr2y cr.6.9.5 Una muestra de 25 hombres fisica ymentalmente sanos particip6 en Un experimento acercadel sueiio en el cual se registr6 el porcentaje del tiempo total transcurrido durante ciertaetapa del sueiio en cada uno de los participantes. La variancia calculada a partir de los datosde la muestra es 2.25. Construya intervalos de confianza de 95 por ciento para cr y ()2,
    • 190 CAPITULO 6 ESTIMACION6.9.6 Se midieron las concentraciones de hemoglobina en 16 animales expuestos a un compuestoquimico nocivo. Se registraron los siguientes valores: 15.6, 14.8, 14.4, 16.6, 13.8, 14.0, 17.3,17.4, 18.6, 16.2,14.7,15.7, 16.4, 13.9, 14.8, 17.5. Construya intervalos de confianza de 95por ciento para cr2 y cr. .6.9.7 Veinte muestras de la calidad del aire, tomadas en una misma regi6n durante un periodo de6 meses, presentaron las siguientes cantidades de partfculas suspendidas de materia (micro­gramos por metro cubico de.aire):68 22 36 3242 24 28 3830 44 28 2728 43. 45 5079 74 57 21Considere que estas mediciones constituyen una muestra aleatoria a partir de una poblaci6nque sigue una distribuci6n normal, para construir los intervalos de confianza de 95 porciento para la variancia poblacional.6.10 INTERVALO DE COr1f1ANZAPARAlARAZONDE lAS VARIANCIAS DE DOS POBlACIONES CONDISTRIBUCION NORMALCon frecuencia se tiene iriteres en comparar dos variancias,y una manera de hacer­10 es obtener su razon, <5~ 1<5~. Si lasdos variancias son iguales, gU razon sera iguala 1. PorIo general, las variancias de las poblaciones sondesc~nocidas y, en conse­cuencia, todacomparacion que haga debera basarse en las variancias de las mues­tras. Para ser espedficos; es posible que se pretenda estimar la razon de las varianciasde dos poblaciones. En la seccion 6.4 se indica que el uso valido de la distribuciont para elaborar los intervalosde confianza para la diferencia entre las medias de dospoblaciones requiere que las variancias sean iguales. Si el intervalo de confianzapara la razon de las variancias de dos poblaciones incluye a 1, se concluye que lasvariancias de las dos poblaciones puede ser, de hecho, iguales. Una vez mas, dadoque esta es una forma de iriferencia,se debe confiar en alguna distribucion muestral;en este caso la distribucion de (S12 1<5f) I(si 1<5~) se utilizasiempre que se satisfaganciertos supuestos. Dichos supuestos son que S12y si sean calculados a partir demuestras independientes de tamafto n1y n2, respectivamente, y que dichas mues­tras sean extraidas de poblaciones con distribucion normal. Se utilizaa S12paradesignar a la mayor de las dos variancias..La distribucion F Si los supuestos son satisfechos, (S12 1<5n I(s; I<5~)sigue unadistribuci6n conocida Como distribuci6n F. En un capitulo posterior se estudia eltema con mayor detalle, pero hay que notar que esta distribuci6n depende de dosvalores para los grados de libertad, uno que corresponde al valor n] - J, utilizadoparacalcular Sj2, Yel otro valor correspondiente a n2- 1 usado para calcular si.Comunmente se les conoce como grados de libertad del numerador y grados de libertaddel denominador. La figura 6.10,1 muestra algunas distribuciones F para diferentes
    • 6.10 INTERVALO DE CONFIANZA PARA LA RAZON DE LAS VARIANCIAS 191(10;00)1.00.80.6w..<;:::0.40.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0FFIGU8A6.10.1 Distribuci6nFparavarios grados de libertad. (De Documenta Geigy, ScientificTables, septima edici6n. G.ortesfa de Ciba-Geigy Limited, Basel, Switzerland.)combinaciones de los grados de libertad del numerador y del denominador. Latabla G contiene, para combinadones espedficas de grados de libertad y valores dea, los valotes de F ala derecha de las males se tiene al2 del area bajo la curva de F.Intervalo de confianza para ai10; Para encontrar el intervalo de confian­za de 100(1 - a) por dento para af / a~, se comienza con la expresiondonde FuJ2 YFHuJ2) son los valores, a partir de la tabla para la distribuci6n F, a laderecha y ala izquierda de los males, respectivamente, esta a/2 del area bajo la curva.. EI termino intermedio de la expresi6n puede reescribirse para obtener la siguienteecuacion:Si se divide entre S12/ s:, se tieneFa/2 a~ F;-(a/2)--<-<--­S[ / s~ a~ S12I s~Con la aplicaci6n del redproco de los tres terminos se obtiene
    • 192 CAPITULO 6 ESTlMACIONYsi se invierte el orden se tiene el siguiente intervalo de confianza de 1OO(1- 0;) porciento para Of 10;(6.10.1) FJEMPLO 6.10.1Goldberg et al. (A-24) realizaron un estudio para determinar si una dosis dedextroanfetamina podia tener efectos positivos sobre las emociones y la percepci6nde pacientes esquizofrenicos mantenidos a regimen de haloperidol. Entre las varia­bles medidas estaba el cambio en el estado de tensi6n-ansiedad del paciente. Hubon2= 4 pacientes que respondieron a la anfetamina, con una desviaci6n estandarpara esta medici6n, de 3.4. Para los nl= 11 pacientes que no respondieron, sepresent6 una desviaci6n estandar de 5.8. Se considera que estos pacientes confor­man las muestras aleatorias simples e independientes, extraidas de poblacionescon pacientes que presentan las mismas condiciones mentales. Se considera que lapuntuaci6n del cambio de estado de tensi6n-ansiedad, sigue una distribuci6n nor­mal en ambas poblaciones. Se pretende elaborar un intervalo de confianza de 95por ciento para la raz6n de las variancias de las dos poblaciones.Soluci6n: Se tiene la siguiente informacion:nl= 11 n2= 4st (5.8)2 =33.64 si = (3.4)2 11.56dJ; grados de libertad del numerador 10dJ; = grados de libertad del denominador 30;= .05.20704 F.9?5 = 14.42F025Ahora, todo esta listo para obtener el intervalo de confianza de 95por ciento para Of I O~ sustituyendo adecuadamente los valores en laexpresi6n 6.10.1:33.64111.56 Of 33.64/11.56----- < - < ----­14.42 O~ .2070402.2018<-1 <14.0554O~Las interpretaciones practica yprobabilistica para este intervalo puedendarse.Puesto que el intervalo .2018 a 14.0554 induye ai, es posiblecon­cluir que las variancias para las dos poblaciones son iguales. •Calculo de FI-f,If,l) Y 11,1/2 En este punto se debe hacer la engorrosa, pero inevita­ble, explicaci6n de c6mo se obtienen los valores de F975 = 14.42 YF025.20704. Elvalor de F975 en la intersecci6n de la columna encabezada por dJ; lOy el rengl6nidentificado con dJ; = 3 es 14.42. Si se tiene una tabla mas extensa para la distribu­ci6n F, localizar a F 025no representa problema alguno; simplemente, se localizarfa
    • FJERCICIOS EJERCICIOS 193de la misma manera en que se localiz6 Fg75: se tomada el valor de la intersecci6n dela columna encabezada por lOy el rengl6n encabezado por 3. Para incluir cadapercentil posible de la distribuci6n F se haria una tabla extremadamente grande.Sin embargo, por suerte, existe una relaci6n que permite calcular valores inferiorespara el percentil a partir de esta limitada tabla. La relaci6n es la siguiente:1F;-o.,d[" d[, (6.10.2)Procedimiento:Se intercambian los grados de libertad del, numerador y denominador paralocalizar adecuadamente los valores de F. Para el problema mencionado se localiza4.83, el cual se encuentra en la intersecci6n de la columna 3 y el reng16n 10. Ahora,se aplica el redproco de este valor, 1/4.83 .20704. En resumen, ellimite inferiorde confianza (LCL, por sus siglas en ingles) y ellimite superior de confianza (UCL)para (]~ I (]~ son los siguientes:S2 1LCL=~--­S2 F2 0.12,d[, ,d[,S2UCL = __---I_ _s~ll F;-(0.12),d["d{,Otros procedimientos para hacer inferencias acerca de la igualdad de dosvariancias cuando las poblaciones muestreadas no tienen una distribuci6n normalse pueden encontrar en ellibro de Daniel (13).6.10.1 El objetivo de un estudio realizado por Hahn et al. (A-25) era determinar si la prueba delaliento alcoh6lico era un metodo confiable para vigilar la absord6n de irrigante durante laprostatectomfa en pacientes vfctimas de la enfermedad pulmonar obstructiva cr6nica (COPD,por las siglas en ingles). Se consideraron a n[ = 7 pacientes vfctimas graves de COPD y a n2= 7 pacientes esencialmente libres de cualquier enfermedad pulmonar, como poblaci6n decontroL Una de las variables medidas es el peso (en kilogramos). Los pesos correspondientesa los individuos de control son 74, 82, 94, 90, 98, 97 Y84. Los pesos correspondientes a losindividuos con COPD son 81, 58, 93, 58, 51, 96, Y 67. Se considera que estas muestrasconforman muestras aleatorias simples e independientes extrafdas de dos poblaciones depacientes con caractensticas similares: vfctimas graves de COPD y pacientes con funcionespulmonares esencialmente sanas. Se supone que los pesos de los individuos en estas pobla­dones siguen una distribuci6n normal. Elabore un intervalo de confianza de 95 por cientopara la raz6n de las variancias de las dos poblaciones.6.10.2 Una de las investigaciones de Southwick et al. (A-26) tiene como prop6sito describir con masprecisi6n el componente emocional causante de trastornos de estres postraumatico (PTSD, si­glas en ingles). Los individuos estudiados son varones internos en la unidad psiquiatrica delcentro medico para la atend6n de excombatientes militares. Veintiocho individuos satisfudan elcriterio de PTSD, pues eran soldados excombatientes de la guerra de Vietnam. Otros 17 indivi­
    • 194 CAPITULO 6 ESTIMACIONduos eran victimas de muchos otros des6rdenes emocionales depresivos. Para valorar las medi­das registradas, de los sintomas mas severos en 45 individuos, se utiliz6la escala de 21 puntosde clasificad6n de Hamilton para medir la depresi6n. La desviaci6n estandar de las calificacio­nes para los padentes con PTSD fue de 9.90, y para los pacientes con trastomos depresivograve la desviaci6n fue de 6.30. Formule las suposiciones necesarias respecto a las muestras ypobladones de las que podrian tomarse los datos para hacer inferencias. Construya un imer­valo de confianza de 99 por ciento para la raz6n de las variancias de las dos poblaciones deca1ificaciones obtenidas con la escala de dasificacion de Hamilton para medir la depresi6n.6.10.3 Se analizaron estadisticamente los indices de ataques de apoplejfa de dos muestras de pa­cientes que padedan infarto del miocardio. Las variancias de las muestras fueron de 12 y 10. ---~~....- - - - -Hubo 21 pacientes en cada muestra. Construya un intervalo de confianza de 95 por cientopara la razon de las variancias de las dos poblaciones.6.10.4 Treinta y dos adultos aHisicos sometidos a terapia del habla fueron divididos en dos grupos iguales. EI grupo 1 recibio el tratamiento 1 y el grupo 2 recibi6 el tratamiento 2. EI analisis estadistico de los resultados de la eficacia de los tratamientos dio las siguientes variancias: 5j2= 8, s~ =15.Construya el intervalo de confianza de 90 por dento para (j~ / (j~.6.10.5 Se calcularon las variancias de las muestras para los volumenes de flujo (ml) de dos grupos de pacientes que sufren de una alteraci6n en el tabique interauricular. Los resultados y tama­flos de las muestras son los siguientes: nj = 31, 512 = 35,000n241, s~ 20,000Construya el intervalo de confianza de 95 por dento para la raz6n de las dos variancias.6.10.6 Se registraron las respuestas de las concentraciones de glucosa frente a la administracion de glucosa oral en II pacientes con la enfermedad de Huntington (grupo 1) y en 13 individuos de control (grupo 2). EI analisis estadistico de los resultados proporciono las siguientes variancias de las muestras: Sj2 = 105 y si = 148. Construya el intervalo de confianza de 95 por dento para la raz6n de las dos variancias. 6.10.7 Las mediciones de la secreci6n gistrica de icido clorhidrico (miliequivalentes por hora) en 16 individuos normales y en 10 individuos con ulcera duodenal, proporcionaron los siguien­tes resultados: Individuos normales: 6.3,2.0,2.3,0.5, 1.9, 3.2,4.1,4.0,6.2,6.1,3.5, 1.3,1.7,4.5,6.3,6.2Individuos con Ulcera: 13.7,20.6,15.9,28.4,29.4,18.4,21.1,3.0,26.2,13.0Construya un intervalo de confIanza de 95 porciento para la raz6n de las variancias de lasdos poblaciones. ~Que suposiciones se deben tomar en cuenta para que este procedimientosea vilido?6.11 RESUNlliNEn este capitulo se estudia una de las principales areas de la inferencia estadistica:la estimaci6n. Se estudian tanto las estimaciones puntuales como las de intervalos.Se ilustran los conceptos y metodos relacionados con la construcci6n de los interva­los de confianza de los siguientes parametros: medias, diferencia de dos medias,proporciones, diferencia entre dos proporciones, variancias yraz6n de dos variancias.
    • 195PREGUNTAS Y EJERCICIOS DE REPASOTambien, se describe como determinar el tamafio de la muestra necesario paraestimar la media y la proporcion de la poblacion con niveles espedficos de preci­sion.Ademas, en este capitulo se indica que la estimacion de intervalos para losparametros de la poblacion son preferibles mas que las estimaciones puntuales, por­que las afirmaciones de confianza pueden apegarse a la estimacion de intervalos.PREGUNTAS YFJERCICIOS DE REPASO1. ~Que es la inferencia estadlstica?2. ~Por que es la estimaci6n un tipo importante de inferencia?3. tQue es la estimaci6n puntual?4. Explique el significado del termino "insesgado".5. Defma los siguientes conceptos. a) Coeficiente de confiabilidad b) Coeficiente de confianza c) Precision d) Error estandar e) Estimador f) Margen de error 6. Escriba la formula general para un intervalo de confianza.7. Enuncie las interpretaciones probabiHsticas y pnkticas de un intervalo de confianza.8. ~Que uso tiene el teorema de1limite central en la estimaci6n?9. Describa la distribuci6n t.10. <!Cullies son las suposiciones que fundamentan el uso de Ia distribuci6n t para estimar lamedia de una sola poblaci6n?11. <::Que es la correcci6n por poblaci6n finita? cCuando se puede pasar por alto?12. (Cullies son las suposiciones que fundamentan e1 uso de la distribuci6n t para estimar ladiferencia entre las medias de dos poblaciones?13. El analisis de los gases de la sangre arterial practicado a 15 hombres adultos fisicamenteactivos proporcion6 los siguientes valores de Pa02 en reposo:75,80,80,74,84,78,89,72,83,76,75,87,78,79,88Calcule e1 intervalo de confianza de 95 por ciento para la media de la poblaci6n.14. cQue proporci6n de pacientes asmaticos son alergicos al polvo? En una muestra de 140individuos, 35 por ciento tuvo reacciones positivas en la pieL Construya un intervaIo deconfianza de 95 por ciento para la proporci6n de la poblaci6n.15. Se llev6 a cabo una encuesta de higiene industrial en una area metropolitana de gran tama­no. De 70 plantas manufactureras visitadas, 21 recibieron la calificaci6n de "deficiente" en 10que se refiere a la ausencia de medidas de seguridad. Construya un intervalo de confianza de95 por ciento para la proporci6n de la poblaci6n con una calificaci6n de "deficiente".
    • 196 cAPiTULO 6 ESTIMACION16. Con base en el problema anterior, ~que tan grande debe ser la muestra para estimar laproporci6n de poblaci6n dentro de .05 con un intervalo de confianza de 95 por ciento (.30 esla mejor estimaci6n disponible para p):a) si fuera posible pasar por alto la correcci6n por poblaci6n finita? b) 8i no fuera posible pasar por alto la correcci6n por poblacion finita y N 1500? 17. En una encuesta dentalllevada a cabo por un grupo de salud, se solicito a 500 adultos quedijeran el porque de su ultima visita al dentista. De los 220 que tenlan una educaci6n inferiorala preparatoria, 44 senalaron que 10 hablan hecho por razones preventivas. De los restantes280, quienes tenlan educadon preparatoria 0 un nivel superior, 150 sefialaron que 10 habianhecho por la misma raz6n. Construya un intervalo de confianza de 95 por ciento para J::tdiferenda entre las dos proporciones de las poblaciones.18. Un grupo de investigadores de cancer de mama reuni610s siguientes datos en cuanto altamano de los tumores:Tipo de tumor n sA 21 3.85 cm 1.95cm B 16 2.80cm 1.70 cm Construya un intervalo de confianza de 95 por ciento para la diferenda entre las medias delas poblaciones.19. Se encontr6 que derto medicamento es eficaz para el tratamiento de las enfermedadespulmonares en 180 de los 200 casos tratados. Construya un intervalo de confianza de 90 pordento para la proporcion de la poblaci6n.20. Setenta pacientes con ulceras con estancamiento en la pierna fueron divididos en dos gruposiguales. Cada grupo recibi6 un tratamiento distinto para el edema. AI finalizar el experi­mento, la eficacia del tratamiento fue evaluada en terminos de reducci6n del volumen de lapierna, determinado por eI desplazamiento de agua. Las medias y desviaciones estandar deambos grupos aparecen en la siguiente tabla:Grupo (tratamiento) sA 95 cc 25 B 125 cc 30 Construya un intervalo de confianza de 95 por ciento para la diferencia entre las medias delas poblaciones.21. 2Cual es el nive! promedio de bilirrubina en e! suero de los pacientes internados en unhospital para el tratamiento de la hepatitis? Una muestra de 10 padentes arroj610s siguien­tes resultados:20.5,14.8,21.3, 12.7, 15.2,26.6,23.4,22.9,15.7,19.2Construya un intervalo de confianza de 95 por dento para la media de la poblaci6n.22. Se midieron las concentraciones de pH de la saliva en dos muestras aleatorias independientesde ninos de escuela primaria. Los ninos de la muestra A no tenian caries, mientras que losninos de la muestra B tenlan una alta incidencia de caries. Los resultados fueron los siguientes:A: 7.14,7.11,7.61,7.98,7.21,7.16,7.89, B: 7.36, 7.04, 7.19, 7.41, 7.10, 7.15, 7.36,7.24,7.86,7.47,7.82,7.37,7.66,7.62,7.65 7.57,7.64,7.00,7.25,7.19Construya un intervalo de confianza de 90 por ciento para la diferencia entre las medias delas poblaciones. Suponga que las variancias de las poblaciones son iguales.23. Una muestra aleatoria de 12 pacientes que padedan insomnio, tomaron el medicamento AOtra muestra aleatoria independiente de 16 pacientes, con el mismo problema, recibio el
    • 197PREGUNTAS Y EJERCICIOS DE REPASOmedicamento B. El numero de horas de sueno experimentadas durante la segunda nochedespues de iniciado el tratamiento son las siguientes:A: 3.5,5.7,3.4,6.9, 17.8,3.8,3.0,6.4,6.8,3.6,6.9,5.7B: 4.5, 11.7, 10.8,4.5,6.3, 3.8, 6.2, 6.6, 7.1, 6.4, 4.5,5.1,3.2,4.7,4.5,3.0Construya un intervalo de confianza de 95 por ciento para la diferencia entre las medias delas poblaciones. Suponga que las variancias de ambas poblaciones son iguales.24. Milliez et at. (A-27) realizaron un estudio de embarazos de alto riesgo. Se trabajo con unamuestra de 23 mujeres primerizas que tuvieron bebes con un peso de 2958 gramos y desvia­cion estindar de 620. En una segunda muestra de 26 mujeres multiparas, la media y ladesviaci6n est<indar de los pesos de los bebes que nacieron fueron de 3085 y 704 gramos,respectivamente. Establezca las consideraciones necesarias acerca de las muestras y de laspoblaciones de las que pueden utilizarse los datos para hacer inferencias. Elabore un intervalode confianza de 95 por ciento para la diferencia entre la media de los pesos de los reciennacidos para las dos poblaciones.25. EI objetivo de estudio de Martin et al. (A-28) era comparar la funci6n de los neutrofilos presen­tes en la sangre de la arteria pulmonar y en el fluido dellavado pulmonar de pacientes en laetapa temprana del sindrome de insuficiencia respiratoria del adulto. Existen tres funcionesantibacteriales importantes: liberaci6n de especies que reaccionan ante el oxigeno, actividadbactericida contra organismos externos, como el estafilococo dorado, y la quimiotaxis. Para 18de los individuos estudiados, la media del pH del fluido de lavado broncoalveolar es de 7.39con una desviacion estandar de .39. Elabore un intervalo de confianza de 90 por ciento parala media del pH en la pob1acion. Establezca las suposiciones necesarias para que el procedi­miento sea valido.26. Harrison et al.(A-29) condujeron un estudio acerca de personas de la tercera edad en unmunicipio de Londres. Ademas de otras caracterfsticas, reunieron datos acerca del grado dedepresion entre los residentes del municipio. En una muestra de 158 individuos previamen­te diagnosticados como personas depresivas, 48 fueron clasificadas durante la encuesta como"con depresi6n". En la muestra de 745 individuos sin un diagnostico previa de depresion,311 fueron clasificados "con depresion" en la misma encuesta. Elabore un intervalo de con­fianza de 99 por ciento para la diferencia entre las proporciones de las poblaciones. Esta­blezca las suposiciones necesarias para que el procedimiento sea valido.27. Un estudio de Thurnau et at. (A-30) tiene como proposito evaluar la exactitud del indice dedesproporcion cefalopelvica y la via de nacimiento en mujeres embarazadas que intentan elparto via vaginal cuando ya tuvieron con anterioridad nacimientos por via cesarea. Entre losdatos reportados estan los siguientes pesos (en gramos) de los recien nacidos:Via de nacimiento b Media Desviaci6n esUindarVaginal 47 3325 514Elabore un intervalo de confianza de 95 para la diferencia entre las medias. Establezca lassuposiciones necesarias para que el procedimiento sea valido.28. En un estudio de la funci6n de las grasas en la etiologia de enfermedades isquemicas delcoraz6n se seleccionaron las siguientes poblaciones: 60 individuos varones entre 40 y 60alios de edad, quienes habian tenido un infarto del miocardio, y 50 individuos varones apa­rentemente sanos, de la misma edad y condicion social. Una de las variables de interes era laproporcion del acido linoleico (A. L.) en los acidos grasos trigliceridos del plasma de losindividuos. Los datos para esta variable son los siguientes:
    • 198 CAPiTULO 6 ESTIMACIONIndividuos con infarto del miocardioIndividuo A.L. Individuo A.L. Individuo A.L. Individuo A.L.1 18.0 2 17.6 3 9.6 4 5.55. 16.8 6 12.9 7 14.0 8 8.09 8.9 10 15.0 11 9.3 12 5.813 8.3 14 4.8 15 6.9 16 18.317 24.0 18 16.8 19 12.1 20 12.921 16.9 22 15.1 23 6.1 24 16.625 8.7 26 15.6 27 12.3 28 14.9-~-..----~29 16.9 30 5.7 31 14.3 32 14.133 14.1 34 15.1 35 10.6 36 13.637 16.4 38 10.7 39 18.1 40 14.341 6.9 42 6.5 43 17.7 44 13.445 15.6 46 10.9 47 13.0 48 10.649 7.9 50 2.8 51 15.2 52 22.353 9.7 54 15.2 55 10.1 56 11.557 15.4 58 17.8 59 12.6 60 7.2Individuos saludablesIndividuo A.L. Individuo A.L. Individuo A.L. Individuo A.L.1 17.1 2 22.9 3 10.4 4 30.95 32.7 6 9.1 7 20.1 8 19.29 18.9 10 20.3 11 35.6 12 17.213 5.8 14 15.2 15 22.2 16 21.217 19.3 18 25.6 19 42.4 20 5.921 29.6 22 18.2 23 21.7 24 29.725 12.4 26 15.4 27 21.7 28 19.329 16.4 30 23.1 31 19.0 32 12.933 18.5 34 27.6 35 25.0 36 20.037 51.7 38 20.5 39 25.9 40 24.641 22.4 42 27.1 43 11.1 44 32.745 13.2 46 22.1 47 13.5 48 5.349 29.0 50 20.2Elabore un intervalo de confianza de 95 por ciento para la d.irerencia entre las medias. cQue es 10que sugieren estosdatos respecto a losniveles de acidolinoleico en las dos poblaciones muestreadas?29. Osberg et al. (A-31) condujeron un estudio para identificar los factores que predicen si losnifios con lesiones similares, tratados en clinicas de traumatologia, son 0 no dados de alta ytransferidos al area de rehabilitaci6n intrahospitalaria. De entre los hallazgos de los investi­gadores estan los siguientes: en una muestra de U5 individuos dados de alta de la clfnica detraumatologia y transferidos para rehabilitaci6n, 98.3 por ciento tuvieron lesiones cef.ilicas;68.5 por ciento de 200 individuos dados de alta para regresar a sus hogares tuvieron heridasen la cabeza. Elabore un intervalo de confianza de 95 por dento para la diferencia entre las
    • 199PREGUNTAS Y EJERCICIOS DE REPASOproporciones de la poblaci6n. Establezca las suposiciones necesarias para que el procedi­miento sea valido.30. Una investigaci6n de Steinhardt et al. (A-32) tiene dos prop6sitos. Primero, determinar si elnivel de actividad nsica y la salud cardiovascular estan relacionados con el ausentismo y solici­tud de atenci6n medica entre los policfas durante un periodo de un ano. Segundo, determinarsi los niveles moderados de actividad flsica y la salud estan inversamente asociados con lareduccion de ausentismo y solicitud de atencion medica. Los sujetos de estudio fueron lospolidas de la ciudad de Austin del estado de Texas, Estados Unidos. Entre otros hallazgos,los investigadores reportaron que 65 individuos cuyo nivel de actividad flsica se dasifico comosedentario, tuvieron un ausentismo promedio de 10.04 dias por ano, yuna desviaci6n estandarde 9.65. Para 275 individuos con actividad flsica de tres veces por semana, se obtuvo una mediay una desviaci6n estandar de 6.04 y 6.59, respectivamente. Elabore un intervalo de confianza de95 por ciento para la diferencia entre las medias. Establezca las suposiciones necesarias paraque el procedimiento sea valido. (Que condusiones pueden obtenerse del resultado?31. En general, se prefieren los intervalos de confianza estrechos mas que los intervalos amplios.Se pueden elaborar intervalos de confianza estrechos por medio del uso de coeficientes deconfianza pequenos. Para un conjunto dado de otras condiciones, (que pasa con el nivelde confianza cuando el coeficiente de confianza es pequeno? ~Que pasaria con la amplitud delintervalo y el nivel de confianza si se utilizara un coeficiente de confianza igual a cero?32. En general, un coeficiente de confianza alto se prefiere en lugar de un coeficiente menor.Para otro conjunto dado de condiciones, suponga que el coeficiente de confianza es de 100por ciento. ~Cual seria el efecto de esta situacion en la amplitud del intervalo?33. EI investigador el Fiky et al. (A-33) midieron la fracci6n de la derivacion mediante un cateteren la arteria pulmonar de 22 pacientes sometidos a cirugia selectiva en la arteria coronaria.A partir de los resultados, los investigadores calcularon una media de 19.6 y elaboraron elintervalo de confianza de 90 por ciento para la media de la poblaci6n con puntos extremosde 18.8 y 20.4. (Cual puede ser el factor de confiabilidad adecuado para el intervalo, z 0 t?Justifique su elecci6n. ~Cual es la precision de la estimacion y el margen de error?34. Dunkan et at. (A-34) informaron acerca del estudio disenado para valorar la relaci6n delactancia materna exdusiva, independiente de los factores de riesgo identificados, y la otitismedia, aguda y recurrente durante los primeros 12 meses de vida. Los individuos estudiadosfueron 1220 infantes que utilizaron un metodo de cuidados de salud. ~Cua! fue la poblacionobjetivo? ,CuM fue la poblaci6n muestreada?35. Un estudio de Kay et at. (A-35) tiene como prop6sito determinar la seguridad y eficacia de laablaci6n por radiofrecuencia como terapia definitiva de taquicardias auriculares primarias.Se estudiaron a 15 pacientes con arritmias auriculares primarias, en una etapa en que eltratamiento medico ya no controlaba la enfermedad. Los autores conduyeron que la abla­ci6n con un cateter de radiofrecuencia pareda ser una tecnica segura y eficaz para el trata­miento de arritmias auriculares primarias que no son tratables con medicamentos. cCua! esla poblaci6n objetivo? cCuaI es la poblacion muestreada?36. Bellomo et al. (A-36) condujeron un estudio para cuantificar la perdida de insulina y absor­ci6n de glucosa durante hemofiltraciones continuas agudas con dialisis, y evaluar la impor­tancia medica de estos cambios. Los individuos estudiados eran 16 pacientes de la unidad decuidados intensivos con insuficiencia renal aguda, en una dinica medica universitaria. Losautores conduyeron que una absorci6n significativa de la glucosa ocurre durante hemo­filtraciones agudas continuas con dialisis y esta vinculada con perdidas menores de insulinaa traves del filtro. cCuaI es lapoblaci6n objetivo? cCuaIes la poblaci6n muestreada? Comoparte del analisis, los autores construyeron un intervalo de confianza para varias medias.Con base en la informacion presentada, ~cual es el valor numerico adecuado para el factorde confiabilidad de los intervalos?
    • ---------200 CAPITULO 6 ESTlMACION37. Con base en e1 ejercicio 2.3.11, elabore un intervalo de confianza de 95 porciento para la raz6nSIR de las medias poblacionales. ~Se utilizaria t 0 z como coeficiente de confiabilidad? <Porque? Describa las poblaciones de las que es posible hacer inferendas, con base en este estudio.38. Consulte el ejercido 2.3.12 y e1abore un intervalo de confianza de 90 por ciento para la mediade la talla de la poblaci6n. ~Se utilizaria t 0 z como coeficiente de confiabilidad? ~Por que?Describa las pobladones de las que es posible hacer inferencias, con base en este analisis.39. En el capitulo 2, revise el ejercicio 35 para elaborar un intervalo de confianza de 99 pordento para la media del estado de nutrici6n de la poblaci6n. ~Utilizaria t 0 z como coefieientede confiabilidad? ~Por que? Describa las poblaeiones de las que es posible hacer inferencias,con base en este amilisis.Ejercicios para utilizar con grandes volumenes de datos almacenados en el disco paracomputadora, suministrado por el editor.1. Enreferencia a los niveles de colesterol para 1000 individuos (CHOLEST), seleccione una mues­tra aleatoria simple de tamano 15 de esta poblaci6n y elabore un intervalo de confianza de 95por eiento para la media de la poblaci6n. Compare los resultados contra los de oOOS compane­ros. ~Que suposiciones son necesarias para que el procedimiento de estimacion sea valido?2 En referencia a los niveles de colesterol para 1000 individuos (CHOLEST), seleccione unamuestra aleatoria simple de tamano 50 a partir de esta poblaci6n y elabore un intervalo deconfianza de 95 por ciento de la proporci6n de individuos en la poblaci6n que tienen lectu­ras mayores a 225. Compare los resultados contra los de otros companeros.3. De la poblaci6n de los pesos de 1200 bebes recien naeidos (BABYWGTS) en una clinica debeneficencia, extraiga una muestra aleatoria simple de tamano 20, y construya un interva­10 de confianza de 95 por ciento para la media de la poblacion. Compare los resultadoscontra los de otros compafieros. ~Que suposiciones son necesarias para que el procedimien­to de estimacion sea valido?4. De la poblaci6n de los pesos de 1200 bebes recien nacidos (BABYWGTS) en una cHnica debeneficencia, seleceione una muestra aleatoria simple de tamano 35, y construya un interva­10 de confianza de 95 por dento para la media de la poblaei6n. Compare este intervalo conel construido en el ejercieio anterior.5. De la poblaei6n de las estaturas de 1000 muchachos de 12 anos de edad (BOYHGTS), selec­eione una muestra aleatoria simple de tamano 15, y construya un intt:rvalo de conflanza de99 por ciento para la media de la poblacion. ~Que suposiciones son necesarias para que elprocedimiento sea valido?6. Apartir de la poblaci6n de las estaturas de 1000 muchachos de 12 anos de edad (BOYHGTS),seleccione una muestra aleatoria simple de tamano 35, yconstruya un intervalo de confianzade 99 por dento para la media de la poblaci6n. Compare este intervalo contra el construidoen el ejercicio 5 anterior.BmUOGRAFfABibliografia de metodologiaI. John A. Rice, Mathematical Statistics and Data Analysis, segunda edici6n, Duxbury, Belmont,CA.2. W. S. Gosset ("Student"), "The Probable Error of a Mean", Biometrika, 6, 1-25.
    • BIBLIOGRAFlA 2013. W. V. Behrens, "Ein Beitrag zu Fehlerberechnung bei wenige Bcobachtungen", Land­wirtsschaftlichejahrbucher, 68, 807-837.4. R. A. Fisher, "The Comparison of Sampleswith Possibly UnequalVariances",Annals ofEugenics,9,174-180.5. R. A. Fisher, "The Asymptotic Approach to Behrens Integral with Further Tables for the dTest of Significance", Annals ofEugenics, 11, 141-172.6. J. Neyman, "Fiducial Argument and the Theory of Confidence Intervals", Biometrika, 32,128-150.7. H. Scheffe, "On Solutions of the Behrens-Fisher Problem Based on the t-Distribution", TheAnnals ofMathematical Statistics, 14, 35-44.8. H. Scheffe, A Note on the Behrens-Fisher Problem", The Annals ofMathematical Statistics, 15,430-432.9. B. L. Welch, "The Significance of the Difference Between Two Means When the PopulationVariances Are Unequal", Biometrika, 29, 350-361.10. B. L. Welch, "The Generalization of Students Problem When Several Different PopulationVariances Are Involved", Biometrika, 34,28-35.11. William G. Cochran, Approximate Significance Levels ofthe Behrens-FisherTest", Biometrics,20,191-195.12. R. F. Tate y G. W. Klett, "Optimal Confidence Intervals for the Variance of a NormalDistribution",journal ofthe American Statistical Association, 54, 674-682.13. Wayne W. Daniel, Applied Nonparametric Statistics, segunda edici6n, PWS-KENT, Boston.Bibliografia de apIicacionesA-I. Maureen McCauley, "The Effect ofBody Mechanics Instruction onWork PerformanceAmongYoung Workers", The Americanjournal ofOccupational Therapy, 44, 402- 407. Copyright, 1990,American Occupational Therapy Association, Inc. Reimpreso con licencia.A-2. C. Tantucci, C. Corbeil, M. Chasse, J. Braidy, N. Matar yJ. Milic-Emili, "Flow Resistance inPatientswith Chronic Obstructive Pulmonary Disease inAcute Respiratory Failure", AmericanReview ofRespiratory Disease, 144, 384-389.A-S. Ricardo V. Uoyd yJoe Mailloux Analysis of S-1 00 Protein Positive Folliculo-Stellate Cells inRat Pituitary Tissues", Americanjournal ofPathology, 133, 338-346.A-4. Krzysztof Kaminski y Tomasz Rechberger, "Concentration of Digoxin-like ImmunoreactiveSubstance in Patients with Preeclampsia and Its Relation to Severity of Pregnancy-InducedHypertension", Americanjournal ofObstetrics and Gynecology, 165, 733-736.A-5. Jack M. Gorman, Robert Kertzner, Thomas Cooper, Raymond R. Goetz, Isabel Lagomasino,Hana Novacenko, Janet B. W. Williams, Yaakov Stern, Richard Mayeux y Anke A. Ehrhardt,"Glucocorticoid Level and Neuropsychiatric Symptoms in Homosexual Menwith HN PositiveInfection", Americanjournal ofPsychiatry, 148, 41-45.A-6. William]. Stone, Debra E. Rothstein y Cynthia L. Shoenhair, "Coronary Health Disease RiskFactors and Health Related Fitness in Long-Term Excercising versus Sedentary CorporateExecutives", Americanjournal ofHealth Promotion, 5, 169-173.A-7. Phillip S. Buckner, David A. Todd, Kei Lui y Elizabeth]ohn, "Effect of Short-Term MuscleRelaxation on Neonatal Plasma Volume", Critical Care Medicine, 19, 1357-1361, Williams &Wilkins.
    • 202 CAPITULO 6 ESTIMACIONA·S. Peter E Zucker y Michael C. Archer, "Alterations in Pancreatic Islet function Produced byCarcinogenic Nitrosamines in the Syrian Hamster", Americanjournal ofPathology, 133, 573­577.A-9. Barbara L. Davies, Louise Matte-Lewis, Annette M. OConnor, Corinne S. Dulbergy ElizabethR. Drake, "Evaluation ofthe Time to Quit Self-Help Smoking Cessation Program", Canadianjournal ofPublic Health, 83, 19-23.A·IO. Ali A. Khraibi, "Direct Renal Interstitial Volume Expansion Causes Exaggerated Natriuresisin SHR", Americanjournal ofPhysiology, 30, F567-F570.A-ll. J. Scott Osberg y Carla Di Scala, "Morbidity Among Pediatric Motor Vehicle Crash Victims:The Effectiveness of Seat Belts", Americanjournal ofPublic Health, 82, 422-425.A-12. D. C. Mathers, A. H. Ghodse, A. W. Caan y S. A. Scott, "Cannabis Use in a Large Sample ofAcute Psychiatric Admissions", Britishjournal ofAddiction, 86,779-784, Society for the StudyofAddiction to Alcohol and Other Drugs.A-13. George R. Brown y Bradley Anderson, "Psychiatric Morbidity in Adult Inpatients withChildhood Histories ofSexual and Physical Abuse",Americanjournal ofPsychiatry, 148, 55-61.A-I4. Joseph A. Catania, Thomas]. Coates, Susan Kegeles, Mindy Thompson Fullilove, JohnPeterson, Barbara Marin, David Siegel y Stephen Hully, "Condom Use in Multi-ethnicNeighborhoods of San francisco: The Population-Based AMEN (AIDS in Multi-EthnicNeighborhoods) Study", Americanjournal ofPublic Health, 82, 284-287.A-15. Alan D. Rothbergy Berenice Lits, "Psychosocial Supportfor Maternal Stress During Pregnancy:Effect on Birth Weight", Americanjournal ofObstetrics and Gynecology, 165, 403-407.A-I6. Sophie R. Borst, Gil G. Noam y John A. Bartok, "Adolescent Suicidality: A Clinical­Development Approach",journal ofthe AmericanAcademy ofChild and Adolescent Psychiatry, 30,796-803, de Am. Acad. of Child & Adol. Psychiatry.A-I7. Christina Hartgers, Anneke U. A. R.)van den Hock, Pieta Krijnen y RoelA. Coutinho, "HrvPrevalence and Risk Behavior Among, Injecting Drugs Users Who Participate in Low­Threshold Methadone Programs in Amsterdam", Americanjournal ofPublic Health, 82, 547­551.A·IS. Dorothy S. Lane, Anthony P. Polednak y Mary Ann Burg, "Breast Cancer Screening PracticesAmong Users of County-Funded Health Centers vs Women in the Entire Community",Amencanjournal ofPublic Health, 82, 199-203.A·19. EttaWilliams, Leclair Bissell y Eleanor Sullivan, "The Effects ofCo-dependence on Physiciansand Nurses", Britishjournal ofAddiction, 86,37-42, Society for the Study of Addiction toAlcohol and Other Drugs.A·20. Wilbert Aronow e Itzhak Kronzon, "Prevalence of Coronary Risk Factors in Elderly BlacksandWhites",journal oftheAmerican Geriatrics Society, 39,567-570, American Geriatrics Society.A.2I.Georgina Rassias, Mark Kestin y PauIJ. Nestel, "LinoleicAcid Lowers LDL CholesterolWithouta Proportionate Displacement ofSaturated Fatty Acid", Europeanjournal ofClinical Nutrition,45,315-320. iIA·22. Lorian E. Kennedy y Yagesh N. Bhambhani, "The Baltimore Therapeutic EquipmentWorkSimulator: Reliability and Validity at Three Work Intensities", Archives Of Physical Medicineand Rehabilitation, 72,511-516.
    • 7.1 INTRODUCCION7.2 PRUEBA DE HIPOTESIS PARALA MEDIA DE UNA SOLAPOBLACION7.3 PRUEBA DE HIPOTESIS PARALA DIFERENCIA ENTRE LASMEDIAS DE DOS POBLACIONES7.4 COMPARACION POR PAREJAS7.5 PRUEBA DE HIPOTESIS PARALA PROPORCION DE UNA SOLAPOBLACION7.6 PRUEBA DE HIPOTESIS PARALA DIFERENCIA ENTRE LASPROPORCIONES DE DOSPOBLACIONES7.1 INTRODUCCION7.7 PRUEBA DE HIPOTESIS PARALA VARIANCIA DE UNA SOLAPOBLACION7.8 PRUEBA DE HIPOTESIS PARALA RAZON DE LAS VARIANCIASDE DOS POBLACIONES7.9 ERROR TIPO II Y LA POTENCIA DE LA PRUEBA 7.10 CALCULO DEL TAMANO DE LAMUESTRA PARA CONTROLAREL ERROR TIPO II7.11 RESUMENEn el capitulo anterior se estudi6 un tipo de inferencia estadistica, la estimaci6n.El otro tipo, la prueba de hip6tesis, es el tema de estudio en este capitulo. Comoocurre con la estimaci6n, el proposito de la prueba de hipotesis es ayudar al medico,investigador 0 administrador a tomar una decision acerca de una poblacion mediante elexamen de una muestra de ella. La estimaci6n y la prueba de hip6tesis no son tandistintas como se podria suponer por el hecho de que en la mayorfa de los librosde texto se dedica un capitulo por separado a cada una. Como se explica masadelante, es posible utilizar intervalos de confianza para llegar a las mismasconclusiones que se alcanzan al utilizar los procedirnientos de prueba dehip6tesis que se estudian en este capitulo.Conceptos brisicos Se presentan en esta secci6n algunos conceptos basicos,indispensables para comprender la prueba de hip6tesis. Los detalles espedficos depruebas particulares aparecen en las secciones siguientes.204
    • BIBLIOGRAFlA 203A·23. Virginia L. Kubic, Paul T. Kubic y Richard D. Brunning, "The Morphologic and Immu­nophenotypic Assessment ofthe Lymphocytosis Accompanying Bordetellapertussis Infection",Americanjournal ofClinical Pathology, 95, 809-815.A-24. Terry E. Goldberg, Llewellyn B. Bigelow, Daniel R. Weinberger, David G. Daniel y Joel E.Kleinman, "Cognitive and Behavioral Effects ofthe Coadministration ofDextroamphetarnineand Haloperidol in Schizophrenia", Americanjournal ofPsychiatry, 148, 78-84.A·25. R. G. Hahn, A. W. Jones, B. Billing y H. P. Stalberg, "Expired-Breath Ethanol Measurementin Chronic Obstructive Pulmonary Disease: Implications for Transurethral Surgery", ActaAnaesthesiologica Scandinavica, 35, 393-397, Munkagaard International Publishers Ltd.,Copenhagen, Denmark.A-26. Steven M. Southwick, Rachel Yehuda y Earl L. GillerJr., "Characterization of Depression inWar-Related Posttraumatic Stress Disorder", Americanjournal ofPsychiatry, 148,179-183.A-27. Jacques M. Milliez, Denis Jannet, Claudine Touboul, Mahfoudh EI Medjadji y Bernard J.Paniel, "Maturation of the Uterine Cervix by Repeated Intracervical Instillation of Prosta­glandin E2",Americanjournal ofObstetrics and Gynecology, 165,523-528.A·28. Thomas R. M;Jtin, Brent P. Pistorese, Leonard D. Hudson y Richard J. Maunder, "TheFunction of Lung and Blood Neutrophils in Patients with the Adult Respiratory DistressSyndrome", American Review ofRespiratory Disease, 144, 254-262.A-29. Robert Harrison, Navin Savla y Kalman Kafetz, "Dementia, Depression and Physical Disabilityin a London Borough: A Survey of Elderly People in and out of Residential Care andImplications for Future Developments", Age and Ageing, 19, 97-103. Uso autorizado por laOxford University Press.A-30. Gary R. Thurnau, David H. Scates y Mark A. Morgan, "The Fetal-Pelvic Index: A Method ofIdentifmg Fetal-Pelvic Disproportion in Women Attempting Vaginal Birth Mter PreviousCesarean Delivery", Americanjournal ofObstetrics and Gynecology, 165, 353-358.A-31. J. Scott Osberg, Carla DiScala y Bruce M. Gans, "Utilization of Inpatient RehabilitationServices Among Traumatically Injured Children Discharged from Pediatric Trauma Centers",Americanjournal ofPhysical Medicine & Medicine Rehabilitation, 69,67-72.A-32. Mary Steinhardt, Linda Greenhow yJoy Stewart, "The Relationship of Physical Activity andCardiovascular Fitness to Absenteeism and Medical Care Claims Among Law EnforcementOfficers", Americanjournal ofHealth Promotion, 5, 455-460.A·33. M. M. el Fiky, D. P. Taggart, R. Carter, M. C. Stockwell, B. H. Maule y D. J. Wheatley,"Respiratory Dysfunction Following Cardiopulmonary Bypass: Verification ofa Non-invasiveTechnique to Measure Shunt Fraction", Respiratory Medicine, 87, 193-198.A·34. B. Duncan, J. Ey, C. J. Holberg, A. L. Wright, F. D. Martinez y L. M. Taussig, "ExclusiveBreast-feeding for at Least 4 Months Protects Against Otitis Media", Pediatrics, 91,867-872.A-35. G. N. Kay, F. Chong, A. E. Epstein, S. M. Dailey y V. J. Plumb, "Radiofrequency Ablation forTreatment of Primary Atrial Tachycardias", journal ofthe American College ofCardiology, 21,901-909.A·36. R. Bellomo, P. G. Colman, J. Caudwell y N. Boyce, "Acute Continuous Hemofiltration withDialysis: Effect on Insulin Concentrations and Glycemic Control in Critically III Patients",Critical Care Medicine, 20,1672-1676.
    • 2057.1 INTRODUCCIONDEFINICIONUna hipotesis se define simplemente como una proposici6nacerca de una 0 mas poblaciones.En general, la hipotesis se refiere a los parametros de las poblaciones para lascuales se hace la proposicion. El administrador de un hospital puede suponer queel periodo promedio de permanencia de los pacientes internados en el hospital es decinco dias; una enfermera del area de salud publica puede suponer que un deter­minado programa educativo hara que mejore la comunicacion entre enfermera ypaciente; un medico puede suponer que cierto medicamento sera eficaz en 90 porciento de los casos en que se utilice. Por medio de la prueba de hipotesis se determi­na si tales proposiciones son compatibles 0 no con los datos disponibles.Tipos de hipotesis Los investigadores se interesan en dos tipos de hipotesis:de investigaci6n y estadisticas.DEFINICIONLa hip6tesis de investigaci6n es la conjetura 0 suposici6nque motiva la investigaci6n.Puede ser el resultado de afios de observacion por parte del investigador. Unaenfermera en salud publica, por ejemplo, puede haber notado que ciertos pacien­tes respondieron mas rapidamente a un tipo particular de programa de educacionsanitaria. Un medico recordara. numerosos casos en los cuales ciertas combinacio­nes de medidas terapeuticas fueron mas efectivas que cualquiera de ellas por sepa­rado. Los proyectos de investigacion a menudo se llevan a cabo gracias al deseo detales profesionales de la salud para determinar si sus teorfas 0 sospechas se puedensostener 0 no al ser sometidas a los rigores de la investigacion cientifica.Las hipotesis de investigacion conducen directamente a las hipotesis esta­dfsticas.DEFINICIONLas hip6tesis estadisticas se establecen de tal forma quepueden ser evaluadas por medio de tecnicas estadisticasadecuadas.En este texto, las hipotesis que se estudian son de este tipo. Para los ejemplosy ejercicios se supone que las hipotesis de investigacion ya se han considerado.
    • 206 CAPITULO 7 PRUEBA DE HIPOTESISPasospara laprueba de hip6tesis Por conveniencia, la prueba de hip6te­sis se presenta como un procedimiento de diez pasos. Nada hay de magico 0 sagra­do acerca de este formato particular; simplemente divide el proceso en una secuencial6gica de acciones y decisiones.1. Datos. Es necesario comprender la naturaleza de los datos que forman labase de los procedimientos de prueba, ya que esto detemina la prueba parti­cular que se ha de utilizar. Se debe determinar, por ejemplo, si los datos cons­tan de conteos 0 medidas.2. Supuestos (restricciones). Como se estudi6 en el capitulo relacionado conla estimaci6n, diferentes suposiciones conducen a modificar los intervalos deconfianza. Lo mismo ocurre en la prueba de hip6tesis: un procedimiento ge­neral se modifica seglin las suposiciones. De hecho, las mismas suposicionesque son importantes en la estimaci6n, tambien 10 son para la prueba de hip6­tesis. Se ha visto que estas incluyen, entre otras, suposiciones respecto a lanormalidad de la distribuci6n de la poblaci6n, igualdad de variancias e inde­pendencia de las muestras.3. Hip6tesis. En la prueba de hip6tesis se trabaja con dos hip6tesis estadfsti­cas que deben anunciarse explfcitamente. La primera es la hipotesis que debeprobarse, mejor conocida como hip6tesis nula, y que se designa por el simboloHo La hip6tesis nula a veces se conoce como hipotesis de no diferencia, ya quees una proposici6n de conformidad con (0 sin diferencia respecto a) condi­ciones que se suponen ciertas en la poblaci6n de interes. En general, la hip6­tesis nula se establece con el prop6sito expreso de ser rechazada. Enconsecuencia, el complemento de la conclusi6n que el investigador desea al­canzar se convierte en el enunciado de la hip6tesis nula. En el proceso deprueba, la hip6tesis nula se rechaza 0 no se rechaza. Si la hip6tesis nula no serechaza, se dira que los datos sobre los cuales se basa la prueba no proporcio­nan evidencia suficiente que cause el rechazo. Si el procedimiento de pruebaconduce al rechazo, se concluye que los datos disponibles no son compatiblescon la hip6tesis nula, pero sirven como apoyo a alguna otra hip6tesis. Lahipotesis alternativa, identificada mediante el simbolo HA, es una proposici6nque se creera cierta si los datos de la muestra.llevan al rechazo de la hip6tesisnula. Por 10 general, la hip6tesis alternativa y la hip6tesis de investigaci6n sonla misma, y de hecho, se utilizan los dos terminos indistintamente.Reglas para establecer la hip6tesis estadistica Cuando las hip6tesisson del tipo considerado en este capitulo, el indicador de igualdad :5 02:: ) debeaparecer en la hip6tesis nula. Por ejemplo, suponga que se requiere responder a lapregunta: ~Se puede concluir que la media de una poblaci6n es diferente de 50?La hip6tesis nula es: .
    • 2077.1 INTRODUCCIONy la hipotesis alternativa esSuponga que se desea saber si puede concluirse que la media de la poblacion esmayor que 50. Se tienen las hipotesis:Si se quiere saber si es posible concluir que la media de la poblacion es menor que50, las hipotesis sonHA : Il <50En resumen, es posible establecer las siguientes reglas empiricas para decidirque proposicion se utiliza como hipotesis nula y cual como hipotesis alternativa.a) La conclusion a la que se desea 0 espera llegar como resultado de la pruebageneralmente se usa como hipotesis alternativa.b) La hipotesis nula debe contener una proposicion de igualdad, ya sea =, $; 0 ~ .c) La hipotesis nula es la que debe ser comprobada.d) Las hipotesis nula y alternativa son complementarias. Es decir, las dos con­templan de manera exhaustiva todos los valores posibles que los parametrosde suposicion pueden asumir.Precauci6n Debe sefialarse que, en general, ni la prueba de hipotesis ni la infe­rencia estadfstica conducen a la prueba de una hipotesis, sino que simplementeindican si esta es apoyada 0 no por los datos disponibles. Por 10 tanto, cuando no esposible rechazar una hipotesis nula, no se dice que es verdadera, sino que probable­mente es verdadera. Cuando se habla de aceptar una hipotesis nula, se tiene pre­sente esta limitacion y no se desea comunicar la idea de que la aceptacion implica lademostracion.4. Estadistica de prueba. La estadistica de prueba es alguna estadistica quese puede ca1cular a partir de los datos de la muestra. Como regIa, existenmuchos valores posibles que puede asumir la estadfstica de prueba, y el va­lor particular observado depende de la muestra particular extrafda. Comose vera mas adelante, la estadistica de prueba sirve como un productor dedecisiones, ya que la decision de rechazar 0 no la hipotesis nula depende de lamagnitud de la estadistica de prueba. Un ejemplo de estadfstica de pruebaes la cantidadX Iloz=--­(7.1.1)(J/-J;;
    • 208 CAPITULO 7 PRUEBA DE HIPOTESISdonde flo es un valor supuesto de la media de una poblaci6n. Esta estadisticade prueba esta relacionada con la estadistica(7.l.2)que ya nos es familiar.Formula general para la estadistica de prueba La siguiente es la for­mula general para una estadistica de prueba que se aplica en muchas de las prue­bas de hip6tesis que se estudian en este libro:. d b estad stica relevante - par metro supuestoestad sHea e prue a = --------~------"--error est ndar de la estad stiea relevanteEn la ecuacion 7.1.1., x es la estadistica relevante, flo es el parametro supuesto, y(j I,.J;; el error estandar de x.5. Distribucion de la estadistica de prueba. Se ha seftalado que la clave parala inferencia estadfstica es la distribuci6n muestral. Es necesario recordar estoen los casos en que sea necesario especificar la distribuci6n de probabilidadde la estadistica de prueba, Por ejemplo, la distribuci6n de la estadistica depruebazsigue una distribuci6n normal estandar si la hip6tesis nula es verdadera y sisatisface las suposiciones.6. RegIa de decision. Todos los valores posibles que la estadistica de pruebapuede asumir son puntos sobre el eje horizontal de la grafica de la distribu­ci6n para esta estadistica y se dividen en dos grupos: uno de eUos constituye10 que se conoce como region de rechazo y el otro forma la region de no rechazo.Los valores de la estadistica de prueba que forman la regi6n de rechazo sonaqueUos que tienen la menor probabilidad de ocurrir, mientras que los queforman la region de no rechazo tienen la mayor probabilidad de ocurrir, si lahip6tesis nula es verdadera para ambas regiones. La regia de decision senaLa quese debe rechazar La hipotesis nula si el valor de la estadistica de prueba que se calcula apartir de La muestra es uno de los valores de la regi6n de rechazo, y que no se deberechazar la hipotesis nula si el valor calculado de la estadistica de prueba es uno de losvalores de la region de no rechazo.Nivel de significacion La decisi6n en cuanto a que valores van hacia la regionde rechazo y cuales van hacia la region de no rechazo se toma con base en el nivel designificacion deseado, designado por cx. EI termino nivel de significacion refleja el
    • 2097.1 INTRODUCCION.hecho de que algunas veces la prueba de hipotesis recibe el nombre de "prueba designificacion", y un valor calculado para la estadfstica de prueba que cae en la re­gion de rechazo se dice que es significativo. El nivel de significacion, ex, designa elarea bajo la curva de la distribucion de la estadf~tica de prueba que esta por encimade los valores, sobre el eje horizontal, que constituyen la region de rechazo.DEFINICIONEI nivel de significaci6n 0" es una probabilidad y, dehecho, es la probabilidad de rechazar una hip6tesis nulaverdadera.Dado que rechazar una hipotesis nula verdadera serfa un error, parece razo­nable que se deba hacer pequena la probabilidad de cometerlo y, de hecho, esto es10 que se hace. Se elige un valor pequenode ex para hacer que la probabilidad derechazo para una hipotesis nula sea pequena. Los valores que se encuentran conmas frecuencia son .01, .05 Y.lO.Tipos de errores EI error que se comete cuando se rechaza una hipotesis nulaverdadera se conoce como error del tipo I. EI error del tipo II se comete cuando no serechaza una hipotesis nuIa falsa. La probabilidad de cometer un error del tipo IIse designa por ~.Siempre que se rechaza una hipotesis nula se tiene el riesgo de cometer unerror del tipo I, al rechazar una hipotesis nuia verdadera. Siempre que no se recha­za una hipotesis nula, existe el riesgo de no rechazar una hipotesis nuIa falsa. Engeneral, aunque se de un valor pequeno aa no se ejerce control sobre ~, aunque sesabe que en la mayoria de las situaciones practicas es mayor que a.Nunca se sabe si se ha cometido 0 no uno de estos errores cuando se rechazao no se rechaza una hip6tesis nula, ya que se desconoce elverdadero estado de lascosas. Si el procedimiento de prueba conduce al rechazo de la hipotesis nula, pue­de ser un consuelo el hecho de que aldar un valor pequeno a a la probabilidad decometer un error del tipo I tambienes pequefia. Si no se rechaza la hip6tesis nula,no se conoce el riesgo concurrente de cometer un error del tipo II, ya que por 10comun se desconoce a~, pero como se ha senalado, en la mayoria de situacionespracticas, se sabe que es mayor que a.La figura 7.1.1 muestra las posibles acciones que el investigador puede em­prender para varias condiciones de una prueba dehipotesis, as! como las condicio­nes en las que se produce cada uno de los dos tipos de error. .7. Calculo de la estadistica de prueba. A partir de los datos contenidos en lamuestra, se calcula un valor de la estadfstica de prueba y se compara contralas regiones de no rechazo y rechazo que ya fueron especificadas.8. Decision estadistica. La decision estadistica consiste en el rechazo 0 no re­chazo de la hipotesis nuIa. Se rechaza si el valor calculado de la estadistica de
    • 210 CAPITULO 7 PRUEBADE HIPOTESISC d" d I h t Ion lClon e a IpO eSls nu aAcci6nposibleNo rechazarHoRechazar Ho-"Verdadera FalsaAccion correcta Error tipo IIError tipo I Acci6n correctaFIGURA 7.1.1 Condiciones en las que es posible cometer un errorde tipo I 0 un error de tipo II..prueba cae en la region de rechazo, y no se rechaza si el valor calculado de laestadfstica de prueba cae en la region de no rechazo.9. Condusi6n. Si Ho se rechaza, se concluye que HA es verdadera. Si Ho no serechaza, se concluye que Ho puede ser verdadera.10. Valor dep. El valor de pes una cantidad que indica que tan ins6litos son losresultados de la muestra, considerando que la hip6tesis nula sea verdadera.Un valor de pindica que no es muy probable quelos resultados de la muestrahayan ocurrido; ofrece lajustificaci6n para dudar de la certeza de la hip6te­sis nula, si esta es verdadera.Es importante aclarar que cuando la hip6tesis nula no es rechazada, tampocose puede decir que se acepta. Se debe decir que la hip6tesis nula "no se rechaza". Seevita el uso de la palabra "aceptar" en este caso porque pudiera haberse cometidoel error de tipo II. Dado que, frecuentemente, la probabilidad de cometer unerror de tipo II puede ser realmente alta, no se pretende cometerlo al aceptar lahip6tesis nula.La figura 7.1.2 muestra un diagrama de flujo de los pasos a seguir cuando seaplica una prueba de hip6tesis.Proposilo deprobar la hlpolesil Uno de los prop6sitosde la prueba dehipotesis es ayudar a los administradores y medicos en la toma de decisiones. Engeneral, la decisi6n clfnica 0 administrativa depende de la decisi6n estadfstica. Sise rechaza la hip6tesis nula, la decisi6nclfnica 0 administrativa refleja, por 10 gene­ral, el hecho de que la decisi6n escompatible con la hip6tesis alternativa. Engeneral, se cumple 10 opuesto si no se rechaza la hip6tesis nula. Sin embargo, ladecisi6n administrativa 0 clfnica puede tener otras formas, como la decisi6n dereunir mas datos. .Sin embargo, en este punto es necesario destacar que el resultado de la esta­dlstica de prueba s6lo es una parte de la evidencia que influye sobre la decisi6nadministrativa oclinica. La decisi6n estarnstica no debe interpretarse como defini­tiva, sino considerarse junto con toda la demas informaci6n importante de quedisponga el experimentador.Con base en estos comentarios generales se estudian a continuaci6n pruebasde hip6tesis espedficas.
    • 2117.2 PRUEBA DE HIPOTESrS PARA LA MEDIA DE UNA SOLA POBLACrONFIGLRA 7.1.2 Pasos del procedimiento para prueba de hip6tesis.7.2 PRUEBA DE HlPOTESIS PARA lANIEDIA DE UNA SOlA POBlACIONEn esta secci6n se estudia la prueba de una hip6tesis en lOrno a la media de unapoblaci6n seglin tres condiciones distintas: I) cuando el muestreo se realiza a partirde una poblaci6n de valores que siguen una distribud6n normal con variancia co­nocida; 2) cuando el muestreo se realiza a partir de una poblaci6n con distribuci6n
    • 212 CAPITULO 7 PRUEBA DE HIPOTESISnOImal y con variancia desconocida, y 3) cuando el muestreo se realiza a partir deuna poblacion que no presenta una distribucion normal. Aunque la teorIa para lascondiciones 1y 2 depende de poblaciones con distribucion normal, es una practicacomun aplicar la teorIa cuando las poblaciones importantes solo estan distribuidasen forma aproximadamente normal. Esto es satisfactorio siempre que la desviacionde la normalidad es moderada. Cuando el muestreo se realiza a partir de una po­blacion que sigue una distribucion normal y se conoce la variancia de la poblacion,la estadistica de prueba para Ho: Il Ilo esx Iloz (7.2.1)cr/{;;La cual, cuando Ho es verdadera, tiene una distribucion normal estandar. Los ejem­plos 7.2.1 y 7.2.2 ilustran la prueba de hipotesis en estas condiciones.Muestreo a partir de poblaeiones con distribuewn nornral y varian­eias eonoeidas Como se hizo notar en el capitulo 6, nuevamente se destacaque las situaciones en las que la variable de interes sigue una distribucion normalcon variancia conocida son casos poco comunes. EI siguiente ejemplo, sin embargo,sirve para ilustrar el procedimiento.FJEMPLO 7.2.1Un grupo de investigadores esta interesado en conocer la edad media de ciertapoblacion. Por decirlo asi, se preguntan 10 siguiente: ~Se puede concluir que laedad media de la poblacion es diferente de 30 alios?Solucion: Con base en el conocimiento de pruebas de hipotesis, se puede contes­tar que es posible concluir que la edad media de la poblacion es diferen­te de 30, s610 si se puede rechazar la hipotesis nula que indica que lamedia es igual a 30. Mediante el uso del procedimiento de diez pasospara la prueba de hipotesis, explicado en la secci6n anterior, se puedeayudar a los investigadores a tomar una decision.1. Datos. Los datos disponibles para los investigadores son las eda­des de una muestra aleatoria simple de 10 individuos, extraida de lapoblaci6n de interes. A partir de esta muestra se calcula que la me­dia de x 27.2. Supuestos. Se supone que la muestra de valores proviene de unapoblacion cuyas edades siguen una distribucion aproximadamentenormal. Suponga tambien que la poblacion dene una variancia co­nocida de cr2= 20.3. Hipatesis. La hip6tesis por probar, 0 hipotesis nuIa, es la siguien­te: la edad media de la poblacion es igual a 30. La hipotesis alterria­tiva indica que la edad media es diferente de 30. Esimportantenotarque se esta identificando la hipotesis altemativa con la conclusion ala que quieren llegar los investigadores, de manera que si los datospermiten rechazar la hipotesis nuIa, Ia conclusion de los investiga­dores tendra mayor peso, dado que la probabilidad complementa­
    • 7.2 PRUEBA DE HIPOTESIS PARA LA MEDIA DE UNA SOLA POBLACION 213ria de rechazar una hipotesis nula verdadera sera pequena. Es nece­sario asegurarse de esto al asignar un valor pequeno a ex, que es laprobabilidad de cometer un error de tipo 1. Se puede presentarla hipotesis relevante en forma abreviada de la siguiente manera:Ho: 11= 30HA: 11 * 304. Estadistiea de prueba. Dado que se esta probando una hipotesisacerca de la media de una poblacion, y que se supone que esta sigueuna distribucion normal, y puesto que se conoce la variancia, la es­tadistica de prueba se obtiene mediante la ecuacion 7.2.1.5. Distribucion de la estadistiea de prueba. Con base en el conoci­miento acerca de las distribuciones muestrales y de la distribucionnormal, se sabe que la estadistica de prueba tiene una distribu­cion normal, con una media de 0 y una variancia de 1, si Ho esverdadera. Existen muchos valores posibles para la estadistica deprueba que se pueden generar en esta situadon: uno por cada mues­tra posible de tamano 10 que pueda ser extraida de la poblacion.Dado que se extrajo una sola muestra, se tiene solo uno de esosvalores posibles en el que se apoya la decision.6. Regia de decision. La regIa de decision indica que Ho se ha de re­chazar si elvalor calculado de la estadistica de prueba cae en Ia regionde rechazo, y no se ha de recbazar si cae en la region de no rechazo. Acontinuad6n es necesario especificar las regiones de rechazo y no re­chazo. Se puede empezar por preguntar cual debe ser Ia magnitud delos valores de Ia estadfstica de prueba para rechazar a Ho Si la hipote­sis nula es falsa, esto puede ser por que Ia media real es menor que 0mayor que 30. Por 10 tanto, los valores de la estadfstica de pruebasuficientemente pequefios 0 suficientemente grandes causaran elrechazo de la hipotesis nula. Estos valores extremos constituyen la re­gion de rechazo. ~Que tan extremo debe ser un valor posible de laestadfstica de prueba para ser clasificado dentro de la region de re­chazo? La respuesta depende del nivel de significadon elegido, esdecir, dettamano de la probabilidad de cometer un error del tipo I ..Suponga que se quiere que la probabilidad de rechazar una hipotesisnula verdadera sea ex = .05. Dado que la region de rechazo esm for­mada por dos partes, los valores suficientemente pequenos y los sufi­cientemente grandes de la estadfstica de prueba, una parte de 0: est.aasociada con los valores grandes y la otra parte con los valores peque­nos. Parece logico que se pueda dividir a 0: en partes iguales, que a/2= .025 este asociada con valores pequenos y que la otra (mitad de)a/2 = .025 se asocie con valores grandes.Valor endeo de la estadfstiea de prueba~Que valor de la estadfstica es tan grande que, cuando la hipotesis nula esverdadera, la probabilidad de obtener un valor igual 0 mayor es de .025?
    • 214 CAPITULO 7 PRUEBA DE HIPOTESISa/2= .025 a/2 = .025-1.96· o 1.96 xRegi6n deno rechazoRegi6n de rechazo Regi6n de rechazoFIGURA 7.2.1 Regiones de rechazo y no rechazo para eI ejemplo 7.2.1.En otras palabras, (cu;H es el valor de z ala derecha del cual esta .025 delarea bajo la distribucion normal estandar? EI valor de z a la derechadel cual esta .025 del area es el mismo valor que tiene .975 del areaentre este valor y 00. Se busca en el cuerpo de la tabla D hasta encontrar.975 0 su valor mas cercano y se leen las anotaciones correspondientes almargen para obtener el valor de z. Para el presente ejemplo, z = 1.96.Un razonamiento similar permite encontrar que -1.96 es el valor de laestadistica de prueba tan pequeno que, cuando la hipotesis nula es ver­dadera, la probabilidad de obtener un valor as! de pequeno 0 menor esde .025. Nuestra region de rechazo, entonces, consiste en todos los valo­res de la estadfstica de prueba mayores 0 iguales que 1.96 0 menores 0iguales que -1.96. La region de no rechazo se compone de todos losvalores intermedios. Se puede establecer la regia de decision para estaprueba como sigue: rechazar Ho si el valor calculado de La estadistica de prue­ba es;;::: 1.96 0 ~ - 1.96. De otra forma, no se rechaza Ho Las regiones derechazo y no rechazo se muestran en la figura 7.2.1. A los valores de laestadfstica de prueba que separan las regiones de rechazo y no rechazose les llama valores criticos de la estadfstica de prueba, y a la region derechazo se Ie conoce tambien como region critica.La regia de decision indica que se calcule un valor para la estadfs­tica de prueba a partir de los datos de la muestra y que se rechace Ho sise obtiene un valor mayor 0 igual que 1.960 menor 0 igual que -1.96, yque no se rechace Ho si se obtiene cualquier otro valor. EI valor de 0; y, enconsecuencia, la regiade decision deben ser establecidos antes de reunirlos datos. Esto evita que los resultados de la muestra influyan en la deci­sion qlle se va a tomar acerca de a. Esta condicion de objetividad es muyimportante y debe conservarse en todas las pruebas.7. CaIculo de la estadfstica de prueba. Apartir de la muestra se calcula-3-2.121.4142z
    • 7.2 PRUEBA DE HIPOTESIS PARA LA MEDIA DEUNA SOLA POBLACION 2158. Decision estadistica. Con base en la regIa de decision, se puederechazar la hipotesis nula porque-2.12 esta en la region de rechazo.Se puede decir que el valorcalculado de la prueba estadistica tieneun nivel de significacion de .05.9. Conclusion. Se concluye que /lno es igual que 30 y que las accio­nes del administrador 0 medico deberan estar de acuerdo con estaconclusion.10. Valor dep. En lugar de decir que un valor observado de la estadis­tica de prueba es.·o no significativo, muchos autores de obras deinvestigacion prefieren informar la probabilidad exacta de obtenerun valor tanto 0 mas extrema que el observado, si la hip6tesis nulaes verdadera. En el presente caso, estos investigadores darian el va­lor calculado.de la estadfstica de pruebajunto con la proposici6np =.0340. Dicha proposici6n significa que la probabilidad de obte­ner un valor tan extremo como 2.12 en cualquier direcd6n, cuandola hip6tesis nula es verdadera, es de .0340. Este valor se obtienede la tabla Dyes la probabilidad de observar z 2.120 a z 2.12cuando la hipotesis nula es verdadera. Es decir, cuando Ho es verda­dera, la prohabilidad de obtener un valor de z mayor 0 igual que2.12 es .0170, y la probabilidad de observar un valor de z menor 0igual que - 2.12 es de .0170. La probabilidad de que ocurra cual­quiera de estos casos, cuando Ho es verdadera, es igual a la suma delas dos probabilidades individuales, y en consecuencia, en este ejem­plo, se dice que p =.0170 + .0170 = .0340. La cantidadp seconocecomo el valor p para la prueba. .DEFINICIONEI valor p para laprueba de unabipotesis es laprobabilidad de obtener, cuando Hoesverdadera, un valor de la estadistica de pruebatan extremo 0 mas (en la direccion adecuadapara H A) que el valor calculado en realidad.EI valorp para una prueba pl,lede definirse tambien como el valormas pequeno de a por el cualla hip6tesis nulase puede rechazar. Puestoque, en el ejemplo 7.2.1, el valor de p es .0340, se sabe que se podriahaber seleccionado un valor a tan pequeno como .0340 y aun rechazarla hip6tesis nula. Si se hubiera elegido un valor de a menor que .0340,no hubiera sido posible rechazar la hip6tesis nula. Una regIa generalque vale la pena recordar es: si el valor p es menor 0 igual que a, es posiblerechazar la hip6tesis nula; si el valor p es mayor que a no es posible rechazar lahip6tesis nula.
    • 216 CAPITULO 7 PRUEBA DE HIPOTESISEI informe de valoresp como parte de los resultados de una inves­tigacion proporciona mas informacion allector que afirmaciones como"la hipotesis nula se rechaza conun nivel de significaci6n de .05" 0 "losresultados no fueron significativos en el nivel.05". AI informar el valorpasociado con una prueba se permite al lector saber con exactitud quetan extrano 0 que tan comlin es el valor calculado de la estadfstica deprueba dado que Ho esverdadera. •Prueba de Hopor medio de un intervalo de conjianza Anteriormentese estableci6 que es posible utilizar intervalos de confianza para probar hipotesis.En el ejemplo 7:2.1 se utilizo un procedimiento de prueba de hipotesis para probarHo: Il = 30 contra la hip6tesis alternativa HA: Il :t:. 30. Fue posible rechazar la hipo­tesis nula Ho porque el valor calculado de la estadfstica de prueba cayo en la regionde rechazo.A continuacion semuestracomo se hubiera podido Uegar a esta misma con­chisionmediante el uso de un intervalo de confianza de 100(1 - a.) por ciento. Elntervalo de confianza de 95 por ciento para Il es. 27 ± 1.96 ~20 /1027 ± 1.96(1.4142)27 ± 2.771824.2282,29.7718Dado que este intervalo nO incluye a 30, se dice que 30 no es un candidato para lamedia que se esta. estitnando y, porlo tanto, Il no es igual a 30 y se rechaza a Ho Estaes la misma conclusion a la que se lleg6 mediante el procedimiento de prueba dehipotesis. .Si el parametro supuesto, 30, sehubiera incluido en el intervalo de confianzade 95 por ciento, se habria dicho que Ho no se rechaza en el nivel.05 de significa­cion. En general, cuando se prueba una hip6tesis nula por media de un intervalo de con­Jianza Oilateral, se rechaza a H0 en el nivel a. de significaci6n si el parametro supuesto noestri contenido dentro del intervalo de confianza de 100(1 a.) por ciento. Si el parametrosupuesto estd contenido dentro de dicho intervalo, no es posible rechazar Ho en ~el nivel a. designificaci6n.Prueba de hipotesis unilateral El intervalo de hipotesis ill!.strado por elejemplo 7.2.1 es un ejemplo de prueba bilateral, Hamada asf porque la region derechazo sedivide entre los dos lados 0 colas de la distribucion de la estadisticade prueba; Una prueba de hipotesis puede ser unilateral, en cuyo caso toda la re­gion de rechazo esta en una u otra cola de la distribucion. El quese utilice unaprueba unilateral 0 bilateral depende de la naturaleza de la cuestion planteada porel investigador.Si tanto los valorespequenos como los grandes causan el rechazo de una hi­potesis Hula, 10 indicado es utilizar una prueba bilateral. Cuando linicamente losvalores suficientemente "pequenos" 0 suficientemente "grandes" causan el rechazode la hip6tesis nula, 10 indicado es utilizar una prueba unilateral.
    • 7.2 PRUEBA DE HIPOTESIS PARA LA MEDIA DE UNA SOLA POBLACION 217FJEMPLO 7.2.2Con base en el ejercicio 7.2.1, en lugar de preguntarse la posibilidad de concluirque ~ *- 30, suponga que los investigadores se hubieran preguntado: ms posibleconcluir que ~ < 30? La respuesta a esta pregunta es que puede llegarse a esta con­clusion si es posible rechazar la hipotesis nula ~ ~ 30.Solucion: Mediante el uso del procedimiento de los diez pasos y con base en unaprueba unilateral se llega a una decisi6n.1. Datos. Ver el ejemplo anterior.2. Suposiciones. Ver el ejemplo anterior.3. Hipotesis.Ho: ~~30HA : ~< 30La desigualdad en la hipotesis nula implica que esta comprende unniimero infinito de hip6tesis. La prueba se hace solo para el punto deigualdad,porquepuede mostrase que si Ho se rechaza cuando la prue­ba se hiKe en el punto de igualdad, esta serfa rechazada si la prueba sehiciera para cualquier otro valor de ~ inrucado en la hipotesis nula.4. Estadistica de prueba.5. Distribucion de Ia estadistica de prueba. Ver el ejemplo anterior.6. RegIa de decision. Sea nuevamente a = .05. Para determinar don­de ubicar la regi6n de rechazo, es necesario preguntar respecto a lamagnitud de los valores que causarfan el rechazo de la hipotesisnula. 5i se observa la hipotesis, se ve que los valores suficientementepequenos causarfan el rechazo y que los valores grandes tenderian areforzar la hipotesis nula. Es dedesear que la region de rechazo este.donde estan los valores pequeiios, es decir,.en la cola inferior de ladistribucion. Esta vez, dado que se tiene una prueba unilateral, todaa iraenla unica cola de la distribuci6n. AI consultar la tabla D, seencuentra que el valor de z ala izquierda del cual esta .05 del areabajo la curva normal estandar es -:1.645, despues de la interpolaci6n.Finalmente, se especifican las regiories de rechazo y se muestran enla figura 7.2.2.La regIa de decision seiiala que se rechaza Ho si el valor calcu­lado de la estadistica de prueba es menor 0 igual que -1.645.
    • 218 CAPITULO 7 PRUEBA DE HIPOTESIS.0527-30z=-1.645 o zRegion de rechazo Region de no rechazoFIGURA 7.2.2 Regiones de rechazo y no rechazo para el ejemplo 7.2.2.7. Calculo de la estadistica de prueba. A partir de los datos, secalcula que==-2.128. Decision estadistica. No sepuede rechazar la hipotesis nula debi­do a que -2.12 < -1.645.9. Conclusion. Se concluye que la media de la poblacion es menor a30 y se debera actuar en consecuencia.10. EI valor dep. El valor de ppara esta prueba es .0170; porque P(z-2.12), cuando Ho es verdadera, es de .0170, valor que se presentaen la tabla D cuando se determina la magnitud del area a la iz­quierda de -2.12 bajo la curva normal estandar. Puede probarseuna hipotesis nula unilateral por medio de un intervalo de confian­za unilateral. Sin embargo, en este libro no se estudiala elaboracione interpretacion de este tipo de intervalos de confianza.Si la pregunta de los investigadores hubiera sido: "(Es posible concluirque la media es mayor que 3D?", al seguir el procedimiento de los diezpasos, se habrfa llegadoa una prueba unilateral con toda la region derechazo en la cola superior de la distribucion de la estadfstica de pruebay a un valor crftico de +1.645. •, . .illuestreo a partir de una poblaci6n con distribuci6n normal y va­riancia desconocida Como ya se ha sefialado, en general, se desconoce lavariancia de la poblacion en situaciones realesque tienen que ver con la inferen­cia estadistica en tomo a la media de una poblaci6n. Cuando el muestreo se realiza apartir de una poblaci6n que sigue una·distribucion normal con una variancia des­conocida la estadistica de prueba Ho: 11 = 110 esX-Ilt= 0(7.2.2)
    • 7.2 PRUEBA DE HIPOTESIS PARA LA MEDIA DE UNA SOLA POBLACION 219la cual, cuando Ho es verdadera, sigue una distribuci6n t de Student con n -1 gradosde libertad. EI siguiente ejemplo ilustra el procedimiento de prueba de hip6tesiscuando se supone que la poblaci6n sigue una distribuci6n normal y se desconoce lavariancia. Esta situaci6n es muy comun en la vida real.Los investigadores Castillo y Lillioja (A-I) describieron una tecnica, desarrolladapor ellos, para la canulaci6n Jinfatica periferica en seres humanos. Los autores afir­man que su tecnica simplifica el procedimiento y permite la recolecci6n de volume­nes convenientes de linfa para estudios metab6licos y cineticos. Los individuosestudiados fueron 14 adultos varones sanos representativos de un rango amplio depesos corporales. Una de las variables de medici6n fue el indice de masa corporal(IMC) == peso (kg)/estatura2(m2). Los resultados se muestran enla tabla 7.2.1. Sepretende saber si es posible conduit que la media del IMC para la poblaci6n de laque se extrcyo la muestra no es 35.Solucion: Se lograra concluir que la media de la poblaci6n no es 35 si los investiga­dores pueden rechazar la hip6tesis nula que dice que la media de lapoblaci6n es igual a 35.1. Datos. Los datos consisten en las mediciones del IMC de los 14individuos, tal como se describi6 previamente.2. Supuestos. Los 14 individuos constituyen una muestra aleatoriade una poblaci6n de individuos con las mismas caracterfsticas.3. Hipotesis.Ho: Il= 35 H :Il:t: 35· ATABlA 7.2.1 Indice de masa corporal (IMC),mediciones para los indhiduos varones descritosen el ejemplo 7.2.3Individuo IMC Individuo lMC Individuo IMC1 23 6 21 11 232 25 7 23 12 263 21 8 24 13 314 37 9 32 14 455 39 .10 57...FUENTE: Charles E. Castillo y Stephen LtlhoJa, "Penphenal LymphaticCannulation for Physiological Analysis of Interstitial Fluid Compartment.. in Humans", American Journal of Physiology, 261 (Heart and CirculationPhysiology, 30), H1324-H1328.
    • 220 CAPITULO 7 PRUEBA DE HIP6TESIS.05-1.645 oRegion de rechazo Region de no rechazoFIGURA 7.2.3 Regiones de rechazo y no rechazo para el ejemplo 7.2.3.4. Estadistica de prueba. Dado que se desconoce la variancia de la po­blad6n, la estadfstica de prueba se obtiene mediante la ecuaci6n 7.2.2.5. Distribucion de la estadfstica de prueba. La estadistica de prue­ba sigue una distribuci6n t de Student, con n - 1 = 14 - 1 13 gra­dos de libertad, si Ro es verdadera.6. RegIa de decision. Sea a = .05. Dado que se tiene una prueba bila­teral, se pone a/2 = .025 en cada cola de la distribuci6n de la esta­dfstica de prueba. Los valores de tala derecha e izquierda de loscualesesta .025 del area son 2.1604, y -2.1604. Estos valores apare­cen en la tabla E. Las regiones de rechazo y de no rechazo se mues­tran en la figura 7.2.3.La regIa de decisi6n indica que es necesario calcular un valorpara la estadfstica de prueba y que se debe rechazar Ro si el valor det calculado es mayor 0 igual que 2.1604 0 menor 0 igual que -2.1604.7. CaIculo de Ia estadistica de prueba. A partir de los datos de lamuestra se calcula una media igual a 30.5 y una desviaci6n estandarde 10.6392. AI sustituir estos datos en la ecuaci6n 7.2.2 se dene:-4.5--=-1.582.84348. Decision estadistica. No se rechaza Ro ya que -1.58 cae en laregi6n de no rechazo.9. Conclusion. La conclusi6n, con base en estos datos, es que la me­dia de la poblacion de la cual se extrajo la muestra puede ser 35.10. EI valor de p. EI valor exacto de p para esta prueba no se puedeobtener de la tabla E debido a que solo presenta valores de t parapercentiles seleccionados. Sin embargo, el valorppuede enundarsecomo un intervalo. En este ejemplo, -1.58 es menor que -1.350, elvalor de tala izquierda del cual estft .10 del area bajo t con 13 gra­dos de libertad, pero mayor que -1.7709, ala izquierda del cual estft
    • 7.2 PRUEBA DE HIP6TESIS PARA LA MEDIA DE UNA SOLA POBLACI6N 221Area=.10 Area .10 .10> p/2 > .05 .10> p/2 > .05, Area = .05 Area = .05----"-----­-1.7709 -1.58 -1.350 o 1.3501.58 1.7709.20> p> .10FIGURA 7.2.4 Caculo del valor de p para el ejemplo 7.2.3..05 del area. En consecuencia, wando Ho es verdadera, la probabi­lidad de obtener un valor de t menor 0 igual que -1.58 es menorque .10, pero mayor que .05. Es decir, .05 < pet ....,1.58) < .10.Dado que la prueba es bilateral, debe permitirse la posibilidad deun valor calculado de la estadfstica de pruebatan grande en la di­recci6n opuesta como el observado. La t~bla E revela que .05 < pet1.58) < .10. EI valor de p, entonces, es de .10 < P< .20. La figura7.2.4 muestra el valorp para este ejemplo.Si en el ejemplo anterior la hip6tesis hubiera sidoHo: fl2 35 HA: fl < 35 el procedimiento de prueba habria conducido a una prueba unilateralcon toda la regi6n de rechazo en la cola inferior de la distribuci6n, y si lahip6tesis hubiera sidoHo: fl:::; 35 H A: fl> 35 se habria tenido una prueba unilateral con toda la regi6n de rechazo enla cola superior de la distribuci6n. •Muestreo a partir de una poblacion que nopresenta una distribu­cion normal Si, como ocurre con frecuencia, la muestra en la cual se basa laprueba de la hip6tesis acerca de la media de una poblaci6n proviene de una po­blaci6n que no presenta una distribuci6n normal, y si la muestra es grande (ma­yor 0 igual que 30), es posible utilizar el teorema del limite centraly usar z= (x - flo);(cr ;..[;;) como la estadistica de prueba. Si no se conoce la desviaci6n estandar de lapoblaci6n, la practica comtin es utilizar la desviaci6n estandar de la muestra comouna estimaci6n. La estadistica de prueba para la prueba de la hip6tesis nula Ho: flflo, entonces, esX floz::::-­ (7.2.3)s ;..[;;
    • 222 CAPITULO 7 PRUEBA DE HIPOTESISla cual, cuando Ho esverdadera, sigue una distribuci6n semejante a la distribuci6nnormal estandar si n es grande. El razonamiento para sustituir con s a a es que lamuestra grande, necesaria para que el teorema del li:mite central sea aplicable,proporcionani una desviaci6n estiindar de la muestra que se acerca losuficiente a a.FJEMPLO 7.2.4Los objetivos de un estudio de los investigadores Wilbur et al. (A-2) eran descubrirlos estados menopausicos, los smtomas, la energia utilizada y la condici6n fisicaaer6bica en mujeres de edad madura y, ademas, determinar las relaciones entreestos factores. Entre las variables medidas estaba el consumo maximo de oxfgeno(V02ma) La calificaci6n media de (V02m.J para una muestra de 242 mujeres fue de33.3 con una desviaci6n estandar de 12.14 (Fuente: Family and Community Health,Vol. 13:3, p. 73, Aspen Publishers, Inc., ©). Se pretende saber si, con base en estosdatos, es posible conduir que la calificaci6n media para una poblaci6n de mujerescon estas caracteristicas es mayor que 30.Soluci6n: Se dice que los datos proporcionan suficiente evidencia para conduirque la media de la poblaci6n es mayor que 30 si puede rechazarse lahip6tesis nula que dice que la media es menor 0 igual que 30. Para talfin, puede llevarsea cabo la siguiente prueba:1. Datos. Los datos son las puntuaciones de V02ma.x para las 242 mu­jeres con if 33.3ys 12.14.2. Supuestos. Los datos constituyen una muestra aleatoria simple deuna poblaci6n de mujeres de edad madura con las caracterfsticas si­milares a las que se presentan en la muestra. Se considera que las me­diciones de V02max siguen una distribuci6n normal en tal poblaci6n.3. Hipotesis.Ho: Jl ~ 30HA : Jl> 304. Estarustica de prueba. La estadistica de prueba esta dada por laecuaci6n 7.2.3, dado que a se desconoce.5. Distribucion de Ia estadistica de prueba. En virtud del teoremadellfmitecentral, la estadfstica de prueba sigue, en el peor de loscasos, una distribuci6n aproximadamente normal con Jl 0 si Ho esverdadera.6. RegIa de decision. Sea (X = .OS. EI valor critico de la estadistica deprueba es de 1.64S. Las regiones de rechazo y de no rechazo seilustran en la figura 7.2.S. Se rechaza Ho si se calcula z 2 1.64S.7. Caiculo de Ia estadistica de prueba.33.3-30 3.3z= = =4.2312.14/~242 .7804
    • 7.2 PRUEBA DE HIPOTESIS PARA LA MEDIA DE UNA SOLA POBLACION 223.05o 1.645 zRegi6n de no rechazo Regi6n de rechazollGURA 7.2.5 Regiones de rechazo y no rechazo para el ejemplo 7.2.4.8. Decision estadistica. Se rechaza Ho porque 4.23 > 1.645.9. Conclusion. Se conduye que el valor medio V02max para la pobla­cion muestreada es mayor que 30.10. El valor de p. El valor de p para esta prueba es < .001, porque4.23 es mayor que 3.89. •Procedimien1osparaoirascondiciones Si sehubiera conocido la varianciade la poblacion, el procedimiento habrfa sido identico al anterior, excepto que elvalor conocido de cr, en lugar del valor s de la muestra, se habria utilizado comodenominador de la estadfstica de prueba.Seglin 10 que desearan concluir los investigadores, los datos ob!enidos se podranutilizar para pruebas unilaterales 0 bilaterales, con la region de rechazo en la colainferior de la distribucion.Cuando se prueba una hipotesis respecto a una sola media de una poblacion,se puede utilizar la figura 6.3.3 para decidir rapidamente si la estadfstica de pruebaes Z 0 t.Analisispor computadora Para ilustrar el uso de la computadora para pro-bar hipotesis se emplea el siguiente ejemplo.FJEMPLO 7.2.5Los siguientes datos son de la circunferencia craneaL (en centimetros) de 15 nifiosrecien nacidos.33.3834.34·33.4632.1533.9534.1333.9933.8534.4534.1034.2334.1933.9732.7334.05Se desea probar Ho:·11 = 34.5 contra HA: 11 * 34.5.
    • 224 CAPITULO 7 PRUEBA DE HIPOTESISCaja de dialogo: Comandos de la sesi6n:Stat> Basic Statistics> 1-Sample t MTB > TTEST 34.5 ClTeclear Cl en Variables. SeleccionarTest mean y teclear 34.5 en la caja detexto. Clic OK.Resultados:T-Test of the MeanTEST OF MU 34.500 VS MU N.E. 34.500N MEAN STDEV SE MEAN T P VALUE15 33.798 0.630 0.163 -4.31 0.0007FIGURA 7.2.6 Procedimiento y resultados del paquete MINITAB para el ejemplo 7.2.5.Solndon: Se snpone que las condiciones para utilizar la estadlstica t se cumplen. Seregistran los datos en la columna 1 y se procede como se muestra en lafigura 7.2.6.Cada uno de los comandos del paquete MINITAB para pruebasunilaterales necesita un subcomando, EI subcomando es +1 para prue­bas unilaterales con la regi6n de rechazo en la cola derecha de la distri­buci6n de t; -1 es el subcomando para pruebas unilaterales con la regi6nde rechazo en la cola izquierda de la distribuci6n. Por ejemplo, si lahip6tesis alternativa para este ejemplo hubiera sido Il > 34.5, el coman­do del programa MINITAB serfaTTEST 34.5 CliALTERNATIVE +1.Si la hip6tesis alternativa hubiera sido Il < 34.5, los comandos del pro­grama MINITAB serian:~--------------~TTEST 34.5 Cli ALTERNATIVE -1. Para indicar que se trata de una prueba unilateral, en Windows, se hacedic con el mouse para seleccionar sobre la flecha que esti a un lado de lacaja identificada como Alternative, y se elige la opci6n "less than" 0"greater than" segUn sea el requerimiento. Si la distribuci6n z es la esta­distica de prueba que conviene, la primera palabra comando del pro­grama MINITAB es ZTEST. En Windows se escoge para la distribuci6n zI-Sample desde el menu Basic Statistics. Los demas comandos son losmismos que se utilizan para la prueba de la distribuci6n t.
    • FJERCICIOS EJERCICIOS 225A partir de la impresi6n se deduce que el valor calculado para la estadis­tica de prueba es -4.31 y que el valor p para la prueba es .0007. Losusuarios que utilizan el paquete SAS® pueden obtener estos resultadosmediante los procedimientos PROC MEANS 0 PROC UNIVARIATE parapruebas de hip6tesis.Cuando las estadisticas z y t son pruebas estadisticas inadecuadaspara utilizarlas con los datos disponibles, es deseable el uso de una tec­nica no parametrica para probar una hip6tesis respecto a una sola medi­da de tendencia central. Uno de estos procedimientos, la prueba delsigno, se estudia en el capitulo 13. •Para cada uno de los siguientes ejercicios utilizar el procedimiento de prueba de hip6tesis delos diez pasos para los niveles de significaci6n dados. Para cada ejercicio, donde sea conve­niente, explique la raz6n por la cual se escogi6 el tipo de prueba: unilateral 0 bilateraLAnalice c6mo podrfan los investigadores y medicos utilizar los resultados de la prueba dehip6tesis de estos ejercicios. Para los medicos e investigadores que decisiones y accionessedan las mas convenientes seglin los resultados de las pruebas realizadas?7.2.1 Los investigadores Bertino et al. (A-3) condujeron un estudio para examinar los datos reco­lectados correspondientes a la farmacocinetica de la gentamicina en tres poblaciones mayoresde 18 afios: pacientes con leucemia aguda, pacientes conotros padecimientos malignos noleucemicos y pacientes sin enfermedad maligna oculta 0 fisiopatologfas distintas de la insu­ficiencia renal que se sabe alteran la farmacocinetica de la gentamicina. Entre las estadisticasreportadas por los investigadores estaba el valor 59.1 como media inicial calculada de ladepuraci6n de creatina, con una desviaci6n estandar de 25.6 para una muestra de 211 pa­cientes con enfermedad maligna distinta de la leucemia. Se pretende saber si es posibleconduir que la media para la poblaci6n de individuos que presenta el mismo cuadro patol6­gico es menor que 60. Sea ex: 10.7.2.2 Uno de los estudios de los investigadores Klesges etal. (A-4) tiene como prop6sito averiguarlosfactores asociados con las discrepancias entre los niveles de carboxihemoglobina y el estado detabaquismo autodedarado. Una muestra de 3918 no fumadores autodedarados present6 unnive! medio de carboxihemoglobina de .9 con una desviaci6n estandar de .96. Se pretendesaber si es posible conduir que la media de la poblaci6n es menor que 1.0. Sea ex: =.01.7.2.3 El doctor Jeffrey M. Barrett (A-5) de Lakeland, en el estado de Florida, Estados Unidos,report6 los datos correspondientes a 8 casos de prolapso del cordon umbilical. Las edadesde las madres eran de 25, 28, 17, 26, 27, 22, 25 Y30 afios. Se pretende saber si es posibleconduir que la media de la poblaci6n de la que se supone fue extrafda la muestra es mayora 20 afios. Sea ex: =.01.7.2.4 Se hizo un estudio de una muestra de 25 expedientes de enfermos cr6nicos atendidos comopacientes externos. El niimero medio de consultas por paciente fue de 4.8 y la desviaci6nestandar de la muestra fue de 2. ms posible conduir a partir de estos datos que la media dela poblaci6n es mayor que cuatro visitas por paciente? Suponga que la probabilidad de come­ter un error de tipo I es de .05. ~Cuales son los supuestos que se deben cumplir?7.2.5 En una muestra de 49 adolescentes que se prestaron como sujetos para un estudio inmunol6gico,una variable de interes fue la prueba del diametro de reacci6n de la pie! a un antfgeno. Lamedia de la muestray la desviaci6n estandar fueron eritema de 21 y 11 mm, respectivamen­teo ,Es posible conduir a partir de estos datos que la media de la poblaci6n es menor que 30?Sea ex: =.05.
    • 226 CAPiTULO 7 PRUEBA DE HIPOTESIS7.2.6 Nueve animales de laboratorio fueron infectados con cierta bacteria y luego inmunosuprimi­dos. El numero medio de organismos aislados posteriormente de los tejidos de dichos ani­males fue de 6.5 (datos codificados) con una desviaci6n estandar de .6. iEs posible concluira partir de estos datos que la media de la poblaci6n es mayor que 6? Sea ex = .05. ~Quesupuestos se deben cumplir?7.2.7 Una muestra de 25 estudiantes de enfermeria de primer ano tuvo una calificaci6n media de77 en una prueba para medir su actitud hacia el paciente moribundo. La desviaci6n estandarde la muestra fue de 10. tProporcionan estos datos evidencia suficiente como para indicar,en un nive1 de significaci6n de .05, que la media de la poblaci6n es menor que 80? tQuesupuestos se deben cumplir?7.2.8 Se desea saber si es posible concluir que el consumo medio diario de calorias de la poblaci6nrural de un pais en desarrollo es de menos de 2000. Una muestra de 500 individuos produjoun consumo medio de 1985 y una desviaci6n estandar de 210. Sea ex = .05.7.2.9 Una encuesta de 100 hospitales de tamano similar revel6 un censo medio diario en el servi­cio de pediatria de 27 con una desviad6n estandar de 6.5. ~Proporcionan estos datos sufi­dente evidenda para indicar que la media de la poblaci6n es mayor que 25? Sea ex = .05.7.2.10 Despues de seguir un programa de capacitaci6n en supervisi6n de hospitales durante una se­mana, 16 administradores de hospital obtuvieron una calificaci6n media de 74 en una prueballevada a cabo como parte de la evaluaci6n del programa de capacitacion. La desviaci6nestandar de 1a muestra fue de 12. <.Es posible concluir a partir de estos datos que la media dela poblad6n es mayor que 70? Sea ex .05. cCuales son los supuestos que se deben cumplir?7.2.11 Se extrajo una muestra aleatoria de 16 informes de urgencias de los archivos de un serviciode ambu1ancias. El tiempo medio (calculado a partir de los datos de la muestra) para que lasambulancias llegaran a sus destinos fue de 13 minutos. Suponga que la poblaci6n de tiempossigue una distribuci6n normal con una variancia de 9. ~Es posible conduir, en un nivel designificaci6n de .05, que la media de la poblaci6n es mayor que 10 minutos?7.2.12 Los siguientes datos son los consumos de oxigeno (en ml) durante la incubaci6n de unamuestra aleatoria de 15 suspensiones celulares:14.0,14.1,14.5,13.2,11.2,14.0,14.1,12.2,ILl, 13.7, 13.2, 16.0, 12.8, 14.4, 12.9cProporcionan estos datos suficiente evidencia, en un nivel de significaci6n de .05, de que lamedia de la poblaci6n no es igual a 12 ml? <.Que supuestos se deben cumplir?7.2.13 Una muestra aleatoria de 20 profesores universitarios aparentemente sanos proporcion610ssiguientes valores de capacidad respiratoria maxima. ~Es posible concluir que la media maximade respiraci6n no es de 110 litros por minuto?132,33,91,108,67,169,54,203,190,133,96,30, 187,21,63, 166,84, 1l0, 157, 138Sea ex = .01. ~Que supuestos se deben cumplir?
    • EJERCICIOS 2277.2.14 Los siguientes datos son las presiones sistolicas sanguineas (en mm Hg) de 12 pacientessometidos a terapia con medicamentos contra la hipertension:183, 152, 178, 157, 194, 163, 144, 114, 178, 152, 118, 158Es posible concluir con base en estos datos que la media de la poblacion esmenor que 165?Sea ex .05. ~Que supuestos se deben cumplir?7.2.15 (Es posible concluir que la edad media de defuncion por la enfermedad de celulas falciformeshomocigotica es menor que 30 afios? Una muestra de 50 pacientes proporciona las siguien­tes edades en aiios:15.5 2.0 45.1 1.7 .8 1.1 18.2 9.7 28.1 18.227.6 45.0 1.0 66.4 2.0 67.4 2.5 61.7 16.2 31.76.9 13.5 1.9 31.2 9.0 2.6 29.7 13.5 2.6 14.420.7 30.9 36.6 1.1 23.6 .9 7.6 23.5 6.3 40.223.7 4.8 33.2 27.1 36.7 3.2 38.0 3.5 21.8 2.4Sea ex .05. cQue supuestos deben cumplirse?7.2.16 Los siguientes datos se refieren a los niveles de presion intraocular (en mm Hg) registradosen una muestra de 21 individuos de edad avanzada:14.5 12.9 14.0 16.1 12.0 17.5 14.1 12.9 17.9 12.016.4 24.2 12.2 14.4 17.0 10.0 18.5 20.8 16.2 14.919.6(Es posible conduir a partir de estos datos que la media de la poblacion de la cual se extrajola muestra es mayor que 14? Sea ex = .05. cQue supuestos se deben cumplir?7.2.17 Suponga que las calificaciones para el IQ (coeficiente de inteligencia) de una poblacionadulta siguen una distribucion aproximadamente normal, con una desviacion estandar de15. Una muestra aleatoria simple de 25 adultos procedentes de esta poblacion tiene un IQmedio de 105. Con base en estos datos, ~es posible conc1uir que el IQ medio para la pobla­cion es diferente de 100? La probabilidad de cometer un error de tipo 1 es de .05.7.2.18 Un equipo de investigacion se inc1ina a suponer que la presion sist6lica sanguinea en unapoblaci6n de hombres sigue una distribuci6n aproximadamente normal con una desvia­cion estandar de 16. Una muestra aleatoria simple de 64 hombres present6 una media depresi6n sist6lica sanguinea de 133. cProporcionan estos datos suficiente evidencia para con­c1uir, con un nivel de significaci6n de .05, que la media de la poblaci6n es mayor que ISO?
    • 228 cAPiTULO 7 PRUEBA DE HIPOTESIS7.2.19 Una muestra aleatoria simple de 16 individuos extrafda de una poblaci6n de adultos pro­porcion6 un peso promedio de 63 kg. Suponga que los pesos de la poblaci6n siguen unadistribuci6n aproximadamente normal con una variancia de 49. ~Proporcionan los datos dela muestra suficiente evidencia para concluir que el peso medio de la poblaci6n es menorque 70 kg? La probabilidad de cometer un error de tipo I es de .01.7.3 PRUEBA DE IIIPOTESIS PARAlA DJI<~RENCIA ENTRE lASMEDIAS DE DOS POBlACIONESLa prueba de hip6tesis que involucra la diferencia entre las medias de dos pobla­dones se utiliza con mas frecuencia para determinar si es razonable 0 no concluirque las dos son distintas entre S1. En tales casos, se puede formular una u otra de lassiguientes, hip6tesis:1. Ho : III - 112 = 0, HA : IlJ - 112 *02. Ho : III - 112 ~ 0, HA : III 112 < 03. Ho : IlJ - 112 S 0, HA : III - 112 > 0Sin embargo, es posible probar la hip6tesis de que la diferencia es igual que,mayor 0 igual que 0 menor 0 igual que alg6.n valor distinto de cero.Como se hizo en la secci6n anterior, la prueba de hip6tesis que tiene que vercon la diferencia entre las medias de dos poblaciones se analiza en tres diferentes con­textos: 1) cuando el muestreo se realiza a partir de poblaciones con distribuci6nnormal y variancias conocidas; 2) cuando el muestreo se efecrua a partir de pobla­ciones con distribuci6n normal y con variancias desconocidas, y 3) cuando el mues­treo se lleva a cabo a partir de poblaciones que no presentan distribuci6n normal.Muestreo a partir de poblaciones que signen una distribucion nor­Inal con variancia conocida Cuando cada una de las dos muestras aleatoriassimples e independientes son extrafdas de una poblaci6n que sigue una distribu­ci6n normal con variancia conocida, la estadistica de prueba para la hip6tesis nulade las medias iguales de dos poblaciones es(7.3.1) donde el subindice 0 indica que la diferencia es un parametro supuesto. Cuando Hoes verdadera, la estadlstica de prueba de la ecuaci6n 7.3.1 sigue una distribucionnormal estandar.
    • 7.3 PRUEBA DE HlP6TESIS PAKA LA DlFERENCIA ENTRE LAS MEDIAS 229EJEMPIJO 7.3.1Un equipo de investigadores desea saber si los datos que han recolectado propor­cionan la evidencia suficiente para indicar una diferencia entre las concentracionesmedias de acido urico en el suero de individuos normales e individuos con sindro­me de Down. Los datos consisten en las lecturas de acido urico en el suero de 12individuos can sindrome de Down y 15 individuos sanos. Las medias son Xl = 4.5mg /100 ml y x2 =3.4 mg/m!.Solucion: Se podra decir que los datos ofrecen evidencia de que las medias pobla­cionales son diferentes si es posible rechazar la hipotesis nula que indicaque las medias son iguales. La conclusion se obtiene mediante el proce­dimiento de los diez pasos de la prueba de hipotesis1. Datos. Ver el planteamiento del problema.2. Supuestos. Los datos corresponden ados muestras aleatorias sim­ples e independientes, cada una extraida de una poblacion que si­gue una distribucion normal, con una variancia igual a 1 para lapoblaci6n con sfndrome de Down, y de 1.5 para la poblacion sana.3. Hipotesis. Ho: 111 - 112 0 HA : 111 112 ;:t; 0Una forma alternativa para enunci;rr la hipotesis es la siguiente:Ho: III =:: 112HA : III ;:t; 1124. Estadistica de prueba. La estadistica de prueba esta dada por laecuaci6n 7.3.1.5. Distribucion de Ia estadistica de prueba. Cuando la hipotesis nulaes verdadera, la estadistica de prueba sigue una distribucion normalesrandar.6. RegIa de decision. Sea a .05. Los valores crfticos de z son ± 1.96.Se rechaza Ho a menos que -1.96 < zcalculada <1.96. Las regiones derechazo y no rechazo se muestran en la figura 7.3.1.-1.96 o 1.96 zRegion de rechazo Region de no rechazo Region de rechazoFIGURA 7.3.t Regiones de rechazo y no rechazo para el ejemplo 7.3.1.
    • 230 CAPITULO 7 PRUEBA DE HIP6TESIS7. Calculo de la estadistica de pruebao(4.5-3.4)-0 1.1--=2.57.42828. Decision estadisticao Se rechaza Ho porque 2.57 > 1.96.90 Conclusion. Se concluye que, de acuerdo con estos datos, hay in­dicios de que las medias de las poblaciones son diferentes.10. Valor de p. Para esta prueba, p = .OlO2.•Imervalo de conJianza de 95 por ciento para J.L1- J.L2En el capituloanterior, se encontr6 que el intervalo de confianza de 95 por ciento para J.L1J.L2,calculado a partir de los mismos datos, va de .26 a 1.94. Dado que este intervalo noincluye el 0, se dice que 0 no es un valor candidato para ser la diferencia entre lasmedias poblacionales, y se concluye que la diferencia no es cero. De esta forma sellega a la misma conclusi6n por medio de un intervalo de confianza.Muestreo a partir de poblaciones que siguen una distribucion nor­mal con variancia desconocida Tal como se dijo anteriormente, cuandolas variancias poblacionales no se conocen, existen dos posibilidades. Las varianciasde dos poblaciones pueden ser iguales 0 pueden ser diferentes. Se considera pri­mero el caso donde se sabe, 0 es razonable suponer, que son iguales.Poblaciones con variancias iguales Cuando se desconocen las varianciasde las poblaciones, pero se supone que son iguales, se considera, de acuerdo con 10aprendido en el capitulo 6, que es adecuado ponderar las variancias de las mues­tras por medio de la siguiente f6rmula:(nl -1)si +(n2-1)sis; = - - - - - - - ­nj +n2-2Cuando cada una de las dos muestras aleatorias simples e independientes se extraede una poblaci6n que sigue una distribuci6n normal y las dos poblaciones tienenvariancias desconocidas pero iguales, la estadistica de prueba para Ho: J.L1= J.L2seobtiene mediante la siguiente f6rmula:(x ­tz== _l_-r===­__(7.3.2) la cual, cuando Ho es verdadera, sigue una distribuci6n t de Student con n1+ n2- 2grados de libertad.
    • 7.3 PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE LAS MEDIAS 231EJEMPLO 7.3.2Un estudio de los investigadores Eidelman et al. (A-6) tiene como objetivo exami­nar las caracteristicas de destrucci6n pulmonar en personas que fuman cigarrosantes de desarrollar un marcado enfisema pulmonar. Se practicaron mediciones detres indices de destrucci6n pulmonar en los pulmones de personas longevas que nofumaban y en personas con tabaquismo que murieron repentinamente fuera delhospital por causas no respiratorias. Una calificaci6n alta indica un mayor danopulmonar. En la tabla 7.3.1 se muestran las calificaciones producidas. para uno delos fndices de destrucci6n pulmonar de una muestra de nueve personas que nofuman y 16 fumadores. Se pretende saber si es posible concluir, con base en los da­tos, que las personas que sf fuman, en general, tienen los pulmones mas danadosque las personas no fumadoras, como 10 indican las mediciones.Solucion:1. Datos. Ver el planteamiento del problema.2. Supuestos. Los datos corresponden ados muestras aleatorias sim­ples e independientes; una muestra corresponde a la poblaci6n depersonas que no fuman (NF), y la otra a la poblaci6n de fumadores(F). Las calificaciones para los indices de destrucci6n pulmonar enambas poblaciones siguen una distribuci6n aproximadamente nor­mal. No se conocen las variancias poblacionales, pem se supone queson iguales.3. Hipotesis. Ho: Ils ::;; IlNS HA == Ils > ).1NS·4. Estadistica de prueba. La estadfstica de prueba se obtiene me­diante la ecuaci6n 7.3.2.5. Distribucion de la estadistica de prueba. Cuando la hip6tesis nulaes verdadera. la estadistica de prueba sigue una distribuci6n t deStudent con n1+ n2- 2 grados de libertad.6. RegIa de decision. Sea a, = .05. Los valores criticos de t son± 2.0687. Se rechaza Ho a menos que -2.0687 < tcalculado < 2.0687.7. CaIculo de la estadistica de prueba. A partir de los datos mues­trales se calcula:Xs 17.5, ss4.4711, XNS 12.4, SNS 4.8492Despues, se combinan las variancias de las muestras para obtenerS2 15(4.4711)2 + 8(4.8492)2 21.2165p 15+8TABlA 7.3.1 Calificaciones de los indices de destruccionpulmonar para el ejemplo 7.3.2No fumadores: IS. 1, 6.0, lO.S, 11.0, 7.7, 17.9, S.5, 13.0, 18.9Fumadores: 16.6, 13.9, 11.3, 26.5, 17.4, 15.3, 15.S, 12.3, 18.6,12.0, 24.1, 16.5, 21.S, 16.3, 23.4, IS.SFUENTE: D.H. Eidelman H. Ghezzo, W D. Kim y M. G. Cosio, "The Destructive Index and Early LungDestruction in Smokers", American Review ofRespiratory Disease, 144, 156-159.
    • 232 CAPITULO 7 PRUEBA DE HIPOTESISAhora se calcula(17.5-12.4)-08. Decision estadistica. Se rechaza Ho porque 2.6573 > 2.0687, esdecir, 2.6573 eae dentro de la region de rechazo.9. Conclusion. Con base en estos resultados, se puede concluir quelas dos medias poblacionales son diferentes, es decir, se concluyeque, seglin indiean l?s indices del estudio, las personas que sf fumantienen los pulmonesmas daiiados que las personas que no fuman.10. Valordep. Paraestaprueba .01> P>.005, porque 2.500 < 2.6573< 2.8073. •Poblaciones con variancias diJerentes Cuando dos muestras aleatoriassimples independientes han sido extrafdas de poblaciones que siguen una distribu­cion normal con variancias desconocidas y diferentes, la estadistica de prueba paraHo: III = 112 es2.6573(7.3.3) EI valor crftieo de t para un nivel de significacion a, yuna prueba bilateral es aproxi­madamente, wltl +w2t2(7.3.4)t 1-("12) =------------­WI +W2donde WI S12/~, w2 = si / n2,tl = t1-«1/2) , para n11 grados de libertad, y t2 = t1_(a!2)para n2- 1 grados de libertad. EI valor cdtieo de tfpara una prueba unilateral seencuentra al calcular tl-iJ. mediante la ecuacion 7.3.4, en la que se utiliza tl tJ-iJ.para nj - 1 grados de libertad y t2 =tJ-iJ. para n2- 1 grados de libertad.Para una prueba bilateral se rechaza Ho si el valor ealculado de t es mayor 0igual al valor cdtico dado por la ecuacion 7.3.4, 0 es menor 0 igualal negativo deese valor.Para una prueba unilateral con la region de rechazo en la cola derecha de ladistribucion muestral, se rechaza Ho si el cilculo de t es igual 0 mayor que la tcdtiea. Para una prueba unilateral con una region de rechazo en la cola izquierda,se rechaza Ho si t es igual 0 menor al negativo de la t critiea ealculada por medio dela adaptacion de la ecuacion 7.3.4.FJEMPLO 7.3.3Un grupo de investigadores quiere saber si las poblaciones difieren con respecto alvalor medio de la actividad del complemento del suero total (CH50). Los datos se
    • 7.3 PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE LAS MEDIAS 233componen de las mediciones de C enn = 20 individuos aparentemente sanos YnlH50 2= 10 individuos enfermos. Las medias de las muestras y desviaciones estandar son:XI = 62.6, 33.8x2=47.2, 10.1Solucion:1. Datos. Ver el planteamiento del problema.2. Supuestos. Los datos corresponden ados muestras aleatorias inde­pendientes; una extralda de una poblaci6n de sujetos aparentementenormales, y la otra seleccionada de una poblaci6n de individuos en­fermos. Se supone que los valores de CH50siguen una distribuci6naproximadamente normal en ambas poblaciones. Las variancias delaspoblaciones se desconocen y son diferentes.3. Hipotesis.Ho :III -112 =0H A : III -112 :#= 04. Estadistica de prueba. La estadistica de prueba se obtiene me­diante la ecuaci6n 7.3.3.5. Distribucion de la estamstica de prueba. La estadlstica que se obtie­ne por la ecuaci6n 7.3.3 no sigue una distribuci6n t de Student. Por 10tanto, los valores cdticos se obtienen por medio de la ecuaci6n 7.3.4.6. RegIa de decision. Sea 0: .05. Antes de calcular t se calculaWI =(33.8)21 10 114.244 Yw2= (10.1)2/20 = 5.1005. En la tabla E seencuentra que tl = 2.2622 Yt2 = 2.0930. Por medio de la ecuaci6n7.3.4 se calculat= 114.244(2.2622)+5.1005(2.0930) =2.225114.244+5.1005La regia de deeisi6n es, entonees, reehazar Ho si al calcular t ocurreque es <:: 2.255 0 ~ -2.255.7. Calculo de la estadfstica de prueba. Por medio de la eeuaei6n7.3.3 se caleula(62.6 47.2) -0 15.4t= =-- 1.41!(33.8) (10.1)2 10.92:_-+--­~ 10 208. Decision estadistica. Puesto que -2.255 < 1.41 < 2.255, no es po­sible reehazar H o9. Conclusion. Con base en estos resultados, no se puede conduirque las dos medias de las poblaciones son diferentes.10. Valor de p. Para esta prueba p > .05. •
    • 234 CAPITULO 7 PRUEBA DE HIPOTESISMuestreo a partir de poblaciones que no presentan distribucionnormal Cuando el muestreo se realiza a partir de poblaciones que no presentandistribuci6n normal, es posible utilizar los resultados del teorema dellfmite centralsi el tamafio de las muestras es grande (por ejemplo, 30). Esto permite el uso dela teorfa normal pues la distribuci6n de la diferencia entre las medias de las mues­tras sera aproximadamente normal. Cuando se extraen dos muestras aleatoriassimples independientes de gran magnitud de una poblaci6n que no sigue una dis­tribuci6n normal, la estadistica de prueba para Ho: JI1= JI2es(7.3.5) la cual, cuandoHo es verdadera, sigue una distribuci6n normal estandar. Si se cono­cen las variancias de las poblaciones, se utilizan; pero si se desconocen, como sueleocurrir, se usan como estimaciones las variancias de las muestras, que por necesi­dad se basan en muestras grandes. Las variancias de las muestras no combinan,porque la igualdad de las variancias de las poblaciones no son una suposici6n nece­saria cuando se utiliza la estadfstica z.FJEMPLO 7.3.4Un articulo publicado por Becker et al. (A-7) en la revistaAmericanJournal ofHealthPromotion describe el desarrollo de una herramienta para medir las barreras parapromover la salud entre personas discapadtadas. Los autores afirman que los pro­blemas de barreras sobresalen especialmente de personas discapacitadas que lasexperimentan en situadones como: empleo, transporte, alojamiento, educaci6n,seguros de vida, acceso arquitect6nico, programas subtitulados y actitudes de lasociedad. Los estudios sugieren que las mediciones de las barreras pueden mejorarla comprensi6n de los profesionales de-la salud respecto a la probabilidad de que lagente participe en varias conductas 0 actividades de promod6n de la salud, y pro­bablemente sean un constructo importante en la evaluaci6n de conductas de saludde las personas discapacitadas. Para medir este constructo, los investigadores desa­rrollaron la Escala de barreras en las actividades de promocion de la salud en per­sonas discapacitadas. Se obtuvieron los siguientes resultados al aplicar la escala auna muestra de 132 discapacitados (D) y a 137 personas no discapadtadas (ND):Muestra Calificaci6n media Desviaci6n estandarD 31.83 7.93 ND 25.07 4.80 FUENTE: Con el permiso de Heather Becker, Alexa K. Stuifbergen y Dolores Sands,"Development of a Scale to Measure Barriers to Health Promotion Activities AmongPersons with Disabilities", AmericanJournal ofHealth Promotion, 5, 449-454.
    • 7.3 PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE LAS MEDIAS 235Se pretende saber si es posible concluir, con base en estos resultados, que, en gene­ral, las personas con discapacidad, en promedio, califican mas alto en la escala debarreras.Solucion:1. Datos. Ver la proposici6n del problema.2. Supuestos. Las estadfsticas fueron calculadas a partir de dos mues­tras independientes que se comportan como muestras aleatorias sim­ples de una poblaci6n de personas con discapacidad y de otra depersonas sin discapacidad. Puesto que se desconocen las varianciasde las poblaciones; se utilizan las variancias de las muestras para eldilculo de la estadistica de prueba.3. Hipotesis. Ho: Iln - IlNn :::; 0 HA : Iln - IlNn > 0 0, de manera alterna,Ho: Iln :::; IlNn HA : Iln > IlNn4. Estadistica de prueba. Dado que se tiene muestras grandes, elteorema dellfmite central permite utilizar la ecuaci6n 7.3.5 comoestadfstica de prueba.5. Distribucion de Ia estadistica de prueba. Cuando la hip6tesis nulaes verdadera, la estadfstica de prueba sigue aproximadamente unadistribuci6n normal estandar.6. RegIa de decision. Sea ex .01. Esta es una prueba unilateral conun valor critico de z igual a 2.33. Se rechaza Ho si zcalculada ~ 2.33.7. Calculo de la estadistica de prueba.(31.83-25.07) - 0Z= =8.42(7.93)2 (4.80)2---+--­132 1378. Decision estadistica. Se rechaza Ho porque z = 8.42 esta en laregi6n de rechazo.9. Conclusion. Estos datos indican que en promedio las personas condiscapacidad califican mas alto en la escala de barreras que las per­sonas sin discapacidad.10. Valor de p. Para esta pruebap < .001, porque 8.42> 3.89. Cuan­do se prueban hip6tesis respecto a la diferencia entre las mediasde dos poblaciones, se puede utilizar la figura 6.4.1 para decidirr<ipidamente si la estadistica de prueba debe ser z 0 t. •
    • 236 CAPITULO 7 PRUEBA DE HIPOTESISCon el paquete MINITAB es posible aplicar la prueba de t para dos muestras.Para ejemplificar, se utilizan los datos de la tabla 7.3.1. Se ponen los datos de losfumadores y los no fumadores en las columnas 1 y 2, respectivamente, y se procedecomo se muestra en la figura 7.3.2.El paquete estadfstico SAS® puede aplicarse a la prueba de t para mediasiguales de dos poblaciones bajo ambas suposiciones respecto a las varianciaspoblacionales: que sean iguales 0 diferentes. EI paquete SAS® tambien realiza prue­ba para variancias iguales, tal como se describe en la secci6n 7.8. La figura 7.3.3muestra los resultados de este paquete para el ejemplo 7.3.2.Alternativaspara ,t; y t Algunas veces las estadfsticas z y t no son estadfsticasde prueba adecuadas para utilizarlas con los datos disponibles. Cuando esto ocurre,es conveniente el uso de una tecnica no parametrica para probar una hip6tesis res­pecto a la diferencia entre las medidas de tendencia central de dos poblaciones. Laprueba de la mediana yla estadistica de prueba de Mann-Whitney, que se estudian enel capitulo 13, se utilizan con frecuencia como altemativa para las estadfsticas z y t.Caja de dialogo: Comandos de la sesi6n:Stat> Basic Statistics> 2-Sample t MTB > TwoSample 95.0 C2 C1iSUBC> Alternative 1,Seleccionar Samples in different columns. SUBC> Pooled.Teclear C2 en First y Cl en Second.Selecionar "greater than" en el cuadro deAlternative. Verificar Assume equal variances.ClicOK.Resultados:Two Sample T-Test and Confidence IntervalTwosample T for C2 vs C1N Mean StDev SE MeanC2 16 17.54 4.48 1.1C1 9 12.43 4.85 1.695% C.r. for mu C2 mu C1: (1.1, 9.1)T-Test mu C2 = mu C1 (vs »: T= 2.66 P=0.0070 DF= 23Both use Pooled StDev 4.61FIGURA 7.3.2 Procedimiento y resultados de la prueba t para dos muestras, ejemplo7.3.2 (los datos estan en la tabla 7.3.1). Programa MINITAB.
    • - - - - - - - - - - - - - - - -EJERCICIOS 237The SAS SystemTTEST PROCEDUREVariable: SCORESGROUP N Mean Std Dev Std Error Minimum MaximumA 16 17.53750000 4.47524673 1.11881168 11.30000000 26.50000000N 9 12.43333333 4.84922674 1.61640891 6.00000000 18.90000000variances T DF Prob>ITIUnequal 2.5964 15.6 0.0198Equal 2.6580 23.0 0.0141For HO: Variances are equal, F 1.17 DF (8, 15) Prob > F 0.7498FIGURA 7.3.3 Resultados para el ejemplo 7.3.2, mediante el programa SAS® (datos de latabla 7.3.1).EJERCICIOSEn cada uno de los siguientes ejerdcios siga el procedimiento de los diez pasos para laprueba de hipotesis, establezca las suposiciones que sean necesarias para que el procedi­miento sea valido. Para cada ejercicio, cuando sea oportuno, explique por que se escogi6la prueba unilateral 0 bilateral. Analice de que manera pueden servir los resultados de estaprueba de hip6tesis a investigadores y medicos. cQue decisiones 0 acciones medicas y deinvestigacion pueden ser adecuadas a la luz de los resultados de las pruebas?7.3.1 Evans et at. (A-B) realizaron un estudio para determinar si la frecuencia y las caracteristicasde los problemas podiatricos en pacientes de la tercera edad enfermos de diabetes presentandiferencias con respecto a pacientes de la misma edad pero sin diabetes. Los individuosestudiados, internados en una clfnica, tentan de 70 a 90 afios de edad. Entre los hallazgos delos investigadores estan las siguientes estadisticas. con respecto a las calificaciones en lasmedidones de los reflejos tendinosos profundos:Muestra n Media Desviaci6n estandarSin diabetes 79 2.1 1.1 Con diabetes 74 1.6 1.2. FUENTE: Scott L. Evans, Brent P. Nixon, Irvin Lee, David Lee yArshagD. Mooradian, "The Prevalence and Nature of Podiatric Problems inElderly Diabetic Patients",Journal ofthe American Geriatrics Society, 39,241-245. © American Geriatrics Society.
    • 238 CAPiTULO 7 PRUEBA DE HIPOTESISSe pretende saber si es posible conduir, con base en los datos, que, en promedio, los pacien­tes diabeticos tienen reflejos tendinosos profundos reducidos en comparaci6n con pacientessin diabetes de la misma edad. Sea IX =.01.7.3.2 Un estudio de los investigadores Hommes et al. (A-9) tiene dos prop6sitos: 1) investigar si elgasto de energfa en reposo aumenta en la etapa primaria, sin sfntomas de infecci6n de VIH,y 2) estudiar las contribuciones relativas de la oxidaci6n de carbohidratos de grasas duranteel gasto de energfa en reposo en los pacientes. Los individuos estudiados eran 11 pacientesexternos varones infectados de VIH, que no presentaban sfntomas y cuyas edades eran entre23 y 50 afios. EI grupo de control estaba farmado por 11 voluntarios varones sanos, conedades entre 25 y 51 anos, que resultaron fisicamente normales en sus examenes y expedien­tes medicos. Entre los hallazgos se tienen las estadfsticas respecto a la medici6n del gasto deenergia en reposo.Muestra Media Error esUindar de la mediaIndividuos con VIH 7116 173 Individuos de control 7058 205 FUENTE: MiIjam j. T. Hommes, johannes A. Romijn, Erik Endert y Hans P.Sauerwein, "Resting Energy Expenditure and Substrate Oxidation in Human Imunodeficiency Virus (HIV)-Infected Asymptomatic Men: HIVAffects Host Metabolism in the Early Asymptomatic Stage", American Journal ofClinical Nutrition, 54, 311-315. cOfrecen estos datos suficiente evidencia que permita conduir que el gasto de energia enreposo aumenta durante la primera etapa, cuando no hay sfntomas presentes de la infecci6nde VIH? Sea IX = .05.7.3.3 Frigerio et al. (A-I0) midieron la energfa consumida en 32 mujeres de Gambia. Dieciseis de losindividuos estudiados eran mujeres en periodo de lactancia (L) y el resto eran m~jeres noembarazadas que no estaban en etapa de lactancia (NENL). Se reportaron los siguientes datos:Muestra Consumo deenergia (kJ/d)L 5289,6209,6054,6665,6343,7699,5678,6954,6916, 4770,5979,6305,6502,6113,6347,5657 NENL 9920,8581,9305,10765,8079,9046,7134, 8736,10230,7121,8665,5167,8527,7791,8782,6883 FUENTE: Chistian Frigerio, Yves Schutz, RogerWhitehead y Ericjequier, A New Procedureto Assess the Energy Requirements ofLactation in Gambian Women", AmericanJournal ofClinical Nutrition, 54, 526-533. © American Society for Clinical Nutrition.cProveen estos datos suficiente evidencia que permita conduir que las poblaciones muestreadasdifieren respecto a la media de consumo deenergia? Sea a = .05.7.3.4 tEs posible conduir que los ninos cr6nicamente enfermos tienden, en promedio, a tenermenos confianza en SI mismos que los ninos sanos? Se aplic6 una prueba disenada para
    • EJERCICIOS 239estimar la confianza en Sl mismos en 16 niiios cr6nicamente enfermos y 21 niiios sanos. Lascalificaciones medias y desviaciones estandar fueron las siguientes:x sGrupo enfermo 22.5 4.1Grupo sano 26.9 3.2Sea a = .05.7.3.5 Un investigador de enfermerfa desea saber si los graduados de los programas de enfermerfaa nivel bachillerato y los graduados en programas asociados de enfermerfa difieren en cuan­to a las calificaciones medias obtenidas en un estudio de personalidad. Una muestra de 50graduados de programas asociados (grupo A) y una muestra de 60 graduados de bachillera­to (grupo B) proporcionaron las siguientes medias y desviaciones estandar:Muestra sA 52.5 10.5B 49.6 11.2Con base en estos datos, ~que puede concluir el investigador? Sea a .05.7.3.6 Una prueba diseiiada para medir las actitudes de las madres en cuanto al trabajo de parto yel periodo de expulsi6n se aplic6 ados grupos de madresprimerizas. La muestra 1 (asisten­tes) acudieron a dases de instrucci6n prenatal impartidas en el departamento de salud. Lamuestra 2 (ausentes) no asistieron a dases. El tamaiio de las muestras, medias y desviacionesestandar de las calificaciones para las pruebas son las siguientes:Muestra n s1 15 4.75 1.02 22 3.00 1.5cProporcionan estos datos la evidencia suficiente para indicar que las asistentes, en prome­dio, tienen calificaciones mas altas que las ausentes? Sea a = .05.7.3.7 Se midieron las concentraciones de cortisol en dos grupos de mujeres al momento de dar aluz. AI grupo 1 se Ie practic6 una operaci6n cesarea de urgencia despues de inducido elparto. Las del grupo 2 dieron a luz mediante operaci6n cesarea 0 via vaginal despues depresentarse el trabajo de parto espontaneamente. El tamano de las muestras, los nivelesmedios del cortisol y las desviaciones estandar fueron los siguientes:Muestra n s1 10 435 652 12 645 80
    • 240 CAPITULO 7 PRUEBA DE HIPOTESIS~Proporcionan estos datos la evidencia suficiente para indicar que existe una diferencia enlas concentraciones medias del cortisol en las dos poblaciones? Sea a; := .05.7.3.8 Se midieron las concentraciones de protoporfirina en dos muestras de individuos. La mues­tra 1 consisti6 en 50 varones adultos alcoh6licos con sideroblastos anulares en la medula6sea. La muestra 2 consisti6 en 40 varones adultos no alcoh6licos aparentemente sanos. Losniveles medios de protoporfirina y las desviaciones estandar de las dos muestras son los si­guientes:Muestra x s1 340 2502 45 25~Es posible conc1uir con base en estos datos que los niveles de protoporfirina son mas altosen la poblaci6n de alcoh61icos que en la poblaci6n no alcoh6lica? Sea a; = .Ol.7.3.9 Un investigador esta interesado en saber si los niiios nacidos prematuramente con acidosismetab6lica tardia y los niiios prematuros que no tienen dicha enfermedad, difieren en 10 querespecta a las concentraciones en la orina de cierta sustancia qufmica. Las concentracionesmedias, desviaciones estandary el tamaiio de la muestra para ambos grupos son los siguientes:Muestra n sCon acidosis 35 8.5 5.5 Sin acidosis 40 4.8 3.6 ~Que puede conc1uir el investigador con base en estos resultados? Sea a; := .05.7.3.10 Varios investigadores desean saber si es posible conduir que dos poblaciones de niiios difie­ren respecto a la edad promedio en la cual pueden caminar por sf solos. Los investigadoresobtuvieron los siguientes datos (edades en meses).Muestra de la poblaci6n A: 9.5,10.5,9.0,9.75,10.0,13.0,10.0, 13.5, 10.0,9.5, 10.0,9.75Muestra de la poblaci6n B: 12.5,9.5,13.5, 13.75, 12.0,13.75,12.5,9.5, 12.0, 13.5, 12.0, 12.02Que pueden conduir los investigadores? Sea a; = .05.7.3.11 ~La privaci6n sensorial tiene algu.n efecto sobre la frecuencia de las ondas alfa de las perso­nas? Se divide aleatoriamente en dos grupos a veinte voluntarios. Los individuos en el grupoA se sometieron a un periodo de privaci6n sensorial durante 10 dias, mientras que los indi­
    • 2417.4 COMPARACION POR PAREJASviduos del grupo B sirvieron como grupo de control. AI terminar el periodo experimen­tal, se midi6 la frecuencia de las ondas alfa a partir de los electroencefalogramas de estaspersonas. Los resultados son los siguientes:GrupoA: 10.2,9.5,10.1,10.0,9.8, 10.9, 11.4, 10.8,9.7, 10.4Grupo B: 11.0,11.2,10.1,11.4,11.7,11.2,10.8,11.6,10.9,10.9Sea a = .05.7.3.12 ms posible concluir que, en promedio, los linfocitos y las celulas tumorales difieren entamafio? Los siguientes datos son el diametro celular (en wn) de 40 linfocitos y 50 ceIu­las tumorales obtenidas a partir de la biopsia del tejido de pacientes con melanoma.Linfocitos9.0 9.4 4.7 4.8 8.9 4.9 8.4 5.96.3 5.7 5.0 3.5 7.8 10.4 8.0 8.08.6 7.0 6.8 7.1 5.7 7.6 6.2 7.17.4 8.7 4.9 7.4 6.4 7.1 6.3 8.88.8 5.2 7.1 5.3 4.7 S.4 6.4 S.3Celulas tumorales12.6 14.6 16.2 23.9 23.3 17.1 20.0 21.0 19.1 19.416.7 15.9 15.8 16.0 17.9 3.4 19.1 16.6 IS.9 lS.720.0 17.8 13.9 22.1 13.9 18.3 22.S 13.0 17.9 15.217.7 15.1 16.9 16.4 22.8 19.4 19.6 18.4 IS.2 20.716.3 17.7 18.1 24.3 11.2 19.5 18.6 16.4 16.1 21.5Sea a = .05.7.4 COMPARACION POR PAREJASEn el amllisis referente a la diferencia entre las medias de dos poblaciones, sesupone que las muestras son independientes. Un metodo que se utiliza confrecuencia para averiguar la eficacia de un tratamiento 0 procedimiento experi­mental es aquel que hace uso de observaciones relacionadas que resultan demuestras no independientes. Una prueba de hip6tesis que se basa en este tipode datos se conoce como prueba de camparacianes parparejas.
    • 242 CAPITULO 7 PRUEBA DE HIPOTESISJustificaci6n para uliUzar comparacionespor parejas Con frecuen­cia sucede que las diferencias reales no existen entre dos poblaciones con respectoa la variable de interes, pero la presencia de Fuentes extranas de variaci6n puedencausar el rechazo de la hip6tesis nula de no diferencia. Por otro lado, las diferenciasreales tambien pueden estar enmascaradas por la presencia de factores extranos.Por ejemplo, supongase que se pretende comparar dos protectores solarespara la piel. Existen al menos dos maneras de llevar a cabo el experimento. Unmetodo seria seleccionar una muestra aleatoria simple de individuos que recibie­ran el protector solar A y una segunda muestra aleatoria simple e independienteque recibiera el protector solar B. Se pide a todos los individuos que salgan a bron­cearse a la luz del sol durante un tiempo espedfico, y despues se mide el danacausado por los rayos solares. Suponga que se aplica este metodo, pero inadverti­damente la mayoria de losindividuos que recibieron el protector solar A tienen pie1oscura y por naturaleza son menos sensibles a los rayos solares. Digamos que alterminar el experimento, se encuentra que los individuos que recibieron el protec­tor solar A tienen menos dafio provocado por la luz del sol. No sena posible sabersi tuvieron menos dana porque el protector solar A fue mas eficaz que el protectorsolar B 0 porque la naturaleza de su piel oscura es menos sensible al sol.Una mejor manera de disenar el experimento sena seleccionar solo una mues­tra aleatoria simple de individuos y que a cada uno de ellos se Ie aplicaran ambosprotectores solares. Por ejemplo, se asignanan aleatoriamente los protectores sola­res al lado derecho 0 izquierdo de la espalda de cada individuo de manera querecibieran ambos productos. Despues de un tiempo espedfico de exposici6n solar,se.medinan los danos provocados par la luz del sol, en cada mitad de la espalda. Sila mitad de la espalda que recibi6 el protector solarA tiende a estar menos danado,puede atribuirse con mas confianza el resultado al protector solar, porque en cadacaso ambos protectores fueron aplicados en una misma piel.El objetivo en pruebas de comparaci6n por parejas es eliminar un maximo nu­mero de Fuentes de variaci6n extrafia haciendo parejas similares con respecto a tantasvariables como sea posible.Las observaciones relacionadas 0 por pares se pueden obtener de muchas for­mas. Los mismos individuos pueden ser examinados antes y despues de recibir algtintratamiento. Se pueden formar parejas de animales del mismo sexo de una mismacamada para asignarles aleatoriamente un tratamiento 0 un placebo. A los pares degemelos 0 hermanos se les puede asignar aleatoriamente que reciban dos tratamien­tos, de tal forma que los miembros de una sola pareja reciban diferentes trata­mientos. AI comparar dos metodos de anaIisis, el material que se va a analizar sedivide en partes iguales, de modo que una de las partes sea analizada mediante unmetodo y la otra mediante otro. 0 bien, se puede formar parejas de individuos quecompartan una caracterfstica, por ejemplo, la destreza digital, que este relacionadaestrechamente con la medicion de interes, por ejemplo, la calificaci6n obtenidadespues de un tratamiento en alguna prueba que requiera manipulaci6n digital.En lugar de lIevar a cabo el amilisis con observaciones individuales, se puedeutilizar di, la diferencia entre pares de observaciones, como variables de inten§s.Cuando las n diferencias de las muestras calculadas de los n pares de medicio­nes forman una muestra aleatoria simple extraida de una poblacion de diferencias
    • 2437.4 COMPARACIONPORPAREJASque siguen una distribucion normal, la estadistica de prueba para hipotesis respec­to a la diferencia de la media poblacional fld esi1t=--.::.. (7.4.1)donde i1 es la diferencia de media muestral, fla es la diferencia de la mediaopoblacional supuesta, sJ Sd /{;;, n es el numero de diferencias muestrales, ysa esla desviacion estandar de las diferencias muestrales. Cuando Ho es verdadera, laestadlstica de prueba sigue una distribucion t de Student con n - 1grados de libertad.Aunque para empezar se tiene dos muestras, por ejemplo, niveles antes ydespues, no hay por que preocuparse de la igualdad de las variancias, como con lasmuestras independientes, porque la variable es la diferencia entre las lecturas en elmismo individuo, 0 en los individuosque forman el par, y por 10 tanto, existe unasola variable. Los calculos aritmeticos al aplicar la prueba de comparacion por pa­rejas, por 10 tanto, son los mismos que se aplican en pruebas que involucran unasola muestra, tal como se describe en la seccion 7.2.El siguiente ejemplo muestra los procedimientos relacionados con la pruebade comparacion por parejas.FJEMPLO 7.4.1Nancy Stearns Burgess (A-ll) condujo un estudio para determinar la perdida depeso, la composicion corporal, la distribuci6n de grasa corporal y la tasa metab6licaen reposo en individuos obesos antes y despues de 12 semanas de tratamiento condieta muy baja en calorfas (DMBC), y comparar la hidrodensitometria con el an;Hi­sis de impedancia bioelectrica. Los 17 individuos (nueve mujeres y ocho hombres)que participaron en el estudio eran pacientes externos de un programa de trata­miento con base hospitalaria para la obesidad. Los pesos de las mujeres antes ydespues del tratamiento de 12 semanas de DMBC se muestran en la tabla 7.4.1. Sepretende saber si estos datos ofrecen suficiente evidencia que permita concluir queel tratamiento es eficaz para reducir el peso en mujeres obesas.Soludon: Se puede decir que existe la suficiente evidencia para concluir que elprograma de dietas es eficaz si es posible rechazar la hip6tesis nula queindica que el cambio en la media de la poblacion fld es cero 0 positivo. Esposible tomar una decision por medio del procedimiento de los diezpasos de la prueba de hipotesis.TABlA 7.4.1 Pesos (kg) de mujeres obesas antes (A) y despues (D)del tratamiento de 12 semanas con DMBCA: 117.3 111.4 98.6 lO4.3 105.4 100.4 81.7 89.5 78.2D: 83.3 85.9 75.8 82.9 82.3 77.7 62.7 69.0 63.9FUENTE: R!nniso otorgado por Nancy Steams Burgess.
    • 244 CAPITULO 7 PRUEBA DE HIPOTESIS1. Datos. Los datos corresponden al peso de nueve individuos antesy despues del programa experimental dedieta. EI amilisis estadisti­co se aplica sobre la diferencia entre los pesos de antes y despues.Las diferencias se pueden obtener de dos maneras: primero, se restael peso de antes al peso de despues (D A); segundo se resta el pesode despues al peso de antes (A - D). Se opta por obtener las diferen­cias de los pesos con la primera opci6n: las diferencias dj:: D- A son-34.0, -25.5, -22.8, -21.4, -23.1, -22.7, -19.0, -20.5, -14.3.2. Supuestos. Las diferendas que se observan forman la muestraaleatoria simple extraida de una poblaci6n de diferencias con dis­tribuci6n normal que podrfan ser generadas bajo las mismas cir­cunstancias.3. Hip6tesis. Las hip6tesis nula y alternativa deben establecerse deacuerdo con la manera de efectruir la resta de las mediciones paraobtener las diferendas. En este ejemplo, se pretende saber si esposible conduirque el programa DMBC es eficaz para reducir el peso.Si resulta eficaz, se esperaria, entonces, que los pesos de despuestendieran a ser menores que los pesos de antes. Si, por 10 tanto, serestan los pesos de antes a los pesos de despues (D - A), se espera­ria que las diferencias tendieran a ser negativas. Ademas, se espe­raria que la media de la poblad6n de cada diferencia fuera negativa.Asi que, bajo estas condiciones, preguntarse si es posible conduirque el programa DMBC es eficaz, es 10 mismo que preguntarse si ladiferencia de la media poblacional es negativa (menor que cero).Las hip6tesis nula y la alternativa son las siguientes:Ho: Ild ;::: 0HA : Ild < 0Si se obtienen las diferencias restando los pesos de despues a lospesos de antes (A - D) las hip6tesis pueden ser:Ho: Ild:5 0HA : Ild> 0Si la pregunta necesitara una prueba bilateral, las hip6tesis serfan:independientemente de la manera de hacer la resta para obtenerlas diferencias.4. Estadistica de prueba. La estadistica de prueba adecuada se ob­tiene mediante la ecuaci6n 7.1.1.
    • 2457.4 COMPARACION POR PAREJASa .05-1.8595 0IRegion de rechazo Region de no rechazoFIGURA 7.4.1 Regiones de rechazo y no rechazo para el ejemplo 7.4.1.5. Distribucion de la estadistica de prueba. Si la hipotesis nula esverdadera, la estadistica de prueba sigue una distribuci6n t de Studentcon n - 1 grados de libertad.6. RegIa de decision. Sea a .05. EI valor crltico de t es -1.8595. Serechaza Ho si el valor calculado de t es menor 0 igual que e1 valorcritico. Las regiones de rechazo y no rechazo se muestran en la figu­ra 7.4.1.7. Calculo de la estadistica de prueba. A partir de las n 9 diferen­cias di se calculan las siguientes medidas descriptivas:d= IA (-34.0)+(-25.5)+ ..·+(-14.3) = -203.3-22.5889n 9 9L(di d)2 nLdi2-(LdY 9(4818.69)-(-203.3)2s~ = = = = 28.2961n-l n(n-l) 9(8)-22.5889 - 0 -22.5889 7t= =-12. 395 ~28.2961 /9 1.77314 8. Decision estadistica. Se rechaza Ho porque -12.7395 esta en laregion de rechazo.9. Conclusion. Se puede concluir que e1 programa de dieta es eficaz.10. Valor de p.. Para esta prueba, p < .005 porque -12.7395 <-.3554.•lntervalo de conjianzapara!1d Un intervalo de confianza de 95 por cientopara!1dse puede obtener como sigue:d ±tJ_(aI2)SJ-22.5889± 2.3060 ~28.2961/9-22.5889 ± 4.0888-26.68, -18.50
    • 246 CAPITULO 7 PRUEBA DE HIPOTESISzEmpleo de la estadistica z En el analisis de datos por parejas, si se conoce lavariancia de la poblacion de las diferencias, la estadistica de prueba adecuada es(7.4.2)Es improbable que (id se conozca en la practica.Si no se puede hacer la suposicion de que los valores disiguen una distribu­cion normal, es posible utilizar el teorema dellfmite central si n es grande. En tal caso,la estadistica de prueba es la ecuacion 7.4.2, y se utilizasdpara estimar (id cuando, comoes el caso generalmente, se desconoce esta ultima.Se puede utilizar el paquete MINITAB para probar hipotesis con datos porpares; primero, se obtienen las diferencias de los pares de datos y, despues, se apli­ca la operacionsobre las diferencias. Para ejemplificar este caso, se tienen los datosde la tabla 7.4.1: primero se mete el grupo de observaciones A en la columna I y lasobservaciones del grupo D en la columna 2, y despues se procede como se muestraen la figura 7.4.2.Desventajas El uso de la prueba de comparaciones por parejas no deja de tenersus problemas. Si son utilizados diferentes individuos y se les asigna aleatoriamentedos tratamientos, tratar de formar parejas con los individuos con respecto a una 0Caja de Dialogo: Comandos de la sesion:Calc> Mathematical Expressions MTB > Name C3 = diff Tedear Diffen Variable. MTB > Let diff = C2 C1 En la caja de Expression tedear C2 - Cl. Clic OK. Stat> Basic Statistics> 1-Sample t MTB > TTest 0.0 diff;SUBC> Alternative -1Tedear Diffen Variables. Seleccionar"less than" en la caja de Alternative.ClicOK.Resultados:Test of mu 0.00 vs mu < 0.00variable N Mean StDev SE Mean T P-Valuediff 9 -22.59 5.32 1.77 -12.74 0.0000FIGURA 7.4.2 Procedimiento y resultados para prueba de comparaciones por parejas.Ejemplo 7.4.1 (datos della tabla 7.4.1). Programa MINITAB.
    • FJERCICIOS EJERCICIOS 247mas variables importantes puede requerir una gran inversion en tiempo y dinero.Otra desventaja es la perdida de grados de libertad. Si no se utilizan observacionespor parejasse tienen 2n 2 grados de libertad disponibles, comparados con n - 1cuando se utiliza este procedimiento.En general, para decidir si se utiliza 0 no el procedimiento de comparacionespor parejas, se debe tener en cuenta tanto los aspectos economicos como las venta­jas que provee el control de variaciones extrafias.Alternativas Si las estadisticas de prueba z y t no son adecuadas para utilizarlascon los datos disponibles, el investigador tal vezquiera utilizar alguna tecnica noparametrica para probar una hipotesis acerca de la diferencia entre las medianas.En el capitulo 13 se presenta la prueba del signo, que puede ser utilizada en esoscasos.En los siguientes ejercicios, ponga en practica el procedimiento de los diez pasos de la prue­ha de hipotesis con nivel de significacion especificado. Para cada ejercicio, donde sea opor­tuno, explique por que conviene utilizar la prueba bilateral 0 la unilateral. Analice comopueden utilizar los resultados de la prueba de hipotesis los investigadores y medicos. ~Quedecisiones 0 acciones medicas y de investigacion pueden ser adecuadas al conocer los resul­tados de las pruebas?7.4.1 Un articulo publicado por Kashima et ai. (A-12) describe una investigacion relacionada conlos padres de niftos con retraso mental, en la cual se presenta informaci6n sobre la enseftan­za de autocuidados en un programa apoyado en diferentes medios de comunicaci6n, princi­palmente a traves de videotapesy manuales de instruccion. Como parte del estudio, participaron17 familias en el programa de capacitaci6n impartido por personal con amplia experienciaen proyectos de capacitaci6n paterna. Antes y despues del programa de capacitaci6n, se aplicouna prueba de comportamiento y descripci6n a cada jefe de familia 0 padre principal. EIexamen evahla el conocimiento de los principios de modificacion del comportamiento. Una.calificaci6n alta indica mayor conocimiento. Las siguientes calificaciones corresponden a laspruebas de losjefes de familia, antes y despues del programa de capacitacion:Antes: 7 6 10 16 8 13 8 14 16 11 12 13 9 10 17 8 5Despues: 11 14 16 17 9 15 9 17 20 12 14 15 14 15 18 15 9FUENTE: Datos utilizados con el permiso de Bruce L. Baker, Ph. D.2Es posible conduir, con base en estos datos, que el programa de capacitaci6n aumenta elconocimiento respecto a los principios de modificaci6n del comportamiento? Sea IX := .01.·7.4.2 Schwartz et al. (A-13) realizaron un estudio para probar la hipotesis de que perder peso enpacientes apneicos causa disminuci6n de la presion critica de las vias respiratorias superiores(Pcrit) y que estas disminuciones estan asociadas con disminuciones en la severidad de laapnea. Los individuos estudiados eran pacientes de la renombrada Clinica de trastornos del
    • 248 CAPiTULO 7 PRUEBA DE HIPOTESISsueftoJohn Hopkins, a quienes se diagnostico, de nueva cuenta, apnea del suefto obstructiva.Se invito a los pacientes a participar en uno de dos programas: el programa para bajar depeso (grupo experimental) 0 el programa de "cuid~dos generales" (gropo de control). Entrelos datos recolectados durante el curso del estudio estan las siguientes calificaciones de Pcrit(cm H20) antes y despues para los individuos que perdieron peso:Antes: -2.3 5.4 4.1 12.5 .4 -.6 2.7 2.7 -.3 3.1 4.9 8.9 -1.5Despues: -6.3 .2 -5.1 6.6 -6.8 -6.9 -2.0 -6.6 -5.2 3.5 2.2 -1.5 -3.2FUENTE: Con el permiso de Alan R. Schwartz, M. D.~Es posible conduir, con base en estos datos, que el programa para bajar de peso es eficazpara disminuir la presion crftica de las vias respiratorias superiores (Pcrit)? Sea ex = .01.7.4.3 EI proposito de una de las investigaciones realizadas por Alahuhta et al. (A-I4) es evaluar lainfluencia del bloqueo extradural para la operaci6n cesarea en diversasvariables hemodinamicasmaternas y fetales, simultaneamente, y determinar si el bloqueo modifica la funci6n delmiocardio fetal. Los individuos estudiados eran ocho parturientas sanas con 38 a 42 semanasde embarazo de un solo feto, sin complicaciones, que serian sometidas a operaci6n cesareacon anestesia para bloqueo extradural. Los siguientes datos corresponden a los valores infe­riores de esta variable en las dos etapas:Etapa 1: 70 87 72 70 73 66 63 57 Etapa 2: 79 87 73 77 80 64 64 60 FUENTE: Con el permiso de Seppo Alahuhta, M. D.~Ofrecen suficiente evidencia estos datos, con un nivel de significacion de .05, para indicarque, bajo condiciones similares y generales, la media de la presion arterial diastolica en lasmadres es diferente en las dos etapas?7.4.4 Wolin et aI. (A-I 5) demostraron que la luz ultravioleta de onda larga (UV) promueve el rela­jamiento, incrementa el metabolismo de H20 2a traves de la catalasa, y estimula el consumono mitocondrial de 02 en el musculo lisa vascular de la arteria pulmonar bovina. Tambiendemostraron que la hipoxia y el cianuro inhiben la relajaci6n producida por la luz UV y elmetabolismo de H20 2 que depende de la catalasa en los musculos de la arteria pulmonarbovina. Entre las mediciones realizadas por los investigadores se reportaron las siguientesmediciones (nmol/g1min) de la formacion de formaldehidos a partir del metanol por elmusculo lisa de la arteria pulmonar durante la irradiaci6n con luz UV en ausencia de (A) ypresencia (P) de cianuro (1 mM NaCN).A: 1.850 .177 .564 .140 .128 .500 .000 .759 .332P: .000 .000 .000 .140 .000 .000 .000 .000 .332FUEYfE: con el permiso de Michael S. Wolin, Ph. D.~Ofrecen estos datos suficiente evidencia, en un nivel de significaci6n de .05, para apoyar lasafirmaciones de los investigadores de que el cianuro impide el relajamiento producido por laluz UV?7.4.5 Los propositos de una de las investigaciones realizadas por Mancebo et aI. (A-16) fueron: I)evaluar los efectos mas peligrosos de la inhalaci6n de albuterol broncodilator fl2-agonista en unestudio de trabajo respiratorio (TR), intercambio de gases y patrones de ventilaci6n en pa­cientes intubados con respiraci6n espontanea durante el retiro del ventilador mecanico, y 2)Yaveriguar si los cambios inducidos en TR por tal inhalaci6n estan 0 no relacionados can un
    • EJERCICIOS 249efecto broncodilator espedfico. Los individuos eran pacientes adultos intubados (edad me­dia de 59.5 afios) que se recuperaban de insuficiencia respiratoria aguda y cumplfan otroscriterios tecnicos. Los. siguientes valores de TR Goules/min) se obtuyieron de los individuosestudiados antes (I) y despues (2) de inhalar el albuterol: .Paciente COND TR1 1 6.9721 2 5.6422 4.8502 2 3.6343 8.2803 2 5.9044 1 19.4374 2 18.8655 1 14.5005 2 13.4006 1 10.4046 2 8.8327 1 9.8567 2 7.5608 4.5318 2 4.5469 1 6.7329 2 5.89310 1 7.37110 2 5.51211 1 6.03711 2 4.23912 12.60012 2 11.78413 1 11.06713 2 12.62114 5.95914 2 4.97815 1 11.73915 2 11.590FUENTE: Utilizada conpermisodel Dr. Jorge Mancebo.(Ofrecen estos datos suficiente evidencia que permita concluir que, en general, bajo condi­ciones similares, la inhalaci6n de albuterol tiene efectos en la media de TR? Sea a =.01.
    • 250 CAPiTULO 7 PRUEBA DE HIP6TESIS7.5 PRLlEBA DE IUPOTESIS PARA LAPROPORCION DE UNA SOLA POBLACIONLa prueba de hip6tesis de proporciones poblacionales se realiza casi en la mismaforma utilizada para las medias cuando son satisfechas las condiciones necesariaspara emplear la curva normaL Pueden efectuarse pruebas unilaterales 0 bilatera­les, dependiendo de la cuesti6n que se plantee. Cuando se dispone de una muestra10 suficientemente grande para la aplicaci6n del teorema del limite central, talcomo se estudia en la secci6n 5.5, la estadistica de prueba es(7.5.1) la cual, cuando Ho es verdadera, sigue aproximadamente una distribud6n normalesGindar.EJEMPLO 7.5.1En una investigaci6n de consumidores de drogas intravenosas en una ciudad gran­de, Coates et al. (A-17) encontraron a 18 de 423 individuos con VIR positivo. Sepretende saber si es posible concluir que menQs de 5 por dento de los consumido­res de drogas intravenosas en la poblacion muestreada tienen VIR positivo.Solucion:1. Datos. Los datos se obtienen a partir de la respuesta de 423 indivi­duos de los cuales 18 tenian la caracteristica de interes (VIR positi­yo), es dedr, P= 18/423 = .0426.2. Supuestos. La distribucion muestral de psigue una distribucionaproximadamente normal de acuerdo con el teorema del limitecentral.3. Hipotesis.H: p? .05oH:p < .05ASe realiza esta prueba en el punto de igualdad. La conclusi6n a laque se puede lIegar seria igual a la que se lIegaria de llevarse a cabola prueba utilizando un valor supuesto de pmayor que .05. Si Ho esverdadero,p = .05 Y el error estandar (Jp ~(.05)(.95)/423. No­tese que se utiliza el valor supuesto de p p~ra calcular (Jp Esto sehace porque la prueba entera se basa en la suposici6n de que lahipotesis nula es verdadera. Utilizar la proporcion muestral, p, paracalcular (Jfj no seria compatible con este concepto.4. Estamstica de prueba. La estadistica de prueba se obtiene me­diante la ecuaci6n 7.5.1.
    • FJERCICIOS EJERCICIOS 2515. Distribucion de la estadistica de prueba. Si la hipotesis nula esverdadera, la estadistica de prueba sigue una distribucion aproxi­madamente normal con una media de cero.6. RegIa de decision. Sea a. = .05. El valor critico de z es -1.645. Serechaza Ho si el valor calculado de z es ::;; -1.645.7. Calculo de la estadistica de prueba..0426-.05 = -70z I .~ (.0~~~95)8. Decision estadistica. No se rechaza Ho porque -.70> -1.645.9. Conclusion. Se concluye que la proporcion de la poblacion quetiene VIH positivo probablemente sea .05 0 mas.10. Valor de p. p = .2420. •Para cada uno de los siguientes ejercicios, Ueve a cabo el procedimiento de los diez pasospara la prueba de hipotesis en el nivel de significacion designado. Para cada ejercicio, cuan­do sea oportuno explique por que conviene utilizar la prueba unilateral 0 la bilateral. Anali­ce que tan utiles pueden ser los resultados de la prueba de hipotesis para los medicos einvestigadores. ~Que acciones 0 decisiones medicas 0 de investigacion pueden ser adecuadasala luz de los resultados de las pruebas?7.5.1 Diana M. Bailey condujo un estudio para exarninar las causas por las que los terapeutasocupacionales abandonan el campo de la terapia ocupacional (A-IS). La muestra esta (orma­da por mujeres terapeutas ocupacionales certificadas que dejaron ·la profesi6n de maneratemporal 0 permanente. De 696 individuos que respondieron a una encuesta para reunirdatos, 63 por ciento decidieron dejar sus empleos para dedicarse a tener y euidar a suspropios hijos. Con base en estos datos, ~es posible conduir que, en general, mas de 60 porciento de los individuos en la poblaci6n muestreada decidieron dejar sus empleos para dedi­carse a tener y cuidar a sus propios hijos? Sea ex, .05. ,Cual es la poblacion muestreada?,Que suposiciones son necesarias para que el procedimiento sea vaJido?7.5.2 En un articulo publicado en la revista AmericanJournal ofPuhlic Health, Colsher et al. (A-I9)describen los resultados de una encuesta de salud aplicada a 119 convictos varones de 50 mosde edad y mayores residentes de las instalaciones de un centro de readaptacion social delestado. Se encontro que 21.6 por ciento de los encuestados dijeron tener antecedentes deenfermedades venereas. Con base en estos hallazgos, ~es posible conduir que en la poblacionmuestreada mas de 15 por ciento tiene antecedentes de enfermedades venereas? Sea ex, = .05.7.5.3 Henning et al. (A-20) encontraron que 66 por ciento de los niftos en una muestra de 670completaron toda la serie de vacunas contra la hepatitis B. ,Es posible conduir que, con baseen estos datos, en la poblaci6n muestreada, mas de 60 por ciento tienen la serie completa devacunas contra la hepatitis B? Sea ex, = .05.
    • 252 CAPiTULO 7 PRUEBA DE HIP6TESIS7.5.4 El siguiente cuestionario fue respondido poruna muestra aleatoria simple de 250 ginec610gos.En los recuadros aparece el numero de ginec610gos que eligi61a respuesta correspondiente:1. ~Cmindo tiene la oportunidad de elegir, que procedimiento prefiere para obtener mues­tras del endometrio?a) Dilataci6n y legrado 11751b) Aspirad6n Vobra ~2. iAtendi6 durante el aiio pasado a una 0 mas mujeres embarazadas con altas concentra­ciones de plomo en la sa:Qgre?a)Si~b) No 122513. ~Acostumbra como rutina poner al tanto a sus pacientes embarazadas de que fumar esriesgoso para el feto?a) S1 12381b) No [gJms posible conduir a partir de estos datos que, de la poblaci6n muestreada, mas de 60 porciento prefiere el metodo de dilataci6n y legrado para obtener muestras del endometrio?Sea a .01.7.5.5 De acuerdo con los datos del ejercicio 7.5.4, ~es posible conduir que, de la poblacionmuestreada, menos de 15 por ciento de los ginec610gos atendieron durante el aiio pasa­do a una 0 mas mujeres embarazadas con altas concentraciones de plomo en la sangre?Sea a == .05.7.5.6 De acuerdo con los datos del ejercicio 7.5.4, ~es posible conduir que mas de 90 porciento de los medicos pone al tanto a sus pacientes de que fumar es riesgoso para el feto?Sea a == .05.7.6 PRUEBA DE HIPOTESIS PARAlA DIFERENCIA ENTRE lASPROPORCIONES DE DOS POBIACIONESLa prueba que se utiliza con mas frecuencia con relaci6n a la diferencia entre lasproporciones de dos poblaciones es aquella en la que su diferencia es cero. Sinembargo, es posible probar que dicha diferencia es igual a algt1n otro valor. Esposible efectuar pruebas tanto unilaterales como bilaterales.Cuando la hip6tesis nula que va a probarse es PI - P2 0, se supone que lasproporciones de las dos poblaciones son iguales. Esto se utiliza como justificaci6npara combinar los resultados de las dos muestras yobtener una estimaci6n ponde­rada de la proporci6n comlin supuesta. Si se adopta este procedimiento, se calcula
    • 7.6 PRUEBA DE HIPOTESIS PARA LA DIFERENCIA ENTRE LAS PROPORCIONES 253donde XI YX2son, respectivamente, el numero de la primera y segunda muestra queposeen la caracteristica de interes. Esta estimacion ponderada deP= PI = Pzse utilizapara calcular (Jp,_p, el error esrandar estimado para el estimador es como sigue:(7.6.1) La estadistica de prueba se convierte en(7.6.2) la cual sigue una distribucion aproximadamente normal estandar si la hipotesisnula es verdadera.EJEMPLO 7.6.1En un estudio de cuidados nutricionales en asilos para ancianos, Lan yJustice (A-21)encontraron que entre 55 pacientes con hipertension, 24 tenian una dieta con res­triccion de sodio. De 149 pacientes sin hipertension, 36 tenfan una dieta sin sodio.ms posible concluir que, en las poblaciones niuestreadas, la proporcion de pacien­tes con dieta restringida en sodio es mayor entre pacientes con hipertension queentre pacientes sin hipertension?Solucion:l. Datos. Los datos corresponden a la informacion del consumo desodib en las dietas de los pacientes intemados en el asilo de ancia­nos con y sin hipertension, tal como se describe en la proposiciondel ejemplo.2. Supuestos. Se supone que los pacientes estudiados forman unamuestra aleatoria independiente extraida de poblaciones con y sinhipertension.3. Hipatesis.Ho: PH 5; PH 0 PH - PH 5; 0HA : PH> PH 0 PH PH > 0dondePH es la proporcion de la poblacion de pacientes hipertensoscon dietas bajas en sal, y PH es la proporcion de la po~lacion depacientes sin hipertension con dietas bajas en sal.4. Estadfstica de prueha. La estadfsticade prueba se obtiene me­diante la ecuacion 7.6.2.5. Distrihucion de la estadistica de prueha. Si la hip6tesis nula esverdadera, la estadistica de prueba sigue aproximadamente una dis­tribucion normal estandar.
    • 254 CAPITULO 7 PRUEBA DE HIPOTESIS6. RegIa de decision. Sea a. = .05. El valor critico de z es 1.645. Serechaza Ho si el valor de z es mayor que 1.645.7. CaIculo de la estadistica de prueba. A partir de los datos de lamuestra se calcula PH = 24/55 .4364, hi. 36/149 ::= .2416, y P= (24+36)/(55+ 149) .2941. El valor calculado para la estadisticaes, entonces:z =--;===(=.4=36=4=.=24=1=6=)=== =2.71/(.2941)(.7059) (.2941)(.7059)~ 55 + 1498. Decision estadistica. Se rechaza Ho porque 2.71 > 1.645.9. Conclusion. La proporcion de pacientes con dieta restringida ensodio es mayor entre los pacientes hipertensos que entre los pacien­tes sin hipertension.10. Valor de p. Para esta prueba, p = .0034.•EJERCICIOSPara cada uno de los siguientes ejercicios, lleve a cabo el procedimiento de los diez pasospara la prueba de hip6tesis. Para cada ejercicio, cuando sea oportuno, explique por que seutiliza la prueba unilateral, 0 la bilateral. Analice que tan utiles pueden ser los resultados dela prueba de hip6tesis para los medicos e investigadores. (Que acciones y decisiones medicasode investigaci6n pueden ser adecuadas ala luz de los resultados de las pruebas?7.6.1 Babaian y Camps (A-22) afirman que el antigeno espedfico prostiitico (AEP), encontrado enlas celulas ductales epiteliales de la pr6stata, es espedfico para el tejido prostiitico y esdetectable en el suero de hombres con pr6stata normal y en hombres con enfermedadesbenignas 0 malignas de esta glandula. Los investigadores determinaron los valores de AEPen una muestra de 124 hombres que se sometieron a una biopsia de la pr6stata. Sesenta ysiete hombres ternan concentraciones elevadas de AEP (>4 ng/ml). De estos, a 46 se lesdiagn6stico cancer. Diez de los 57 hombres con valores aeAEP ~ 4 ng/ml tentan cancer,Conbase en estos datos, (es posible conduir que, en general, los hombres con valores elevados deAEP tienen mayor probabilidad de tener cancer de pr6stata? Sea a = .01.7.6.2 La mayoria de las personas que dejan de fumar, se quejan de que al hacerlo suben de peso.Hall et al. (A-23) diseftaron una nueva tecnica para prevenir que la gente suba de peso, lacual compararon contra otras dos condiciones que indutan una condici6n control de trata­miento estandar ideada para representar la atenci6n estandar del sobrepeso inducido pordejar de fumar. Una de las hip6tesis de los investigadores era que las tasas de abstinencia detabaco senan mayores con la nueva tecnica que las registradas en las otras dos condiciones.De 53 individuos asignados a la nueva condici6n, 11 dejaron de fumar al fmal de 52 sema­nas. Diecinueve de los 54 individuos asignados ala condici6n de control se abstuvieron hastae1 final del mismo periodo. (Ofrecen estos datos suficiente evidencia para apoyar, con unnivel de significaci6n de .05, la hip6tesis de los investigadores?
    • 2557.7 PRUEBA DE HIPOTESIS PARA LA VARIANCIA DE UNA SOLA POBLACION7.6.3 Ciertas investigaciones sugieren que entre pacientes con depresi6n unipolar primaria seregistra una tasa alta de alcoholismo. Una investigaci6n realizada por Winokur y COrYell(A-24) profundizan en esta posible relaci6n. Entre 210 familias de mujeres con depresi6nunipolar primaria grave, los investigadores encontraron que el alcoholismo estaba presen­te en 89. Entre 299 familias catalogadas como famiIias de control en la investigaci6n, elalcoholismo estuvo presente en 94. ~Ofrecen estos datos suficiente evidencia para concluirque el alcoholismo es mas probable de encontrar en familias con integrantes que tienendepresion unipolar? Sea ex; ==.05.7.6.4 En un estudio sobre obesidad se obtuvieron los siguientes resultados a partir de muestras dehombres y mujeres entre las edades de 20 y 75 aDos:n Con sohrepesoHombres 150 21 Mujeres 200 48 ms posible concluir a partir de estos datos que en las poblaciones muestreadas existe dife­rencia en las proporciones de individuos con sobrepeso? Sea ex; = .05.7.7 PRUEBA DE IDPOTESIS PARA IAVARIANCIA DE UNA SOIA POBIACIONEn la secci6n 6.9 se estudia la manera de construir un intervalo de confianza para lavariancia de una poblaci6n con distribuci6n normal. Los principios generales quese presentan en dicha secci6n pueden ser utilizados para probar una hip6tesis res­pecto a la variancia de una poblaci6n. Cuando los datos disponibles para el amilisisforman una muestra aleatoria simple extrafda de poblaciones que siguen una dis­tribuci6n normal, la estadfstica de prueba para la hip6tesis acerca de la variancia deuna poblaci6n es(7.7.1)la cual. cuando Ho es verdadera, sigue una distribud6n %2 con n - 1 grados delibertad.FJEMPLO 7.7.1El prop6sito de un estudio de Gundel et al. (A-25) fue examinar 1a liberaci6n demediadores generados nuevos y preformados en respuesta a la inhalad6n de unalergeno en primates alergicos. Los individuos estudiados eran 12 monos macacosadultos machos, redentemente capturados y que cumplfan dertos criterios del es­tudio. Entre los datos reportados por los investigadores estaba un error estandar de1a media de la muestra de .4 para uno de los mediadores recuperados en los indivi­duos del estudio mediante lavado broncoalveolar. Se pretende saber si es posiblecondUIT a partir de estos datos que la variancia de 1a poblaci6n es diferente de 4.
    • 256 CAPiTULO 7 PRUEBA DE HIPOTESISSolucion:1. Datos. Vease la proposicion del ejemplo.2. Supuestos. La muestra del estudio es una muestra aleatoria sim­ple extrafda de una poblacion de animales similares. Los valores delos mediadores siguen una distribuci6n normal.3. Hipotesis.Ho: 02;;:: 4H : 02 =/. 4A4. Estadistica de prueba. La estadfstica de prueba se obtiene me­diante la ecuaci6n 7.7.1.5. Distribucion de la estadistica de prueba. Cuando la hip6tesis nulaes verdadera, la estadfstica de prueba sigue una distribuci6n de X2con n - 1 grados de libertad.6. RegIa de decisi6n. Sea a = .05. Los valores criticos de X2 son 3.816y 21.920. Se rechaza Ho a menos que el valor calculado de la estadfs­tica de prueba este entre 3.816y 21.920. Las regiones de aceptaci6ny rechazo aparecen en la figura 7.7.1.7. CaIculo de la estadistica de prueba.52 == 12(2.4}2 1.92(U}(1.92)X2;;:: =5.2848. Decision estadistica. No se rechaza Ho porque 3.816 < 5.28< 21.920.9. Conclusion. Con base en estos datos, no es posible conduir que lavariancia de la poblaci6n es diferente de 4.10. Valor dep. La determinaci6n del valorppara esta prueba es com­plicada por el hecho de que se trata de una prueba bilateral y unadistribucion muestral asimetrica. Cuando se tiene una prueba bila­~.025~~jt;;ft;Cl:;;:2o 3.816 21.920 X11~~____Al__________~__-.r-______JL________Regi6n de rechazo Regi6n de no rechazo Regi6n de rechazoFlGURA 7.7.1 Regiones de rechazo y no rechazo para el ej~mplo 7.7.1..
    • FJERCICIOS EJERCICIOS 257teral y una distribuci6n muestral simetrica, como la normal estandara t, es posible, como ya se seiial6, duplicar el valor punilateral. EIproblema surge cuando se intenta hacer esto con una distribuci6nmuestral asimetrica, como la distribuci6n de ji-cuadrada. En estasituaci6n se sugiere que se registre en el informe el valor dep unila­teraljunto can la direcci6n de la desviaci6n observada de la hip6te­sis nula. De hecho, es posible seguir este procedimiento en el casode distribuciones muestrales simetricas. Sin embargo, se via previa­mente que favorece duplicar el valor de punilateral cuando la prue­ba es bilateral e involucra una distribuci6n muestral simetrica.Para este ejemplo, entonces, se reporta el valor de pcomo sigue:p > .05 (prueba bilateral). Los datos de la muestra sugieren unavariancia menor que 4, pero esta hip6tesis no esta apoyada de ma­nera suficiente par la prueba.Si el problema se plantea en terminos de la desviaci6n estandar,es posible elevarla al cuadrado y efectuar la prueha como se indicaen los parrafos anteriores. •Prueba unila1eral Aunque este ejemplo tuvo una prueba bilateral, la pruebaunilateral tambien puede hacerse can modificaciones 16gicas del procedimiento:Para H A : cr2 >cr~, se rechaza Hn si el valor calculado de X2 ~ Xr.~!XPara H A : cr2 < cr~, se rechaza H 0 si el valor calculado de X2 ~ x~Para cada uno de los siguientes ejercicios, lleve a cabo el procedimiento de los diez pasospara la prueba de hip6tesis. Para cada ejercicio, donde sea oportuno, explique por que seutiliza la prueba unilateral 0 la bilateral. Analice que tan utiles pueden ser los resultados dela prueba de hip6tesis para los medicos e investigadores. (Que acciones 0 decisiones medi­cas 0 de investigaci6n pueden ser adecuadas a la Luz de los resultados de las pruebas?7.7.1 Infanteetal. (A-26) llevaron a cabo un estudio devalidaci6n del metodo de dosis aplicadadesoluci6n de deuterio a mujeres en etapa de lactaci6n para medir el consumo de leche mater­na por parte de los bebes. Los individuos estudiados eran 10 lactantes hospitalizados en unaclinica de recuperaci6n y nutrici6n en la ciudad de Santiago de Chile. Entre los datos reco­lectados y analizados estaba la medici6n del agua ingerida a partir de la cuallos investigado­res calcularonuna desviaci6n estandar de 124 (mlldfa). Se pretende saber si es posible concluirque la desviaci6n estandar de la poblaci6n es menor que 175. Sea a = .05.7.7.2 Greenwald y Henke (A-27) compararon el tratamiento y los riesgos de mortalidad entre lospacientes con cancer de prostata que recibfan atencion en una clfnica de salud publica yaquellos que recibfan atenci6n medica en alguna organizaci6n de cuidados de la salud (OCS).Entre los hallazgos, los investigadores reportaron, para una muestra de 44 pacientes atendi­dos en OCS, un error estandar de 2.33 para los resultados de la media de la muestra. ~Ofre­cen estos datos suficiente evidencia para indicar que la desviaci6n estandar de la poblaci6nes menor que IS? Sea a .01.
    • 258 CAPITULO 7 PRUEBA DE HIPOTESIS7.7.3 Se registraron los valores de la capacidad vital de una muestra de 10 pacientes con obs­truccion cr6nica severa de las vias respiratorias. La variancia de las 10 observaciones fuede .75. Pruebe la hip6tesis nula que indica que la variancia de la poblaci6n es de 1.00.Sea a. =.05.7.7.4 Se registraron los valores de hemoglobina (g %) de una muestra de 20 ninos que formabanparte de unestudio de leucemia aguda. La variancia de las observaciones fue de 5. ~Propor­cionan estos datos suficiente evidencia para indicar que la variancia de la poblacion es mayorque 4? Sea a. =.05.7.7.5 Una muestra de 25 administradores de hospitales grandes particip6 en un estudio parainvestigar la naturaleza y el grado de frustraci6n y tension emocional asociados con el traba­jo. A cada participante se Ie hizo una prueba con el fin de estimar el grado de tensi6nemocional que experimentaba como resultado de los deberes y responsabilidades asociadosa su trabajo. La variancia de los resultados obtenidos fue de 30. ~Es posible concluir a partirde estos datos que la variancia de la poblacion es mayor que 25? Sea a. .05.7.7.6 En un estudio realizado en 15 pacientes con enfermedad sarcoide pulmonar, se midieron lasconcentraciones de gases en la sangre. La variancia de los valores de Pao (en mm Hg) fue de450. Pruebe la hipotesis nula segtin la cualla variancia de la poblaci6n es2mayor que 250. Seaa. = .05.7.7.7 Un analisis delliquido amniotico de una muestra aleatoria simple de 15 mujeres embaraza­das proporciono las siguientes cantidades del total de proteina (gramos por cada 100 ml):.69, 1.04, .39, .37, .64, .73, .69,l.04,.83, 1.00, .19, .61, .42, .20, .79~Proporcionan estos datos la evidencia suficiente para indicar que la variancia de la pobla­ci6n es mayor que .05? Sea a. = .05. ~Que suposiciones son necesarias?7.8 PRlJEBA DE mPOTESIS PARA LA RAZONDE lAS VARIANCIAS DE DOS POBLACIONESComo se mencion6, el uso de la distribud6n t para construir intervalos de confian­za y probar hip6tesis para la diferencia entre las medias de dos poblaciones suponeque las variancias de las poblaciones son iguales. Como regIa, las iinicas indicacio­nes acerca de las magnitudes de las variancias respectivas son las variandas calcula­das a partir de las muestras extraidas de las poblaciones. Serfa conveniente saber sila diferencia que indudablemente existe entre las variancias de las muestras indicauna diferenda verdadera en las variandas de las pobladones, 0 si la diferenciaes detal magnitud que pudiera haber aparecido como resultado s610 del azar cuando lasvariancias de las pobladones son iguales.Dos metodos de am1lisis qufmico pueden dar los mismos resultados en pro­medio. Sin embargo, es posible que los resultados obtenidos por medio de un me­todo sean mas variables que los resultados del otro. Seria conveniente contar conalgiin metodo que permitiera determinar si es probable que esto sea derto.
    • 2597.8 PRUEBA DE HlPOTESIS PARA LA RAZON DE LAS VARIANCIASPrueba de la ra,.,on para la variancia Las decisiones referentes ala compa­rabilidad de las variancias de dos poblaciones se basan por 10 general en laprueba de faraz6n para fa variancia, que es una prueba de la hipotesis nula que indica que las varian­cias de dos poblaciones son iguales. Cuando se prueba esta hipotesis, de hecho se estaprobando la hipotesis de que la razon de dichas poblaciones es igual a 1.En e1 capitulo anterior se estudio que, cuando son satisfechas ciertas suposi­ciones, la cantidad (st 1anI(s~ 1aD sigue una distribucion F con los grados delibertadnj -I en el numerador y n21 en el denominador. Si la hipotesis indica queaf a~, se supone que la hipotesis es verdadera y que las dos variancias se anulanen la expresion anterior y queda sl21 s:, la cual sigue la misma distribucion E Larazon S]2 1s~ se designa mediante las siglas RV., la razon de la variancia.Para una prueba bilateral, se sigue la convencion de colocar la variancia ma­yor en e1 numerador y se obtiene el valor cntico de F para a)2 y los grados de libertadadecuados. Sin embargo, para una prueba unilateral, se determina cmil de las dos .variancias se ha de poner sobre el numerador mediante el enunciado de la hipote­sis nula. Por ejemplo, para la hip6tesis nula que dice que af ::;; a~, la estadfstica deprueba adecuada es R.V. = Sl2 1s:. Se obtiene el valor crftico de F para a. (y no paraa)2) y los grados de libertad adecuados. De modo semejante, si la hipotesis nula esaf ~ a~, la estadistica de prueba adecuada es R.V. s: 1S12. En todos los casos, laregia de decisi6n es rechazar la hipotesis nula si la RV. calculada es mayor 0 igualque el valor critico de EEJEMPLO 7.8.1Behr et al. (A-28) investigaron las alteraciones de la termorregulaci6n en pacientescon determinados adenomas pituitarios (P). La desviacion estandar de los pesos deuna muestra de 12 pacientes fue de 21.4 kg. Los pesos de la muestra formada porcinco individuos de control (C) produjo una desviacion estandar de 12.4 kg. Sepretende saber si es posible conduir que los pesos de la poblacion representada porlos pacientes de la muestra ofrecen mayor variabilidad que los pesos de la pobla­ci6n representada por la muestra de individuos de control.Soluci6n:1. Datos. Vease la proposici6n del ejemplo.2. Supuestos. Cada una de las muestras es una muestra aleatoria sim­ple extraida de una poblacion de individuos similares. Las muestrasson independientes, y los pesos de ambas poblaciones siguen unadistribucion aproximadamente normal.3. Hip6tesis.Ho :a~ ::;; a~HA :a; >a~4. Estadlstica de prueba.RV. s; /s~
    • 260 CAPiTULO 7 PRUEBA DE HIPOTESISEJERCICIOS Regi6n de no rechazo Regi6n de rechazoFIGURA 7.8.1 Regiones de rechazo y no rechazo para el ejemplo 7.8.1.5. Distribucion de Ia estadistica de prueba. Cuando la hip6tesis nulaes verdadera, la estadfstica de prueba sigue una distribuci6n F connp - 1 grados de liber~ad como numerador y nc - 1 como denomi­nador.6. RegIa de decision. Sea (l == .05. El valor uitico de F, extraido de latabla G, es 5.91. Es importante observar que la tabla G no contieneuna entrada para el numerador de 11 grados de libertad, y por 10tanto, 5.91 se obtiene mediante el uso de 12, que es el valor mascercano a 11 en la tabla. Se rechaza Ho si R.v. ~ 5.9L Las regiones derechazo y no rechazo aparecen en la figura 7.8.1.7. CaIcuio de Ia estadistica de prueba.R.V.=(21.4)2 2.98(12.4)28. Decision estadistica. No es posible rechazar a Ho porque 2.98 <5.91; es decir, la raz6n calculada cae dentro de la regi6n de no re­chazo.9. Conclusion. Es posible que los pesos de la poblaci6n de pacientesno tenga mayor variabilidad que la que presentan los pesos de losindividuos de control.10. Valor de p. Puesto que el valor calculado de R.V. 2.98 es menorque 3.90, el valorp para esta prueba es mayor que .10. •En los siguientes ejercicios aplique el procedimiento de los diez pasos para la prueba dehip6tesis. Para cada ejercicio explique por que es conveniente utilizar la prueba unilateral 0la bilateral. Analice que tan utiles pueden ser los resultados de la prueba de hip6tesis paralos medicos e investigadores. ~Que acciones y decisiones medicas 0 de investigaci6n puedenser adecuadas a la luz de los resultados de las pruebas?
    • EJERCICIOS 2617.8.1 Perry et al. (A-29) realizaron un estudio para determinar si existe correlaci6n entre la concen­traci6n de dozapina y la respuesta terapeutica. Los individuos estudiados eran pacientes condiagn6stico de esquizofrenia para quienes se cumplfan otros criterios. AI final de cuatrosemanas de tratamiento a base de dozapina, se dasific6 a los sujetos como pacientes querespondieron y pacientes que no respondieron al tratamiento. Las desviaciones estandar delas calificaciones, con base en la Escala breve de dasificaci6n psiquiatrica fue de 2.6 entre los11 pacientes que respondieron al tratamiento y 7.7 entre 18 pacientes que no respondieronal tratamiento, cuando este termin6. En general, con base en estos datos, ,es posible con­duir que la variancia de las calificaciones de la escala de los pacientes que no respondieronal tratamiento es mayor que la variancia de las calificaciones de los pacientes que sf 10 hicie­ron? Sea IX = .05.7.8.2 Studenski et al. (A-30) condujeron un estudio en el que participaron individuos de la terceraedad que sufrian cafdas sin motivo aparente (grupo con caidas) y personas de la tercera edadfisicamente sanas (grupo de control). Entre los hallazgos reportados por los investigadoresestan las estadisticas respecto a la latencia (ms) de la tibia anterior (TA). La desviaci6n estandarfue de 23.7 para la muestra de 10 individuos con disfunci6n y 15.7 para la muestra de 24individuos del grupo de control. (Ofrecen estos datos suficiente evidencia para conduir quela variabilidad de las caIificaciones para esta variable difiere entre las poblaciones represen­tadas por los dos grupos? Sea IX = .05.7.8.3 Se efectu6 una prueba para estimar el nive! de angustia de una muestra de pacientes varonesy de una muestra de pacientes mujeres poco antes de practicarles la misma intervenci6nquirfugica. Los tamaiios de las muestras y las variancias ca1culadas a partir de los puntajesobtenidos son los siguientes:Varones: n = 16, S2 = 150Mujeres: n 21, S2 = 275(Proporcionan estos datos la evidencia suficiente para indicar que, en las poblaciones repre­sentadas, los puntajes obtenidos por las mujeres son mas variables que los obtenidos por loshombres? Sea IX =.05.7.8A En un experimento para estimar los efectos del humo de dgarrillo sobre las ratas, se expuso a 11animales al humo de cigarrillos sin fittro, y otms 11 animales de control no fueron expuestos. AItermino del experimento se midi6 la frecuencia de parpadeo (parpadeo I min a 200C) en cadaanimal. La varianda para el grupo expuesto fue de 3400 y de 1200 para el grupo no expuesto.andican estos datos que las variancias de las poblaciones son diferentes? Sea IX .05.7.8.5 Se compar6la eficacia de dos analgesicos con base en el tiempo transcurrido desde su admi­nistraci6n hasta el momenta del cese del dolor. Treinta pacientes recibieron el medicamento21, y otros 13 elmedicamento 2. Lasvariancias de las muestras son 51 64y si = 16. Pruebela hip6tesis nula que indica que las variancias de las dos poblaciones representadas soniguales. Sea IX = .05.7.8.6 Se efectuaron determinaciones del volumen del paquete celular en dos grupos de niiios conenfermedad cardiaca cian6tica congenita. Los tamaiios de las muestras y las variandas fueron:Grupo n1 10 402 16 84dProporcionan estos datos evidencia suficiente para conduir que la variancia de la poblaci6n2 es mayor que la variancia de la poblad6n I? Sea IX .05.
    • 262 CAPiTULO 7 PRUEBA DE HIPOTESIS7.8.7 Las muestras aleatorias simples independientes de dos cepas de ratones utilizadas para unexperimento proporcionaron las siguientes mediciones de los niveles de glucosa en la san­gre, despues de una experiencia traumatica.CepaA: 54,99,105,46,70,87,55,58,139,91CepaB: 93,91,93, 150,80, 104, 128,83,88,95,94,97~Proporcionan estos datos evidencia suficiente para indicar que la variancia en la poblaci6nde ratones de la cepa A es mayor que la variancia en la poblaci6n de la cepa B? Sea a = .05.~Que suposiciones son necesarias?7.9 ERROR TIrO nYIAPOTENCIA DE IA PRUEBAEn el analisis de la prueba de hipotesis, la atencion principal esUi puesta en a, laprobabilidad de cometer el error de tipo I (rechazar una hipotesis nula verdadera).Es poca la atencion que se Ie ha dado a ~, la probabilidad de cometer el error detipo II (no rechazar una hipotesis nula falsa). Hay una razon quejustifica esta dife­rencia. Para una prueba dada, a es un solo mimero asignado por el investigadorantes de realizar la prueba. Es una medida del riesgo aceptable de rechazar unahipotesis nula verdadera. Por otra parte, ~ puede adoptar uno de muchos valores.Supongase que se pretende probar Ia hipotesis nuia de que el panimetro de algunapoblacion es igual a alglin valor espedfico. Si Ho es falsa y no se rechaza, se comete elerror de tipo II. Si el valor supuesto del panimetro no es el valor correcto, el valor de~ (la probabilidad de cometer el error de tipo II) depende de los siguientes factores:1) valor correcto del parametro de interes, 2) valor supuesto del parametro, 3) valord.e a y4) tamafio n de la muestra. Por 10 tanto, antes de aplicar la prueba de hipotesis,para los valores f~os de a y n pueden calcularse una gran cantidad de valores para~ proponiendo muchos valores para los panimetros de interes dado que el valorsupuesto es falso.Para una prueba de hipotesis dada, es interesante saber que tanto control setiene sobre el error de tipo II. Si Ho es falsa y de hecho 10 es, ~cual es la probabili­dad de rechazarla? La informacion para contestar esta pregunta radica en la pa­lencia de la prueba, designada como 1- ~. La cantidad 1 ~ es la probabilidad derechazar la hipotesis nula falsa; esta puede calcularse paracualquier valor delparametro respecto al cual se prueba una hipotesis. Por 10 tanto, 1 - ~ es la proba­bilidad de tomar la accion correcta cuando Ho es falsa porque el valor correcto delparametro es igual a alguno para los que se calculo 1 - ~. Para una prueba dada esposible especificar cualquier mimero de posibles valores del parametro de interes ypara cada uno, calcular el valor de 1 - ~. AI resultado se Ie llamajUncian de potencia.Ala grafica para la funcion de potencia se Ie llama curva de potencia, y es un mecanis­mo util para evaluar nipidamente la naturaleza de la potencia de una prueba dada.Los siguientes ejemplos muestran el procedimiento que se utiliza para analizar lapotencia de la prueba.
    • 2637.9 ERROR TIPO II Y LA POTENCIA DE LA PRUEBAEJEMPI,O 7.9.1Suponga que se tiene una variable con valores que forman una poblacion con unadesviacion esUindar de 3.6. De esta poblacion se extrae una muestra aleatoria sim­ple de tamaiio n = 100. Se escoge un valor de <X = .05 para las siguientes hipotesis:Ho: Il 17.5, HA : 1l:;C 17.5Soludon: Cuando se estudia la potencia de una prueba, se localizan las regionesde rechazo y no rechazo sobre la escala de xen lugar de la escala de z.Los valores crfticos de x para la prueba bilateral se calculan con lassiguientes formulas:(JIlo +Z -r;; (7.9.1)y(JXL Ilo +z--;= (7.9.2)-vndonde Xu Y XL son los valores crfticos superior e inferior, respectivamen­te, de x; + Z Y- Z son los valores crfticos de Z; YIlo es el valor supuesto deIl. Para este ejemplo, se tiene:. (3.6)17.50 + 1.96 - == 17.50 + 1.96(.36)(10)== 17.50 + .7056 == IS.21YXL == 17.50 - 1.96(.36) == 17.50 - .7056 16.79Suponga que Ho es falsa, es decir, que Il es diferente de 17.5. Eneste caso, Il es igual a cualquier otro valor que no sea 17.5. No se conoceel valor verdadero de Il, pero si Ho es falsa, Il es uno de muchos valoresmayores 0 menores que 17.5. Suponga que la media poblacional correc­ta es III = 16.5. Por 10 tanto, la distribucion muestral de XI tambiensigue una distribucion aproximadamente normal, con Ilx =Il = 16.5. Aesta distribucion muestral se Ie llama j( XI) Ya la distribucion muestralb~jo la hipotesis nula se Ie llamaf( x )o~, la probabilidad de cometer el error tipo II al no rechazar unahip6tesis nula falsa, es el area bajo la curva de j( Xl) que traslapa la re­gion de no rechazo especificada b~jo la hip6tesis Ho Para determinar elvalor de ~, se calcula el area bajo la curva en el tramo dej( Xl) por enci­madeleje yentre losvalores X 16.79y X IS.21.Elvalorde~esigual a P(l6.79::; X::; IS.21) cuando Il = 16.5. Esto es igual a:p[16.79-16.5 ::; Z::; IS.2,1-16.5J p[.29::; z::; 1.71 J.36 .36 .36 .36== P(.SI ::; Z::; 4.75)"" 1 - .7910 .2090
    • 264 CAPITULO 7 PRUEBA DE HIPOTESISRegion deRegion de rechazo -_~ no rechazo .......1-.-- Region de rechazo a/2----~~==~~--~-+~~~==~--------x19FIGURA 7.9.t Tamaiio de ~ para valores espedficos de H jpara el ejemplo 7.9.1.Asi, la probabilidad de tomar una acci6n adecuada (es decir, rechazar aHo) cuando la hip6tesis nula establece que !l = 17.5, pero de hecho !l= 16.5, es 1 - .2090 = .7910. Como puede verse, !l puede ser uno deuna gran cantidad de valores posibles cuando Ho es falsa. En la figura7.9.1 aparece una grafica con algunas de estas posibilidades. La tabla7.9.1 muestra los valores correspondientes de ~ y 1 - ~ (que son aproxi­mados), junto con los valores de ~ para algunas alternativas adicionales.Observe que en la figura 7.9.1 y la tabla 7.9.1 los valores de !l bajo lahip6tesis alternativa que estan mas cercanos al valor de !l especificado porHo tienen valores ~ mas grandes asociados. Por ejemplo, cuando !l == 18
    • 2657.9 ERROR TIPO II Y LA POTENClA DE LA PRUEBATABlA 7.9.1 VaJores de ~ y 1-~ paravalores alternativos especfficos de 1-11,para el ejemplo 7.9.1Valores posibles de 11 bajo HI cuando Hoes falsa 1-~ 16.016.517.018.018.519.00.01430.20900.71900.71900.20900.01430.98570.79100.28100.28100.79100.98571-f31.000.900.800.700.600.500.400.300.200.10016.0 17.0 18.0 19.0Valores alternativos de JlFIGURA 7.9.2 Curva de potencia para el ejemplo 7.9.1.b~jo la hipotesis alternativa, ~ = .7190; y cuando 11 = 19.0 bajo la hip6te­sis HI ~ = .0143. La potencia de la prueba para estas dos alternativases, por 10 tanto, 1 .7190 = .2810 Y1- .0143 = .9857, respectivamente.Se muestra la potencia de la prueba en la curva de potencia de la figura7.9.2. N6tese que entre mas alta sea la curva mayor es la potencia. •Aunque solo un valor de a esta asociado con una prueba de hip6tesis dada, existenmuchos valores de ~, uno para cada valor posible de It si lto no es el valor real parael valor supuesto de 11. A menos que los valores altemos de 11 sean mas grandes 0mas pequenos que lto ~ es relativamente mayor comparada con a. Generalmente,se utilizan los procedimientos de prueba de hipotesis con mas frecuencia en los casosen que, cuando Hoes falsa, el valor verdadero del panimetro esrn bastante cerca delvalor supuesto. En muchos casos, ~, la probabilidad calculada de no rechazar lahipotesis nuia falsa, es mayor que a, la probabilidad de rechazar una hipotesis nulaverdadera. Estos hechos son compatibles con la proposicion de que la decision ba­sada en el rechazo de la hipotesis nula es mas concluyente que la decision basada en
    • 266 CAPITULO 7 PRUEBA DE HIPOTESISla hip6tesis nula que no es rechazada. La probabilidad de estar equivocado en esteultimo caso es, por 10 general, mayor que la probabilidad de estar equivocado en elprimer caso.La figura 7.9.2 muestra la apariencia de la curva de potencia en forma de Vpara pruebas bilaterales. En general, las pruebas bilaterales que distinguen correc­tamente entre el valor del panimetro en Ho Ylos valores en HI dan como resultadouna curva de potencia en forma de V un poco cerrada. Una curva amplia en formade V indica que la prueba hace una distinci6n limitada sobre un intervalo relativa­mente amplio de valores altemativos del parametro.Curvas de potencia para pruebas unilaterales La forma de una curvade potencia para pruebas unilaterales con regi6n de rechazo sobre la cola superior,es una S alargada. Si la region de rechazo de una prueba unilateral se localiza en lacola inferior de la distribucion, la curva de potencia toma forma de una S invertida yalargada. EI siguiente ejemplo muestra las caracterfsticas de la curva de potenciapara pruebas unilaterales.FJEMPLO 7.9.2EI tiempo promedio que utilizan los empleados de laboratorio para hacer ciertotipo de tarea en una maquina es de 65 segundos, con una desviaci6n estandar de 15segundos. Los tiempos siguen una distribucion aproximadamente normal. Los fa­bricantes de una nueva maquina aseguran que su maquina reduce el tiempo pro­medio necesario para hacer dicha tarea. EI supervisor de control de calidad disen6una prueba para determinar si era 0 no posible creer la afirmacion de los fabrican­tes de la nueva maquina. Se escogio un nivel de significaci6n de ex, = 0.01, Y seseleccionaron aleatoriamente 20 empleados para realizar la tarea en la nueva ma­quina. Las hipotesis son:Ho:/-L;::: 65, HA: /-L < 65EI supervisor de control de calidad tambien quiere construir una curva de potenciapara la prueba.Solucion: El supervisor de control de calidad calcula, por ejemplo, el siguientevalor de 1 ~ para el valor altemativo de Jl 55. El valor crftico de Xipara la prueba es65 -2.33(~) 57Fa~ se calcula como sigue:~=P(x>57IJl=55) p(z> 57 Jlo)=P(Z>.60)15/ 201 .7257 .2743Consecuentemente, 1 - ~ = .2743 = .7257. La figura 7.9.3 muestrael calculo de ~. Calculos analogos para otros valores altemativos de /-L,tambien producen valores de 1- ~. Cuando se grafican otra vez los valo­
    • EJERCICIOS 267~~~~~~~~x55 57 65F1GURI 7.9.3 ~ calculada para 11 = 55.1- J~1.00r-1,....._~0.900.800.700.600.500.400.300.200.10FIGUM 7.9.4Valores alternativos de I-lCurva de potencia para el ejemplo 7.9.2.res de ~, estos generan una curva de potencia como la que se muestra enla figura 7.9.4. •Curvas caracteristicas de operacion Otra manera de evaluar la prueba esver la curva caracteristica de operaci6n (CO). Para construir una curva caracterfstica deoperacion, se grafican los valores de ~, y no los de 1 - ~ sobre el eje vertical. As{ lacurva caracterfstica de operacion es el complemento de la curva de potencia.EJERCICIOSConstruya y grafique la funci6n de potencia en cada uno de los siguientes casos:7.9.1 Ho: 11 S 516, HA: 11 > 516, n = 16, (j = 32, a = 0.05.7.9.2 Ho: 11 = 3, HA: 11 # 3, n = 100, (j = 1, a = 0.05.7.9.3 Ho: 11 S 4.25, HA: 11 > 4.25, n = 81, (j = 1.8, a = 0.01.
    • 263 CAPITULO 7 PRUEBA DE HIPOTESIS7.10 cALCULO DEL TAMANO DE lAMUESTHAPARA CONTROlAR EL ERROR T1PO nEn el capitulo 6 se estudia c6mo calcular el tamafio de las muestras necesario paraconstruir los intervalos de confianza para medias y proporciones de la poblaci6n, conniveles espedficos de confianza. En el capitulo 7 se menciona que los intervalos deconfianza se pueden utilizar para probar hip6tesis. EI metodo para determinar eltamafio de la muestra, presentado en el capitulo 6, toma en cuenta las probabilida­des de cometer el error de tipo I, pero no las del error de tipo II porque el nivel deconfianza esta determinado por el coeficiente de confianza, I a.En muchos procedimientos de inferencia estadistica, los investigadores querranconsiderar el error de tipo II as! como el error de tipo I cuando determinan el tamafiode la muestra. Para ilustrar este procedimiento, el ejemplo 7.9.2 puede servir.IJE~IPLO 7.10.1En el ejemplo 7.9.2, las hip6tesis son:La desviaci6n estandar de la poblaci6n es 15 y la probabilidad de un error tipo I es .0LSuponga que se pretende que la probabilidad de no rechazarHo (~) sea.05 si Ho es falsaporque la media verdadera es 55 y no el valor supuesto de 65. ~Que tan grande debeser la muestra para lograr, simultaneamente, los niveles deseados de a y ~?Saludon: Para a .01 y n = 20, ~ es igual a .2743. EI valor critico es 57. Deacuerdo con las nuevas condiciones, el valor critico se desconoce. A estenuevo valor critico se Ie puede llamar C. Sea Jl la media supuesta YJl lao 1media correspondiente a la hip6tesis alternativa. Es posible transformara cada una de las distribuciones muestrales pertinentes de con me­dias de Jl YJlp en una distribuci6n z. Por 10 tanto, se puede convertir a Coen un valor de Z sobre la escala horizontal de cada una de las dos distri­buciones normales estandar. Cuando se transforma la distribuci6n mues­tral de xque tiene una media Jl en la distribuci6n normal estindar, a laoZ resultante se Ie llama ZOo Cuando se transforma la distribuci6n muestralde x que tiene una media Jll en la distribuci6n normal estandar, a la Zresultante se Ie llama ZI La figura 7.10.1 muestra las situaciones descri­tas hasta aqul.Se puede expresar el valor cntico C como una funci6n de Zo YJl Yotambien como funci6n de Zj YJlj Esto genera las siguientes ecuaciones:(7.10.1) (J(7.10.2)
    • 7.10 CA.LCULO DEL TAMANO DE LA lIUESTRA PARA CONTROLAR EL ERROR TIPO II 269------------------~~--~--r_-----------------z--------------------~------~-----------------zFIGURA 7.10.1 Representaci6n gnifica de las relaciones en los calculos deltamano de la muestra para controlar enores de tipo I y II.Igualando los extremos derechos de estas dos ecuaciones y despejandon, se obtiene:n =[(ZO +ZI)0]2 (7.10.3)(110 Ill)Para calcular n, en este ejemplo, se sustituyen las cantidades co­rrespondientes en la ecuaci6n 7.10.3. Se dene que 110 65, III = 55 Y0 = 15. Con la tabla D del apendice, el valor de Z que tiene.01 del areaa su izquierda es -2.33. El valor de z que tiene .05 del area a su derechaes 1.645, y ambasz y Zl son positivas. Se determina si C queda arriba 0oabajo de cualquiera de las medias 110 0 III cuando se sustituyen en lasecuaciones 7.10.1 y 7.10.2. Asi, se calculan [(2.33+1.645)(15)]2 35.55(65-55)Se necesita una muestra de tamafio 36 para alcanzar los niveles de ex. y ~cuando se escoge a JlI55 como valor alternativo de Jl.Ahora se calcula C, el valor aitico para Ia prueba, y se establece unaregIa de decisi6n adecuada. Para calcular C se sustituyen los valores nume­ricos conocidos en cualquierade las ecuaciones 7.10.1 07.10.2. Para ilustraresta operaci6n, se despeja C en ambas ecuaciones. Primero se tiene:C 65-2.33[ ~)=59.175Con la ecuaci6n 7.10.2 se tiene:C=55+1.645[ ~)=59.1125•
    • 270 CAPiTULO 7 PRUEBA DE HIPOTESISLa diferencia entre los dos resultados se debe al error de redondeo.La regIa de decisi6n, cuando se utiliza el primer valor de C, es como sigue:Seleccionar una muestra de tamaiio 36Y calcular x. Si x :::; 59.175, se rechaza Ho Six no se rechaza HoSe ha limitado el estudio del error tipo II y la potencia de la prueba a las situa­ciones que induyen la media poblacional, pero los conceptos se extienden a situacionesque involucran otros parametros.FJERCICIOS7.10.1 DadaHo: 11:::; 516, HA: 11 > 516, n = 16, (J = 32,0: = .05, sea p= .10 YIII =520. Calcule n yC. EstabIezca Ia regIa de decisi6n adecuada.7.10.2 Dada Ho: 11:::; 4.500, HA: 11 > 4.500, n = 16, (J = .020, 0: = .01, sea p .05 YIII 4.52.Calcule nyC. EstabIezca Ia regIa de decisi6n adecuada.7.10.3 DadaHo: 11:::; 4.25,HA: Il > 4.25,n = 81, (J = 1.8,0:= .01, sea p= .03y III 5.00. Calculeny C. EstabIezca Ia regIa de decisi6n adecuada.7.11 RESUMENEn este capitulo se analizan los conceptos generales de la prueba de hip6tesis. Sepropone un procedimiento general para llevar a cabo la prueba de hip6tesis, queconsta de los siguientes diez pasos.1. Describir los datos.2. Determinar los supuestos necesarios.3. Determinar las hip6tesis nula y alternativa.4. Especificar la estadfstica de prueba.5. Especificar la distribuci6n de la estadfstica de prueba.6. Proponer la regIa de decisi6n.7. Calcular Ia estadistica de prueba a partir de los datos de la muestra.8. Establecer la decisi6n estadistica basada en los resultados de la muestra.9. Conclusi6n.10. Determinar el valor de p.
    • 271PREGUNTAS Y EJERCICIOS DE REPASOSe describen en detalle y se ilustran con ejemplos adecuados algunas pruebasde hipotesis especificas. Estas incluyen pruebas relacionadas con las medias poblacio­nales, la diferencia entre las medias de dos poblaciones, comparaciones por parejas,proporcion de una poblacion, diferencia entre las proporciones de dos poblacio­nes, la variancia de la poblacion y la razon de las variancias de dos poblaciones.Ademas, se analiza la potencia de la prueba y la determinacion del tamafio de lamuestra para controlar los dos tipos de error I y II.PREGUNTAS YEJERCICIOS DE REPASO1. ~Cual es el prop6sito de la prueba de hip6tesis?2. ~Que es una hip6tesis?3. Mencione y explique cada uno de los diez pasos del procedimiento para la prueba de hip6­tesis.4. Defina:a) Error de tipo I b) Error de tipo IIc) La potencia de la prueba d) Funci6n de potenciae) La curva de potencia f) Curva caracterfstica de operaci6n5. Explique la diferencia entre las curvas de potencia para las pruebas unilateral y bilateral.6. Explique c6mo decidir que proposici6n establecer en la hip6tesis nula y que proposici6nplantear en la hip6tesis alternativa.7. ~Que suposiciones apoyan el uso de la estadfstica t en la prueba de hip6tesis para una solamedia y para la diferencia de dos medias?8. ~Cuando puede utilizar z en pruebas de hip6tesis para: a) la media de una sola poblaci6n? b) la diferencia entre las medias de dos poblaciones? c) la proporci6n de una sola poblaci6n? e) la diferencia entre las proporciones de dos poblaciones? 9. AI probar una hip6tesis acerca de la diferencia entre las medias de dos poblaciones, ~cual eslajustificaci6n para la combinaci6n de las variancias de las muestras?10. Explique lajustificaci6n para el uso de la prueba de comparaci6n por parejas.11. De un ejemplo relacionado con el propio campo de interes en donde la prueba de compara­ci6n por parejas sea adecuada. Utilice datos reales 0 ficticios y ponga en practica la pruebade hip6tesis mas conveniente.12. De un ejemplo, relacionado con el propio campo de interes, en donde sea conveniente pro­bar una hip6tesis respecto ala diferencia entre las medias de dos poblaciones. Utilice datosreales 0 ficticios, para poner en practica el procedimiento de los diez pasos para la prueba dehip6tesis.13. Resuelva el ejercicio 12 para la media de una sola poblaci6n.
    • 272 CAPITULO 7 PRUEBA DE HIPOTESIS14. Resuelva el ejercicio 12 para la proporcion de una sola poblacion.15. Resuelva el ejercicio 12 para la diferencia entre las proporciones de dos poblaciones.16. Resuelva el ejercicio 12 para la variancia de una poblacion.17. Resuelva el ejercicio 12 para la razon de las variancias de dos poblaciones.18. EI doctor Yue Chen (A-31), en un articulo publicado en la revistaAmencanJournal ofPublicHealth, presenta informacion de algunos factores asociados con las practicas de alimentaci6nde niiios pequeiios por parte de madres de la ciudad de Shanghai. Encontro que entre 1706niiios varones, 35.9 por ciento recibian alimentacion con biberones. Entre 1579 niiias, 32.9por ciento tambien recibian alimentacion con biberones. Esta proporcion de infantes quereciben alimentacion mediante biberones ~es significativamente mas alta entre los varonesque entre las niiias? Sea a = .10.19. Rodriguez-Roisin et al. (A-32) aseguran que la prueba de inhalacion de metacolina (MTH)es una de las mas utilizadas para efectuar diagnosticos de asma. Inve~tig~ron la desigual­dad del patron y el tiempo transcurrido en la ventilacion-profusion (VNQ) despues de laprueba para definir mejor el modelo de estimulacion bronquial con MTH en pacientesasintomaticos de asma ligera. Entre los datos recolectados a partir de los 16 individuosestudiados estan las siguientes mediciones de Pao, antes (A) y despues (D) de la estimula­cion con MTH.Caso# A D1 88.2 70.6 2 100.9 70.0 3 96.0 7l.04 99.1 64.15 86.9 79.5 6 103.7 79.5 7 76.0 72.2 8 8l.8 70.6 9 72.1 66.9 10 93.7 67.0 11 98.3 67.2 12 77.5 7l.6 13 73.5 7l.5 14 9l.7 71.1 15 97.4 77.0 16 73.5 66.4 FUENTE: Utilizada con autorizaci6n de Robert Rodriguez-Roisin. M. D. ~Ofrecen estos datos suficiente evidencia que indique que la MTH causa disminucion de laPao,? Sea a = .05.20. Darko et al. (A-33) evaluaron la utilidad de ensayos para la proliferacion de linfocitos indu­cida por mitosis, en una investigacion clinica de psicoinmunologia. Los sujetos del estudio
    • 273PREGUNTAS Y EJERCICIOS DE REPASOeran pacientes con diagnostico de trastorno depresivo grave, quienes satisfacian tambienotros criterios de estudio, as! como individuos sanos desde el punto de vista medico y psi­quiatrico. Entre los datos recolectados estan las calificaciones, con base en la Escala breve declasificacion psiquiatrica, para ambos grupos de individuos. Los pacientes del grupo A seajustaron a la hipotesis de que al deprimirse, la respuesta de inmunidad disminuye, y elgrupo de pacientes B tuvo mejor respuesta en comparacion con el otro. Las calificaciones desubescala de depresion incluida en la Escala breve de clasificaci6n psiquiatrica para los indi­viduos de ambos grupos es la siguiente:GrupoA GrupoB12 17 13 14 12 19 12 15 9 8 7 19 8 12 5 20 10 9 13 10 15 12 11 7Fuente: Utilizada con autoriza­cion de Denis F. Darko, M. D. En general, ~es posible conduir, con base en estos datos, que los pacientes del grupo B, enpromedio, tienen mayor calificaci6n en la subescala de depresi6n de la escala? Sea u = .05.21. Nace et al. (A-34) condujeron un estudio para evaluar las complejas relaciones entre la adic­cion y los trastornos de personalidad. Los autores determinaron la frecuencia de los desorde­nes de personalidad en un grupo de individuos adictos de clase media, y los comparo con lostrastornos de personalidad de individuos no adictos. Entre los datos reportados estaban lassiguientes estadisticas sobre el componente de depresion segUn el Inventario de personali­dad multifacetica de Minnesota:Con Sindes6rdenes de personalidad des6rdenes de personaIidadn s n s57 70.63 16.27 43 64.33 12.99FUENTE: Edgar P. Nace, Carlos W. Davis y Joseph P. Gaspari, "Axis II Comorbidity inSubstance Abusers", AmericanJournal ofPsychiatry, 148, 118-120.
    • 274 CAPiTULO 7 PRUEBA DE HIP6TESISEn general, con base en estos datos, ces posible conduir que los individuos adictos con y sintrastornos de personalidad difieren con respecto a las calificaciones medias sobre el compo­nente de depresi6n del Inventario depersonalidad multifacetica de Minnesota? Sea a. = .05.22. Un grupo de investigadores desea saber si las personas adultas que viven en ciudades urba­nas y en comunidades rurales de paises en desarrollo difieren con respecto a la cantidad depersonas ciegas. Una encuesta revel6la siguiente informacion:Tamafto de laGrupo muestra Cantidad de degosRural 300 24 Urbano 500 15 cOfrecen estos datos suficiente evidencia para indicar una diferencia en la prevalencia decasos de ceguera en las dos poblaciones? Sea a. .05. Determine el valor de p.23. En un experimento con animales de laboratorio se recolectaron los siguientes datos respectoal flujo sangufneo de la corteza renal, durante condiciones de control y durante la adminis­traci6n de cierto anestesico:Flujo sanguineo de la corteza renal(ml/glmin)Numero Durante la administraci6nde animal Control del anestesico1 2.35 2.002 2.55 1.713 1.95 2.224 2.79 2.715 3.21 l.836 2.97 2.147 3.44 3.728 2.58 2.109 2.66 2.5810 2.31 l.3211 3.43 3.7012 2.37 l.5913 1.82 2.0714 2.98 2.1515 2.53 2.05(Es posible conduit; con base en estos datos, que el anestesico retarda el flujo sanguineo dela cOl-teza renal? Sea a. .05. Determine el valor de p.
    • 275PREGUNTAS Y EJERCICIOS DE REPASO24. Un gropo de investigadores de alergias llevo a cabo un estudio en el que se analizaron dosgropos de individuos. Como parte de la investigaci6n se hicieron determinaciones deeosin6filos sangufneos en cada individuo, con los siguientes resultados:Valores de eosin6filos (no./mmS) Muestra n x sA 14 584 225 B 16 695 185 C:Ofrecen estos datos suficiente evidencia para indicar que las medias poblacionales son dife­rentes? Sea a = .05. Determine el valor de p.25. Un estudio en 90 mujeres que habfan dado a luz recientemente, elegidas al azar entre losregistros de un departamento de bienestar social, reve16 que 27 de ellas tuvieron un proble­ma de infecci6n intraparto 0 posparto. Pruebe la hip6tesis nula que dice que la proporci6nde la poblaci6n con un problema de infecci6n intraparto 0 posparto es menor 0 igual que.25. Sea a = .05. Determine el valor p.26. En una muestra de 150 pacientes internados en un hospital de urgencias con cierto diagn6s­tico, 128 de ellos presentaron v6mito. (Proporcionan estos datos evidencia suficiente paraindicar, en el nivel.Ol de significaci6n, que la proporci6n de la poblaci6n es menor que .92?Determine el valor p.27. Un gropo de investigadores midi6 el volumen de ventilacion pulmonar en 15 animales delaboratorio. La media y la desviaci6n estandar son 45 y 5 cc, respectivamente. iProporcio­nan estos datos evidencia suficiente para indicar que la media de la poblaci6n es mayor que40 cc? Sea a = .05.28. Una muestra de ocho pacientes internados en un hospital con diagnostico de cirrosis biliarpresent6 una concentraci6n media de IgM de 160.55 unidades por mililitro. La desviaci6nestandar de la muestra fue de 50. ~Proporcionan estos datos evidencia suficiente para indi­car que la media de la poblaci6n es mayor que ISO? Sea a = .05. Determine el valor p.29. Algunos investigadores han observado una mayor resistencia de las vias respiratorias enpersonas fumadoras que en personas no fumadoras. Suponga que en un estudio llevado acabo para comparar el porcentaje de retenci6n traqueobronquial de partfculas en gemelosmonocig6ticos, de los cuales s610 uno de elIos fuma, se presentan los resultados indicados enla tabla siguiente:Percentaje de retenci6n Porcentaje de retenci6n Gemelo que fuma Gemelo que no fuma Gemelo que fuma Gemelo que no fuma 60.6 47.5 57.2 54.312.0 13.3 62.7 13.956.0 33.0 28.7 8.975.2 55.2 66.0 46.112.5 21.9 25.2 29.829.7 27.9 40.1 36.2
    • 276 CAPITULO 7 PRUEBA DE HIP6TESIS~Apoyan estos datos la hip6tesis de que la depuracion traqueobronquial es menor en perso­nas que si fuman? Sea a ~ .05. Determine el valor de ppara esta prueba.30. Se midieron los niveles de estrona circulante en una muestra de 25 mujeres posmenopausicasque siguieron un tratamiento de estrOgeno. La media de la muestra y la desviaci6n estandarson 73 y 16, respectivamente. Con un nivel de significaci6n de .05 y con base en estos datos~es posible conduir que la media poblacional es mayor que 70?31. Se hicieron determinaciones de la resistencia vascular sistemica en una muestra de 16 pa­cientes con insuficiencia cardiaca congestiva y cr6nica que recibfa determinado tratamiento.La media y la desviaci6n estandar son de 1600 y 700, respectivamente. Con un nivel de signi­ficaci6n de .05, ~ofrecen estos datos evidencia suficiente para indicar que la media es menorque 2000?32. Catorce ninos recien nacidos midieron en promedio 53 cm con una desviaci6n estandar de9 cm. Con base en estos resultados, <!es posible conduir que la media es diferente de 50 cm?Sea .10 la probabilidad de cometer el error de tipo 1.Para cada uno de los estudios descritos en los ejercicios del 33 al 38, responda todas laspreguntas posibles que se formulan a continuaci6n: a) ~cuaI es la variable de interes?; b) ~queparametro es el de interes: la media, la diferencia entre las medias (de muestras indepen­dientes), la diferencia entre las medias (de datos por parejas), una proporci6n, 0 la diferenciaentre dos proporciones (de muestras independientes)?; c) ~cual es la poblaci6n muestreada?;d) (cual es la poblaci6n objetivo?; e) ::cuaIes son las hip6tesis nula y alternativa?; f) ~es unaalternativa unilateral por la cola izquierda 0 por la cola derecha, 0 es bilateral?; g) (queerrores de tipo I y II pueden suceder?; h) ::fue rechazada la hip6tesis?, y explique las causasde por que fue 0 no rechazada.33. Jara et al. (A-35) condujeron un estudio en el que encontraron concentraciones de potasio enla saliva de pacientes con sindrome de Down en niveles bastante inferiores a los encontradosen individuos de control.34. Hemming et al. (A-36) estudiaron por espacio de tres anos a 50 pacientes consecutivos que sesometieron a resecci6n de un segmento hepatico. Se utilizaron pruebas t de Student paraanalizar los datos. Entre los hallazgos esta el hecho de que los pacientes cirr6ticos mostraronincrementos significativos en los requerimientos de transfusi6n que pasaron de 0.7 ± 1.3 Ua2.0± 1.3 U.35. Sokas et al. (A-37) reportaron un estudio en el que los estudiantes de medicina de segundoano participaron en un programa de capacitaci6n que se concentr6 principalmente en losriesgos de la exposici6n a enfermedades de transmisi6n sanguinea y en las tecnicas de flebo­tomia e inyecci6n intravenosa que utilizan medidas de precauci6n universales. Los estudian­tes respondieron antes y despues del entrenamiento preguntas de conocimientos, ycalificaronsu preparaci6n en una escala de 5 puntos. Los investigadores encontraron que los conoci­mientos del estudiante yla calificaci6n sobre preparaci6n aumentaron segiin la autoevaluaci6n.36. Wu et ai. (A-38) condujeron un estudio para determinar los efectos de la zidovudina en elestado funcional y de bienestar de pacientes que se encontraban en la primera etapa sinto­matica producida por la infecci6n del virus de inmunodeficiencia humana (VIH). Se les apli­c6 placebo aleatoriamente a 34 individuos, y a 36 mas se les aplic6 zidovudina. Despues, secompararon los cambios medios de la linea de base para aquellos que recibieron zidovudinay los que recibieron placebo. En todas las areas de bienestar, induyendo salud general, ener­gia, salud mental, relajamiento, dolor y calidad de vida, los individuos que recibieron place­bo reportaron mejor calidad de vida en comparaci6n con las cifras de lfnea de base que losindividuos que recibieron zidovudina durante 24 semanas.
    • 277PREGUNTAS Y EJERCICIOS DE REPASO37. Stockwell et al. (A-34) clasificaron a 15 establecimientos con licencia para vender alcohol enla ciudad de Perth en Australia Occidental, como de alto riesgo (siete establecimientos) 0 debajo riesgo (ocho establecimientos), con base en la incidencia de los consumidores involucradosen accidentes automovilfsticos en la carretera y delitos por conducir en estado de ebriedad.Estudiaron a 414 individuos que salieron de los establecimientos seleccionados, entre las 8p.m. y las 12 a.m. durante los dias viernes y sabado. Encontraron que los establecimientos dealto riesgo tenian el triple de consumidores con aliento alcoh61ico que excedia de 0.15 mg/ml(p<.0l). Tambien, encontraron que significativamente mas dueiios de establecimientos dealto riesgo son calificados como moderada 0 severamente intoxicados en comparaci6n conlos dueiios de establecimientos de bajo riesgo. Ambos tipos de dueiios se negaron a practicarsela prueba de aliento alcoh61ico.38. ~Sera mayor la frecuencia de deficiencia de biotinidasa en niiios con retardo inexplicable deldesarrollo 0 con anormalidades neuro16gicas que en la poblaci6n en general? Esta preguntafue estudiada por Sutherland et al. (A-40). Los investigadores examinaron durante un perio­do de cuatro aiios 274 casos de niiios atendidos en una clinica para pacientes externos,quienes presentaban una 0 mas de estas anormalidades neuro16gicas y para quienes no eraposible encontrar la causa espedfica de sus anormalidades. Ninguno de los pacientes conhallazgos atipicos de deficiencia de biotinidasa tenia deficiencia de la actividad de la misma.39. Para cada una de las siguientes situaciones, identifique los errores de tipo I y II Ylas accionescorrectas a seguir:a) Ho: Un nuevo tratamiento no es mas eficiente que el tradicional.1) Adoptar el nuevo tratamiento cuando este es mas efectivo. 2) Continuar con el tratamiento tradicional cuando el nuevo es mas efectivo. 3) Continuar con el tratamiento tradicional cuando el nuevo no es mas efectivo. 4) Adoptar el nuevo tratamiento cuando este no es mas efectivo. b) Ho: El nuevo procedimiento de terapia fisica es satisfactorio. 1) Emplear el nuevo procedimiento cuando este no es satisfactorio. 2) No utilizar el nuevo procedimiento cuando este no es satisfactorio. 3) No utilizar el nuevo procedimiento cuando este es satisfactorio. 4) Emplear el nuevo procedimiento cuando este es satisfactorio. c) Ho: La producci6n de un lote de un farmaco es de calidad satisfactoria. 1) Rechazar ellote de calidad satisfactoria. 2) Aceptar ellote de calidad satisfactoria. 3) Rechazar ellote de calidad no satisfactoria. 4) Aceptar ellote de calidad no satisfactoria. Para cada uno de los estudios descritos en los ejercicios del 40 a155, haga 10 siguiente: a) Aplique un analisis estadistico de los datos (que incluya pruebas de hip6tesis y la construc­ci6n de intervalos de confianza) que usted considere produciri informaci6n util para el in­vestigador. b) Establezca todas las suposiciones necesarias para que el analisis sea valido. c) Encuentre los valores de p para todas las estadisticas de pruebas calculadas. d) Describa laCs) poblaci6n(es) sobre laCs) que se haran las inferencias que pueden ser aplica­bles, de acuerdo con el analisis estadistico. 40. Un estudio realizado por Bell (A-41) para investigar la hip6tesis respecto a que la alteraci6ndel sistema endocrino relacionado con la vitamina D en personas de piel oscura se producepor la reducci6n de 25-hidroxivitamina D en el suero, y que la alteraci6n es revertida con eltratamiento oral de 25-hidroxivitamina, D3• Estudiaron a ocho individuos (tres hombres y
    • 278 CAPITULO 7 PRUEBA DE HIPOTESIScinco mujeres), primero sin aplicarles el tratamiento (para las mediciones de control) y, pos­teriormente, despues de aplicarles el tratamiento de 25-hidroxivitamina D3 durante sietedias (25-0HD3). Las siguientes mediciones corresponden al calcio urinario (mg/dia) de losocho individuos expuestos a las dos condiciones.Individuo Control 25-0HD3A 66 98B 115 142C 54 78D 88 101E 82 134F 115 158G 176 219H 46 60FUENTE: Utilizada con autorizaci6n del Dr. Norman H. Bell. 41. Montner et al. (A-42) condujeron estudios para probar los efectos de la hiperhidrataci6nmejorada con glicerol (HMG) en la resistencia durante el desempefio ciclista. Los 11 indivi­duos con edades entre 22 y 40 afios, recorrian regularmente al menos 75 millas por semana.Los siguientes resultados corresponden al volumen de orina (m1) excretado despues de inge­rir agua y glicerol antes del ejercicio.Experimental, ml Control, m1Individuo # (glicero1) (placebo)1 1410 23752 610 16103 1170 16084 1140 14905 515 14756 580 14457 430 8858 1140 11879 720 144510 275 89011 875 1785FUENTE: Utilizada con autorizaci6n del Dr. Paul Montner.42. DAllessandro et al. (A-43) querian saber si la preexistencia de la hiperreactividad (HR) delas vias respiratorias predisponia a los individuos a un resultado mas severo despues de estarexpuestos al cloro. Los individuos eran voluntarios sanos con edades entre 18 y 50 afios quefueron clasificados como individuos con y sin hiperreactividad. Las siguientes medicionescorresponden al VEF1(volumen espiratorio forzado) y a la resistencia espedfica de las viasrespiratorias (REVR) tomadas en individuos antes y despues de estar expuestos al gas cloroadecuadamente diluido:
    • 279PREGUNTAS Y EJERCICIOS DE REPASOSujetos hiperreactivosPre-exposicion Post-exposicionIndividuo VEFI REVR VEFI REVR1 3.0 5.80 1.8 21.42 4.1 9.56 3.7 12.53 3.4 7.84 3.0 14.34 3.3 6.41 3.0 10.95 3.3 9.12 3.0 17.1Sujetos hiperreactivosPre-exposicion Post-exposicionIndividuo VEFI REVR VEFI REVR4.3 5.52 4.2 8.702 3.9 6.43 3.7 6.943 3.6 5.67 3.3 10.004 3.6 3.77 3.5 4.545 5.1 5.53 4.9 7.37FUENTE: Utilizado con autorizaci6n del Dr. Paul Blanc.43. AI darse cuenta de la escasez de informaci6n respecto a los efectos del estr6geno en la com­posici6n de acido graso de la membrana de las plaquetas, Ranganath et aI. (A-44) efectuaronun estudio para examinar la posibilidad de que los cambios puedan presentarse en mujeresposmenopausicas y que estos puedan ser reversibles con tratamiento a base de estr6genos.Las 31 mujeres reclutadas para el estudio no habfan menstruado desde hacia al menos tresmeses 0 presentaban sintomas de menopausia 0 ambas cosas. Ninguna de elias habia recibi­do de forma alguna tratamiento a base terapia de sustituci6n de hormonas al momenta dereclutarlas. Los siguientes valores corresponden a las mediciones de acido linoleico de lamembrana plaquetaria antes y despues de la terapia de sustituci6n hormonal.Individuo Antes Despues Individuo Antes Despues Individuo Antes Despues1 6.06 5.34 12 7.65 5.55 23 5.04 4.742 6.68 6.11 13 4.57 4.25 24 7.89 7.483 5.22 5.79 14 5.97 5.66 25 7.98 6.244 5.79 5.97 15 6.07 5.66 26 6.35 5.665 6.26 5.93 16 6.32 5.97 27 4.85 4.266 6.41 6.73 17 6.12 6.52 28 6.94 5.157 4.23 4.39 18 6.05 5.70 29 6.54 5.308 4.61 4.20 19 6.31 3.58 30 4.83 5.589 6.79 5.97 20 4.44 4.52 31 4.71 4.110 6.16 6.00 21 5.51 4.9311 6.41 5.35 22 8.48 8.80FUENTE: Utilizada con autorizaci6n del Dr. L. Ranganath.
    • 280 CAPiTULO 7 PRUEBA DE HIPOTESIS44. El prop6sito del estudio de Goran et al. (A-45) era examinar la exactitud de algunas tecnicasampliamente utilizadas para establecer la composici6n corporal en ninos a traves del uso dela tecnica de absorciometria de la energia dual con rayos X (ADX). Los individuos estudiadoseran ninos entre las edades de 4 y 10 anos. Las siguientes mediciones corresponden a lacantidad de adiposidad registrada en ninos con tres tecnicas: ADX, grosor del pliegue cuta­neo (PC) y resistencia bioelectrica (RB).Sexo ADX PC RB (1 =Masculino, 0 =Femenino) 3.6483 4.5525 4.2636 1 2.9174 2.8234 6.0888 0 7.5302 3.8888 5.1175 0 6.2417 5.4915 8.0412 0 10.5891 10.4554 14.1576 0 9.5756 11.1779 12.4004 0 2.4424 3.5168 3.7389 1 3.5639 5.8266 4.3359 1 1.2270 2.2467 2.7144 1 2.2632 2.4499 2.4912 1 2.4607 3.1578 1.2400 1 4.0867 5.5272 6.8943 0 4.1850 4.0018 3.0936 1 2.7739 5.1745 1*4.4748 3.6897 4.2761 0 4.2329 4.6807 5.2242 0 2.9496 4.4187 4.9795 0 2.9027 3.8341 4.9630 0 5.4831 4.8781 5.4468 0 3.6152 4.1334 4.1018 1 5.3343 3.6211 4.3097 0 3.2341 2.0924 2.5711 1 5.4779 L3890 5.8418 0 4.6087 4.1792 3.9818 0 2.8191 2.1216 1.5406 1 4.1659 4.5373 5.1724 1 3.7384 2.5182 4.6520 1 4.8984 4.8076 6.5432 1 3.9136 3.0082 3.2363 1 12.1196 13.9266 16.3243 1 15.4519 15.9078 18.0300 0 20.0434 19.5560 21.7365 0 9.5300 8.5864 4.7322 1 2.7244 2.8653 2.7251 1 3.8981 5.1352 5.2420 0 (Continua)
    • 281PREGUNTAS Y EJERCICIOS DE REPASOSexo ADX PC RB (1 = Masculino,O ::; Femenino) 4.9271 8.0535 6.0338 0 3.5753 4.6209 5.6038 1 6.7783 6.5755 6.6942 1 3.2663 4.0034 3.2876 0 1.5457 2.4742 3.6931 0 2.1423 2.1845 2.4433 1 4.1894 3.0594 3.0203 1 1.9863 2.5045 3.2229 1 3.3916 3.1226 3.3839 1 2.3143 2.7677 3.7693 1 1.9062 3.1355 12.4938 1 3.7744 4.0693 5.9229 1 2.3502 2.7872 4.3192 0 4.6797 4.4804 6.2469 0 4.7260 5.4851 7.2809 0 4.2749 4.4954 6.6952 0 2.6462 3.2102 3.8791 0 2.7043 3.0178 5.6841 0 4.6148 4.0118 5.1399 0 3.0896 3.2852 4.4280 0 5.0533 5.6011 4.3556 0 6.8461 7.4328 8.6565 1 11.0554 13.0693 11.7701 1 4.4630 4.0056 7.0398 0 2.4846 3.5805 3.6149 0 7.4703 5.5016 9.5402 0 8.5020 6.3584 9.6492 0 6.6542 6.8948 9.3396 1 4.3528 4.1296 6.9323 0 3.6312 3.8990 4.2405 1 4.5863 5.1113 4.0359 1 2.2948 2.6349 3.8080 1 3.6204 3.7307 4.1255 1 2.3042 3.5027 3.4347 1 4.3425 3.7523 4.3001 1 4.0726 3.0877 5.2256 0 1.7928 2.8417 3.8734 1 4.1428 3.6814 2.9502 1 5.5146 5.2222 6.0072 0 3.2124 2.7632 3.4809 1 5.1687 5.0174 3.7219 1 (Continua)
    • 282 CAPiTULO 7 PRUEBA DE HIPOTESISSexoADX PC RB ( 1 =Masculiuo, 0 =Femenino)3.9615 4.5117 2.7698 13.6698 4.9751 1.8274 14.3493 7.3525 4.8862 0.2.9417 3.6390. 3.4951 15.0.380. 4.9351 5.60.38 0.7.90.95 9.590.7 8.50.24 0.1.7822 3.0.487 3.0.0.28 13.4623 3.3281 2.8628 111.420.4 14.9164 lO.7378 11.2216 2.2942 2.6263 12.9375 3.3124 3.3728 14.6931 5.470.6 5.1432 0.8.1227 7.7552 7.740.1 0.10.0.142 8.9838 11.2360. 0.2.5598 2.8520. 4.5943 0.3.7669 3.7342 4.7384 0.4.20.59 2.6356 4.0.40.5 0.6.7340. 6.6878 8.10.53 0.3.50.71 3.4947 4.4126 12.2483 2.810.0. 3.670.5 0.7.1891 5.4414 6.6332 0.* Dato faltante. FUENTE: Utilizada con autorizaci6n del Dr. Michael!. Coran. 45. Hartard et al. (A-46) condujeron un estudio para determinar si cierto regimen de entrena­miento podfa contrarrestar la perdida de densidad 6sea en mujeres posmenopausicas conosteopenia. Las siguientes mediciones corresponden a la fuerza de cinco grupos musculare~en 15 individuos antes (A) y despues (D) de seis meses de entrenamiento. Press de pierna Flexor de la cadera Extensor de la caderaIndividuo (A) (D) (A) (D) (A) (D)1 lOo. 180. 8 15 10. 20.2 155 195 10 20. 12 253 115 150. 8 13 12 194 130. 170. lO 14 12 20.5 120. 150. 7 12 12 15(Continua)
    • 233PREGUNTAS Y EJERCICIOS DE REPASOPress de pierna Flexor de la cadera Extensor de la caderaIndividuo (A) (D) (A) (D) (A) (D)6 60 140 5 12 8 167 60 100 4 6 6 98 140 215 12 18 14 249 110 150 10 13 12 1910 95 120 6 8 8 1411 110 130 10 12 10 1412 150 220 10 13 15 2913 120 140 9 20 14 2514 100 150 9 10 15 2915 110 130 6 9 8 12Abductor del brazo Aductor del brazoIndividuo (A) (D) (A) (D)1 10 12 12 192 7 20 10 203 8 14 8 144 8 15 6 165 8 13 9 136 5 13 6 137 4 8 4 88 12 15 14 199 10 14 8 1410 6 9 6 1011 8 11 8 1212 8 14 13 1513 8 19 11 1814 4 7 10 2215 4 8 8 12FUENTE: Utilizada con la autorizaci6n del Dr. Manfred Hartard.46. Vitaca et ai. (A-47) condujeron un estudio para determinar si en posici6n supina 0 sentado em­peora el flujo espiratorio forzado y las mediciones de la mecanica pulmonar. Los individuosestud,iados eran personas de la tercera edad que vivian en un asilo, medicamente estables ysinevidencia dinica de enfermedades cardiorrespiratorias. Entre los datos recolectados estan lossiguientes valores en porcentaje de VEF} para individuos en posici6n supina ysentados.
    • 234 cAPiTULO 7 PRUEBA DE HIPOTESISSentados Posicion Sentados Posicion64 56 103 9444 37 109 9244 39 -99 -9940 43 169 16532 32 73 6670 61 95 9482 58 -99 -9974 48 73 5891 63FUE1,TE: Utilizada con autorizaci6n del Dr. M. Vitacca.47. EI pmp6sito de un estudio conducido por Young et al. (A-48) era examinar la eficacia yseguridad de un aditamento suburetraL Los individuos estudiados eran mujeres que experi­mentaban incontinencia por estres y que perfilaban con otms criterios. Entre los datos reco­lectados estan los siguientes valores (ml) de la capacidad cistometrica pre y postoperatoria.Pre Post Pre Post Pre Post Pre Post350 321 340 320 595 557 475 344700 483 310 336 315 221 427 277356 336 361 333 363 291 405 514362 447 339 280 305 310 312 402361 214 527 492 200 220 385 282304 285 245 330 270 315 274 317675 480 313 310 300 230 340 323367 330 241 230 792 575 524 383387 325 313 298 275 140 301 279535 325 323 349 307 192 411 383328 250 438 345 312 217 250 285557 410 497 300 375 462 600 618569 603 302 335 440 414 393 355260 178 471 630 300 250 232 252320 362 540 400 379 335 332 331405 235 275 278 682 339 451 400351 310 557 381FUENTE: Utilizada con autorizaci6n de! Dr. Stephen B. Young.
    • 285PREGUNTAS Y EJERCICIOS DE REPASO48. Diamond et al. (A-49) querfan saber si la clasificaci6n cognitiva podrfa ser (ltil para apoyar laselecci6n adecuada de candidatos para rehabilitaci6n integral hospitalaria. Estudiaron unamuestra de pacientes en rehabilitaci6n geriatrica mediante el uso de estrategias de medici6nestandarizadas. Entre los datos recolectados estan las siguientes calificaciones registradas enel Examen de estado mini mental de los individuos al ingresar y ser dados de alta.Admitidos Dados de alta Admitidos Dados de alta9 10 24 2611 11 24 3014 19 24 2815 15 25 2616 17 25 2216 15 26 2616 17 26 2816 17 26 2617 14 27 2817 18 27 2817 21 27 2718 21 27 2718 21 27 2719 21 28 2819 25 28 2919 21 28 2919 22 28 2919 19 29 2820 22 29 2821 23 29 3022 22 29 3022 19 29 3022 26 29 3023 21 29 3024 21 30 3024 20FUENTE: Utilizada con autorizaci6n del Dr. Stephen N. MIcciocchi.49. En un estudio respecto a la posibilidad de alteraciones hormonales en personas enfermas deasma, Weinstein et al. (A-50) recolectaron datos de dos grupos con igual numero de mujeresposmenopausicas de las mismas edades, 22 asmaticas y otras 22 sin asma. Los siguientes datosrecolectados por los investigadores corresponden a los valores del sulfato de dehidroepian­drosterona:
    • 286 CAPITULO 7 PRUEBA DE HIPOTESISSinasma Conasma Sinasma Conasma20.59 87.5 15.9 166.0237.81 111.52 49.77 129.0176.95 143.75 25.86 31.0277.54 25.16 55.27 47.6619.3 68.16 33.83 171.8835 136.13 56.45 241.88146.09 89.26 19.91 235.16166.02 96.88 24.92 25.1696.58 144.34 76.37 78.7124.57 97.46 6.64 111.5253.52 82.81 115.04 54.69FUENTE: Utilizada con autorizaci6n del Dr. Robert E. Weinstein.50. Un estudio de Gruber et al. (A-51) fue motivado por el deseo de encontrar un marcador desuero potencialmente utH en el tratamiento de artritis reumatoide (AR) que reflejara losmecanismos patogenos subyacentes. Las mediciones obtenidas entre otras variables sonlos niveles circulantes de gelatinasa B en el suero y el fluido sinovial (FS) de pacientes con ARe individuos de controLSuero Fluido sinovial Suero Fluido sinovialAR Control AR Control AR Control AR Control26.8 23.4 71.8 3 36.719.1 30.5 29.4 4 57.2249.6 10.3 185 3.9 71.353.6 8 114 6.9 25.266.1 7.3 69.6 9.6 46.752.6 10.1 52.3 22.1 30.914.5 17.3 113.1 13.4 27.522.7 24.4 104.7 13.3 17.243.5 19.7 60.7 10.325.4 8.4 116.8 7.529.8 20.4 84.9 31.627.6 16.3 215.4 30106.1 16.5 33.6 4276.5 22.2 158.3 20.3FUENTE: Utilizada con autorizaci6n del Dr. Darius Sorbi.51. Benini et al. (A-52) condujeron un estudio para evaluar la gravedad de la acidez esofagica enacalasia despues de la dilataci6n exitosa del cardias, y para determinar que factores estanasociados con la acidez esofagica patol6gica en estos pacientes.Los individuos estudiadoseran 22, siete de ellos varones, con edades entre 28 y 78 anos. Con base en los criterios esta­
    • ________________237PREGUNTAS Y EJERCICIOS DE REPASOblecidos, los investigadores clasificaron a los pacientes como individuos con 0 sin reflujo. Lossiguientes valores corresponden a la eliminaci6n de acidez (min/reflujo) en los 22 individuos.Con reflujo Sin reflujo8.9 2.330.0 0.223.0 0.96.2 8.311.5 0.00.90.42.00.73.60.51.40.20.717.92.10.0FUENTE: Utilizada con autorizad6n del Dr. Luigi Benini.52. EI objetivo de un estudio de Baker et at. (A-53) es determinar si la deformaci6n medica alteralos efectos in vitro del plasma de pacientes con preeclampsia en la funci6n celular endotelialpara producir un paradigma similar al estado de la enfermedad in vivo. Los individuos estu­diados eran 24 mujeres embarazadas, primerizas, antes del trabajo de parto: 12 de elIastenfan preeclampsia y las otras 12 eran pacientes con embarazo normal. Entre los datosrecolectados estan los siguientes valores que corresponden a las edades gestacionales (ensemanas) al momenta del parto.Preeclampsia Embarazo normal38.000 40.00032.000 4l.00042.000 38.00030.000 40.00038.000 40.00035.000 39.00032.000 39.00038.000 41.00039.000 41.00029.000 40.00029.000 40.00032.000 40.000 FUENTE: Utilizada can autorizaci6n del Dr. James M.Roberts.
    • 288 CAPITULO 7 PRUEBA DE HIPOTESIS53. Zisselman et al. (A-54) condujeron un estudio para evaluar el uso de la benzodiazepina y eltratamiento de la depresi6n antes del ingreso a una unidad de psiquiatrfa geriiitrica hospita­laria, en una muestra de pacientes de la tercera edad. Entre los datos recolectados estin lassiguientes calificaciones de los trastornos de conducta de 27 pacientes tratados con benzo­diazepina (e) y 28 pacientes que no recibieron el tratamiento (8).C S .00 1.00 .00 .00 .00 1.00 .00 10.00 .00 .00 .00 .00 .00 .00 .00 18.00 .00 10.00 .00 .00 .00 2.00 .00 2.00 .00 .00 5.00 .00 .00 .00 4.00 .00 1.00 4.00 2.003.00 .002.00 6.00 .00 .00 10.00 .002.00 1.00 .00 2.00 9.00 1.00 .00 22.00 . 1.00 .00FUEliTE: Utilizada con autorizad6n del Dr.16.00 .00Yochi Schmuely.54. El objetivo de un estudio de Reinecke et al. (A-55) es investigar la actividad funcional y laexpresi6n del intercambio sarcolemico de NA+leaH en el coraz6n con insuficiencia en sereshumanos. Los investigadores obtuvieron muestras del ventrfculo izquierdo de los corazonesenfermos de 11 pacientes varones (con edad promedio de 51 aftos) que serian sometidos atrasplantes de coraz6n. Tambien, utilizaron como control muestras de corazones sin proble­mas, de donadores de 6rganos (cuatro mujeres y dos hombres, con edad promedio de 41 aDOS)cuyo coraz6n no podia ser trasplantado por razones no cardiacas. Las siguientes mediciones co­rresponden a la actividad de intercambio de Na+ / ea2+ para los pacientes con insuficienciacardiaca en etapa final (IC) y pacientes donadores de control sin insuficiencia (81).SI IC0.075 0.2210.073 0.2310.167 0.1450.085 0.1120.110 0.1700.083 0.207(ContinUa)
    • 289PREGUNTAS Y EJERCICIOS DE REPASOSI IC0.1120.2910.1640.1950.185FUENTE: Utilizada conautorizaci6n delDr. Hans Reinecke.55. Reichman et al. (A-56) realizaron un estudio con el prop6sito de demostrar que los sintomasnegativos son notables en pacientes con enfermedad de Alzheimer, y que son distintos de lossfntomas de la depresi6n. Las siguientes clasificaciones corresponden a las registradas enpacientes con Alzheimer (PA) yen personas de la tercera edad que no padecen el sindrome,cognitivamente intactos (que forman el grupo de control C). Estas mediciones estan basadasen la escala de valoraci6n de los sfntomas negativos de la enfermedad de Alzheimer.PA C19 6 5 5 36 10 22 1 1 1 18 0 24 5 17 5 7 4 19 6 5 6 2 7 14 59 3 34 5 13 12 0 0 21 5 30 1 43 2 19 3 31 19 21 3 41 5 24 Fuente: Utilizada conautorizaci6n del Dr. Andrew3C. Coyne.
    • 290 CAPITULO 7 PRUEBA DE HIPOTESISLos siguientes ejercicios utilizan grupos grandes de datos que se encuentran almacena­dos en disco para computadora, que el editor puede proveer.1. Consulte los datos de la creatina fosfocinasa registrada para 1005 individuos (CFDATOS).Los investigadores quieren saber si psicologicamente las situaciones estresantes causan unincremento en los niveles de creatina fosfocinasa en el suero (CF) entre individuos aparente­mente sanos. Para ayudar a los investigadores a tomar una decision, el objetivo del ejercicioes tomar una muestra aleatoria de esta poblacion, aplicar el analisis pertinente a los datosmuestrales y dar un reporte narrativo de los hallazgos y condusiones. Despues, comparar losresultados contra los resultados de otros companeros.2. Consuite los datos del tiempo de la protrombina en 1000 infantes. (PROIROM). El ejercicioconsiste en seleccionar una muestra aleatoria de tamano 16 a partir de cada una de estaspoblaciones y realizar una prueba de hipotesis pertinente para determinar si es posible con­duir que las dos poblaciones difieren con respecto al tiempo medio de la protrombina. Seaex. .05. ~Que suposiciones son necesarias para que la prueba sea valida? Despues, comparelos resultados contra los resultados de otros companeros.3. Consulte los datos de la circunferencia craneal de 1000 individuos comparados (CIRCRA). EIsiguiente ejercicio consiste en seleccionar una muestra aleatoria de tamano 20 a partir de lapoblacion y aplicar la prueba de hipotesis adecuada para determinar si es posible conduir quelos individuos con cromosomas sexuales anormales tienden a tener cabezas mas pequenasque los individuos normales. Sea ex. =.05. Elabore un intervalo de confianza de 95 por cientopara la diferencia de la media de dos poblaciones. 2Que suposiciones son necesarias? Despues,compare los resultados contra los resultados de otros companeros.4. Consulte los datos de hemoglobina de 500 ninos con anemia por deficiencia de hierro y 500ninos aparentemente sanos (HEMOGLOB). EI siguiente ejercicio consiste en extraer unamuestra aleatoria de tamano 16 a partir de la poblacion A, y una segunda muestra aleatoriaindependiente de tamano 16 de la poblacion B. cProporcionan los datos muestrales suficien­te evidencia para indicar que las dos poblaciones difieren con respecto al valor medio deHb? Sea ex. =.05. cQue suposiciones son necesarias para que el procedimiento sea valido?Despues, compare los resultados contra los resultados de otros companeros.5. Consulte las calificaciones de destreza manual de 500 ninos con discapacidad de aprendizajey 500 ninos sin discapacidad conocida (DESTMAN). Realice el siguiente ejercicio: extraigados muestras aleatorias simples independientes de las poblaciones A y B, de tamanos lOyIS, respectivamente. cOfrecen estas muestras suficiente evidencia para conduir que losninos discapacitados, en promedio, tienen menor calificacion que los ninos que no son dis­capacitados? Sea ex. = .05. (Que suposiciones deben cumplirse para que el procedimiento seavalido? Despues de conduir el ejercicio, compare los resultados contra los resultados deotros companeros.BmLIOGHAI:?IABibliografia de aplicacionesA-I. Charles E. Castillo y Stephen Lillioja, "Peripheral Lymphatic Cannulation for PhysiologicalAnalysis of Interstitial Fluid Compartment in Humans", AmericanJournal ofPhysiology, 261(Heart and Circulation Physiology, 30), HI324-HI328.A-2. ] oEllen Wilbur, Alice Dan, Cynthia Hedricks y Karyn Holm, "The Relationship AmongMenopausal Status, Menopausal Symptoms, and Physical Activity in Midlife Women", Family& Community Health, 13, 67-78.
    • BIBLIOGRAFlA 291A·3. Joseph S. Bertino, Jr., Leigh Ann Booker, Patrick Franck y Benjamin Rybicki, "GentamicinPharmacokinetics in Patients with Malignancies", Antimicmbial Agents and Chemotherapy, 35,1501-1503.A·4. Lisa M. Klesges, Robert C. Klesges yJeffrey A. Cigrang, "Discrepancies Between Self-reportedSmoking and Carboxyhemoglobin: An Analysis ofthe Second National Health and NutritionSurvey", AmericanJournal ofPublic Health, 82, 1026-1029.A-5. Jeffrey M. Barrett, "Funic Reduction for the Management of Umbilical Cord Prolapse",AmericanJournal ofObstetrics and Ginecoiogy, 165, 654-657.A·6. D. H. Eidelman, H. Ghezzo, W. D. Kim y M. G. Cosio, "The Destructive Index and EarlyLung Destruction in Smokers", American Review ofRespiratory Disease, 144, 156-159.A·7. Heather Becker, Alexa K. Stuifbergen y Dolores Sands, "Development ofa Scale to MeasureBarriers to Health Promotion Activities Among Persons with Disabilities",AmericanJournal ofHealth Promotion, 5, 449-454.A·S. Scott L. Evans, Brent P. Nixon, Irvin Lee, David Yee yArshag D. Mooradian, "The Prevalenceand Nature ofPodiatric Problems in Elderly Diabetic Patients",Journalofthe American GeriatricsSociety, 39,241-245.A·9. MirjamJ. -[ Hommes,Johannes A Romijn, Erik Enderty Hans P. Sauenvein, "Resting EnergyExpenditure and Substrate Oxidation in Human Immunodeficiency Virus (HIV)-InfectedAsymptomatic Men: HIVAffects Host Metabolism in the EarlyAsymptomatic Stage",AmericanJournal ofClinical Nutrition, 54, 311-315.A-IO. Christian Frigerio, Yves Schutz, Roger Whitehead y EricJequier, "A New Procedure to Assessthe Energy Requirements of Lactation in Gambian Women", American Journal of ClinicalNutrition, 54, 526-533.A·II. Nancy Stearns Burgess, "Effect ofa Very-Law-Calorie Diet on Body Composition and RestingMetabolic Rate in Obese Men and Women", Journal of the American Dietetic Association, 91,430-434.A·12. KathleenJ. Kashima, Bruce L. Baker y SandraJ. Landen, "Media-Based Versus ProfessionallyLed Training for Parents of Mentally Retarded Children", American Journal on MentalRetardation, 93,209-217.A·13. Alan R. Schwartz, Avram R. Gold, Norman Schubert, Alexandra Stryzak, Robert A. Wise,Solbert Permutt y Philip L. Smith, "Effect of Weight Loss on Upper Airway Collapsibility inObstructive Sleep Apnea", American Review ofRespiratory Disease, 144, 494-498.A·14. S. Alahuhta, J. Rasanen, R. Jouppila, P. Jouppila, T. Kangas-Saarela y A. 1. Hollmen,"Uteroplacental and Fetal Haemodynamics During Extradural Anaesthesia for CaesareanSection", BritishJournal ofAnaesthesia, 66, 319-323.A·15. Michael S. Wolin, Hatim A. Omar, Michael P. Mortelliti y Peter D. Cherry, "Association ofPulmonary Artery Photorelaxation with H20 2 Metabolism by Catalase", AmericanJournal ofPhysiology, 261 (Heart Circulation Physiology, 30), H 1141-Hl147.A-16. Jorge Mancebo, Piedade Amaro, Hubert Lorino, Fran<;ois Lemaire, Alain Harfy LaurentBrochard, "Effects ofAlbuterol Inhalation on the Work of Breathing During Weaning fromMechanical Ventilation", American Review ofRespiratory Disease, 144, 95-100.A·17. Randall Coates, Margaret Millson, Ted Myers,James Rankin, Bernadette McLaughlin, CarolMajor, Janet Rigby y William Mindell, "The Benefits of HIV Antibody Testing of Saliva inField Research", CanadianJournal ofPublic Health, 82, 397-398.
    • 292 CAPITULO 7 lRUEBA DE HIPOTESISA-18. Diana M. Bailey, "Reasons for Attrition from Occupational Therapy", The AmericanJournal ofOccupational Therajly, 44, 23-29. Copyright by the American Occupational Therapy Association,Inc. Reimpreso con autorizaci6n.A-19. Patricia L. Colsher, Robert B. Wallace, Paul L. Loeffelholz yMarilyn Sales,"HealthStatus ofOlderMale Prisoners: A Comprehensive Survey", AmericanJournal ofPublic Health, 82, 881-884.A-20. Kelly]. Henning, Daphna M. Pollack y Stephen M. Friedman, A Neonatal Hepatitis BSurveillance and Vaccination Program: New York City, 1987 to 1988", AmericanJournal ofPublic Health, 82, 885-888.A-2l. Shu-:Jan]. Lan y Catherine L. Justice, "Use ofModified Diets in Nursing Homes," CopyrightThe American Dietetic Association. Reimpreso con autorizaci6n de Journal ofthe AmericanDietetic Association, 91 , 46-5 I.A·22. RJoseph Babaian yJoseph L. Camps, "The Role of Prostate-Specific Antigen as Part of theDiagnostic Triad and as a Guide When to Perform a Biopsy", Cancer, 68, 2060-2063.A-23. Sharon M. Hall, Chrystal D. Tunstall, Katharine L. Vila y Joanne Duffy, "Weight GainPrevention and Smoking Cessation: Cautionary Findings", AmericanJournal ofPublic Health,82, 799-803.A-24. GeorgeWinokur yWilliam Coryell, "FamilialAlcoholism in Primary Unipolar Major DepressiveDisorder", AmericanJournal ofPsychiatry, 148, 184-188.A-25. Robert H. Gundel, Peter Kinkade, Carol A. Torcellini, Cosmos A. Clarke,Jane Watrous, SudhaDesai, Carol A. Homon, Peter R. Farina y Craig D. Wegner, Antigen-Induced MediatorRelease in Primates",American Review ofRespiratory Disease, 144,76-82.A-26. C. Infante,]. Hurtado, G. Salazar, A. Pollastri, E. Aguirre y F. Vio, "The Dose-to-MotherMethod to Measure Milk Intake in Infants by Deuterium Dilution: A Validation Study",EuropeanJournal ofClinical Nutrition, 45, 121-129.A·27. Howard P. Greenwald y Curtis]. Henke, "HMO Membership, Treatment, and Mortality RiskAmong Prostatic Cancer Patients", AmericanJournal ofPublic Health, 82, 1099-1104.A·28. R Behr, G. Hildebrandt, M. Koca yK. Bruck, "Modifications ofThermoregulation in Patientswith Suprasellar Pituitary Adenomas", Brain, 114, 697-708. Utilizado con autorizaci6n deOxford University Press.A·29. PaulJ. Perry, Del D. Miller, StephanV. Arndt y RemiJ. Cadoret, "Clozapine and NordozapinePlasma Concentrations and Clinical Response of Treatment-Refractory SchizophrenicPatients", AmericanJournal ofPsychiatry, 148,231-235.A·30. Stephanie Studenski, Pamela W. Duncan yJulie Chandler, "Postural Responses and EffectorFactors in Persons with Unexplained Falls: Results and Methodologic Issues",Journal oftheAmerican Geriatrics Society, 39,229-235. © American Geriatrics Society.A·3l. Yue Chen, "Factors Associated with Artificial Feeding in Shanghai", AmericanJournal ofPublicHealth, 82, 264-266.A·32. Robert Rodriguez-Roisin, Antoni Ferrer, Daniel Navajas, Alvar G. N. Agusti, Peter D. Wagnery Josep Roca, "Ventilation-Perfusion Mismatch After Methacholine Challenge in Patientswith Mild Bronchial Asthma", American Review ofRespiratory Disease, 144, 88-94.A-33. Denis F. Darko, Nevin W. Wilson,]. Christian Gillin yShahrokh Golshan, A Critical Appraisalof Mitogen-Induced Lymphocyte Proliferation in Depressed Patients", American Journal ofPsychiatry, 148,337-344.
    • BIBUOGRAFIA 293A-34. Edgar P. Nace, Carlos W Davis yJoseph P. Gaspari, "Axis II Comorbidity in Substance Abusers",Americanj ourna! ofPsychiatry, 148, 118-120.A-35. L.Jara, A Ondarza, R. Blanco yL. Rivera, "Compositionofthe Parotid Saliva in Chilean Childrenwith Downs Syndrome", Archivos de Biologia Medici:na Experimentales (Santiago), 24, 57-60.A-36. A. W Hemming, C. H. Scudamore, A. Davidson y S. R. Erb, "Evaluation of 50 ConsecutiveSegmental Hepatic Resections", Americanjournal ofSurgery, 65, 621-624.A-37. R. K. Sokas, S. Simmens yJ. Scott, "ATraining Program in Universal Precautions for Second­Year Medical Students",Academic Medicine, 68, 374-376.A-38. A W Wu, H. R. Rubin, W C. Mathavs, L. M. Brysk, S. A. Bozzette, W D. Hardy, J. H.Atkinson, L Grant, S. A Spector, J. A. McCutchan y D. D. Richman, "Functional Status andWell-being in a Placebo-Controlled Trial ofZidovudine in Early Symptomatic HIV Infection",journal ofAcquired Immune Deficiency Syndrome, 6, 452-458.A·39. T. Stockwell, P. Rydon, S. Gianatti, EJenkins, C. Ovenden yD. Syed, "Levels ofDrunkennessofCustomers Leaving Licensed Premises in Perth, Western Australia: A Comparison of Highand Low Risk Premises", Britishjournal ofAddiction, 87, 873-881.A-40. S. J. Sutherland, R. D. Olsen, V. Michels, M. A. Schmidt y J. F. OBrien, "Screening forBiotinidase Deficiency in Children with Unexplained Neurologic or DevelopmentalAbnormalities", Clinical Pediatrics Philadelphia, 30, 81-84.A·41. Norman H. Bell, "25-Hydroxyvitamin D3 Reverses Alteration of the Vitamin D-EndocrineSystem in Blacks", The Americanjournal ofMedicine, 99, 597-599.A·42. P. Montner, D. M. Stark, M. L. Riedesel, G. Murata, R. Robergs, M. Timms y T. W Chick,"Pre-exercise Glycerol Hydration Improves Cycling Endurance Time", International journalofSports Medicine, 17,27-33.A·43. Alessandra DAiessandro, Ware Kushner, Hofer Wong, Homer A. Boushey y Paul D. Blanc,"Exaggerated Responses to Chlorine Inhalation Among Persons with Nonspecific AirwayHyperreactivity", Chest, 109,331-337.A·44. L. R. Ranganath, J. A. Christofides, J. W Wright YV. Marks, "Effect of Hormone ReplacementTherapy on Platelet Membrane Fatty Acid Composition",journal ofEndocrinology, 148, 207-212.A-45. Michael I. Goran, Patricia Driscoll, Rachel Johnson, Tim R. Nagy y Gary Hunter, "Crosscali­bration ofBody-CompositionTechniques Against Dual-Energy X-Ray Absorptiometry in YoungChildren", Americanjournal ofClinical Nutrition, 299-305.A-46. Manfred Hartard, Paul Haber, Diana Ilieva, Elisabeth Preisinger, Georg Seidl y JohannesHuber, "Systematic Strength Training as a Model of Therapeutic Intervention", Americanjournal ofPhysical Medicine & Rehabilitation, 75,21-28.A-47. M. Vitacca, E. CHni, W Spassini, L. Scaglia, P. Negrini, A. Quadri, "Does the Supine PositionWorsen Respiratory Function in Elderly Subjects?", Gerontology, 42, 46-53.A-48. Stephen B. Young, Peter L. Rosenblatt, Diane M. Pingeton, Allison E. Howard y Stephen P.Baker, "The Mersilene Mesh Suburethral Sling: A Clinical and Urodynamic Evaluation",Americanjournal ofObstetrics and Gynecology, 173, 1719-1726.A·49. Paul T. Diamond, Gerald Felsenthal, Stephen N. Macciocchi, Donna H. Butler y DeniseLally-Cassady, "Effect ofCognitive Impairment on Rehabilitation Outcome",AmericanjournalofPhysical Medicine & Rehabilitation, 40-43.
    • 294 cAPiTULO 7 PRUEBA DE HIPOTESISA·50. Robert E. Weinstein, Catherine A. Lobocki, Sharon Gravett, Hillman Hum, Ronald Negrich,Jonathan Herbst, Dana Greenberg y David R. Pieper, "Decreased Adrenal Sex Steroid Levelsin the Absence ofGlucocorticoid Suppression in Postmenopausal Asthmatic Women",JoumalofAllergy and Clinical Immunology, 97, 1-8.A·51. Barry L. Gruber, Darius Sorbi, Deborah L. French, Mary J. Marchese, Gerard J. Nuovo,Richard R. Kew y Leonard A. Arbeit, "Markedly Elevated Serum MMP-9 (Gelatinase B) Levelsin Rheumatoid Arthritis: A Potentially Useful Laboratory Marker", Clinical Immunology andImmunopathology, 78, 161-171.A·52. Luigi Benini, Carlo Sembenini, Greta Castellani, Enrico Bardelli, Maria Teresa Brentegani,Piergiorgio Giorgetti e Italo Vantini, "Pathological Esophageal Acidification and PneumaticDilatation in Achalasic Patients: Too Much or Not Enough?" Digestive Diseases and Sciences,41, 365-371.A·53. Philip N. Baker, Christopher P. Stranko, Sandra T. Davidge, Paul S. Davies yJames M. Roberts,"Mechanical Stress Eliminates the Effects of Plasma from Patients with Preeclampsia onEndothelial Cells", AmericanJOUTnal ofObstetrics and Gynecology, 174, 703-706.a.·54. Marc H. Zisselman, Barry W. Rovner y Yochi Shmuely, "Benzodiazepine Use in the ElderlyPrior to Psychiatric Hospitalization", Psychosomatics, 37, 38-42.A·55. Hans Reinecke, Roland Struder, Roland Vetter, Jurgen Holtz y Helmut Drexler, "CardiacNa+/Ca2+ Exchange Activity in Patients with End-Stage Heart Failure", Cardiovascular Research,31,48-54.A·56. William E. Reichman, Andrew C. Coyne, Satish Amirneni, Bruno Molino y Sandra Egan,"Negative Symptoms in Alzheimers Disease", AmericanJournal ofPsychiatry, 153, 424-426.
    • ~..- - - -...-~ ....~... -~--. - -...- -...-~.-- ... - - -...- - - -...------------------------~8.1 INTRODUCCION 8.4 DISENO DE MEDICIONES REPETIDAS 8.2 DISENO COMPLETAMENTEALEATORIZADO 8.5 EXPERIMENTO FACTORIAL8.3 DISENO POR BLOQUES 8.6 RESUMEN COMPLETOS Y ALEATORIZADOS 8.t INTRODUCCIONEn los capftulos anteriores se estudian los conceptos elementales de estadfstica,los cuales constituyen las bases para este y los capitulos siguientes.En este capitulo se estudia el antilisis de La variancia, el eual se define comouna ticnica en La que La variancia total de un conjunto de datos se divide en dos 0 mascomponentes, y cada uno de ellos se asocia con una fuente especifica de variaci6n, demanera que durante el antilisis es posible encontrar la magnitud con la que contribuyecada una de esas fuentes en fa variacion total.El desarrollo del analisis de la variancia (ANOVA) se debe principalmente altrabajo de R. A. Fisher (1), cuyas contribuciones a la estadistica, desde 1912 hasta1962, tuvieron una gran influencia en toda la estadistiea moderna (2, 3).Aplicaeiones El amllisis de variancia tiene amplia aplicacion en el amHisis dedatos derivados de experimentos. Los principios para el disefio de experimentosse estudian en varias obras, entre elIas las de Hinkelmann y Kempthorne (4),Montgomery (5), y Myers y Well (6). No se estudia aqui con detalle este tema,porque de hacerlo serfa necesario por 10 menos un capftulo adicional. Sin embar­go, algunos conceptos importantes del disefio experimental apareeen conformese estudia el analisis de la variancia.EI analisis de la variancia se utiliza para cumplir dos objetivos: 1) estimar yprobar hipotesis respecto a las variancias de las poblaciones y 2) estimar y probarhip6tesis respecto a las medias de las poblaciones. En esta secci6n el objetivo es295
    • 296 CAPITULO 8 ANALISIS DE LA VARIANCIAestimar y probar hipotesis respecto a las medias de las pobladones. Sin embargo,tal como se puede apredar, las condusiones respecto a las medias dependen de lamagnitud de las variandas observadas.Es posible observar que los conceptos y tecnicas cubiertas bajo el titulo deamilisis de la variancia son extensiones de los conceptos y tecnicas que se tratan enel capitulo 7. En dicho capitulo se aprendio a probar la hipotesis nula que dice quedos medias son iguales. En este capitulo se estudia como probar la hipotesis nulaque afirma que tres 0 mas medias son iguales. Por ejemplo, mientras que en elcapitulo 7 se aprendio a determinar si es posible conduir que dos tratamientosdifieren en eficada, aqui se aprendera a determinar si es posible conduir que tres 0mas tratamientos difieren en eficacia. Los siguientes ejemplos ilustran algunas ideasbasicas reladonadas con la aplicacion del analisis de la variancia, las cuales se am­pliaran y explicaran en las siguientes secciones.FJEMPLO 8.1.1Suponga que se pretende saber si tres medicamentos difieren en su eficada paradisminuir las concentraciones sericas de colesterol en los seres humanos. Se aplicana tres grupos de individuos, respectivamente, los medicamentos A, B YC. Despuesde transcurrido derto periodo se toman medidones para identificar el grado enque se redujo el nivel de colesterol serico en cada individuo. Se encuentra que elcolesterol disminuyo en diferente medida en cada individuo, es decir, existe variabi­lidad entre las mediciones. La pregunta es: ~por que son diferentes las mediciones?Probablemente, porque cada individuo redbi6 diferente medicamento. AI revisarlas mediciones hechas en los individuos que recibieron el medicamento A, se en­cuentra que la cantidad de colesterol disminuyo en diferente grado en cada indivi­duo. Yal revisar las mediciones de los individuos que recibieron los medicamentosB y C, se encuentra que tambien ocurre la misma situaci6n: existe variabilidad entrelas medidones de los tres grupos. Otra vez la pregunta ~por que son diferentes lasmediciones? Entre las causas posibles estan las diferencias geneticas de cada indivi­duo y la diferencia en sus dietas. A traves del analisis de la variabilidad observada esposible llegar a la conclusion de que los tres medicamentos tienen igual eficacia.Para hacer esto, es necesario utilizar tecnicas y conceptos de variancia. •Variables En el ejemplo se mencionan tres tipos de variables. Se tiene que estasvariables estan presentes en todas las situaciones en las que se utiliza el analisis dela variancia como la tecnica mas conveniente. Primero se tiene la variable tratamien­to, que en el ejemplo se identifica como "medicamento". Se tienen tres "categorias"para esta variable: medicamentosA, By C. El segundo tipo de variable es la variablerespuesta; para este ejemplo, se refiere al nivel de colesterol antes y despues. Lavariable respuesta es la variable que se espera que presente diferentes valores cuan­do se utilicen diferentes "categorias" para la variable tratamiento. .Fi.nalmente, semencionan otras variables: composicion genetica y dieta, llamadas variables extra­nas. Estas pueden tener efecto sobre la variable respuesta, pero no son el foeo deatenci6n para el experimento porque la variable tratamiento es la variable de inte­res principal. La pregunta que es necesario responder es: ~las diferentes "catego­
    • 297. - - - - . - _...__...._--_.... - - - _...__._-_...__..__ .8.1 INTRODUCCIONrias" de la variable tratamiento producen diferencias, en promedio, en la variablerespuesta?Supuestos Para utilizar correctamente el analisis de variancia como una he­rramienta de la inferencia estadistica es necesario satisfacer un conjunto de supo­siciones fundamentales. Aunque el investigador experto no espera que todas lassuposiciones se cumplan a la perfecci6n, es importante que las personas que utili­zan las tecnicas del analisis de la variancia esten enteradas de las suposiciones basicasy sean capaces de identificar cuando tales suposiciones no son satisfechas. Debidoa que los experimentos en los que las suposiciones son satisfechas perfectamenteno se presentan con frecuencia, se sugiere que los resultados del analisis devariancias sean considerados mas como aproximaciones que como resultados exac­tos. Estas suposiciones se exponen en las siguientes secciones.El analisis de la variancia se estudia seg(m la forma en que se utiliza paraanalizar los resultados de dos diseiios de experimentaci6n diferentes: los disefioscompletamente aleatorizados y los disefios por bloques completos y aleatorizados.Aunado a esto, el concepto de experimento factorial se utiliza en diseiios completa­mente aleatorizados, sin que esto agote las posibilidades. En las referencias biblio­graficas (4-6) se encuentran algunos estudios acerca de otros disefios.ProcedimieldoANOVA En la presentaci6n del analisis de variancia para diferen­tes diseiios, se sigue el procedimiento de los diez pasos presentado en el capitulo 7.A continuaci6n se replantea el procedimiento de los diez pasos para incluir nuevosconceptos, necesarios para adaptar e1 procedimiento al analisis de la variancia.1. Descripcion de datos. Ademas de describir los datos de la muestra en laforma usual, estos se despliegan en forma tabular.2. Supuestos. Junto con las suposiciones que fundamentan el analisis, se pre­senta e1 modelo de cada diseiio estudiado. El modelo se compone de unarepresentaci6n simb61ica de un valor representativo de los datos que se han deanalizar.3. Hipotesis.4. Estadistica de prueba.5. Distribucion de Ia estadistica de prueba.6. RegIa de decision.7. CaIculo de la estadistica de prueba. El resultado de los cilculos aritmeticosse resume en una tabla Hamada analisis de la variancia (ANOVA, siglas eningles). Las entradas en la tabla facilitan la evaluacion de los resultados delanalisis.8. DecisiOn estadistica.9. Conclusion.10. Calculo del valor p.Estos pasos se estudian con ::nas detalle en la secci6n 8.2.
    • 298 CAPITULO 8 ANALISIS DE LA VARIANCIAEl usa de computadoras Los caJculos que se requieren para el analisis de lavariancia son mas largos y «omplicados que los que se presentan en los capitulosanteriores. Por esta razon lacomputadora asume una flindon importante para esteanalisis. Todos los ejercidos que aparecen en este capitulo pueden ser realizadoscon una computadora utilizando los paquetes que se mencionan en el capItulo 1.Los resultados de los paquetes estadisticos pueden variar ligeramente de los que sepresentan en este capItulo, pero esto no es un problema grave para quienes utilizancomputadora para analizar los datos de los ejercidos. Los conceptos basicos delanalisis de la variancia que se presentan en este capitulo proporcionan las basesnecesarias para entender la descripcion de los programas y los resultados de cual­quiera de los paquetes estadisticos.8.2 DISENO COMPLETMfENTEALEATORIZADOEn el capItulo 7 se estudia la forma de probar la hip6tesis nula de no diferencia entrelas medias de dos poblaciones. A menudo, el investigador tendra interes en probaruna hip6tesis de esta clase para mas de dos poblaciones. EI estudiante, al enfrentarpor primera vez este problema, puede inclinarse a sugerir que todos los pares posi­bles de medias muestrales se deben probar por separado mediante la prueba tde Student. Suponga que hay cinco poblaciones involucradas. EI numero posible depares de medias muestrales es 5C2 = 10. Dado que es muy laborioso llevar a cabomuchas pruebas t, serfa deseable disponer de un metodo de analisis mas eficiente.Sin embargo, una consecuencia muy importante que podrfa desprenderse de larealizaci6n de todas las pruebas t posibles es que es muy probable lIegar a unaconclusion falsa.Suponga que se extrajeron cinco muestras a partir de poblaciones que tie­nen medias iguales. Como se vio en el parrafo precedente, seria necesario efectuar10 pruebas si estas se efectuaran por separado. Si se elige un nivel de significacionex .05 para cada prueba, la probabilidad de no rechazar una hipotesis de nodiferencia en cada caso serfa de .95. Mediante la regIa de multiplicacion para laprobabilidad, si las pruebas fueran independientes una de otra, la probabilidad deno rechazar la hipotesis de no diferenda en los 10 casos serfa (.95)10 = .5987. Laprobabilidad de rechazar al menos una hipotesis de no diferencia, entonces, seriade 1- .5987 .4013. Puesto que se sabe que lahipotesis nula es verdadera en todoslos casos de este ejemplo, al rechazar la hipotesis nula se comete un error de tipo I.Entonces, a la larga, al probar todos los posibles pares de medias a partir de lascinco muestras, se podrfa cometer un error de tipo I en 40 por ciento de los casos.EI problema se hace mas complicado en la pnictica, porque tres 0 mas pruebas t conbase en los mismos datos de las muestras no serfan independientes entre sf.Dado 10 anterior, es claro que se requiere un metodo para hallar una deferenciasignificativa entre varias medias. EI analisis de variancias constituye dicho metodo.ANOVA unilateral El tipo mas simple de analisis de variancia es el que se conocecomo aruilisis de la variancia unilateral, en el cual se investiga una sola fuente de varia­
    • 2998.2 DISENO COMPLETAt)1E:-lTE ALEATORIZADOci6n 0 factor. Esto es una extensi6n a tres 0 mas muestras del procedimiento de lapruebat (estudiado en el capitulo 7), para utilizarlo en dos muestras independientes.Dicho de otra forma, se puede afirmar que utilizar la prueba t con dos muestrasindependientes es un caso espedfico del analisis de la variancia unilateraLEn una situaci6n caracterfstica, se quiere utilizar el analisis de la variancia unila­teral para probar la hip6tesis nula que indica que tres 0 mas tratamientos son igual­mente eficaces. EI experimento se disefia en tal forma que los tratamientos de interesse asignan de manera totalmente aleatoria a los individuos u objetos en los que sehan de realizar las determinaciones para medir la eficacia de los tratamientos. Poresta razon, el disefio se llama disefto de experimentaci6n completamente aleatorizado.Es posible asignar aleatoriamente individuos para tratamiento como sigue.Suponga que se cuenta con 16 individuos para participar en un experimento, en elque se pretende comparar cuatro medicamentos. Se numeran a los individuos del 1al 16; despues, a partir de la tabla de numeros aleatorios se seleccionan consecuti­vamente, sin repetir, los numeros dell a116. Para ilustrar esto, se utiliza la tabla D yse comienza aleatoriamente desde un punto que esta, digamos, en la intersecciondel renglon 4 y las columnas 11 y 12. EI numero de dos dfgitos que esta en esainterseccion es 9S. Los siguientes 16 numeros consecutivos de dos dfgitos, entre 1 y16, son 16,09,06, 15, 14, 11,02,04, 10,07,05, 13,03, 12,01 YOS. Se asignan losindividuos 16,09,06 Y 15 al primer grupo, para aplicarles el medicamentoA. EImedicamento B se aplica a los individuos 14, 11,02 Y04; los individuos 10,07, 05Y13 reciben el medicamento C, y los individuos 03, 12,01 YOS reciben el medica­mento D. Es importante decir que la cantidad de individuos en cada grupo no deneque ser el mismo. La figura S.2.1 muestra el esquema de asignacion aleatoria.Pasos de la prueba de hip6tesis Despues de haber decidido que el disefiocompletamente aleatorizado es el disefio adecuado, se procede con los pasos de laprueba de hipotesis. Primero se analizan con detalle y despues se da un ejemplo.1. Descripcion de los datos. Las mediciones (u observaciones) que resultan deun disefio experimental completamente aleatorizado, junto con las medias yIndividuosdisponiblesNumerosaleatoriosTratamiento A B c DFIGURA 8.2.1 Asignaci6n de los individuos a los grupos de tratamiento en un diseiiocompletamente aleatorizado.
    • 300 CAPITULO 8 ANALISIS DE LA VARIANClATABlA 8.2.1 Tabla de valores de lamuestra para el diseiiocomplementamente aleatorizadoTratamientos1 2 3 kXXII X!3 Xu12X X xX21 22 23 2k X X XX3331 32 3kxn!) xn,l,Total T.J T..T.kMedia x.2 x.3 x.klos totales que puedan calcularse a partir de los datos, pueden presentarse, siasi conviene, en la forma que se muestra en la tabla 8.2.1. Los simbolos utili­zados en la tabla 8.2.1 se definen como sigue:Xij = la i-esima observaci6n resultante a partir delj-esimo tratamiento(en total existen k tratamientos)i:::: 1, 2 ..., nJj:::: 1,2, ..., k::::i xi} == total delj-esimo tratamientoi=1- T.jx.j == - medida delj-esimo tratamientonjIf. Ii njT LT.j =LLxi} total de todas las observaciones.=1 j=1 .=1x = T.. N.. N2. Supuestos. Antes de establecer las suposiciones, es necesario especificar elmodelo para el experimento descrito aqui.ElmodeloTal como se habra notado, un modelo es una representaci6n simb61ica de un valorrepresentativo del conjunto de datos. Para escribir el mode1o para el &~seiio experi­mental completamente aleatorizado, se debe identificar el valor representativo apartir de los datos representados por la muestra desplegada en la tabla 8.2.1. Seutiliza e1 simbolo xi} para representar dicho valor.
    • 3018.2 DISENO COMPLETAMENTE ALEATORIZADOEI ami1isis de la variancia unilateral puede escribirse como sigue:(8.2.1)Los terminos en este modelo se definen de la siguiente forma:1. Jl representa la media de todas las k-medias poblacionales, y se Ie conocecomo la gran media.2. tjrepresenta la diferencia entre la media de la j-esima poblaci6n y la granmedia. Se Ie conoce como ejecta del tratamiento.3. eij representa la cantidad en que difieren una medici6n individual de la mediapoblacional a la que pertenece. Se Ie conoce como firmino del error.Componentes del modelo Al revisar el modelo es posible apreciar que unaobservaci6n representativa a partir del conjunto completo de datos bajo estudioesta compuesto de: 1) la gran media, 2) efecto del tratamiento, y 3) termino delerror que representa la desviaci6n de la observaci6n a partir de su media grupal.En la mayoria de las situaciones, el interes esta solamente en los k-tratamien­tos representados en el ejemplo. Cualquier inferencia que se haga, se apliea unica­mente a estos tratamientos y no se pretende ampliar la inferencia a cualquier otroconjunto mayor de tratamientos. Cuando se establecen tales restricciones para losobjetivos inferenciales, el modelo se conoce como modelo I 0 modelo de eJectosfijos. ElanaIisis en este libro se limita a este modelo.Supuestos del modelo Las suposiciones para el modelo de efectos fijos son las siguientes: a) Los k conjuntos de datos observados forman k muestras aleatorias simples apartir de las poblaciones respectivas.b) Cada una de las poblaciones de las que se extraen las muestras siguen unadistribucion normal con media Jl y variancia 0"2.} }c) Cada una de las poblaciones tienen la misma variancia. Es decir, O"~ =(J~... = cri =(J2 ,variancia comun~d) Las tjson constantes desconocidas y L tj =0, puesto que la suma de todas lasdesviaciones de Jlja partir de su media, Jl, es cero.e) Las e.. tienen una media igual acero, porque la media de x. es Jl.v v Jf) Las e.. tienen una variancia igual a la variancia de las x., porque las e.. y las x.l) 1) I} Ydifieren s610 por una constante; es decir, la variancia del error es igual a (J2, lavariancia comun, especificada en el inciso c.g) Las eij siguen una distribucion normal (e independiente).
    • 302 CAPITULO 8 ANALISIS DE LA VARIANCIA3. Hipotesis. Pruebe la hip6tesis que dice que todas las poblaciones 0 trata­mientos tienen medias iguales contra la hip6tesis alternativa, que dice que almenos un par de poblaciones no tienen medias iguales. Las hip6tesis se re­dactan r:omo sigue:Ho :111 =112 =... IlkH A : no todas las 11j son igualesSi las medias de las poblaciones son iguales, y el efecto de cada tratamiento esigual a cero, de tal manera que, alternativamente, las hip6tesis pueden escri­birse como sigue:Ho :tj =O,j 1,2, ...,kHA :no todas las 1:j 0Si Ho es verdadera y las suposiciones se cumplen respecto a que las variancias soniguales y que las poblaciones siguen una distribuci6n normal, entonces es posible apre­ciar una fotografia de la poblaci6n como se muestra en la figura 8.2.2. Cuando Ho esverdadera, las medias de la poblaci6n son todas iguales y las poblaciones estan cen­tradas sobre el mismo punto (la media comun) en el eje horizontal. Si todas las pobla­ciones siguen una distribuci6n normal con variancias iguales, la distribuci6n es identica,de tal manera que en la fotograffa cada una de ellas esta sobrepuesta sobre las otras,y una sola fotograffa es suficiente para representarlas a todas.Cuando la Ho es falsa, probablemente 10 es porque la media de una de las pobla­ciones es diferente de las demas que SI pueden ser iguales. 0, tal vez, todas las mediaspoblacionales son diferentes. Estas son unicamente dos de las posibilidades cuandoHo es falsa. Existen muchas otras posibles combinaciones de medias iguales y me­dias diferentes. La figura 8.2.3 muestra una fotograffa de las poblaciones cuando secumplen las suposiciones, pero Ho es falsa porque no hay dos medias de poblacio­nes que sean iguales.4. Estadistica de prueba. La estadlstica de prueba para el analisis de la varianciaunilateral es el calculo de la raz6n, designada como R.V, tal como se estudiaen el capitulo 7. Las dos variancias con las que se calcula la R.V son las mis-FIGURA 8.2.2 Descripci6n de las poblaciones representadas en un disefio completamen­te aleatorizado cuando Ho es verdadera y se cumplen las suposiciones.
    • 3038.2 DISENO COMPLETAMENTE ALEATORIZADOI I1IIL1 IL2 ILkFIGURA8.2.3 Descripci6n de las poblaciones representadas en el disefto completamentealeatorizado cuando las suposiciones de variancias iguales y poblaciones con distribuci6nnormal se cumplen, pero Ho es falsa porque ninguna de las medias poblacionales es igual.mas variancias calculadas a partir de los datos de la muestra. Los metodosmediante los cuales es posible calcular las variancias se estudian mas adelan­teoS. Distribuci6n de la estadistica de prueba. En la seccion 7.8 se dijo que R.V.sigue una distribucion F cuando Ho es verdadera y se cumplen las suposiciones.6. RegIa de decision. En general, la regIa de decision es rechazar la hip6tesisnula si el valor calculado para R.V. es mayor 0 igual que el valor critico de Fcon nivel 0:.7. CaIcuIo de la estadistica de prueba. Se defini6 al analisis de la varianciacomo un proceso por el que la variacion total presente en el conjunto de datosse divide en componentes que son atribuibles a diferentes fuentes. EI terminovariaci6n se utiliza en este contexto para referirse a la suma de desviaciones atcuadrado de las observaciones de su media 0 suma de cuadrados.Los calculos iniciales aplicados para una Al~OVA unilateral consisten en ladivision de la variaci6n total presente en los datos observados dentro de sus compo­nentes basicos, cada uno de los cuales es atribuible a una Fuente identificable.Aquellos que utilizan computadoras para realizar los calculos probablementequieran pasar por alto el estudio de los calculos asociados para obtener la estadisti­ca de prueba.Swna total de cuadrados Antes de hacer cualquier division, primero es ne­cesario calcular la suma total de cuadrados. La suma total de cuadrados es la sumade los cuadrados de las desviaciones de las observaciones individuales a partir de lamedia de todas las observaciones tomadasjuntas. La suma total de cuadrados (SCtotal)se define comok u JSCrotal = L L (Xij - xy (8.2.2)j=1 j=1donde r;~1 indica que hay que sumar las desviaciones al cuadrado para cada grupo detratamiento, y r;=1 indica que hay que snmar los totales de los k grupos que seobtienen al aplicar . Ellector puede identificar la ecuaci6n 8.2.2 como el nu­merador de la variancia que puede calcularse a partir del conjunto completo deobservacionesjuntas.
    • ~ ~ --~~~~---~---~~~~---- ~~~~--~-~~~~~---~~~--~~~~304 CAPITULO 8 ANALISIS DE LA VARIANCIASuma de cuadrados dentro de los grupos Ahora se muestra c6mo calcu­lar los primeros dos componentes de la suma total de cuadrados.EI primer paso para calcular estos componentes es realizar ciertos calculosdentro de cada grupo. Estos calculos implican realizar dentro de cada grupo, lasuma de las desviaciones al cuadrado de las observaciones individuales, a partirde su media. Despues de realizar estos calculos dentro de cada grupo, se obtiene lasuma de los resultados individuales del grupo. A este componente de variaci6n seIe llama suma de cuadrados dentro de los grupos y se Ie designa como SCdenlm A estacantidad algunas veces se Ie conoce como suma de cuadrados residuales 0 de errores.La expresi6n matematica para estos calculos es la siguiente:k njSCdenlm = LL(xij - )2 (8.2.3)j~l i~lSuma de cuadrados entre los grupos Para obtener el segundo compo­nente de la suma total de cuadrados, se calcula para cada grupo la desviacion alcuadrado de la media del grupo a partir de la gran media, y se multiplica el resul­tado por el tamano del grupo. Finalmente, se suman los resultados de todos losgrupos. Esta cantidad es una medida de la variacion entre los grupos y se conocecomo suma de cuadrados entre los grupos 0 SC • La formula para calcular estaentrecantidad es como sigue:kSC "(- -X.. )2entre = "" nj X.j .. (8.2.4)j=1Entonces, para resumir, se encuentra que la suma total de cuadrados es igualala suma de cuadrados entre los grupos mas la suma de los cuadrados dentro de losgrupos. Esta relacion se expresa asf:Con la suma de cuadrados, recien descrita, es posible calcular dos estimaciones dela variancia comun de la poblacion, (52. Puede demostrarse que cuando las suposi­ciones se cumplen y las medias de las poblaciones son todas iguales, tanto la sumade cuadrados dentro de los grupos como la suma de cuadrados entre grupos, si sedividen entre sus respectivos grados de libertad, producen estimaciones de (52insesgadas e independientes.Primera estimacion de (f,l Dentro de cualquier muestra, la expresion ma­tematica:
    • 306 CAPITULO 8 ANALISIS DE LA VARIANCL;Ellector reconocera el numerador de la ecuad6n R2.7 como la suma de cua­drados entre los grupos para el caso especial en que todos los tamafios de las mues­tras son iguales. Cuando se divide esta suma de cuadrados entre los grados de libertadasociados k - 1, se obtiene10 que se conoce como el cuadrado medio entre los grupos.Cuando no todos los tamafios de las muestras son iguales, una estimaci6n de02 con base en la variabilidarlentre las medias de las muestras se obtiene mediantek" n.(x.J.£... Jj=! (8.2.8)k 1Si, ademas, la hip6tesis nula es verdadera, puede esperarse que esas dos esti­madones de 02 tengan una magnitud muy semejante. Si la hip6tesis nula es falsa,esto es, si todas las medias de las poblaciones son diferentes, se puede esperar queel cuadrado medio entre los grupos, que se calcula mediante el uso de las desviacio­nes al cuadrado de las medias de las muestras a partir de toda la media, sea mayorque el cuadrado medio dentro de los grupos.Para comprender el amilisis de la variancia es necesario tener en cuenta que elcuadrado medio entre grupos proporciona una estimaci6n valida de 02 cuando lasuposid6n de igualdad de las variancias de las poblaciones se cumple y cuando Hoes verdadera. Ambas condiciones, una hip6tesis nula verdadera y variancias igualesen las poblaciones, se deben cumplir para que el cuadrado medio entre grupos seauna estimaci6n valida para 02.La razon de variancias Lo que se necesita ahora es comparar las dos estima­dones de 02 mediante el calculo de la siguiente relaci6n de variancia, que represen­ta la estadfstica de prueba requerida.cuadrado medio entre losR.V.=--------------------~~---cuadrado medio dentro de los gruposSi las dos estimaciones son aproximadamente iguales, la R.V. sera casi igual a 1.V na raz6n pr6xima a 1 tiende a apoyar la hip6tesis de que las medias son igualespara las poblaciones. Por otra parte, si el cuadrado medio entre los grupos es con­siderablemente mayor que el cuadrado medio dentro de los grupos, la R.V. sera, asu vez, considerablemente mayor que 1. Vn valor de RV. con esta caracterfsticaocasionara dudas sobre la hip6tesis de igualdad de las medias de las poblaciones.Se sabe que debido a la variabilidad del muestreo, aun cuando la hip6tesisnula es verdadera, es poco probable la igualdad de los cuadrados m.:dios entre ydentro de los grupos. Por 10 tanto, antes de conc1uir que las diferencias no se debena la fluctuaci6n del muestreo, es necesario decidir que tan grande debe ser la dife­rencia observada. Dicho de otra forma, (que tan grande debe ser un valor de RV.para concluir que la diferenda observada entre las dos estimaciones de 02 no esresultado unicamente del azar?Praeba de F Para responder a la pregunta anterior se debe considerar la distri­buci6n muestral de la raz6n de las variancias para dos muestras. En el capitulo 6 se
    • 3058.2 DISENO COMPLETAMENTE ALEATORIZADOproporciona una estimaci6n insesgada de la variancia real para la poblaci6n de lacual proviene la muestra. Bajo la suposici6n de que todas las variancias de la pobla­ci6n son iguales, es posible continuar las k estimaciones para obtener(8.2.5) Esta es.la primera estimaci6n de a2, y se Ie puede llamar variancia dentro de los grupos,dado que la expresion correspondeala suma de cuadrados dentro de los grupos de laecuaci6n 8.2.3 dividida entre los respectivos grados de libertad. El estudiante adver­tinl que esta es una extensi6n para las k muestras del procedimiento de combinaci6nde variancias que se plante6 en los capitulos 6 y 7,. clonde la combinaci6n de lasvariancias se utiliza para la distribuci6n t. A la cantidad en la ecuaci6n 8.2.5 casisiempre se Ie llama cuadrado medio dentro de los grupos, en lugar de variancia den­tro de los grupos.El cuadrado medio dentro de los grupos es una estimaci6n valida de a2s610 silas variancias de las poblaciones son iguales. Sin embargo, no es necesario que Hosea verdadera para que el cuadrado medio dentro de los grupos sea una estimaci6nvalida de a2• Esto es, el cuadrado medio dentro de los grupos estima a a2sin impor­tar si Ho es verdadera 0 falsa, siempre que las variancias de las poblaciones seaniguales.Segundo estimaci6n de a 2 La segunda estimaci6n.de a2 se puede obtener apartir de la f6rmula ya conocida para la variancia de las medias de las muestras,a; =a2/ n. Si la ecuaci6n es resuelta para a2, la variancia de la poblacion a partirde la cual se extrajeron las muestras, se tiene(8.2.6) Una estimaci6n insesgada de ai, calculada a partir de los datos de la muestra, esproporcionada pork-lSi esta cantidad se sustituye en la ecuaci6n 8.2.6, se obtiene la estimaci6n para a2,kn.2,(x.j -xy(8.2.7)k-l
    • 3078.2 DISENO COMPLETAMENTE ALEATORIZADOvio que la cantidad (S12 1an I(s= 1a~) sigue una distribucion Fcuando las varianciasde las muestras se cakulan a partir de muestras extraidas de forma independientey aleatoria de una pobladon que sigue una distribucion normal. La distribucion F,presentada por R. A. Fisher a principios de Ia decada de 1920, se ha convertido enuna de las distribuciones de mayor uso en la estadistica moderna. Ya se tiene cono­cimiento de su uso en la construccion de intervalos de confianza para las varianciasde la pobladon y para probar hipotesis acerca de estas. En este capitulo se aprecia­ra que la distribucion F es fundamental para el analisis de variancias. Por 10 tanto,a la operacion identificada como R.V con frecuencia se Ie identifica como F, y alprocedimiento de prueba se Ie llama prueba de F.En el capitulo 7 se estudia que, cuando las variancias de la poblacion son igua­les, se anulan en la expresion (S12 / ai) I(s~ 1a~), para dejar, S121s~, la cual sigue unadistribudonF. La distribucion F es realmente una familia de distribuciones, yla distri­budon F que se utiliza en una situacion determinada depende del numero de gra­dos de libertad asociados con la variancia muestral del numerador (grados de libertaddel numerador) y del numero de grados de libertad asociados con la variancia muestralen el denominador (grados de libertad del denominador).Una vez que se determina la distribucion F adecuada, el tamano de la R.Vobservada que causara el rechazo de la hipotesis de la igualdad de las medias de lapoblacion depende del nivel de significacion elegido. El nivel de significacion ele­gido determina el valor critico de F, que es el valor que separa la region de acepta­cion de la region de rechazo.Como se ha visto, la R.V se cakula, en situadones de este tipo, colocando elcuadrado medio entre los grupos en el numerador y el cuadrado medio dentro delos grupos en el denominador, par 10 que el valor de los grados de libertad del nume­rador es igual al numero de grupos menos 1, (k - 1), Yel valor de los grados delibertad del denominador es igual a:k1)=L,nj-k N-k}=1La tablaANOVALos dikulos que se han efectuado se pueden resumir y mostrar en una tabla comola 8.2.2, conodda como tabla ANOVA.8. Decision estadistica.·· Para tomar una decision es necesario comparar la R.Vcakulada contra el valor critico de F, que puede obtenerse de la tabla G conlos correspondientesgrados de libertad k - 1 en el numerador y N - ken eldenominador.Si el valor cakulado para R.Y. es mayor 0 igual que el valorcritico F, la hipotesisnula es rechazada; pero si es menor que el valor cduco de F, no se rechaza la hipo­tesis nula.Explicaci6n de par que se rechaza la hlp6tesisnula Existen dos posi­bies explicaciones de por que puede ser rechazada la hipotesis nula. Si la hipotesis
    • 308 CAPITULO 8 ANALISIS DE LA VARIANCIATABlA 8.2.2 Tabla para el analisis de la variancia para el disefio completamentealeatOlizadoFuente de Sumade Grados de Cuadrado Razonde lavariacion cuadrados libertad medio variacionk CMEntre muestras SCentre =Lnj(x.j -xY k 1 CMemre =SCentre j(k 1) R.V. = entrej-I CMdentrok fijDentro de las muestras u~ ~(Xii X,),)2 N - k C - k)SCden••o ..t.....t..., Mdentro =SCdentro j(Nk njTotal SCtOtal =LL(Xij XY N-lj=! ;=!nula es verdadera, es decir, si las vari~ncias de lasdos muestras son estimaciones deuna variancia comun, se sabe que la probabilidad de obtener un valor para RV.mayor 0 19ual que el valor critico F es igual al nivel de signification. Es posibleconduir, si se desea, que la hipotesis nula es verdadera y suponer que debido a lacasualidad se obtuvo un conjunto de datos que originaron un evento extraiio. Porotro lado, posiblemente se prefiera suponer que el valor calculado de R.v. no repre­senta un evento extrano producto del azar, sino que, en lugar de elio, refleja el hechode que existe algo que acrua y que no es el azar. Se conduye que ese otro "algo" es unahipotesis nula falsa.Esta ultima es la explicacion que en general se da para los valores de RV. queson mayores que el valor critico de F. Dicho de otra forma, si el valor calculado deRV. es mayor que el valor crftico de F, la hipotesis nula se rechaza.Vale la pena recordar que la hipotesis original que se desea probar es:~El rechazo de la hipotesis acerca de las variancias implica un rechazo de la hipote­sis de la igualdad de las medias poblacionales? La respuesta es afirmativa. Un valorgrande de RV. result6 del hecho de que el cuadrado medio entre los grupos eraconsiderablemente mayor que el cuadrado medio dentro de los grupos. Dado que elcuadrado medio entre los grupos se basa en la dispersi6n de las medias muestrales entorno a su media, esta cantidad sera grande cuando exista una gran discrepanciaentre los tamanos de las medias muestrales. Debido a esto, un valor significativo dela R.v. indica que se rechace la hipotesis nula de la igualdad de las medias pobla­cionales.9. Conclusion. Cuando se rechaza Ho se conduye que no todas las mediaspoblacionales son iguales. Cuando no se rechaza Ho se concluye que proba­blemente todas las medias poblacionales son iguales.10. Calculo del valor p.
    • --~...- - - -...- ...~... - - - -~..- -...-~-- .. --~~--------------------------8.2 DISENO COMPLETAMENTE ALEATORIZADO 309EJEMPLO 8.2.1El objetivo de un estudio realizado por Makynen et al. (A-I) fue el deinvestigar si elcakio que se consume diariamente en la dieta como tratamiento no farmacol6gicode la presi6n sangufnea elevada puede influir beneficamente lafunci6n endotelial enla hipertensi6n experimental mineralo-corticoide-NaCl. Los investigadores forma­ron cuatro grupos con ratas macho Wistar-Kyoto de siete semanas de edad, las cualesregistraron un promedio igual en la presi6n sangufnea sist6lica. Los grupos fueronlos siguientes: grupo de ratas sin tratamiento con dieta normal (WKY), grupo deratas sin tratamiento con dieta rica en cakio (WKY-Ca), grupo de ratas con dietanormal tratadas con deoxicorticosterona y NaCI (DOC), y un cuarto grupo de ratasque recibi6 dieta rica en cakio y tratamiento (DOC-Ca). Se pretende saber si lascuatro condiciones tienen diferentes efectos en el peso promedio de las ratas macho.Solucion:1. Descripcion de datos. Los datos corresponden a los pesos de lasratas al final del estudio,junto con los totales del tratamiento y las me­dias, tal como se muestra en la tabla 8.2.3. En la figura 8.2.4 semuestra la grafica de los datos en forma de grrifica de puntos. Estagrafica resalta las caracterfsticas principales de los datos y aclara lasdiferencias en las respuestas por el tratamiento.TABlA 8.2.3 Peso al final del estudio, engramos, de ratas Wistar-Kyoto estudiadasbajo cuatro condiciones diferentesCondici6nDOC WKY DOC-Ca WKY-Ca336 328 304 342346 315 292 284269 343 299 334346 368 293 348323 353 277 315309 374 303 313322 356 303 301316 339 ··320 354300 343 324 346309 343 340 319276 334 299 289306 333 279 322310 313 305 308302 333 290 325269 372 300Total 4950 5147 4840 4500 19437Media 309.38 343.13 302.50 321.43 318.64FUENTE: Utilizada con autorizaci6n del Dr. HeiRki Makynen.
    • •• ••• •••• •• •• • •••••••• ••••310 CAPITULO 8 ANAuSIS DE LA VARIANCIA380••370 •360 350 •340 • ••Vi •• •0 330E •f!1 • ••.9 320 • • •f,l •Q)0.. 310 •300 •290 •• ••280• •• 270 260 250DOC WKY DOC-Ca WKY-CaCondici6nFIGUUA 8.2.4 Peso de ratas Wistar-Kyoto estudiadas bajo cuatro condiciones diferentes.WRy ratas sin tratamiento con dietas normales. vVKY-Ca = ratas sin tratamiento condietas altas en caleio, DOC ratas con dietas normales tratadas con deoxycorticosterona yNaCl, DOC-Ca = ratas tratadas y con dietas altas en caleio.2. Supuestos. Se supone que los cuatro conjuntos de datos formanmuestras aleatorias simples e independientes, extraidas de cuatropoblaciones que son similares excepto por la condici6n estudiada.Se supone que las cuatro poblaciones de mediciones siguen una dis­tribuci6n normal con variancias iguales.3. Hipotesis.Ho= J..l = J..l J..l = J.l (en promedio las cuatro condiciones producen1 2 3 4la misma respuesta). H A: no todas las J.l son iguales (al menos una condici6n produce una respuesta promedio diferente del promedio de cuando menos una de las demas condiciones) 4. Estadistica de prueba. La estadistica de prueba es R.v. = CMenu/CMdentro
    • --~ .. - ..- ..- - -...- -..- - - - - - - - - - - - - - - - - - - - ­8.2 DISENO COMPJ.ETA..mNTE ALEATORIZADO 311TABLA 8.2.4 Tabla ANOVA para el ejemplo 8.2.1Fuente SC g. I. CM R.V.Entre muestras 14649.1514 3 4883.0503 11.99Dentro de las muestras 23210.9023 57 407.2088Total 37860.0547 605. Distribucion de la estadistica de prueba. Si Ho es verdadera y secumplen las condiciones, entonces R.v. sigue una distribucion F conlos grados de libertad correspondientes, respectivamente, del nu­merador y denominador: 4 -1 = 3 Y61 - 4 57.6. RegIa de decision. Suponga que a = .05. El valor crftico de F apartir de la tabla G es 3.34. La regIa de decision, entonces, es recha­zar Ho si el valor calculado de R.V: es mayor 0 igual a 3.34.7. C31culo de Ia estadistica de prueba. La ecuaci6n 8.2.2 produce elsiguiente resultado:SC,ataj= 37860.0547Mediante la ecuaci6n 8.2.4 se calcula14649.1514SCentreSCdentro = 37860.0547 - 14649.1514 = 23210.9023EI resultado de los cuatro dilculos se muestra en la tabla 8.2.4.8. Decision estadfstica. Debido a que el valor calculado para R.V:,11.99, es mayor que el valor critico F, 3.34, se rechaza Ho9. Conclusion. Dado que se rechazo H se concluye que la hipotesisoalternativa es verdadera. Es decir, se COnclUye que los cuatro trata­mientos no tienen el mismo efecto en promedio.10. Valor de p. Puesto que 11.99 > 4.77 (el valor de F995 para 3 y 57grados de libertad, obtenido por interpolaci6n), p < .005 para estaprueba. •Advertencia El diseiio completamente aleatorizado es sencillo y, por 10 tanto,amplialllente utilizado. Sin embargo, se debe utilizar solo cuando las unidades quereciben los tratamientos son homogeneas. Si las unidades experimentales no sonhomogeneas, el investigador debera usar otro diseiio, como alguno de los que seestudian mas adelante en este capitulo.
    • 312 CAPITULO 8 ANALISIS DE LA VARIANCIAEn el ejemplo anterior los tratamientos son tales en el sentido usual de lapalabra. Sin embargo, este rio es siempre el caso, ya que el termino "tratamiento" seusa en forma generica en el disefio experimental. Es posible que uno quiera anali­zar la respuesta al mismo tratamiento (en el sentido usual de la palabra) de algunascepas de animales. Sin embargo, uno podrfa referirse a la cepa de animales como el"tratamiento".Tambien hay que precisar que, aunque todas las tecnicas de analisis de varianciase aplican frecuentemente a datos que resultan de los experimentos controlados,las tecnicas tambien se utilizan para analizar datos recolectados en encuestas, siem­pre que las suposiciones basicas sean satisfechas en forma razonable.Amilisis por computadora La figura 8.2.5 muestra los resultados para elejemplo 8.2.1 proporcionados por el programa de analisis de variancia unilateral,el cual se encuentra incluido en el paquete de software MINITAB. Los datos fueronregistrados en columnas desde la 1 hasta la 4. Compare las salidas impresas de latabla ANOVA contra los resultados de la tabla 8.2.4 para observar que la etiquetaCaja de dialogo: Comandos de la sesi6n:Stat> ANOVA > Oneway(Unstacked) MTB > AOVONEWAY Cl- C4Teclear CI-C4 en Responses (in separate columns).Clic OK.Resultados: Analisis de la variancia unilateral Analysis of Variance on ClSource DF SS MS F PC2 3 14649 4883 11.99 0.000Error 57 23211 407Total 60 37860Individual 95% CIs For MeanBased on Pooled StDevLevel N Mean StDev ---+---------+---------+-----­ -+1 15 343.13 .18.71 (-----+----)2 14 321.43 21.72 -----*----)3 16 309.37 23.54 (--- *----)4 16 302.50 16.05 (--- *----)---+­ -------+--­ -----+-­ ------+-­300 320 340 360Pooled StDev = 20.18FIGURA 8.2.5 Procedimiento MINITAB Yresultados para el ejemplo 8.2.1.
    • 3138.2 DISENO COMPLETAMENTE ALEATORIZADOSistema SASProcedimiento de amllisis de la varianciaDependent Variable: SERUMSource DF Sum of Squares Mean Square F Value Pr > FModel 3 14649.15366901 4883.05122300 11.99 0.0001Error 57 23210.91190476 407.20898079Corrected Total 60 37860.06557377R-Square C.V. Root MSE SERUM Mean0.386929 6.332997 20.17941973 318.63934426FIGURA 8.2.6 Resultados impresos parcialmente por SAS® para el ejemplo 8.2.1."factor" aparece en lugar de "muestras entre". Los diferentes tratamientos se men­cionan como niveles en la forma impresa. Un nivel 1 es igual al tratamiento 1, elnivel 2 es igual al tratamiento 2, yasi sucesivamente. Las salidas impresas presen­tan medias y desviaciones estandar para las cuatro muestras, as! como la desviaci6nestandar combinada. Esta ultima cantidad es igual a la rafz cuadrada del cuadradomedio del error que se muestra en la tabla ANOVA. Finalmente, la computadoragenera una representaci6n grafica de los intervalos de confianza de 95 por cientopara la media de cada una de las cuatro poblaciones representadas por los datos delas muestras.La figura 8.2.6 muestra una parte de los resultados impresos por el paqueteSAS® parael ejemplo 8.2.1. Para ellose utiliz6 la instrucci6n PROC ANOVA delpaquete SAS®. EI paquete calcu16 algunas cantidades adicionales c0!ll0 se muestraen la salida. Raiz cuadrada SC • Esta cantidad indica que la proporci6nSCenrn/ tota1de la variabilidad total presente en las observaciones se toma en cuenta para dife­rentes respuestas en lostratamientos. C.Y. = 100 (la raiz de CMre,idua/concentraci6nmedia en el suero). La raiz de CMresidual es la rafz cuadrada de CM Yla concentra­entreci6n media en el suero es la media de las 18 observaciones.Un mecanismo uti! para mostrar las caracterfsticas importantes de un conjun­to de datos analizados mediante el analisis de la variancia unilateral es la gcificaformada por cajas de valores extremos bilateral. Para cada muestra se construyeuna caja de valores extremos mediante el metodo descritoen el capitulo 2. Lafigura 8.2.7 muestra las cajas de valores extremos para el ejemplo 8.2.1. En la figu­ra 8.2.7 es posible apreciar que la variable de interes esta representada por el ejevertical en lugar del eje horizontal.Alternativas Si los datos disponibles para elanalisis no cumplen las suposicio­nes para el analisis de la variancia unilateral, tal como se estudia aquf, quiza seanecesario utilizar otro procedimiento como el de Kruskal-Wallis, tecnica noparametrica que se estudia en el capitulo 13.
    • 314 CAPITULO 8 ANALISIS DE LA VARIANCIA370360350340330320310300290280270260250DOC WKY DOC-Ca WKY-CaFIGURA 8.2.7 Caja de puntos extremos bilateral para el ejemplo 8.2.1.Prueba para diferencias significativa.l entre pares individuates delnedias Siempreque el an,Hisis de variancias conduce a rechazar la hip6tesisnula de no diferencia entre las medias de las poblaciones, surge la pregunta respec­to a que par de medias son diferentes. De hecho, 10 que con frecuencia se deseahaeer, aunque no siempre, es llevar a cabo una prueba de signifieaci6n en todos yeada uno de los pares de medias de los tratamientos. En el ejemplo 8.2.1, en el que setienen cuatro tratamientos, se desea saber, despues de reehazar Ho: III 112 Ils = J..l4emil de las seis hip6tesis individuales posibles debe ser rechazada. Sin embargo, elexperimentador debe tener preeauci6n al probar las diferencias signifieativas entrelas medias individuales, y siempre debe asegurarse de que su proeedimiento esvalido. El punto critico en el proeedimiento es el nivel de significaci6n. Aunque laprobabilidad, a, de rechazar una hip6tesis nula verdadera para la prueba como untodo sea pequefia, la probabilidad de reehazar al menos una hip6tesis verdaderacuando se prueban varios pares de medias es, como se ha visto, mayor que a.Prueba HSD de Tukey Durante varios afios se han sugerido diversos procedi­mientos para efeetuar eomparaciones multiples. Un procedimiento de compara­eiones multiples, desarrollado por Tukey (7) se utiliza con frecuencia para probar lahip6tesis nula de que todos los pares de medias posibles de tratamientos son igua­les si el tamafio de todas las muestras es igual. Si se utiliza esta prueba es necesario
    • 3158.2 DISENO COMPLETAMENTE ALEATORIZADOseleccionar un nivel de significaci6n total de 0:. Si la probabilidad es 0:, entonces,una 0 mas de las hip6tesis nulas es falsa.La pmeba de Tukey, que generalmente se conoce como pmeba de HSD (dift­renew verdaderamente signifieativa), utiliza un solo valor contra el que se comparantodas las diferencias; Este valor, Hamada HSD, se obtiene con Ia siguiente f6rmula(8,2.9)HSD q",k.N-kndonde 0: es el nivel de significaci6n seleccionado, k es el numero de medias en elexperimento, N es la cantidad total de observaciones, n es el numero de observacio­nes en el tratamiento, CMresidual es el cuadrado medio del error 0 dentro, el cual sepuede ver en la tabla ANOVA, y qse obtiene a partir de la tabla H del apendice conlos parametros 0:, k y N - k.La estadistica q, tabulada en la tabla H del apendice, se conoce como estadfs­tica de amplitud de Student. Se define como la diferencia entre las medias de lostratamientos mayory menor, a partir de unaANOVA(es decir, es la amplitud de lasmedias de los tratamientos), divididaentre el cuadrado medio del error sobre n, elnumero de observaciones en el tratamiento. Laamplitud de Student se estudia de­talladamente en Winer (8).Se caIculan todas las diferencias posibles entre los pares de medias y si cualquierdiferencia produce un valor absoluto que excede la HSD se dedara como significativo.Praeba de Taker para maestra..; con tamafios diferentes Cuando notodas las muestras son del mismo tamano,como en el ejemplo 8.2.1, la ecuaci6n8.2.9 no es aplicable para la pmeba de Tukey de HSD. Sin embargo, Spj~tvoll yStoline (9) han extendido el procedimiento de Tukey para los casos en que lostamanos de las muestras son diferentes. Su procedimiento, que es aplicable en ex­perimentos que comprenden tres 0 mas tratamientos y niveles de significaci6n de.050 menos, cOllsiste en Ia sustituci6n de n, en la ecuaci6n 8.2.9, por n;, que es elmas pequeno de lOs tamanos de muestra asociados con las dos medias de las mues­tras que se van a comparar. Si esta nueva cantidad se designa como HSD*, se tienecomo un nuevo criterio de pmeba la expresi6n:CM d IHSD" rest uaq",k.N-k • (8.2.10)njCualquier valor absoluto de la diferencia entre las medias de dos muestras,una de las cuales se calcula partir de una muestra de tamano n; (que es mas peque­no que la muestra de la cual se calcula la otra media), que excede la HSD, seconsidera significativo.EJEMPLO 8.2.2Mediante los datos del ejemplo 8.2.1 se ilustra el usa de la pmeba de HSD.Soluci6n: El primer paso es preparar una tabla can todas las posibles diferencias(ordenadas) entre las medias. Los resultados de este paso para el ejem­plo se muestran en la tabla 8,2,5.
    • 316 CAPITULO 13 ANALISIS DE LA VARIANCIATABlA 8.2.5 Diferencias entre las medias de lasmuestras (valol absoluto) para el ejemplo 8.2.2DOC-Ca DOC WKY-Ca WKYDOC-Ca(DC)DOC(D)WKY-Ca(WC)WKY(W)6.87 18.9312.0640.6333.7621.70Suponga que a. =.05. AI buscar en la tabla H con a. = .05, k 4 YN - k = 57, se encuentra que q esta alrededor de 3.75 (se obtiene me­diante una interpolaci6n). En la tabla 8.2.4 se tiene que CMre5iduai =407.2088.En la tabla 8.2.6. se muestran la hip6tesis que debe probarse, elvalor de HSD y la decisi6n estadfstica para cada prueba.EI paquete SAS® utiliza el procedimiento de Tukey para probar lahip6tesis de no diferencia entre las medias poblacionales para todos lospares posibles de medias muestrales. Los resultados que ofrece tambienincluyen intervalos de confianza para la diferencia entre todos los paresposibles de medias poblacionales. Los resultados para el ejemplo 8.2.1se muestran en la figura 8.2.8.TABlA 8.2.6 Prueba de comparaciones multiples con losdatos del ejemplo 8.2.1 y HSD*Hip6tesis HSD* Decisi6n estadistica~407.2088 No se rechaza HoHSD* = 3.75. =18.92porque 6.87 < 18.92161407.2088 No se rechaza Ho20.22Ho: !loc =!!we HSD* = 3.75 porque 18.93 < 20.22~ 141407.2088 Se rechaza HoHSD*= 3.75J =19.54 porque 40.63 > 19.54. V 15~407.2088 No se rechaza HoHSD* = 3.75 20.22 porque 12.06 < 20.2214Se rechaza HoHSD* = 3.75,/407.2088 19.54 porque 33.76> 19.54V 15Se rechaza Ho~407.2088HSD* = 3.75 =20.22 porque 21.7> 20.2214
    • 317- . - - - -.....- -..- -....-~--..... ---~ ...- - . - -....-~-...• - .8.2 DISENO COMPLETAMENTE ALEATORIZADOTambien, es posible utilizar el paquete MINITAB para realizar com­paraciones multiples con una gran variedad de metodos que incluyen elde Tukey.Para utilizar esta caracterfstica de MINITAB se agregan todaslas mediciones de todos los tratamientos en una sola columna. En otra,se meten los c6digos numericos que especifican el tratamiento con elque esta relacionada cada medici6n. En la rota de Stat se escoge la op­ci6n ANOVA, despues One-way y se hacen las selecciones adecuadas yanotaciones en la caja de dialogo. •Sistema SASProcedimiento de analisis de la varianciaTukeys Studentized Range (HSD) Test for variable: WEIGHTNOTE: This test controls the type I experimentwise error rate.Alpha = 0.05 Confidence = 0.95 df = 57 MSE = 407.209Critical Value of Studentized Range 3.743Comparisons significant at the 0.05 level are indicated by ***Simultaneous SimultaneousLower Difference UpperGROUP Confidence Between ConfidenceComparison Limit Means LimitW WC 1.859 21. 705 41.550 ***w - D 14.565 33.758 52.952 ***W - DC 21. 440 40.633 59.827 ***WC - W -41.550 -21. 705 -1.859. ***WC - D -7.490 12.054 31.598WC DC -0.615 18.929 38.473D - W -52.952 -33.758 -14.565 ***D WC -31.598 -12.054 7.490D - DC -12.006 6.875 25.756DC - W -59.827 -40.633 . -21.440 ***DC WC -38.473 -18.929 0.615DC - D -25.756 -6.875 12.006FIGURAS.2.S Comparaciones multiples para el ejemplo 8.2.1, producidas por el paque­te SAS®.
    • 318 CAPITULO 8 ANALISIS DE LA VARIANCIAEJERCICIOSEn los ejercicios del 8.2. 1 aI8.2.7 aplique el procedimiento de los diez pasos de la prueba dehip6tesis para analizar las variancias yver si es posible conduir que existen diferencias entrelas medias de las poblaciones. Sea a = .05 para cada prueba. Utilice el procedimiento HSDde Tukey para probar las diferencias significativas entre los pares de medias individuales.Utilice el mismo valor de a que parala prueba F. Construya una gra.fica de puntos y unagrafica de caja de valores extremos bilateral.8.2.1 Una investigaci6n realizada por Singh et al. (A-2) y publicada en la revista Clinical Immunologyand Immunopathology se refiere a las anormalidades inmunol6gicas en ninos autistas. Comoparte de su investigaci6n, tomaron mediciones de la concentraci6n serica de un antigeno entres muestras de ninos de diez afios 0 menos de edad. Las mediciones en unidades pc.,milimetro de suero son las siguientes:Ninos autistas (n = 23): 755,385,380,215,400,343,415,360,345,450,410,435,460,360,225,900,365,440,820,400, 170,300,325Ninos normales (n = 33); 165,390,290,435,235,345,320,330,205,375,345,305,220,270,355,360,335,305,325,245,285,370,345,345,230,370,285,315,195,270,305,375,220Ninos con retraso mental (sin sindrome de Down) (n 15): 380,510,315,565,715,380,390,245,155,335,295,200,105,105,245FUENTE: Utilizada con autorizaci6n de V~endra K. Singh, Ph. D.8.2.2 El prop6sito de una de las investigaciones realizadas por Schwartz et at. (A-3) es cuantificarlos efectos que produce fumar cigarros sobre las medidas estandar del funcionamientopulmonar en pacientes con fibrosis pulmonar idiopatica. Entre las mediciones registradasesta el porcentaje del volumen residual pronosticado. Los resultados que se registraron detales mediciones son los siguientes:Nunca (n = 21) Anterior (n = 44) Actual (n =7)35.0 62.0 95.0 96.0120.0 73.0 82.0 107.090.0 60.0 141.0 63.0109.0 77.0 64.0 134.082.0 52.0 124.0 140.040.0 115.0 65.0 103.068.0 82.0 42.0 158.084.0 52.0 53.0124.0 105.0 67.077.0 143.0 95.0140.0 80.0 99.0127.0 78.0 69.058.0 47.0 118.0110.0 85.0 131.042.0 105.0 76.057.0 46.0 69.093.0 66.0 69.0(ContinUa)
    • EJERCICIOS 319Nunca (n =21) Anterior (n =44) Actual (n =7)70.0 91.0 97.051.0 151.0 137.074.0 40.0 103.074.0 80.0 108.057.0 56.0FUENTE: Utilizada con autorizaci6n de David A. Schwartz, M. D.,M.P. H.8.2.3 Szad6czky et at. (A-4) examinaron las caracterfsticas de los sitios de uni6n de la 3H-imipraminaen pacientes permanentemente deprimidos (SAD) y pacientes deprimidos por corto tiempo(no-SAD), as! como en individuos sanos (grupo de control). Una de las variables en las que sehicieron las mediciones es la densidad de los sitios de uni6n para la 3H-imipramina en lasplaquetas sanguineas (Bmf;y,) Los resultados son los siguientes:SAD No-SAD Control634 771 1067 585 546 1176 520 552 1040 525 557 1218 693 976 942 660 204 845 520 807 573 526 731 788 736 1007 846 701 584 867 691 FUENTE: Utilizada con autorizaci6n de Erika Szad6czky.8.2.4 Meg Gulanick (A-5) compar610s efectos de la prueba de enseiianza mas ejercicios, amboscon y sin capacitaci6n de ejercitamiento, sobre la autoeficacia y el desempefio de actividadesdurante la primera etapa en recuperaci6n de individuos que tuvieron infarto del miocardioo cirugia cardiovascular. La autoeficacia (confianza) para realizar actividad fisica esta defini­da como el sanojuicio de la propia capacidad para realizar diversas actividades cotidianas.Se escogi6 a varios individuos aleatoriamente paraasignarlos a uno de tres grupos. EI grupo
    • 320 CAPITULO 8 ANALISIS DE LA VARIANCIA1 recibi6 ensefianza, pruebas de ejen:icios de rutina y entrenamiento deejen:icios tres vecespor semana. EI grupo 2 recibi6 5610 instrucciones y pruebas de ejen:icio. EI grupo 3 recibi6s610 cuidados de rutina sin supervisi6n en los ejen:icios ni ensefianza. Las siguientes califica­ciones son el total de autoeficacias por grupo despues de cuatro semanas del infarto 0 depracticada la operaci6n cardiovascular.Crupo 1: 156,119,107,108,100; 170, 130, 154, 107, 137, 107Crupo 2: 132, 105, 144, 136, 136, 132, 159, 152, 117,89, 142, 151,82Crupo 3: 110, 117, 124, 106, 113,94,113,121,101, -119, 77, 90, 66FUENTE: Utilizada con eI permiso de Meg Gulanick, Ph. D., R. N.8.2.5 Azoulay-Dupuis et al. (A-6) estudiaron la eficacia de cinco medicamentos para erradicar elStreptocoCI;US pneumoniae de los pulmones de ratones de laboratorio hembras en varias ocasio­nes antes de la infecci6n. Las siguientes mediciones corresponden a la existencia de bacte­rias viables en los pulmones (loglo cfulml de homogenado pulmonar) 24 horas despues deaplicar seis inyecciones. Las dosis se administran por inyecci6n.Dosis de medicamento(mglkg) Bacterias viablesControlesAmoxicilina, 50Eritromicina, 50Temafloxacina, 50Ofloxacina, 100Ciprofloxacina, 1008.808.608.108.408.802.602.602.602.602.602.602.602.602.607.305.307.487.864.606.45FUENTE: Utilizada con autorizaci6n de Esther Azoulay-Dupuis.8.2.6 EI prop6sito de un estudio realizado por Robert D. Budd (A-7) es la exploraci6n de la rela­cion entre el uso de cocafna y el comportamiento violento en casos donde se investigan lascausas de muerte. Se registraron las siguientes concentraciones de cocaina (Ilg!ml) en vfcti­mas de muerte violenta segiin el tipo de muerte.
    • - - -...- ..- ..--~ .. - - . - - - - - - - - - - - - - - - - - - - - ­EJERCICIOS 321Homicidio78 1.71 .19 1.55 .27 4.08 .161.88 4.10 .14 3.11 .42 1.52 .35.25 .38 2.38 2.49 .35 .41 1.49.81 2.50 .21 4.70 2.39 .35 1.18.04 1.80 .13 1.81 4.38 1.79 2.26.04 .12 1.32 1.15 .10 .27 .19, 09 .30 3.58 3.49 1.24 2.77 .471.88Accidente1.18 1.46 .03 .65 .40 7.62 .04.05 3.85 .46 .47 2.96Suicidio1.15 .54 .92 .35 .3.22 .21 .541.82FUENTE: Utilizada con autorizaci6n de Robert D. Budd.8.%.7 Rosen et al. (A-8) disefiaron un estudio para probar 1a hip6tesis de que los sobrevivientesdel holocausto nazi presentan mas y diferentes problemas para dormir en comparaci6ncon individuos deprimidos y sanos, y que la gravedad de los problemas de los sobrevivien­tes estan correlacionados con el tiempo que pasaron en los campos de concentraci6n. Losindividuos estudiados eran sobrevivientes del holocausto nazi, pacientes deprimidos e in­dividuos sanos. Los investigadores describieron los patrones de suefio de los individuosdurante el mes anterior al estudio segiin el Indice de la calidad del suefio de Pittsburgh, uninstrumento de automedici6n con preguntasrespecto ala calidad, latencia, duraci6n, efi­ciencia y disturbios del suefio, uso de somniferos y disfunci6n durante el dia. Las siguien­tes calificaciones globales corresponden a los indices por tipo de. individuo para cadaindividuo estudiado.
    • 322 CAPITULO 8 ANALISIS DE LA VARIANCIAPacientes SanosSobrevivientes depresivos (grupo de control)8 5 7 2io 16 12 1 58 3 8 2 I6 6 10 2 213 2 12 1 23 9 6 46 9 3 111 6 2 244FUENTE: Utilizada con autorizaci6n de Jules Rosen, M. D.8.2.8 Regenstein et al. (A-9) presentaron un estudio cuyo objetivo era determinar si habfa asociaci6nentre el aumento de incidencia de la intolerancia a la glucosay la terapia cr6nica de terbutalinaadministrada por via oral 0 como inyecci6n subcutanea. Respectivamente, 38 y 31 mujeresrecibieron terbutalina via oral e inyecci6n subcutanea. Se compararon los resultados de das;fi­cad6n de diabetes gestacional contra los resultados en 82 mujeres que no recibieron terapia.~Cmil es la variable tratamiento en este estudio? cCuaJ es la variable respuesta? C:Cuales son lasvariables extranas que pueden causar efectos que pudieran induirse en el termino de error?C:CuaIes son las "categorfas" de la variable tratainiento? Elabore una tabla para el analisis de lavarianda en el que se especifiquen las mentes de variaci6ny los grados de libertad.8.2.9 ] eSsee y Cecil (A-l 0) condujeron un estudio para comparar las habilidades, medidas por unaprueba y por un procedimiento de clasificaci6n, de varias mujerescapacitadas para sugerir ypriorizar soluciones ante dilemas medicos. Las 77 mujeres se repartieron en cuatro grupos:visitantes domiciliarias capacitadas con experienciaentre cero y seis meses; visitantes domi­ciliarias capacitadas con mas de seis meses deexperiencia; enfermeras con capacitaci6n profe­sional, y mujeres sin experiencia ni capacitaci6n. (Cuales la variable tratamiento? C:Cual es lavariable respuesta? C:Cuales son las "categorias" de la variable tratamiento? C:Quienes son lossttietos del estudio? C:Cuales son las variables extraiias cuyos efectos pueden induirse en eltermino de error? (Cual es el objetivo de induir en el estudio mujeres con y sin capacitaci6ny experiencia? Elabore una tabla ANaVA en la que se especifiquen las fuentes de variaci6n ylos grados de libertad. Los autores calcularon una R.V: de 11.79. C:Cual es el valor de p?8.3 DISENO POR BLOQUESCOMPLETOSY~TO~OSEl diseiio por bloques completos y aleatorizados fue creado alrededor de 1925 por R. A.Fisher, quien buscaba metodos para el mejoramiento de experimentos en el campoagricola. El disefio por bloques completos y aleatorizados es un disefio en el que lasunidades (llamadas unidades de experimentaci6n) a las que se aplican los tratamientosson subdivididas en grupos homogeneos llamados bloques, de tal manera que elnumero de unidades de experimentacion en un bloque es igual al numero (0 a unmultiplo del mismo) de tratamientos en estudio. Luego se asignan los tratamientos
    • 3238.3 DISENO POR BLOQUES COMPLETOS YALEATO.RIZADOSen forma aleatoria a las unidades experimentales dentro de cada bloque. Es necesa­rio hacer notar que .cada uno de los tratamientos aparece en todos los bloques, ycada bloque recibe todos los tratamientos.Objetivo El objetivo al utilizar el diseiio por bloques completos y aleatorizadoses aislar y eliminar del termino de error la variacion atribuible a los bloques, yasegurar que las medias del tratamiento esten libres de los efectos del bloque. Laeficacia del diseiio depende de la capacidad de conseguir bloques homogeneos deunidades de experimentacion. Esta capacidad depende del conocimiento de losinvestigadores acerca del material experimental. Cuando el diseiio se utiliza coneficacia, el cuadrado medio del error en la tabla ANOVA se reduce, aumenta la R.y.y mejora la probabilidad de rechazar la hip6tesis nula.En experimentos con animales, si se piensa que las diferentes cepas de anima­les responderan de manera diferente a un mismo tratamiento, la cepa se puedeutilizar como un factor para formar bloques. Las camadas tambien pueden utilizar­se como bloques, en cuyo caso un animal de cada camada recibe untratamiento. Enexperimentos en los que intervienen seres humanos, si sedesea eliminar las dife­rencias que resultan de la edad, los individuos pueden agruparse de acuerdo con laedad, de tal forma que una persona de cada edad recibe el tratamiento respectivo.El diseiio por bloques completos y aleatorizados tambien se puede utilizar de ma­nera eficaz cuando el experimento se lleva a cabo en mas de un laboratorio (blo­que) 0 cuando se-requieren varios dfas (bloques) para terminarlo.VenJujas Una de las ventajas del diseiio por bloques completos y aleatorizadoses que se comprende facilmente. Ademas, alglinas complicaciones que podrfan sur­gir en el transcurso de un experimento son faciles de controlar cuando se utilizaeste diseiio.Resulta conveniente seiialar que el analisis de comparaciones por parejas queaparece en el capitulo 7 es un caso especial del diseiio por bloques completos yaleatorizados. EI ejemplo 7.4.1. puede ser como un diseiio por bloques completosy ali::atorizados en el que los dos puntos en el tiempo (antes y despues) son lostratamientos, y los individuos sobre los que se hacen las mediciones son los bloques.Despliegue de datos En general, los datos de un experimento que utiliza eldiseiio por bloques completos y aleatorizados pueden presentarse en tablas comola 8.3.1. Se debe observar la siguiente notacion nueva:el total del t- simo bloque = T;. Lkxijj-IkLXij~TI.la media del i- simo bloquek kk "y el gran total T = £.. I.="T "T.. £.J.)j-I i-I10 cual indica que el gran total sepuede obtener sumando los totales de los renglo­nes 0 sumando los totales de las columnas.
    • 324 CAPITULO 8 ANALISIS DE LA VARIANCIATABlAS.3.1 Tabla de valores aleatoriosparaeldisefio por bIoques compIetos y a1eatorizadosTratamientosBloques 1 2 3 k Total MediaI23XuX21X3lX I2X22XS2XISX23X33. X lkX2kX3kT I •T 2•Tg.Xl.x2•xg•nTotalMediaxnlT.lx.I, xn2T.2x2xn3T.3x.BxnkT.kX.kTn·T ..X".ANOVA hUtileral La tecnica paraanalizar los datos de un disefio por bloquescompletos y aleatorizados se llama andlisis de la variancia bilateral, porque una ob­senraci6n se clasifica con base en dos criterios: el bloque alque pertenece y el grupode tratamiento del cual forma parte.Los pasos para la pruebade hip6tesis, si se utiliza el disefio por bloques COffi­pletos y aleatorizados, es como sigue:1. Datos. Despues de identificar los tratamientos, los bloques y las unidades deexperimentaci6n, los datos pueden presentarse por conveniencia, como en latabla B.3.1.2. Supuestos. El modelo para el disefio por bloques completos y aleatorizadosse fundamenta en las siguientes suposiciones:El modelo esXij Jl+Pi+tj+eij(B.3.1)i = 1,2, ...,n; j := 1, 2, ...,kEn este modelo xij es el valor representativo de toda la poblaci6n. Jl es una constante desconocida.Pi representa un efecto de bloque que refleja el hecho de que la unidad deexperimentaci6n cae en el i-esimo bloque.tjrepresenta el efecto de un tratamiento que refleja el hecho d~ que launidad de experimentaci6n recibe elj-esimo tratamiento.eij es un componenteresidual.que representa toda las fuentes de variaci6nque no son tratamientos ni bloques.
    • 3258.3 DISENO POR BLOQUES COMPLETOS Y ALEATORIZADOSSupuestos del I1I,odeioa) Cada xij que se observa constituye una muestra aleatoria independientede tamafio 1 a partir de una de las kn poblaciones representadas.b) Cada una de estas kn poblaciones sigue una distribucion normal con unamedia J..t; Yla misma variancia (52. Esto implica que los eij siguen una distri­bucion ~ormal e independiente con una media igual a 0 y variancia (52.c) Los efectos del tratamiento y del bloque son aditivos. Esta suposicion seinterpreta como la no existencia de interacci6n entre los tratamientos ybloques. En otras palabras, una combinacion particular de bloque­tratamiento no produce un efecto que sea mayor 0 menor que la sumade sus efectos individuales. Es posible demostrar que cuando estasuposicion se satisfacek nLtj =L~i =0j=! i=1Las consecuencias de contravenir esta suposicion son resultados enga­fiosos. No es necesario preocuparse por la suposicion de adicion, a me­nos que la media mayor sea en mas de 50 por ciento mas grande que lamedia menor.Cuando estas suposiciones son verdaderas, tjy ~j son un conjunto de constan­tes f!jas, y se tiene una situacion que se ajusta al modelo de efectos f!jos.3. Hip6tesis. Se puede probarHo: tj0, j = 1, 2, ... , kcontra la alternativaUna prueba de hipotesis respecto a los efectos del bloque no se efectua, por 10general, bajolassuposiciones del modelo de efectos f!jos por dos razones. Primero,el interes principal esta en los efectos del tratamiento, siendo el prop6sito generalde los bloques proporcionar una forma de eliminar las fuentes extrafias de varia­cion. Segundo, aunque las unidades experimentales se asignen al azar a los trata­mientos, los bloques no se obtienen de manera aleatoria.4. Estadistica de prueba. La estarustica de prueba es R.Y.5. Distribuci6n de la estadistica de prueba. Cuando Ho es verdadera y se cum­plen las suposiciones, R.Y. sigue una distribucion F.6. RegIa de decisi6n. Se rechaza la hipotesis nula si el valor calculado para laestadfstica de prueba R.Y. es mayor 0 igual que el valor cdtico de F.
    • 326 CAPITULO 8 ANALISIS DE LA VARIANCIA7. Calculo de la estadistica de prueba. Puede mostrarse que la suma total delos cuadrados para el disefio por bloques completos y aleatorizados puededividirse en tres componentes, cada uno atribuible a los tratamientos (SCtrat),bloques (SCbloq) y error (SCresidual) Esto es:SCtotal = SCblOq + SCtrat + SCresidual (8.3.2)Las f6rmulas para las cantidades en la ecuaci6n 8.3.2 son las siguientes:k nSCtotal = L,L,(xij -x.Y (8.3.3)j=1 ;=1k nSCb10q = L,L,(x;. -x.Y (8.3.4)j=1 ;=1k "SCtrat = L,L,(x.j -x.Y (8.3.5)j=1 ;=1SCresidual = SCtotal - SCb10q - SCtrat (8.3.6)Los grados de libertad adecuados para cada componente en la ecuaci6n8.3.2 son: .total bloques tratamientos (error) residualkn = 1 = (n - 1) + (k + 1) + (n-l)(k-l)Los grados de libertad residuales, al igual que la suma de cuadradosresiduales, pueden calcularse mediante una resta como sigue:(kn - 1) - (n - 1) - (k - 1) = kn - 1- n +1- k +1= n(k -1) -1(k -1) = (n -1)(k -1)TablaANOVA I;Los resultados de los c:ilculos para el disefio por bloq~es completos y aleatorizadospueden desplegarse en una tabla ANOVA como la 8.3.2.. .TABLA 8.3.2 Tabla ANOVA para el disefio pOI" bloques completos yaieatol"izadosFuente SC g.l. CM R.v.Tratamientos SCrrat (k ­ 1)BloquesResidualesSCb10qSCresidual(n ­ 1)(n-l)(k-l)Total kn-l
    • 3278.3 DISENO POR BLOQUES COMPLETOS Y ALEATORIZADOS8. Decision estadistica. Es posible mostrar que, cuando el modelo de efectosf~os se aplica y la hip6tesis nula de no efectos del tratamiento (todas las tj0)es verdadera, tanto el cuadrado medio del error, 0 residual, como el cuadradomedio de los tratamientos son estimaciones para la variancia comun (12. Por 10tanto, cuando la hip6tesis nula es verdadera, la cantidadCMtralCMresidualsigue una distribuci6n F con k - 1 grados de libertad en el numerador y (n 1)x (k - 1) grados de libertad en el denominador. La razon de la variancia calcu­lada, por 10 tanto, se compara contra el valor critico de F.9. Conclusion. Si se rechaza H o se concluye que la hip6tesis alternativa es ver­dadera. Si no se rechaza Ho. se concluye que Ho puede ser verdadera.10. Valor de p.El siguiente ejemplo muestra el uso del disefio por bloques completos yaleatorizados.EJEMPLO 3.3.1Un fisioterapeuta tenia como proposito comparar tres metodos para ensefiar a suspacientes a utilizar cierto mecanismo protesico. Considero que el porcentaje deaprendizaje seria diferente en pacientes con diferentes edades, y quiso disefiar unexperimento en el que la edad fuera tomadaen cuenta.Solucion: El disefio por bloques completos y aleatorizados es un disefio adecuadopara el fisioterapeuta.1. Datos. Escogio al azar a tres pacientes por grupo para formar cin­co grupos de edad para que participaran en el experimento, y acada uno de los pacientes en cada grupo de edad se Ie asigno al azarun metodo de ensefianza. Los metodos de instruccion forman trestratamientos, y los cinco grupos de edad son los bloques. Los datos.que se obtuvieron se muestran en la tabla 8.3.3.2. Supuestos. Se supone que cada una de las 15 observaciones for­man una muestra aleatoria de tamafio 1 a partir de una de las 15poblaciones definidas por la combinacion de bloques y tratamien­tos. Por ejemplo, se supone que el numero 7 en la tabla forma unarespuesta seleccionada al azar a partir de una poblacion de respues­tas que resultarfa si la poblacion de individuos con edades menoresa 20 afios recibiera el metodo de ensefianza A. Se supone que lasrespuestas en las 15 poblaciones representadas siguen una distribu­cion normal con variancias iguales.3. Hipotesis.Ho: tj= 0 j = 1, 2, 3H 1: no todas las T = 0, JSea a = .05.4. Estadisticadeprueba. La estarusticadepruebaesRV = CMu",/CMresidual
    • 328 CAPtTUL08 ANALISIS DE LA VARIANCIATABlA 8.3.3 Tiempo (en diaB) necesario paraaprender a utilizar cierto aparato protesicoMetodo de enseilanzaGrupo de edad A B C Total MediaMenor de 20 7 9 10 26 8.6720 a 29 8 9 10 27 9.0030 a 39 9 9 12 30 10.0040 a 4:9 10 9 12 31 10.3350y mas 11 12 14 37 12.33Total 45 48 58 151Media 9.0 9.6 11.6 10.075. Distribucion de la estadistica de prueba. Cuando Ho es verdade­ra y las suposiciones se cumplen, R.v. sigue una distribuci6n F con 2y 8 grados de libertad.6. Regia de decision. Rechazarla hip6tesis nula si el valor calculadode R.v. es mayor 0 igual que el valor crftico de F. EI valor de F, 4.46,se puede localizar en la tabla G.7. CaIculo de la estadistica de prueba. Se calculan las siguientes su­mas de cuadrados:SCwtal(7 10.07)2 + (8 10.07)2 + ... + (14 - 10.07)2 = 46.9335SCb10q3 [(8.67 10.07)2 + (9.00 - 10.07)2 + ... + (12.33 - 10.07)2] =24.855SCtrat5 [(9 10.07)2 + (9.6 - 10.07)2 + (11.6 - 10.07)2] = 18.5335SCresidual 46.9335 - 24.855 - 18.5335 = 3.545Los grados de libertad en total son = (3)(5) - 1 = 14, bloques5 1 4, tratamientos 3 - 1 = 2, Yel (error) residual = (5 -TABlA 8.3.4 Tabla ANOVA para elejemplo 8.3.1Fuente SC g.l. CM R.V.Tratamientos 18.5335 2 9.26675 20.91Bloques 24.855 4 6.21375Residuales 3.545 8 .443125Total 46.9335 14
    • 3298.3 DISENO POR BLOQUES COMPLETOS Y ALEATORIZADOS1)(3 - 1) = 8. Los resultados de los calculos pueden desplegarse enuna tabla ANOVA como la que se muestra en la tabla 8.3.4.8. Decisi6n estadistica. Puesto que la razon de la variancia, 20.91, esmayor que 4.46, se rechaza la hipotesis nula de que no hay efectosdel tratamiento bajo la suposicion de que una R.v. tan grande reflejaque el cuadrado medio de las dos muestras no son estimaciones de lamisma cantidad. La otra (mica explicacion para esa R.v. tan grandeserfa que la hipotesis nula es realmente verdadera, y que se observoun conjunto de resultados inusuales. Se descarta la segunda explica­cion en favor de la primera. .9. Conclusi6n. Se concluye que no todos los efectos de los tratamien­tos son iguales acero, 0 equivalentes, es decir que no todos los trata­mientos son iguales.10. Valor de p. Para esta prueba p < .005.•Antilisis par (,-OmpulUikJro Muchos paquetes de software estadfstico analizanlos datos a partir de diseiios por bloques completos y aleatorizados. A continuacionse muestra la entrada y la salida del paquete MINITAB. Los datos del experimentoservicin para alimentar la hojade trabajo de MINITAB fonnada por tres columnas. Lacolumna 1 contiene las observaciones, la columna 2 contiene los nUmeros que identifi­can el bloque a que corresponde cada observaci6n. La columna tres contiene los nUme­( ros que identifican e1 tratamiento a que corresponde cada observacion. La figura 8.3.1muestra la hoja de trabajo de MINITAB para el ejemplo 8.3.1. La figura 8.3.2 muestralas cajas de diaIogo para comenzar e1 anaIisis y la tabla ANOVA que resulta.ROW C1 C2 C31 7 1 12 9 1 23 10 1 34 8 2 15 9 2 26 10 2 37 9 3 18 9 3 29 12 3 310 10 4 111 9 4 212 12 4 313 11 5 114 12 5 215 14 5 3FIGURA 8.3.1 Hoja de trabajo de MINITAB para los datos de la figura 8.3.2.
    • 330 CAPiTULO 8 ANA.LISIS DE LA VARIANCIACaja de dialogo: Comandos de la sesi6n:Stat> ANOVA > Twoway MTB > TWOWAY Cl C2 C3SUBC > MEANS C2 C3.Tedear Cl en Response. Tedear C2 en Row factor yverificar Display means. Tedear C3 en Column factQr yverificar Display means. Clic OK.Resultados:Analisis de la variancia bilateralAnalysis of Variance.for ClSource DF SS MSC2 4 24.933 6.233C3 2 18.533 9.267Error 8 3.467 0.433Total 14 46.933Individual 95% ClC2 Mean -+------- ------+-­1 8.67 (-----* )2 9.00 (-----* ---)3 10.00 ( -*-­4 10.33 ---*--­5 12.33 *---- )-+------ -------+- -----+-­9.00 10.50 12.00 13.50Individual 95% CIC2 Mean ---+---------+----------+---------+-­1 9.00 (- *----)2 9.60 (-----*---- )3 11. 60 (- *----)---+-- --+--- --+---- -+-­9.00 10.00 11.00 12.00FIGUR 8.3.2 Caja de dialogo y resultados para el anaIisis de la variancia bilateral, ejelll­plo 8.3.1. MINITAB.
    • EJERCICIOS 331SistemaSASProc:edimiento de analisis de la varlanc:iaDependent Variable: DAYSSource DF Sum of Squares Mean Square F Value Pr > FModel 6 43.46666667 7.24444444 16.72 0.0004Error 8 3.46666667 0.43333333Corrected Total 14 46.93333333R-Square C.V. Root MSE DAYS Mean0.926136 6.539211 0.65828059 10.06666667Source DF Anova SS Mean Square F Value Pr > FGROUP 2 18.53333333 9.26666667 21. 38 0.0006AGE 4 24.93333333 6.23333333 14.38 0.0010.J<1GUR.8.3.3 Resultados impresos parcialmente para el ejemplo B.3.1. Paquete MINITAB.La tabla ANOVA producida por el paquete SAS® para el amilisis del ejemplo8.3.1 se muestraenla figura 8.3.3. Observe que en estos resultados el modele SC esigual a la suma de SCb10q YSCn<at <Alternativas Cuando los datos disponibles no cumplen las suposiciones del di­sefio por bloques completos yaleatorizados tal como se estudia aquf, puede serconveniente un procedimiento alternativo nocparametrico como el de Friedmanque se trata en el capftulo 13.E,JERCICIOSPara los ejercicios deIB.3.1 aIB.3.5 aplique el procedimiento de los diez pasos de la pruebade hip6tesis para el amilisis de la variancia.8.3.1 Druml ct al. (A-ll) tenian como prop6sito, en uno de sus estudios, evaluar el impacto de laalcalosis respiratoria sobre la eliminaci6n dellactato administrado por via intravenosa. Rea­lizaron el estudio en ocho individuos que eran pacientes con tratamiento de respiraci6nasistida debido a que presentaban enfermedades neurol6gicas 0 neuromusculares. Se torna­< ron mediciones, al azar yen dos ocasiones, de las concentraciones plasmaticas de lactato:primero, durante la respiraci6n normal, y despues durante la alcalosis inducida porhiperventilaci6n controlada. Se evalu6 la eliminaci6n de lactato cinco minutos despues deadministrar Immol/ kg de peso corporal de acido L-lactico. Los siguientes datos representan
    • 332 CAPiTULO 8 ANALISIS DE LA VARIANCIAlos niveles de lactato del plasma (mmo1/1) 90 minutos despues de administrarlo a cada unode los pacientes por cada ocasi6n.Individuo Normoventilaci6n Hiperventilaci6n123456781.31.41.21.11.81.41.31.92.82.01.72.72.11.82.02.8FUENTE; Wilfred Druml, Georg Grimm, Anton N. Laggner, Kurt Lenz y Bruno Schneewei~, "Lactic Acid Kinetics in Respiratory Alkalosis", Critical Care Medicine, 19, 1120-1124. © Williams & Wilkins. Despues de eliminar los efectos en los individuos, ~es posible conduir que la concentraci6nmedia de lactato en el plasma es diferente durante la respiraci6n normal y durante la hiper­ventilaci6n? Sea ex = .05.8.3.2 McConville et al. (A-12) informaron acerca de los efectos que produce masticar una pieza degoma de mascar con nicotina (2 miligramos) en la frecuencia con que se presenta un tic enpacientes con des6rdenes de Tourette tratados inadecuadamente con haloperidol. Los si­guientes datos corresponden a la frecuencia del tic nervioso bajo cuatro condiciones.Ntimero de tics durante un periodo de 30 minutosDespues de terminar de masticarMasticando 0-30 30-60Paciente AI inicio chicle minutos minutos1 249 108 93 592 1095 593 600 8613 83 27 32 614 569 363 342 3125 368 141 167 1806 326 134 144 1587 324 126 312 2608 95 41 63 719 413 365 282 32110 332 293 525 455FUENTE: BrianJ. McConville, M. Harold Fogelson, Andrew B. Norman, William M. Klykylo, Pat Z.Manderscheid, Karen W. Parker y Paul R. Sanberg, "Nicotine Potentiation of-Haloperidol inReducing Tic Frequency in Tourettes Disorder", AmericanJournal ofPsychiatry, 148, 793-794. Co·pyright ©, The American Psychiatric Association. Reimpresa con autorizaci6n.
    • EJERCICIOS 333Despues de disipar los efectos en el paciente. <!es posible conduir que el numero medio detics difiere en las cuatro condiciones? Sea a = .Ol.8.3.3 Un equipo de especialistas en remotivacion, en un hospital psiquiatrico, condujo un expe­rimento para comparar cinco metodos para remotivar a los pacientes. Estos fueron agru­pados de acuerdo con el nivel de motivaci6n inicial. En cada grupo, los pacientes fueronasignados al azar a los cinco metodos. AI final del periodo experimental, un equipo detrabajo formado por un psiquiatra, un psic61ogo, una enfermera y un trabajador socialevaluaron a los pacientes. Ninglin miembro del equipo de evaluaci6n sabia de los metodosque fueron asignados a los pacientes. El equipo asign6 a cada paciente una calificaci6n comomedida de su nivel de motivaci6n. Los resultados son los siguientes:Nivel de Metodo de remotivaci6nmotivaci6ninicial A B C D ENulo 58 68 60 68 64Muybajo 62 70 65 80 69Bajo 67 78 68 81 70Promedio 70 81 70 89 74~Proporcionan estos datos evidencia suficiente que indique una diferencia en las calificacio­nes medias entre los metodos? Sea a == .05.8.304 La enfermera supervisora de un departamento de salud local queria analizar el efecto de lahora del dra en la duracion de las visitas domiciliarias realizadas por el personal de enferme­ria. Pensaba que las diferencias individuales entre las enfermeras podian ser grandes, por 10que utilizo a las enfermeras como un factor de formaci6n de bloques. Recolecto ademas lossiguientes datos:Duracion de la visita domiciliaria seglin la hora del diaEnla Amedio Temprano PoriaEnfermera mafuma dia porIa tarde tardeA 27 28 30 23B 31 30 27 20C 35 38 34 30D 20 18 20 14~Proporcionan estos datos evidencia suficiente para indicar una diferencia en la duraci6n delas visitas domiciliarias en las diferentes horas del dia? Sea a = .05.8.3.5 Cuatro individuos participaron en un experimento para comparar tres metodos de libera­ci6n de la tensi6n nerviosa. Cada individuo fue puesto en una situaci6n de tension nerviosa entres ocasiones diferentes. Por cada vez se utiliz6 un metodo diferente para reducir el estres
    • 334 CAPITULO 8 ANALISIS DE LA VARIANCIAen cada individuo. La variable de respuesta es el total de reduccion del nivel de tensionnerviosa antes y despues de la aplicacion del tratamiento. Los resultados son los siguientes:TratamientoIndividuo A B C1 16 26 222 16 20 233 17 21 224 28 29 36ms posible conduir a partir de estos datos que los tres metodos difieren en eficacia? Sea a =.05.8.3.6 En un estudio realizado por Valencia et al. (A-13) se midieron los efectos de la temperaturaambiental y la humedad en el gasto energetico durante 24 horas mediante calorimetriaindirecta de todo el cuerpo en ocho hombres jovenes con peso normal. Los individuos estu­diados utilizaron ropa ligera y siguieron un regimen de actividad controlada. Se evaluaronlos efectos de la temperatura medida a 20, 23, 26 Y30 grados Celsius en un ambiente hume­do, y en un ambiente altamente humedo con temperaturas de 20 y 30 grados Celsius. (CuMes la variable bloqueo? (Cwil es la variable tratamiento? ,:Cwlntos bloques existen? <!Cuantostratamientos hay? Elabore una tabla ANOVA en la que se especifiquen las fuentes variabili­dad y los grados de libertad para cada una. ~Cuales son las unidades experimentales? tCua­les son las variables extrafias que pueden influir y podrian incluirse en el termino de error?8.3.7 Hodgson et al. (A-14) realizaron un estudioen el cual indujeron dilataci6n gastrica en seisperros con anestesia, mantenidos con dosis constantes de isofluorano en oxigeno. Compara­ron las mediciones cardiopulmonares antes de la distension estomacal (medidas de linea debase) contra las mediciones tomadasdurante .1, .5, 1.0, 1.5, 2.5 Y3.5 horas de distensionestomacal para analizar los cambios a partir de las medidas de linea de base. Despues de ladistension estomacal, los indices cardiacos aumentaron de 1.5 a 3.5 horas. No hubo cambiosen el volumen sistolico. Durante la insuflacion, se observ6 un incremento en la presion arterialsistemica, arterial pulmonar y auricular derecha. No cambiola frecuencia de la respiracion.La Pao-, tendi6 a disminuir durante la dilataci6n gastrica. (Cuales son las unidades de expe­rimentacion? (CuMes son los bloques? tCual es la variable tratamiento? (CuM es la variableo variables respuesta? (Que variables extrafias pueden causar efectos que pudieran incluirseen el termino de error? Elabore una tabla ANOVA para este estudio en el que se identifiquenlas fue"1tes de variabilidad y se especifiquen los grados de libertad.8.4 DISENO DE MEDICIONES HEPETIDASUno de los diseiios que se utilizan con mayor frecuenda en el campo de ciencias dela salud es el diseiio de mediciones repetidas.DEFINICIONEI disefto de mediciones repetidas es aquel en el que, parauna rnisrna variable, se hacen rnediciones sobre cadaindividuo en dos 0 lIlas ocasiones distintas.Las ocasiones distintas durante las que se toman las mediciones pueden serpuntos distintos en el tiempo 0 diferentes condiciones, como tratamientos diferentes.
    • 3358.4 DISENO DE MEDICIONES REPETIDASCurindo utlli:zar Hledlclones repetldas En general, el motivo principalpara utilizar el disefio de mediciones repetidas es el deseo de controlar la variabili­dad entre los individuos estudiados. En este disefiocada individuo sirve como supropio control. Cuando se toman las mediciones s610 en dos ocasiones se tiene eldisefio de un par de comparaciones que se estudian en el capitulo 7. Una de lassituaciones mas usuales que permiten el uso del disefio de mediciones repetidas escuandoel investigador esta interesado en respuestas sobre el tiempo.Velltqjas Tal como se mencion6 con anterioridad, la principal ventaja del dise­fiode mediciones repetidas es la capacidad para controlar variaciones extrafiasentre los individuos. Una ventaja adicional es que se necesitan menos individuospara aplicar el disefio de mediciones repetidas que otros disefios en los que seutilizan diferentes individuos por cada ocasi6n en que se toman las mediciones. Porejemplo, suponga que se tienen cuatro tratamientos(en el sentido usual) 0 cuatropuntos en el tiempo sobre los cuales se quisiera tener lO mediciones. 8i se utilizauna muestra diferente de individuos para cada uno de los cuatro tratamientos 0puntas en el tiempo, se necesitarian 40 individuos. 8i fuera posible tomar las medi­ciones en los mismos indi~iduos para cada tratamiento 0 punto en el tiempo, esdecir, si se pudiera utilizar el disefio de mediciones repetidas, se necesitarian sola­mente lO individuos. Esta ventaja resulta conveniente si es dificil 0 caro reclutarindividuos. . .. .Desventqjas El principal problema potencial sobre el que se debe tener cuida­do es el ejecta. acarreado. Cuando se evahian dos 0 mas tratamientos, los investigado­res deben asegurarse de que las respuestas de los individuos para un tratamientono reflejan un efecto residual del tratamiento anterior. Este problema frecuente­mente puederesolverse dejando pasar tiempo suficiente entre los tratamientos.Otro posible problema es el eJecto de posici6n. Un individuo puede responderal ultimo tratamiento en secuencia de manera diferente como habrfa respondido sidicho tratamiento hubiera sido el primero en la secuencia. En ciertos estudios,como en los que hay participaci6n flsica por parte de los individuos, el entusiasmoque al principio es alto puede derivar en aburrimiento hacia el final. Una manera dedarle vuelta a este problema es aleatorizar la secuencia de tratamientos independien­temente para cada individuo.Dlseiio de medlclolles repetldascoll un solofuctor . EI disefio mas sim­pie·de mediciones repetidas es aquel en el que se agrega una variable adicional alavariable tratamiento. EI motivo que origina la introducci6n de una variable adicio­nal es mediry aislar su contribuci6n a la variabilidad total entre las observaciones.Esta variable ·adicional se conoce comofactor.DEFINICIONEI diseiio de lllediciones repetidas en el que se introduceun factoradicional enel experilllento, se llallla diseiio demediciones repetidascon un solofactor.
    • 336 CAPiTULO 8 ANALISIS DE LAVARIANCIAEI factor adicional se refiere al individuo. En el diseiio de mediciones repeti­das con un solo factor, cada individuo recibe cada uno de los tratamientos. EI ordenen el que los individuos son expuestos a los tratamientos, si hay la posibilidad, es alazar. La aleatorizaci6n se aplica de manera independiente sobre cada individuo.Supuestos Se deben considerar, en este texto, los siguientes supuestos en el di­seiio de mediciones repetidas con un s6lo factor. AI diseiio que cumpla con estossupuestos se Ie llama diseiio aditivo de efectos fijos.1. Losindividuos estudiados forman una muestraaleatoria simple extraida deuna poblaci6n con individuos similares.2. Cada una de las observaciones es una muestra aleatoria simple e indepen­diente de tamaiio 1 extraida de cada una de las kn poblaciones, donde n es elnfunero de individuos y k es el nfunero de tratamientos a los que se expone el in­dividuo.3. Las kn poblaciones tienen medias potencialmente diferentes, pero todas laspoblaciones tienen la misma variancia.4. Los k tratamientos son ftios, es decir, son los unicos tratamientos respecto alos que se tiene interes en la situaci6n actual. Nose pretende hacer inferenciaspara un conjunto mayor de tratamientos.5. No hay interacci6n entre los tratamientos y los individuos. Esto es, los trata­mientos y los efectos en los individuos son aditivos.Con frecuencia es posible encontrar que los datos de los experimentos no cumplencon las suposiciones de tratarrtientos ftios ytratamlentos aditivos y efectos sobre losindividuos. Para cada caso, la bibliografia anotada al final del capitulo puede daruna guia adecuada.Modelo EI modelo para el diseiio de m~diciones repetidas con un s6lo factoraditivo de efectos ftios es el siguiente:Xij = f..L + ~i -+ t) + eijz = 1,2, ..., n; j = 1,2, ..., k (S.4.I)EI lector recordara que este modelo es igual al modelo del diseiio por bloquescompletos y aleatorizados estudiado en la secci6n S.3. Los individuos son los blo­ques. Consecuentemente, la notaci6n, los datos desplegados y el procedimientopara prueba de hip6tesis son losmismos que se presentaron anteriormente para eldiseiio por bloques completos y aleatorizados. EI siguiente ejemplo muestra la apli­caci6n del diseiio de mediciones repetidas.EJEMPLO 8.4.1Hill et al. (A-I5) estudiaron los efectos de las alteraciones en la composici6n diete­tica sobre el gasto de energia y balance de nutrientes en los seres humanos. Una delasmedidas empleadas para el gasto energetico era una cantidad llamada cociente
    • 3378.4 DISENO DE MEDICIONES REPETIDASTABL8.4.1 Cocientes de respiracion diaria (las24 horas) registradas en tres ocasiones diferentesIndividuo Inidal Dia3 Dia 7 Total1 0.800 0.809 0.832 2.4412 0.819 0.858 0.835 2.5123 0.886 0.865 0.837 2.5884 0.824 0.876 0.900 2.6005 0.820 0.903 0.877 2.6006 0.906 0.820 0.865 2.5917 0.800 0.867 0.857 2.5248 0.837 0.852 0.847 2.536Total 6.692 6.850 6.850 20.392FUENTE: James O. Hill, John C. Peters, George W. Reed, David G. Schlundt,leresa Sharp y Harry L. Greene, "Nutrient Balance in Humans: Effect ofDietComposition",AmericanJournal ofClinicalNutrition,54, 10-17. ©AmericanJournalafClinical Nutrition.respiratorio (CR). En la tabla 8.4.1 se muestran,para tres puntos diferentes en eltiempo, los cocientes respiratoriosdiarios (24 horas), con una dieta alta en caloriasen los ocho individuos que participaron en el estudio.·Se pretende saber si existediferencia entre el CR medio y los tres puntos en el tiempo.Solucion: 1. Datos. Vease la tabla 8.4.1.2. Supuestos. Se considera que se cumplen los supuestos descritos parael disefio de mediciones repetidas con un solo factor aditivo de efectosfijos.3. Hipotesis.HA: no todas las Il son iguales4. Estadistica de prueba. R.V. = CMtra/CMresidual5. Distribucion de la estadistica de prueba. Distribucion F con 3 - 12 grados de libertad en el numerador y 23 - 2 7 = 14 grados delibertad en el denominador.6. Regia de decision. Sea a. = .05. El valor cntico de F es 3.74. Serechaza Ho si R.v. es mayor 0 igual que 3.74.7. CaIculo de laestadistica de prueba. Se utilizo el paquete MINITABpara realizar los calculos. Primero se introdujeron las mediciones en lacolumna 1, los numeros de renglon (individuos) se introdujeron enla columna 2, los codigos de tratamientos (periodos de tiempo) en lacolumna 3, y se procedio como se muestra en la figura 8.4.1.
    • 338 CAPiTULO 8 ANALISIS DE LA VARIANCIACaja de dialogo: Comandosde la sesi6n:Stat>- ANOVA >- Twoway MTB > TWOWAY C1 C2 C3iSUBC> MEANS C2 C3.Tedear CI en Response. Teclear C2 en Row factor yverificar Display means. Tedear C3 en Column factor yverifiear Display means. Clie OK.Resultados: Analisis de la variancia bilateral Analysis of Variance for C1Source DF SS MSC2 7 0.007438 0.001063C3 0.002080 0.001040Error 14 0.013495 0.000964Total 23 0.023013FIGURA8.4.1 Procedimiento MINITAB Yresultados (tabla ANOVA) para el ejemplo 8.4.1.Sistema SASProcedimiento de amilisis de la varianciaDependent Variable: DRQSource DF Sum of Squares Mean Square F Value Pr > FModel 9 0.00951833 0.00105759 1.10 0.4227Error 14 0.01349500 0.00096393Corrected Total 23 0.02301333R-Square C.V. Root MSE DRQ Mean0.413601 3.654045 0.03104720 0.84966667Source DF Anova SS Mean Square F Value Pr > FSUBJ 7 0.00743800 0.00106257 1.10 0.4131TIME 2 0.00208033 0.00104017 1. 08 0.3666FIGUHA 8.4.2 Resultados para el analisis del ejemplo 8.4.1. Paquete SAS®.
    • EJERCICIOS 3398. Decision estadistica. No es posible rechazar la hip6tesis nula por­que R.V. .001040/.000964 1.0788 es menor que 3.74.9. Conclusion. Se conduye que probablemente no hay diferencia enlas tres medias poblacionales.10. Valor de p. Puesto que 1.0788 es menor que 2.73, el valor crfticode F para (l .10, el valor de pes mayor que .10.La figura 8.4.2 Inuestra los resultados para el amHisis del ejemplo 8.4.1. Paque­te SAS) •FJERCICIOSPara los ejercicios del 8.4.1 al 8.4.3 aplique el procedimierito de 10 pasos para Ia prueba dehip6tesis. Sea (X == .05. . . .8.4.1 Uno de los prop6sitos de un estudio realizado por Blum et ai. (A-16) era determinar lafarmacocinetica de la fenitofna en presencia y ausencia de la terapia concomitante defluconazola. Entre los datos recolectados durante e1 curso del estudio se obtuvieron las si­guientes concentraciones sericas de fluconazola en 10 individuos varones sanos; las medicio­nes se hicieron en tres diferentes ocasiones.Individuo Dia 14 Cmin(Ilglml) Dia 18 Cmin(Ilglml) Dia 21 Cmin(Ilglml)001 8.28 9.55 11.21004 4.71 5.05 5.20005 9.48 11.33 8.45007 6.04 8.08 8.42008 6.02 6.32 6.93012 7.34 7.44 8.12013 5.86 6.19 5.98016 6.08 6.03 6.45017 7.50 8.04 6.26020 4.92 5.28 6.17FUENTE: RobertA. Blum,John H. Wilton, Donald M. Hilligoss, MarkJ. Gardner, Eugenia B. Henry,Nedra J. Harrison yJeromeJ. Schentag, "Effect of Fluconazole on the Disposition of Phenytoin",Clinical Pharmacology and Therapeutics, 49, 420-425.8.4.2 Abbrecht et al. (A-17) estudiaron los efectos respiratorios durante eI ejercicio y varios gradosde r~sistencia de los conductos de aereaci6n. Estudiaron a ciI).cO individuos, varones sanosque no fumaban, dedicados a ejercicios prolongados mientras respiraban a traves de dife­rentes cargasde resistencia al flujo. Entre las mediciones que tomaron estaban los siguientesvolumenes inspiratorios (Vmin) en cinco ocasiones sucesivas bajo una de las condiciones deresistencia al flujo.
    • 340 CAPITULO 8 ANALISIS DE LA VARIANCIAIntervalo de tiempoIndividuo 1 2 3 4 51 39.65 36.60 39.96 40.37 37.822 44.88 40.84 43.96 44.10 45.4l3 32.98 33.79 34.32 33.89 32.8l4 38.49 35.50 39.63 35.21 37.515 39.71 41.90 36.50 40.36 42.48FUENTE: Utilizada con autorizaci6n de Peter H. Abbrecht, M. D., Ph. D.8.4.3 Kabat-Zinn et ai. (A-I 8) disenaron un estudio para detenninar la eficacia de un programa dereducci6n de estres con base en la meditaci6n en pacientes con trastomos de ansiedad. Losindividuos estudiados fueron seleccionados de entre los que estaban en el programa de relaja­ci6n y reducci6n del estres. Entre los datos que recolectaron los investigadores estaban lascalificaciones obtenidas con base en la Escala de clasificaci6n de la ansiedad de Hamilton, entres ocasiones diferentes: al momenta del recluciuniento inici<iI (RI), antes del tratamiento(Pre), despues del tratamiento (Post) y a los tres meses de seguimiento (3-M). Se obtuvieron lossiguientes datos correspondientes a los resultados de los 14 individuos.RI Pre Post 3·M21 21 16 1930 38 10 2138 19 15 643 33 30 2435 34 25 1040 40 31 3027 15 11 618 11 4 731 42 23 2721 23 21 1718 24 16 1328 8 5 240 37 31 1935 32 12 21FUENTE: Utilizada con autorizaci6n de Kenneth E. Fletcher, Ph.D. 8.4.4 EI prop6sito del estudio de Speechley et ai. (A-19) era comparar los cambios en la autoeva­luaci6n de la confianza cHnica entre dos grupos de medicos posgraduados que ejercian lamedicina familiar, en un periodo de dos anos de residencia. Un grupo comenz6 en un centrode pr:ktica familiar y el otro comenz6 enun hospital. Un grupo con cuarenta y dos residen·tes participaron en la medici6n inicial, de los cuales 24 presentaron respuestas completasdespues de dos anos. Se evalu6 la seguridad del medico respecto a 177 temas concentradosen 19 temas generales, mediante cuestionarios que les fueron aplicados despues de seis, 12y 24 meses.Los residentes cambiaban cada seis meses de un lugar a otro, y aproximadamen­te la mitadiniciaron en cHnica y la otra mitad en hospitaL Las asignaciones al sitio de inicio
    • 8.5 EXPERIMENTO FACTORIAL 341se hicieron tomando en cuentalas preferenciasde los residentes. :Quienes son los individuosexaminados en este estudio? (Cuil es la variable tratamiento? :Cual es la variable respuesta?Comente sobre el efecto acarreado y el efecto de posici6n, y c6mo pueden 0 no influir en e1estudio. Elabore una tabla ANOVA. para este esiudio, en la que se identifiquen las fuentes devariabilidad y se especifiquenlos gradosqe libertad para cac;la,una,8.4.5 Barnett y Maughan (A-20) efectuaron unestudio para determinar si existen efectos de adi­mataci6n cuando los deportistas varones que no estin acostumbrados al dima ejercitan aplena luz de dfa en intervalos semanales. Cinco individuos estudiados ejercitaron duranteuna hora en condiciones de V02max al 55 por ciento durante cuatro ocasiones diferentes. Elprimer ejercitamiento fue bajo condiciones moderadas. Los tres ejercitamientos subsecuen­tes fueron en intervalos semanales a plena luz de dfa. No hubo cambios significativos entre laspruebas en el calor para el ritmo cardiaco, temperatura rectal 0 V02• :Cuiles son los individuospara este estudio? (CuaI es la variable tratamiento? :Cuil es la variable respuesta? Comenterespecto a los efectos de acarreado y de posici6n, y c6mo pueden 0 no influir en el estudio.Elabore una tabla ANOVA para este estudio, en la que se identifiquen las fuentes de variabili­dad y se especifiquen los grados de libertad para cada una.8.5 EXPERIMENTO FACTORIALEn, los diseiios experimentales que se han considerado hilsta ahora, el interes harecaido en los efectos de una sola variable, los tratamientos. Sin embargo, con fre­cuencia se desea estudiar simultaneamente los efectos de dos 0 mas variables. Lasvariables de interes reciben el nombre defactores. El experimento en que se investi­gan dos 0 mas factores en forma simult.:mea se llama experimento factorial.Las diferentes categorias designadas de los factores se conocen como niveles.Por ejemplo, suponga que se analizan los efectos de tres dosis de cierto medica­mento sobre el tiempo de reaccion. Se dice que el factor medicamento ocurre entres niveles. Suponga que el segundo factor de interesen elanalisis es la edad, y sepiensa que deben induirse dos grupos de edad de menos de 65 y de 65 aiios y mas.Por 10 tanto, se tierien dos niveles para el factor edad. En general, se dice que elfactor A ocurre en los niveles a y el factor B en los niveles b.En un experimento factorial no solo es posible estudiar los efectos de factoresindividuales, sino tambien, si el experimento se efect6.a adecuadamente, lainteraccwnentre los factores. Para ilustrar el concepto de interaccion, considerese el siguienteejemplo.EJEMPLO 8.5.1Suponga, en terminos de los efectos sobre el tiempo de reacci6n, que se conoce laverdadera relacion entre los tres niveles de dosis de cierto medicamento y la edadde las personas que toman dichci medicamento. Suponga, ademas, que la edad ocu­rre en dos niveles: Jovenes" (menores de 65 afios) y "viejos" (de 65 aftos y mas). Sise conoce la verdadera relaci6n entre estos dos factores, se conocera, para los tresniveles de dosis, el efecto medio sobre el tiempo de reaccion de los individuos enlos dos grupos de edades. Suponga que el efecto se mide en terminos de la reduc­ci6n en el tiempo de reacci6n a algtin estimulo, y que las medias son las que se mues­tran en la tabla 8.5.1.
    • 342 CAPiTULO 8 ANAl-ISIS DE LA VARIANCIATABLA 3.5.1 Reduecion media en el .tiempo de reaccion(milisegundos) deindividuosen dos grup~de edades entres ilivelesde dosis de medieamento. Factor B: dosis del medicamentoFactor A: edad j=l j=2 j=3J6venes (i == I! flJl S fll2 ::::: 10 illS =20Viejos (i == 2) fl2l 10 1122 = IS fl23 2SSedeben notar las siguientes caracteristicas importantes de los datos de latabla: 8.S.1. . .1. Para ambos niveles del factor A, la diferencia entre las medias para dos nive­les cualesquiera del factor B es la misma. Es decir, para ambos niveles delfactor A, la diferencia entre lasmedias para los niveles 1 y 2esS, para losniveles 2 y 3 la diferencia es IO,Ypara los niveles 1 y 3 la diferencia es IS.2. Para todos los niveles del factor B, la diferencia entre las medias para los dosriiveles del factorA esla misma. En este caso, la diferencia es S en los tres nivelesdel factor B.3. Una tercera caracteristica aparece cuando los datos se grafican como se mues­tra en la figura 8.5.1. Se observa que todas las curvas que corresponden a losdistintos niveles de un factor son paralelas.Cuando los datos de la pobl<ilci6n poseen las tres caracteristicas mencionadas,se dice que no existe interacci6n. .La presencia de interacci6n entre dos factores puede afectar las caracteristicas delos datos en varias formas, dependiendo de la naturaleza de fa interacci6n. EI efectode un tipo de interacci6n se ilustra cambiando los datos de la tabla 8.5.1 como se mues­tra en la tapla 8.S.2.c00~ 30",.,,!!! 250a.E 20""" 151iicQ) 10c-013(.) 5"::l0(l) 0:: c<l13Edadl;l!!! 3082Q)" 258,0a.E 20~.1ii 15cQ)c-0100"5::l"Q)0::0Dosis del medicamentoDosis del medicamenlo~b3"~b2~bl8, 82EdadFIGlR4. 8.5.1 Efectos de la edad y de los medicamentos, sin interacci6n.
    • 3438.5 EXPERIMENTO FACTORIALTABIAB.5.2 Datos de la tabla B.5.1 alteradospara mostrar los efectos de un tipo de interaccionFactor B: dosis del medicamentoFactor B: edad j=l j=2 j=3J6venes (i = 1) 1111 =5 1112 =10 1113 20Viejos (i = 2) 1121 =15 1122 =10 1123=5Las caracteristicas importantes de los datos en la tabla 8.5.2 son las siguientes:1. La diferencia entre las medias para dos niveles cualesquiera del factor B no esla misma para ambos niveles del factor A. Se observa en la tabla 8.5.2, porejemplo, que la diferencia entre los niveles 1 y 2 del factor B es -5 para elgrupo de edades masj6venes y +5 para el grupo de edades mas grandes.2. La diferencia entre las medias para ambos niveles delfactorA no es la mismaen todos los niveles del factor B. Las diferencias entre las medias del factor Ason -10,0 Y15 paralos niveles 1, 2 Y3, respectivamente, del factor B.3. Las curvas de los.niveles de los factoresno son paralelas, como se muestra enla figura 8.5.2.Cuando los datos deJa poblacl6n presentan las caracte~isticas que aparecen enla tabla 8.5.2 y la figura 8.5.2, se dice que hay interacci6n entre los dos factores. Esimportante indiear que el tipo de interacci6n que se muestra en este ejemplo es s6louno de los muchos tipos de interacci6n que pueden ocurrir entre dos factores. •En resumen, entonces, es posible decir que existe interaccion entre dos factores si uncambia en uno de los factores produce un cambia en la respuesta en un nivel del otro factordiferente del que se produce en otros niveles de este factor.c:-00~l!: .30" 25o·"c.E 20!(jjc:c:"-084l::>0::t::-0Oosis del medicamentoEdad ~ 250~ ~~~ 20~" 15~bai 10 b 2c::. 82 :Qo 5.;- b 3><"0"::>0 14lb 2 b 3 0::8, 82Dosis del medicamento EdadnGURA8.5.2 Efectos de la edad y el medicamento, con interacci6n.
    • 344 CAPiTULO 8 ANALISIS DE LA VARIANCIAVentajas Las ventajas del experimento factorial incluyen las siguientes:1. La interacdon de los factores se puede estudiar.2. Se ahorra tiempo y esfuerzo.En el experimento factorial todas las observaciones se pueden utilizar paraestudiar los efectos de cada uno de los factores sujetos a estudio. La alternativa,cuando se investigan dos factores, serfa efectuar dos experimentos diferentes, unopara estudiar cada uno de los dos factores. Si se hidera esto, algunas de las observa­dones proporcionarfan informacion solo de uno de los factores, y el resto darfainformacion unicamente del otro factor. Para lograr el nivel de exactitud del expe­rimento factorial, se necesitarfan mas unidades de experimentadon si los factoresfueran estudiados a traves de dos experimentos.Por 10 tanto, se aprecia que unexperimento de dos factores es mas accesible en terminos econ6micos que dos ex­perimentos de un factor.3. Dado que los diversos factores se combinan en un experimento, el resultadotiene un campo de aplicadon mas amplio.Diseiio compietamente aleatamado para das factares Un arreglofactorial se puede estudiar con cualquiera de los disefios que se han explicado. Acontinuacion, se ilustra el analisis de un experimento factorial por medio de undisefio completamente aleatorizado para dos factores.1. Datos. Los resultados de un disefio completamente aleatorizado para dosfactores puede presentarse en forma tabular, como se muestra en la tabla 8.5.3.En esta tabla se tienen a niveles para el factor A, b niveles para el factor By n observaciones para cada combinacion de niveles. Cada una de las ab com­binaciones de los niveles del factor A con los niveles del factor B se considerancomo un tratamiento. Ademas de los totales y medias que se muestran en latabla 8.5.3, es posible apreciarque el total y lamedia de la ij-esima celda son,nT;j = ~>ijk Yxi) = T,j./ n1=1respectivamente. EI subfndice i va de 1 a a yj va de 1 a b. EI total de observa­ciones es nab.Para mostrar que la tabla 8.5.3 representa datos de un disefio completa­mente aleatorizado, se considera que cada combinacion de niveles de factoreses un tratamiento y que se cuenta con n observaciones para cada tratamiento.Un arreglo alternativo de los datos se obtendria al numerar las observacionesde cada tratamiento en una columna aparte. La tabla 8.5.3 tambien se puedeutilizar para presentar datos de un disefio de bloques aleatorizado para dosfactores, .si se considera la primera observadon en cada celda como parte delbloque 1, la segunda observation en cada celda como parte del bloque 2, y asisucesivamente, hasta la n-esima observacion en cada celda, la cual se puedeconsiderar como parte del bloque n.
    • 3458.5 EXPERIMENTO FACTORIALTABUS.5.3 Tabla de datos de la muestra apartir de un experimento completamentealeatorizado de doble factorFactor BFactor A 1 2 b Totales Mediasx x XIII 121 I"TI ., Xl"X X X,..110x X X2 221" "T2" x2 "x x X", !""a x x x.11 021 "I1... X.,.X X x,I, ,,,,""Totales T T,2•T." ". T".x.,. x.,. . x.,. x ..Es importante notar la similitud entre los datos para el experimentofactorial, anotados en la tabla 8.5.3, y los datos del diseiio por bloques com­pletos y aleatorizados de la tabla 8.3.1. Para que el experimentador puedaprobar que existe interaccion, el experimento factorial requiere de al menosdos observaciones por celda, mientras que el diseiio por bloques completos yaleatonzados solo requiere de una observaci6n por celda. Se utiliza el anaIisisde variancia bilateral para analizar los datos de un experimento factorial deltipo que se presenta aquf.2. Supuestos. Para analizar estos datos, se supone un modelo de efectos ftios yun diseiio completamente aleatorizado para dos factores:El modelo EI modelo de efectos ftios para el diseiio completamentealeatorizado de dos factores se escribe asf= J.l + a.i +~j + (a.~)ij + eijkXiik1,2, ..., a; j 1,2, ..., b; k 1,2, ..., n (8.5.1)donde xij es una observaci6n representativa, Jl es una constante, a. representael efecto debido al factor A, ~ representa un efecto debido al factor B, (a.~)representa un efecto debido ala interaccion de los factoresA y B, yeij!< repre­senta el error experimental.
    • 346 CAPITULO S ANALISIS DE LA VARIANCIASupuestos para elmodeloa. Las observaciones en cada una de las ab celdas constituyen una muestraaleatoria independiente de tamafio n, extrafda de una poblacion definidapor la combinacion particular de los niveles de los dos factores.b. Cada una de las ah poblaciones sigue una distribucion normal.c. Todas las poblaciones tienen la misma variancia.3. Hipotesis. Las siguientes hipotesis pueden probarse:a. Ho: ai 0 I, 2, ..., aHA: no todas las ai= 0b.Ho:~j=O j 1,2, ...,bHA : no todas las ~j = 0c. Ho: (a~)ij 0 i = 1,2, ...,a; j = 1,2, ..., bHA: no todas las (a~)ij 0Antes de recolectar los datos, los investigadores probablemente decidan probarsolo una de las hipotesis posibles. En este caso seleccionan la hipotesis que prefie­ren, eligen unnivel de significacion a, y proceden en la forma sencilla ya conocida.Este procedimiento no ofrece las complicaciones que podrfan aparecer si los inves­tigadores quisieran probar todas las hipotesis.Cuando se prueban las tres hipotesis, la situacion se complica por el hecho deque las tres pruebas no son independientes en el sentido de la probabilidad. Si a es elnive! de significacion asociado ala prueba como un todo, y a, ay a fit son los nivelesde significacion asociados con las hipotesis I, 2, Y3, respectivamente, se tienea < 1 (l -a)(1 a)(l- a") (8.5.2)Si a a" =a" .05, entonces a < 1 - (.95)3, 0 a < .143. Esto significa que laprobabilidad de rechazar una 0 mas de las tres hipotesis es un poco menor que .143cuando se elige un nivel de significacion de .05 para las hipotesis y todas son verda­deras. Para demostrar el procedimiento de prueba de hipotesis para cada caso, seefectuan tres pruebas. Sin embargo, ellector debe enterarse de los problemas queimplica la interpretacion de los resultados. .4. Estadistica de prueba. La estadlstica de prueba para cada conjunto de hi­potesis es la R.v.5. Distribucion de Ia estadistica de prueba. Cuando Ho es verdadera y se cum­pleDlas suposiciones, cada una de las estadisticas de prueba sigue una distri­bucionF.6. RegIa de decision. Se rechaza Hosi el valor calculado de la estadfstica deprueba es mayor 0 igualque el valor cdtieo de F.7. CaIcuIo de la estadistica de prueba. Mediante una adaptaci6n del procedi­miento que se utiliza paradividir la suma total de cuadrados en el disefio
    • 3478.5 EXPERIMENTO FACTORIALcompletamente aleatorizado, se puede demostrar que la suma total de cua­drados bajo el presente modelo puede dividirse en dos terminos como sigue:a b nLLL(Xij. ­i=1 )=1 k=1 i=1 j=1 k=1a b n(8.5.3)+" "" (X.., - X )2£..J £..J £.J 9". lj.i=1 )=1 <=1o bien(8.5.4) La suma de cuadrados para los tratamientos puede seccionarse en tres terminoscomo slgue:;=1 j=1 k=1 i=1 )=1 k=1a b n+ LLL(X.). _X...)2 (8.5.5);=1 )=1 k=1a b n+"" "(X - X X. +X...)2£..J £.J.Lt l). to. .).o bienSClfa, =SCA+SCB+ SCABTablaANOVAEn general, los resultados de los calculos para el modelo de efectos ftios en unexperimento completamente aleatorizado de dos factores se pueden presentar comose muestra en la tabla 8.5.4.TABlA 8.5.4 Tabla del amilisis de la variancia para unexperimento completamente aleatorizado de doble factor (modelode efectos fijos)Fuente SC g.l. CM R.V.A SCA a-I CMA = SC)(a ­ 1) CMA/CM""idualB SCB b-l CMB SClJ/(b ­ 1) CMB /CM",sidualAB SCAB (a - l)(b ­ 1) CMAB =SCAB/(a ­ 1)(b ­ 1) CMAB /CMresidualTratamientos SCtra ab-lResidual SCresidual ab(n 1) CMresidual SC",sidual/ab(n 1)Total SC,otal abn·-:-l
    • 348 CAPITULO 8 ANillsIS DE LA VARIANCIA8. Decision estadistica. .Si se cumplen las suposiciones establecidas al princi­pio, y si cada hip6tesis es verdadera, puede demostrarse que cada una de lasrelaciones de variancia anotadas en la tabla 8.5.4 sigue una distribuci6n F conlos grados de libertad indicados. Se rechaza Ho si los valores calculados paraR.v. son mayores 0 iguales que los valores criticos correspondientes como 10determinan los grados de libertad y los niveles de significaci6n seleccionados.9. Conclusion. Si se rechaza H se conduye que HA es verdadera. Si no seorechaza Ho se conduye que Ho puede ser verdadera.10. Valor de p.EJEMPLO 8.5.2En un analisis.del.tiempo invertido en visitas domiciliarias individuales realizadas porenfermeras de salud publica, se obtuvieron datos de la duraci6n de la visita, en minu­tos, para una muestra de 80 enfermeras. Tambien se registr6la edad de cada una de lasenfermerasy el tipo de enfermedad de cada paciente visitado. Los investigadores que­nan obtener; a partir de su investigaci6n, respuestas a las siguientes preguntas:1. ml tiempo medio de visita difiere entre los distintos grupos de edad de lasenfermeras?2. ml tipo de paciente influye en el tiempo medio de visita?3. mxiste interacci6n entre las edades de las enfermeras y el tipo de paciente?Solucion: 1. Datos. Los datos acerca de la duraci6n de la visita domiciliaria quese obtuvieron durante el analisis se muestran en la tabla 8.5.5.2. Supuestos. Para analizar estos datos, se supone un modelo de efec­tos fgos y un diseiio completamente aleatorizado para dos factores.3. Hipotesis. Para este ejemplo, es posible probar las siguientes hip6­tesis que se apegan a las condiciones mencionadas anteriormente.a. Ho: (X.l = (X.2 = (X.3 (X.4 = 0HA : no todas las (X.j = 0HA : no todas las ~j =0c. Ho: todas las «(X.~)ij = 0HA: no todas las «(X.~)ij = 0Sea (X. = .05.4. Estadistica de prueba. La estadistica de prueba para cada conjun­to de hip6tesis es la R.v.5. Distribuci6n de la estadistica de prueba. CuandoHo es verdaderay se cumplen las suposiciones, cada una de las estadisticas de pruebasigue una distribuci6n F.
    • 3498.5 EXPERIMENTO FACTORIALTABU 8.5.5 Duracion de las mitas domiciliariasrealizadas por enfermeras de salud publica por grnpos deedad de las enfermeras y tipos de pacientesNiveles del factor B (grupo de edad de las enfermeras)Niveles delfactor A (tipos 1 2 3 4de pacientes) (20 a 29) (30 a 39) (40 a 49) (500 mas)1 (Cardiacos) 20 25 24 2825 30 28 3122 29 24 2627 28 25 2921 30 30 322 (Cancerosos) 30 30 39 4045 29 42 4530 31 36 5035 30 42 4536 30 40 603 (A.V.C.) 31 32 41 4230 35 45 5040 30 40 4035 40 40 5530 30 35 454 (Tuberculosos) 20 23 24 2921 25 25 3020 28 30 2820 30 26 2719 31 23 306. RegIa de decision. Se rechazaH si el valor calculado de la esta­odfstica de prueba es mayor 0 igual que elvalor critico de F. Losvalores crfticos de F para probar las tres hip6tesis de este ejemploson 2.76, 2.76 Y 2.04, respectivamente. Puesto que los grados delibertad igual a 64 en el denominador no se muestran en la tabla G,60 se utilizanicomo los grados de libertad en el denominador.7. CaIculo de la estadfstica de prueba. Para tal efecto, se utilizara elprograma MINITAB. Se incluyen las mediciones en la columna 1,los numeros de rengl6n (factorA) en la columna 2, y en la columna3 los numeros de columna (factor B). El contenido de las columnasresuItantes se muestra en la tabla 8.5.6. Las cajas de dialogo delprograma MINITAB, los comandos de la sesi6n y los resultados semuestran en la figura 8.5.3.
    • 350 CAPITID,08 ANALISIS DE LA VARIANCIATABLA 8.5.6 Contenido de las columnas para los c8lculoscon el paquete MINITAB, ejemplo 8.5.2R~ng16n1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 .29 30 31 32 33 34 35 36 37 38 39 40 CI C2 C320 25 22 27 21 25 30 29 28 30 24 28 24 25 30 28 31 26 29 32 30 45 30 35 36 30 29 31 30 30 39 42 36 42 40 40 45 50 ·45 60 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 Reng16n CI C2 C341 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 31 3 1 30 3 1 40 3 1 35 3 1 30 3 1 32 3 2 35 3 2 30 3 2 40 3 2 30 3 2 41 3 3 45 3 3 40 3 3 40 3 3 35 3 3 42 3 4 50 3 4 40 3 4 55 3 4 45 3 4 20 4 1 21 4 1 20 4 1 20 4 1 19 4 1 23 4 2 25 4 2 28 4 2 30 4 2 31 4 2 24 4 3 25 4 3 30 4 3 26 4 3 23 4 3 29 4 4 30 4 4 28 4 4 27 4 4 30 4 4
    • ----...- -.....-~--..... - - - -...- - - . - - -.....- - - - . - - - - - .. - _...__...._ - - - _..... - - - - - - - - - - - - - ­8.5 EXPERlMENTOFACTORIAL 351Caja de dialogo: Comandos de la sesion:Stat :> ANOVA :> Twoway MTB > TWOWAY Cl C2 C3iSUBC> MEANS C2 C3.Teclear Cl en Response. Tedear C2 en Row factor yverificar Display means. Teclear C3 en Column factor yverificar Display means. Clic OK.Resultados:Analisis de la variancia bilateralAnalysis of Variance for C1Source DF SS MSC2 3 2992.4 997.5C3 3 1201.1 400.4Interaction 9 608;5 67.6Error 64 939.6 14.7Total 79 5741. 5Individual 95% CIC2 Mean -+----------+--­ -----+------ ---+---------+1 26.70 (----*---)2 38.25 (---*_.- )3 38.30 (---*- )4 25.45 (----* ---)-+- -------+---­ --+-­ -+---------+24.00 28.00 32.00 36.00 40.00Individual 95% CIC3 Mean -----+---------+---------+-- ----+-----­1 27.85 *--)2 29.80 ( -*--)3 32.95 (---*--)4 38.10 (---*-- )-----+---------+---------+----------+-----­28.00 31. 50 35.00 38.50FIGURA8.5.3 Procedimiento MINITAB YtablaANOVA para el ejemplo 8.5.2.8. Decision estadfstica. Las razones de las variancias son R.V:(A) =997.5/14.7 67.86, R.V:(B) = 400.4/14.7 27.24y R.V:(AB) = 67.6114.7 = 4.60. Puesto que los tres valores calculados para R.V: sonmayores que los correspondientes valores crlticos, se rechaza la hi­p6tesis nula.
    • 352 CAPITUW 8 ANALISIS DE LA VARIANCIA9. Conclusion. Cuando se rechaza Ho: 0.1= 0.2= 0.3 = 0.4 , se concluyeque existen diferencias entre los niveles de A, es decir, en el tiempopromedio empleado en las visitas domiciliarias con diferentes tiposde pacientes. De forma amiloga, ruando se rechaza Ho: ~I = ~2 = ~3= ~4 se concluye que existen diferencias entre los niveles de B, 0diferencias en el tiempo promedio empleado en las visitas domici­liarias entre las diferentes enfermeras cuando se agrupan por eda­des. Cuando se rechaza Ho: {o.~)ij =0, se concluye que los factoresA yB interacruan; es decir, combinaciones diferentes de los niveles de losdos factores producen diferentes efectos.10. Valor de p. Puesto que 67.86, 27.24 y 4.60 son mayoresque losvalores criticos de P995 para los grados de libertad adecuados, el va­lor de ppara cada una de las pruebas es menor que .005. Cuando serechazan las hipotesis de no interaccion, el interes en los niveles de.los factores A y B en general se subordinan al interes en los efectosde la interaccion. Es decir, se tiene mayor interes en aprender quecombinaciones de niveles presentan diferencias significativas.La figura 8.5.4 muestra el resultado del analisis para el ejemplo 8.5.2,producido por el paquete SAS®. •Sistema SASProcedimiento de analisis de la varianciaDependent Variable: TIMESource DF Sum of Squares Mean Square F Value Pr > FModel 15 4801.95000000 320.13000000 21.81 0.0001Error 64 939.60000000 14.68125000Corrected Total 79 5741.55000000R-Square C.V. Root MSE TIME Mean0.836351 11.90866 3.83161193 32.17500000Source DF Anova SS . Mean Square F Value Pr > FFACTORB 3 1201.05000000 400.35000000 27.27 0.0001FACTORA 3 2992.45000000 997.48333333 67.94 0.0001FACTORB*FACTORA 9 608.450000000 67. 4.60 0.0001FIGURA 8.5.4 Resultados del paquete SAS® para el ejemplo 8.5.2.
    • FJERCICIOS EJERCICIOS 353Hasta este punto, solamente se han tratado casos donde la cantidad de obser­vaciones en cada una de las celdas es la misma. Cuando la cantidad de observacio­nes por celda no es el mismo para cada celda, el analisis se vuelve mas complicado.En estos casos, se dice que el disefio esta desbalanceado. Para el amilisis deestos disefios con el paquete MINITAB se utiliza el procedimiento lineal general(GLM). Otros paquetes de software como SAS® tambien acomodan tamafios des­iguales.Para los ejercicios del 8.5.1 al 8.5.4 aplique el analisis de la variancia, pruebe las hip6tesisadecuadas con un nivel de significaci6n de .05, y determine el valor de p asociado con cadaprueba.8.5.1 Orth et al. (A-21) estudiaron los efectos de los niveles excesivos de la cistefna y la homocistefnaen la discondroplasia tibial (DT) en polluelos. En un experimento, los investigadores exami­naron la interacci6n entre la DL-homocistefna y el complemento de cobre en la dieta de lospolluelos. Entre las variables para las que recolectaron datos estaban el peso corporal des­pues de tres semanas (ITl), la gravedad de la discondroplasia tibial (GDT) y la incidencia dela discondroplasia tibial (IDT). Se presentaron dos niveles de homocisteina (HOMO): 1no se agreg6 homocisteina, y 2 =: se agreg6 .48 por ciento de homocisteina. Los niveles decobre (Gu) fueron: 1 no se agrego cobre, 2 250 ppm de cobre agregado. Los resultadosfueron los siguientes (los investigadores utilizaron el paquete SAS® para analizar los datos).HOMO CU PTI GDT IDT iHOMO CU PTI GDT IDT11111111111111111111111111111111115034655134535744335265054874834595056484724695065071111112I11111111100000010000000000222222222222222221 426 4 11 392 4 11 520 3 11 367 4 11 545 4 11 523 4 11 304 4 11 437 4 11 357 4 11 420 3 11 448 4 11 346 4 11 382 4 11 331 4 11 532 2 11 536 4 11 508 l 0(ContinUa)
    • 354 CAPITULO 8 ANillsIS DE LA VARIANCIAHOMO CU PTI GDT IDT 111111111111111111111111111111111111122222222222222222222222252355451861455258053154459248557851448265346257746252448457158642654650346857055445550746055014111441114134114311114121111110100011000101100110000101000000HOMO CU PTI GDT IDT 22222222222222222222222222222221 492 4 11 426 1 01 437 4 11 496 4 11 594 3 11 466 4 11 463 4 I2 551 1 02 443 4 I2 517 4 12 442 4 12 516 2 12 433 3 12 383 4 12 506 1 02 336 1 02 491 1 02 531 4 12 572 1 02 512 4 12 465 2 12 497 3 12 617 3 12 456 2 12 487 4 12 448 4 12 440 4 12 484 3 12 431 4 12 493 2 12 553 4FUENTE: Utilizada con autorizaci6n de Michael Orth.8.5.2 Un gropo de investigadores en un centro de traurnatologfa pretendia desarrollar un progra­rna para ayudar a victirnas de dana cerebral por traurnatisrno a recuperar un nivel aceptablede independencia. Se llev6 a cabo un experirnento en el que intervinieron 72 individuos conel rnisrno grade de dana cerebral. El objetivo fue cornparar las cornbinaciones diferentes detratarnientos psiquiatricos y terapia fisica. A cada individuo se Ie asigno una de las 24 corn­binaciones de cuatro tipos de tratamiento psiquiatrico y seis programas de terapia fisica. Hablatres individuos en cada cornbinaci6n. La variable respuesta es el nurnero de rneses transcu­
    • EJERCICIOS 355rridos entre el inicio de la terapia y el tiempo en el que el paciente fue capaz de valerse porsf mismo. Los resultados son los siguientes:Programade Tratamiento psiquiatricoterapia fisica A B C DI11.09.610.89.49.69.612.511.510.513.213.213.5II10.5ll.512.010.810.510.510.511.811.515.014.614.0III12.011.511.811.511.512.311.811.812.312.813.713.1IV11.511.810.59.49.110.813.713.512.514.015.014.0v11.011.210.011.211.810.214.414.213.513.014.213.7VI11.210.8ll.810.811.510.211.510.2ll.5ll.812.812.0~Es posible conduir con base en estos datos que los diferentes programas de tratamientopsiquiatrico tienen diferentes efectos? tEs posible conduir que los programas de terapiaffsica difieren en cuanto a eficacia? cEs posible conduir que existe interaccion entre los pro­gramas de tratamiento psiquiatrico y los de terapia ffsica? Sea a = .05 para cada prueba.Los ejercicios 8.5.3 y 8.5.4 son opcionales, pues tienen tamafios de celdas desiguales. Serecomienda que los datos para dichos ejercicios sean analizados mediante el programa SAS®o cualquier otro paquete de software que acepte tamafios de celdas desiguales.8.5.3 Gorenflo y Gorenflo (A-22) investigaron los efectos de la informaci6n impresa basada enlos hechos, y de tres tecnicas para aumentar la comunicaci6n, en las actitudes de individuossin discapacidad hacia personas mudas con discapacidades ffsicas. Los individuos estudia­dos eran estudiantes inscritos en el curso de introducci6n a la psicologfa en una prestigiadauniversidad del suroeste de los Estados Unidos. Las variables de interes eran las califica­ciones de la Escala de actitudes hacia personas mudas (AHPM). Las calificaciones mas allasindicaron actitudes mas favorables. Las variables independientes (factores) eran la informa­cion (INFO) y las tecnicas de aumento de la comunicaci6n (TAG). Los niveles de informacionfueron los siguientes: 1 = presencia de una hoja con informacion respecto a las personasmudas,2 =ausencia de la hoja. Las calificaciones (niveles) de TAG fueron: 1 sin TAG, 2 =una pizarra, 3 voz producida pOI computadora para apoyar la comunicaci6n (VPCAC).Los individuos vieron un video en el que se describe una conversaci6n entre personas
    • 356 CAPITULO 8 ANALISIS DE LA VARIANCIAadultas sin capacidad de habla e individuos con habla normal bajo una de las tres condicio­nes de TAC. Recolectaron los siguientes datos y los analizaron con el paquete SPSS/PC +.INFO TAC AHPM INFO TAC AHPM INFO TAC AHPM~ ...1 1 82.00 1 3 109.00 2 1 33.001 1 92.00 1 3 96.00 2 1 34.001 1 100.00 1 3 127.00 2 1 29.001 1 110.00 1 3 124.00 2 2 118.001 1 99.00 1 3 93.00 2 2 110.001 1 96.00 1 3 112.00 2 2 74.001 1 92.00 1 3 95.00 2 2 106.001 1 95.00 1 3 107.00 2 2 107.001 1 126.00 1 3 102.00 2 2 83.001 1 93.00 1 3 102.00 2 2 82.001 1 103.00 1 3 112.00 2 2 92.001 1 101.00 1 3 lOS.00 2 2 89.001 1 120.00 1 3 109.00 2 2 108.001 1 94.00 1 3 111.00 2 2 106.001 1 94.00 1 3 116.00 2 2 9S.001 1 93.00 1 3 112.00 2 2 97.001 1 101.00 1 3 112.00 2 2 98.001 1 6S.00 1 3 84.00 2 2 108.001 1 29.00 1 3 107.00 2 2 120.001 2 112.00 1 3 123.00 2 2 94.001 2 100.00 1 3 97.00 2 2 99.001 2 88.00 1 3 108.00 2 2 99.001 2 99.00 1 3 10S.00 2 2 104.001 2 97.00 1 3 129.00 2 2 110.001 2 107.00 I 3 140.00 2 2 33.00I 2 110.00 1 3 141.00 2 3 99.001 2 91.00 1 3 14S.00 2 3 112.00I 2 123.00 2 1 107.00 2 3 98.001 2 97.00 2 1 82.00 2 3 84.001 2 11S.00 2 1 78.00 2 3 100.001 2 107.00 2 1 98.00 2 3 101.001 2 107.00 2 1 88.00 2 3 94.001 2 101.00 2 1 9S.00 2 3 101.001 2 122.00 2 1 9S.00 2 3 97.001 2 114.00 2 1 93.00 2 3 95.001 2 101.00 2 1 108.00 2 3 98.001 2 12S.00 2 1 102.00 2 3 116.001 2 104.00 2 1 83.00 2 3 99.00
    • EJERCICIOS 357INFO TAC AHPM INFO TAC AHPM INFO TAC AHPM1 2 102.00 2 111.00 2 3 97.002 113.00 2 97.00 2 3 84.002 88.00 2 1 90.00 2 3 91.002 116.00 2 1 90.00 2 3 106.002 114.00 2 1 85.00 2 3 100.002 108.00 2 95.00 2 3 104.002 95.00 2 97.00 2 3 79.002 84.00 2 78.00 2 3 84.002 83.00 2 98.00 2 3 110.002 134.00 2 91.00 2 3 141.002 96.00 2 1 99.00 2 3 141.002 37.00 2 102.002 36.00 2 102.00FUENTE: Utilizada con autorizaci6n de Carole Wood Gorenflo, Ph. D.8.5.4 Las influencias combinadas e individuales generadas por la castraci6n yadrenalectomfa (ADX)sobre el balance de energfa en ratas utilizadas en una investigacion realizada por Ouerghi etal. (A-23) produjo los siguientes datos respecto a dos variables dependientes, energfa bruta(EB) consumida y ganancia energetica, producto de la adrenalectomfa y castraci6n.Rata # ADX Castraci6n Consumo de EB Ganancia energetica23456789101112131415161718No No No No No No No No No No No No Sf Sf Sf Sf Sf Sf NoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNo382440693782388736703740435640264367400642514585355738313528327030783314740.31113.8331.42323.6259.02294.74336.14342.3261.47166.45385.98749.09 253 -106192-21-4739(ContinUa)
    • 358 CAPITULO 8 ANillsIS DE LA VARIANCIARata # ADX Castraci6n Consumo de EB Ganancia energetica19 Sf No 3525 9520 Sf No 2953 -11621 Sf No 3351 -2722 Sf No 4197 49623 Sf No 4978 12324 Sf No 3269 7825 No Sf 4571 101226 No Sf 3994 74227 No Sf 4138 48128 No Sf 5175 117929 No Sf 5049 139930 No Sf 5042 101731 No Sf 5058 96632 No Sf 4267 66233 No Sf 5205 83034 No Sf 4541 63835 No Sf 5453 173236 No Sf 4753 93637 Sf Sf 3924 18938 Sf Sf 3497 21539 Sf Sf 3417 30440 Sf Sf 3785 3741 Sf Sf 4157 36042 Sf Sf 4073 7343 Sf Sf 4510 48344 Sf Sf 3828 11245 Sf Sf 3530 15446 Sf Sf 3996 77-~--...FUENTE: Utilizada con autorizaci6n de Denis Richard, Department ofPhysioiogy, Laval University.8.5.5 Niaura et al. (A-24) examinaron las reacciones de 56 fumadores ante indicaciones respecto afumar y a la interacci6n interpersonal. De los individuos que participaron en los sociodramas,algunos 10 hicieron en compaiifa de un aliado, y otros desempeiiaron su papel sin aliado.Para cada una de las situaciones representadas, los individuos fueron expuestos a uno de lossiguientes tipos de seiiales: indicaciones respecto a fumar, indicaciones visuales 0 indicacio­nes visuales y olfatorias. Las mediciones respecto a las reacciones incluian cambios en losvalores de la presi6n sangufnea en reposo, ritmo cardiaco, manifestaci6n verbal de la urgen­cia de fumar y, despues de estar expuestos a los procedimientos de experimentaci6n, medi­ciones del comportamiento ante indicaciones de libertad para fumar. ~Cmlles son los factoresde este estudio? ~A que nivel ocurre cada uno de los factores? ~Quienes son los individuosestudiados? ~Cu;iles son las variables respuesta? Comente respecto ala cantidad de indivi­duos por casilla en este experimento. ~Que variables extraiias pueden causar efectos quepuedan incluirse en el termino de error?8.5.6 Max et al. (A-25) distribuyeron al azar a 62 pacientes con dolor, despues de ser sometidos acirugfa mayor, para aplicarles desipramina 0 placebo a las 6 a.m. en el primer dia despues de
    • PREGUNTAS Y EJERGIGIOS DE REPASO 359la cirugia. En la primera solicitud de medicamentos para el dolor despues de las 8 a.m., losinvestigadores aplicaron morfina intravenosa en dosis de 0.033 mg/kg 0 de 0.10 mg/kg.Determinaron para cada individuo el alivio del dolor (medido sobre una escala visual analo­ga), la calificaci6n de efectos colaterales y el tiempo en que fue necesario volver a adminis­trar el medicamento. ~Cuales son los factores en este estudio? tEn cuantos niveles ocurrecada factor? Comente respecto a la cantidad de individuos por casilla. ~Cuiles son las varia­bles respuesta?8.6 RESUMENEI objetivo de este capitulo es presentar al estudiante las ideas y tecrucas basicas delanalisis de variancias. Se incluye un analisis detallado de dos tipos de disefio expe­rimental, el completamente aleatorizado y el de bloques completos y aleatorizados.Tambien se presenta el concepto disefios de mediciones repetidas y un experimen­to factorial y c6mo se utiliza con el disefio completamente aleatorizado. Quienesdeseen profundizar sobre cualquier aspecto del analisis de variancia encontrarauna bibliograffa muy util sobre metodologia al final del capitulo.PREGUNTA." YFJERCICIOS DE REPASO1. Defina el concepto de analisis de variancia.2. Describa el disefio completamente aleatorizado.3. Describa el disefio por bloques completos y aleatorizados.4. Describa el disefio de medidas repetidas.5. Describa el experimento factorial y como se utiliza en el disefio completamente aleatorizado.6. iCual es prop6sito de la prueba HSD de Tukey?7. iQue es la unidad de experimentaci6n?8. iCuaI es objetivo del disefio por bloques completos y aleatorizados?9. iQue es la interaccion?10. iQue es el cuadrado medio?11. tQue es una tabla ANOVA?12. Para cada uno de los siguientes disefios describa una situaci6n que corresponda al campoparticular de interes del lector donde el disefio sea un disefio de experimentacion adecuado.Utilice datos reales 0 inventados y aplique el anaIisis de la variancia adecuado para cadauno:a) Disefio completamente aleatorizado. b) Disefio por bloques completos aleatorizados. c) Disefio completamente aleatorizado con un experimento factorial. d) Disefio de mediciones repetidas.
    • 360 CAPiTULO 8 ANALISIS DE LA VARUNCU13. Maes et at. (A-26) condujeron un estudio para determinar si la depresion puede estar aso­ciada con los indices serologicos del proceso autoinmunologicoo asociado a infecciones devirus activos. En el estudio participaron individuos distribuidos en cuatro categorias: gru­po de control con estado de saIud sano (1), pacientes con depresion menor (2), pacientescon depresion grave sin melancolfa (3) y pacientes con depresi6n grave con melancolla (4).Entre las mediciones que se obtuvieron para cada individuo estin los niveles circulantes dereceptor de interleuquina-2 soluble (sIL-2R). Los resultados por individuo y por categoriadel individuo son los siguientes. Se pretende saber si es posible conduir que, en promedio, lasconcentraciones de sIL-2R difieren entre las cuatro categorfas de pacientes representados eneste estudio. Seaa .01, Ycalcule el valor dep. Utilice el procedimiento de Tukey para probarla diferencia significativa entre pares individuales de medias muestrales.sIL·2R Categoria delIndividuo (VIm!) individuo1234567891011121314151617181920212223242592.00259.00157.00220.00240.00203.00190.00244.00182.00192.00157.00164.00196.0074.00634.00305.00324.00250.00306.00369.00428.00324.00655.00395.00270.001.001.001.001.001.001.001.001.001.001.001.001.001.001.002.002.002.002.002.002.002.002.002.002.002.00sIL·2R Categoria delIndividuo (VIm!) individuo26272829303132333435363738394041424344454647484950230.00 2.00253.00 3.00271.00 3.00254.00 3.00316.00 3.00303.00 3.00225.00 3.00363.00 3.00288.00 3.00349.00 3.00237.00 3.00361.00 3.00273.00 3.00262.00 3.00242.00 4.00283.00 4.00354.00 4.00517.00 4.00292.00 4.00439.00 4.00444.00 4.00348.00 4.00230.00 4.00255.00 4.00270.00 4.00FUENTE: Utilizada con autorizaci6n del Dr. M. Maes.
    • - - - - - - - - -PREGUNTAS Y EJERCICIOS DE REPASO 36114. Graveley y Littlefield (A-27) condujeron un estudio para determinar las reIaciones entre elcosto y la eficacia de tres modeIos de personal c1inico para atenci6n prenatal: medicos debase (1), personal mixto (medicos y enfermeras generales) (2), y especialistas en enfermeriaclinica con medicos disponibles para atender consultas (3). Los individuos eran mujeres quereunfan los siguientes criterios: a) mujeres con mayoria de edad y algunas menores emanci­padas; b) mujeres que obtuvieron atenci6n prenatal en una de las cllnicas con un minimo detres visitas prenatales; c) mujeres dadas de alta 48 horas despues de la entrevista. La satisfac­ci6n de las madres que recibieron atenci6n medica fue evaluada por medio de un instrumen­to para medir la satisfacci6n del paciente que distingue cinco categorias de satisfacci6n:accesibilidad, costeabilidad, disponibilidad, aceptabilidad y alojamiento. <!.Es posible Con­cluir con base en estos datos que, en promedio, la satisfacci6n de las pacientes difiere entrelas tres clinicas? Sea a = .05, Yca1cule eI valor dep. Aplique el procedimiento de Tukey paraprobar las diferencias entre los pares individuales de las medias muestrales. Los siguientesdatos corresponden a las calificaciones totales de satisfacci6n por cHnica.CHnica 1 CHnica2 Clfnica 3119 133 132 115 131 132126 135 121 92 109 135125 125 79 126 127 125111 135 127 107 124 130127 130 133 108 135 135123 122 127 125 131 135119 135 121 130 131 135119 116 127 121 126 133125 126 130 124 132 131106 129 III 112 128 131124 133 117 131 129 126131 126 101 118 128 132131 102 III 109 114 133117 131 121 116 120 135105 128 109 112 120 132129 128 131 110 135 131130 130 129 117 127 132131 116 126 118 124 126119 121 124 120 129 13598 121 126 113 125 135120 131 97 114 135 135125 135 104 107 122 134128 127 121 119 117 127126 125 114 124 126 131130 133 95 98 130 131127 128 128 114 131 131FUE!>.TE: Utilizada con autorizaci6n de Elaine Graveley,D. B. A., R. N.
    • 362 CAPiTULO 8 At~ALISIS DE LA VARIANCIA15. En un experimento con ocho animales se midi6 la frecuencia respiratoria (respiraciones porminuto) bajo tres niveles de exposici6n al mon6xido de carbono. Los resultados son lossiguientes:Nivel de exposici6nAnimal Bajo Moderado Alto1 36 43 452 33 38 393 35 41 334 39 34 395 41 28 336 41 44 267 44 30 398 45 31 29Con base en estos datos, ~es posible concluir que los tres niveles de exposici6n, en prome­dio, tienen diferentes efectos en la frecuencia respiratoria? Sea a == .05. Determine el. valordep.16. Se disefi6 un experimento para estudiar los efectos de tres medicamentos diferentes y trestipos de situaciones estresantes que produdan ansiedad en individuos adolescentes. La si­guiente tabla muestra las diferencias entre las calificaciones antes y despues del tratamientode 18 individuos que participaronen el experimento.Situaci6n Medicamento (factor B)estresante(factor A) A B CI 4 1 15 3 0II 6 6 66 6 35 7 4III 4 4 5Aplique el analisis de la variancia para estos datos y pruebe las tres posibles hip6tesis. Seaa = (I." == am .05. Determine el valor de p.17. La siguiente tabla muestra las calificaciones de madurez emocional de 27 varones j6venesmayores de edad, clasificados por edad y grado de uso de marihuana.
    • 363PREGUNTAS Y EJERCICIOS DE REPASOConsumo de marihuana (factor B)Edad(factor A) Nunca Ocasionalmente Diario15-1925282218231917241920-2428323016242018222025-2925353014161510812Aplique el analisis de la variancia para estos datos. Sea rl =a" =aNI =.05. DeteITIline elvalor de p.18. Das et al. (A-28) investigaron los efectos producidos por fumar cigarros en la funci6n respira­toria en vadas mujeres durante el embarazo. Entre los datos que recolectaron estaban lassiguientes mediciones sobre la capacidad vital forzada (CVF), que se muestran por grado detabaquismo de las mujeres. ~Es posible conduir con base en estos datos que, en promedio,las mediciones de CVF difieren de acuerdo con el grado de tabaquismo? Sea a .01 Ycalcule el valor dep. Aplique el procedimiento de Tukey para probar las diferencias significa­tivas entre los pares individuales de las medias muestrales.FumanNofuman Fuman muy poco mucho3.45 4.05 3.15 4.03 3.95 4.29 3.04 3.024.00 4.66 3.86 3.69 3.78 4.38 4.34 3.124.00 3.45 3.85 3.83 3.63 3.50 4.052.74 3.49 4.94 3.99 3.74 2.68 4.333.95 4.75 3.10 3.12 4.84 3.10 3.394.03 3.55 3.65 3.43 3.20 3.60 4.243.80 4.14 4.44 3.58 3.65 4.93 4.373.99 3.82 3.24 2.93 4.78 4.21 3.644.13 4.20 3.68 4.77 4.36 4.87 4.624.54 3.86 3.94 4.03 4.37 4.02 4.644.60 4.34 4.10 4.48 3.20 3.31 2.743.73 4.45 4.22 4.26 3.29 4.25 4.343.94 4.05 3.63 3.45 3.40 4.37 4.103.90 3.60 3.42 3.99 4.40 2.97 3.75(ContinUa)
    • ----- -------------- ----364 CAPITULO 8 ANALISIS DE LA VARIANCIAFumanNofuman Fuman muy poco mucho3.20 4.21 4.31 3.78 3.36 3.89 4.063.74 3.72 4.24 2.90 2.72 3.80 3.673.87 4.73 2.92 3.94 4.21 2.87 3.073.44 3.45 4.05 3.84 3.53 3.89 4.594.44 4.78 3.94 3.33 3.48 4.07 3.603.70 4.54 4.10 4.18 3.623.10 3.86 2.70 3.514.81 4.04 3.74 3.733.41 4.46 3.65 3.403.38 3.90 3.72 3.633.39 3.66 4.69 3.683.50 4.08 2.84 4.073.62 3.84 3.34 3.954.27 2.82 3.47 4.253.55 4.14FUENTE: Utilizada can autorizaci6n dejean-Marie Moutquin, M. D.19. Durante un experimento se probaron los efectos de cuatro medicamentos diferentes en eltiempo de coagulaci6n sanguinea (en minutos). Se extrajeron muestras de sangre de 10individuos, y cada una fue dividida en cuatro partes iguales que, al azar, se asignaron a cadauno de los cuatro medicamentos. Los resultados son los siguientes:MedicamentoIndividuo W X Y ZA 1.5 1.8 1.7 1.9B 1.4 1.4 1.3 1.5C 1.8 1.6 1.5 1.9D 1.3 1.2 1.2 1.4E 2.0 2.1 2.2 2.3F 1.1 1.0 1.0 1.2G 1.5 1.6 1.5 1.7H 1.5 1.5 1.5 1.7I 1.2 1.0 1.3 1.5J 1.5 1.6 1.6 1.9Con base en estos datos, ~es posible concluir que los medicamentos tienen efectos diferen­tes? Sea a = .05. 20. En un estudio del sfndrome de Marfan, Pyeritz et at. (A-29) informaron las siguientes califi­caciones de la gravedad de los pacientes sin, con moderada y con marcada ectasia dural. Conlos siguientes datos, ~es posible concluir que la gravedad promedio difiere entre las trespoblaciones representadas en el estudio? Sea a .05, y calcule el valor de p. Aplique el
    • 365PREGUNTAS Y EJERCICIOS DE REPASOprocedimiento de Turkey para probar la diferencia significativa entre los pares individualesde las medias muestrales.Sin ectasia dural: 18, 18,20,21,23,23,24,26,26,27,28,29,29,29,30,30,30, 30, 32,34,34,38Con ectasia dural moderada: 10, 16,22,22,23,26,28,28,28,29, 29,30,31,32,32,33,33,38,39,40,47Con ectasia dural marcada: 17,24,26,27,29,30, 30, 3~, 34, 35, 35, 36, 39FUFNrE: Utilizado con el permiso de Reed E. Pyeritz, M. D., Ph. D.21. La siguiente tabla muestra las concentraciones de epinefuna plasmatica arterial (nanogramospor minuto) que fueron halladas en 10 animales de laboratorio durante tres tipos de anestesias:AnimalAnestesia 1 2 3 4 5 6 7 8 9 10A .28 .50 .68 .27 .31 .99 .26 .35 .38 .34B .20 .38 .50 .29 .38 .62 .42 .87 .37 ,43C 1.23 1.34 .55 1.06 .48 .68 1.12 1.52 .27 .35Con base en estos datos, ~es posible conduir que los tres tipos de anestesia, en promedio,tienen diferentes efectos? Sea 0: .05.22. Se midieron los niveles nutritivos de cierta &Uta comestible en un total de 72 muestras,representativas de seis muestras de cada una de las cuatro variedades cultivadas en cada unade tres regiones geognificas. Los resultados son los siguientes:
    • 366 CAPfTUL08 AN.ALISIS DE LA VARIANCIAVariedadRegiongeografica W X Y Z6.8 7.8 8.7 1l.85.2 6.5 10.5 13.55.0 7.0 10.0 14.0C 5.2 9.3 8.1 to.85.5 6.6 10.6 12.37.3 to.8 to.5 14.0Realice pruebas de la diferencia entre las variedades, la diferencia entre las regiones einteracciones. Sea a. =.05 para todas las pruebas.23. Se eligieron los siguientes registros de bebes recien nacidos de parto tinico para forrnarmuestras aleatorias a partir de cuatro poblaciones. Los siguientes datos corresponden alpeso (en gramos) de los bebes al momento de nacer:MuestraA B C D2946 3186 2300 22862913 2857 2903 29382280 3099 2572 29523685 2761 2584 23482310 3290 2675 26912582 2937 2571 28583002 3347 24142408 200828502762~Ofrecen estos datos suficiente evidencia para indicar, en un nivel de significaci6n de .05,que las cuatro poblaciones difieren con respecto al peso promedio al momento de nacer?Pruebe para una diferencia significativa entre todos los pares posibles de medias.24. La siguiente tabla muestra los niveles de agresi6n de 30 animales de laboratorio criados bajotres condiciones diferentes. Un animal de cada una de las 10 camadas fue asignado aleato­riamente a cada una de las tres condiciones de cdanza.
    • 367PREGUNTAS Y EJERCICIOS DE REPASOCondiciOn de crianzaExtremadamente Moderadamente SinCamada crecido crecido crecimiento1 30 20 102 30 10 203 30 20 104 25 15 105 35 25 206 30 20 107 20 20 108 30 30 109 25 25 1010 30 20 20~Ofrecen estos datos suficiente evidencia para indicar que el nivel de crecimiento tiene efec­tos diferentes en el nivel de agresion? Sea a .05.25. La siguiente tabla muestra las mediciones de la capacidad vital de 60 varones adultos clasifi­cados por ocupacion y grupo de edad.OcupacionGrupodeedad A B C D4.31 4.68 4.17 5.754.89 6.18 3.77 5.704.05 4.48 5.20 5.534.44 4.23 5.28 5.974.59 5.92 4.44 5.524.13 3.41 3.89 4.584.61 3.64 3.64 5.212 3.91 3.32 4.18 5.504.52 3.51 4.48 5.184.43 3.75 4.27 4.153.79 4.63 5.81 6.894.17 4.59 5.20 6.183 4.47 4.90 5.34 6.214.35 5.31 5.94 7.563.59 4.81 5.56 6.73
    • 368 CAPITULO 8 ANALISIS DE LA VARIANCIAProebe las diferencias entre ocupaciones, grupos de edad e interaccion. Sea (X = .05 paratodas las pruebas.26. Complete la siguiente tabla ANOVA y establezca que diseno se realizo.Fuente SC g.l. CM R.V. pTratamientos 154.9199 4ErrorTotal 200.4773 3927. Complete la siguiente tabla ANOVA y establezca que diseno se realizo.Fuente SC g.l. CM R.V. pTratamientos 3Bloques 183.5 3Error 26.0Total 709.0 1528. Considere la siguiente tabla ANOVA.Fuente SC g.l. CM R.V. PA 12.3152 2 6.15759 29.4021 <.005B 19.7844 3 6.59481 31.4898 <.005AB 8.94165 6 1.49027 7.11596 <.005Tratamientos 41.0413 11Error 10.0525 48 0.209427Total 51.0938 59-- ..-- - ----- -.~ ~a) (Que tipo se analisis se utilizo? b) (Que puede conduirse a partir del analisis? Sea (X = .05.
    • 369PREGUNTAS Y EJERCICIOS DE REPASO29. Considere la siguiente tabla ANOVAFuente SC g.l. CM R.v.Tratamientos 5.05835 2 2.52917 1.0438Error 65.42090 27 2.4230a) ~Que disefio se utiliz6? b) ~Cmintos tratamientos se compararon? c) ~Cmintas observaciones se analizaron? d) Con un nivel de significaci6n de .05, 2es posible concluir que existe una diferencia entre los tratamientos? ~Por que?30. Considere la siguiente tabla ANOVAFuente SC g.l. CM R.V.Tratamientos 231.5054 2 115.7527 2.824Bloques 98.5000 7 14.0714Error 573.7500 14 40.9821a) 2Que disefio se utiliz6?b) ~Cuantos tratamientos se compararon?c) 2Cuantas observaciones se analizaron?d) Con un nivel de significaci6n de .05, ~es posible concluir que los tratamientos tienenefectos distintos? ~Por que?31. Durante una investigaci6n se recolectaron datos con respecto a la relaci6n entre el tabaquis­mo ylas concentraciones sericas de colesterollipoproteico de alta densidad (C-LAD) regitradasen muestras de varones adultos que no fuman, que fuman poco, que son fumadores modera­dos y que son fumadores compulsivos. Se pretende saber si estos datos ofrecen suficienteevidencia que indique que las cuatro poblaciones difieren con respecto a las concentracionesmedias de C-LAD. Sea .05 la probabilidad de cometerel error tipo I. Si se encuentra unadiferencia significativa en el conjunto de todas las medias, determine que pares de mediasmuestrales individuales tienen diferencias significativas.
    • 370 CAPITULO 8 AN.ALISIS DE LA VARIANCIAEstado de habito de fumarNofuman Ligeramente Moderadamente Mucho12 9 5 310 8 4 211 5 7 113 9 9 59 9 5 49 10 7 612 8 6 232. El prop6sito de un estudio realizado por Nehlsen-Cannarella et at. (A-30) era examinar larelaci6n entre el entrenamiento de ejercicio moderado y los cambios en los niveles circulan­tes de variables del sistema inmunol6gico. Los individuos estudiados eran mujeres que nofuman, premenopausicas, que fueron repartidas en dos grupos (l = grupo deportista, 2 =grupo sedentario). Los datos recolectados corresponden a tres variables dependientes: nive­les sericos de inmunoglobina IgG, IgA e IgM. Se analizaron las mediciones tomadas en tresocasiones diferentes: al inicio (B), al final de 6 semanas (M) y al final de 15 semanas (F). Losinvestigadores obtuvieron los siguientes datos y los procesaron con el paquete SPSS/PC+.Grupo BIgG MIgG FIgG Grupo BIgG . MIgG FIgG797.00 956.00 855.00 2 1040.00 1040.00 931.001030.00 1050.00 1020.00 2 1160.00 1280.00 1300.0098l.00 1340.00 1300.00 2 1460.00 1440.00 1570.00775.00 1100.00 1060.00 2 1010.00 974.00 1080.00823.00 1220.00 1140.00 2 549.00 1030.00 1030.001080.00 1120.00 1100.00 2 1610.00 1510.00 1560.00613.00 958.00 960.00 2 1060.00 966.00 1020.001020.00 1320.00 1200.00 2 1400.00 1320.00 1260.00956.00 1020.00 1020.00 2 1330.00 1320.00 1240.001140.00 1580.00 1520.00 2 874.00 1000.00 970.00872.00 935.00 1000.00 2 828.00 1140.00 1240.001270.00 1290.00 1520.00 2 1210.00 1160.00 1080.00798.00 1050.00 1130.00 2 1220.00 1150.00 1160.001 643.00 801.00 847.00 2 981.00 979.00 943.001 7-72.00 1110.00 1150.00 2 1140.00 1220.00 1550.0011480.001250.001590.001720.001470.001690.00Grupo BIgA MIgA FlgA1 968.00 1150.00 1090.00 ·97.70 126.00 110.002 1470.00 1470.00 560.00 1 173.00 182.00 179.002 962.00 1260.00 1020.00 1 122.00 151.00 160.002 881.00 797.00 828.00 74.30 123.00 113.00(ContinUa)
    • 371PREGUNTAS Y EJERCICIOS DE REPASOGrupo BIgG MIgG FIgG Grupo BIgG MIgG FIgG118.00 162.00 164.00 145.00 139.00 146.00264.00 306.00 292,00 155.00 169.00 166.00113.00 173.00 188.00 1 78.10 124.00 119.00239.00 310.00 295.00 143.00 186.00 183.00231.00 258.00 245.00 1 273.00 273.00 270.00219.00 320.00 320.00 1 154.00 234.00 245.00137.00 177.00 183.00 1 113.00 139.00 130.0094.30 99.10 134.00 124.00 127.00 128.0094.70 143.00 142.00 102.00 142.00 133.00102.00 135.00 146.00 1 134.00 139.00 146.00127.00 192.00 195.00 1 146.00 141.00 173.00434.00 472.00 480.00 119.00 124.00 141.00187.00 236.00 255.00 141.00 181.00 195.001 80.80 98.50 89.70 115.00 194.00 200.002 262.00 290.00 249.00 1 187.00 224.00 196.002 142.00 201.00 160.00 1 234.00 306.00 295.002 113.00 107.00 112.00 1 83.80 94.60 98.202 176.00 194.00 181.00 2 279.00 286.00 263.002 154.00 147.00 144.00 2 . 154.00 201.00 147.002 286.00 300.00 308.00 2 167.00 180.00 165.002 138.00 148.00 160.00 2 157.00 175.00 152.002 73.40 164.00 166.00 2 223.00 252.00 250.002 123.00 127.00 122.00 2 189.00 199.00 166.002 218.00 198.00 198.00 2 103.00 117.00 110.002 220.00 245.00 220.00 2 104.00 173.00 150.002 210.00 219.00 190.00 2 185.00 190.00 157.002 207.00 237.00 239.00 2 101.00 81.10 91.502 124.00 189.00 204_00 2 156.00 153.00 140.002 194.00 184.00 178.00 2 217.00 187.00 152.002 344.00 356.00 335.00 2 190.00 202.00 223.002 117.00 125.00 135.00 2 110.00 176.00 188.002 239.00 307.00 296.00 2 123.00 123.00 113.00Grupo BIgM MlgM FIgM22179.00115.00189.00114.00170.00113.001 128.00 150.00 139.00 2 297.00 297.00 308.00FUENTE: Utilizada con autorizaci6n de David C. Nieman.a) Aplique el amilisis de mediciones repetidas para cada gropo de combinaciones de inmu­noglobulina y gropo de ejercicio.b) Amllice los datos como un experimento factorial para cada inmunoglobulina en el quelos factores sean los grupos de ejercicio (2 niveles) ylapso de tiempo (3 niveles). Sea a = .05,para todas las pruebas.
    • 372 CAPiTULO 8 ANALISIS DE LA VARIANCIA33. El prop6sito de un estudio realizado por Roodenburg et al. (A-31) era clasificar y cuantificarla descripci6n de varios patrones de movimiento fetal durante la segunda mitad del embara­zoo Los siguientes datos corresponden al mlmero de incidentes de movimientos generalesfetales experimentados por hora en nueve mujeres embarazadas, en intervalos de cuatrosemanas. Con base en estos datos, ~es posible concIuir que el numero promedio de movi­mientos generales por hora difieren entre los intervalos de tiempo? Sea IX = .05.Semanas de gestacionPacientenum. 20 24 28 32 361 66 57 52 37 402 47 65 44 34 243 57 63 57 34 104 39 49 58 27 265 54 46 54 22 356 53 62 45 37 407 96 46 64 43 418 60 47 50 62 269 63 47 44 42 39FUENTE: Utilizada con autorizaci6n deJ. W. Wladimiroff, M. D., Ph. D. Para los ejercicios 34 al 38, haga 10 siguiente: a) Indique que tecnica estudiada en este capitulo es adecuada (disefio completamente aleatorizado, disefio de bloques completos y aleatorizados, disefio de mediciones repetidas 0 el experimento factorial). b) Identifique la variable respuesta y las variables tratamiento. c) Identifique los factores y el numero de niveles para cada uno, las variables de bloqueo y los individuos. d) Haga una lista de variables extrafias cuyos efectos podrfan incIuirse en terminos deerror. e) Donde sea oportuno, comente sobre los efectos de acarreado y de posicion. t) Elabore una tabla ANOVA en la que se indiquen las fuentes de variabilidad y el numero de grados de libertad para cada una. 34. En un estudio realizado por Vasterling et al. (A-32), se agrup6 por categorias a 60 pacientesque recibian quimioterapia contra el dincer y que presentaban altos y bajos niveles de ansie­dad. Aleatoriamente, los pacientes fueron asignados a una de las siguientes tres condiciones:distracci6n cognitiva, capacitaci6n para relajamiento, y no intervenci6n. Cada paciente reci­bi6 cinco sesiones consecutivas de quimioterapia. Se recolectaron datos respecto a variablescomo miuseas y presion sanguinea sistolica y diast6lica.35. Durante un estudio doble ciego controlado mediante placebo participaron 30 pacientes conataques isquemicos agudos. Huber et at. (A-33) investigaron los efectos del bloqueador decaptaci6n de adenosina propentofilina en el metabolismo de la glucosa de una regi6n cerebral.36. El prop6sito de un estudio efectuado por Smith et al. (A-34) fue determinar si el estiramientoestatico y balfstico podrian inducir grados significativos de dolor muscular de inicio retardado(DMIR) y aumento en la producci6n de creatinacinasa. Para este estudio, se asignaron al azarveinte varones a uno u 000 de los dos grupos de estiramiento: (ESTATICO 0 BALISTICO).Todos los individuos realizaron tres rutinas de 17 ejercicios de estiramiento durante 90 minu­tos: los individuos del grupo ESTATICO permanedan inm6viles durante cada estiramientode 60 segundos que realizaban, mientras que los del grupo BALISTICO realizaban movimien­tos violentos al contraer los musculos. Los investigadores evaluaron las calificaciones subjetivas
    • 373PREGUNTAS Y EJERCICIOS DE REPASOde DMIRy los niveles sericos de creatinacinasa antes de inciar el experimento y cada 24 horasdespues de realizar los ejercicios de estiramiento por espacio de cinco dfas.37. Un estudio de Cimprich (A-35) prob610s efectos de una intervenci6n experimental dirigidaa mantener 0 restablecer la capacidad para prestar atenci6n en 32 mujeres durante los tresmeses despues de la cirugia de cancer de pecho localizado. La capacidad de atencion seevalu6 por medio de mediciones objetivas y subjetivas realizadas en cuatro ocasiones diferen­tes despues de que se practic61a drugia de cancer de pecho.Despues de la primera observa­cion, las mujeres fueron repartidas aleatoriamente en dos grupos de 16 individuos cadauno;uno de los grupos recibi6 intervenci6n.y el otto no.38. Paradis et al. (A-36) compararon la actividad farmacocinetica y bactericida de cinco agentesbactericidas. Para tal efecto, los investigadores aplicaron los cinco agentes en 15 voluntarios sanos.Para los estudios descritos en los ejercicios de139 al67, haga 10 siguiente: a) Desarrolle un analisis estadfstico de los datos (que incluya prueba de hip6tesis y e1abora­ci6n de intervalos de confianza) que puedan aportar informaci6n a los investigadores. b) Determine los valores de ppara cada una de las estadlsticas de prueba.c) Establezca todas las supodones necesarias para que el anaIisis tenga validez.d) Con base en el anaIisis, <.para que poblaciones pueden ser aplicables las inferencias?39. Shirakami et al. (A-37) investigaron el significado clfnico de la endotelina (ET). peptidosnatriureticos y el sistema renina-angiotensina-aldosterona en los trasplantes de h1gado prac­ticados en nifios. Los individuos eran nifios con edades entre 6 meses y 12 aDos, a los cualesse 1es practico trasplante de hfgado, de un donador familiar vivo, por atresia biHar congenitay cirrosis hepatica grave. Entre los datos recolectados estaban los siguientes niveles totales debilirrubina serica (mg/dl) durante y despues del transplante.Tiempo desp1l:~ de la reperfusi6n del bigado donadorTransecci6n de FasePreoperatorio higado anhepatica Ih 24 4h 8h Id 2d 3d6.2 1.2 0.9 0.8 1.1 1.5 2 1.4 1.6 1.317.6 11.9 9.3 3.5 3 6.1 9 6.3 6.4 6.213.2 10.2 7.9 5.3 4.9 3.3 3.6 2.8 1.9 1.93.9 3.3 3 2.9 2.3 1.4 1.2 0.8 0.8 0.920.8 19.4 * 9.4 8.4 6.8 7.1 3.7 3.8 3.21.8 1.8 1.6 1.4 1.4 1.1 1.9 0.7 0.8 0.78.6 6.5 4.8 3.1 2.1 1 1.3 1.5 1.6 3.213.4 12 10.1 5.8 5.6 4.5 4.1 3 3.1 3.616.8 13.9 8.3 3.7 3.7 2.2 2.1 1.9 3.1 4.120.4 17.8 17 10.8 9.3 8.9 7 2.8 3.8 4.825 21.5 13.8 7.6 7 5 11.5 12.3 10.1 11.49.2 6.3 6.8 5.3 4.8 0.2 4 4.2 3.7 3.58 6.5 6.4 4.1 3.8 3.8 3.5 3.1 2.9 2.82.9 3 4.1 3.4 3.4 3.7 4.2 3.3 2 1.921.3 17.3 13.6 9.2 7.9 7.9 9.8 8.6 4.7 5.525 25 24 20.1 19.3 18.6 23.6 25 14.4 20.623.3 23.7 15.7 13.2 11 9.6 9.3 7.2 6.3 6.317.5 16.2 14.4 12.6 12.7 11.5 10 7.8 5.5 4.9* Dato faltante. FUENTE: Utilizada con autorizaci6n del Dr. Gotaro Shirakami.
    • 374 CAPITULO 8 Al"lAUSIS DE LA VARIANCIAObserve que falta una observaci6n en el conjunto de datos. Para resolver este problemaexisten al menos tres soluciones:1. Omitir el individuo cuyo dato falta y analizar los datos con los 17 individuos res­tantes.2. Utilizar un paquete de computadora que automaticamente calcule los datosfaltantes.3. Analizar los datos con un procedimiento para datos perdidos. Un procedimientopara este prop6sito puede encontrarse en Jerome L. Myers y Arnold D. Well,Research Design and Statistical Analysis, Erlbaum Associates, Hillsdale, NJ, pp. 256­258.40. El proposito de un estudio realizado por Sakakibara y Hayano (A-38) era examinar los efec­tos de la respiraci6n lenta voluntaria sobre la respuesta parasimpatica cardiaca ante unasituaci6n de amenaza (anticipaci6n de una descarga electrica). Los individuos eran 30 es­tudiantes universitarios con edad promedio de 23 alios y desviaci6n estandar de 1.5 alios.Un mimero igual de individuos fue asignado, al azar, en gmpos para efectuar respiracioneslentas (6 varones y 4 mujeres), respiraciones rapidas (7 varones y 3 mujeres), y respiraci6nlibre (5 varones y 5 mujeres). Los individuos en los gmpos para respirar lento y rapidoregularon su ritmo respiratorio en 8 y 30 rpm, respectivamente. Los miembros del grupode respiraci6n libre respiraban espontaneamente. Los siguientes datos corresponden a lascalificaciones logradas por los individuos seg(m la evaluaci6n del estado de ansiedad del In­ventario de estados 0 rasgos de ansiedad, tomadas antes ydespues de la situaci6n de amenaza:Ritmo lento Ritmo nipido Respiraci6n libreInicial Amenazado Inicial Amenazado Inicial Amenazado39 59 37 49 36 5144 47 40 42 34 7148 51 39 48 50 3750 61 47 57 49 5334 48 45 49 38 5254 69 43 44 39 5634 43 32 45 66 6738 52 27 54 39 4944 48 44 44 45 6539 65 41 61 42 57FUENTE: Utilizada can autorizaci6n del Dr. Masahito Sakakibara.41. Takahashi et al. (A-39) utilizaron gatos para investigar la correlaci6n de intensidad de lasenal de resonancia magnetica con el potencial descrito de la medula espinal y su morfolo­gia. despues de cuatro horas de compresi6n de la medula espinal. Repartieron a 24 gatos encuatro gmpos, formados con base en la medici6n de la funcion de la medula espinal, mas ungmpo de control que no sufri6 compresi6n. Entre los datos recolectados se tienen los si­guientes porcentajes de compresi6n [(diametro sagital / diametro transversal) x 100] obteni­das despues de cuatro horas de compresion.
    • 375PREGUNTAS Y EJERCICIOS DE REPASOControl 80.542986 Groupo III 36.92307779.111111 31.30434870.535714 53.33333387.323944 55.27638280.000000 40.72580682.222222Grupo IV 66.666667Grupo I 83.928571 29.56521784.183673 12.09677448.181818 34.27419498.461538 24.000000Grupo II 30.26315834.86590043.77510082.439024FUENTE:: Utilizada con autorizacion del Dr. Toshiaki Taka­hashi. 42. EI objetivo de un estudio efectuado por Yamashita etat. (A-40) era investigar si la pentoxifilinaadministrada en la soluci6n de irrigaci6n 0 durante la reperfusion puede reducir el danaisquemico pulmonar en los aloinjertos pulmonares conservados de perros. Para tal efecto,los investigadores estudiaron tres grupos de animales. EI primer grupo no recibio pentoxifilina(C), el segundo grupo recibi6 pentoxifilina solo durante el periodo de reperfusion (P), y eltercer grupo recibi6 solo pentoxifilina en la solucion de irrigacion (F). En total realizaron 14alotrasplantes de pulmon izquierdo. Los siguientes datos corresponden a las lecturas depresion de la aorta para cada animal durante un periodo de valoraci6n de seis horas:0 60 120 180 240 300 360Grupo min min min min min min minC 85.0 100.0 120.0 80.0 72.0 75.0 *C 85.0 82.0 80.0 80.0 85.0 80.0 80.0C 100.0 75.0 85.0 98.0 85.0 80.0 82.0C 57.0 57.0 57.0 30.0 * * *C 57.0 75.0 52.0 56.0 65.0 95.0 75.0P 112.0 67.0 73.0 90.0 71.0 70.0 66.0P 92.0 70.0 90.0 80.0 75.0 80.0 *P 105.0 62.0 73.0 75.0 70.0 55.0 50.0P 80.0 73.0 50.0 35.0 * * "F 70.0 95.0 105.0 115.0 110.0 105.0 100.0F 60.0 63.0 140.0 135.0 125.0 130.0 120.0F 67.0 65.0 75.0 75.0 80.0 80.0 80.0F 115.0 107.0 90.0 103.0 110.0 112.0 95.0F 90.0 99.0 102.0 110.0 117.0 118.0 103.0" Dato faltante. FUENTE: Utilizada con autorizacion del Dr. Motohiro Yamashita.
    • 376 CAPiTULO 8 ANALISIS DE LA VARIANCIA43. Zhou et al. (A-41) investigaron la biodisponibilidad relativa de beta-caroteno (BC) y alfa­caroteno (AC) producidos en diferentes fuentes de zanahorias. Los investigadores utilizaronhurones como animales de experimentacion. Entre los datos recolectados estaban las si­guientes concentraciones de BC, AC Yla razon molar de AC/BC en el suero de 24 hurones alos cuales se les suministraron carotenoides de diferentes fuentes en el agua de uso, durantetres dras.BC AC AClBC(/J-moVg) (lJ.moVg) (moVmol)Jugo sin calentar0.637 0.506 0.7950.354 0.297 0.8400.287 0.249 0.8690.533 0.433 0.8130.228 0.190 0.8330.632 0.484 0.767Jugo caliente0.303 0.266 0.8780.194 0.180 0.9270.293 0.253 0.8640.276 0.238 0.8590.226 0.207 0.9150.395 0.333 0.843Cromoplastos sin calentar0.994 0.775 0.7800.890 0.729 0.8190.809 0.661 0.8170.321 0.283 0.8820.712 0.544 0.7630.949 0.668 0.704Cromoplastos calientes0.933 0.789 0.8450.280 0.289 1.0310.336 0.307 0.9160.678 0.568 0.8370.714 0.676 0.9470.757 0.653 0.862FUENTE: Utilizada con autorizaci6n del Dr.Jin-R. Zhou.
    • 377PREGUNTAS Y EJERCICIOS DE REPASO44. Poetteiger et al. (A-42) pretendian detenninar si la ingestion de citrato de sodio podia mejo­rar el desempefio de ciclistas y facilitar condiciones metabolicas favorables durante una ca­rrera en bicicleta. Los individuos eran ocho varones cidistas de alto rendimiento, entrenados,con edad media de 25.4 anos y desviacion estandar de 6.5. Cada participante completo uncircuito de 30 krn bajo dos condiciones: despues de ingestion de citrato de sodio e ingestionde placebo. Los investigadores recolectaron muestras de sangre de los cidistas antes de inge­rir el tratamiento (PRE-ING), antes del recorrido (PRE-REC), durante el recorrido al com­pletar 10, 20 Y30 krn; Y 15 minutos despues de terminar el recorrido (POST-REC). Lossiguientes valores corresponden a la presion parcial de oxigeno (P02) y bioxido de carbono(PC02) para cada individuo, bajo cada condicion, para cada vez que se registro la medicion.Po2 (mmHg)Tiempos de medici6nIndividuo Tratamiento PRE-ING PRE-EX IO·km 20·km 30·km I5-POST-EX1 42.00 20.00 53.00 51.00 56.00 41.001 2 43.00 29.00 58.00 49.00 55.00 56.002 1 44.00 38.00 66.00 66.00 76.00 58.002 2 40.00 26.00 57.00 47.00 46.00 45.003 1 37.00 22.00 59.00 58.00 56.00 52.003 2 36.00 30.00 52.00 65.00 65.00 36.004 1 34.00 21.00 65.00 62.00 62.00 59.004 2 46.00 36.00 65.00 72.00 72.00 66.005 1 36.00 24.00 41.00 43.00 50.00 46.005 2 41.00 25.00 52.00~ 60.00 67.00 54.006 1 28.00 31.00 52.00 60.00 53.00 46.006 2 34.00 21.00 57.00 58.00 57.00 41.007 1 39.00 28.00 72.00 69.00 65.00 72.007 2 40.00 27.00 64.00 61.00 57.00 60.008 1 49.00 27.00 67.00 61.00 51.00 49.008 2 27.00 22.00 56.00 64.00 49.00 34.00(mmHg)PC02Tiempos de medici6nIndividno Tratamiento PRE-ING PRE-EX IO-km 20-km 30-km I5-POST·EX1223341 31.702 24.601 27.102 21.701 37.402 38.401 36.6030.2024.4035.9037.9049.6042.1045.5028.2034.4031.3031.9039.9040.9034.8029.8035.2035.4039.9039.7037.7033.9028.2030.9034.1045.1039.8037.7034.0030.1034.0042.0048.0042.8045.6040.50(ContinUa)
    • 378 CAPiTULO 8 ANALISIS DE LA VARIANCIAPC02 (mm Hg)Tiempos de medici6nIndividuo TratamientoaPRE-ING PRE-EX 10-km 20-km 30-km 15-POST-EX4 2 39.20 40.20 3l.90 32.30 33.70 45.905 1 33.70 39.50 32.90 30.50 2S.50 37.205 2 3l.50 37.30 32.40 3l.90 30.20 3l.706 1 35.00 4l.00 3S.70 37.10 35.S0 40.006 2 27.20 36.10 34.70 36.30 34.10 40.607 1 2S.00 36.50 30.70 34.60 34.30 3S.607 2 2S.40 3l.30 4S.10 43.70 35.10 34.70S 1 22.90 2S.40 25.70 2S.20 32.30 34.S0S 2 4l.40 4l.S0 29.50 29.90 31.30 39.00"l=citrato de sodio; 2= placebo. FUENTE: Utilizada con autorizaci6n del Dr. Jeffrey A. Potteiger. 45. Teitge et al. (A-43) describieron un metodo radiogrMico para demostrar la inestabilidad dela r6tula. Estudiaron a 90 individuos con edades entre los 13 y 52 arros, los repartieron encuatro grupos de acuerdo con hallazgos clinicos relacionados con la naturaleza de la inesta­bilidad de la rodilla: inestabilidad normal (sin sintomas 0 signos relacionados con la rodilla),inestabilidad lateral, inestabilidad media e inestabilidad multidireccional. Entre los datosque recolectaron estan las siguientes mediciones radiograficas del angulo de congruencia(en grados).Normal Lateral Medio Mu1tidireccional-S 4 12 -16 10 15-16 IS -S -25 -5 -26-22 5 -S 20 -10 -S-26 -6 -20 -S -12 -12-S 32 -5 S -14 -4012 30 -10 -14 -20-S -10 -IS -1612 2S -4 -34-20 6 -20 -14-20 9 -20 -6-5 10 -20 -3510 20 -22 -24-4 -9 -15 -25-2 -10 -10 10-6 12 -5 -16-7 0 -5 -300 35 -6 -30-2 -1 -15-15 5 -25-5 22 -1022 -20FUENTE: Utilizada con autorizaci6n del Dr. Robert A. Teitge.
    • 379PREGUNTAS YEJERCICIOS DE REPASO46. Ikeda et al. (A-44) disefiaron un estudio para determinar la dosis de bromuro de ipratropioen aerosol que mejora el desempefio deportivo mediante ergometria progresiva de bicicleta enpacientes con enfermedad pulmonar obstructiva cr6nica estable. La edad promedio de los 20individuos varones es de 69.2 afios con desviaci6n estandar de 4.6 afios. Entre los datos querecolectaron los investigadores estan los siguientes valores de ventilaci6n maxima (VEmax l!min)en el ejercicio maximo alcanzado para diferentes dosis debromuro de ipratropio (Ilg):Placebo 40 80 160 24026 24 23 25 2838 39 43 43 3749 46 54 57 5237 39 39 38 3834 33 37 37 4142 38 44 44 4223 26 28 27 2238 41 44 37 4037 37 36 38 3933 35 34 38 3640 37 40 46 4052 58 48 58 6345 48 47 51 3824 30 23 27 3041 37 39 46 4256 54 51 58 5835 51 49 51 4628 41 37 33 3828 34 34 35 3538 40 43 39 45FUENTE: Utilizada con autorizaci6n de la Dra. Akihiko Ikeda.47. Pertovaara et al. (A-45) compararon los efectos de la temperatura de la piel en el umbral dela temperatura crftica que despierta ardores contra los efectos de la temperatura de la pielen el estado latente de la respuesta a 1a primera sensaci6n de dolor provocado por el calor.Los individuos eran adultos sanos con edades entre 23 y 54 afios. Entre los datos recolecta­dos estaban los siguientes estados latentes (en segundos) a la primera respuesta de dolorinducida por la estimulaci6n de calor radiante, registrados durante tres diferentes grados detemperatura de la piel.Individuo 25°C 30°C 35°C1 6.4 4.5 3.62 8.1 5.7 6.33 9.4 6.8 3.24 6.75 4.6 3.95 10 6.2 6.26 4.5 4.2 3.4FUENTE: Utilizada can autorizaci6n del Dr. Antti Pertovaara.
    • 380 CAPiTULO 8 ANALISIS DE LA VARIANCIA48. Knight et al. (A-46) informaron de un estudio para desarrollar y validar un metodo sensitivoyespecffico para cuantificar la concentraci6n total de activin-A Como parte del estudio, losinvestigadores recolectaron las siguientes concentraciones sericas perifericas de activin-A enseres humanos en diferentes estadios reproductivos: fase folicular normal (FF), fase luteanormal (FL), embarazo (EMB), hiperestimulaci6n ovarica para fertilizaci6n in vivo (HIP),posmenopausia (PM), y varones adultos normales.FF FL EMB HIP PM Varones134.5 78.0 2674.0 253.1 793.1 196.7159.2 130.4 945.6 294.3 385.1 190.6133.2 128.3 5507.6 170.2 270.9 185.3225.0 166.4 7796.5 219.8 640.3 335.4146.4 115.2 5077.5 165.8 459.8 214.6180.5 148.9 4541.9 159.0FUENTE: Utilizada con autorizaci6n del Dr. Philip G. Knight. Nota: Convierta las respuestas en logaritmos antes de realizar el analisis. 49. El prop6sito de un estudio de Maheux et al. (A-47) fue evaluar los efectos del trabajo de partoen la produccion yutilizaci6n de glucosa. Los individuos estudiados eran seis mujeres emba­razadas. Entre los datos recolectados estaban las siguientes concentraciones de glucosa du­rante cuatro fases del trabajo de parto: latente (AI) y activa (A2) de dilataci6n cervical,expulsion fetal (B), y expulsi6n de la placenta (C).AI A2 B C3.60 4.40 5.30 6.203.53 3.70 4.10 3.804.02 4.80 5.40 5.274.90 5.33 6.30 6.204.06 4.65 6.10 6.903.97 5.20 4.90 4.60FUENTE: Utilizada con autorizaci6n del Dr. Pierre C. Maheux. 50. Trachtrnan et al. (A-48) realizaron estudios para 1) evaluar los efectos del IGF-I recombinantehumano (rh) en la nefropatfa por aminonucleosido de puromicina (NAP) y 2) comparar losresultados del tratamiento con rhIGF-I y con rhGH en el modelo de glomerulosclerosis desegmentos fetales. Como parte de los estudios, se formaron cuatro grupos con ratones Sprague­Dawley: NAP (IA), NAP + rhIGF-I (IB), normal (IIA), y normal + rhIGF-I (lIB). Los anima­
    • PREGUNTAS Y EJERCICIOS DE REPASO 381les produjeron los siguientes datos que corresponden a los niveles de creatinina antes (pre) ydespues de 4, 8 Y12 semanas de tratamiento:GrupoIA IB lIA lIBPre44 44 44 35 44 44 44 44 44 44 44 44 53 44 44 35 44 44 44 53 4 semanas97 44 53 44 88 35 44 53 62 44 44 53 53 35 53 44 62 62 53 53 8 semanas53 53 62 44 53 53 53 62 44 53 62 44 53 44 53 44 62 53 70 62 12 semanas88 79 53 5370 79 62 6253 79 53 5370 62 62 5388 7988 70- - - - - - - - - "FUENTE: Utilizada con autorizaci6n del Dr. Howard Trachtman.51. Samuels y Kramer (A-49) realizaron un estudio para examinar las alteraciones inducidas porel ayuno en la secreci6n pulsatil de glucoproteina. Los individuos que participaron en el
    • 382 CAPITULO 8 ANALISIS DE LA VARIANCIAestudio eran 12 hombresjovenes, con edades entre 22 y 35 alios, que produjeron los siguien­tes niveles de T3 en el suero (nmoVl) a las 0800 horas despues de ayunar 8 horas (el primerdfa),32 horas (el segundo dfa) y 56 horas (el tercer dfa).Individuo T3 Dia Individuo T3 Dia Individuo T3 D1a Individuo T3 Dia88 1 2 115 1 3 119 1 4 16473 2 2 77 2 3 93 2 4 120 259 3 2 75 3 3 65 3 4 86 3Individuo T3 Dia Individuo T3 Dia Individuo T3 Dia Individuo T3 Dia5 93 1 6 119 1 7 152 1 8 121 15 91 2 6 57 2 7 70 2 8 107 25 113 3 6 44 3 7 74 3 8 133 3Individuo T3 Dia Individuo T3 Dia Individuo T3 D1a Individuo T3 Dia9 108 1 10 124 1 11 102 1 12 1319 93 2 10 97 2 11 56 2 12 83 29 75 3 10 74 3 11 58 3 12 66 3FUENTE: Utilizada con autorizaci6n de la Dra. Mary H. Samuels.52. Para determinar la naturaleza y grado en que los cambios del neurocomportamiento ocurrenen asociaci6n con la intoxicaci6n resultante de la exposici6n excesiva de hierro (Fe) en la ali­mentaci6n, Sobotka et al. (A-50) utilizaron ratas macho Sprague-Dawley recien destetadas comoindividuos de experimentaci6n. Los investigadores asignaron al azar a los animales, de acuer­do con rangos de peso, en cinco grupos de alimentaci6n diferentes con base en el total dehierro presente: grupo 1 de control, 35 ppm; grupo 2, 35G ppm; grupo 3, 3500 ppm; grupo 4,4 ppm (deficiencia en el consumo de hierro), y grupo 5, 20,000 ppm. Los siguientes datoscorresponden al peso (en gramos) corporal de los animales despues de 10 semanas.Dieta Peso Dieta Peso Dieta Peso396 1 335 1 3732 368 2 349 4 2923 319 3 302 5 1164 241 4 220 4 2915 138 5 118 5 1541 331 1 394 4 2812 325 2 300 5 1183 331 3 285 4 2504 232 4 237 5 1195 116 5 113 4 2421 349 1 377 5 1182 364 2 366 4 2773 392 3 269 5 104(Continua)
    • 383PREGUNTAS Y EJERCICIOS DE REPASODieta Peso Dieta Peso Dieta Peso4 310 4 344 5 1205 131 5 Muerta 5 1021 341 1 3362 399 2 3793 274 3 1954 319 4 2775 131 5 1481 419 1 3012 373 2 3683 Muerta 3 3084 220 4 2995 146 5 MuertaFUENTE: Utilizada con autorizaci6n del Dr. ThomasJ. Sobotka.53. Hansen (A-51) not6 que las concentraciones de la bilirrubina en el cerebro aumentan debidoa hiperosmolalidad e hipercarbia, y que los estudios anteriores no consideraban la preguntade si el aumento de bilirrubina cerebral bajo diferentes condiciones se debe a los efectosrelacionados con la entrada 0 eliminaci6n de bilirrubina del cerebro. En un estudio, el inves­tigador plante6la hip6tesis de que la cinetica del aumento de concentraciones de bilirrubinaen el cerebro serfa diferente en la acidosis respiratoria (hipercarbia) y la hiperosmolalidad.Sacrific6 cuarenta y cuatro ratas Sprague-Dawley machos durante el experimento en dife­rentes momentos despues de aplicarles bilirrubina..Los siguientes datos corresponden a losniveles de bilirrubina en la sangre (jlmol)/l) de 11 animales justo antes de sacrificarlos ydespues de 60 minutos de haberles aplicado la bilirrubina.Controles Hipercarbia Hiperosmolalidad30 48 10294 20 11878 58 7452 74FUE],rI"E: Utilizada con autorizaci6n del Dr. ThorWilly Ruud Hansen.54. Johanson et ai. (A-52) compararon los efectos de tratamientos de corto plazo con hormonadel crecimiento (GH) y con factor I de crecimiento parecido a la insulina (IGF-I) en marcado­res bioquimicos del metabolismo 6seo en hombres con osteoporosis idiop<itica. Los indivi­duos tentan edades entre 32 y 57 arlOS. Entre los datos que recolectaron estan las siguientesconcentraciones sericas de la proteina-3 que se une al IGF al inicio y 7 dias despues de laprimera inyecci6n, y I, 4, 8 Y12 semanas despues de la ultima inyecci6n con GH e IGF-I.
    • 12384 CAPITULO 8 ANALISIS DE LA VARIANCIAPaciente 0 7 1 4 8num. Tratamiento Dia Dias Semana Semanas Semanas Semanas1 GH 4507 4072 3036 2484 3540 34801 IGF-I 3480 3515 4003 3667 4263 47972 GH 2055 4095 2315 1840 2483 23542 IGF-I 2354 3570 3630 3666 2700 27823 GH 3178 3574 3196 2365 4136 30883 IGF-I 3088 3405 3309 3444 2357 38314 IGF-I 2905 2888 2797 3083 3376 34644 GH 3464 5874 2929 3903 3367 29385 GH 4142 4465 3967 4213 4321 49905 IGF-I 4990 4590 2989 4081 4806 44356 IGF-I 3504 3529 4093 4114 4445 36226 GH 3622 6800 6185 4247 4450 41997 IGF-I 5130 4784 4093 4852 4943 53907 GH 5390 5188 4788 4602 4926 57938 IGF-I 3074 2691 2614 3003 3145 31618 GH 3161 4942 3222 2699 3514 29639 GH 3228 5995 3315 2919 3235 43799 IGF-I 4379 3548 3339 2379 2783 300010 IGF-I 5838 5025 4137 5777 5659 562810 GH 5628 6152 4415 5251 3334 391011 GH 2304 4721 3700 3228 2440 269811 IGF-I 2698 2621 3072 2383 3075 2822FUENTE: Utilizada con autorizaci6n de la Dra. Anna G.Johansson.55. El objetivo de un estudio conducido por Strijbos et al. (A-53) fue comparar los resultados deun programa de rehabilitaci6n de pacientes externos durante 12 semanas en un hospital(grupo 1) contra los de un programa de rehabilitaci6n de 12 semanas en casa (grupo 2). Losindividuos estudiados eran pacientes enfermos de obstrucci6n pulmonar cr6nica con limita­ciones ventilatorias moderadas y severas. Un grupo de control (grupo 3) no recibi6 terapiade rehabilitaci6n. Entre los datos recolectados estan las siguientes calificaciones de frecuen­cia respiratoria de los individuos, 18 meses despues de la rehabilitaci6n.Grupo Grupo 1 2 3 1 2 3 12 16 24 12 16 2416 14 16 12 12 1416 12 18 14 12 1514 12 18 16 12 1612 18 24 12 12 1612 12 24 12 15 1812 10 18 20 16FUENTE: Utilizada con autorizaci6n del Dr. Jaap H. Strijbos.
    • 385PREGUNTAS Y EJERCICIOS DE REPASO56. Siete varones sanos (con edad promedio de 27.4 afios y desviaci6n estandar de 4.4) partici­paron en un estudio dirigido por Lambert et at. (A-54). Los investigadores midieron la absor­ci6n intestinal despues de la ingesta y la perfusion por via intestinal de un Hquido. Comoparte del estudio, los investigadores registraron los siguientes cambios en el volumen delplasma en seis ocasiones, durante los 85 minutos que duro el ejercicio de ciclismo en ambosexperimentos.Individuo 1 2 3Tomada1234567-8.4151514-12.1966790-9.7418719-15.0291920-5.8845683-9.7100000-6.9787024-7.4902674-5.1496679-5.9062747-14.4165470-5.8845683-7.5700000-6.5752716-8.02277330-10.46486300-7.06516950-16.61268200-3.57781750-3.52995560-5.0702021089-13.5391010-8.8259516-11.7186910 I-8.9029745-10.77312900-6.3816003010 -4.2410016 -1.3448910 -2.49740390Infusion 11 -10.7192870 -9.7651132 -11.1214090012 -6.9487760 -2.9830660 1.7782815713 -7.1160660 -5.4111706 -7.0708634014 -7.0497788 -5.7725485 -5.18045500Individuo 4 5 61 -7.35202650 -7.89172340 -7.847267002 -8.40517240 -9.02789810 5.13333985TomadaInfusion34567891011121314-4.19974130-15.36239700-5.50433470-4.22938570-5.94416340-11.64145400-5.69396590-1.01234570-12.130531002.28844839-8.35430040-7.92841880-3.33795970-17.63314100-5.12242600-7.86923080-5.21535350-12.40814000--6.38160030-5.58572150-15.983607002.59034233-10.60663700-8.38462720-5.65380700-14.43982000--6.26313790-7.51168220-6.34285620-8.26411320-7.37350920-2.81811090-12.646675001.56622058-9.45689580-8.44542770FL"ENTE: Utilizada con autorizaci6n del Dr. C. V. Gisolfi.57. Roemer et at. (A-55) desarrollaron un metodo para autorregistrar las mediciones del trastor­no de ansiedad generalizada (TAG) para utilizarlo en estudiantes universitarios. En los estu­dios de confiabilidad, los individuos universitarios llenaron e] cuestionario de TAG, as! comoun cuestionario de preocupaci6n del estado de Pensilvania (CPEP). Los siguientes datos
    • 336 CAPITULO 8 ANALISIS DE LA VARIANClAcorresponden a las calificaciones obtenidas, mediante la aplicaci6n del cuestionario, porcuatro grupos de individuos determinados por su estadio de TAG: (grupo 1) estudio II, TAGpar cuestionario; (grupo 2) estudio II, sin TAG por cuestionario; (grupo 3) estudio I, TAG porcuestionario, y (grupo 4) TAG runico.Grupo1 2 3 459.05l.058.06l.064.068.064.067.056.078.048.062.077.072.059.050.028.043.036.036.030.024.039.029.048.036.038.042.026.035.032.043.055.042.037.036.041.036.034.042.035.051.037.050.039.046.077.080.060.059.056.044.07l.054.064.066.059.068.059.061.078.070.074.073.065.062.076.066.078.076.074.073.061.063.075.063.055.067.570.070.055.073.080.079.079.061.061.072.067.074.065.068.072.075.056.065.066.069.073.067.078.076.066.055.059.044.068.064.04l.054.072.074.059.063.051.072.063.058.07l.0FUENTE: Utilizada con autorizaci6n del Dr. T. D. Borkovec.58. Christiansen et ai. (A-56) se dieron cuenta de que los linfomas distintos de Hodgkin (LDH)representaban un grupo heterogeneo de enfennedades en las que es dificil predecir el pronosti­
    • 387PREGUNTAS Y EJERCICIOS DE REPASOco. Los investigadores informaronacerca de los aspectos de pron6stico de laadhesi6n intercelularde la molecu1a-1 soluble (sICAM-1) enLDH. Entre los datos que reco1ectaronestanlas siguientesconcentraciones sericas (nglml) de s1CAM-1 en cuatro grupo de individuos: grupo de controlformado por individuos sanos (C), grupo con alto grado de LDH (aLDH), grupo con bajo gradode LDH (ILDH) Ypacientes con leucemia de celulas vellosas (LCV).C aLDH ILDH LCV309 460 844 824 961 581 382329 222 503 496 1097 601 975314 663 764 656 1099 572 663254 1235 1088 1038 625 439 429304 500 470 1050 473 1135 1902335 739 806 446 654 590 1842381 1847 482 1218 508 404 314456 477 734 511 454 382 430294 818 616 317 889 692 645450 585 836 334 805 484 637422 1837 1187 1026 541 438 712528 362 581 534 655 787 581461 671 381 292 654 77 860286 375 699 782 1859 478 448309 543 1854 1136 619 602 735225 352 769 476 1837 802388 443 510 534 568377 359 571 424 665310 383 1248 571261 587 784 420350 648 514 408405 782 678 391319 472 1264 493289 506 618 1162310 663 1123 460227 873 912 1113206 987 520 572226 859 1867 653309 1193 485 1340382 1836 287 656325 691 455522FUENTE: Utilizada con autorizad6n de la Dra. Ilse Christiansen.59. Cossette et at. (A-57) examinaron el genero y el parentesco con respecto al apoyo formal einformal a cuidadores en la atenci6n de enfermos. Fbrmaron dos modelos de apoyo. Entre
    • 388 CAPITULO 8 ANALISIS DE LA VARIANCIAlos datos recolectados estaban las edades de tres grupos de cuidadores de familiares conproblemas mentales que viven en casa: esposos, esposas e hijas adultas.Esposo Esposa Hija64 66 73 59 67 40 5070 58 71 66 67 47 5855 81 70 80 57 46 4667 77 71 76 53 45 4779 76 56 68 50 69 5067 64 68 53 70 48 5377 82 76 78 70 53 5768 85 67 75 50 6572 63 66 74 47 5067 72 67 86 62 4377 77 72 63 55 5970 79 72 52 49 4465 63 70 55 43 4565 80 66 71 44 4174 70 73 67 47 5086 85 78 78 57 5872 76 64 70 49 3571 67 78 68 5078 72 59 78 5971 60 71 59 4588 74 70 72 5077 65 67 73 4875 53 78 75 5166 70 67 54 4680 72 55 65 6276 74 64 67 5567 79 69 83 5065 63 59 70 4362 77 55 72 3982 78 75 71 5075 69 68 76 5080 65 74 4374 81 68 2870 79 6975 72FUENTE: Utilizada con autorizaci6n de Sylvie Cossette, M. Sc., R. N.
    • 389PREGUNTAS Y EJERCICIOS DE REPASO60. Tasaka et al. (A-58) se dieron cuenta de que el Corynebacterium parvum (CP) aumenta la sus­ceptibilidad a la endotoxina, la cual esta asociada con el aumento de la producci6n del factorde necrosis tumoral. Los investigadores estudiaron los efectos de la infecci6n por CP en lapatogenesis de dafios agudos pulmonares causados por la endotoxina de Escherichia coliintrotraqueal (lipopolisacarido [LPS]). Los animales para la experimentaci6n eran cerdas deguinea repartidas en cuatro grupos. Los animales de dos grupos recibieron un tratamientode 4 mglkg de CP siete dias antes del estudio. Subsecuentemente, algunos animales que norecibieron pretratamiento se les suministr6 s610 soluci6n salina (grupo de control), y otros reci­bieron endotoxina (unicamente LPS). Los grupos pretratados 0 recibieron soluci6n salina(unicamente CP) 0 LPS (CP + LPS). Entre los datos recolectados estaban las siguientes pro­porciones de tejido pulmonar: plasma de los ensayos de albiimina serica radio-iodizada:Control S6lo CP S6lo LPS CP + LPS0.12503532 0.18191647 0.17669093 0.36511660.10862729 0.30887462 0.25344761 0.640629640.10552931 0.25011885 0.17372285 0.392087340.15587316 0.23858085 0.1786867 0.499420590.13672624 0.26558231 0.22209666 0.857184750.11290446 0.32298454 0.27064831 0.93030465FUENTE: Utilizada con autorizaci6n del Dr, Sadatomo Tasaka.61. De acuerdo con Takahashi et at. (A-59) sus investigaciones indican que existe asociaci6n en­tre las alteraciones en el metabolismo del calcio y varias enfermedades 6seas en pacientescon otras discapacidades. Los individuos estudiados eranj6venes (con edad pmmedio de 16arros) con severos problemas de retraso mental que habian vivido en instituciones la mayorparte de su vida. Los investigadores examinaron las relaciones entre los cambios 6seos yotras variables. Repartieron en dos grupos a los individuos, con base en la gravedad de loscambios 6seos. Entre los datos recolectados estan los siguientes valores de fosfatasa alcalina(VI/I).Grado I: 109,86,79,103,47,105,188,96,249Grado II: 86,106,164,146, 111,263, 162, IIIGrado III: 283, 201, 208, 301,135, 192, 135,83,193, 175, 174, 193,224, 192,233 FUENTE: Utilizada con permiso del Dr. Mitsugi Takahashi.62. Las investigaciones de Allen (A-60) indican que la alimentaci6n con deficiencia en salescuprosas reduce el indice de crecimiento en ratas. En un estudio sobre este tema, Allenreparti6 ratas macho Sprague-Dawley recien destetados en tres grupos alimenticios: condeficiencia en sales cuprosas (CuD), con cantidades adecuadas de sales cuprosas (Cw.), ycon alimentaci6n en pareja (AP). Al inicio, el peso de las ratas del grupo AP era igual al peso delas ratas del grupo CuD, y luego las ralas AP fueron alimentadas con cantidades iguales de ladieta adecuada en Cu que consumian sus contrapartes CuD. Despues de 20 semanas, losanimales fueron anestesiados para extraer muestras de sangre y extirparles los 6rganos. Comoparte del estudio se recolectaron los siguientes datos.
    • 390 CAPITULO 8 ANALISIS DE LA VARIANCIAPeso Peso Peso Peso de Pesocorporal del coraz6n del higado los Mones del bazoRata Dieta (PCorp)(g) (PCor)(g) (PH)(g) (PR)(g) (PB)(g)1 253.66 0.89 2.82 1.49 0.412 400.93 1.41 3.98 2.15 0.763 CuD 355.89 1.24 5.15 2.27 0.694 404.70 2.18 4.77 2.99 0.766 397.28 0.99 2.34 1.84 0.507 421.88 1.20 3.26 2.32 0.798 AP 386.87 0.88 3.05 1.86 0.849 401.74 1.02 2.80 2.06 0.7610 437.56 1.22 3.94 2.25 0.7511 490.56 1.21 4.51 2.30 0.7812 528.51 1.34 4.38 2.75 0.7613 CuA 485.51 1.36 4.40 2.46 0.8214 509.50 1.27 4.67 2.50 0.7915 489.62 1.31 5.83 2.74 0.81PCor/PCorp PH/PCorp PR/PCorp PB/PCorp CeruloplasminaRata Dieta (gilOO g) (g/lOO g) (g/lOOg) (gilOO g) (mgldl)1 0.00351 0.01112 0.00587 0.00162 nd2 0.00352 0.00993 0.00536 0.00190 5.273 CuD 0.00348 0.01447 0.00638 0.00194 4.804 0.00539 0.01179 0.00739 0.00188 4.976 0.00249 0.00589 0.00463 0.00126 35.307 0.00284 0.00773 0.00550 0.00187 39.008 AP 0.00227 0.00788 0.00481 0.00217 28.009 0.00254 0.00697 0.00513 0.00189 34.2010 0.00279 0.00900 0.00514 0.00171 45.2011 0.00247 0.00919 0.00469 0.00159 34.6012 0.00254 0.00829 0.00520 0.00144 39.0013 CuA 0.00280 0.00906 0.00507 0.00169 37.1014 0.00249 0.00917 0.00491 0.00155 33.4015 0.00268 0.01191 0.00560 0.00165 37.30nd= no hay datos. FUENTE: Utilizada con autorizaci6n de Corrie B. Allen. 63. Hughes et al. (A-61) afirman que las complicaciones sistemicas producidas por la pancreatitisaguda son los principales responsables de la mortalidad asociada con la enfermedad. Ade­mas, los investigadores se dieron cuenta de que las citocinas proinflamatorias, particular­mente TNFa, pueden desempeftar una funci6n central en la pancreatitis aguda al mediar
    • 391PREGUNTAS Y EJERCICIOS DE REPASOsecuelas sisremicas. Los investigadores utilizaron un modelo de infusi6n biliar de pancreatitisaguda para mostrar la disminuci6n de la severidad de la enfermedad, as! como el mejora­miento de la sobrevida general por la inhibici6n del TNFa. Consideraron como individuosde estudio a ratas Sprague-Dawley machos que pesaban entre 250 y 300 gramos, ylas repar­tieron en tres grupos: sin tratamiento (soluci6n biliar aplicada sin tratamiento), con trata­miento (soluci6n biliar aplicada precedida de tratamiento con anticuerpos policlonalesanti-TNFa), y placebo (aplicaci6n de soluci6n salina). Entre los datos recolectados estan lassiguientes concentraciones porcentuales de hematocrito encontradas en los animales quesobrevivieron mas de 48 horas.Sustituto Sin tratamiento Con tratamiento384032364040384038405660505050404238463635404055353640403545FUENTE: Utilizada con autorizaci6n del Dr. A. Osama Gaber.64. Un estudio realizado por Smarason et al. (A-62) fue motivado por las observaciones que otrosinvestigadores realizaron sobre el suero producido por celulas endoteliales cultivadas dafta­das de mujeres con preeclampsia. Los individuos estudiados para esta investigaci6n eranmujeres con preeclampsia, un grupo control de mujeres con embarazo normal, ymujeres sinembarazo con edad para embarazarse. Entre los datos recolectados estaban las siguientesobservaciones respecto a la variable medida en las mujeres de los tres grupos.Preeclampsia Controles con embarazo Controles sin emharazo113.5106.639.195.543.549.299.591.495.6113.1100.888.292.278.694.5115.9107.2103.2104.794.993.0(Continua)
    • 392 CAPITULO 8 ANALISIS DE LA VARIANCIAPreeclampsia Controles con embarazo Controles sin embarazo102.9101.2104.975.471.173.976.081.372.775.355.290.555.896.991.6108.677.3100.061.783.3103.692.398.685.0128.288.3100.4107.1105.5119.388.282.2125.0126.1129.1106.9110.0127.3128.6FUENTE: Utilizada con autorizaci6n del Dr. Alexander Smarason.65. El objetivo de un estudio realizado por LeRoith et ai. (A-63) era evaluar los efectos de la admi­nistracion, por siete semanas, de la hormona del crecimiento recombinante humana (rhGH) yel factor de crecimiento parecido ala insulina recombinante humano (rhIGF-I), separadamen­te y en combinacion, sobre la funcion inmunologica en monas rhesus de edad avanzada. Losensayos para la funcion in vivo del sistema inmunologico dependieron de la respuesta a lainmunizacion con toxoide tetanico. Los siguientes datos corresponden a las respuestas para lostres grupos de tratamiento y para el grupo de control.Salina rhIGF-Il rhGH rhIGF-I +rhGH11.2 12.2 12.15 11.59.0 9.4 11.20 12.410.8 10.7 10.60 10.810.0 10.8 11.30 11.99.1 11.00 11.012.6FUENTE: Utilizada con autorizaci6n del Dr. Jad A. Yanovski.66. Hampl etai. (A-64) se dieron cuenta de que eloxido nitrico (NO) inhalado es un vasodilatadorpulmonar selectivo. Plantearon la hipotesis de que una dietilenotriamina I NO (DETAlNO)nebulizada permanecerfa en las vias respiratorias bajas y suministrarfa suficiente NO demanera continua para alcanzar vasodilatacion sostenida en la hipertension pulmonar eroni­ca. Los individuos estudiados eran ratas macho adultas Sprague-Dawley libres de patogenosespecfficos. Los animales fueron repartidos al azar en cuatro grupos: controles sin trata­miento y con tension pulmonar normal; inyectados con rnonocrotalina (para inducirhipertensi6n), sin ninglin tratarniento (MeT); inyectados con rnonocrotalina, tratados condosis de 5 0 50 !lrnol de DETAINO. Diecinueve dias despues de inducir la hipertensi6npulrnonar en los dos grupos de ratas, los investigadores iniciaron el procedimiento del trata­
    • 393PREGUNTAS Y EJERCICIOS DE REPASOmiento, que duro cuatro dras. Entre los datos recolectados estan las siguientes medicionessobre el gasto cardiaco de los animales, en los cuatro grupos.MCT + DETA/NOControl MCT 5 !lmol 50 !!IDol71.8 42.8 72.5 47.166.1 53.2 62.9 86.667.6 56.1 58.9 56.066.4 56.5 69.3FUENTE: Utilizada con autorizaci6n del Dr. Stephen L. Archer.En los siguiente.." ejercicios se utUiza una gran cantidad de datosdisponihles en disco para computadora que el editor puede proveel1. Consulte los datos del acido siaJico serico unido a lipidos de 1400 individuos (ASSLDATOS).Se pretende realizar un estudio para determinar si las mediciones de acido sialico sericounido a lipidos (ASSL) pueden ser utilizadas para detectar cancer de mama. Las medicionesde ASSL (en mg/dl) corresponden a cuatro poblaciones de individuos: grupo A de control,individuos normales; pacientes con enfermedad benigna de seno, grupo B; pacientes concancer primario de seno, grupo C, y pacientes con cancer de seno metastasico recurrente,grupo D. Seleccione una muestra aleatoria simple de tamafio 10 a partir de cada poblaci6n,y realice un analisis adecuado para determinar si es posible conduir que las cuatro mediaspoblacionales son diferentes. Sea a =.05, y determine el valor de p. Pruebe todos los paresposibles de medias. ~Que condusiones pueden obtenerse a partir del analisis? Prepare uninforme verbal de los hallazgos. Compare los resultados obtenidos entre varios estudiantes.2. Consulte los datos correspondientes al nivel serico de enzima convertidora de angiostesi­na de 1600 individuos (ECADATOS). La sarcoidosis, que se encuentra en todo el mundo,es una enfermedad granulomatosa sistemica de origen desconocido. Los ensayos realiza­dos con la enzima convertidora de angiostesina (ECA) en el suero es util para diagnosticarsarcoidosis activa. La actividad de ECA por 10 general aumenta en pacientes con la enfer­medad, mientras que los niveles normales ocunen en individuos que no han tenido laenfermedad, en pacientes que se han recuperado y en pacientes con otros des6rdenes granu­lomatosos. Los siguientes datos corresponden a los valores de ECA para cuatro poblacionesde individuos dasificados de acuerdo con el estado de la sarcoidosis: el grupo A nunca hatenido esta enfermedad; en el grupo B, la enfermedad se encuentra en estado activo; en elgrupo C, se encuentra en estado estable, y el grupo D 10 forman pacientes recuperados..Seleccione una muestra aleatoria simple de 15 individuos a partir de cada poblaci6n y apli­que el analisis para determinar si es posible conduir que las medias poblacionales son dife­rentes. Sea a =.05. Utilice la prueba de Tukey para probar las diferencias significativas entrelos pares individuales de medias. Prepare un informe verbal de los hallazgos. Compare losresultados obtenidos entre varios estudiantes.3. Consulte los datos del factor urinario de estimulacion de colonias de 1500 individuos(FUECDATOS). Los datos corresponden a los niveles del factor urinario de estimulaci6n decolonias de cinco poblaciones: individuos normales y cuatro poblaciones con diferentes enfer­medades. Cada observaci6n representa la cantidad promedio de colonias en cuatro laminillas
    • 394 CAPiTULO 8 ANALISIS DE LA VARIANCIAde una sola muestra de orina proveniente de un s610 individuo dado. Seleccione una muestraaleatoria simple de tamaflo 15 a partir de cada una de las cinco poblaciones y aplique elanaIisis de la variancia para determinar si es posible conduir que las medias poblacionales sondiferentes. Sea a .05. Utilice la estadistica de HSD de Tukey para probar las diferenciassignificativas entre todos los pares posibles de medias muestrales. Prepare un informe narra­tivo con base en los resultados del anaIisis. Compare los resultados obtenidos entre variosestudiantes.4. Consulte los datos de la cantidad de gl6bulos rojos de 1050 individuos (GRDATOS). Supongaque el estudiante es un consultor en estadistica que trabaja con un investigador medico intere­sado en aprender algo acerca de la relacion entre las concentraslones de folato en la sangre demujeres adultas y la calidad de su dieta. EI investigadore tiene disponibles tres poblacionesde individuos: la primera poblacion la forman individuos con una dieta considerada de buenacalidad; la segunda poblacion tiene una dieta considerada como regular, y la tercera poblaci6ntiene una dieta deficiente. Para cada individuo existe tambien informacion de la cantidad defolato en globulos rojos (GR) (en ~g!litro de globulos rojos). Extraiga una muestra aleatoriasimple de tamaflo lOa partir de cada poblacion y determine si el investigador puede conduirque las tres poblaciones difieren respecto al promedio de folato en GR. Utilice la prueba deTukey para hacer todas las comparaciones posibles. Sea a = .05 Ycalcule el valor de p paracada prueba. Compare los resultados obtenidos entre varios estudiantes.5. Consulte los datos sobre el nivel serico de colesterol de 350 individuos sometidos a tresregimenes dieteticos (SERCOL). Trescientos cincuenta varones adultos con edades entre 30y 65 arios participaron en un estudio para investigar las relaciones entre el consumo de carney los niveles sericos de colesterol. Cada individuo comi6 carne de res como unico alimentodurante 20 semanas; en otro periodo de 20 semanas comieron solo carne de puerco, y en untercer periodo comieron polIo 0 pescado durante 20 semanas. AI terminar cada periodo, semidieron los niveles de colesterol (mgtlOOml) en cada individuo. Se1eccione una muestraaleatoria de 10 individuos a partir de la poblaci6n de 350. Utilice el anaIisis bilateral de lavariancia para determinar si es posible conduir que existe una diferencia en las mediaspoblacionales del nivel de colesterol entre las tres dietas. Sea a = .05. Compare los resulta­dos obtenidos entre varios estudiantes.BmllOGRAFIABibliografia de metodologia1. R. A. Fisher, The Design ofExperiments, octava edici6n, Oliver and Boyd, Edinburgh.2. R. A. Fisher, Contributions to Mathematical Statistics, Wiley, New York.3. R. A. Fisher, Statistical Methods for Research Workers, tatorceava edici6n, Hafner, New York.4. Klaus Hinkelmann y Oscar Kempthorne, Design andAnalysis ofExperiments, edici6n revisada,Wiley, New York.5. Douglas C. Montgomery, Design and Analysis ofExperiments, cuarta edicion, Wiley, New York.6. Jerome L. Myers y Arnold D. Well, Research Design and StatisticalAnalysis, Earlbaum Associates,Hillsdale, NJ.7. J. w. Tukey, "The Problem of Multiple Comparisons", Ditto, Princeton University; citado enRoger E. Kirk, Experimental Design: Procedures for the Behavioral Sciences, Brooks/Cole, PacificGrove, CA.
    • BIBLIOGR.AFiA 3958. B. J. Winer, Statistical Principles in Experimental Design, Segunda edici6n, McGraw-Hill, NewYork.9. Emil Spj~tvoll y Michael R. Stoline, "An Extension of the T-Method of Multiple Comparisonto Include the Cases with Unequal Sample Sizes",journal ofthe American StatisticalAssociation,68, 975-978.Bibliograffa de aplicacionesA.I. Heikki Makynen, Mika Kah6nen, Xiumin Wu, Pertti Arvola e Ilkka P6rsti, "EndothelialFunction in Deoxycorticosterone-NaCI Hypertension: Effect of Calcium Supplementation",Circulation, 93, 1000-1008.A-2. Vijendra K. Singh, Reed P. Warren, J. Dennis Odell y Phyllis Cole, "Changes of SolubleInterleukin-2, Interleukin-2 Receptor, T8 Antigen, and Interleukin-l in the Serum ofAutisticChildren", Clinical Immunology and Immunopathology, 61,448-455.A-S. David A. Schwartz, Robert K. Merchant, Richard A. Helmers, Steven R. Gilbert, Charles S.Dayton y Gary W Hunninghake, "The Influence of Cigarette Smoking on Lung Function inPatients with Idiopathic Pulmonary Fibrosis",American Review ofRespiratory Disease, 144, 504­506.A·4. Erika Sziid6czky, Annamiiria Falus,Attila Nemeth, Gy6rgy Teszeriy Erzsebet Moussong-Kov,ics,"Effect of Phototherapy on 3H-Imipramine Binding Sites in Patients with SAD, Non-SADand in Healthy Controls",journal ofAffictive Disorders, 22, 179-184.A-5. Meg Gulanick, "Is Phase 2 Cardiac Rehabilitation Necessary for Early Recovery of Patientswith Cardiac Disease? A Randomized, Controlled Study", Heart & Lung, 20,9-15.A·6. E. Azoulay-Dupuis, J. B. Bedos, E. Vallee, D. J. Hardy, R. N. Swanson y J. J. Pocidalo,"Antipneumococcal Activity of Ciprofloxacin, Ofloxacin, and Temafloxacin in an Experi­mental Mouse Pneumonia Model atVarious Stages ofthe Disease",journal ofInftctious Diseases,163,319-324.A-7. Robert D. Budd, "Cocaine Abuse and Violent Death", Americanjournal ofDrug and AlcoholAbuse, 15, 375-382.A-S. Jules Rosen, Charles F. Reynolds III, Amy L. Yeager, Patricia R. Houck y Linda F. Hurwitz,"Sleep Disturbances in Survivors of the Nazi Holocaust", Americanjournal ofPsychiatry, 148,62.66.A-9. A. C. Regenstein, J. Belluomini y M. Katz, "Terbutaline Tocolysis and Glucose Intolerance",Obstetrics and Gynecology, 81,739-741.A-lO. P. O. Jessee y C. E. Cecil, "Evaluation of Social Problem-Solving Abilities in Rural HomeHealth Visitors and Visiting Nurses", Maternal-Child Nursingjournal, 20, 53-64.A-II. Wilfred Druml, George Grimm, Anton N. Laggner, Kurt Lenz y Bruno Schneewei~, "LacticAcid Kinetics in Respiratory Alkalosis", Critical Care Medicine, 19, 1120-1124.A-12. Brian J. McConville, M. Harold Fogelson, Andrew B. Norman, William M. Klykylo, Pat Z.Manderscheid, Karen W. Parker y Paul R. Sanberg, "Nicotine Potentiation of Haloperidol inReducing Tic Frequency in Tourettes Disorder",Americanjournal ofPsychiatry, 148,793-794.A-IS. M. E. Valencia, G. McNeill, J. M. Brockway y J. S. Smith, "The Effect of EnvironmentalTemperature and Humidity on 24h Energy Expenditure in Men", BritishjournalofNutrition,68,319 -327.
    • 396 CAPITULO 8 ANALISIS DE LA VARIANCIAA-14. D, S, Hodgson, C, I. Dunlop, P. L Chapman y]. L Grandy, ~Cardiopulmonary Responses toExperimentally Induced Gastric Dilatation in Isoflurane-Anesthetized Dogs",AmericanJournalofVeterinary Research, 53,938-943,A-15. James 0, Hill,John C, Peters, George W. Reed, David G, Schlundt, Teresa Sharp y Harry LGreene, "Nutrient Balance in Humans: Effect ofDiet Composition",AmericanJournal ofClinicalNutrition, 54, 10-17,A-I6. RobertA. Blum, John H. Wilton, Donald M, Hilligoss, Mark]. Gardner, Eugenia B. Henry,Nedra]. Harrison y Jerome]. Schentag, "Effect of Fluconazole on the Disposition ofPhenytoin", Clinical Pharmacology and Therapeutics, 49, 420-425.A-I7. Peter H. Abbrecht, Krishnan R. Rajagopal y Richard R. Kyle, "Expiratory Muscle RecruitmentDuring Inspiratory Flow-Resistive Loading and Exercise",AmericanReview ofRespimtory Disease,144, 113-120.A-I8. Jon Kabat-Zinn, Ann O. Massion,Jean Kristeller, Linda Gay Peterson, Kenneth E. Fletcher,Lori Pbert, William R. Lenderking y Saki F. Santorelli, "Effectiveness of a Mediation-BasedStress Reduction Program in the Treatment ofAnxiety Disorders", AmericanJournal ofPsychiatry,149,936-943.A-19. M. Speechley, G. L Dickie, W. W. Weston y V Orr, "Changes in Residents Self-AssessedCompetence During a Two-Year Family Practice Program", Academic Medicine, 68, 163-165.A-20. A. Barnett y R. J. Maughan, "Response of Unacclimatized Males to Repeated Weekly Boutsof Exercise in the Heat", BritishJournal ofSports Medicine, 27, 39-44.A-21. Michael W. Orth, Yisheng Bai, Ibrahim H. Zeytun y Mark E. Cook. "Excess Levels ofCysteineand Homcysteine Induce Tibial Dyschondroplasia in Broiler Chicks",Journal of Nutrition,122,482-487.A-22. Carole Wood Gorenflo y Daniel W. Gorenflo, "The Effects of Information and AugmentativeCommunication Technique on Attitudes Toward Nonspeaking Individuals",Journal ofSPeechand Hearing Research, 34, 19-26.A-23. D. Ouerghi, S. Rivest y D. Richard, "Adrenalectomy Attenuates the Effect of ChemicalCastration on Energy Balance in Rats",Journal ofNutrition, 122,369-373.A-24. R. Niaura, D. B. Abrams, M. Pedraza, P. M. Monti y D. J. Rohsenow, "Smokers Reactions toInterpersonal Interaction and Presentation ofSmoking Cues",Addictive Behaviors, 17, 557-566.A-25. M. B. Max, D. Zeigler, S. E. Shoaf, E. Craig, J. Benjamin, S. H. C. Buzzarel!, M. Perez y B.C. Ghosh, "Effects ofa Single Oral Dose ofDesipramine on Postoperative Morphine Analge­sia",Journal ofPain and Symptom Management, 7, 454-462.A-26. M. Maes, E. Bosmans, E. Suy, C. Vandervorst, C. Dejonckheere yJ. Raus, "Antiphospholipid,Antinuclear, Epstein-Barr and Cytomegalovirus Antibodies, and Soluble Interleukin-2Receptors in Depressive Patients",Journal ofAffective Disoniers, 21, 133-140.A-27. Elaine A. Graveley y John H. Littlefield, "A Cost-effectiveness Analysis of Three StaffingModels for the Delivery of Low-Risk Prenatal Care", American Journal of Public Health, 82,180-184.A-28. Tarun K. Das, Jean-Marie Moutquin y Jean-Guy Parent, "Effect of Cigarette Smoking onMaternal Airway Function During Pregnancy", AmericanJournal ofObstetrics and Gynecology,165,675-679.
    • BIBLIOGRAFIA 397A·29. Reed E. Pyeritz, Elliot K. Fishman, Barbara A. Bernhardt y Stanley S. Siegelman, "DuralEctasia Is a Common Feature of the Marfan Syndrome", AmericanJournal ofHuman Genetics,43,726-732.A·30. Sandra L. Nehlsen-Cannarella, David C. Nieman, Anne J. Balk-Lamberton, Patricia A.Markoff, Douglas B. W. Chritton, Gary Gusewitch yJerry W. Lee, "The Effects of ModerateExercise Training on Immune Response", Medicine and Science in Sports and Exercise, 23,64-70.A·31. P.]. Roodenburg,]. W. Wladimiroff, A. van Es y H. F. R. Prechtl, "Classification and QuantitativeAspects of Fetal Movements During the Second Half of Normal Pregnancy", Early HumanDevelopment, 25, 19-35.A·32. J. Vasterling, R. A.]enkins, D. M. Tope y T. G. Burish, "Cognitive Distraction and Relaxation1:raining for the Control ofSide Effects Due to Cancer Chemotherapy",Journal ofBehavioralMedicine, 16, 65-80.A·33. M. Huber, B. Kittner, C. Hojer, G. R. Fink, M. Nevelingy W. D. Heiss, "Effect ofPropentoJ.Yllineon Regional Cerebral Glucose Metabolism inAcute Ischemic Stroke",journal ofCerebral BloodFlow and Metabolism, 13, 526-530.A·M. L. L. Smith, M.H. Brunetz, 1:: C. Chenier, M. R. McCammon,]. A. Houmard, M. E. Frankliny R. G. Israel, "The Effects ofStatic and Ballistic Stretching on Delayed Onset Muscle Sorenessand Creatine Kinase", Research Quarterly for Exercise and Sport, 64, 103-107.A-35. B. Ciinprich, "Development of an Intervention to Restore Attention in Cancer Patients",Cancer Nursing, 16, 83-92.A-36. D. Paradis, F. Vallee, S. Allard, C. Bisson, N. Daviau, C. Drapeau, F. Auger y M. LeBel,"Comparative Studv of Pharmacokinetics and Serum Bactericidal Activities of Cefpirome,Ceftazidime, Ceftriaxone, Imipenem, and Ciprofloxacin",AntimicrobialAgentsand Chemotherapy,36, 2085-2092.A-37. Gotaro Shirakami, Masahiro Murakawa, Koh Shingu, Susumu Mashima, Shin-ichi Suga, TatsuoMagaribuchi, Toyohiko Ohigashi, Tsutomu Shichino, Kazuwa Nakao y Kenjiro Mori,"Perioperative Plasma Concentrations of Endothelin and Natriuretic Peptides in ChildrenUndergoing Living-Related Liver Transplantation", Anaesthesia and Analgesia, 82, 235-240.A-38. Masahito Sakakibara y]unichiro Hayano, "Effect of Slowed Respiration on CardiacParasympathetic Response to Threat", Psychosomatic Medicine, 58,32-37.A-39. Toshiaki 1:akahashi, Yuji Suto, Shinsuke Kato y Eisaku Ohama, "Experimental Acute DorsalCompression of Cat Spinal Cord", Spine, 21, 166-173.A-40. Motohiro Yamashita, Ralph A. Schmid, Kan Okabayashi, KoeiAndo,]un Kobayashi,]oel D.Cooper y G. Alexander Patterson, "PentoxiJ.Ylline in Flush Solution Improves Early LungAllograft Function", Annals ofThoracic Surgery, 61, 1055-1061.A-41. ]in-R. Zhou, Eric T. GuggeryJohn W. Erdman,]r., "The Crystalline Form of Carotenes andthe Food Matrix in Carrot Root Decrease the Relative Bioavailability of Beta and Alpha­Carotene in the Ferret Model",]ournal ofthe American College ofNutrition, 15, 84-91.A-42. J. A. Potteiger, G. L. Nickel, M. J. Webster, M. D. Haub y R. J. Palmer, "Sodium CitrateIngestion Enhances 30 km Cycling Performance", InternationalJournal of Sports Medicine,17,7-11.
    • 398 CAPITULO 8 ANALISIS DE LA VARIANCIAA·43. Robert A Teitge, Wade Faerber, Patricia Des Madryl yThomas M. Matelic, "Stress Radiographsofthe PatellofemoralJoint",journal ofBone andjoint Surgery, 78-A, 193-203.A·44. Akihiko Ikeda, Koichi Nishimura, Hiroshi Koyama, Mitsuhiro Tsukino, Michiaki Mishima yTakateru Izumi, "Dose Response Study oflpratropium BromideAerosol on Maximum ExercisePerformance in Stable Patients with Chronic Obstructive Pulmonary Disease", Thorax, 51,48-53.A-45. Antti Pertovaara, Timo Kauppila y Minna M. Hamalainen, "Influence ofSkin Temperatureon Heat Pain Threshold in Humans", Experimental Brain Research, 107, 497-503.A·46. P. G. Knight, S. Muttukrishna y N. P. Groome, "Development and Application ofa Two-SiteEnzyme Immunoassay for the Determination of Total Activin-A Concentrations in Serumand Follicular Fluid",journal ofEndocrinology, 148,267-279.A-47. Pierre C. Maheux, Brigitte Bonin, Anne Dizazo, Pierre Guimond, Danielle Monier, JoseeBourque yJean-Louis Chiasson, "Glucose Homeostasis During Spontaneous Labor in Nor­mal Human Pregnancy",journal ofClinical Endocrinology and Metabolism, 81,209-215.A-48. Howard Trachtrnan, John Maesaka, Stephen Futtenweit, Chan Ma, Elsa Valderrama,JamesC. M. Chan yWinnie Chan, "The Effect ofRecombinant Human Insulin-Like Growth Factor­Ion Chronic Puromycin Arninonucleoside Nephropathy in Rats", Pediatric Research, 39, 13­19.A-49. M. H. Samuels y P. Kramer, "Differential Effects ofShort-Term Fasting on PulsatileThyrotropin,Gonadotropin and a-Subunit Secretion in Healthy Men -A Clinical Research Center Study",journal ofClinical Endocrinology and Metabolism, 81,32-36.A-50. T. J. Sobotka, P. Whittaker, J. M. Sobotka, R. E. Brodie, D. Y. Quander, M. Robl, M. Bryant yC. N. Barton, "Neurobehavioral Dysfunctions Associated with Dietary Iron Overload",Physiology and Behavior, 58,213-219.A·51. Thor Willy Ruud Hansen, "Bilirubin Entry into a.nd Clearance from Rat Brain DuringHypercarbia and Hyperosmolality", Pediatric Research, 39,72-76.A·52. Anna G. Johansson, Erik Lindh, Werner F. Blum, Gina Kollerup, Ole H. S!i)rensen y SverkerLjunghall, "Effects of Growth Hormone and Insulin-like Growth Factor I in Men withIdiopathic Osteoporosis",journal ofClinical Endocrinology and Metabolism, 81, 44-48.A·53. Jaap H. Strijbos, Dirkje S. lbstma, Richard van Altena, Fernando Gimeno y Gerard H. KQeter,"A Comparison Between an Outpatient Hospital-Based Pulmonary Rehabilitation Programand a Horne-Care Pulmonary Rehabilitation Program in Patients with COPD", Chest, 109,366-372.A·54. G. P. Lambert, R. T. Chang, D. J oensen, X. Shi, R. W. Summers, H. P. Schedl y C. V. Gisolfi,"Simultaneous Determination ofGastric Emptying and Intestinal Absorption During CycleExercise in Humans", Internationaljournal ofSports Medicine, 17, 48-55.A·55. Lizabeth Roemer, Mary Borkovec, Sharon Posa y T. D. Borkovec, "A Self-Diagnostic Measureof Generalized Anxiety Disorder", journal ofBehavior Therapy & Experimental Psychiatry, 26,345-350.A-56. Ilse Christiansen, Cecilia Gidlof, Karl-Michael Kalkner, Hans Hagberg, HeIge Bennmarkery Thomas T6tterman, "Elevated Serum Levels ofSoluble lCAM-1 in Non-Hodgkins Lym­
    • BIBLIOGRAFlA 399phomas Correlate with Tumour Burden, Disease Activity and Other Prognostic Markers",BritishJournal ofHaema,tology, 92,639-646.A-57. Sylvie Cossette, Louise Levesque y Liane LaU)in, "Informal and Formal Support for Caregiversofa Demented Relative: Do Gender and Kinship Make a Difference?", Research in Nursing &Health, 18, 437-451.A·58. Sadatomo Tasaka, Akitoshi Ishizaka, Koichi Sayama, Fumio Sakamaki, Hidetoshi Nakamura,Takeshi Terashima, Yasuhiro Waki, Kenzo Soejima, Morio Nakamura, Hiroaki Matsubara,Seitaro Fujishima y Minoru Kanazawa, "Heat-Killed Corynebacterium parvum EnhancesEndotoxin Lung Injury with Increased TNF Production in Guinea Pigs", AmericanJournal ofRespiratory and Critical Care Medicine, 153, 1047-1055.A-59. Mitsugi Takahashi, Hideo Nagao y Hirosi Matsuda, "Estimating Bone Change in Patientswith Severe Disability", Development Medicine and Child Neurology, 37, 1085-1093.A-60. Corrie B. Allen, "Effects of Dietary Copper Deficiency on Relative Food Intake and GrowthEfficiency in Rats", Physiology & Behavior, 59,247-253.A~61. Christopher B. Hughes, Lillian W Gaber, Abou Bakr Mohey EI-Din, Hani P. Grewal, MalakKotb, Linda Mann y A. Osama Gaber, "Inhibition ofTNFa. Improves Survival in an Experi­mental Model ofAcute Pancreatitis", The American Surgeon, 62, 8-13.A-62. Alexander K. Smarason, Iran L. Sargent y Christopher W. G. Redman, "Endothelial CellProliferation Is Suppressed by Plasma but Not Serum from Women with Preeclampsia",AmericanJournal ofObstetrics and Gynecology, 174, 787-793.A-63. Derek LeRoith,Jack Yanowski, Eric P. Kaldjian, Elaine S.Jaffe, Tanya LeRoith, Kathy Purdue,Barbara D. Cooper, Robert Pyle yWilliamAdler, "The Effects ofGrowth Hormone and Insulin­Like Growth Factor I on the Immune System ofAged Female Monkeys", Endocrinology, 137,1071-1079.A-64. Vaclav Hampl, Martin Tristani-Firouzi, Thomas C. Hutsell y Stephen L. Archer, "NebulizedNitric Oxide/Nucleophile Adduct Reduces Chronic Pulmonary Hypertension", CardiovascularResearch, 31,55-62.
    • -----------------9.1 INTRODUCCION9.2 MODELO DE REGRESION9.3 ECUACION DE REGRESION DELAMUESTRA9.4 EVALUACION DE LA ECUACIONDE REGRESION9.1 INTRODUCCION9.5 USO DE LA ECUACION DEREGRESION9.6 MODELO DE CORRELACION9.7 COEFICIENTE DE CORRELACION9.8 ALGUNAS PRECAUCIONES9.9 RESUMENAI analizar los datos en las disciplinas que conforman las ciencias de la salud, confrecuencia es convehiente obtener algUn conocimiento acerca de la relacion entredos variables. Por ejemplo, es posible que se tenga interes en analizar la relacionentre presion sangufnea y edad, estatura y peso, la concentracion de unmedicamento inyectable y la frecuencia cardiaca, el nivel de consumo de algunosnutrientes y la ganancia de peso, la intensidad de un estfmulo y el tiempo dereaccion, el ingreso familiar y los gastos medicos. La naturaleza e intensidad derelaciones entre variables como las anteriores pueden ser examinadas por mediode los analisis de regresion y correlacion, que son dos tecnicas estadisticas que,aunque estan relacionadas, sirven para propositos diferentes.Regresi6n EI analisis de regresi6n es util para averiguar la forma probable delas relaciones entre las variables, y el objetivo final, cuando se emplea este metodode analisis, es predecir 0 estimar el valor de una variable que corresponde al valordado de otra variable. Las ideasde regresi6n fueron expuestas por primera vez porel cientffico ingles Sir Francis Galton (1822-1911) en sus informes de investigacionacerca de la herencia, primero en chfcharos y despues en la estatura humana. Afir­400
    • 9.2 MODELO 1m REGRESION 401mo que la estatura de un individuo adulto, sin importar si desciende de padresaltos 0 bajos, tiende a revertirse hacia la estatura promedio de la poblacion. Utilizoinicialmente la palabra reversion, y posteriormente regresion, para referirse a estefenomeno.CQrrelacion Por otra parte, el amilisis de correlacion se refiere ala medicion dela intensidad de la relacion entre variables. Cuando se calculan mediciones de co­rrelacion a partir de un co£tiunto de datos, el interes recae en el grado de correlacionentre las variables. Nuevamente, el origen de los conceptos y la terminologfa delamilisis de correlacion se remonta a Galton, el primero en utilizar la palabra corre­lacion en 1888.En este capitulo, el amilisis se limita a la exploracion de la relaci6n lineal entredos variables. En la siguiente secci6n se estudian los conceptos y metodos de regre­si6n, y en la secci6n 9.6 se presentan las ideas y tecnicas de correlacion. En el si­guiente capitulo se estudia el caso donde el interes se centra en las relaciones queexisten entre tres 0 mas variables.Los analisis de regresion y correlaci6n son areas en las que la rapidez y exac­titud de la computadora son de gran valor, por 10 que los datos para los ejerciciosde este capitulo se presentan en tal forma que pueden ser procesados mediantecomputadora. Como siempre, los requerimientos de entrada y las caracterfsticas desalida de los programas y paquetes de software que se uti1izan deberan ser analiza­dos con cuidado.9.2 MODELO DE REGRESIONEn el problema representativo de regresion, como en la mayorfa de los problemasde estadfstica aplicada, los investigadores disponen de una muestra de observacio­nes extrafda de una pob1acion hipotetica 0 real. Con base en los resultados delanalisis de los datos de la muestra, se pretende llegar a una decisi6n respecto a lapoblacion de la que se extrajo la muestra. Por 10 tanto, es importante que los inves­tigadores comprendan la naturaleza de las poblaciones en las que est<in interesa­dos. Deben saber 10 suficiente respecto a las poblaciones para que sean capaces deelaborar un modelo matematico que la represente, 0 determinar si se ajusta razona­blemente a alg{ln modelo ya establecido. Por ejemplo, si un investigador va a ana­lizar un conjunto de datos mediante los metodos de regresion lineal simple, debeestar seguro de que el modelo de regresi6n lineal simple proporciona una repre­sentacion al menos aproximada de la poblacion. No es de esperarse que el mode­10 sea una representaci6n fiel de la situaci6n real, dado que pocas veces se encuentraesta caracteristica en los modelos de valor practico. Un modelo elaborado de formaque corresponda precisamente con los detalles de la situaci6n es, por 10 general,muy complicado para proporcionar alguna informaci6n de valor. Por otra parte,los resultados que se obtienen a partir del analisis de datos que han sido forzadosdentro de un modelo al que no se ajustan tampoco tienen valor. Sin embargo, porfortuna un modelo perfectamente ajustado no es un requisito para obtener resulta­dos utiles. Los investigadores deben ser capaces de distinguir entre el caso en que el
    • 402 CAPITULO 9 REGRESION Y CORRELACION LINEAL SIMPLEmodelo e1egido y los datos son 10 suficientemente compatibles como para poderproceder y el caso en que se debera rechazar dicho modelo.Supuestos quejundameldan la regresi6n linealsimple Para el mode­10 de regresion lineal simple son importantes dos variables, X y Y. A la variable X seIe conoce por 10 general comovariable independiente, ya que con frecuencia se encuen­tra bajo el control del investigador; es decir, los valores de X pueden ser seleccionadospor el investigador para obtener uno 0 mas valores de Y, en correspondencia con losde X. Por consiguiente, a la otra variable, Y, se Ie conoce como variable dependiente, yse habla de regresi6n de Y sobre X. Los siguientes puntos son las suposiciones quefundamentan el modelo de regresi6n lineal simple.1. Se dice que los valores de la variable independiente X son fijos. Esto significaque los valores de X son selecdonados previamente por e1 investigador, demodo que en la recoleccion de datos dichos valores no pueden variar. En este mo­delo, algunos autores dan a X el nombre de variable no aleatoria, y otros, el devariable matematica. Es necesario sefialar en este momento que el enuncia­do de este supuesto clasifica al modelo como modelo de regresi6n clasico. El anali­sis de regresion tambien puede efectuarse con datos en los queX es una variablealeatoria.2. La variable X se mide sin error. Dado que ning(i.n procedimiento de medici6nes perfecto, esto significa que la magnitud del error de medicion en X es in­significante.3. Para cada valor de X existe una subpoblacion de valores de Y. Para que losprocedimientos de inferencia estadistica de estimacion y prueba de hipotesissean validos estas subpoblaciones deben seguir una distribucion normal. Parapresentar los ejemplos y ejercicios que siguen, se supone que los valores de Ysiguen una distribucion normal.4. Todas las variancias de las subpoblaciones de Y son iguales.5. Todas las medias de las subpoblaciones de Y se encuentran sobre la mismalinea recta. A esto se Ie conoce como suposici6n de linealidad. Esta suposicion seexpresa simb61icamente como:Jly1x = a + ~x (9.2.1)donde Jl 1x es la media de la subpoblaci6n de valores Y para un valor especi­fico de X~ a a y ~ se les conoce como coeficientes de regresion de la poblacion.Geometricamente, a y ~ representan la ordenada al origeny y la pendiente dela recta, respectivamente, en la que se supone estan todas las medias.6. Los valores Y son estadisticamente independientes. En otras palabras, alextraer la muestra, se supone que los valores de Y ohtenidos para un valorde X de ninguna manera dependen de los valor~s de Yelegidos para otrovalor de X.
    • 4039.2 MODELO DE REGRESIONEstas suposiciones pueden resumirse mediante la siguiente ecuadon, llamadamodelo de regresion:y o;+l3x+e (9.2.2)donde y es un valor representativo de una de las subpoblaciones de Y, 0; Y13 soncomo se definen en la ecuacion 9.2.1, y a e se Ie llama termino de error. Si sedespeja e en la ecuadon 9.2.2, se tiene quee y - (0; +I3x)(9.2.3)= y J.Iy1xse puede apreciar que eindica la cantidad con la quey se desvfa de la media de la sub­poblacion de los valores de Y de la cual se extrae. Como consecuencia de la supo­sicion de que las subpoblaciones de los valores de Y siguen una distribucion normalcon variancias iguales, las e para cada subpobladon tambien siguen una distribuci6nnormal con una variancia igual a la variancia comun de las subpoblaciones de valo­res de Y.Las siguientes siglas son de gran utilidad para recordar muchas de las suposi­ciones necesarias para la inferencia en el anaIisis de regresion lineal:LINI [Linealidad (suposicion 5), Independenda (suposicion 6), Normalidad (su­posicion 3), 19uales variancias (suposicion 4)]En la figura 9.2.1 aparece una representacion grafica del modelo de regresi6n.fIX, Y)FIGURA 9.2.1 Representaci6n del modelo de regresi6n lineal simple.
    • 404 CAPITULO 9 REGRESION Y CORREUCION UNEAL SIMPLE9.3 ECUACION DE REGRESIONDE LA MUESTRAEI objeto de interes para el investigador, en la regresion lineal simple, es la ecua­cion de regresion de la poblacion, que describe la relacion real entre la variabledependiente Y y la variable independiente X.En un esfuerzo para lIegar a una decision respecto a la forma probable de esarelacion, el investigador extrae una muestra a partir de la poblacion de interes y, conlos datos resultantes, calcula una ecuacion de regresion que forma la base para lIegara condusiones respecto a la ecuaci6n desconocida de regresi6n de la poblacion.Pmos en el analisis de regresi6n Al no tener informaci6n extensa respec­to a la naturaleza de las variables de interes, una estrategia que se utiliza con fre­cuencia es suponer inicialmente que estan relacionadas en forma lineal. El amllisissubsiguiente comprende estos pasos:1. Determinar si las suposiciones que fundamentan la relaci6n lineal se cumpleno no en los datos disponibles para el analisis.2. 0btener la ecuaci6n de la recta que se ajuste mejor a los datos de la muestra.3. Evaluar la ecuaci6n para obtener una idea de que tan fuerte es la relaci6n y males la utilidad de la ecuaci6n para predecir y estimar.4. Si los datos parecen ajustarse satisfactoriamente al modelo lineal, entonces seutiliza la ecuacion que se obtuvo de los datos de la muestra para predecir yestimar.Cuando se utiliza la ecuaci6n de regresion para predecir, se predice el valorprobable de Y cuando X tiene un valor dado. Cuando se utiliza la ecuaci6n paraestimar, se estima la media de la subpoblaci6n de los valores de Y que se suponeexisten para un valor dado de X. Observe que los datos de la muestra utilizados paraobtener la ecuaci6n de regresi6n consisten en valores conocidos de Xy de Y. Cuandola ecuaci6n se utiliza para predecir y estimar los valores de Y, solo se conoceran losvalores correspondientes de X. Con el siguiente ejemplo se ilustra el uso de los cuatropasos para el anaIisis de regresion lineal mas sencillo.EJEMPLO 9.3.1Despres et al. (A-I) sefialaron que la topografia del tejido adiposo (TA) esta asocia­da con complicaciones metab6licas consideradas como factores de riesgo para en­fermedades cardiovasculares. Afirman que es importante medir la cantidad de tejidoadiposo intraabdominal como parte de la evaluacion del riesgo de enfermedadescardiovasculares en un individuo. La tomografia computada (TC), es la unica tecnicadisponible con la que es posible medir de manera precisa y confiable la cantidad detejido adiposo intraabdominal profundo; sin embargo, es una tecnica costosa y re­quiere de irradiaci6n sobre el individuo. Ademas, la tecnologfa no esta disponiblepara muchos medicos. Despres y sus colaboradores desarrollaron ecuaciones parapredecir la cantidad de tejido adiposo del abdomen a partir de las medicionesantropometricas simples. Los individuos estudiados eran hombres con edades en­
    • 9.3 ECUACION DE REGRESl(JN DE LA MUESTRA 405tre 18 y 42 aflos que no presentaban enfennedades metab6licas que necesitaran trata­miento. En la tabla 9.3.1 se muestran las mediciones tomadas a cada individuo respectoala circunferencia de la cinturay ala cantidad de tejido adiposo profundo mediante latomograffa computada. La pregunta es: ~que tan acertado seria predecir y estimarla cantidad de tejido adiposo abdominal a partir de la medida de circunferencia de lacintura? Esta pregunta es representativa de aquellas que pueden responderse me­diante el amilisis de regresi6n lineal. Dado que la cantidad de tejido adiposo abdomi­nal profundo es la variable sobre la que se pretende estimar y predecir, constituye lavariable dependiente. La variable medici6n de la cintura es la variable independien­te, que se utilizani para hacer las predicciones y estimaciones.•TABlA 9.3.1 Cireunfereneia de la eintura (em), X, y tejido adiposo abdominalpl"Ofundo, Y, de 109 hombresIndividuo X Y Individuo X Y1 74.75 25.72 38 103.00 129.00 75 108.00 217.002 72.60 25.89 39 80.00 74.02 76 100.00 140.003 81.80 42.60 40 79.00 55048 77 103.00 109.004 83.95 42.80 41 83.50 73.13 78 104.00 127.005 74.65 29.84 42 76.00 50.50 79 106.00 112.006 71.85 21.68 43 80.50 50.88 80 109.00 192.007 80.90 29.08 44 86.50 140.00 81 103.50 132.008 83.40 32.98 45 83.00 96.54 82 llO.OO 126.009 63.50 11.44 46 107.10 118.00 83 llO.OO 153.0010 73.20 32.22 47 94.30 107.00 84 112.00 158.0011 71.90 28.32 48 94.50 123.00 85 108.50 183.0012 75.00 43.86 49 79.70 65.92 86 104.00 184.0013 73.10 38.21 50 79.30 81.29 87 111.00 121.0014 79.00 42.48 51 89.80 111.00 88 108.50 159.0015 77.00 30.96 52 83.80 90.73 89 121.00 245.0016 68.85 55.78 53 85.20 133.00 90 109.00 137.0017 75.95 43.78 54 75.50 41.90 91 97.50 165.0018 74.15 33.41 55 78.40 41.71 92 105.50 152.0019 73.80 43.35 56 78.60 58.16 93 98.00 181.0020 75.90 29.31 57 87.80 88.85 94 94.50 80.9521 76.85 36.60 58 86.30 155.00 95 97.00 137.0022 80.90 40.25 59 85.50 70.77 96 105.00 125.0023 79.90 35.43 60 83.70 75.08 97 106.00 241.0024 89.20 60.09 61 77.60 57.05 98 99.00 134.0025 82.00 45.84 62 84.90 99.73 99 91.00 150.0026 92.00 70.40 63 79.80 27.96 100 102.50 198.0027 86.60 83.45 64 108.30 123.00 101 106.00 151.0028 80.50 84.30 65 119.60 90041 102 109.10 229.0029 86.00 78.89 66 119.90 106.00 103 115.00 253.0030 82.50 64.75 67 96.50 144.00 104 101.00 188.0031 83.50 72.56 68 105.50 121.00 105 100.10 124.0032 88.10 89.31 69 105.00 97.13 106 93.30 62.2033 90.80 78.94 70 107.00 166.00 107 101.80 133.0034 89.40 83.55 71 107.00 87.99 108 107.90 208.0035 102.00 127.00 72 101.00 104.00 109 108.50 208.0036 94.50 121.00 73 97.00 100.0037 91.00 107.00 74 100.00 123.00FUENTE: Utilizada con autorizaci6n de Jean-Pierre Despres, Ph. D.
    • 406 CAPiTULO 9 REGRESION Y CQRRELACION LINEAL SIMPLEDiagrama de dispersionE1 primer paso, generalmente utH en el estudio de la relaci6n entre dos variables,es preparar un diagrama de dispersion de los datos, como se muestra en la figura9.3.1. Los puntos se grafican asignando los va10res de la variable independiente X a1eje horizontal y los valores de la variable dependiente Yal eje vertical.El patr6n que se obtiene mediante los puntos graficados en el diagrama dedispersion, generalmente sugiere la naturaleza basicay la fuerza de la relacion de dosvariables. Como se muestra en la figura 9.3.1, por ejemplo, los puntos parecenestar dispersos en tomo a una linea recta imaginaria. El diagrama de dispersiontambien muestra, en general, que los individuos con cintura grande tambien tie­nen mas tejido adiposo abdominal. Estos resultados sugieren que la relaci6n entrelas dos variables puede ser representada mediante una linea rectaque cruza el eje Ycerca del origen un lingulo de 45 grados, aproximadamente, con respecto al eje X.Se ve como si fuera sencillo trazar, a pulso, a traves de los puntos, la recta que describela relacion entre Xy Y. Sin embargo, es muy poco probable que las rectas trazadas pordos personas sean exaetamente la misma. Dicho de otra manera, cada persona quetrace una recta a ojo, 0 a pulso, obtendria una recta ligeramente diferente. Surgeentonees la pregunta de que recta es la que describe mejor la relaci6n entre las dos260240>- 22012000-0c:.a 180ea.]! 160E0-0-fa 1400"t0120i0100Q)-0<1! 80,«~6040200•••••..••• ••••• •• •• • • •• ••• • • •• • • •••••, I ••• • •• •• • •• • ••• ••. •.".•• • • ••• ••• • •..• •.,. .."• •...... •• ••..".••l I•L0 60 65 70 75 60 85 90 95 100 105 110 115. 120 125Circunferencia de la cintura (em), XFIGURA 9.3.1 Diagrama de dispersi6n de los datos de la tabla 9.3.1.
    • 9.3 ECUACION DE REGRESION DE LA MUESTRA 407variables, pero no se puede obtener una respuesta a esa pregunta observando lasrectas. De hecho, no es probable que alguna de las rectas trazadas a pulso sobrelos puntos sea la que m~jor describe la relaci6n entre XyY, dado que las rectas a pulsoreflejan defectos de visualizacion 0 juicio de la persona que las traza. Analogamente,cuando se juzga crull de dos rectas describe mejor la relacion, la evaluacion subjetivaesm expuesta a las mismas deficiencias.Lo que se necesita para obtener la recta deseada es un metodo que no esteexpuesto a estas deficiencias.La recta de minimos cuadradosAI metodo que se utiliza regularmente para obtener la recta deseada se Ie conocecomo metodo de minimos cuadrados, y a la recta resultante se Ie conoce como recta deminimos cuadrados. En el siguiente amilisis se explica la razori por la que se Ie da esenombre a este metodo.De acuerdo con los conceptos basicos del algebra, la ecuacion general de unarecta esta dada por la expresiony = a + bx (9.3.1)donde y es un valor sobre el eje vertical, x un valor sobre el eje horizontal, a es elpunto donde la recta cruza el eje vertical, y b indica la cantidad con la cual y cambiapor cada unidad de cambio en x. La ordenada al origen es a, y b es la pendiente de larecta. Para trazar una recta con base en la ecuacion 9.3.1, s~ necesitan los valores nume­ricos de las constantesa yb. Dadas estas constantes, pueden sustituirse varios valores dex en la ecuacion para obtener los valores correspondientes de y. Despues, es posiblegraficar los puntas resultantes. Dado que dos pan:jas cualesquiera de esas coordenadasdeterminan una recta, es posible seleccionardos de ellas para ubicarlas en el sistema decoordenadas y unirlas para obtener la recta correspondiente a la ecuacion.CaIculo de la recta de minimos cuadradosLa ecuacion de regresion lineal por mfnimos cuadrados se obtiene a partir de losdatos de la muestra mediante calculos aritmeticos sencillos que se pueden realizanmanualmente. Ya que estos calculos consumen tiempo, son laboriosos y esmn sujetosa error, la ecuacion de regresion lineal se puede obtener con mejores resultados me­diante el uso de programas de computadora. Aunque el investigador tipico no nece­sita preocuparse de la aritmetica asociada, ellector interesado encontrara informacional respecto en las referencias bibliograficas anotadas al final del capitulo.Mediante el programa MINITAB se obtuvo la ecuacion de regresion linealcon los datos de la tabla 9.3.1. Despues de ingresar los valores de X en la columna1 y los valores de Yen la columna 2, se procede como se muestra en la figura 9.3.2.Por ahora, la (mica informacion que nos interesa de los resultados mostradosen la figura 9.3.2 se relaciona con la ecuacion de regresion. Mas adelante se estu­diani otra informacion relacionada.En la figura 9.3.2 es posible observar que la ecuacion de regresi6n lineal pormfnimos cuadrados describe la relacion entre la circunferencia de la cintura y lacantidad de tejido adiposo abdominal; esta ecuaci6n se puede escribir de la si­guiente forma:y= -216 + 3.46x (9.3.2)- - - - _.........._ ­
    • 408 CAPITULO 9 REGRESION Y CORRELACION LINEAL SIMPLECaja de dialogo: Comandos de la sesi6n:Stat> Regression> Regression MTB > Name C3 = FITS1C4 RESl1Teclear y en Response y x en Predictors. MTB > Regress y 1 x;Clic Storage. Verificar Residuals y Fits. SUBC > Fits FITS1jClic OK. SUBC > Constant;SUBC > Residuals RESI.Resultados:Analisis de regresi6nThe regression equation is y -216 + 3.46 x ~--~---------Predictor Coef Stdev t-ratio pConstant -215.98 21. 80 -9.91 0.000x 3.4589 0.2347 14.74 0.000s = 33.06 R-sq = 67.0% R-sq( ) = 66.7%Analysis of VarianceSOURCE DF SS MS F P Regression 1 237549 237549 217.28 0.000 Error 107 116982 1093 Total 108 354531 Observaciones inusualesObs. x y Fit Stdev.Fit Residual St.Resid 58 86 155.00 82.52 3.43 72.48 2.20R 65 120 90.41 197.70 7.23 -107.29 -3.33R 66 120 106.00 198.74 7.29 -92.74 -2.88R 71 107 87.99 154.12 4.75 -66.13 -2.02R 97 106 241.00 150.66 4.58 90.34 2.76R 102 109 229.00 161. 38 5.13 67.62 2.07R 103 115 253.00 181.79 6.28 71.21 2.19R R denota una observaci6n con un error residual estandar grande.FIGURA 9.3.2 Procedimiento MINITAB y resultados para obtener la ecuaci6n de regre­si6n por mfnimos cuadrados a partir de los datos de la tabla 9.3.1.
    • 9.3 ECUACION DE REGRESION DE LA MUESTRA 409La ecuaci6n dice que, puesto que a es un valor negativo, la recta cruza el eje Y porabajo del origen y que, puesto que el valor b, la pendiente, es positivo, la recta se. . Iextiende desde el extrema izquierdo inferior de la grafica hasta el extrema derechosuperior. Tambien, es posible apreciar que por cada unidad que aumente x, y au­menta por una cantidad igual a 3.46. El simbolo yrepresenta el valor calculado dey mediante la ecuaci6n, en lugar del valor observado de Y.AI sustituir los valores adecuados de X en la ecuaci6n 9.3.2, se obtienen lascoordenadas necesarias para trazar la recta. Suponga, primero, que X = 70 y que seobtieney = -216 + 3.46(70) 26Si X = lIO, se obtieney =-216+3.46(110) 164La recta, junto con los datos originales, se muestra en la figura 9.3.3.260••240 ••220200>­E~ 1800"0::>" 160ec.""ffic 140E - - - - _............._ ­0"0.0 120ro0:2§ 100Q)"0~ 80.«60402000Cireunfereneia de la eintura (em), XFIGURA 9.3.3 Datos originales y recta por minimos cuadrados para el ejemplo 9.3.1. •
    • 410 CAPITULO 9 REGRESION Y CORRELACION LINEAL SIMPLECriterio de m{nimos cuadrados Oespues de obtener 10 que se llama la me­jor recta que describe las relaciones entre las variables, es necesario identificar quecriterio puede ser el mejor. Antes de establecer el criterio, hay que examinar lafigura 9.3.3. Es posible apreciar que, por 10 general, la recta de minimos cuadradosno pasa a traves de los puntos observados que se marcan en el diagrama de dis­persion. En otras palabras, la mayor parte de los puntos observados se desvian de la_recta por cantidades que varian.La recta trazada a traves de los puntos tiene el siguiente significado:La suma de las desviaciones verticales al cuadrado de los puntos obs({rvados (y) a partirde la recta de minimos cuadrados es menor que la suma de las desviaciones verticales alcuadrado de los puntos de los datos queforman cualquier otra recta.En otras palabras, si se eleva al cuadrado la distancia desde cada punto obser­vado (y) hasta la recta de minimos cuadrados y se suman esos valores para todosesos puntos, el total que resulta sera menor que-el total calculado en forma seme­jante para cualquier otra recta que pueda trazarse a traves de los puntos. Por estarazon, la recta trazada se llama recta de minimos cuadrados.FJERCICIOS9.3.1 Grafique las siguientes ecuaciones de regresion sobre papel milimetrico y defina si X y Yguardan una relacion directa 0 inversa.a) y = -3 + 2xb) Y= 3 + .05xc)y=1O-0.75x9.3.2 Las siguientes calificaciones corresponden a la evaluacion de las enfermeras (X) y a las eva­luaciones de los medicos (Y) sobre la condicion de 10 pacientes al momento de hospitaliza­cion en la unidad de traumatologia:X: 18 13 18 15 10 12 8 4 7 3Y: 23 20 18 16 14 11 10 7 6 4a) Construya un diagrama de dispersion para estos datos.b) Grafique las siguientes ecuaciones de regresion lineal sobre el diagrama de dispersion, eindique cual recta se ajusta mejor a los datos. Explique por que se escogio.I) y = 8 + .05x 2) Y= -10 + 2x 3) Y= 1 + Ix Para cada uno de los siguientes ejercicios, a) dibuje un diagrama de dispersion y b) obtengala ecuacion de regresion y grafiquela sobre el diagrama.9.3.3 Un proyecto de investigacion realizado por Phillips et. al. (A-2) estuvo motivado porqueexiste una gran variedad de manifestaciones cHnicas de anemia de celulas falciformes. En unesfuerzo por explicar esta variacion, los investigadores utilizaron un microrre6metro esfericomagnetoacustico, desarrollado en su laboratorio para medir algunos panimetros reologicosde suspensiones de celulas en individuos con esta enfermedad. Correlacionaron sus resulta­dos con eventos cHnicos y fallas terminales organicas en los individuos con anemia de celulasfalciformes. La siguiente tabla muestra las calificaciones para cada una de las mediciones
    • EJERCICIOS 411reol6gicas, m6dulos de viscosidad (VI C) (X), y calificadones de fallas terminales organicas (Y). Las calificaciones de fallas terminales se hicieron con base en la presencia de nefropatia, necrosis avascular del hueso, ataques de apoplejfa,retinopatia, de hipoxemia en reposo despues de sfndrome toracico agudo, ulcera de miembros inferiores y priapismo con impo­tencia. yx X Y .32 0 .57 2 .72 3 .63 5 .38 1 .37 1 FUENTE: George Phlllips, Jr., Bruce Coffey, .61 4 .45 1 Roger Tran-Son-Tay, T. R. Kinney. Eugene .48 3 .85 4 P. Orringer y R. M. Hochmuth, .48 1 .80 4 "Relationship of Clinical Severity to .70 3 .36 1 Packed Cell Rheology in Sickle Cell Anemia", Blood, 78, 2735-2739. .41 2 .69 4 9.3.4 Habib y Lutchen (A-3) presentaron una tecnica de diagn6stico que resulta ser muy interesan­te para medicos especialistas en problemas respiratorios. Las siguientes calificaciones fueronproduddas por esta tecnica, Hamada AMDN; tambien se presentan las calificaciones (% depredicci6n) del volumen espiratorio forzado (VEF) registrado en 22 individuos. Los prime­ros siete individuos eran sanos, del octavo al decimoseptimo individuo tenfan asma, y elresto de individuos eran pacientes con fibrosis quistica.Paciente AMDN1 1.36 102 2 1.42 92 3 1.41 111·4 1.44 94 - - - - _.........._ ­5 1.47 99 6 1.39 98 7 1.47 99 8 1.79 80 9 1.71 87 10 1.44 100 11 1.63 86 12 1.68 102 13 1.75 81 14 1.95 51 15 1.64 78 16 2.22 52 17 1.85 43 18 2.24 59 FUENTE: Robert H. Habib y Kenneth R.19 2.51 30 Lutchen, "Moment Analysis of a20 2.20 61 Multibreath Nitrogen Washout Based on21 2.20 29 an Alveolar Gas Dilution Number",22 1.97 86 American Review ofRespiratory Disease, 144, 513-519.
    • 412 CAPITULO 9 REGRESION Y CORRELACION LINEAL SIMPLE9.3.5 En un articulo de la revistaAmericanJournal o/Clinical Pathology, de Metz et al. (A-4) publica­ron la comparaci6n de tres metodos para determinar el porcentaje de eritrocitos dism6rficosen la orina. Obtuvieron los siguientes resultados al utilizar los metodos A (X) YB (Y) en 75muestras de orina.x y X Y X Y X Y65 55 89 810 0 20 1690 8016 18 66 710 I67 70 91 900 11 17 3019 30 69 71 90 972 074 605 0 20 29 92 8918 35 75 59 93 986 37 3 25 32 73 70 93 9775 69 94 989 5 30 4076 70 95 8932 458 639 49 78 80 95 959 740 5010 15 78 82 95 9748 41 77 9010 17 95 9813 13 47 43 82 73 97 8515 8 57 42 85 74 98 9518 7 50 60 85 80 99 95100 9619 9 60 65 86 7520 9 60 70 100 10088 7416 13 59 69 100 9988 8388 9119 16 62 70FUENTE: Utilizada con autorizaci6n de Menno de Metz.9.3.6 La estatura es, con frecuencia, utilizada como una variable adecuada para predecir el pesoentre la gente de la misma edad y sexo. Los siguientes datos corresponden a las estaturas ypesos de 14 varones con edades entre 19 y 26 afios que participaron en un estudio conducidopor Roberts et al. (A-5).Peso Estatura Peso Estatura83.9 185 69.2 17499.0 180 56.4 16463.8 173 66.2 16971.3 168 88.7 20565.3 175 59.7 16179.6 183 64.6 17770.3 184 78.8 174FUENTE: Utilizada con autorizaci6n de Susan B. Roberts.
    • 4139.4 EVALUACION DE LA ECUACION DE REGRESION9.3.7 Ogasawara (A-6) recolect6 las siguientes calificaciones en la escala completa del IQ (coefi­ciente intelectual) a partir de 45 pares de hermanos con distrofia muscular progresiva deDuchenne.yx78 11477 68112 116114 123104 10799 8192 7680 90113 9199 9597 10680 9984 8289 77100 81III III75 8094 9867 8246 56106 II799 98102 89X Y127113919196100978243771099999100565667716678953811311210393901021049243100901001031036767676663768664FUENTE: Utilizada con autorizaci6n de AkihikoOgasawara.9.4 EVALUACION DE IA ECUACION,DE REGRESIONDespues de obtener la ecuaci6n de regresi6n, es necesario evaluarla para determi­nar sl describe adecuadamente la relaci6n entre las dos variables y si puede utilizar­se convenientemente con fines de predicci6n y estimaci6n.Si H 0:f3 = 0 no es rechw:.ada Si en la poblaci6n la relaci6n entre X y Yeslineal, ~, la pendiente de la recta que describe esa relaci6n, sera positiva, negativa 0igual a cero. Si ~ es cera, los datos de la muestra extraida de la poblaci6n, a lalarga, praporcionaran ecuaciones de regresi6n lineal que tienen poco 0 ningilnvalor para prap6sitos de predicci6n 0 de estimaci6n. Ademas, aunque se suponga
    • • • • • • ••• • • • • • • • • •• • • • • • •• • • • • ••• • • • • • •• •• • • •• • •• • • •• • • • • •• • • ••• • • •• • • • •• •• •• • •• • •414 CAPITULO 9 REGRESION Y CORRELACION LINEAL SIMPLEque la relaci6n entre X y Y es lineal, es probable que la relaci6n tenga mejor des­cripci6n mediante otro modelo no lineal. Cuando sucede este caso, si se ajustan losdatos de la muestra al modelo lineal producen resultados compatibles con unapendiente cero para la poblaci6n. Asi, al efectuar una prueba en la que la hip6tesisnula, que indica que ~ es igual a cero, no se rechaza, se puede conduir (bajo lasuposici6n de que no se comete el error de tipo II al aceptar una hip6tesis nula): 1)que aunque la relaci6n entre X y Y puede ser lineal, no es 10 suficientemente estre­cha para permitir que X sea de gran valor para estimar 0 predecir a Y, 0 bien, 2) quela relaci6n entre X y Y no es lineal; es decir, algunos modelos curvilineos se ajustanmejor a los datos. La FIgura 9.4.1 muestra las clases de relaciones entre X yYen unapoblaci6n que puede prevenir el rechazo de la hip6tesis nula ~ O.Si H 0: f3 =0 es rechazada Considere las siguientes situaciones en una po­blaci6n que puede pioducir el rechazo de la hip6tesis nula ~ = O. Suponga que sino se comete un error de tipo I, el rechazo de la hip6tesis nula, ~ 0, puedey•• ••X(a)y•• ••X(b)FIGURA 9.4.1 Condiciones en una poblaci6n que pueden prevenir eI rechazo de la hip6­tesis nula de que ~ = O. a) La relaci6n entre Xy Yes lineal, pero ~ tiende tanto a cero que losdatos de la muestra probablemente no generaran ecuaciones titiles para predecir Y cuandoel valor de X esta dado. b) Las reIaci6n entre XyYno es lineal, el modelo curvilineo ofrece unajuste mejor para los datos; los datos de la muestra probablemente no generaran ecuacionesque sean titiles para predecir Y cuando el valor de X esta dado.
    • 4159.4 EVALUACION DE LA ECUACION DE REGRESIONy~------------------------------------x(a)y~---------------------------------x(b)FIGURA 9.4.2 Las condiciones de la poblaci6n con respecto a X y Y que pueden causar elrechazo de la hip6tesis nula de que 13 O. a) La relaci6n X y Yes lineal y de suficiente intensi­dad parajustificar el uso de la ecuaci6n de regresi6n muestral para predecir y estimar Y paravalores dados de X. b) Un modelo lineal ofrece un buen ajuste de datos, pero algunos modeloscurvilfneos ofrecerfan un ajuste todavfa mejor.atribuirse a una de las siguientes condiciones en la poblacion: 1) la relacion eslineal y de suficiente fuerza parajustificar el uso de ecuaciones de regresion muestralpara predecir y estimar Y con base en los valores dados de X, y 2) los datos seajustan bien a un modelo lineal, pero alglin modelo curvilineo podria proporcio­nar un ajuste mas adecuado. La figura 9.4.2 ilustra las dos condiciones que puedanproducir el rechazo de Ho: ~ O.De esta forma, se puede apreciar que es aconsejable probar Ho: ~ == 0 antes deutilizar la ecuacion de regresion de la muestra para prediccion y estimacion. Esto sepuede hacer mediante el analisis de variancia y la estadfstica F, 0 bien, mediante laestadfstica t. Ambos metodos se muestran posteriormente, pero antes de esto, esconveniente saber como se investiga la fuerza de la relacion entre X y Y.Coejiciente de determinacion Una forma de evaluar la eficiencia de la ecua­cion de regresion es comparar la dispersion de los puntos en tomo a la recta deregresion con la dispersion en torno a y, la media de los valores de la muestra de Y.
    • II•••• • •A-216 + 3.46x ~Y• •• • •• ••• • •••• •Y=101.89 • ••• ••1 •• ••• ••0416 CAPITULO 9 REGRESION Y CORRELACION LINEAL SIMPLE260,•240 - • •I•220 ~•::..200~.3­0"0 180c:::I@C. 160 "iilc:E0 140"0.c<1l0 120§"0IJ)"C 100<1l.«~806040200FIGURA 9.4.3 Diagrama de dispersi6n, recta de regresi6n muestral yrecta para el ejem­plo 9.3.1.Si se toma el diagrama de dispersion para el ejemplo 9.3.1 y se traza a traves de lospuntos una recta que intercepte con el eje Yen y y que sea paralela al eje X, puedeobtenerse una impresion visual de las magnitudes relativas de la dispersion de lospuntos en torno a esta recta y a la recta de regresion. Esto se ha hecho en la figura9.4.3.Parece obvio, al observar la figura 9.4:3, que la dispersion de los puntos entorno a la recta de regresion es mucho menor que la dispersion en torno a la rectay. Sin embargo, no es posible decidir que la ecuacion es utH solo con base en esto.La situacion puede no ser siempre tan evidente, de modo que seria mucho masconveniente una medida objetiva de algiin tipo. Esta medida es el coeficiente de deter­minacion.Desviacion total Antes de definir el coeficiente de determinacion, es necesa­rio justificar su uso mediante el examen de la logica en la que se basa su calculo.Primero se comienza por considerar el punto correspondiente a cualquier valorobservado, Yi, para medir la distancia vertical entre dicho punto y la recta y. A estose Ie da el nombre de desviaci6n total y se designa por (y; - y).Circunferencia de la cintura (em), X
    • • •417•409.4 EVALUACION DE LA ECUACION DE REGRESIONDesviaci6n explicada Si se mide la distancia vertical entre la recta de regre­si6n y la recta y, se obtiene ( y y), que se conoce como desviaci6n explicada, porquemuestra en cuanto disminuye la desviaci6n total si la recta de regresi6n se ajusta alos puntos.Desviaci6n inexplicada Finalmente, se mide la distancia vertical entre elpunto ~bservado y la recta de regresi6n para obtener (Yi - y), Hamada desviaci6ninexplicada, porque representa la porci6n de la desviaci6n total que no esta "explica­da" 0 tomada en cuenta por la introducci6n de la recta de regresi6n. Estas trescantidades se muestran para un valor representativo de Yen la figura 9.4.4.Se aprecia entonces que la desviaci6n total para unaYiparticular es igual a lasuma de las desviaciones explicada e inexplicada. Esto puede escribirse simb6lica­mente como:(9.4.1)desviaci6n desviaci6n desviaci6ntotal explicada inexplicada26085 90 95 100 105 110 115 120 125Cireunferencia de la cintura (em), XFIGURA 9.4.4 Diagrama de dispersi6n para mostrar las desviaciones total, explicada einexplicada para los valores seleccionados de Y, ejemplo 9.3.1.240220200>- 180~E- 1600"0c:140~a.iiic 120E0"0..0100"0:2§80"0""~ 60-<20•Y=-216 + 3.46x•• Y= 101.89 • • • •••It•Desviaei6n total •• • •(Yi-Y)• Desviaci6nexplicada•• ••(y -V)• •••• 1•••
    • 418 CAPITULO 9 REGRESION Y CORRELACION LINEAL SIMPLESi se miden estas desviaciones para cada valor de Yi Yy, se eleva al cuadradocada desviacion y se suman todas ellas, se obtiene(9.4.2)suma de suma de suma decuadrados cuadrados cuadradostotal explicada inex:plicadaEstas cantidades se pueden considerar como medidas de dispersion 0 variabilidad.StUna total de cuadrados La suma total de cuadrados (SCtotal) por ejempl0, esuna medida de la dispersion de los valores observados de Yen torno a su media y;es decir, ese termino es una medida de la variacion total en los valores observadosde Y. Ellector puede identificar este termino como el numerador de la formulaconocida para la variancia muestral.StUna de cuadrados exp/icada La suma de cuadrados explicada mide la can­tidad de variabilidad total en los valores observados de Y que se toman en cuentamediante la relacion lineal entre los valores observados de X y Y. A esta cantidad seIe conoce tambien como la suma de cuadrados debida a la regresi6n lineal (SCR).StUna de cuadrados mexplicada La suma de cuadrados inexplicada es una me­dida de dispersion de los valores observados de Y en torno a la recta de regresion,conocida tambien comosumade cuadrados del error 0 suma residualde cuadrados (SC "d I.rest uaYEsta cantidad se minimiza cuando se obtiene la recta de mfnimos cuadrados.La relacion entre estas tres sumas de valores al cuadrado se expresa comoSCtotal SCR + SCresidualLos valores numericos para obtener la suma de cuadrados, para este ejemplo,se muestran en la tabla de amilisis de variancia, figura 9.3.2. Asf, se aprecia queSCtot•1 354531, SCR 237549, SCresidual = 116982 Y354531 = 237549 + 116982354531 = 354531Ctilculo del coeftciente de demrnlirurewn r Intuitivamente es razonable su­poner que, si una ecuacion de regresion describe correctamente la relacion entre dosvariables, la suma de cuadrados explicada 0 de regresion debe constituir una granproporcion de la suma total de cuadrados. Serfa interesante ca1cular, entonces, la mag­nitud de dicha proporcion mediante el d.lculo de la razon de la suma de cuadradosexplicada respecto a la suma total de cuadrados. Esto es exactamente 10 que se hace alevaluaruna ecuacion de regresion con base en los datos de la muestra, y al resultado seIe conoce como coeficiente de determinaci6n r2 de la muestra. En otras palabras,2:(y- y)2 SCRr2::=---­2:(Y; - y)2 SCrotal" " - - - _.._ - ­
    • • •• • •4199.4 EVALUACION DE LA ECUACION DE REGRESIONEn el ejemplo, se tiene que, al utilizar los valores de las sumas de cuadrados a partirde la figura 9.3.2,r2 237549:::: .67354531E1 coeficiente de determinacion de la muestra mide la proximidad del ajustede la ecuacion de regresion de la muestra a los valores observados de Y. Cuando lascantidades (yj y), las distancias verticales de los valores observados de Ya partir dela ecuacion, son pequefias, la suma de cuadrados inexplicada es pequefia. Esto con­duce a una suma de cuadrados inexplicada grande que, a su vez, conduce a un valorgrande de r2. Esto se ilustra en la figura 9.4.5.En la figura 9.4.5(a) se aprecia que todas las observaciones estin proximas ala recta de regresion, y es de esperar que r2 sea grande. De hecho, el valor calculado•(8) (b) r grande como medida mas cercana al ajusle T" pequeno como medida mas lejana al ajuste ••• •r•:(e) (d)r2 1 ,2-71FIGURA 9.4.5 r2 como medida mas cercana al ajuste de la recta de regresi6n lineal paralas observaciones de la muestra.
    • 420 CAPITULO 9 REGRESION Y CORRELACION LINEAL SIMPLEde r2 para estos datos es .986,10 cual indica que aproximadamente 99 por ciento dela variaci6n total en los valores de Yies explicada por la regresi6n.En la figura 9.4.5(b) se ilustra un caso donde los valores de Yiestin amplia­mente dispersos en torno a la recta de regresion, por 10 que se supone que r2 espequeno. El valor de r calculado para los datos es de .403; es decir, menos de 50por ciento de la variacion total en losYies explicada por la regresion.El valor maximo que puede tomar r es 1, un resultado que se obtiene cuandotoda la variadon en los Yies explicada por la regresi6n. Cuando r2 1, todas lasobservaciones caen sobre la recta de regresion. Esta situaci6n se muestra en la figu­ra 9.4.5(c).El limite inferior de r2 es O. Este resultado se obtiene cuando coindden larecta de regresi6n y la recta trazada a traves de y. En esta situaci6n, ninguna de lasvariadones en losYies explicada por la regresi6n. La figura 9.4.5(d) ilustra un casodonde r se aproxima a cero. Por 10 tanto, cuando r2 es grande, la regresi6n haexplicado una gran proporci6n de la variabilidad total en los valores observados deY yse acepta la ecuad6n de regresi6n. Por otra parte, un r pequeno, que indica unafalla de la regresi6n para explicar una gran proporci6n de la variaci6n total en losvalores observados de Y, tiende a arrojar dudas sobre la utilidad de la ecuad6n deregresion para efectuar predicdones y estimadones. Sin embargo, la ecuaci6n se so­mete a un juicio fmal hasta que haya sido sujeta a una prueba estadistica objetiva.Prueba de H .: f3 =0 mediante la estadisticaF El siguiente ejemplo ilustrauno de los metodos para llegar a una conclusi6n respecto a la relaci6n entre Xy Y.EjEMPLO 9.4.1Consulte los datos del ejemplo 9.3.1 para averiguar si es posible concluir que X y Ytienen relaci6n lineal en la poblaci6n de donde se extrajo la muestra.Solucion: Los pasos del procedimiento para la prueba de hip6tesis son como sigue:1. ~atos. Los datos se presentan en el ejemplo 9.3.I.2. Supuestos. Se supone que el modelo simple de regresi6n lineal ylas suposiciones que la sustentan como se describe en la secci6n 9.2son aplicables.3. Hipotesis.Ho:~ 0 HA :~:;t:O a .054. Estadistica de prueha. La estadfstica de prueba es R.V., tal comose analiza a continuaci6n.A partir de los tres terminos de la suma de cuadrados y losgrados de libertad asociados, es posible construir la tabla del anaJi­sis de la variancia como se indica en la tabla 9.4.1.
    • 4219.4 EVALUACION DE LA ECUACION DE REGRESIONTABlA 9.4.1 Tabla ANOVA pala la legresi6n lineal simple Fuente de variacion SC g.l. CM R.v, Regresi6n SCR 1 CMR = SCR/l CMR/CMresiduallinealResidual SCresiduaJ n-2 CM",sidual SC",s;dual/(n - 2)Total n-lSCrotalEn general, los grados de libertad asociados con la suma decuadrados debida a la regresion son iguales al numero de constan­tes de la ecuacion de regresion menos 1. En el caso lineal simple, setiene dos constantes, a y b; por 10 tanto, los grados de libertad parala regresion son 2 - 1 = 1.5. Distribucion de Ia estadistica de prueba. Es posible mostrar quecuando la hipotesis de no relacion lineal entre X y Yes verdadera,y cuando las suposiciones en las que se basa la regresion se cum­plen, la razon que resulta de dividir el cuadrado medio de la regre­si6n entre el cuadrado medio del error sigue una distribuci6n F con1y n - 2 grados de libertad.6. RegIa de decision. Se rechaza si el valor calculado para R.v. esmayor 0 igual que el valor cntico de F.7. CaIculo de la estadistica de prueba. Tal como se observa en lafigura 9.3.2, el valor calculado de F es 217.28.8. Decision estadistica. Se rechaza la hipotesis nula, porque 217.28es mayor que 8.25, el valor cntico de F (el cual se obtuvo porinterpolacion) para 1 y 107 grados de libertad.9. Conclusion. Se concluye que el modelo lineal proporciona un buenajuste para los datos.10. Valor de p. Para esta prueba, puesto que 217.28 > 13.61, se tienequep < .005. •Estimacion del coejiciente de determinacion de lapoblacion EI coe­ficiente de determinacion de la muestra proporciona una estimacion puntual de p2,el coeficiente de determinacion de la poblaci6n. Este coeficiente p2 tiene la misma fun­cion relativa a la poblacion que tiene r2 con respecto a la muestra. Esto indica que laproporcion de la variaci6n total de la poblacion en Yes explicada por la regresionde Y sobre X. Cuando el numero de grados de libertad es pequeno, r2 esta sesgadopositivamente. Es decir, r2 tiende a ser grande. Un estimador insesgado de p2 10proporcionaL(Yi - .W /(n-2)1 (9.4.3)L(Yi - yF /(n -1)
    • 422 CAPiTULO 9 REGRESION Y CORRELACION LINEAL SIMPLEObserve que el numerador de la fracci6n en la ecuaci6n 9.4.3 es el cuadrado medioinexplicado y el denominador es el cuadrado medio total. Estas cantidades estaninduidas en la tabla de analisis de la variancia. Para este ejemplo, al utilizar losdatos de la figura 9.3.2 se tiene:12 1 116982/107 = .66695354531/108Esta cantidad esta etiquetada como R-sq(adj) en la figura 9.3.2 y se reporta como66.7 por ciento. Se aprecia que este valor es ligeramente menor quer2 1 116982 =.67004354531Se aprecia que la diferencia en r2 y 12 se debe alfactor (n - 1)/(n 2). Cuando n esgrande, este factor se aproxima a 1 y la diferencia entre r2 y tiende a cero.Pruebu de H 0: f3 = 0 mediante Ia estadfstica t Cuando se satisfacen lassuposiciones establecidas en la secci6n 9.2, a y b son estimadores puntuales insesga­dos de los parimetros correspondientes ex y ~. Dado que bajo estas suposiciones lassubpoblaciones de los valores de Ysiguen una distribuci6n normal, pueden formar­se tambien intervalos de confianza para y probar hip6tesis sobre ex y ~.Cuando las suposiciones de la secci6n 9.2. se cumplen, cada una de las dis­tribuciones muestrales de a y b siguen una distribuci6n normal con las siguientesmedidas y variancias:(9.4.4)Ila ex(9.4.5) (9.4.6)y(9.4.7) En las ecuaciones 9.4.5 y 9.4.7 (j~1x es la variancia inexplicada para las subpoblacionesde valores de Y.Con el conocimiento de las distribuciones muestrales de a ybpueden formar­se los intervalos de confianza y probar las hip6tesis relativas a ex y ~ en la formaacostumbrada. En general, las inferencias respecto a ex no son de interes. Por otrolado, una gran parte del interes se centra en los procedimientos de inferencia conrespecto a ~. La raz6n de esto es el hecho de que ~ dice mucho acerca de la formade la relaci6n entre X y Y. Cuando X y Y estan linealmente relacionadas, una ~positiva indica que, en general, Y aumenta a medida que X aumenta, y se dice queexiste una relaci6n lineal directa entre X y Y. Una ~ negativa indica que los valores deY tienden a disminuir a medida que aumentan los valores de X, y se dice que hay
    • •• •• ••• • • •• •• •• • ••• •• •4239.4 EVALUACION DE LA ECUACION DE REGRESIONy y y•x(a) (c)FIGURA 9.4.6 Diagrama de dispersi6n que muestra a) relaci6n lineal directa, b) relaci6nlineal inversa y c) relaci6n no lineal entre X y Y.una relaci6n lineal inversa entre X y Y. Cuando no hay una relacion lineal entre X y Y,~ es igual a cero. Estas tres situaciones se presentan en la figura 9.4.6.Prueba estadistica Para probar hipotesis respecto a 13, la estadfstica de pruebacuando se conoce cr~1< esb 130z (9.4.8)donde 130es el valor supuesto de ~. EI valor supuesto de 13 no tiene que ser cero,pero en la practica es mas frecuente que la hipotesis nula de interes sea ~ O.Como regIa cr~1x es desconocida. Cuando este es el caso, la estadfstica de prue­ba es:t =b-l3o(9.4.9)Sbdonde Sb es una estimacion de crby t sigue una distribucion t de Student con n - 2grados de libertad.Se rechaza la hipotesis nula si la probabilidad de observar un valor tan extremocomo el valor de la estadistica de prueba, calculado con la ecuacion 9.4.9, y si la hipote­sis nula es verdadera y menor que rJ/2 (puesto que se tiene una prueba bilateral).EJEMPLO 9.4.2Con base en los datos del ejercicio 9.3.1, se desea saber si es posible concluir que lapendiente de la recta de regresion de la poblacion que describe la relacion entre Xy Yes cero.Soluci6n:1. Datos. Ver el ejercicio 9.3.1.2. Supuestos. Se presume que el modelo de regresion lineal simple ylas suposiciones que 10 fundamentan son aplicables.x x(b)
    • 424 CAPITULO 9 REGRESION Y CORRELACION LINEAL SIMPLE3. Hipotesis.Ho :~=OHA :~;;O:Oa .054. Estadistica de prueba. La estadistica de prueba se obtiene me­diante la ecuacion 9.4.9. 5. Distribucion de Ia estadistica de prueba. Cuando se satisfacen las suposiciones y Ho es verdadera, la estadfstica de prueba sigue una distribucion t de Student con n 2 grados de libertad. 6. RegIa de decision. Se rechaza Ho si el valor calculado de t es ma­yor 0 igual que 1.2896,0 bien menor 0 igual que -1.2896 obtenido por interpolacion. 7. Calculo de Ia estadistica. En el resultado que se muestra en la figura 9.3.2, b 3.4589, Sb = .2347 Y t = 3.4589-0 14.74 .2347 8. Decision estadistica. Se rechazaHoporque 14.74 > 1.2896.9. Conclusion. Se concluye que la pendiente de recta de regresi6n verdadera no es cero. 10. Valor dep. El valor dep para esta pl)Ueba es menor que .01, pues­to que, cuando Ho es verdadera, la probabilidad de obtener un valorde t igual 0 mayor que 2.6230 (por interpolad6n) es .005 y la proba­bilidad de obtener un valor de t igual 0 menor que -2.6230 es tam­bien de .005. Puesto que 14.74 es mayor que 2.6230, la probabilidadde observar un valor t tan grande 0 mayor que 14.74, cuando lahipotesis nula es verdadera, es menor que .005. El doble de este- - - - _..........._­valor es 2(.005) = .01.La implicadon practica del resultado es que se espera obtener mejores predicdones y estimaciones de Y si se utiliza la ecuadon de regresion de la muestra que las que se pueden obtener si se ignora la reladon entre X y Y. El hecho de que b es positiva nos lleva a creer que ~ es positiva y que la relaci6n entre X y Yes una relaci6n lineal directa. •Como se indic6 anteriormente, la ecuaci6n 9.4.9 puede emplearse para probar lahip6tesis nula seg6n la cual ~ puede ser un valor diferente de cero. El valor supuesto~o para ~ se sustituye en la ecuaci6n 9.4.9 en lugar de cero. Todas las demas cantida­des, igual que los dlcu1os, son los mismos que aparecen en el ejemplo. Los grados delibertad y el metodo para determinar la significaci6n tambien son identicos.Intervalo de conjianza para f3 Una vez que se ha determinado que es im­probable, a la luz de la evidencia de la muestra, que ~ sea cero, al investigador tal
    • 4259.4 EVALUACION DE LA ECUACION DE REGRESIONvez Ie interese obtener una estimaci6n del intervalo de ~. Es posible utilizar la f6r­mula general para un intervalo de confianza:estimador ± (factor de confiabilidad) (error estandar de la estimaci6n)Cuando se obtiene el intervalo de confianza para ~, el estimador es b, el factor deconfiabilidad es algUn valor de Z 0 t (dependiendo de si se conoce 0 no 0~1x) Yelerror estandar del estimador esL{Xi- X)2Cuando 0;1x es desconocida, Ob se estima mediantedonde = CMresidu.1En muchas situaciones pnkticas ellOO(1 a) por dento del intervalo de con­fianza para ~ esb ± t(1_CJI2)Sb (9.4.10)Para este ejemplo, se elaboro el siguiente intervalo de confianza de 95 pordento para ~:3.4598 ± 1.2896{.2347)3.16,3.76Este intervalo se interpreta en la forma habitual. Desde el punto de vista probabilistico,se dice que al repetir el muestreo, 95 por ciento de los intervalos que se obtienen deesta forma incluyen a ~. La interpretacion practica es que se tiene 95 por cientode confianza de que el unico intervalo que se obtenga incluira a ~.Empleo del intervalo de conjianzaparaprobarHo: f3 = 0 Resulta utilobservar que el intervalo de confianza que se construyo no incluye a cero, de mane­ra que este valor no es un candidato para el parametro que se esm estimando. Sesupone entonces que es improbable que ~ = O. Esto es compatible con los resulta­dos de la prueba de la hip6tesis en la que se rechazo la hipotesis nula que dice que~ = O. En realidad, siempre puede probarse Ho: ~ = 0 en el nivel de significadon aal construir el intervalo de confianza de 100(1 - a) por ciento para ~, y puederechazarse 0 no la hip6tesis, dependiendo de si el intervalo incluye 0 no at cero. Siel intervalo incluye al cero, la hipotesis nuia no se recbaza; si ocurre 10 contrario,dicha hipotesis se rechaza.Interpretacion de los resultados Debe quedar claro en este punto que, norechazar Ia hipotesis nuia de que ~ 0 no significa que Xy Y no esten relacionados.No solo es posible que se haya cometido un error de tipo II, sino que tal vez X y Y
    • 426FJERCICIOS CAPITULO 9 REGRESION Y CQRRELACION LINEAL SIMPLEestan relacionados de alguna forma no lineal. Por otra parte, cuando se rechaza lahip6tesis nula de que ~ = 0, no puede concluirse que la relaci6n verdadera entre X yY sea lineal. Una vez mas, pilede ser que aunque los datos se ajusten bastante bien almodelo de regresi6n lineal (como 10 demuestra el hecho de que la hip6tesis nula ~°se rechaza), algiln modelo no lineal podria proporcionar un ajuste aun mejor.En consecuencia, cuando se rechaza la Ho de que ~ = 0, 10 mejor que puede decirsees que se obtienen resultados mas utiles (que se analizan a continuaci6n) al tomar encuenta la regresi6n de Y sobre X que cuando esto se ignora.9.4.1 aI9.4.5 Con base en los datos de los ejercicios 9.3.3 a 9.3.7, lleve a cabo 10 siguiente para cada uno deellos:a) Calcule el coeficiente de determinaci6n.b) Prepare una tabla ANOVA y utilice la estadistica F para probar la hip6tesis de que 13 = o.Sea ex; =.05.c) Utilice la estadfstica t para probar que la hip6tesis nuIa de que p= 0, con un nivel designificaci6n de .05.d) Determine el valor de p para cada prueba de hip6tesis.e) Obtenga las conclusiones en terminos del problema.£) Construya el intervalo de confianza de 95 por ciento para 13.9.5 USO DE IA ECUACIONDE REGRESIONSi los resultados al evaluar la ecuaci6n de regresi6n de la muestra indican que existeuna relaci6n entre las dos variables de interes, puede darse un uso practico a dichaecuaci6n. Existen dos maneras de utilizar la ecuaci6n: Puede utilizarse para predecirel valor probable de Y dado un valor especifico de X. Cuando se satisface la suposi­ci6n de normalidad planteada en la secci6n 9.2, puede obtenerse un intemalo depredicci6n para este valor pronosticado de Y.Puede utilizarse tambien la ecuaci6n de regresi6n para estimar la media de lasubpoblaci6n de los valores de Y que se supone existen para algiln valor particularde X. Una vez mas, si se cumplen las suposiciones de que las poblaciones siguen unadistribuci6n normal, puede elaborarse un intervalo de confianza para este parametro.El valor pronosticado de Y y la estimaci6n puntual de la media de la subpoblaci6nde Y seran numericamente iguales para cualquier valor espedfico de X, pero, comose vera, el intervalo de predicci6n sera mas amplio que el interval<;J de confianza.Prediccion de Ypara unaXdada Si se sabe, 0 se supone, que las suposicio­nes de la secci6n 9.2 se cumplen, y 8i (J~Jx se desconoce, entonces el intervalo depredicci6n de 100(1 a) para Yesta dado por:(9.5.1)
    • 4279.5 usn DE LA ECUACION DE REGRESIONdonde xp es el valor espedfico de x en el que se pretende obtener un intervalo deprediccion de Y, con n - 2 grados de libertad para utilizar la estadfstica t.Estimacion de la media de Y para una X dada Si cr~1x se desconoce, elintervalo de confianza de 100(1 - a) por ciento para IlYlx esta dado por:(9.5.2) En este ejemplo se utilizo el programa MINITAB para calcular con un valor esped­fico de X el intervalo de confianza de 95 por ciento con una media Y y un intervalode prediccion de 95 por ciento para las mediciones individuales de Y.Suponga que, para este ejemplo, se pretende hacer predicciones y estimacio­nes respecto al tejido adiposo alrededor de una cintura de 100 cm de circunferen­cia. En la caja de dialogo de regresion se hace dic en "Options". Se tedea 100 en lacaja de "Prediction interval for new observations". Despues se hace dic en "Confi­dence limits" y en "Prediction limits".Se obtuvieron los siguientes resultados:Ajuste Aj. desv. est. I.e. 9% I.p. 95.0%129.90 3.69 (122.58, 137.23) (63.93,195.87)El intervalo de confianza (I.C.) de 95 por ciento se interpreta como sigue:Si se extraen de manera repetida muestras de la poblacion de hombres, seaplica un analisis de regresion y se estima Illx = 100 con un intervalo de confianzaconstruido de manera similar, casi 95 por dento de estos intervalos induirfan lacantidad media de tejido adiposo abdominal para la poblacion. Por 10 tanto, setiene 95 por ciento de confianza que el intervalo individual contiene la media po­blacional y que esta entre 122.58 y 137.23 cm.La interpretacion del intervalo de prediccion (I.P.) es similar a la interpretaciondel intervalo de confianza. Si se extraen muestras repetidamente, se hace un anali­sis de regresion y se elaboran los intervalos de prediccion para los hombres que tie­nen una cintura que mide 100 cm, cerca de 95 por ciento de enos induiran el valorcorrespondiente del tejido adiposo abdominal de los hombres. Esta es una interpre­tacion probabilfstica. La interpretacion practica es que se tiene 95 por ciento de con­fianza de que los hombres que tienen una cintura que mide 100 cm tendra un area detejido adiposo abdominal que esta entre 63.93 y 195.87 centfmetros cuadrados.La figura 9.5.1 presenta una parte de los resultados generados por el paqueteSAS® para el analisis de regresion lineal simple con los datos del ejemplo 9.3.1.Recta de resistencia Con frecuencia, el conjunto de datos disponibles para elanalisis con la tecnica de regresion lineal contiene una 0 mas observaciones"inusuales", esto es, los valores de x 0 y, 0 ambos, pueden ser mucho mas grandes 0mas pequenos que las demas observaciones. Como muestran los resultados de lafigura 9.3.2, a traves de la computadora se detectaron siete observaciones inusualesen los datos correspondientes a la circunferencia de la cintura y tejido adiposoabdominal, anotados en la tabla 9.3.1.
    • 428 CAPiTULO 9 REGRESI6N Y CORRELACI6N LINEAL SIMPLEThe SAS SystemModel: MODELlDependent Variable: YAnalysis of VarianceSum of MeanSource DF Squares Square F Value Prob>FModel 1 237548.51620 237548.51620 217 .279 0.0001Error 107 116981.98602 1093.28959C Total 108 354530.50222Root MSE 33.06493 R-square 0.6700 Dep Mean 101.89404 Adj R-sq 0.6670 C.V. 32.45031Parameter EstimatesParameter Standard T for HO;Variable DF Estimate Error Parameter=O Prob > ITIINTERCEP 1 -215.981488 21.79627076 -9.909 0.0001X 1 3.458859 0.23465205 14.7400 .0001FIGURA 9.5.1 Resultados parciales impresos del amilisis por computadora de los datosdados en el ejemplo 9.3.1, mediante el uso del paquete de software SAS@.El metodo de minimos cuadrados para ajustar los datos a una linea recta essensitivo a las observaciones inusuales, y la ubicaci6n de la recta ajustada puederesultar afectada de manera sustancial. Se dice que debido a esta caracteristica delmetodo por minimos cuadrados la recta pierde resistencia por la influencia de lasobservaciones inusuales. Algunos metodos est{m diseiiados para tratar este proble­ma, entre elIos se encuentra el desarrollado por John W Tukey. A la recta queresulta se Ie llama en ocasiones recta de Tukey y recta de resistencia.Con base en las medianas, previamente estudiadas, que son medidas descrip­tivas que por sf mismas son resistentes (insensibles) a los valores extremos, la meto­dologia para la recta de resistencia es una herramienta de analisis de datosexploratoria, capaz de investigar que tan rapido se ajusta la linea recta al con