SlideShare una empresa de Scribd logo
1 de 35
REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS
Integrantes: Luz Mery Pumacayo Manuelo
Héctor Oses Rosa
Angelo Miguel Eca Romero
Regresión Logística
Análisis de datos categóricos 2
ÍNDICE
1. INTRODUCCIÓN.............................................................................................. 3
2. METODOLOGÍA DE ENCUESTAS POR MUESTREO.................................... 4
3. REGRESIÓN LOGÍSTICA EN ENCUESTAS................................................... 5
4. SINTAXIS DE PROC SURVEYLOGISTIC ....................................................... 6
5. EJEMPLO DE USO DE PROC SURVEYLOGISTIC ........................................ 8
5.1. CODIGO SAS ................................................................................................................................. 9
5.2. RESULTADOS............................................................................................................................. 12
6. METODO COMPUTACIONAL PROC SURVEYLOGISTIC ........................... 19
6.1. GENERALES................................................................................................................................ 19
6.2. ESTIMADOR DE MÁXIMA VEROSIMILITUD ......................................................................... 20
6.3. ESTIMACIÓN DE LA MATRÍZ DE COVARIANZA ................................................................. 21
6.4. ESTUDIO MONTE CARLO PARA LA COMPARACION DEL METODO DE MOREL CON
MLE Y TAYLOR ........................................................................................................................................ 22
7. CONCLUSIONES........................................................................................... 25
8. ANEXOS......................................................................................................... 26
9. BIBLIOGRAFIA.............................................................................................. 35
Regresión Logística
Análisis de datos categóricos 3
1. INTRODUCCIÓN
El presente trabajo fue desarrollado como trabajo final de la asignatura: “Análisis de datos
Categóricos”, cursada dentro del plan de estudios del “Máster en Tratamiento Estadístico
Computacional de la Información”.
En este trabajo desarrollamos una revisión de los papers “Performing Logistic Regression
on Survey Data with the New SURVEYLOGISTIC Procedure” por Anthony B. An de SAS
Institute Inc., Cary, North Carolina, USA publicado el año 2002 y “Logistic Regression
Under Complex Survey Designs” por Jorge G. Morel, Survey Methodology, Statistics
Canada publicado el año 1989, entre otros libros y materiales de trabajo especificados en
la bibliografía.
El primer paper describe el enfoque metodológico y las aplicaciones del procedimiento
PROC SURVEYLOGISTIC, inicia comentando la importancia del procedimiento, presenta
un ejemplo de aplicación y finaliza con la sintaxis y bases matemáticas del procedimiento.
Los puntos más importantes de este paper se encuentran en los capítulos 2 al 5 del
presente trabajo.
Por otro lado, el segundo paper detalla el procedimiento numérico para estimar el vector
de parámetros y su correspondiente matriz de covarianzas asintótica para una función
logística generalizada considerando un diseño muestral complejo. Así también realiza un
ajuste a la matriz de covarianza estimada por el método de expansión de la Serie de
Taylor cuando el tamaño de la muestra es pequeño, denominado procedimiento CPLX en
un contexto de muestreo por conglomerados. En un primer momento desarrolla el
procedimiento propuesto para la regresión logística con datos obtenidos de un muestreo
por conglomerados, en uno segundo realiza un estudio de Monte Carlo con el que
compara los resultados usando la estimación por máxima verosimilitud, el método de
expansión de la Serie de Taylor y su método (procedimiento CPLX) y finalmente realiza
una extensión del procedimiento CPLX para un muestreo estratificado, menciona también
que la estimación puede ser extendida a diseños muestrales multietapicos. El capítulo 6
contiene los puntos relacionados principalmente a este paper.
Variables de respuesta binarias, ordinales y nominales se estudian con frecuencia en
investigaciones por encuestas. La regresión logística modela la relación entre tales
variables de respuesta categórica y un conjunto de variables explicativas. SAS tiene el
PROC LOGISTIC para ajustar modelos de regresión logística para datos provenientes de
una muestra aleatoria. Sin embargo, este enfoque no es válido si los datos provienen de
otros diseños muestrales complejos con estratificación, agrupamiento, y/o tienen pesos
diferentes. En estos casos, se deben aplicar técnicas especializadas para producir las
estimaciones adecuadas.
El procedimiento PROC SURVEYLOGISTIC, permite ajustar una regresión logística a
datos de encuesta tomando como base el procedimiento LOGISTIC ya existente.
Regresión Logística
Análisis de datos categóricos 4
2. METODOLOGÍA DE ENCUESTAS POR MUESTREO
La investigación por encuestas permite obtener y elaborar datos de modo rápido y eficaz
(Anguita et al. 2002). En este tipo de investigación se realizan preguntas a personas que
conforman la población de interés para conocer sus actitudes respecto a un tema de
estudio determinado. Cuando se trata de un grupo numeroso de personas, una forma de
proceder puede ser entrevistar a todos los elementos del grupo, sin embargo puede
resultar inviable tanto por los costos como por el tiempo que requeriría. Por ello se recurre
a una muestra y se entrevista solo a un subgrupo representativo y los resultados son
extrapolados al resto de la población. Ante ello surge la metodología de encuestas por
muestreo, la cual contiene un conjunto de procedimientos sistemáticos que garantiza la
objetividad de los datos recogidos y es usada para obtener información de una población
grande seleccionando y midiendo una muestra.
Durante el proceso de selección de la muestra, los investigadores aplican diseños
muestrales para representar adecuadamente a la población y hacer inferencias válidas.
Debido a la variabilidad de características o de la estructura de la población se recurre a
diseños del tipo complejo con la finalidad de obtener representatividad estructural de la
misma, de tal manera que la muestra sea un fiel reflejo de la población que se desea
estudiar.
Los procedimientos de SAS para analizar información de encuestas (a la fecha de la
elaboración del paper) son:
 PROC SURVEYSELECT proporciona métodos para seleccionar muestras.
 PROC SURVEYMEANS realiza análisis descriptivos de las muestras.
 PROC SURVEYREG realiza análisis de regresión con muestras complejas.
PROC SURVEYLOGISTIC se presenta como un procedimiento experimental de SAS 9.0
el cual ajusta modelos de regresión logística con datos de encuestas que no provienen de
un muestreo aleatorio simple.
Regresión Logística
Análisis de datos categóricos 5
3. REGRESIÓN LOGÍSTICA EN ENCUESTAS
Como se mencionó anteriormente, en investigaciones por encuestas es frecuente usar la
regresión logística para modelar la relación entre variables respuesta del tipo categórico y
un conjunto de variables explicativas. Cuando se utiliza un diseño de muestra complejo,
debe incorporarse el diseño de la muestra en el análisis de los datos de la encuesta para
hacer inferencias estadísticamente válidas.
PROC LOGISTIC asume que la muestra es extraída de una población infinita bajo
muestreo aleatorio simple. Sin embargo, para datos provenientes de encuestas por
muestreo con diseño complejo y de población finita, este procedimiento no es adecuado.
Morel (1989) demuestra vía un estudio de Monte carlo que el sesgo relativo del Error de
Tipo I estimado es más alto en muestras pequeñas y grandes cuando se ignora el diseño
muestral (siempre y cuando la correlación intraclase sea distinta de 0). Así pues, para
hacer inferencias validas acerca de los parámetros del modelo, el diseño muestral debe
ser incorporado al análisis, lo cual puede realizarse a partir del PROC
SURVEYLOGISTIC.
La sintaxis de es similar al de PROC LOGISTIC y utiliza los mismos algoritmos iterativos
para estimar los coeficientes de regresión por máxima verosimilitud que en PROC
LOGISTIC (Fisher-Scoring o Newton Raphson).
Las funciones de enlace también son comunes en ambos procedimientos: logit acumulada
(CLOGIT o PROPODD), logit generalizada (GLOGIT), la función probit (PROBIT) y la log-
log complementaria (CLOGLOG), ver en el anexo II las expresiones matemáticas.
La diferencia entre ambas está en la estimación de la matriz de covarianza de los
parámetros del modelo logístico, en concreto, PROC SURVEYLOGISTIC: (para mayor
detalle ver sección 6):
 Utiliza una aproximación de la expansión de Taylor para estimar la matriz de
covarianza del vector de parámetros del modelo e incorpora información del
diseño de la muestra tomando en cuenta la estratificación, el clustering y los pesos
muestrales a partir de las sentencias STRATA, CLÚSTER y WEIGHT
respectivamente.
 Usa el ajuste debido Morel (1989) en la estimación de la matriz de covarianza
mencionada para reducir el sesgo cuando la muestra es pequeña.
 Incluye también el factor de corrección por población finita en la estimación de la
matriz de covarianza, si la muestra es seleccionada sin reemplazo y el ratio de
muestreo no es lo suficientemente pequeño como para ignorarlo.
Regresión Logística
Análisis de datos categóricos 6
4. SINTAXIS DE PROC SURVEYLOGISTIC
A continuación, se muestran las principales sentencias disponibles en PROC
SURVEYLOGISTIC: (para mayor detalle revisar SAS/STAT(R) 9.3 User’ Guide).
PROC SURVEYLOGISTIC <options>; /*invoca el procedimiento SURVEYLOGISTIC. Si el
análisis se incluye un factor de corrección de población finita, se puede incluir la opción de
ratio de la muestra Rate o R, o del total poblacional con la opción Total o N. Total
especifica los totales de la población en los estratos y son usados para calcular la
corrección por población finita en la estimación de la varianza*/
BY variables; /*Para obtener análisis separados de grupos de observaciones*/
CLASS variable <(v-options)><variable <(v-options)>... ></v-options>; /*nombra
las variables de clasificación usadas en el análisis. Pueden ser variables de clase
o numéricas*/
CLUSTER variables; /*nombra las variables que identifican los clústeres en un
diseño muestral agrupado. Si hay una sentencia STRATA, los clústeres son
anidados dentro del estrato*/
CONTRAST ’label’ effect values <effectvalues, ...> </options>; /*proporciona la
customización de los test de hipótesis. Es similar al CONTRAST del PROC
LOGISTIC*/
FREQ variable; /*identifica una variable que contiene la frecuencia de ocurrencia
de cada observación*/
MODEL /*nombra a la variable respuesta, así como efectos explicativos. Las
opciones MODEL pueden ser especificadas después de un /. Dos tipos de
sentencias MODEL pueden ser explicitadas, single-trial y events/trials:*/
 MODEL variable <(variable-options)> = <effects> </options>; /*es aplicable
exclusivamente a datos de respuesta binarios. Se usa cuando cada
observación en el data set contiene información de sólo una prueba, por
ejemplo, un solo sujeto en un experimento. Se especifica una variable como la
variable respuesta*/
 MODEL events / trials = <effects> </options>; /*se usa cuando cada
observación en el data set contiene información de varias pruebas de
respuesta binaria, como el número de sujetos observados y contestados. Se
especifica dos variables separadas por /. La primera variable es el número de
respuestas positivas y la segunda el número de pruebas*/
LINK (opción de la sentencia MODEL): con esta opción se puede especificar la
función de linkage:
 LOGIT o CLOGIT, función logit acumulada. Es la función por
defecto.
 CLOGLOG, función log-log complementaria.
Regresión Logística
Análisis de datos categóricos 7
 GLOGIT, función logit generalizada.
 PROBIT, función inversa de la distribución normal estándar.
STRATA variables </options>; /*nombra las variables que forman los estratos
(variables de estratificación) en una muestra estratificada. Las cuales pueden ser
numéricas o categóricas*/
<label:> TEST equation1 <equation2, ...> </option>; /*realiza contrastes de
hipótesis sobre los coeficientes de regresión. El test de Wald se usa para
conjuntamente testear la hipótesis nula (H0:Lβ=c)*/
UNITS independent1 = list1 <independent2 = list2 ... > </option>; /*especifica las
unidades de cambio para las variables explicativas continuas para que así el odds
ratio pueda ser estimado. Independent es el nombre de la variable explicativa y
list es la lista de unidades de cambio separados por espacios que son de interés
para esa variable. Cada unidad de cambio en la lista tiene una de las siguientes
formas: number, SD o -SD, número*SD; donde number es cualquier número
distinto de cero y SD es la desviación estándar de la muestra de la
correspondiente a la variable independiente*/
WEIGHT variable </option>; /*nombra la variable que contiene los pesos de la
muestra. Esta variable debe ser numérica. Si no se especifica ninguna variable
WEIGHT, se asigna a todas las observaciones un peso de 1 por defecto*/
MODEL y WEIGHT sólo pueden utilizarse una vez, mientras que CLASS, CLUSTER,
STRATA, y CONTRAST pueden utilizarse varias veces.
Regresión Logística
Análisis de datos categóricos 8
5. EJEMPLO DE USO DE PROC SURVEYLOGISTIC
El siguiente ejemplo ilustra cómo usar el PROC SURVEYLOGISTIC. Una firma de
investigación de mercado realiza una encuesta entre estudiantes de pregrado de la
Universidad de Carolina del Norte en Chapel Hill (UNC) para evaluar tres nuevos diseños
webs de un Sitio Web comercial, cuya población objetivo son los estudiantes de pregrado.
El diseño muestral es estratificado, donde los estratos corresponden a la “clase de
estudiantes”: Freshman (1er año), Sophomore (2do año), Junior y Senior. Dentro de
cada estrato, se seleccionaron 100 estudiantes al azar usando un muestreo aleatorio
simple sin reemplazo.
El total de estudiantes en cada estrato (semestre de otoño del 2001) y la muestra
seleccionada en cada una, se muestra en la tabla 1:
Tabla 1.
Class Enrollment Sample
Freshman 3 734 100
Sophomore 3 565 100
Junior 3 903 100
Senior 4 196 100
Cada estudiante de la muestra evaluó los tres nuevos diseños web A, B y C en una
escala ordinal donde la puntuación estuvo en el rango de me disgusta mucho hasta me
gusta mucho, tal y como se muestra en el tabla 2:
Tabla 2.
Scale Label
1 dislike very much
2 Dislike
3 Neutral
4 Like
5 like very much
Y finalmente en la tabla 3 se muestra la cantidad de estudiantes que evaluaron cada uno
de los tres diseños (A, B y C) dentro de cada estrato.
Tabla 3.
Evaluation of New Web Designs
Rating Counts
Strata Design 1 2 3 4 5
Freshman A 10 34 25 16 15
Regresión Logística
Análisis de datos categóricos 9
B 5 10 24 30 21
C 11 14 20 34 21
Sophomore A 19 12 26 18 25
B 10 18 32 23 17
C 15 22 34 9 20
Junior A 8 21 23 26 22
B 1 14 25 23 37
C 16 19 30 23 12
Senior A 11 14 24 33 18
B 8 15 35 30 12
C 2 34 27 18 16
5.1. CODIGO SAS
A continuación, se muestra el código SAS utilizado en el ejemplo:
En Enrollment se guarda la población total de cada estrato.
Los datos son guardados en WebSurvey, el cual contiene las variables class, design,
rating, counts y weight:
 CLASS, indica las cuatro clases de estudiantes (los 4 estratos): freshman,
sophomore, junior y senior.
 DESIGN, especifica los tres diseños web: A, B y C.
 RATING, contiene las calificaciones de los estudiantes para los nuevos diseños
web.
 COUNTS, indica la frecuencia de calificaciones que cada diseño web recibió
dentro de cada estrato.
El autor señala que si una muestra es realizada sin reemplazo y el factor de muestreo
no es lo suficientemente pequeño para ser ignorado, debe incluirse un factor de
corrección por población finita en el análisis. Para este diseño complejo, se incluyen
los pesos muestrales para asegurar un análisis apropiado.
Regresión Logística
Análisis de datos categóricos 10
 En el código SAS que se muestra a continuación, WEIGHT, contiene los pesos
muestrales, que son los recíprocos de las probabilidades de selección en este
ejemplo.
El siguiente código etiqueta a las variables class, design y rating.
Regresión Logística
Análisis de datos categóricos 11
Finalmente se llama a PROC SURVEYLOGISTIC para especificar el modelo:
 TOTAL especifica la población total de cada estrato guardada en la variable
Enrollment. Los totales poblacionales son usados para calcular el factor de
corrección por población finita en las estimaciones de la varianza.
 FORMAT, renombra a las variables con las etiquetas señaladas.
 La sentencia STRATA especifica la variable de estratificación denominada class.
 En CLASS se coloca la variable predictora, en este caso categorica: design. El
disenio web C fue usado como nivel de referencia.
 Con la sentencia MODEL se especifica el modelo, RATING es la variable de
respuesta, escalada ordinalmente, y dos variables indicadoras para el diseño A
son las variables explicativas con el diseño C como nivel de referencia. Dado que
la empresa de investigación está interesada en el diseño web que reciba las
calificaciones más positivas, se especifica la opción DESCENDING.
 El autor utiliza el modelo logit acumulado conocido también como el proportional
odds model. La función de enlace utilizado es el CLOGIT. No es necesario
especificarlo pues el modelo por default del procedimiento (SAS/STAT(R) 9.3
User’ Guide).
 WEIGHT, contiene los pesos muestrales.
Cabe indicar que para que el procedimiento corriera en la versión actual del SAS V9.4 la
opción DESCENDING para la variable respuesta es especificada en la sentencia MODEL
y no fuera como se muestra en el paper. Ante ello, el autor advirtió al inicio del ejemplo
señalando que la versión V9.0 utilizada para ilustrar el uso del PROC SURVEYLOGISTIC
en el paper es experimental y los resultados mostrados podrían cambiar posteriormente.
Regresión Logística
Análisis de datos categóricos 12
5.2. RESULTADOS
A continuación se muestran las salidas de PROC SURVEYLOGISTIC para el modelo
logístico ordinal, con la sintaxis especificada por el autor. La tabla 4 detalla la cantidad de
categorías de la variable respuesta: 5, el modelo usado: Logit acumulado o llamado
también modelo odds proporcional, la técnica de optimización usada para estimar los
parámetros de máxima verosimilitud: Algoritmo de Fisher, la inclusión de la corrección por
población finita en la estimación de la varianza, así como el uso de pesos muestrales.
También se especifica el método usado por default para la estimación de la varianza:
Método de expansión de la Serie de Taylor con el ajuste por grados de libertad1.
Tabla 4.
1
Cabe indicar que para usar el ajuste de Morel (1989) este debe especificarse con la sentencia
VADAJUST=MOREL (SAS/STAT(R) 9.3 User’ Guide).
Regresión Logística
Análisis de datos categóricos 13
El autor inicia el análisis evaluando un supuesto importante del modelo Logit acumulado o
modelo odds proporcional) a través del score test que se observa en la tabla 5. Con los
datos proporcionados y utilizando la versión SAS V9.4 (a la fecha de presentación de este
trabajo), el test estadístico es significativo con un p-value < 0.0001, con lo que
rechazamos la hipótesis nula de que el odds ratio es invariante a donde se dicotomicen
las categorías de la variable respuesta e indicaría que el modelo Logit acumulado podría
no ser adecuado2
(para mayor detalle sobre el modelo Logit acumulado y el supuesto de
invarianza de odds ratio, revisar el anexo I).
Tabla 5.
Dado que el supuesto para este modelo no se cumple, se especifica un modelo logístico
politomico, un modelo alternativo sugerido por Kleinbaum, 2010 página 481 cuando el
supuesto no se cumple. Para ello se cambia en el procedimiento la función de enlace a:
GLOGIT, con esto se ajustara un modelo Logit generalizado e indicamos el ajuste de
Morel para la varianza estimada. Especificar el orden de las categorías de las variables
respuesta en este modelo es innecesario.
El modelo queda planteado como sigue, usando la notación de Kleinbaum, 2010:
( = / )
( = 3: / )
= + +
Donde: g=1: dislike very much, 2: dislike, 4: like, 5: like very much.
El diseño C, es el nivel de referencia.
2
Cabe indicar que en el paper, el modelo Logit acumulado ajustado, si supera el test de invarianza de odds
ratio. Creemos que la razón del cambio es la versión de SAS V9.0 usada en ese entonces, pues tal y como el
autor explico se trataba de un PROC SURVEYLOGISTIC aun en etapa experimental y los resultados podrían
cambiar con una versión posterior.
Regresión Logística
Análisis de datos categóricos 14
La tabla 6 indica que el modelo Logit generalizado es usado en el análisis. En este caso
se ha usado como técnica de optimización el algoritmo de Newton-Raphson y el método
de estimación de varianza por default es el método de expansión de la Serie de Taylor
con el ajuste de Morel (1989).
Tabla 6.
Para plantear el modelo debe especificarse la categoría de referencia de la variable
respuesta con la que se realizaran las comparaciones del resto de categorías. Al no ser
indicado, el procedimiento ordena internamente las etiquetas de forma ascendente y
selecciona el orden más alto, en este caso a rating=neutral, precisamente con el que
queremos se realice las comparaciones, ver tabla 7.
Regresión Logística
Análisis de datos categóricos 15
Tabla 7.
En la tabla 8, se especifican las dos variables indicadoras que ingresaron al modelo
(diseño A y diseño B). El diseño C es considerado como nivel de referencia. Las tablas 9 y
10 muestran la significancia del modelo.
Tabla 8.
Tabla 9.
Tabla 10.
La estimación de los parámetros del modelo y los odds ratio son mostrados en las tablas
11 y 12.
Regresión Logística
Análisis de datos categóricos 16
En la tabla 11, se muestran los parámetros estimados, 4 parámetros estimados de
intercepto, 4 parámetros estimados para el diseño A y 4 parámetros estimados para el
diseño B. Tanto para el diseño A y B, el primer parámetro estimado compara rating=dislike
vs. rating=neutral, el segundo parámetro estimado compara rating=dislike very much vs.
rating=neutral, el tercero compara rating=like vs. rating=neutral y el cuarto, rating=like very
much vs. rating=neutral
Tabla 11.
En la tabla 12, los intervalos al 95% de confianza para los odds ratio del diseño A vs C
contienen a 1, por lo que no se puede afirmar con estos datos sobre la preferencia de A.
El diseño B comparado con el diseño C, es significativamente menos probable que
obtenga una puntuación negativa (dislike o dislike very much) que neutral, al tener odds
ratio menores que 1.
Regresión Logística
Análisis de datos categóricos 17
Tabla 12.
Con la tabla 13, obtenemos una conclusión similar de B pero ahora respecto a A.
Tabla 13.
Cuando se comparan el diseño A y C con el B, se logra más información, pues es
significativamente más probable que A y C obtengan una puntuación negativa (dislike o
dislike very much) que neutral, al tener odds ratio superiores a 1 en estas dos categorías,
ver tabla 14.
Regresión Logística
Análisis de datos categóricos 18
Tabla 14.
Finalmente, el modelo logístico generalizado aplicado a estos datos de encuesta, no
muestra evidencia que algún Diseño Web sea el preferido, pero sí podemos decir que los
diseños A y C gustan menos que B (tabla 14).
Regresión Logística
Análisis de datos categóricos 19
6. METODO COMPUTACIONAL PROC SURVEYLOGISTIC
A continuación, se resume los principales puntos que definen la base matemática detrás
del procedimiento PROC SURVEYLOGISTIC de SAS.
6.1. GENERALES
a) Diferencia entre muestreo estratificado y por conglomerados:
 En el muestreo estratificado hay homogeneidad de elementos dentro del estrato y
heterogeneidad entre estratos. Se realiza una selección aleatoria de los elementos
dentro de cada estrato.
 En el muestro por conglomerados hay heterogeneidad de elementos dentro del
conglomerado y homogeneidad entre conglomerados. Se realiza una selección
aleatoria de conglomerados.
b) Se considera una muestra estratificada y por conglomerados:
Primero se realiza la estratificación (por ejemplo, con fraude o sin fraude) y después el
muestreo por conglomerados (por ejemplo, vive en Alcalá, Alcobendas o Villaverde).
 Y es la variable respuesta con categorías 1, 2, ..., D, D + 1.
 Las p covarianzas se denotan por un vector fila p-dimensional.
c) Cada observación se representa con un vector fila:
Vector fila: ( , ′ , ( ), )
 ℎ = 1,2 , . . . , es el número del estrato con un total de estratos.
 = 1 ,2 , . . . , es el número del conglomerado con un total de conglomerados.
 ñ = ∑ es el número total de conglomerados en la muestra.
 = 1 ,2 , . . . , es el número de unidad dentro del estrato ℎ y conglomerado ,
con un total de unidades.
 = ∑ ∑ es el tamaño total de la muestra.
 es el peso muestral.
 es un vector columna − . Si la respuesta del − é miembro
del − é conglomerado en el estrato ℎ cae en la categoría , la − é fila
del vector es igual a 1, siendo 0 el resto de los elementos del vector.
 ( ) es la variable indicadora para la categoría ( + 1) de la variable .
 es el vector − de las variables explicativas para el − é
miembro del − é conglomerado en el estrato ℎ. Si hay un término
independiente entonces ≡ 1.
 es la tasa muestral para el estrato ℎ.
Regresión Logística
Análisis de datos categóricos 20
 es el vector esperanza de la variable respuesta.
 = ( | ) = ( , , . . . , )′
 ( ) = ( ( )| ) = 1 − ′ siendo un vector columna −
cuyos elementos son 1.
d) Función link:
 La función link queda representada por (·) = = ( , ) donde es un vector
columna − para los coeficientes de regresión.
 La función logarítmica de pseudo – verosimilitud es:
( ) = (( ( ))′ + ( ( )) ( ))
6.2. ESTIMADOR DE MÁXIMA VEROSIMILITUD
a) Proceso iterativo:
El estimador de máxima verosimilitud es una solución a las ecuaciones estimadas:
( ( ) − ) − = 0
 es la matriz de derivadas parciales de la función link con respecto a .
 Para obtener el estimador de máxima verosimilitud , el procedimiento utiliza
iteraciones con un valor de comienzo ( )
para .
 En el paso − é se obtiene el estimador ( )
.
 En el paso ( + 1) − é el estimador ( )
= ( )
+ ( ) ( )
donde:
- ( )
= ∑ ∑ ∑ ( )
( ( ( )
) − ( ) ( )
) ′
( )
- ( )
= ∑ ∑ ∑ ( )
( ( ( )
) − ( ) ( )
) − ( )
Donde ( )
, ( )
son evaluados en ( )
.
 El proceso iterativo continúa hasta que el algoritmo alcanza, en el paso − é ,
el criterio de convergencia
b) Criterio de convergencia del gradiente:
Por defecto, en SAS la iteración converge en el − é paso si
Regresión Logística
Análisis de datos categóricos 21
( ( )
)′ ( ( )
) ( ( )
)
( ( )) + 10
<
 Siendo por defecto = 10 o el indicado a través de la opción GCONV.
 y son, respectivamente, el vector gradiente y la matriz Hessiana esperada
negativa de la función logarítmica de pseudo – verosimilitud.
c) Criterio de la función de convergencia:
Alternativamente, se puede establecer que la iteración converja cuando el cambio en la
función logarítmica de verosimilitud se reduzca en el paso ( + 1) – é hasta
( ( )
) − ( ( )
)
| ( ( ))| + 10
<
 Donde se establece en SAS en la opción FCONV
Otros dos criterios de convergencia ABSFCONV y XCONV son permitidos en SAS
6.3. ESTIMACIÓN DE LA MATRÍZ DE COVARIANZA
Estimación de la matriz de covarianza de (utilizada para realizar test de hipótesis).
a) Usando la aproximación de Taylor:
( ) =
Donde:
 = ∑ ∑ ∑ ( ( ) − ) ′
 = ∑
( )
∑ (ℯ − ℯ ..) (ℯ − ℯ ..)
 ℯ = ∑ ( ( ) − ) ( − )
 ℯ .. = ∑ ℯ
 y son evaluadas en .
b) Usando el ajuste de Morel a la fórmula de Taylor:
( ) = +
Donde:
Regresión Logística
Análisis de datos categóricos 22
 = ( , ( + 1) ( ))
 tiene a como límite inferior, el cual se puede indicar mediante la opción
DEFFBOUND = , o si no, el procedimiento utiliza = 1 por defecto.
 Si ñ – + 1 > 3 ( + 1) – 2 entonces =
ñ ( )
 Si ñ – + 1 ≤ 3 ( + 1) – 2 entonces =
 converge a 0 cuando el tamaño de la muestra es grande y tiene a como límite
superior, el cual se puede especificar mediante la opción ADJBOUND = , o si
no, el procedimiento utiliza = 0,5 por defecto.
 y son constantes positivas dadas.
Sobre el ajuste de Morel:
 Reducirá el sesgo por muestra pequeña reflejado en tasas de Error de Tipo I
inflados.
 Garantizara una matriz de covarianza estimada definida positiva siempre que
exista.
 El ajuste de Morel tenderá a cero cuando el tamaño de la muestra es grande, es
decir, que ambos métodos (Taylor y Morel) son asintóticamente equivalentes.
6.4. ESTUDIO MONTE CARLO PARA LA COMPARACION DEL METODO DE
MOREL CON MLE Y TAYLOR
Morel realizó una comparación de tres procedimientos de estimación: MLE, estimación
por máxima verosimilitud donde se ignora el efecto del clustering, TAYLOR el cual usa el
método de expansión de la Serie de Taylor y el procedimiento CPLX en el que realiza un
ajuste al de TAYLOR (ajuste de Morel). El estudio Monte Carlo se realizó con datos
generados a partir de dos tipos de esquema de muestreo:
a) Esquema de muestreo 1: Todos los elementos dentro de un clúster tienen el
mismo vector de variables explicativas. Y, por tanto, el modelo contiene pesos que
indican el porcentaje de observaciones de un mismo vector respecto al total.
Diferentes grados de correlación intraclase son inducidos para las variables
respuestas dentro de un mismo segmento.
b) Esquema de muestreo 2: Los elementos dentro de un clúster tienen vectores de
variables explicativas distintos. Diferentes grados de correlación intraclase son
controlados.
El estudio comparativo de los tres modelos consistió en lo siguiente:
1. Estimar mediante cada uno de los tres procedimientos el sesgo relativo de los
Errores Tipo I obtenidos al comparar al 5% de significación : = mediante F-
tests contra F(12, ∞; 0.05) = 1.753. Los resultados se muestran en las tablas 3.1 y
3.5 del anexo III.
Regresión Logística
Análisis de datos categóricos 23
Conclusiones:
 El método de Taylor para muestras pequeñas suele presentar
resultados muy alejados de aquellos proporcionados usando el ajuste
de Morel (CPLX).
 Para datos en los que no hay correlación intraclase Ϛ = 0 y el efecto
de diseño ∅ = 0 , el procedimiento MLE proporciona menor sesgo
relativo a la estimación del error de tipo I, seguido por el de CPLX y el
de Taylor (en el esquema 2 no se cumple para n=20, n=100)
 El MLE muestra mayor distorsión del error de tipo I estimado cuando la
correlación intraclase es positiva. Esta distorsión se va incrementando
a medida que la correlación intraclase también va creciendo.
 En general el procedimiento CPLX produce sesgos más pequeños que
el de TAYLOR tanto en muestras pequeñas como grandes.
2. Si los estadísticos F usados para el test : = se multiplican por el número de
parámetros usados, el estadístico resultante se distribuye mediante una variable
aleatoria Chi-cuadrado. Las medias y varianzas para estos estadísticos Chi-
cuadrado se muestran en las tablas 3.2 y 3.6 del anexo III.
Conclusiones:
 El método de Taylor para muestras pequeñas produce valores medios
altos y varianzas muy elevadas en comparación con los otros dos
métodos.
 Para datos en los que no hay correlación intraclase Ϛ = 0, el
procedimiento MLE proporciona resultados aceptables.
 A medida que aumenta la correlación intraclase, las medias y las
varianzas tienden a aumentar con los tres métodos, sin embargo, es el
método CPLX el que es capaz de mantenerlos en valores no
demasiado elevados.
 El método de Taylor y CPLX proporcionan resultados similares para
muestras grandes.
3. Se estimó el efecto diseño para los procedimientos CPLX y TAYLOR y se
obtuvieron resultados para el esquema de muestreo 1 y 2. Los resultados se
muestran en las tablas 3.3 y 3.7 del anexo III.
 En el esquema 1 ambos métodos dieron buenos resultados. El método
CPLX mostro menor sesgo y errores estándar ligeramente más altos.
 En el esquema 2 Taylor produce menor sesgo que CPLX en muestras
pequeñas. Sin embargo en muestras grandes tienen similar resultado.
4. Se estimaron los sesgos para los percentiles 5 y 95 del estadístico t de Student
t =
.
− de las estimaciones de los coeficientes individuales,
sólo para los modelos MLE y CPLX. Los resultados se muestran en las tablas 3.4
y 3.8.
Regresión Logística
Análisis de datos categóricos 24
Conclusiones:
 MLE tiene un sesgo relativo cercano a cero en ausencia de correlación
intraclase. El sesgo se incrementa a medida que esta correlación
crece.
 En general CPLX tiene sesgos pequeños y para muestras grandes es
despreciable.
Regresión Logística
Análisis de datos categóricos 25
7. CONCLUSIONES
 Existen varios procedimientos en SAS disponibles que permiten realizar análisis
relacionados con encuestas de investigación, tales como: PROC
SURVEYSELECT, PROC SURVEYMEANS, PROC SURVEYREG, PROC
LOGISTIC y PROC SURVEYLOGISTIC.
 El procedimiento LOGISTIC se utiliza para ajustar modelos de regresión logística
para datos de una muestra aleatoria. Si los datos provienen de diseños complejos,
se deben aplicar técnicas especializadas para generar estimaciones adecuadas.
Los cuales están incluidos en el procedimiento PROC SURVEYLOGISTIC.
 En futuras versiones de SAS, se agregarán más funciones (por ejemplo,
selecciones de modelos) a PROC SURVEYLOGISTIC, así como más
procedimientos para el análisis de datos de encuestas.
SOBRE EL PROCEDIMIENTO DE MOREL:
 Para datos en los que no hay correlación intraclase Ϛ = 0, el procedimiento MLE
proporciona buenos resultados, seguido por el de Morel y el de Taylor.
 Los métodos de Taylor y Morel son asintóticamente equivalentes para muestras
grandes. Para muestras pequeñas, el procedimiento de Morel proporciona siempre
mejores resultados que el método de Taylor.
 El método de Morel se comporta mejor tanto para muestras grandes como
pequeñas.
Regresión Logística
Análisis de datos categóricos 26
8. ANEXOS
ANEXO I
MODELOS LOGIT ACUMULADO (AGRESTI, 2007 SEGUNDA EDICION PAGINAS 180-
182)
Cuando las categorías de la variable respuesta son ordenadas, los Logits pueden utilizar
este ordenamiento. Estos modelos resultan tener interpretaciones más simples y con un
poder potencialmente más grande que modelos Logit categóricos-baseline.
Una probabilidad acumulada para Y es la probabilidad que Y se encuentre en o por
debajo de un punto particular. Para una categoría de respuesta j, la probabilidad
acumulada es:
( ≤ ) = + ⋯ + , = 1, … ,
Las probabilidades acumuladas reflejan el ordenamiento, con ( ≤ 1) ≤ ( ≤ 2)
≤ ⋯ ≤ ( ≤ ) = 1. Los modelos para probabilidades acumuladas no usan la
probabilidad final ( ≤ ) pues este es necesariamente igual a 1.
Los Logits de las probabilidades acumuladas son:
( ≤ ) =
( ≤ )
1 − ( ≤ )
=
+ ⋯ +
+ ⋯ +
= 1, … , − 1
Estos son llamados los Logits acumulados. Para J=3, por ejemplo, los modelos usan
ambos [ ( ≤ 1)] = y [ ( ≤ 2)] =
( + )
. Cada
logit acumulado usa todas las categorías de la variable respuesta.
Modelos Logit acumulado: Propiedad de odds proporcionales.
Un modelo para el logit acumulado j luce como un modelo de regresión logística binario
en el cual las categorías 1 a j se combinan para formar una sola categoría y las categorías
j+1 a J forman una segunda categoría. Para una variable explicativa x, el modelo
[ ( ≤ )] = + , = 1, … , − 1 (1)
tiene el parámetro describiendo el efecto de x en el log odds de la categoría j de
respuesta o por debajo. En esta fórmula, no tiene un subíndice j. Así, el modelo asume
que el efecto de x es idéntico para todos los J-1 Logits acumulados. Cuando este modelo
ajusta bien, requiere un solo parámetro en lugar de J-1 parámetros para describir el efecto
de x.
Regresión Logística
Análisis de datos categóricos 27
La siguiente figura representa este modelo para cuatro categorías de respuesta con x
cuantitativa. Cada probabilidad acumulada tiene su propia curva, describiendo su cambio
como una función de x. La curva para ( ≤ ) luce como una curva de regresión logística
para una respuesta binaria con un par de resultados ( ≤ ) y ( > ). El efecto común
para cada j implica que las tres curvas tienen la misma forma. Cualquier curva es idéntica
a cualquiera de los otros desplazados a la derecha o desplazados a la izquierda.
Interpretaciones del modelo pueden usar odds ratios para las probabilidades acumuladas
y sus complementos. Para dos valores y de x, un odds ratio que compara las
probabilidades acumuladas es:
( ≤ / = )
( > / = )
( ≤ / = )
( > / = )
El log de este odds ratio es la diferencia entre los Logits acumulados para aquellos dos
valores de x. Esto es igual a ( − ), proporcional a la distancia entre los valores de x.
En particular, para − = 1, el odds ratio de la respuesta por debajo de cualquier
categoría dada, multiplica por cada unidad de incremento en x.
Para este log odds ratio ( − ), la misma constante de proporcionalidad( ) aplica
para cada probabilidad acumulada. Esta propiedad es llamada “supuesto de odds
proporcional” del modelo (1)
Para Kleinbaum, 2010 pagina 467, esta propiedad implica que el odds ratio es invariante a
donde se dicotomicen las categorías de la variable respuesta. Si se cumple este
supuesto, entonces el modelo odds proporcional nos permite resumir la relación entre la
respuesta y cada variable independiente con un solo parámetro y no con varios.
Kleinbaum, 2010 en la página 480, indica como sería el procedimiento al correr varios
modelos de regresión logística como alternativa al modelo odds proporcional. En
específico, para verificar el supuesto de proporcionalidad de odds con los modelos
estimados por separado, señala que el método más simple seria calcular los odds ratios
‘crudos’ con cada modelo y compararlos. Para un modelo de cuatro niveles por ejemplo,
Regresión Logística
Análisis de datos categóricos 28
se verificaría si los coeficientes de las variables independientes son similares unas a otras
(solo en este tipo de modelamiento).
Regresión Logística
Análisis de datos categóricos 29
ANEXO II.
Modelos para variables de respuesta binarias y de varias categorías ( = 1, 2, … , )
Modelo Logístico Generalizado
(siendo D + 1 la categoría de
referencia para Y)
Modelo Logit Acumulado
(Modelo de Odds Proporcionales)
Función
link
Donde: Donde:
suma acumulada de
las proporciones
esperadas para las
1eras categorías de
la variable .
Matriz 1eras
derivadas
parciales
Donde:
es el Producto de
Kronecker
Donde:
es un vector columna D-
dimensional
es una matriz D x D
Evaluado en
el estimador
de máxima
verosimilitud Donde:
Regresión Logística
Análisis de datos categóricos 30
Modelos para variables de respuesta binaria ( = 1)
Modelo clog-log Modelo Probit
Función
link
Donde:
es el vector de parámetros.
Donde:
es el vector de
parámetros.
es la función de distribución
acumulada de la
distribución normal estándar
Matriz 1eras
derivadas
parciales
Evaluado en
el estimador
de máxima
verosimilitud
Regresión Logística
Análisis de datos categóricos 31
ANEXO III.
Regresión Logística
Análisis de datos categóricos 32
Regresión Logística
Análisis de datos categóricos 33
Regresión Logística
Análisis de datos categóricos 34
Regresión Logística
Análisis de datos categóricos 35
9. BIBLIOGRAFIA
1. An, Anthony B. Performing Logistic Regression on Survey Data with the New
SURVEYLOGISTIC. Procedure. SAS Institute Inc. Cary, North Carolina. Paper.
258-27.
2. Agresti, A. (2007). An introduction to categorical data analysis. 2nd ed. pp.180-182.
3. Anguita et. al. (2002). La encuesta como tecnica de investigacion. Elaboracion de
cuestionarios y tratamiento estadistico de los datos (I). Aten Primaria 2003. 31(8):
527-38.
http://www.unidaddocentemfyclaspalmas.org.es/resources/9+Aten+Primaria+2003.+La+E
ncuesta+I.+Custionario+y+Estadistica.pdf
4. Kleinbaum, D. (2010). Logistic Regression. 3rd ed. New York, NY: Springer,
pp.467/480-481.
5. Morel, G. (1989). Logistic Regression under Complex Survey Designs. Survey
Methodology. 15. 203-223.
6. SAS/STAT(R) 9.3 User's Guide
https://support.sas.com/documentation/cdl/en/statug/63962/HTML/default/viewer.htm#
surveylogistic_toc.htm

Más contenido relacionado

La actualidad más candente

Tarea tres de estadistica
Tarea tres de estadisticaTarea tres de estadistica
Tarea tres de estadisticaABJ1990
 
ESTRATEGIAS DE MUESTREO Gutierrez.pdf
ESTRATEGIAS DE MUESTREO Gutierrez.pdfESTRATEGIAS DE MUESTREO Gutierrez.pdf
ESTRATEGIAS DE MUESTREO Gutierrez.pdfLizbethNolasco10
 
Pruebas comparaciones multiples
Pruebas comparaciones multiplesPruebas comparaciones multiples
Pruebas comparaciones multiplesjuanerdz
 
Estadística y diseños experimentales aplicados a la educación superior
Estadística y diseños experimentales  aplicados a la educación superiorEstadística y diseños experimentales  aplicados a la educación superior
Estadística y diseños experimentales aplicados a la educación superiorEscuela Militar de Ingeniería (EMI)
 
Clase de estimacion puntual y intervalo
Clase de estimacion puntual y intervaloClase de estimacion puntual y intervalo
Clase de estimacion puntual y intervaloIvan Nuñez Salinas
 
Correlation and regression
Correlation and regressionCorrelation and regression
Correlation and regressionMohit Asija
 
Correlationanalysis
CorrelationanalysisCorrelationanalysis
CorrelationanalysisLibu Thomas
 
Design of Experiment ppt by Ganesh Asabe
Design of Experiment ppt by Ganesh AsabeDesign of Experiment ppt by Ganesh Asabe
Design of Experiment ppt by Ganesh AsabeGanesh355057
 
Resource Surface Methology
Resource Surface MethologyResource Surface Methology
Resource Surface MethologyPRATHAMESH REGE
 

La actualidad más candente (11)

Tarea tres de estadistica
Tarea tres de estadisticaTarea tres de estadistica
Tarea tres de estadistica
 
ESTRATEGIAS DE MUESTREO Gutierrez.pdf
ESTRATEGIAS DE MUESTREO Gutierrez.pdfESTRATEGIAS DE MUESTREO Gutierrez.pdf
ESTRATEGIAS DE MUESTREO Gutierrez.pdf
 
Pruebas comparaciones multiples
Pruebas comparaciones multiplesPruebas comparaciones multiples
Pruebas comparaciones multiples
 
Clase6 Estadística
Clase6 EstadísticaClase6 Estadística
Clase6 Estadística
 
Hypothesis testing
Hypothesis testingHypothesis testing
Hypothesis testing
 
Estadística y diseños experimentales aplicados a la educación superior
Estadística y diseños experimentales  aplicados a la educación superiorEstadística y diseños experimentales  aplicados a la educación superior
Estadística y diseños experimentales aplicados a la educación superior
 
Clase de estimacion puntual y intervalo
Clase de estimacion puntual y intervaloClase de estimacion puntual y intervalo
Clase de estimacion puntual y intervalo
 
Correlation and regression
Correlation and regressionCorrelation and regression
Correlation and regression
 
Correlationanalysis
CorrelationanalysisCorrelationanalysis
Correlationanalysis
 
Design of Experiment ppt by Ganesh Asabe
Design of Experiment ppt by Ganesh AsabeDesign of Experiment ppt by Ganesh Asabe
Design of Experiment ppt by Ganesh Asabe
 
Resource Surface Methology
Resource Surface MethologyResource Surface Methology
Resource Surface Methology
 

Similar a REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS

Paso 3 actividad individual duvier robles
Paso 3 actividad individual  duvier roblesPaso 3 actividad individual  duvier robles
Paso 3 actividad individual duvier roblesDuvier25
 
Martha navarrete metodos deterministicos
Martha navarrete metodos deterministicos Martha navarrete metodos deterministicos
Martha navarrete metodos deterministicos MarthaISABEL18
 
capitulo v materiales y métodos
capitulo v materiales y métodoscapitulo v materiales y métodos
capitulo v materiales y métodosDiskCom - Negocios
 
Métodos estadísticos
Métodos estadísticos Métodos estadísticos
Métodos estadísticos LupitaPia7
 
2.- DETERMINACIÓN_INCERTIDUMBRE_MÉTODO_MONTE_CARLO.pdf
2.- DETERMINACIÓN_INCERTIDUMBRE_MÉTODO_MONTE_CARLO.pdf2.- DETERMINACIÓN_INCERTIDUMBRE_MÉTODO_MONTE_CARLO.pdf
2.- DETERMINACIÓN_INCERTIDUMBRE_MÉTODO_MONTE_CARLO.pdfUniversidad Mayor de San Simón
 
Métodos Probabilísticos- paso 3
Métodos Probabilísticos- paso 3Métodos Probabilísticos- paso 3
Métodos Probabilísticos- paso 3daya97
 
Análisis multivariante
Análisis multivarianteAnálisis multivariante
Análisis multivarianteAnet Vargas
 
Reconocimiento de los metodos probabilisticos
Reconocimiento de los metodos probabilisticosReconocimiento de los metodos probabilisticos
Reconocimiento de los metodos probabilisticosAngiePea36
 
APLICACIONES GEOESTADISTICA I -BARBARA PRADO
APLICACIONES GEOESTADISTICA I -BARBARA PRADOAPLICACIONES GEOESTADISTICA I -BARBARA PRADO
APLICACIONES GEOESTADISTICA I -BARBARA PRADOEduardo Mera
 
Statgraphics centurion
Statgraphics centurionStatgraphics centurion
Statgraphics centurionLuis Puertas
 
HERRAMIENTAS DE ANÁLISIS DE DATOS
HERRAMIENTAS DE ANÁLISIS DE DATOSHERRAMIENTAS DE ANÁLISIS DE DATOS
HERRAMIENTAS DE ANÁLISIS DE DATOSHome
 

Similar a REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS (20)

BootStrap
BootStrapBootStrap
BootStrap
 
Paso 3 actividad individual duvier robles
Paso 3 actividad individual  duvier roblesPaso 3 actividad individual  duvier robles
Paso 3 actividad individual duvier robles
 
Sig clima
Sig climaSig clima
Sig clima
 
Martha navarrete metodos deterministicos
Martha navarrete metodos deterministicos Martha navarrete metodos deterministicos
Martha navarrete metodos deterministicos
 
capitulo v materiales y métodos
capitulo v materiales y métodoscapitulo v materiales y métodos
capitulo v materiales y métodos
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Operativa clase 1
Operativa clase 1Operativa clase 1
Operativa clase 1
 
Métodos estadísticos
Métodos estadísticos Métodos estadísticos
Métodos estadísticos
 
Quimiometria principiantes
Quimiometria  principiantesQuimiometria  principiantes
Quimiometria principiantes
 
2.- DETERMINACIÓN_INCERTIDUMBRE_MÉTODO_MONTE_CARLO.pdf
2.- DETERMINACIÓN_INCERTIDUMBRE_MÉTODO_MONTE_CARLO.pdf2.- DETERMINACIÓN_INCERTIDUMBRE_MÉTODO_MONTE_CARLO.pdf
2.- DETERMINACIÓN_INCERTIDUMBRE_MÉTODO_MONTE_CARLO.pdf
 
Métodos Probabilísticos- paso 3
Métodos Probabilísticos- paso 3Métodos Probabilísticos- paso 3
Métodos Probabilísticos- paso 3
 
Estudio final
Estudio finalEstudio final
Estudio final
 
Estudio final
Estudio finalEstudio final
Estudio final
 
Muestreo
MuestreoMuestreo
Muestreo
 
Muestreo
MuestreoMuestreo
Muestreo
 
Análisis multivariante
Análisis multivarianteAnálisis multivariante
Análisis multivariante
 
Reconocimiento de los metodos probabilisticos
Reconocimiento de los metodos probabilisticosReconocimiento de los metodos probabilisticos
Reconocimiento de los metodos probabilisticos
 
APLICACIONES GEOESTADISTICA I -BARBARA PRADO
APLICACIONES GEOESTADISTICA I -BARBARA PRADOAPLICACIONES GEOESTADISTICA I -BARBARA PRADO
APLICACIONES GEOESTADISTICA I -BARBARA PRADO
 
Statgraphics centurion
Statgraphics centurionStatgraphics centurion
Statgraphics centurion
 
HERRAMIENTAS DE ANÁLISIS DE DATOS
HERRAMIENTAS DE ANÁLISIS DE DATOSHERRAMIENTAS DE ANÁLISIS DE DATOS
HERRAMIENTAS DE ANÁLISIS DE DATOS
 

Último

ESPECIFICACIONES TECNICAS MURO DE CONTENCION.docx
ESPECIFICACIONES TECNICAS MURO DE CONTENCION.docxESPECIFICACIONES TECNICAS MURO DE CONTENCION.docx
ESPECIFICACIONES TECNICAS MURO DE CONTENCION.docxAnonymousk8JgrnuMSr
 
TEST ESPACIAL CONTEO DE CUBOS y TEST DE MOSAICOS
TEST ESPACIAL CONTEO DE CUBOS y TEST DE MOSAICOSTEST ESPACIAL CONTEO DE CUBOS y TEST DE MOSAICOS
TEST ESPACIAL CONTEO DE CUBOS y TEST DE MOSAICOSCarlosHuamulloDavila1
 
DIFERENCIA DE COMPRESION Y TENSION EN UN CUERPO
DIFERENCIA DE COMPRESION Y TENSION EN UN CUERPODIFERENCIA DE COMPRESION Y TENSION EN UN CUERPO
DIFERENCIA DE COMPRESION Y TENSION EN UN CUERPOSegundo Silva Maguiña
 
368165951-Procedimiento-de-Gruas-e-Izaje.doc
368165951-Procedimiento-de-Gruas-e-Izaje.doc368165951-Procedimiento-de-Gruas-e-Izaje.doc
368165951-Procedimiento-de-Gruas-e-Izaje.docangelmt2
 
REGLA DE PROBABILIDADES Y REGLA DE BAYES.pptx
REGLA DE PROBABILIDADES  Y REGLA DE BAYES.pptxREGLA DE PROBABILIDADES  Y REGLA DE BAYES.pptx
REGLA DE PROBABILIDADES Y REGLA DE BAYES.pptxJhonLeon59
 
Diseño digital - M. Morris Mano - 3ed.pdf
Diseño digital - M. Morris Mano - 3ed.pdfDiseño digital - M. Morris Mano - 3ed.pdf
Diseño digital - M. Morris Mano - 3ed.pdfssuserf46a26
 
Carbohidratos utilizados en la industria alimentaria.pdf
Carbohidratos utilizados en la industria alimentaria.pdfCarbohidratos utilizados en la industria alimentaria.pdf
Carbohidratos utilizados en la industria alimentaria.pdfJESUSGARRIDOISLAS1
 
UNIDAD III Esquemas de comunicacion pptx
UNIDAD III Esquemas de comunicacion pptxUNIDAD III Esquemas de comunicacion pptx
UNIDAD III Esquemas de comunicacion pptxElybe Hernandez
 
Automatizacion Industria_Teoria y Control (1).pdf
Automatizacion Industria_Teoria y Control (1).pdfAutomatizacion Industria_Teoria y Control (1).pdf
Automatizacion Industria_Teoria y Control (1).pdfSAULMUOZ16
 
Trabajo de cristalografia. año 2024 mes de mayo
Trabajo de cristalografia. año 2024 mes de mayoTrabajo de cristalografia. año 2024 mes de mayo
Trabajo de cristalografia. año 2024 mes de mayoAntonioCardenas58
 
INVESTIGACION DE ACCIDENTE EN REFINERIA.pptx
INVESTIGACION DE ACCIDENTE EN REFINERIA.pptxINVESTIGACION DE ACCIDENTE EN REFINERIA.pptx
INVESTIGACION DE ACCIDENTE EN REFINERIA.pptxssuserd2ff51
 
PRACTICAS_DE_AUTOMATIZACION_industrial (1).pdf
PRACTICAS_DE_AUTOMATIZACION_industrial (1).pdfPRACTICAS_DE_AUTOMATIZACION_industrial (1).pdf
PRACTICAS_DE_AUTOMATIZACION_industrial (1).pdfjorge477728
 
TERRENO DE FUNDACION - CURSO DE PAVIMENTOS
TERRENO DE FUNDACION - CURSO DE PAVIMENTOSTERRENO DE FUNDACION - CURSO DE PAVIMENTOS
TERRENO DE FUNDACION - CURSO DE PAVIMENTOSELIAS RAMIREZ JUAREZ
 
Circuitos_basicos_de_neumatica miquel carulla .pdf
Circuitos_basicos_de_neumatica  miquel carulla .pdfCircuitos_basicos_de_neumatica  miquel carulla .pdf
Circuitos_basicos_de_neumatica miquel carulla .pdfJosueUlin1
 
Escenario económico - Desarrollo sustentable
Escenario económico - Desarrollo sustentableEscenario económico - Desarrollo sustentable
Escenario económico - Desarrollo sustentableJosPealoza7
 
2021-MAYO-CAP-RL_SEGURIDAD-PARA-DELEGADOS_08.05.21-ENVIADO.pdf
2021-MAYO-CAP-RL_SEGURIDAD-PARA-DELEGADOS_08.05.21-ENVIADO.pdf2021-MAYO-CAP-RL_SEGURIDAD-PARA-DELEGADOS_08.05.21-ENVIADO.pdf
2021-MAYO-CAP-RL_SEGURIDAD-PARA-DELEGADOS_08.05.21-ENVIADO.pdfAdolfo Acero Aguilar
 
707555966-El-Libro-de-La-Inteligencia-Artificial-Version-11-Alfredovela.pdf
707555966-El-Libro-de-La-Inteligencia-Artificial-Version-11-Alfredovela.pdf707555966-El-Libro-de-La-Inteligencia-Artificial-Version-11-Alfredovela.pdf
707555966-El-Libro-de-La-Inteligencia-Artificial-Version-11-Alfredovela.pdfErnestoCano12
 

Último (20)

Convocatoria de Becas Caja de Ingenieros_UOC 2024-25
Convocatoria de Becas Caja de Ingenieros_UOC 2024-25Convocatoria de Becas Caja de Ingenieros_UOC 2024-25
Convocatoria de Becas Caja de Ingenieros_UOC 2024-25
 
ESPECIFICACIONES TECNICAS MURO DE CONTENCION.docx
ESPECIFICACIONES TECNICAS MURO DE CONTENCION.docxESPECIFICACIONES TECNICAS MURO DE CONTENCION.docx
ESPECIFICACIONES TECNICAS MURO DE CONTENCION.docx
 
TEST ESPACIAL CONTEO DE CUBOS y TEST DE MOSAICOS
TEST ESPACIAL CONTEO DE CUBOS y TEST DE MOSAICOSTEST ESPACIAL CONTEO DE CUBOS y TEST DE MOSAICOS
TEST ESPACIAL CONTEO DE CUBOS y TEST DE MOSAICOS
 
DIFERENCIA DE COMPRESION Y TENSION EN UN CUERPO
DIFERENCIA DE COMPRESION Y TENSION EN UN CUERPODIFERENCIA DE COMPRESION Y TENSION EN UN CUERPO
DIFERENCIA DE COMPRESION Y TENSION EN UN CUERPO
 
368165951-Procedimiento-de-Gruas-e-Izaje.doc
368165951-Procedimiento-de-Gruas-e-Izaje.doc368165951-Procedimiento-de-Gruas-e-Izaje.doc
368165951-Procedimiento-de-Gruas-e-Izaje.doc
 
REGLA DE PROBABILIDADES Y REGLA DE BAYES.pptx
REGLA DE PROBABILIDADES  Y REGLA DE BAYES.pptxREGLA DE PROBABILIDADES  Y REGLA DE BAYES.pptx
REGLA DE PROBABILIDADES Y REGLA DE BAYES.pptx
 
Diseño digital - M. Morris Mano - 3ed.pdf
Diseño digital - M. Morris Mano - 3ed.pdfDiseño digital - M. Morris Mano - 3ed.pdf
Diseño digital - M. Morris Mano - 3ed.pdf
 
Carbohidratos utilizados en la industria alimentaria.pdf
Carbohidratos utilizados en la industria alimentaria.pdfCarbohidratos utilizados en la industria alimentaria.pdf
Carbohidratos utilizados en la industria alimentaria.pdf
 
UNIDAD III Esquemas de comunicacion pptx
UNIDAD III Esquemas de comunicacion pptxUNIDAD III Esquemas de comunicacion pptx
UNIDAD III Esquemas de comunicacion pptx
 
Automatizacion Industria_Teoria y Control (1).pdf
Automatizacion Industria_Teoria y Control (1).pdfAutomatizacion Industria_Teoria y Control (1).pdf
Automatizacion Industria_Teoria y Control (1).pdf
 
Trabajo de cristalografia. año 2024 mes de mayo
Trabajo de cristalografia. año 2024 mes de mayoTrabajo de cristalografia. año 2024 mes de mayo
Trabajo de cristalografia. año 2024 mes de mayo
 
Litio en México y su uso en baterías
Litio en México y su uso en bateríasLitio en México y su uso en baterías
Litio en México y su uso en baterías
 
INVESTIGACION DE ACCIDENTE EN REFINERIA.pptx
INVESTIGACION DE ACCIDENTE EN REFINERIA.pptxINVESTIGACION DE ACCIDENTE EN REFINERIA.pptx
INVESTIGACION DE ACCIDENTE EN REFINERIA.pptx
 
ESTRATEGIA comercial de productos en mineria.pptx
ESTRATEGIA comercial de productos en mineria.pptxESTRATEGIA comercial de productos en mineria.pptx
ESTRATEGIA comercial de productos en mineria.pptx
 
PRACTICAS_DE_AUTOMATIZACION_industrial (1).pdf
PRACTICAS_DE_AUTOMATIZACION_industrial (1).pdfPRACTICAS_DE_AUTOMATIZACION_industrial (1).pdf
PRACTICAS_DE_AUTOMATIZACION_industrial (1).pdf
 
TERRENO DE FUNDACION - CURSO DE PAVIMENTOS
TERRENO DE FUNDACION - CURSO DE PAVIMENTOSTERRENO DE FUNDACION - CURSO DE PAVIMENTOS
TERRENO DE FUNDACION - CURSO DE PAVIMENTOS
 
Circuitos_basicos_de_neumatica miquel carulla .pdf
Circuitos_basicos_de_neumatica  miquel carulla .pdfCircuitos_basicos_de_neumatica  miquel carulla .pdf
Circuitos_basicos_de_neumatica miquel carulla .pdf
 
Escenario económico - Desarrollo sustentable
Escenario económico - Desarrollo sustentableEscenario económico - Desarrollo sustentable
Escenario económico - Desarrollo sustentable
 
2021-MAYO-CAP-RL_SEGURIDAD-PARA-DELEGADOS_08.05.21-ENVIADO.pdf
2021-MAYO-CAP-RL_SEGURIDAD-PARA-DELEGADOS_08.05.21-ENVIADO.pdf2021-MAYO-CAP-RL_SEGURIDAD-PARA-DELEGADOS_08.05.21-ENVIADO.pdf
2021-MAYO-CAP-RL_SEGURIDAD-PARA-DELEGADOS_08.05.21-ENVIADO.pdf
 
707555966-El-Libro-de-La-Inteligencia-Artificial-Version-11-Alfredovela.pdf
707555966-El-Libro-de-La-Inteligencia-Artificial-Version-11-Alfredovela.pdf707555966-El-Libro-de-La-Inteligencia-Artificial-Version-11-Alfredovela.pdf
707555966-El-Libro-de-La-Inteligencia-Artificial-Version-11-Alfredovela.pdf
 

REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS

  • 1. REGRESIÓN LOGÍSTICA CON PROC SURVEYLOGISTIC DE SAS Integrantes: Luz Mery Pumacayo Manuelo Héctor Oses Rosa Angelo Miguel Eca Romero
  • 2. Regresión Logística Análisis de datos categóricos 2 ÍNDICE 1. INTRODUCCIÓN.............................................................................................. 3 2. METODOLOGÍA DE ENCUESTAS POR MUESTREO.................................... 4 3. REGRESIÓN LOGÍSTICA EN ENCUESTAS................................................... 5 4. SINTAXIS DE PROC SURVEYLOGISTIC ....................................................... 6 5. EJEMPLO DE USO DE PROC SURVEYLOGISTIC ........................................ 8 5.1. CODIGO SAS ................................................................................................................................. 9 5.2. RESULTADOS............................................................................................................................. 12 6. METODO COMPUTACIONAL PROC SURVEYLOGISTIC ........................... 19 6.1. GENERALES................................................................................................................................ 19 6.2. ESTIMADOR DE MÁXIMA VEROSIMILITUD ......................................................................... 20 6.3. ESTIMACIÓN DE LA MATRÍZ DE COVARIANZA ................................................................. 21 6.4. ESTUDIO MONTE CARLO PARA LA COMPARACION DEL METODO DE MOREL CON MLE Y TAYLOR ........................................................................................................................................ 22 7. CONCLUSIONES........................................................................................... 25 8. ANEXOS......................................................................................................... 26 9. BIBLIOGRAFIA.............................................................................................. 35
  • 3. Regresión Logística Análisis de datos categóricos 3 1. INTRODUCCIÓN El presente trabajo fue desarrollado como trabajo final de la asignatura: “Análisis de datos Categóricos”, cursada dentro del plan de estudios del “Máster en Tratamiento Estadístico Computacional de la Información”. En este trabajo desarrollamos una revisión de los papers “Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC Procedure” por Anthony B. An de SAS Institute Inc., Cary, North Carolina, USA publicado el año 2002 y “Logistic Regression Under Complex Survey Designs” por Jorge G. Morel, Survey Methodology, Statistics Canada publicado el año 1989, entre otros libros y materiales de trabajo especificados en la bibliografía. El primer paper describe el enfoque metodológico y las aplicaciones del procedimiento PROC SURVEYLOGISTIC, inicia comentando la importancia del procedimiento, presenta un ejemplo de aplicación y finaliza con la sintaxis y bases matemáticas del procedimiento. Los puntos más importantes de este paper se encuentran en los capítulos 2 al 5 del presente trabajo. Por otro lado, el segundo paper detalla el procedimiento numérico para estimar el vector de parámetros y su correspondiente matriz de covarianzas asintótica para una función logística generalizada considerando un diseño muestral complejo. Así también realiza un ajuste a la matriz de covarianza estimada por el método de expansión de la Serie de Taylor cuando el tamaño de la muestra es pequeño, denominado procedimiento CPLX en un contexto de muestreo por conglomerados. En un primer momento desarrolla el procedimiento propuesto para la regresión logística con datos obtenidos de un muestreo por conglomerados, en uno segundo realiza un estudio de Monte Carlo con el que compara los resultados usando la estimación por máxima verosimilitud, el método de expansión de la Serie de Taylor y su método (procedimiento CPLX) y finalmente realiza una extensión del procedimiento CPLX para un muestreo estratificado, menciona también que la estimación puede ser extendida a diseños muestrales multietapicos. El capítulo 6 contiene los puntos relacionados principalmente a este paper. Variables de respuesta binarias, ordinales y nominales se estudian con frecuencia en investigaciones por encuestas. La regresión logística modela la relación entre tales variables de respuesta categórica y un conjunto de variables explicativas. SAS tiene el PROC LOGISTIC para ajustar modelos de regresión logística para datos provenientes de una muestra aleatoria. Sin embargo, este enfoque no es válido si los datos provienen de otros diseños muestrales complejos con estratificación, agrupamiento, y/o tienen pesos diferentes. En estos casos, se deben aplicar técnicas especializadas para producir las estimaciones adecuadas. El procedimiento PROC SURVEYLOGISTIC, permite ajustar una regresión logística a datos de encuesta tomando como base el procedimiento LOGISTIC ya existente.
  • 4. Regresión Logística Análisis de datos categóricos 4 2. METODOLOGÍA DE ENCUESTAS POR MUESTREO La investigación por encuestas permite obtener y elaborar datos de modo rápido y eficaz (Anguita et al. 2002). En este tipo de investigación se realizan preguntas a personas que conforman la población de interés para conocer sus actitudes respecto a un tema de estudio determinado. Cuando se trata de un grupo numeroso de personas, una forma de proceder puede ser entrevistar a todos los elementos del grupo, sin embargo puede resultar inviable tanto por los costos como por el tiempo que requeriría. Por ello se recurre a una muestra y se entrevista solo a un subgrupo representativo y los resultados son extrapolados al resto de la población. Ante ello surge la metodología de encuestas por muestreo, la cual contiene un conjunto de procedimientos sistemáticos que garantiza la objetividad de los datos recogidos y es usada para obtener información de una población grande seleccionando y midiendo una muestra. Durante el proceso de selección de la muestra, los investigadores aplican diseños muestrales para representar adecuadamente a la población y hacer inferencias válidas. Debido a la variabilidad de características o de la estructura de la población se recurre a diseños del tipo complejo con la finalidad de obtener representatividad estructural de la misma, de tal manera que la muestra sea un fiel reflejo de la población que se desea estudiar. Los procedimientos de SAS para analizar información de encuestas (a la fecha de la elaboración del paper) son:  PROC SURVEYSELECT proporciona métodos para seleccionar muestras.  PROC SURVEYMEANS realiza análisis descriptivos de las muestras.  PROC SURVEYREG realiza análisis de regresión con muestras complejas. PROC SURVEYLOGISTIC se presenta como un procedimiento experimental de SAS 9.0 el cual ajusta modelos de regresión logística con datos de encuestas que no provienen de un muestreo aleatorio simple.
  • 5. Regresión Logística Análisis de datos categóricos 5 3. REGRESIÓN LOGÍSTICA EN ENCUESTAS Como se mencionó anteriormente, en investigaciones por encuestas es frecuente usar la regresión logística para modelar la relación entre variables respuesta del tipo categórico y un conjunto de variables explicativas. Cuando se utiliza un diseño de muestra complejo, debe incorporarse el diseño de la muestra en el análisis de los datos de la encuesta para hacer inferencias estadísticamente válidas. PROC LOGISTIC asume que la muestra es extraída de una población infinita bajo muestreo aleatorio simple. Sin embargo, para datos provenientes de encuestas por muestreo con diseño complejo y de población finita, este procedimiento no es adecuado. Morel (1989) demuestra vía un estudio de Monte carlo que el sesgo relativo del Error de Tipo I estimado es más alto en muestras pequeñas y grandes cuando se ignora el diseño muestral (siempre y cuando la correlación intraclase sea distinta de 0). Así pues, para hacer inferencias validas acerca de los parámetros del modelo, el diseño muestral debe ser incorporado al análisis, lo cual puede realizarse a partir del PROC SURVEYLOGISTIC. La sintaxis de es similar al de PROC LOGISTIC y utiliza los mismos algoritmos iterativos para estimar los coeficientes de regresión por máxima verosimilitud que en PROC LOGISTIC (Fisher-Scoring o Newton Raphson). Las funciones de enlace también son comunes en ambos procedimientos: logit acumulada (CLOGIT o PROPODD), logit generalizada (GLOGIT), la función probit (PROBIT) y la log- log complementaria (CLOGLOG), ver en el anexo II las expresiones matemáticas. La diferencia entre ambas está en la estimación de la matriz de covarianza de los parámetros del modelo logístico, en concreto, PROC SURVEYLOGISTIC: (para mayor detalle ver sección 6):  Utiliza una aproximación de la expansión de Taylor para estimar la matriz de covarianza del vector de parámetros del modelo e incorpora información del diseño de la muestra tomando en cuenta la estratificación, el clustering y los pesos muestrales a partir de las sentencias STRATA, CLÚSTER y WEIGHT respectivamente.  Usa el ajuste debido Morel (1989) en la estimación de la matriz de covarianza mencionada para reducir el sesgo cuando la muestra es pequeña.  Incluye también el factor de corrección por población finita en la estimación de la matriz de covarianza, si la muestra es seleccionada sin reemplazo y el ratio de muestreo no es lo suficientemente pequeño como para ignorarlo.
  • 6. Regresión Logística Análisis de datos categóricos 6 4. SINTAXIS DE PROC SURVEYLOGISTIC A continuación, se muestran las principales sentencias disponibles en PROC SURVEYLOGISTIC: (para mayor detalle revisar SAS/STAT(R) 9.3 User’ Guide). PROC SURVEYLOGISTIC <options>; /*invoca el procedimiento SURVEYLOGISTIC. Si el análisis se incluye un factor de corrección de población finita, se puede incluir la opción de ratio de la muestra Rate o R, o del total poblacional con la opción Total o N. Total especifica los totales de la población en los estratos y son usados para calcular la corrección por población finita en la estimación de la varianza*/ BY variables; /*Para obtener análisis separados de grupos de observaciones*/ CLASS variable <(v-options)><variable <(v-options)>... ></v-options>; /*nombra las variables de clasificación usadas en el análisis. Pueden ser variables de clase o numéricas*/ CLUSTER variables; /*nombra las variables que identifican los clústeres en un diseño muestral agrupado. Si hay una sentencia STRATA, los clústeres son anidados dentro del estrato*/ CONTRAST ’label’ effect values <effectvalues, ...> </options>; /*proporciona la customización de los test de hipótesis. Es similar al CONTRAST del PROC LOGISTIC*/ FREQ variable; /*identifica una variable que contiene la frecuencia de ocurrencia de cada observación*/ MODEL /*nombra a la variable respuesta, así como efectos explicativos. Las opciones MODEL pueden ser especificadas después de un /. Dos tipos de sentencias MODEL pueden ser explicitadas, single-trial y events/trials:*/  MODEL variable <(variable-options)> = <effects> </options>; /*es aplicable exclusivamente a datos de respuesta binarios. Se usa cuando cada observación en el data set contiene información de sólo una prueba, por ejemplo, un solo sujeto en un experimento. Se especifica una variable como la variable respuesta*/  MODEL events / trials = <effects> </options>; /*se usa cuando cada observación en el data set contiene información de varias pruebas de respuesta binaria, como el número de sujetos observados y contestados. Se especifica dos variables separadas por /. La primera variable es el número de respuestas positivas y la segunda el número de pruebas*/ LINK (opción de la sentencia MODEL): con esta opción se puede especificar la función de linkage:  LOGIT o CLOGIT, función logit acumulada. Es la función por defecto.  CLOGLOG, función log-log complementaria.
  • 7. Regresión Logística Análisis de datos categóricos 7  GLOGIT, función logit generalizada.  PROBIT, función inversa de la distribución normal estándar. STRATA variables </options>; /*nombra las variables que forman los estratos (variables de estratificación) en una muestra estratificada. Las cuales pueden ser numéricas o categóricas*/ <label:> TEST equation1 <equation2, ...> </option>; /*realiza contrastes de hipótesis sobre los coeficientes de regresión. El test de Wald se usa para conjuntamente testear la hipótesis nula (H0:Lβ=c)*/ UNITS independent1 = list1 <independent2 = list2 ... > </option>; /*especifica las unidades de cambio para las variables explicativas continuas para que así el odds ratio pueda ser estimado. Independent es el nombre de la variable explicativa y list es la lista de unidades de cambio separados por espacios que son de interés para esa variable. Cada unidad de cambio en la lista tiene una de las siguientes formas: number, SD o -SD, número*SD; donde number es cualquier número distinto de cero y SD es la desviación estándar de la muestra de la correspondiente a la variable independiente*/ WEIGHT variable </option>; /*nombra la variable que contiene los pesos de la muestra. Esta variable debe ser numérica. Si no se especifica ninguna variable WEIGHT, se asigna a todas las observaciones un peso de 1 por defecto*/ MODEL y WEIGHT sólo pueden utilizarse una vez, mientras que CLASS, CLUSTER, STRATA, y CONTRAST pueden utilizarse varias veces.
  • 8. Regresión Logística Análisis de datos categóricos 8 5. EJEMPLO DE USO DE PROC SURVEYLOGISTIC El siguiente ejemplo ilustra cómo usar el PROC SURVEYLOGISTIC. Una firma de investigación de mercado realiza una encuesta entre estudiantes de pregrado de la Universidad de Carolina del Norte en Chapel Hill (UNC) para evaluar tres nuevos diseños webs de un Sitio Web comercial, cuya población objetivo son los estudiantes de pregrado. El diseño muestral es estratificado, donde los estratos corresponden a la “clase de estudiantes”: Freshman (1er año), Sophomore (2do año), Junior y Senior. Dentro de cada estrato, se seleccionaron 100 estudiantes al azar usando un muestreo aleatorio simple sin reemplazo. El total de estudiantes en cada estrato (semestre de otoño del 2001) y la muestra seleccionada en cada una, se muestra en la tabla 1: Tabla 1. Class Enrollment Sample Freshman 3 734 100 Sophomore 3 565 100 Junior 3 903 100 Senior 4 196 100 Cada estudiante de la muestra evaluó los tres nuevos diseños web A, B y C en una escala ordinal donde la puntuación estuvo en el rango de me disgusta mucho hasta me gusta mucho, tal y como se muestra en el tabla 2: Tabla 2. Scale Label 1 dislike very much 2 Dislike 3 Neutral 4 Like 5 like very much Y finalmente en la tabla 3 se muestra la cantidad de estudiantes que evaluaron cada uno de los tres diseños (A, B y C) dentro de cada estrato. Tabla 3. Evaluation of New Web Designs Rating Counts Strata Design 1 2 3 4 5 Freshman A 10 34 25 16 15
  • 9. Regresión Logística Análisis de datos categóricos 9 B 5 10 24 30 21 C 11 14 20 34 21 Sophomore A 19 12 26 18 25 B 10 18 32 23 17 C 15 22 34 9 20 Junior A 8 21 23 26 22 B 1 14 25 23 37 C 16 19 30 23 12 Senior A 11 14 24 33 18 B 8 15 35 30 12 C 2 34 27 18 16 5.1. CODIGO SAS A continuación, se muestra el código SAS utilizado en el ejemplo: En Enrollment se guarda la población total de cada estrato. Los datos son guardados en WebSurvey, el cual contiene las variables class, design, rating, counts y weight:  CLASS, indica las cuatro clases de estudiantes (los 4 estratos): freshman, sophomore, junior y senior.  DESIGN, especifica los tres diseños web: A, B y C.  RATING, contiene las calificaciones de los estudiantes para los nuevos diseños web.  COUNTS, indica la frecuencia de calificaciones que cada diseño web recibió dentro de cada estrato. El autor señala que si una muestra es realizada sin reemplazo y el factor de muestreo no es lo suficientemente pequeño para ser ignorado, debe incluirse un factor de corrección por población finita en el análisis. Para este diseño complejo, se incluyen los pesos muestrales para asegurar un análisis apropiado.
  • 10. Regresión Logística Análisis de datos categóricos 10  En el código SAS que se muestra a continuación, WEIGHT, contiene los pesos muestrales, que son los recíprocos de las probabilidades de selección en este ejemplo. El siguiente código etiqueta a las variables class, design y rating.
  • 11. Regresión Logística Análisis de datos categóricos 11 Finalmente se llama a PROC SURVEYLOGISTIC para especificar el modelo:  TOTAL especifica la población total de cada estrato guardada en la variable Enrollment. Los totales poblacionales son usados para calcular el factor de corrección por población finita en las estimaciones de la varianza.  FORMAT, renombra a las variables con las etiquetas señaladas.  La sentencia STRATA especifica la variable de estratificación denominada class.  En CLASS se coloca la variable predictora, en este caso categorica: design. El disenio web C fue usado como nivel de referencia.  Con la sentencia MODEL se especifica el modelo, RATING es la variable de respuesta, escalada ordinalmente, y dos variables indicadoras para el diseño A son las variables explicativas con el diseño C como nivel de referencia. Dado que la empresa de investigación está interesada en el diseño web que reciba las calificaciones más positivas, se especifica la opción DESCENDING.  El autor utiliza el modelo logit acumulado conocido también como el proportional odds model. La función de enlace utilizado es el CLOGIT. No es necesario especificarlo pues el modelo por default del procedimiento (SAS/STAT(R) 9.3 User’ Guide).  WEIGHT, contiene los pesos muestrales. Cabe indicar que para que el procedimiento corriera en la versión actual del SAS V9.4 la opción DESCENDING para la variable respuesta es especificada en la sentencia MODEL y no fuera como se muestra en el paper. Ante ello, el autor advirtió al inicio del ejemplo señalando que la versión V9.0 utilizada para ilustrar el uso del PROC SURVEYLOGISTIC en el paper es experimental y los resultados mostrados podrían cambiar posteriormente.
  • 12. Regresión Logística Análisis de datos categóricos 12 5.2. RESULTADOS A continuación se muestran las salidas de PROC SURVEYLOGISTIC para el modelo logístico ordinal, con la sintaxis especificada por el autor. La tabla 4 detalla la cantidad de categorías de la variable respuesta: 5, el modelo usado: Logit acumulado o llamado también modelo odds proporcional, la técnica de optimización usada para estimar los parámetros de máxima verosimilitud: Algoritmo de Fisher, la inclusión de la corrección por población finita en la estimación de la varianza, así como el uso de pesos muestrales. También se especifica el método usado por default para la estimación de la varianza: Método de expansión de la Serie de Taylor con el ajuste por grados de libertad1. Tabla 4. 1 Cabe indicar que para usar el ajuste de Morel (1989) este debe especificarse con la sentencia VADAJUST=MOREL (SAS/STAT(R) 9.3 User’ Guide).
  • 13. Regresión Logística Análisis de datos categóricos 13 El autor inicia el análisis evaluando un supuesto importante del modelo Logit acumulado o modelo odds proporcional) a través del score test que se observa en la tabla 5. Con los datos proporcionados y utilizando la versión SAS V9.4 (a la fecha de presentación de este trabajo), el test estadístico es significativo con un p-value < 0.0001, con lo que rechazamos la hipótesis nula de que el odds ratio es invariante a donde se dicotomicen las categorías de la variable respuesta e indicaría que el modelo Logit acumulado podría no ser adecuado2 (para mayor detalle sobre el modelo Logit acumulado y el supuesto de invarianza de odds ratio, revisar el anexo I). Tabla 5. Dado que el supuesto para este modelo no se cumple, se especifica un modelo logístico politomico, un modelo alternativo sugerido por Kleinbaum, 2010 página 481 cuando el supuesto no se cumple. Para ello se cambia en el procedimiento la función de enlace a: GLOGIT, con esto se ajustara un modelo Logit generalizado e indicamos el ajuste de Morel para la varianza estimada. Especificar el orden de las categorías de las variables respuesta en este modelo es innecesario. El modelo queda planteado como sigue, usando la notación de Kleinbaum, 2010: ( = / ) ( = 3: / ) = + + Donde: g=1: dislike very much, 2: dislike, 4: like, 5: like very much. El diseño C, es el nivel de referencia. 2 Cabe indicar que en el paper, el modelo Logit acumulado ajustado, si supera el test de invarianza de odds ratio. Creemos que la razón del cambio es la versión de SAS V9.0 usada en ese entonces, pues tal y como el autor explico se trataba de un PROC SURVEYLOGISTIC aun en etapa experimental y los resultados podrían cambiar con una versión posterior.
  • 14. Regresión Logística Análisis de datos categóricos 14 La tabla 6 indica que el modelo Logit generalizado es usado en el análisis. En este caso se ha usado como técnica de optimización el algoritmo de Newton-Raphson y el método de estimación de varianza por default es el método de expansión de la Serie de Taylor con el ajuste de Morel (1989). Tabla 6. Para plantear el modelo debe especificarse la categoría de referencia de la variable respuesta con la que se realizaran las comparaciones del resto de categorías. Al no ser indicado, el procedimiento ordena internamente las etiquetas de forma ascendente y selecciona el orden más alto, en este caso a rating=neutral, precisamente con el que queremos se realice las comparaciones, ver tabla 7.
  • 15. Regresión Logística Análisis de datos categóricos 15 Tabla 7. En la tabla 8, se especifican las dos variables indicadoras que ingresaron al modelo (diseño A y diseño B). El diseño C es considerado como nivel de referencia. Las tablas 9 y 10 muestran la significancia del modelo. Tabla 8. Tabla 9. Tabla 10. La estimación de los parámetros del modelo y los odds ratio son mostrados en las tablas 11 y 12.
  • 16. Regresión Logística Análisis de datos categóricos 16 En la tabla 11, se muestran los parámetros estimados, 4 parámetros estimados de intercepto, 4 parámetros estimados para el diseño A y 4 parámetros estimados para el diseño B. Tanto para el diseño A y B, el primer parámetro estimado compara rating=dislike vs. rating=neutral, el segundo parámetro estimado compara rating=dislike very much vs. rating=neutral, el tercero compara rating=like vs. rating=neutral y el cuarto, rating=like very much vs. rating=neutral Tabla 11. En la tabla 12, los intervalos al 95% de confianza para los odds ratio del diseño A vs C contienen a 1, por lo que no se puede afirmar con estos datos sobre la preferencia de A. El diseño B comparado con el diseño C, es significativamente menos probable que obtenga una puntuación negativa (dislike o dislike very much) que neutral, al tener odds ratio menores que 1.
  • 17. Regresión Logística Análisis de datos categóricos 17 Tabla 12. Con la tabla 13, obtenemos una conclusión similar de B pero ahora respecto a A. Tabla 13. Cuando se comparan el diseño A y C con el B, se logra más información, pues es significativamente más probable que A y C obtengan una puntuación negativa (dislike o dislike very much) que neutral, al tener odds ratio superiores a 1 en estas dos categorías, ver tabla 14.
  • 18. Regresión Logística Análisis de datos categóricos 18 Tabla 14. Finalmente, el modelo logístico generalizado aplicado a estos datos de encuesta, no muestra evidencia que algún Diseño Web sea el preferido, pero sí podemos decir que los diseños A y C gustan menos que B (tabla 14).
  • 19. Regresión Logística Análisis de datos categóricos 19 6. METODO COMPUTACIONAL PROC SURVEYLOGISTIC A continuación, se resume los principales puntos que definen la base matemática detrás del procedimiento PROC SURVEYLOGISTIC de SAS. 6.1. GENERALES a) Diferencia entre muestreo estratificado y por conglomerados:  En el muestreo estratificado hay homogeneidad de elementos dentro del estrato y heterogeneidad entre estratos. Se realiza una selección aleatoria de los elementos dentro de cada estrato.  En el muestro por conglomerados hay heterogeneidad de elementos dentro del conglomerado y homogeneidad entre conglomerados. Se realiza una selección aleatoria de conglomerados. b) Se considera una muestra estratificada y por conglomerados: Primero se realiza la estratificación (por ejemplo, con fraude o sin fraude) y después el muestreo por conglomerados (por ejemplo, vive en Alcalá, Alcobendas o Villaverde).  Y es la variable respuesta con categorías 1, 2, ..., D, D + 1.  Las p covarianzas se denotan por un vector fila p-dimensional. c) Cada observación se representa con un vector fila: Vector fila: ( , ′ , ( ), )  ℎ = 1,2 , . . . , es el número del estrato con un total de estratos.  = 1 ,2 , . . . , es el número del conglomerado con un total de conglomerados.  ñ = ∑ es el número total de conglomerados en la muestra.  = 1 ,2 , . . . , es el número de unidad dentro del estrato ℎ y conglomerado , con un total de unidades.  = ∑ ∑ es el tamaño total de la muestra.  es el peso muestral.  es un vector columna − . Si la respuesta del − é miembro del − é conglomerado en el estrato ℎ cae en la categoría , la − é fila del vector es igual a 1, siendo 0 el resto de los elementos del vector.  ( ) es la variable indicadora para la categoría ( + 1) de la variable .  es el vector − de las variables explicativas para el − é miembro del − é conglomerado en el estrato ℎ. Si hay un término independiente entonces ≡ 1.  es la tasa muestral para el estrato ℎ.
  • 20. Regresión Logística Análisis de datos categóricos 20  es el vector esperanza de la variable respuesta.  = ( | ) = ( , , . . . , )′  ( ) = ( ( )| ) = 1 − ′ siendo un vector columna − cuyos elementos son 1. d) Función link:  La función link queda representada por (·) = = ( , ) donde es un vector columna − para los coeficientes de regresión.  La función logarítmica de pseudo – verosimilitud es: ( ) = (( ( ))′ + ( ( )) ( )) 6.2. ESTIMADOR DE MÁXIMA VEROSIMILITUD a) Proceso iterativo: El estimador de máxima verosimilitud es una solución a las ecuaciones estimadas: ( ( ) − ) − = 0  es la matriz de derivadas parciales de la función link con respecto a .  Para obtener el estimador de máxima verosimilitud , el procedimiento utiliza iteraciones con un valor de comienzo ( ) para .  En el paso − é se obtiene el estimador ( ) .  En el paso ( + 1) − é el estimador ( ) = ( ) + ( ) ( ) donde: - ( ) = ∑ ∑ ∑ ( ) ( ( ( ) ) − ( ) ( ) ) ′ ( ) - ( ) = ∑ ∑ ∑ ( ) ( ( ( ) ) − ( ) ( ) ) − ( ) Donde ( ) , ( ) son evaluados en ( ) .  El proceso iterativo continúa hasta que el algoritmo alcanza, en el paso − é , el criterio de convergencia b) Criterio de convergencia del gradiente: Por defecto, en SAS la iteración converge en el − é paso si
  • 21. Regresión Logística Análisis de datos categóricos 21 ( ( ) )′ ( ( ) ) ( ( ) ) ( ( )) + 10 <  Siendo por defecto = 10 o el indicado a través de la opción GCONV.  y son, respectivamente, el vector gradiente y la matriz Hessiana esperada negativa de la función logarítmica de pseudo – verosimilitud. c) Criterio de la función de convergencia: Alternativamente, se puede establecer que la iteración converja cuando el cambio en la función logarítmica de verosimilitud se reduzca en el paso ( + 1) – é hasta ( ( ) ) − ( ( ) ) | ( ( ))| + 10 <  Donde se establece en SAS en la opción FCONV Otros dos criterios de convergencia ABSFCONV y XCONV son permitidos en SAS 6.3. ESTIMACIÓN DE LA MATRÍZ DE COVARIANZA Estimación de la matriz de covarianza de (utilizada para realizar test de hipótesis). a) Usando la aproximación de Taylor: ( ) = Donde:  = ∑ ∑ ∑ ( ( ) − ) ′  = ∑ ( ) ∑ (ℯ − ℯ ..) (ℯ − ℯ ..)  ℯ = ∑ ( ( ) − ) ( − )  ℯ .. = ∑ ℯ  y son evaluadas en . b) Usando el ajuste de Morel a la fórmula de Taylor: ( ) = + Donde:
  • 22. Regresión Logística Análisis de datos categóricos 22  = ( , ( + 1) ( ))  tiene a como límite inferior, el cual se puede indicar mediante la opción DEFFBOUND = , o si no, el procedimiento utiliza = 1 por defecto.  Si ñ – + 1 > 3 ( + 1) – 2 entonces = ñ ( )  Si ñ – + 1 ≤ 3 ( + 1) – 2 entonces =  converge a 0 cuando el tamaño de la muestra es grande y tiene a como límite superior, el cual se puede especificar mediante la opción ADJBOUND = , o si no, el procedimiento utiliza = 0,5 por defecto.  y son constantes positivas dadas. Sobre el ajuste de Morel:  Reducirá el sesgo por muestra pequeña reflejado en tasas de Error de Tipo I inflados.  Garantizara una matriz de covarianza estimada definida positiva siempre que exista.  El ajuste de Morel tenderá a cero cuando el tamaño de la muestra es grande, es decir, que ambos métodos (Taylor y Morel) son asintóticamente equivalentes. 6.4. ESTUDIO MONTE CARLO PARA LA COMPARACION DEL METODO DE MOREL CON MLE Y TAYLOR Morel realizó una comparación de tres procedimientos de estimación: MLE, estimación por máxima verosimilitud donde se ignora el efecto del clustering, TAYLOR el cual usa el método de expansión de la Serie de Taylor y el procedimiento CPLX en el que realiza un ajuste al de TAYLOR (ajuste de Morel). El estudio Monte Carlo se realizó con datos generados a partir de dos tipos de esquema de muestreo: a) Esquema de muestreo 1: Todos los elementos dentro de un clúster tienen el mismo vector de variables explicativas. Y, por tanto, el modelo contiene pesos que indican el porcentaje de observaciones de un mismo vector respecto al total. Diferentes grados de correlación intraclase son inducidos para las variables respuestas dentro de un mismo segmento. b) Esquema de muestreo 2: Los elementos dentro de un clúster tienen vectores de variables explicativas distintos. Diferentes grados de correlación intraclase son controlados. El estudio comparativo de los tres modelos consistió en lo siguiente: 1. Estimar mediante cada uno de los tres procedimientos el sesgo relativo de los Errores Tipo I obtenidos al comparar al 5% de significación : = mediante F- tests contra F(12, ∞; 0.05) = 1.753. Los resultados se muestran en las tablas 3.1 y 3.5 del anexo III.
  • 23. Regresión Logística Análisis de datos categóricos 23 Conclusiones:  El método de Taylor para muestras pequeñas suele presentar resultados muy alejados de aquellos proporcionados usando el ajuste de Morel (CPLX).  Para datos en los que no hay correlación intraclase Ϛ = 0 y el efecto de diseño ∅ = 0 , el procedimiento MLE proporciona menor sesgo relativo a la estimación del error de tipo I, seguido por el de CPLX y el de Taylor (en el esquema 2 no se cumple para n=20, n=100)  El MLE muestra mayor distorsión del error de tipo I estimado cuando la correlación intraclase es positiva. Esta distorsión se va incrementando a medida que la correlación intraclase también va creciendo.  En general el procedimiento CPLX produce sesgos más pequeños que el de TAYLOR tanto en muestras pequeñas como grandes. 2. Si los estadísticos F usados para el test : = se multiplican por el número de parámetros usados, el estadístico resultante se distribuye mediante una variable aleatoria Chi-cuadrado. Las medias y varianzas para estos estadísticos Chi- cuadrado se muestran en las tablas 3.2 y 3.6 del anexo III. Conclusiones:  El método de Taylor para muestras pequeñas produce valores medios altos y varianzas muy elevadas en comparación con los otros dos métodos.  Para datos en los que no hay correlación intraclase Ϛ = 0, el procedimiento MLE proporciona resultados aceptables.  A medida que aumenta la correlación intraclase, las medias y las varianzas tienden a aumentar con los tres métodos, sin embargo, es el método CPLX el que es capaz de mantenerlos en valores no demasiado elevados.  El método de Taylor y CPLX proporcionan resultados similares para muestras grandes. 3. Se estimó el efecto diseño para los procedimientos CPLX y TAYLOR y se obtuvieron resultados para el esquema de muestreo 1 y 2. Los resultados se muestran en las tablas 3.3 y 3.7 del anexo III.  En el esquema 1 ambos métodos dieron buenos resultados. El método CPLX mostro menor sesgo y errores estándar ligeramente más altos.  En el esquema 2 Taylor produce menor sesgo que CPLX en muestras pequeñas. Sin embargo en muestras grandes tienen similar resultado. 4. Se estimaron los sesgos para los percentiles 5 y 95 del estadístico t de Student t = . − de las estimaciones de los coeficientes individuales, sólo para los modelos MLE y CPLX. Los resultados se muestran en las tablas 3.4 y 3.8.
  • 24. Regresión Logística Análisis de datos categóricos 24 Conclusiones:  MLE tiene un sesgo relativo cercano a cero en ausencia de correlación intraclase. El sesgo se incrementa a medida que esta correlación crece.  En general CPLX tiene sesgos pequeños y para muestras grandes es despreciable.
  • 25. Regresión Logística Análisis de datos categóricos 25 7. CONCLUSIONES  Existen varios procedimientos en SAS disponibles que permiten realizar análisis relacionados con encuestas de investigación, tales como: PROC SURVEYSELECT, PROC SURVEYMEANS, PROC SURVEYREG, PROC LOGISTIC y PROC SURVEYLOGISTIC.  El procedimiento LOGISTIC se utiliza para ajustar modelos de regresión logística para datos de una muestra aleatoria. Si los datos provienen de diseños complejos, se deben aplicar técnicas especializadas para generar estimaciones adecuadas. Los cuales están incluidos en el procedimiento PROC SURVEYLOGISTIC.  En futuras versiones de SAS, se agregarán más funciones (por ejemplo, selecciones de modelos) a PROC SURVEYLOGISTIC, así como más procedimientos para el análisis de datos de encuestas. SOBRE EL PROCEDIMIENTO DE MOREL:  Para datos en los que no hay correlación intraclase Ϛ = 0, el procedimiento MLE proporciona buenos resultados, seguido por el de Morel y el de Taylor.  Los métodos de Taylor y Morel son asintóticamente equivalentes para muestras grandes. Para muestras pequeñas, el procedimiento de Morel proporciona siempre mejores resultados que el método de Taylor.  El método de Morel se comporta mejor tanto para muestras grandes como pequeñas.
  • 26. Regresión Logística Análisis de datos categóricos 26 8. ANEXOS ANEXO I MODELOS LOGIT ACUMULADO (AGRESTI, 2007 SEGUNDA EDICION PAGINAS 180- 182) Cuando las categorías de la variable respuesta son ordenadas, los Logits pueden utilizar este ordenamiento. Estos modelos resultan tener interpretaciones más simples y con un poder potencialmente más grande que modelos Logit categóricos-baseline. Una probabilidad acumulada para Y es la probabilidad que Y se encuentre en o por debajo de un punto particular. Para una categoría de respuesta j, la probabilidad acumulada es: ( ≤ ) = + ⋯ + , = 1, … , Las probabilidades acumuladas reflejan el ordenamiento, con ( ≤ 1) ≤ ( ≤ 2) ≤ ⋯ ≤ ( ≤ ) = 1. Los modelos para probabilidades acumuladas no usan la probabilidad final ( ≤ ) pues este es necesariamente igual a 1. Los Logits de las probabilidades acumuladas son: ( ≤ ) = ( ≤ ) 1 − ( ≤ ) = + ⋯ + + ⋯ + = 1, … , − 1 Estos son llamados los Logits acumulados. Para J=3, por ejemplo, los modelos usan ambos [ ( ≤ 1)] = y [ ( ≤ 2)] = ( + ) . Cada logit acumulado usa todas las categorías de la variable respuesta. Modelos Logit acumulado: Propiedad de odds proporcionales. Un modelo para el logit acumulado j luce como un modelo de regresión logística binario en el cual las categorías 1 a j se combinan para formar una sola categoría y las categorías j+1 a J forman una segunda categoría. Para una variable explicativa x, el modelo [ ( ≤ )] = + , = 1, … , − 1 (1) tiene el parámetro describiendo el efecto de x en el log odds de la categoría j de respuesta o por debajo. En esta fórmula, no tiene un subíndice j. Así, el modelo asume que el efecto de x es idéntico para todos los J-1 Logits acumulados. Cuando este modelo ajusta bien, requiere un solo parámetro en lugar de J-1 parámetros para describir el efecto de x.
  • 27. Regresión Logística Análisis de datos categóricos 27 La siguiente figura representa este modelo para cuatro categorías de respuesta con x cuantitativa. Cada probabilidad acumulada tiene su propia curva, describiendo su cambio como una función de x. La curva para ( ≤ ) luce como una curva de regresión logística para una respuesta binaria con un par de resultados ( ≤ ) y ( > ). El efecto común para cada j implica que las tres curvas tienen la misma forma. Cualquier curva es idéntica a cualquiera de los otros desplazados a la derecha o desplazados a la izquierda. Interpretaciones del modelo pueden usar odds ratios para las probabilidades acumuladas y sus complementos. Para dos valores y de x, un odds ratio que compara las probabilidades acumuladas es: ( ≤ / = ) ( > / = ) ( ≤ / = ) ( > / = ) El log de este odds ratio es la diferencia entre los Logits acumulados para aquellos dos valores de x. Esto es igual a ( − ), proporcional a la distancia entre los valores de x. En particular, para − = 1, el odds ratio de la respuesta por debajo de cualquier categoría dada, multiplica por cada unidad de incremento en x. Para este log odds ratio ( − ), la misma constante de proporcionalidad( ) aplica para cada probabilidad acumulada. Esta propiedad es llamada “supuesto de odds proporcional” del modelo (1) Para Kleinbaum, 2010 pagina 467, esta propiedad implica que el odds ratio es invariante a donde se dicotomicen las categorías de la variable respuesta. Si se cumple este supuesto, entonces el modelo odds proporcional nos permite resumir la relación entre la respuesta y cada variable independiente con un solo parámetro y no con varios. Kleinbaum, 2010 en la página 480, indica como sería el procedimiento al correr varios modelos de regresión logística como alternativa al modelo odds proporcional. En específico, para verificar el supuesto de proporcionalidad de odds con los modelos estimados por separado, señala que el método más simple seria calcular los odds ratios ‘crudos’ con cada modelo y compararlos. Para un modelo de cuatro niveles por ejemplo,
  • 28. Regresión Logística Análisis de datos categóricos 28 se verificaría si los coeficientes de las variables independientes son similares unas a otras (solo en este tipo de modelamiento).
  • 29. Regresión Logística Análisis de datos categóricos 29 ANEXO II. Modelos para variables de respuesta binarias y de varias categorías ( = 1, 2, … , ) Modelo Logístico Generalizado (siendo D + 1 la categoría de referencia para Y) Modelo Logit Acumulado (Modelo de Odds Proporcionales) Función link Donde: Donde: suma acumulada de las proporciones esperadas para las 1eras categorías de la variable . Matriz 1eras derivadas parciales Donde: es el Producto de Kronecker Donde: es un vector columna D- dimensional es una matriz D x D Evaluado en el estimador de máxima verosimilitud Donde:
  • 30. Regresión Logística Análisis de datos categóricos 30 Modelos para variables de respuesta binaria ( = 1) Modelo clog-log Modelo Probit Función link Donde: es el vector de parámetros. Donde: es el vector de parámetros. es la función de distribución acumulada de la distribución normal estándar Matriz 1eras derivadas parciales Evaluado en el estimador de máxima verosimilitud
  • 31. Regresión Logística Análisis de datos categóricos 31 ANEXO III.
  • 32. Regresión Logística Análisis de datos categóricos 32
  • 33. Regresión Logística Análisis de datos categóricos 33
  • 34. Regresión Logística Análisis de datos categóricos 34
  • 35. Regresión Logística Análisis de datos categóricos 35 9. BIBLIOGRAFIA 1. An, Anthony B. Performing Logistic Regression on Survey Data with the New SURVEYLOGISTIC. Procedure. SAS Institute Inc. Cary, North Carolina. Paper. 258-27. 2. Agresti, A. (2007). An introduction to categorical data analysis. 2nd ed. pp.180-182. 3. Anguita et. al. (2002). La encuesta como tecnica de investigacion. Elaboracion de cuestionarios y tratamiento estadistico de los datos (I). Aten Primaria 2003. 31(8): 527-38. http://www.unidaddocentemfyclaspalmas.org.es/resources/9+Aten+Primaria+2003.+La+E ncuesta+I.+Custionario+y+Estadistica.pdf 4. Kleinbaum, D. (2010). Logistic Regression. 3rd ed. New York, NY: Springer, pp.467/480-481. 5. Morel, G. (1989). Logistic Regression under Complex Survey Designs. Survey Methodology. 15. 203-223. 6. SAS/STAT(R) 9.3 User's Guide https://support.sas.com/documentation/cdl/en/statug/63962/HTML/default/viewer.htm# surveylogistic_toc.htm