Muestreo equilibrado eficiente, el método del cubo

1,411 views
1,277 views

Published on

Muestreo equilibrado eficiente, el método del cubo
Yves tillé
Eustat - Curso de Verano 2010

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,411
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
18
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Muestreo equilibrado eficiente, el método del cubo

  1. 1. NAZIOARTEKO ESTATISTIKA MINTEGIA SEMINARIO INTERNACIONAL DE ESTADÍSTICA 2010Muestreo Equilibrado Eficiente: El Método del Cubo Yves Tillé EUSKAL ESTATISTIKA ERAKUNDEA INSTITUTO VASCO DE ESTADÍSTICA 52
  2. 2. Muestreo Equilibrado Eficiente: ´ El Metodo del Cubo Yves Till´ e Institut de Statistique, Universit´ de Neuchˆtel e a Pierre ` Mazel 7, 2002 Neuchˆtel, Suiza a a email : yves.tille@unine.ch 29 de septiembre de 2010
  3. 3. Lanketa / Elaboración:Euskal Estatistika ErakundeaInstituto Vasco de Estadística (EUSTAT)Argitalpena / Edición:Euskal Estatistika ErakundeaInstituto Vasco de EstadísticaDonostia – San Sebastián, 1 – 01010 Vitoria – GasteizEuskal AEko AdministrazioaAdministración de la C.A. de EuskadiAle-kopurua / Tirada:500 ale / ejemplaresXI-2010Inprimaketa eta Koadernaketa:Impresión y Encuadernacion:Estudios Gráficos ZURE S.A.Ctra. Lutxana-Asua, 24 AErandio-Goikoa (BIZKAIA)I.S.B.N.: 978-84-7749-465-2Lege-gordailua / Depósito Legal: BI-2699-10
  4. 4. AURKEZPENANazioarteko Estatistika Mintegia antolatzean, hainbat helburu bete nahi ditu EUSTAT-EuskalEstatistika Erakundeak:– Unibertsitatearekiko eta, batez ere, Estatistika-Sailekiko lankidetza bultzatzea.– Funtzionarioen, irakasleen, ikasleen eta estatistikaren alorrean interesatuta egon daitezkeen guz- tien lanbide-hobekuntza erraztea.– Estatistika alorrean mundu mailan abangoardian dauden irakasle eta ikertzaile ospetsuak Eus- kadira ekartzea, horrek eragin ona izango baitu, zuzeneko harremanei eta esperientziak ezagu- tzeari dagokienez.Jarduera osagarri gisa, eta interesatuta egon litezkeen ahalik eta pertsona eta erakunde gehienetarairistearren, ikastaro horietako txostenak argitaratzea erabaki dugu, beti ere txostengilearen jato-rrizko hizkuntza errespetatuz; horrela, gai horri buruzko ezagutza gure herrian zabaltzen lagun-tzeko. Vitoria-Gasteiz, 2010eko Urria JAVIER FORCADA SAINZ EUSTATeko Zuzendari Nagusia PRESENTATIONIn promoting the International Statistical Seminars, EUSTAT-The Basque Statistics Institutewishes to achieve several aims:– Encourage the collaboration with the universities, especially with their statistical departments.– Facilitate the professional recycling of civil servants, university teachers, students and whoever else may be interested in the statistical field.– Bring to the Basque Country illustrious professors and investigators in the vanguard of statis- tical subjects, on a worldwide level, with the subsequent positive effect of encouraging direct relationships and sharing knowledge of experiences.As a complementary activity and in order to reach as many interested people and institutions aspossible, it has been decided to publish the papers of these courses, always respecting the originallanguage of the author, to contribute in this way towards the growth of knowledge concerning thissubject in our country. Vitoria-Gasteiz, October 2010 JAVIER FORCADA SAINZ General Director of EUSTAT III
  5. 5. PRESENTACIONAl promover los Seminarios Internacionales de Estadística, el EUSTAT-Instituto Vasco de Esta-dística pretende cubrir varios objetivos:– Fomentar la colaboración con la Universidad y en especial con los Departamentos de Estadística.– Facilitar el reciclaje profesional de funcionarios, profesores, alumnos y cuantos puedan estar interesados en el campo estadístico.– Traer a Euskadi a ilustres profesores e investigadores de vanguardia en materia estadística, a nivel mundial, con el consiguiente efecto positivo en cuanto a la relación directa y conocimiento de experiencias.Como actuación complementaria y para llegar al mayor número posible de personas e Institucio-nes interesadas, se ha decidido publicar las ponencias de estos cursos, respetando en todo caso lalengua original del ponente, para contribuir así a acrecentar el conocimiento sobre esta materiaen nuestro País. Vitoria-Gasteiz, Octubre 2010 JAVIER FORCADA SAINZ Director General de EUSTAT IV
  6. 6. BIOGRAFI OHARRAKYves Tillé doktorea da Bruselako Unibertsitate Librean, estatistikan. 2001 ezkeroztik irakasledihardu Suitzako Neuchâtel unibertsitatean. Inkesta-estatistika eta laginketaren teorian ari daikertzen. BIOGRAPHICAL SKETCHYves Tillé was awarded his pHD in Statistics by the Free University of Brussels. He has been aprofessor at Neuchâtel University in Switzerland since 2001. His fields of research are surveystatistics and sampling theory. NOTAS BIOGRÁFICASYves Tillé ha logrado un doctorado en estadística de la Universidad libre de Bruselas. Desde2001, es profesor en la Universidad de Neuchâtel en Suiza. Sus campos de investigaciones son laestadística de encuesta y la teoría del muestreo. V
  7. 7. ´Indice general1. Introducci´n o 32. Poblaci´n, dise˜ o muestral, y estimaci´n o n o 4 2.1. Poblaci´n finita . . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . 4 2.2. Dise˜o del Muestreo . . . . . . . . . . . . . . . . . . n . . . . . . . . . . 5 2.3. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . 6 2.4. Estimaci´n de N . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . 7 2.5. Mala propiedad del estimador de Horvitz-Thompson . . . . . . . . . . 7 2.6. El problema de los elefantes de Basu (1971) . . . . . . . . . . . . . . . 73. Muestreo simple 9 3.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.) 9 3.2. La varianza del dise˜o simple sin reemplazamiento . . . . . . . . . . . . n 10 3.3. Algoritmo de selecci´n-rechazo . . . . . . . . . . . . . . . . . . . . . . . o 11 3.4. Dise˜os simples con reemplazamiento . . . . . . . . . . . . . . . . . . . n 12 3.5. Comparaci´n de los dise˜os simples . . . . . . . . . . . . . . . . . . . . o n 134. Estratificaci´no 14 4.1. Introducci´n . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . . . . . 14 4.2. Poblaci´n y estratos . . . . . . . . . . . . . . o . . . . . . . . . . . . . . 14 4.3. Muestra, probabilidad de inclusi´n, estimaci´n o o . . . . . . . . . . . . . 15 4.4. Probabilidad de inclusi´n . . . . . . . . . . . . o . . . . . . . . . . . . . . 16 4.5. Plan estratificado con afijaci´n proporcional . o . . . . . . . . . . . . . . 17 4.6. Dise˜o estratificado ´ptimo para el total . . . n o . . . . . . . . . . . . . . 19 4.7. Nota sobre la optimalidad en estratificaci´n . o . . . . . . . . . . . . . . 20 4.8. Optimalidad y coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.9. Tama˜o de muestra m´ n ınimo . . . . . . . . . . . . . . . . . . . . . . . . 205. Muestreo con probabilidades desiguales 22 5.1. Informaci´n auxiliar y probabilidades de inclusi´n . . . . . . o o . . . . . . 22 5.2. C´lculo de las probabilidades de inclusi´n . . . . . . . . . . a o . . . . . . 22 5.3. Muestreo con probabilidades desiguales con reemplazamiento . . . . . . 23 5.4. Dise˜o de Poisson . . . . . . . . . . . . . . . . . . . . . . . . n . . . . . . 24 5.5. Muestreo de entrop´ m´xima con tama˜o fijo . . . . . . . . ıa a n . . . . . . 25 5.6. El dise˜o muestral sistem´tico . . . . . . . . . . . . . . . . . n a . . . . . . 25 1
  8. 8. 5.7. El m´todo de escisi´n . . . . . . . . . . . . . . . . e o . . . . . . . . . . . . 26 5.7.1. Escisi´n en dos partes . . . . . . . . . . . o . . . . . . . . . . . . 26 5.7.2. Escisi´n en M partes . . . . . . . . . . . . o . . . . . . . . . . . . 28 5.7.3. Dise˜o con un soporte m´ n ınimo . . . . . . . . . . . . . . . . . . . 29 5.7.4. Escisi´n en dise˜os simples . . . . . . . . . o n . . . . . . . . . . . . 29 5.7.5. El m´todo del pivote . . . . . . . . . . . . e . . . . . . . . . . . . 30 5.7.6. M´todo de Brewer . . . . . . . . . . . . . e . . . . . . . . . . . . 31 5.8. Varianza en dise˜os con probabilidades desiguales n . . . . . . . . . . . . 326. Muestreo equilibrado 33 6.1. Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o . . . 33 6.2. Representaci´n por un cubo . . . . . . . . . . . . . . . . . . . . . o . . . 34 6.3. Muestras equilibradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 6.4. Representaci´n gr´fica del problema de redondeado . . . . . . . . o a . . . 35 6.5. La martingala equilibrada . . . . . . . . . . . . . . . . . . . . . . . . . 38 6.6. Implementaci´n de la fase de vuelo . . . . . . . . . . . . . . . . . o . . . 38 6.7. Implementaci´n de la fase de aterrizaje . . . . . . . . . . . . . . o . . . 39 6.7.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 6.7.2. Soluci´n 1: programa linear . . . . . . . . . . . . . . . . . o . . . 40 6.7.3. Soluci´n 2: supresi´n sucesiva de variables . . . . . . . . . o o . . . 40 6.8. Varianza en un plan equilibrado . . . . . . . . . . . . . . . . . . . . . . 41 6.8.1. Una t´cnica de residuos . . . . . . . . . . . . . . . . . . . e . . . 41 6.8.2. Aproximaci´n de la varianza . . . . . . . . . . . . . . . . . o . . . 41 6.8.3. Estimaci´n de la varianza . . . . . . . . . . . . . . . . . . o . . . 42 6.9. Muestreo equilibrado en pr´ctica . . . . . . . . . . . . . . . . . . a . . . 42 6.9.1. Inter´s de muestreo equilibrado . . . . . . . . . . . . . . . e . . . 42 6.9.2. Muestreo Equilibrado Contra Otras T´cnicas de Muestreo e . . . 44 6.9.3. Elecci´n de las variables de equilibrio . . . . . . . . . . . . o . . . 44 6.9.4. Equilibrio versus Calibraci´n . . . . . . . . . . . . . . . . . o . . . 45 6.9.5. Precisi´n de las ecuaciones de equilibrio . . . . . . . . . . o . . . 46 6.9.6. Principales Implementaciones de muestreo equilibrado . . . . . . 46 2
  9. 9. Cap´ ıtulo 1Introducci´n o Este peque˜o libro ha sido escrito a ra´ de una invitaci´n al Instituto Vasco de n ız oEstad´ ıstica. El objetivo era presentar el m´todo del cubo para seleccionar muestras eequilibradas y de mostrar el inter´s del m´todo. Sin embargo, he empezado por una pre- e esentaci´n general de la teor´ de muestreo, con las definiciones del dise˜o de muestreo, o ıa ndel estimador de Horvitz-Thompson y su varianza. Tambi´n, he desarrollado dos cap´ e ıtu-los sobre los dise˜os simples y estratificados ya que el muestreo equilibrado es una ngeneralizaci´n de estos dise˜os. El largo cap´ o n ıtulo sobre los dise˜os con probabilidades ndesiguales y el m´todo de escisi´n es una introducci´n al m´todo del cubo. En efecto, e o o eel m´todo de escisi´n es el caso particular del algoritmo de cubo cuando solamente e ouna variable auxiliar proporcional a las probabilidades de inclusi´n es disponible. El om´todo de escisi´n es el que nos lleva a proponer el m´todo del cubo. e o e Despu´s de esta larga introducci´n, presentamos el m´todo del cubo: el principio e o edel algoritmo, su implementaci´n, el c´lculo de las varianzas y sus estimaciones. Tam- o abi´n hemos a˜adido una larga discusi´n sobre el inter´s del m´todo, sus principales e n o e eaplicaciones, sus implementaciones y los limites. 3
  10. 10. Cap´ ıtulo 2Poblaci´n, dise˜ o muestral o ny estimaci´n o2.1. Poblaci´n finita o El objetivo es estudiar una poblaci´n finita U = {1, . . . , N } de tama˜o N . La o nvariable de inter´s y toma el valor yk , k ∈ U. Queremos estimar una funci´n de inter´s e o ede los yk , θ = f (y1 , . . . , yk , . . . , yN ).Por ejemplo, el total o la media 1 Y = yk , e Y = yk . k∈U N k∈Uporque se puede escribir N= 1. k∈ULa varianza 2 1 σy = (yk − Y )2 . N k∈ULa cuasivarianza 2 1 Sy = (yk − Y )2 . N − 1 k∈U Existen funciones no lineales de los yk como un ratio Y R= , Xdonde X= xk . k∈UUn ratio es una funci´n no lineal de los valores yk . Existen tambi´n funciones m´s o e acomplejas como un coeficiente de correlaci´n, la mediana, o los coeficientes de odesigualdades. 4
  11. 11. 2.2. Dise˜ o del Muestreo n Una muestra s es un subconjunto de la poblaci´n s ⊂ U. Un dise˜o muestral p(s) o nes una distribuci´n de probabilidad sobre todas las muestras posibles o p(s) = 1. s⊂ULa muestra aleatoria S toma el valor s con la probabilidad Pr(S = s) = p(s). Las variables indicadoras son definidas por : 1 si la unidad k ∈ S Ik = 0 si la unidad k ∈ S. /La probabilidad de inclusi´n es la probabilidad que la unidad k sea seleccionada en la omuestra aleatoria : πk = Pr(k ∈ S) = p(s) = E(Ik ) = . s kLa probabilidad de inclusi´n de segundo orden es la probabilidad que dos unidades odistintas sean seleccionadas conjuntamente en la muestra : πk = E(Ik I ) = Pr(k y ∈ S) = p(s). s k,Adem´s a πk (1 − πk ) si k = ∆k = Cov(Ik , I ) πk − πk π si k =Si el dise˜o muestral es de tama˜o fijo, entonces n n πk = n. k∈UEn effecto, πk = E(Ik ) = E Ik = E(n) = n. k∈U k∈U k∈UAdem´s, es posible demostrar que, para un dise˜o muestral de tama˜o fijo, a n n πk = nπk con πkk = πk . ∈U 5
  12. 12. 2.3. El estimador de Horvitz-Thompson El estimador de Horvitz-Thompson para el total viene dado por yk Yπ = , k∈S πky para la media 1 yk Yπ = . N k∈S πkEl estimador de Horvitz-Thompson es insesgado, si πk > 0, k ∈ U. En efecto yk E Yπ = E k∈S πk yk = E Ik k∈U πk yk = E (Ik ) k∈U πk yk = πk k∈U πk = yk k∈U = Y. La varianza del estimador de Horvitz-Thompson es ˆ yk var Yπ = var Ik k∈U πk 2 yk yk y = 2 var(Ik ) + Cov(Ik , I ) k∈U πk k∈U ∈U πk π 2 yk yk y = πk (1 − πk ) + ∆k . (2.1) π2 k∈U k k∈U ∈U πk π =kSe puede demostrar que con una muestra de tama˜o fijo n 2 ˆ −1 yk y var Yπ = − ∆k . (2.2) 2 k∈U ∈U πk π =kLa varianza puede estimarse sin sesgo por 2 ˆ yk yk y ∆ k var Yπ = 2 (1 − πk ) + . (2.3) k∈S πk k∈S ∈S πk π πkl =k 6
  13. 13. Si el dise˜o es de tama˜o fijo, se puede tambi´n estimar la varianza por n n e 2 ˆ −1 yk y ∆k var Yπ = − . (2.4) 2 k∈S ∈S πk π πk =k2.4. Estimaci´n de N o Sabiendo que N es un total, se puede escribir: N= 1, k∈UPodemos estimar N sin sesgo por el estimador de Horvitz-Thompson 1 Nπ = . k∈S πk2.5. Mala propiedad del estimador de Horvitz-Thompson El estimador de Horvitz-Thompson tiene una mala propiedad, cuando la variablees constante, yk = C 1 yk 1 C 1 1 Nπ Yπ = = =C =C N k∈S πk N k∈S πk N k∈S πk N2.6. El problema de los elefantes de Basu (1971) The circus owner is planning to ship his 50 adult elephants and so he needs a roughestimate of the total weight of the elephants. As weighing an elephant is a cumbersomeprocess, the owner wants to estimate the total weight by weighing just one elephant.Which elephant should he weigh ? So the owner looks back on his records and discoversa list of the elephants’ weights taken 3 years ago. He finds that 3 years ago Sambo themiddle-sized elephant was the average (in weight) elephant in his herd. He checks withthe elephant trainer who reassures him (the owner) that Sambo may still be consideredto be the average elephant in the herd. Therefore, the owner plans to weigh Samboand take 50 y (where y is the present weight of Sambo) as an estimate of the totalweight Y = Y1 + Y2 + . . . + Y50 of the 50 elephants. But the circus statistician ishorrified when he learns of the owner’s purposive samplings plan. “How can you getan unbiased estimate of Y this way ?” protests the statistician. So, together they workout a compromise sampling plan. With the help of a table of random numbers theydevise a plan that allots a selection probability of 99/100 to Sambo and equal selectionprobabilities 1/4900 to each of the other 49 elephants. Naturally, Sambo is selectedand the owner is happy. “How are you going to estimate Y?”, asks the statistician.“Why ? The estimate ought to be 50y of course,” says the owner. Oh! No! That cannot 7
  14. 14. possibly be right,” says the statistician, “I recently read an article in the Annals ofMathematical Statistics where it is proved that the Horvitz-Thompson estimator is theunique hyperadmissible estimator in the class of all generalized polynomial unbiasedestimators.” “What is the Horvitz-Thompson estimate in this case?” asks the owner,duly impressed. “Since the selection probability for Sambo in our plan was 99/100,”says the statistician, “the proper estimate of Y is 100y/99 and not 50y.” “And, howwould you have estimated Y,” inquires the incredulous owner, “if our sampling planmade us select, say, the big elephant Jumbo?” “According what I understand of theHorvitz-Thompson estimation method,” says the unhappy statistician, “the properestimate of Y would then have been 4900y, where y is Jumbo’s weight.” That is howthe statistician lost his circus job (and perhaps became teacher of statistics!). 8
  15. 15. Cap´ ıtulo 3Muestreo simple3.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.) Los dise˜os simples son los m´s b´sicos en teor´ del muestreo. Sin embargo, sus n a a ıaimplementaciones no son evidentes. Veremos que diferentes algoritmos permiten selec-cionar dise˜os simples. No hay que confundir dise˜os simples y dise˜os con probabi- n n nlidades de inclusi´n iguales. Los dise˜os simples tienen probabilidades de inclusiones o niguales pero todos los dise˜os con probabilidades de inclusi´n iguales no son simples. n oNos referimos a la definici´n siguiente. oDefinici´n 3.1 Un dise˜o muestral es aleatorio simple si todas las muestras de mismo o ntama˜o tienen la misma probabilidad de ser seleccionadas. n Existe solamente un dise˜o simple de tama˜o fijo. n n  −1  N si #s = n p(s) =  n 0 en caso contrario ,donde N N! = . n n!(N − n)! −1 −1 N N −1 N n πk = p(s) = = = , para todo k ∈ U. s k s k n n−1 n NProbabilidades de inclusi´n del segundo orden : o −1 −1 N N −2 N n(n − 1) πk = p(s) = = = , s k, s k, n n−2 n N (N − 1) 9
  16. 16. para todos k = ∈ U . Luego tenemos,  2  π − π π = n(n − 1) − n = − n(N − n)  k si k = k ∆k = N (N − 1) N 2 N 2 (N − 1) (3.1)  π (1 − π ) = n 1 − n = n(N − n)  si k = . k k N N N2 1 yk 1 N 1 Yπ = = yk = yk . N k∈S πk N k∈S n n k∈S yk N N Yπ = = yk = yk = N Y π . k∈S πk k∈S n n k∈S3.2. La varianza del dise˜ o simple sin reemplaza- n miento 2 −1 yk y var Yπ = − ∆k (3.2) 2 k∈U ∈U πk π =k 2 1 yk N yN n(N − n) = − (3.3) 2 k∈U ∈U n n N 2 (N − 1) =k N (N − n) 1 = (yk − y )2 (3.4) n 2N (N − 1) k∈U ∈U =k 2 2N − n Sy = N . (3.5) N nTeorema 1 En un m.a.s., la cuasivarianza de la poblaci´n es o 2 1 Sy = (yk − Y )2 , N − 1 k∈Uy puede estimarse por 1 s2 = y (yk − Y π )2 n−1 k∈S 10
  17. 17. Demostraci´n o 1 E(s2 ) = E y (yk − Y π )2 n−1 k∈S       1 = E (yk − y )2  2n(n − 1)    k∈S ∈S =k 1 = (yk − y )2 E (Ik I ) 2n(n − 1) k∈U ∈U =k 1 n(n − 1) = (yk − y )2 2n(n − 1) k∈U ∈U N (N − 1) =k 1 = (yk − y )2 2N (N − 1) k∈U ∈U =k 2 = Sy . 23.3. Algoritmo de selecci´n-rechazo o Existen numerosas maneras de seleccionar un dise˜o simple. Por ejemplo se puede nsortear la poblaci´n aleatoriamente y seleccionar las n primeras unidades de la poblaci´n. o oTambi´n, se puede seleccionar sucesivamente n unidades sin reemplazamiento con proba - ebilidades iguales. Sin embargo, la manera la m´s eficaz para seleccionar un muestra aseg´n un dise˜o simple fue propuesta por Fan et al. (1962) y Bebbington (1975) quienes u npropusieron un m´todo secuencial en el sentido de que el fichero de datos tiene que eser le´ una sola vez. Es posible demostrar que este algoritmo genera une muestreo ıdoAlgorithm 1 M´todo de selecci´n-rechazo e o Definici´n k, j : entero; u : real; o k = 0; j = 0; u = variable aleatoria uniforme a[0, 1[; n−j seleccionar la unidad k + 1; Si u < Repetir mientras j < n N − k j = j + 1; sino pasar la unidad k + 1; k = k + 1.simple (vease por ejemplo Till´, 2006). e 11
  18. 18. 3.4. Dise˜ os simples con reemplazamiento n Selecci´n con reemplazamiento de manera independiente S las unidades de la mues- otra son y1 , . . . , yi , . . . , ymLos yi son m variables aleatorias de varianza 2 1 σy = (yk − Y )2 . N k∈USe puede estimar Y sin sesgo por m 1 1 Y CR = yi = yk . m i=1 m k∈SLa varianza de Y CR es m m 2 1 1 2 σy var(Y CR ) = 2 var(yi ) = 2 σy = . (3.6) m i=1 m i=1 my puede estimarse por m 1 s2 y = (yi − Y CR )2 . m−1 i=1La varianza del estimador de la media puede estimarse por s2 y var(Y CR ) = . m 12
  19. 19. 3.5. Comparaci´n de los dise˜ os simples o n Cuadro 3.1: Planes simples Plan simple Sin reemplazamiento Con reemplazamiento Tama˜o de la muestra n n m 1 1 Estimador de la media Y SR = yk Y CR = yk n k∈S m k∈S 2 (N − n) 2 σy Varianza del estimador var Y SR = Sy var Y CR = nN m Esperanza de la varianza E s2 = S y y 2 E s2 = σy y 2 (N − n) 2 s2 y Estimador de la varianza var Y SR = sy var Y CR = nN mEjercicioEjercicio 3.1 Seleccione una muestra de tama˜o 4 en una poblaci´n de tama˜o 10 n o nseg´n un dise˜o simple sin reemplazamiento con el m´todo de selecci´n-rechazo. Use u n e olas realizaciones siguientes de una variable aleatoria uniforme [0, 1]: 0,375489 0,624004 0,517951 0,0454450 0,632912 0,246090 0,927398 0,32595 0,645951 0,178048. 13
  20. 20. Cap´ ıtulo 4Estratificaci´n o4.1. Introducci´n o Los dise˜os estratificados son la manera m´s simple de introducir informacion auxi- n a ´liar en un diseno de muestreo. Se necesita definir estratos o categor´ en la poblaci´n. ˜ ıas oAdem´s, se necesita saber a qu´ estrato pertenece cada unidad de la poblaci´n. a e o4.2. Poblaci´n y estratos o Poblaci´n U = {1, . . . , k, . . . , N } dividida en H subconjuntos, Uh , h = 1, .., H, lla- omados estratos H Uh = U y Uh Ui = ∅, h = i. h=1Siendo Nh el tama˜o del estrato Uh . n H Nh = N. h=1 El objetivo es estimar H H Y = yk = yk = Yh , k∈U h=1 k∈Uh h=1donde Yh = yk . k∈Uh H H 1 1 1 Y = yk = yk = Nh Y h , N k∈U N h=1 k∈Uh N h=1donde Y h es la media calculada en el estrato h 1 Yh = yk . Nh k∈Uh 14
  21. 21. 2Adem´s, σyh representa la varianza del estrato h a 2 1 2 σyh = yk − Y h Nh k∈Uh 2y Syh la cuasivarianza 2 Nh Syh = σ2 . Nh − 1 yh 2La varianza total σy se logra por H H 2 1 1 1 σy = (yk − Y )2 = 2 Nh σyh + Nh (Y h − Y )2 . (4.1) N k∈U N h=1 N h=1Esta igualdad es la descomposici´n cl´sica de la varianza, que se escribe o a 2 2 2 σy = σy(intra) + σy(inter) 2donde σy(intra) es la varianza intra-estratos H 2 1 2 σy(intra) = Nh σyh N h=1 2y σy(inter) es la varianza inter-estratos H 2 1 σy(inter) = Nh (Y h − Y )2 . N h=14.3. Muestra, probabilidad de inclusi´n, estimaci´n o o Un dise˜o muestral es estratificado si, n en cada estrato, se selecciona una muestra simple aleatoria de tama˜o fijo nh n la selecci´n de una muestra en un estrato es independiente de selecci´n de las o o muestras de los otros estratos. Sh representa la muestra aleatoria seleccionada en el estrato h con el dise˜o ph (.), ndonde ph (sh ) = Pr(Sh = sh ). La muestra aleatoria total es H S= Sh . h=1Adem´s, de manera general s representa un valor posible de S donde a H s= sh . h=1 15
  22. 22. S1 S2 Sh SH U1 U2 Uj UJ Figura 4.1: Plan estratificado El dise˜o muestral global es p(.) donde n p(s) = Pr(S = s).Debido a la independencia de las selecciones en cada estrato, tenemos H H p(s) = ph (sh ), s = sh . h=1 h=1Si nh representa el tama˜o de la muestra en el estrato h, tenemos n H nh = n, h=1donde n es el tama˜o de la muestra. n4.4. Probabilidad de inclusi´n o Si la unidad k est´ en el estrato h, a nh πk = , k ∈ Uh . Nh Para calcular las probabilidades de inclusi´n de segundo orden, tenemos que separar odos casos : En el caso donde las unidades k y est´n en el mismo estrato a nh (nh − 1) πk = ,k y ∈ Uh . Nh (Nh − 1) Si dos individuos k y est´n en dos estratos distintos, a nh ni πk = , k ∈ Uh y ∈ Ui . Nh Ni 16
  23. 23. Se logra  n N −n  h h  h si = k, k ∈ Uh   Nh Nh ∆k = nh (Nh − nh ) (4.2)  − 2  Nh (Nh − 1) si k y ∈ Uh , k =   0 si k ∈ Uh y ∈ Ui , h = i. El π-estimador H H yk Nh Yestrat = = yk = Yh , k∈S πk h=1 nh k∈Sh h=1y H H 1 yk 1 Nh 1 Y strat = = yk = Nh Y h . N k∈S πk N h=1 nh k∈Sh N h=1donde Yh es el estimador del total del estrato h Nh Yh = yk . nh k∈She Y h es la media de la muestra en el estrato h 1 Yh = yk . nh k∈Sh Como las selecciones son independientes entre los estratos y que los dise˜os son nsimples en los estratos : H H H Nh − n h 2 var Ystrat = var Yh = var Yh = Nh Syh . (4.3) h=1 h=1 h=1 nhLa varianza de este estimador puede estimarse sin sesgo por H Nh − n h 2 var Ystrat = Nh syh , (4.4) h=1 nhdonde 1 s2 = yh (yk − Y h )2 , h = 1, . . . , H. nh − 1 k∈S h4.5. Plan estratificado con afijaci´n proporcional o Un plan estratificado tiene una afijaci´n proporcional, si o nh n = , h = 1, . . . , N. Nh N 17
  24. 24. Suponemos que nh = nNh /N son enteros. El estimador del total es H N Yprop = Yh = yk , h=1 n k∈Sy el estimador de la media H 1 1 Y prop = Nh Y h = yk , N h=1 n k∈Sdonde Y h es la media de la muestra en el estrato h e Yh es el estimador del total en elestrato h 1 Yh = yk . nh k∈S hLa varianza del estimador del total se simplifica H N −n 2 var(Yprop ) = Nh Syh , (4.5) n h=1y la varianza del estimador de la media viene dada por : H N −n 2 var(Y prop ) = Nh Syh . (4.6) nN 2 h=1 2 2 Si N es grande, Syh ≈ σyh . H 2 N −n 2 N − n σy(intra) var(Y prop ) ≈ Nh σyh = . (4.7) nN 2 h=1 N nComparaci´n del dise˜o estratificado con el muestro aleatorio simple. o n 2 N − n σy var(Y srs ) ≈ . (4.8) N nLa varianza del estimador de la media puede estimarse por : H N −n var(Y prop ) = Nh s 2 , yh (4.9) nN 2 h=1donde 1 s2 = yh (yk − Y h )2 , h = 1, . . . , H. nh − 1 k∈S h 18
  25. 25. 4.6. Dise˜ o estratificado ´ptimo para el total n o Neyman (1934) busc´ la afijaci´n para los tama˜os en la muestra n1 , . . . , nh , . . . , nH o o nque maximiza la varianza del estimador de Horvitz-Thompson para un muestreo detama˜o fijo. Tenemos que minimizar n H Nh − n h 2 var(Ystrat ) = Nh Syh , (4.10) h=1 nhen n1 , . . . , nh , . . . , nH sujeta a que H nh = n. (4.11) h=1 Podemos escribir la ecuaci´n de Lagrange o H H Nh − n h 2 L(n1 , . . . , nH , λ) = Nh Syh + λ nh − n . h=1 nh h=1Anulando las derivadas parciales respecto a los nh y a λ, se logra 2 ∂L Nh 2 = − 2 Syh + λ = 0, h = 1, . . . , H, (4.12) ∂nh nhy H ∂L = nh − n = 0. (4.13) ∂λ h=1 Luego Nh nh = √ Syh , h = 1, . . . , H. (4.14) λy H H h=1Nh Syh nh = n = √ . h=1 λObtenemos √ H Nh Syh h=1 λ= . (4.15) n y finalmente nNh Syh nh = H , h = 1, . . . , H. (4.16) h=1 Nh Syh Notas Hay un problema de redondeo, Se puede obtener nh > Nh . 19
  26. 26. 4.7. Nota sobre la optimalidad en estratificaci´n o Sea una poblaci´n dividida en dos estratos H = 2 donde queremos estimar la odiferencia D = Y 1 − Y 2 . El estimador D = Y 1 − Y 2.Como las selecciones de las muestras son independientes entre los estratos N1 − n1 2 N2 − n2 2 var D = var Y 1 + var Y 2 = Sy1 + S . (4.17) n 1 N1 n2 N2 y2Se minimiza (4.17) sujeta a que n1 + n2 = n y se logra Syh nh = √ , h = 1, 2, λdonde λ es el multiplicador de Lagrange. Como n1 + n2 = n, encontramos nSyh nh = , h = 1, 2. Sy1 + Sy24.8. Optimalidad y coste El objetivo es estimar un total Y para un coste fijado C. Minimizamos la expresi´n o(4.10) sujeta a que H nh Ch = C, h=1donde Ch es el coste de la entrevista en el estrato h. Obtenemos   n = Nh Syh , h = 1, . . . , H,  h √   λCh H     nh Ch = C, h=1donde λ es el multiplicador de Lagrange, y CNh Syh nh = √ H √ . Ch =1 N Sy C4.9. Tama˜ o de muestra m´ n ınimo Otra manera de tratar el problema es buscar la afijaci´n que da el tama˜o de o nmuestra m´ ınimo para una varianza fijada. Sea ah = nh /n, h = 1, . . . , H, 20
  27. 27. entonces H ah = 1. h=1De (4.10), H Nh − nah 2 var(Ystrat ) = Nh Syh . (4.18) h=1 nahBuscamos entonces un valor m´ ınimo de (4.18) en a1 , . . . , aH , para un valor fijadovar(Ystrat ) representado por V . Sustituyendo (4.18) en var(Ystrat ) por V , se logra H 2 H 1 Nh 2 2 V = Sh − Nh S h , n h=1 ah h=1lo que se puede escribir 2 Nh 2 H h=1 ah Sh n= H 2 . (4.19) V + h=1 Nh S hEntonces minimizamos 2 H Nh 2 h=1 ah Sh n= H 2 . (4.20) V + h=1 Nh S hcon a1 , . . . , aH , sujeta a que H ah = 1, h=1y despu´s de algunos c´lculos, tenemos e a Nh Syh ah = H . (4.21) =1 N SySe logra el mismo tipo de afijaci´n. Finalmente se puede fijar el tama˜o de la muestra o n 2 H h=1 Nh Syh n∗ = H 2 . V + h=1 Nh SyhEjercicio 4.1 Queremos estimar medias para las empresas de un departamento. Lasempresas son clasificadas seg´n el volumen de negocio y son clasificadas en tres clases. uLos datos de un censo son los siguientes: Volumen de negocio N´mero de empresas u de 0 a 1 1000 de 1 a 10 100 de 10 a 100 10Se quiere seleccionar una muestra de 111 empresas. Si se supone que la distribuci´n es ouniforme en cada estrato, calcule la varianza del estimador de la media del volumen denegocios para un dise˜o con representaci´n proporcional y para un dise˜o estratificado n o no´ptimo. 21
  28. 28. Cap´ ıtulo 5Muestreo con probabilidadesdesiguales Los dise˜os con probabilidades desiguales permiten reducir la varianza cuando hay nun efecto de tama˜o en los datos. Tambi´n son muy usados en los dise˜os multiet´picos n e n aautoponderados para seleccionar las unidades primarias. Tres libros tratan del tema:Brewer and Hanif (1983); Gabler (1990); Till´ (2006). Aqu´ presentamos los planes e ı,m´s importantes. Un desarrollo m´s exhaustivo pude ser encontrado en Till´ (2006). a a e5.1. Informaci´n auxiliar y probabilidades de in- o clusi´n o Variable auxiliar x conocida sobre U . x es aproximadamente proporcional a y.Selecci´n de las unidades con probabilidades de inclusi´n proporcionales a x. Varianza o o 2 ˆ 1 yk y var Yπ = − (πk π − πk ). (5.1) 2 k∈U ∈U πk π =k5.2. C´lculo de las probabilidades de inclusi´n a o Calculamos xk n πk = , para todo k ∈ U. x ∈UAlgunos de los πk pueden ser πk > 1. Estas unidades son incluidas en la muestra conuna probabilidad de 1. Se vuelve a empezar el c´lculo con las unidades que quedan. Al afinal, tenemos dos grupos : un primer grupo de unidades con probabilidades de inclusi´n iguales a 1 o un segundo grupo con probabilidades de inclusi´n 0 < πk < 1 y proporcionales a o xk . 22
  29. 29. El problema es seleccionar n unidades con probabilidades de inclusi´n fijadas con o 0 < πk < 1, para todo k ∈ U, tal que πk = n. (5.2) k∈UEjemplo 5.1 Si N = 6, n = 3, x1 = 1, x2 = 9, x3 = 10, x4 = 70, x5 = 90, x6 = 120,tenemos X= xk = 300, k∈Uy entonces nx1 1 nx2 9 nx3 1 nx4 7 nx5 9 nx6 6 = , = , = , = , = , = > 1. X 100 X 100 X 10 X 10 X 10 X 5La unidad 6 es seleccionada (con una probabilidad de 1). Luego, volvemos a calcularlas probabilidades de inclusi´n o xk = 180, k∈U {6}y entonces (n − 1)x1 1 (n − 1)x2 1 (n − 1)x3 1 = , = , = , ∈U {6} x 90 ∈U {6} x 10 ∈U {6} x 9 (n − 1)x4 7 (n − 1)x5 = , = 1. ∈U {6} x 9 ∈U {6} xLas probabilidades de inclusi´n son o 1 1 1 7 π1 = , π2 = , π3 = , π4 = , π5 = 1, π6 = 1. 90 10 9 9Dos unidades son seleccionadas con una probabilidad 1. El problema se reduce a laselecci´n de una unidad en una subpoblaci´n de tama˜o 4. o o n5.3. Muestreo con probabilidades desiguales con reemplazamiento Hansen and Hurwitz (1943) han propuesto un m´todo de selecci´n de una muestra e ocon probabilidades desiguales con reemplazamiento. Sea xk pk = , k ∈ U, ∈U xy k vk = p , con v0 = 0. =1 u es una variable continua, uniforme en [0, 1[, 23
  30. 30. se selecciona la unidad k tal que vk−1 ≤ u < vk . Esta operaci´n es repetida m veces de manera independiente. oyi es la i´sima unidad seleccionada en la muestra. El total Y es estimado por el esti-˜ emador de Hansen-Hurwitz m 1 yi ˜ YHH = . m i=1 piComo yi ˜ yk E = pk = Y, pi k∈U pkYHH es un estimador insesgado Y . En efecto, m m 1 yi ˜ 1 E YHH = E = Y = Y. m i=1 pi m i=1Varianza : 2 2 1 yk 1 yk var[YHH ] = − t2 y = pk −Y , (5.3) m k∈U pk m k∈U pky puede estimarse por m 2 1 yi ˜ var[YHH ] = − YyHH . m(m − 1) i=1 pi5.4. Dise˜ o de Poisson n Cada unidad de U es seleccionada de manera independiente con una probabilidadde inclusi´n πk . o πk = πk π ,∆k = πk − πk π = 0, para todos k = . El dise˜o muestral viene dado por n     p(s) = πk × (1 − πk ) , para todos s ⊂ U. (5.4)   k∈s k∈U s En un dise˜o de Poisson, ∆k = 0 cuando k = , la varianza del estimador puede nser calculada simplemente 2 πk (1 − πk )yk var Yπ = 2 , (5.5) k∈U πky puede estimarse por 2 (1 − πk )yk var Yπ = 2 . (5.6) k∈Se πk 24
  31. 31. 5.5. Muestreo de entrop´ m´xima con tama˜ o fijo ıa a n Buscamos un dise˜o muestral con la entrop´ m´xima sobre el conjunto de todas n ıa alas muestras de U de tama˜o fijo n. n Sn = {s|#s = n}.El problema es maximizar I(p) = − p(s) log p(s), s∈Snsujeta a que p(s) = πk , y p(s) = 1. (5.7) s k s∈Sn s∈SnExiste una soluci´n pero es complicada. o exp k∈s λk p(s) = s∈Sn exp k∈s λkUn algoritmo (ver Chen et al., 1994; Deville, 2000; Till´, 2006) permite calcular los eπk a partir de los λk y los λk a partir de los πk . El conocimiento de los λk permitenumerosas implementaciones del dise˜o de muestreo (ver Till´, 2006). n e5.6. El dise˜ o muestral sistem´tico n a Madow (1949) propuso el primero m´todo con tama˜o fijo y probabilidades de e ninclusi´n desiguales. Tenemos 0 < πk < 1, k ∈ U con o πk = n. k∈USea k Vk = π , para todos k ∈ U, con Vo = 0. (5.8) =1Una variable uniforme es generada en [0, 1]. la primera unidad seleccionada k1 es tal que Vk1 −1 ≤ u < Vk1 , la segunda unidad seleccionada es tal que Vk2 −1 ≤ u + 1 < Vk2 y la j´sima unidad seleccionada es tal que Vkj −1 ≤ u + j − 1 < Vkj . e 25
  32. 32. 0,2 0,9 1,7 2,2 2,6 0 1 2 3 u u+1 u+2 Figura 5.1: Muestreo sistem´tico aEjemplo 5.2 N = 6 y n = 3, π1 = 0,2, π2 = 0,7, π3 = 0,8, π4 = 0,5, π5 = π6 = 0,4,V1 = 0,2, V2 = 0,9, V3 = 1, 7, V4 = 2,2, V5 = 2,6, V6 = 3, u = 0,3658. Las unidades 2,3 y 5 son seleccionadas. El algoritmo tambi´n puede ser presentado de la manera siguiente : Primero, se eselecciona la unidad k tal que los intervalos [Vk−1 − u, Vk − u[ contengan un n´mero uentero.Algorithm 2 Algoritmo de muestreo sistem´tico a Definici´n a, b, u real; k entero; o u = un n´mero aleatorio uniforme en [0,1]; u a = −u; b = a; Repetir para k = 1, .., N a = a + πk ; si a = b seleccionar k. El problema es que la mayor´ de las probabilidades de inclusi´n son iguales a cero. ıa oLa matriz de probabilidades de inclusi´n viene dada por : o   − 0 0,2 0,2 0 0  0 − 0,5 0,2 0,4 0,3     0,2 0,5 − 0,3 0,4 0,2     0,2 0,2 0,3 − 0 0,3     0 0,4 0,4 0 − 0  0 0,3 0,2 0,3 0 −5.7. El m´todo de escisi´n e o5.7.1. Escisi´n en dos partes o El m´todo de escisi´n (ver Deville and Till´, 1998; Till´, 2006) es une t´cnica bas- e o e e etante simple para seleccionar une muestra seg´n probabilidades de inclusi´n dadas. A u opartir del vector de probabilidades de inclusi´n, se vuelve a aplicar a cada etapa une oescisi´n en dos o varios nuevos vectores. Un vector es elegido aleatoriamente. A cada oetapa se intenta lograr un vector m´s simple, por ejemplo, introduciendo 0 o 1 en el anuevo vector. En N etapas como m´ximo, la muestra es seccionada. El m´todo del cubo a epara seleccionar un dise˜o equilibrado es una generalizaci´n del m´todo de escisi´n. n o e o 26
  33. 33. (1) (2) La t´cnica b´sica es muy simple : cada πk se separa en dos partes πk y πk que e averifican : (1) (2) πk = λπk + (1 − λ)πk ; (5.9) (1) (2) 0 ≤ πk ≤ 1 y 0 ≤ πk ≤ 1, (5.10) (1) (2) πk = πk = n, (5.11) k∈U k∈Udonde λ puede elegirse libremente dentro de 0 < λ < 1. El m´todo consiste en selec- ecionar n unidades con probabilidades desiguales (1) πk , k ∈ U, con una probabilidad λ (2) πk , k ∈ U, con una probabilidad 1 − λ.   π1  .   .  .    πk   .   .  . πN ¨¨rr λ¨ ¨ ¨ rr 1−λ rr ¨ ¨¨ rr % ¨ j r  (1)   (2)  π1 π1  .   .   . .   . .   (1)   (2)   π   π   k   k   .   .   . .   . .  (1) (2) πN πN Figura 5.2: Escisi´n en dos partes o El problema se reduce a otro problema de muestreo con probabilidades desiguales. (1) (2)Si la escisi´n es tal que uno o algunos de los πk y de los πk son iguales a 0 o 1, oel problema de muestreo ser´ m´s simple en la pr´xima etapa porque la escisi´n es a a o oaplicada a una poblaci´n m´s peque˜a. o a n 27
  34. 34. 5.7.2. Escisi´n en M partes o El m´todo puede ser generalizado a una t´cnica de escisi´n en M vectores de pro- e e o (j)babilidades de inclusi´n. Primero, construimos los πk y los λj de manera que o M λj = 1, j=1 0 ≤ λj ≤ 1 (j = 1, . . . , M ), M (j) λj π k = π k , j=1 (j) 0 ≤ πk ≤ 1 (k ∈ U, j = 1, . . . , M ), (j) πk = n (j = 1, . . . , M ). k∈U   π1  .   .  .    πk   .   .  . πN ¨¨rr λ1 ¨¨ ¨ λ rr j rr λM ¨ ¨¨ c rr % ¨ j r  (1)   (i)   (M )  π1 π1 π1  . .   . .   . .   .   .   .         (1) πk  ...  (i) πk  ...  (M ) πk         . .   . .   . .   .   .   .  (1) (i) (M ) πN πN πN Figura 5.3: Escisi´n en M partes o (j) El m´todo consiste en seleccionar uno de los vectores πk con probabilidades λj (j = e (j)1, . . . , M ). De nuevo, los πk son tales que el problema de muestreo ser´ m´s simple a aen la pr´xima etapa. o 28
  35. 35. 5.7.3. Dise˜ o con un soporte m´ n ınimo (π(1) , . . . , π(k) , . . . , π(N ) ) representa el vector de probabilidades de inclusi´n. Luego, odefinimos ın{1 − π(N −n) , π(N −n+1) }, λ = m´ (1) 0 si k ≤ N − n π(k) = 1 si k > N − n,  π(k)   if k ≤ N − n (2) 1−λ π(k) =  π(k) − λ  if k > N − n. 1−λEjemplo 1. Suponemos que N = 6, n = 3, π1 = 0,07, π2 = 0,17, π3 = 0,41, π4 = 0,61,π5 = 0,83, π6 = 0,91. En este caso, la soluci´n se encuentra en 4 etapas. El vector ode probabilidades de inclusi´n se separa en dos partes dadas en las columnas 2 y 3 ode la Tabla 1. Con la probabilidad λ = 0,59, la muestra {4, 5, 6} es seleccionada ycon probabilidad 1 − λ = 0,41, otro dise˜o muestral se aplica con probabilidades de ninclusi´n dadas por (0.171, 0.415, 1, 0.049, 0.585, 0.780). En la etapa 2, la escisi´n o ose aplica al vector y, en 4 etapas la muestra es seleccionada. El dise˜o muestral es el n Cuadro 5.1: Plan con soporte m´ ınima Etapa 1 Etapa 2 Etapa 3 Etapa 4 πk λ = 0,59 λ = 0,585 λ = 0,471 λ = 0,778 0,07 0 0,171 0 0,412 0 0,778 1 0 0,17 0 0,415 0 1 1 1 1 1 0,41 0 1 1 1 1 1 1 1 0,61 1 0,049 0 0,118 0 0,222 0 1 0,83 1 0,585 1 0 0 0 0 0 0,91 1 0,780 1 0,471 1 0 0 0siguiente p({4, 5, 6}) = 0,59; p({3, 5, 6}) = (1 − 0,59) × 0,585 = 0,24; p({2, 3, 6}) =(1 − 0,59 − 0,24) × 0,471 = 0,08; p({1, 2, 3}) = (1 − 0,59 − 0,24 − 0,08) × 0,778 = 0,07;p({2, 3, 4}) = 1 − 0,59 − 0,24 − 0,08 − 0,7 = 0,02. El dise˜o muestral viene dado por p({4, 5, 6}) = 0,59, p({3, 5, 6}) = (1 − 0,59) × n0,585 = 0,24, p({2, 3, 6}) = (1 − 0,59 − 0,24) × 0,471 = 0,08, p({1, 2, 3}) = (1 − 0,59 −0,24 − 0,08) × 0,778 = 0,07, p({2, 3, 4}) = (1 − 0,59 − 0,24 − 0,08 − 0,7) = 0,02.5.7.4. Escisi´n en dise˜ os simples o n Este m´todo permite separar el vector de probabilidades de inclusi´n en dos partes. e oDefinimos N N λ = m´ π(1) , ın , (5.12) n N −n 29

×