Your SlideShare is downloading. ×
Muestreo equilibrado eficiente, el método del cubo
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Muestreo equilibrado eficiente, el método del cubo

977
views

Published on

Muestreo equilibrado eficiente, el método del cubo …

Muestreo equilibrado eficiente, el método del cubo
Yves tillé
Eustat - Curso de Verano 2010


0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
977
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. NAZIOARTEKO ESTATISTIKA MINTEGIA SEMINARIO INTERNACIONAL DE ESTADÍSTICA 2010Muestreo Equilibrado Eficiente: El Método del Cubo Yves Tillé EUSKAL ESTATISTIKA ERAKUNDEA INSTITUTO VASCO DE ESTADÍSTICA 52
  • 2. Muestreo Equilibrado Eficiente: ´ El Metodo del Cubo Yves Till´ e Institut de Statistique, Universit´ de Neuchˆtel e a Pierre ` Mazel 7, 2002 Neuchˆtel, Suiza a a email : yves.tille@unine.ch 29 de septiembre de 2010
  • 3. Lanketa / Elaboración:Euskal Estatistika ErakundeaInstituto Vasco de Estadística (EUSTAT)Argitalpena / Edición:Euskal Estatistika ErakundeaInstituto Vasco de EstadísticaDonostia – San Sebastián, 1 – 01010 Vitoria – GasteizEuskal AEko AdministrazioaAdministración de la C.A. de EuskadiAle-kopurua / Tirada:500 ale / ejemplaresXI-2010Inprimaketa eta Koadernaketa:Impresión y Encuadernacion:Estudios Gráficos ZURE S.A.Ctra. Lutxana-Asua, 24 AErandio-Goikoa (BIZKAIA)I.S.B.N.: 978-84-7749-465-2Lege-gordailua / Depósito Legal: BI-2699-10
  • 4. AURKEZPENANazioarteko Estatistika Mintegia antolatzean, hainbat helburu bete nahi ditu EUSTAT-EuskalEstatistika Erakundeak:– Unibertsitatearekiko eta, batez ere, Estatistika-Sailekiko lankidetza bultzatzea.– Funtzionarioen, irakasleen, ikasleen eta estatistikaren alorrean interesatuta egon daitezkeen guz- tien lanbide-hobekuntza erraztea.– Estatistika alorrean mundu mailan abangoardian dauden irakasle eta ikertzaile ospetsuak Eus- kadira ekartzea, horrek eragin ona izango baitu, zuzeneko harremanei eta esperientziak ezagu- tzeari dagokienez.Jarduera osagarri gisa, eta interesatuta egon litezkeen ahalik eta pertsona eta erakunde gehienetarairistearren, ikastaro horietako txostenak argitaratzea erabaki dugu, beti ere txostengilearen jato-rrizko hizkuntza errespetatuz; horrela, gai horri buruzko ezagutza gure herrian zabaltzen lagun-tzeko. Vitoria-Gasteiz, 2010eko Urria JAVIER FORCADA SAINZ EUSTATeko Zuzendari Nagusia PRESENTATIONIn promoting the International Statistical Seminars, EUSTAT-The Basque Statistics Institutewishes to achieve several aims:– Encourage the collaboration with the universities, especially with their statistical departments.– Facilitate the professional recycling of civil servants, university teachers, students and whoever else may be interested in the statistical field.– Bring to the Basque Country illustrious professors and investigators in the vanguard of statis- tical subjects, on a worldwide level, with the subsequent positive effect of encouraging direct relationships and sharing knowledge of experiences.As a complementary activity and in order to reach as many interested people and institutions aspossible, it has been decided to publish the papers of these courses, always respecting the originallanguage of the author, to contribute in this way towards the growth of knowledge concerning thissubject in our country. Vitoria-Gasteiz, October 2010 JAVIER FORCADA SAINZ General Director of EUSTAT III
  • 5. PRESENTACIONAl promover los Seminarios Internacionales de Estadística, el EUSTAT-Instituto Vasco de Esta-dística pretende cubrir varios objetivos:– Fomentar la colaboración con la Universidad y en especial con los Departamentos de Estadística.– Facilitar el reciclaje profesional de funcionarios, profesores, alumnos y cuantos puedan estar interesados en el campo estadístico.– Traer a Euskadi a ilustres profesores e investigadores de vanguardia en materia estadística, a nivel mundial, con el consiguiente efecto positivo en cuanto a la relación directa y conocimiento de experiencias.Como actuación complementaria y para llegar al mayor número posible de personas e Institucio-nes interesadas, se ha decidido publicar las ponencias de estos cursos, respetando en todo caso lalengua original del ponente, para contribuir así a acrecentar el conocimiento sobre esta materiaen nuestro País. Vitoria-Gasteiz, Octubre 2010 JAVIER FORCADA SAINZ Director General de EUSTAT IV
  • 6. BIOGRAFI OHARRAKYves Tillé doktorea da Bruselako Unibertsitate Librean, estatistikan. 2001 ezkeroztik irakasledihardu Suitzako Neuchâtel unibertsitatean. Inkesta-estatistika eta laginketaren teorian ari daikertzen. BIOGRAPHICAL SKETCHYves Tillé was awarded his pHD in Statistics by the Free University of Brussels. He has been aprofessor at Neuchâtel University in Switzerland since 2001. His fields of research are surveystatistics and sampling theory. NOTAS BIOGRÁFICASYves Tillé ha logrado un doctorado en estadística de la Universidad libre de Bruselas. Desde2001, es profesor en la Universidad de Neuchâtel en Suiza. Sus campos de investigaciones son laestadística de encuesta y la teoría del muestreo. V
  • 7. ´Indice general1. Introducci´n o 32. Poblaci´n, dise˜ o muestral, y estimaci´n o n o 4 2.1. Poblaci´n finita . . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . 4 2.2. Dise˜o del Muestreo . . . . . . . . . . . . . . . . . . n . . . . . . . . . . 5 2.3. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . 6 2.4. Estimaci´n de N . . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . 7 2.5. Mala propiedad del estimador de Horvitz-Thompson . . . . . . . . . . 7 2.6. El problema de los elefantes de Basu (1971) . . . . . . . . . . . . . . . 73. Muestreo simple 9 3.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.) 9 3.2. La varianza del dise˜o simple sin reemplazamiento . . . . . . . . . . . . n 10 3.3. Algoritmo de selecci´n-rechazo . . . . . . . . . . . . . . . . . . . . . . . o 11 3.4. Dise˜os simples con reemplazamiento . . . . . . . . . . . . . . . . . . . n 12 3.5. Comparaci´n de los dise˜os simples . . . . . . . . . . . . . . . . . . . . o n 134. Estratificaci´no 14 4.1. Introducci´n . . . . . . . . . . . . . . . . . . . o . . . . . . . . . . . . . . 14 4.2. Poblaci´n y estratos . . . . . . . . . . . . . . o . . . . . . . . . . . . . . 14 4.3. Muestra, probabilidad de inclusi´n, estimaci´n o o . . . . . . . . . . . . . 15 4.4. Probabilidad de inclusi´n . . . . . . . . . . . . o . . . . . . . . . . . . . . 16 4.5. Plan estratificado con afijaci´n proporcional . o . . . . . . . . . . . . . . 17 4.6. Dise˜o estratificado ´ptimo para el total . . . n o . . . . . . . . . . . . . . 19 4.7. Nota sobre la optimalidad en estratificaci´n . o . . . . . . . . . . . . . . 20 4.8. Optimalidad y coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.9. Tama˜o de muestra m´ n ınimo . . . . . . . . . . . . . . . . . . . . . . . . 205. Muestreo con probabilidades desiguales 22 5.1. Informaci´n auxiliar y probabilidades de inclusi´n . . . . . . o o . . . . . . 22 5.2. C´lculo de las probabilidades de inclusi´n . . . . . . . . . . a o . . . . . . 22 5.3. Muestreo con probabilidades desiguales con reemplazamiento . . . . . . 23 5.4. Dise˜o de Poisson . . . . . . . . . . . . . . . . . . . . . . . . n . . . . . . 24 5.5. Muestreo de entrop´ m´xima con tama˜o fijo . . . . . . . . ıa a n . . . . . . 25 5.6. El dise˜o muestral sistem´tico . . . . . . . . . . . . . . . . . n a . . . . . . 25 1
  • 8. 5.7. El m´todo de escisi´n . . . . . . . . . . . . . . . . e o . . . . . . . . . . . . 26 5.7.1. Escisi´n en dos partes . . . . . . . . . . . o . . . . . . . . . . . . 26 5.7.2. Escisi´n en M partes . . . . . . . . . . . . o . . . . . . . . . . . . 28 5.7.3. Dise˜o con un soporte m´ n ınimo . . . . . . . . . . . . . . . . . . . 29 5.7.4. Escisi´n en dise˜os simples . . . . . . . . . o n . . . . . . . . . . . . 29 5.7.5. El m´todo del pivote . . . . . . . . . . . . e . . . . . . . . . . . . 30 5.7.6. M´todo de Brewer . . . . . . . . . . . . . e . . . . . . . . . . . . 31 5.8. Varianza en dise˜os con probabilidades desiguales n . . . . . . . . . . . . 326. Muestreo equilibrado 33 6.1. Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o . . . 33 6.2. Representaci´n por un cubo . . . . . . . . . . . . . . . . . . . . . o . . . 34 6.3. Muestras equilibradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 6.4. Representaci´n gr´fica del problema de redondeado . . . . . . . . o a . . . 35 6.5. La martingala equilibrada . . . . . . . . . . . . . . . . . . . . . . . . . 38 6.6. Implementaci´n de la fase de vuelo . . . . . . . . . . . . . . . . . o . . . 38 6.7. Implementaci´n de la fase de aterrizaje . . . . . . . . . . . . . . o . . . 39 6.7.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 6.7.2. Soluci´n 1: programa linear . . . . . . . . . . . . . . . . . o . . . 40 6.7.3. Soluci´n 2: supresi´n sucesiva de variables . . . . . . . . . o o . . . 40 6.8. Varianza en un plan equilibrado . . . . . . . . . . . . . . . . . . . . . . 41 6.8.1. Una t´cnica de residuos . . . . . . . . . . . . . . . . . . . e . . . 41 6.8.2. Aproximaci´n de la varianza . . . . . . . . . . . . . . . . . o . . . 41 6.8.3. Estimaci´n de la varianza . . . . . . . . . . . . . . . . . . o . . . 42 6.9. Muestreo equilibrado en pr´ctica . . . . . . . . . . . . . . . . . . a . . . 42 6.9.1. Inter´s de muestreo equilibrado . . . . . . . . . . . . . . . e . . . 42 6.9.2. Muestreo Equilibrado Contra Otras T´cnicas de Muestreo e . . . 44 6.9.3. Elecci´n de las variables de equilibrio . . . . . . . . . . . . o . . . 44 6.9.4. Equilibrio versus Calibraci´n . . . . . . . . . . . . . . . . . o . . . 45 6.9.5. Precisi´n de las ecuaciones de equilibrio . . . . . . . . . . o . . . 46 6.9.6. Principales Implementaciones de muestreo equilibrado . . . . . . 46 2
  • 9. Cap´ ıtulo 1Introducci´n o Este peque˜o libro ha sido escrito a ra´ de una invitaci´n al Instituto Vasco de n ız oEstad´ ıstica. El objetivo era presentar el m´todo del cubo para seleccionar muestras eequilibradas y de mostrar el inter´s del m´todo. Sin embargo, he empezado por una pre- e esentaci´n general de la teor´ de muestreo, con las definiciones del dise˜o de muestreo, o ıa ndel estimador de Horvitz-Thompson y su varianza. Tambi´n, he desarrollado dos cap´ e ıtu-los sobre los dise˜os simples y estratificados ya que el muestreo equilibrado es una ngeneralizaci´n de estos dise˜os. El largo cap´ o n ıtulo sobre los dise˜os con probabilidades ndesiguales y el m´todo de escisi´n es una introducci´n al m´todo del cubo. En efecto, e o o eel m´todo de escisi´n es el caso particular del algoritmo de cubo cuando solamente e ouna variable auxiliar proporcional a las probabilidades de inclusi´n es disponible. El om´todo de escisi´n es el que nos lleva a proponer el m´todo del cubo. e o e Despu´s de esta larga introducci´n, presentamos el m´todo del cubo: el principio e o edel algoritmo, su implementaci´n, el c´lculo de las varianzas y sus estimaciones. Tam- o abi´n hemos a˜adido una larga discusi´n sobre el inter´s del m´todo, sus principales e n o e eaplicaciones, sus implementaciones y los limites. 3
  • 10. Cap´ ıtulo 2Poblaci´n, dise˜ o muestral o ny estimaci´n o2.1. Poblaci´n finita o El objetivo es estudiar una poblaci´n finita U = {1, . . . , N } de tama˜o N . La o nvariable de inter´s y toma el valor yk , k ∈ U. Queremos estimar una funci´n de inter´s e o ede los yk , θ = f (y1 , . . . , yk , . . . , yN ).Por ejemplo, el total o la media 1 Y = yk , e Y = yk . k∈U N k∈Uporque se puede escribir N= 1. k∈ULa varianza 2 1 σy = (yk − Y )2 . N k∈ULa cuasivarianza 2 1 Sy = (yk − Y )2 . N − 1 k∈U Existen funciones no lineales de los yk como un ratio Y R= , Xdonde X= xk . k∈UUn ratio es una funci´n no lineal de los valores yk . Existen tambi´n funciones m´s o e acomplejas como un coeficiente de correlaci´n, la mediana, o los coeficientes de odesigualdades. 4
  • 11. 2.2. Dise˜ o del Muestreo n Una muestra s es un subconjunto de la poblaci´n s ⊂ U. Un dise˜o muestral p(s) o nes una distribuci´n de probabilidad sobre todas las muestras posibles o p(s) = 1. s⊂ULa muestra aleatoria S toma el valor s con la probabilidad Pr(S = s) = p(s). Las variables indicadoras son definidas por : 1 si la unidad k ∈ S Ik = 0 si la unidad k ∈ S. /La probabilidad de inclusi´n es la probabilidad que la unidad k sea seleccionada en la omuestra aleatoria : πk = Pr(k ∈ S) = p(s) = E(Ik ) = . s kLa probabilidad de inclusi´n de segundo orden es la probabilidad que dos unidades odistintas sean seleccionadas conjuntamente en la muestra : πk = E(Ik I ) = Pr(k y ∈ S) = p(s). s k,Adem´s a πk (1 − πk ) si k = ∆k = Cov(Ik , I ) πk − πk π si k =Si el dise˜o muestral es de tama˜o fijo, entonces n n πk = n. k∈UEn effecto, πk = E(Ik ) = E Ik = E(n) = n. k∈U k∈U k∈UAdem´s, es posible demostrar que, para un dise˜o muestral de tama˜o fijo, a n n πk = nπk con πkk = πk . ∈U 5
  • 12. 2.3. El estimador de Horvitz-Thompson El estimador de Horvitz-Thompson para el total viene dado por yk Yπ = , k∈S πky para la media 1 yk Yπ = . N k∈S πkEl estimador de Horvitz-Thompson es insesgado, si πk > 0, k ∈ U. En efecto yk E Yπ = E k∈S πk yk = E Ik k∈U πk yk = E (Ik ) k∈U πk yk = πk k∈U πk = yk k∈U = Y. La varianza del estimador de Horvitz-Thompson es ˆ yk var Yπ = var Ik k∈U πk 2 yk yk y = 2 var(Ik ) + Cov(Ik , I ) k∈U πk k∈U ∈U πk π 2 yk yk y = πk (1 − πk ) + ∆k . (2.1) π2 k∈U k k∈U ∈U πk π =kSe puede demostrar que con una muestra de tama˜o fijo n 2 ˆ −1 yk y var Yπ = − ∆k . (2.2) 2 k∈U ∈U πk π =kLa varianza puede estimarse sin sesgo por 2 ˆ yk yk y ∆ k var Yπ = 2 (1 − πk ) + . (2.3) k∈S πk k∈S ∈S πk π πkl =k 6
  • 13. Si el dise˜o es de tama˜o fijo, se puede tambi´n estimar la varianza por n n e 2 ˆ −1 yk y ∆k var Yπ = − . (2.4) 2 k∈S ∈S πk π πk =k2.4. Estimaci´n de N o Sabiendo que N es un total, se puede escribir: N= 1, k∈UPodemos estimar N sin sesgo por el estimador de Horvitz-Thompson 1 Nπ = . k∈S πk2.5. Mala propiedad del estimador de Horvitz-Thompson El estimador de Horvitz-Thompson tiene una mala propiedad, cuando la variablees constante, yk = C 1 yk 1 C 1 1 Nπ Yπ = = =C =C N k∈S πk N k∈S πk N k∈S πk N2.6. El problema de los elefantes de Basu (1971) The circus owner is planning to ship his 50 adult elephants and so he needs a roughestimate of the total weight of the elephants. As weighing an elephant is a cumbersomeprocess, the owner wants to estimate the total weight by weighing just one elephant.Which elephant should he weigh ? So the owner looks back on his records and discoversa list of the elephants’ weights taken 3 years ago. He finds that 3 years ago Sambo themiddle-sized elephant was the average (in weight) elephant in his herd. He checks withthe elephant trainer who reassures him (the owner) that Sambo may still be consideredto be the average elephant in the herd. Therefore, the owner plans to weigh Samboand take 50 y (where y is the present weight of Sambo) as an estimate of the totalweight Y = Y1 + Y2 + . . . + Y50 of the 50 elephants. But the circus statistician ishorrified when he learns of the owner’s purposive samplings plan. “How can you getan unbiased estimate of Y this way ?” protests the statistician. So, together they workout a compromise sampling plan. With the help of a table of random numbers theydevise a plan that allots a selection probability of 99/100 to Sambo and equal selectionprobabilities 1/4900 to each of the other 49 elephants. Naturally, Sambo is selectedand the owner is happy. “How are you going to estimate Y?”, asks the statistician.“Why ? The estimate ought to be 50y of course,” says the owner. Oh! No! That cannot 7
  • 14. possibly be right,” says the statistician, “I recently read an article in the Annals ofMathematical Statistics where it is proved that the Horvitz-Thompson estimator is theunique hyperadmissible estimator in the class of all generalized polynomial unbiasedestimators.” “What is the Horvitz-Thompson estimate in this case?” asks the owner,duly impressed. “Since the selection probability for Sambo in our plan was 99/100,”says the statistician, “the proper estimate of Y is 100y/99 and not 50y.” “And, howwould you have estimated Y,” inquires the incredulous owner, “if our sampling planmade us select, say, the big elephant Jumbo?” “According what I understand of theHorvitz-Thompson estimation method,” says the unhappy statistician, “the properestimate of Y would then have been 4900y, where y is Jumbo’s weight.” That is howthe statistician lost his circus job (and perhaps became teacher of statistics!). 8
  • 15. Cap´ ıtulo 3Muestreo simple3.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.) Los dise˜os simples son los m´s b´sicos en teor´ del muestreo. Sin embargo, sus n a a ıaimplementaciones no son evidentes. Veremos que diferentes algoritmos permiten selec-cionar dise˜os simples. No hay que confundir dise˜os simples y dise˜os con probabi- n n nlidades de inclusi´n iguales. Los dise˜os simples tienen probabilidades de inclusiones o niguales pero todos los dise˜os con probabilidades de inclusi´n iguales no son simples. n oNos referimos a la definici´n siguiente. oDefinici´n 3.1 Un dise˜o muestral es aleatorio simple si todas las muestras de mismo o ntama˜o tienen la misma probabilidad de ser seleccionadas. n Existe solamente un dise˜o simple de tama˜o fijo. n n  −1  N si #s = n p(s) =  n 0 en caso contrario ,donde N N! = . n n!(N − n)! −1 −1 N N −1 N n πk = p(s) = = = , para todo k ∈ U. s k s k n n−1 n NProbabilidades de inclusi´n del segundo orden : o −1 −1 N N −2 N n(n − 1) πk = p(s) = = = , s k, s k, n n−2 n N (N − 1) 9
  • 16. para todos k = ∈ U . Luego tenemos,  2  π − π π = n(n − 1) − n = − n(N − n)  k si k = k ∆k = N (N − 1) N 2 N 2 (N − 1) (3.1)  π (1 − π ) = n 1 − n = n(N − n)  si k = . k k N N N2 1 yk 1 N 1 Yπ = = yk = yk . N k∈S πk N k∈S n n k∈S yk N N Yπ = = yk = yk = N Y π . k∈S πk k∈S n n k∈S3.2. La varianza del dise˜ o simple sin reemplaza- n miento 2 −1 yk y var Yπ = − ∆k (3.2) 2 k∈U ∈U πk π =k 2 1 yk N yN n(N − n) = − (3.3) 2 k∈U ∈U n n N 2 (N − 1) =k N (N − n) 1 = (yk − y )2 (3.4) n 2N (N − 1) k∈U ∈U =k 2 2N − n Sy = N . (3.5) N nTeorema 1 En un m.a.s., la cuasivarianza de la poblaci´n es o 2 1 Sy = (yk − Y )2 , N − 1 k∈Uy puede estimarse por 1 s2 = y (yk − Y π )2 n−1 k∈S 10
  • 17. Demostraci´n o 1 E(s2 ) = E y (yk − Y π )2 n−1 k∈S       1 = E (yk − y )2  2n(n − 1)    k∈S ∈S =k 1 = (yk − y )2 E (Ik I ) 2n(n − 1) k∈U ∈U =k 1 n(n − 1) = (yk − y )2 2n(n − 1) k∈U ∈U N (N − 1) =k 1 = (yk − y )2 2N (N − 1) k∈U ∈U =k 2 = Sy . 23.3. Algoritmo de selecci´n-rechazo o Existen numerosas maneras de seleccionar un dise˜o simple. Por ejemplo se puede nsortear la poblaci´n aleatoriamente y seleccionar las n primeras unidades de la poblaci´n. o oTambi´n, se puede seleccionar sucesivamente n unidades sin reemplazamiento con proba - ebilidades iguales. Sin embargo, la manera la m´s eficaz para seleccionar un muestra aseg´n un dise˜o simple fue propuesta por Fan et al. (1962) y Bebbington (1975) quienes u npropusieron un m´todo secuencial en el sentido de que el fichero de datos tiene que eser le´ una sola vez. Es posible demostrar que este algoritmo genera une muestreo ıdoAlgorithm 1 M´todo de selecci´n-rechazo e o Definici´n k, j : entero; u : real; o k = 0; j = 0; u = variable aleatoria uniforme a[0, 1[; n−j seleccionar la unidad k + 1; Si u < Repetir mientras j < n N − k j = j + 1; sino pasar la unidad k + 1; k = k + 1.simple (vease por ejemplo Till´, 2006). e 11
  • 18. 3.4. Dise˜ os simples con reemplazamiento n Selecci´n con reemplazamiento de manera independiente S las unidades de la mues- otra son y1 , . . . , yi , . . . , ymLos yi son m variables aleatorias de varianza 2 1 σy = (yk − Y )2 . N k∈USe puede estimar Y sin sesgo por m 1 1 Y CR = yi = yk . m i=1 m k∈SLa varianza de Y CR es m m 2 1 1 2 σy var(Y CR ) = 2 var(yi ) = 2 σy = . (3.6) m i=1 m i=1 my puede estimarse por m 1 s2 y = (yi − Y CR )2 . m−1 i=1La varianza del estimador de la media puede estimarse por s2 y var(Y CR ) = . m 12
  • 19. 3.5. Comparaci´n de los dise˜ os simples o n Cuadro 3.1: Planes simples Plan simple Sin reemplazamiento Con reemplazamiento Tama˜o de la muestra n n m 1 1 Estimador de la media Y SR = yk Y CR = yk n k∈S m k∈S 2 (N − n) 2 σy Varianza del estimador var Y SR = Sy var Y CR = nN m Esperanza de la varianza E s2 = S y y 2 E s2 = σy y 2 (N − n) 2 s2 y Estimador de la varianza var Y SR = sy var Y CR = nN mEjercicioEjercicio 3.1 Seleccione una muestra de tama˜o 4 en una poblaci´n de tama˜o 10 n o nseg´n un dise˜o simple sin reemplazamiento con el m´todo de selecci´n-rechazo. Use u n e olas realizaciones siguientes de una variable aleatoria uniforme [0, 1]: 0,375489 0,624004 0,517951 0,0454450 0,632912 0,246090 0,927398 0,32595 0,645951 0,178048. 13
  • 20. Cap´ ıtulo 4Estratificaci´n o4.1. Introducci´n o Los dise˜os estratificados son la manera m´s simple de introducir informacion auxi- n a ´liar en un diseno de muestreo. Se necesita definir estratos o categor´ en la poblaci´n. ˜ ıas oAdem´s, se necesita saber a qu´ estrato pertenece cada unidad de la poblaci´n. a e o4.2. Poblaci´n y estratos o Poblaci´n U = {1, . . . , k, . . . , N } dividida en H subconjuntos, Uh , h = 1, .., H, lla- omados estratos H Uh = U y Uh Ui = ∅, h = i. h=1Siendo Nh el tama˜o del estrato Uh . n H Nh = N. h=1 El objetivo es estimar H H Y = yk = yk = Yh , k∈U h=1 k∈Uh h=1donde Yh = yk . k∈Uh H H 1 1 1 Y = yk = yk = Nh Y h , N k∈U N h=1 k∈Uh N h=1donde Y h es la media calculada en el estrato h 1 Yh = yk . Nh k∈Uh 14
  • 21. 2Adem´s, σyh representa la varianza del estrato h a 2 1 2 σyh = yk − Y h Nh k∈Uh 2y Syh la cuasivarianza 2 Nh Syh = σ2 . Nh − 1 yh 2La varianza total σy se logra por H H 2 1 1 1 σy = (yk − Y )2 = 2 Nh σyh + Nh (Y h − Y )2 . (4.1) N k∈U N h=1 N h=1Esta igualdad es la descomposici´n cl´sica de la varianza, que se escribe o a 2 2 2 σy = σy(intra) + σy(inter) 2donde σy(intra) es la varianza intra-estratos H 2 1 2 σy(intra) = Nh σyh N h=1 2y σy(inter) es la varianza inter-estratos H 2 1 σy(inter) = Nh (Y h − Y )2 . N h=14.3. Muestra, probabilidad de inclusi´n, estimaci´n o o Un dise˜o muestral es estratificado si, n en cada estrato, se selecciona una muestra simple aleatoria de tama˜o fijo nh n la selecci´n de una muestra en un estrato es independiente de selecci´n de las o o muestras de los otros estratos. Sh representa la muestra aleatoria seleccionada en el estrato h con el dise˜o ph (.), ndonde ph (sh ) = Pr(Sh = sh ). La muestra aleatoria total es H S= Sh . h=1Adem´s, de manera general s representa un valor posible de S donde a H s= sh . h=1 15
  • 22. S1 S2 Sh SH U1 U2 Uj UJ Figura 4.1: Plan estratificado El dise˜o muestral global es p(.) donde n p(s) = Pr(S = s).Debido a la independencia de las selecciones en cada estrato, tenemos H H p(s) = ph (sh ), s = sh . h=1 h=1Si nh representa el tama˜o de la muestra en el estrato h, tenemos n H nh = n, h=1donde n es el tama˜o de la muestra. n4.4. Probabilidad de inclusi´n o Si la unidad k est´ en el estrato h, a nh πk = , k ∈ Uh . Nh Para calcular las probabilidades de inclusi´n de segundo orden, tenemos que separar odos casos : En el caso donde las unidades k y est´n en el mismo estrato a nh (nh − 1) πk = ,k y ∈ Uh . Nh (Nh − 1) Si dos individuos k y est´n en dos estratos distintos, a nh ni πk = , k ∈ Uh y ∈ Ui . Nh Ni 16
  • 23. Se logra  n N −n  h h  h si = k, k ∈ Uh   Nh Nh ∆k = nh (Nh − nh ) (4.2)  − 2  Nh (Nh − 1) si k y ∈ Uh , k =   0 si k ∈ Uh y ∈ Ui , h = i. El π-estimador H H yk Nh Yestrat = = yk = Yh , k∈S πk h=1 nh k∈Sh h=1y H H 1 yk 1 Nh 1 Y strat = = yk = Nh Y h . N k∈S πk N h=1 nh k∈Sh N h=1donde Yh es el estimador del total del estrato h Nh Yh = yk . nh k∈She Y h es la media de la muestra en el estrato h 1 Yh = yk . nh k∈Sh Como las selecciones son independientes entre los estratos y que los dise˜os son nsimples en los estratos : H H H Nh − n h 2 var Ystrat = var Yh = var Yh = Nh Syh . (4.3) h=1 h=1 h=1 nhLa varianza de este estimador puede estimarse sin sesgo por H Nh − n h 2 var Ystrat = Nh syh , (4.4) h=1 nhdonde 1 s2 = yh (yk − Y h )2 , h = 1, . . . , H. nh − 1 k∈S h4.5. Plan estratificado con afijaci´n proporcional o Un plan estratificado tiene una afijaci´n proporcional, si o nh n = , h = 1, . . . , N. Nh N 17
  • 24. Suponemos que nh = nNh /N son enteros. El estimador del total es H N Yprop = Yh = yk , h=1 n k∈Sy el estimador de la media H 1 1 Y prop = Nh Y h = yk , N h=1 n k∈Sdonde Y h es la media de la muestra en el estrato h e Yh es el estimador del total en elestrato h 1 Yh = yk . nh k∈S hLa varianza del estimador del total se simplifica H N −n 2 var(Yprop ) = Nh Syh , (4.5) n h=1y la varianza del estimador de la media viene dada por : H N −n 2 var(Y prop ) = Nh Syh . (4.6) nN 2 h=1 2 2 Si N es grande, Syh ≈ σyh . H 2 N −n 2 N − n σy(intra) var(Y prop ) ≈ Nh σyh = . (4.7) nN 2 h=1 N nComparaci´n del dise˜o estratificado con el muestro aleatorio simple. o n 2 N − n σy var(Y srs ) ≈ . (4.8) N nLa varianza del estimador de la media puede estimarse por : H N −n var(Y prop ) = Nh s 2 , yh (4.9) nN 2 h=1donde 1 s2 = yh (yk − Y h )2 , h = 1, . . . , H. nh − 1 k∈S h 18
  • 25. 4.6. Dise˜ o estratificado ´ptimo para el total n o Neyman (1934) busc´ la afijaci´n para los tama˜os en la muestra n1 , . . . , nh , . . . , nH o o nque maximiza la varianza del estimador de Horvitz-Thompson para un muestreo detama˜o fijo. Tenemos que minimizar n H Nh − n h 2 var(Ystrat ) = Nh Syh , (4.10) h=1 nhen n1 , . . . , nh , . . . , nH sujeta a que H nh = n. (4.11) h=1 Podemos escribir la ecuaci´n de Lagrange o H H Nh − n h 2 L(n1 , . . . , nH , λ) = Nh Syh + λ nh − n . h=1 nh h=1Anulando las derivadas parciales respecto a los nh y a λ, se logra 2 ∂L Nh 2 = − 2 Syh + λ = 0, h = 1, . . . , H, (4.12) ∂nh nhy H ∂L = nh − n = 0. (4.13) ∂λ h=1 Luego Nh nh = √ Syh , h = 1, . . . , H. (4.14) λy H H h=1Nh Syh nh = n = √ . h=1 λObtenemos √ H Nh Syh h=1 λ= . (4.15) n y finalmente nNh Syh nh = H , h = 1, . . . , H. (4.16) h=1 Nh Syh Notas Hay un problema de redondeo, Se puede obtener nh > Nh . 19
  • 26. 4.7. Nota sobre la optimalidad en estratificaci´n o Sea una poblaci´n dividida en dos estratos H = 2 donde queremos estimar la odiferencia D = Y 1 − Y 2 . El estimador D = Y 1 − Y 2.Como las selecciones de las muestras son independientes entre los estratos N1 − n1 2 N2 − n2 2 var D = var Y 1 + var Y 2 = Sy1 + S . (4.17) n 1 N1 n2 N2 y2Se minimiza (4.17) sujeta a que n1 + n2 = n y se logra Syh nh = √ , h = 1, 2, λdonde λ es el multiplicador de Lagrange. Como n1 + n2 = n, encontramos nSyh nh = , h = 1, 2. Sy1 + Sy24.8. Optimalidad y coste El objetivo es estimar un total Y para un coste fijado C. Minimizamos la expresi´n o(4.10) sujeta a que H nh Ch = C, h=1donde Ch es el coste de la entrevista en el estrato h. Obtenemos   n = Nh Syh , h = 1, . . . , H,  h √   λCh H     nh Ch = C, h=1donde λ es el multiplicador de Lagrange, y CNh Syh nh = √ H √ . Ch =1 N Sy C4.9. Tama˜ o de muestra m´ n ınimo Otra manera de tratar el problema es buscar la afijaci´n que da el tama˜o de o nmuestra m´ ınimo para una varianza fijada. Sea ah = nh /n, h = 1, . . . , H, 20
  • 27. entonces H ah = 1. h=1De (4.10), H Nh − nah 2 var(Ystrat ) = Nh Syh . (4.18) h=1 nahBuscamos entonces un valor m´ ınimo de (4.18) en a1 , . . . , aH , para un valor fijadovar(Ystrat ) representado por V . Sustituyendo (4.18) en var(Ystrat ) por V , se logra H 2 H 1 Nh 2 2 V = Sh − Nh S h , n h=1 ah h=1lo que se puede escribir 2 Nh 2 H h=1 ah Sh n= H 2 . (4.19) V + h=1 Nh S hEntonces minimizamos 2 H Nh 2 h=1 ah Sh n= H 2 . (4.20) V + h=1 Nh S hcon a1 , . . . , aH , sujeta a que H ah = 1, h=1y despu´s de algunos c´lculos, tenemos e a Nh Syh ah = H . (4.21) =1 N SySe logra el mismo tipo de afijaci´n. Finalmente se puede fijar el tama˜o de la muestra o n 2 H h=1 Nh Syh n∗ = H 2 . V + h=1 Nh SyhEjercicio 4.1 Queremos estimar medias para las empresas de un departamento. Lasempresas son clasificadas seg´n el volumen de negocio y son clasificadas en tres clases. uLos datos de un censo son los siguientes: Volumen de negocio N´mero de empresas u de 0 a 1 1000 de 1 a 10 100 de 10 a 100 10Se quiere seleccionar una muestra de 111 empresas. Si se supone que la distribuci´n es ouniforme en cada estrato, calcule la varianza del estimador de la media del volumen denegocios para un dise˜o con representaci´n proporcional y para un dise˜o estratificado n o no´ptimo. 21
  • 28. Cap´ ıtulo 5Muestreo con probabilidadesdesiguales Los dise˜os con probabilidades desiguales permiten reducir la varianza cuando hay nun efecto de tama˜o en los datos. Tambi´n son muy usados en los dise˜os multiet´picos n e n aautoponderados para seleccionar las unidades primarias. Tres libros tratan del tema:Brewer and Hanif (1983); Gabler (1990); Till´ (2006). Aqu´ presentamos los planes e ı,m´s importantes. Un desarrollo m´s exhaustivo pude ser encontrado en Till´ (2006). a a e5.1. Informaci´n auxiliar y probabilidades de in- o clusi´n o Variable auxiliar x conocida sobre U . x es aproximadamente proporcional a y.Selecci´n de las unidades con probabilidades de inclusi´n proporcionales a x. Varianza o o 2 ˆ 1 yk y var Yπ = − (πk π − πk ). (5.1) 2 k∈U ∈U πk π =k5.2. C´lculo de las probabilidades de inclusi´n a o Calculamos xk n πk = , para todo k ∈ U. x ∈UAlgunos de los πk pueden ser πk > 1. Estas unidades son incluidas en la muestra conuna probabilidad de 1. Se vuelve a empezar el c´lculo con las unidades que quedan. Al afinal, tenemos dos grupos : un primer grupo de unidades con probabilidades de inclusi´n iguales a 1 o un segundo grupo con probabilidades de inclusi´n 0 < πk < 1 y proporcionales a o xk . 22
  • 29. El problema es seleccionar n unidades con probabilidades de inclusi´n fijadas con o 0 < πk < 1, para todo k ∈ U, tal que πk = n. (5.2) k∈UEjemplo 5.1 Si N = 6, n = 3, x1 = 1, x2 = 9, x3 = 10, x4 = 70, x5 = 90, x6 = 120,tenemos X= xk = 300, k∈Uy entonces nx1 1 nx2 9 nx3 1 nx4 7 nx5 9 nx6 6 = , = , = , = , = , = > 1. X 100 X 100 X 10 X 10 X 10 X 5La unidad 6 es seleccionada (con una probabilidad de 1). Luego, volvemos a calcularlas probabilidades de inclusi´n o xk = 180, k∈U {6}y entonces (n − 1)x1 1 (n − 1)x2 1 (n − 1)x3 1 = , = , = , ∈U {6} x 90 ∈U {6} x 10 ∈U {6} x 9 (n − 1)x4 7 (n − 1)x5 = , = 1. ∈U {6} x 9 ∈U {6} xLas probabilidades de inclusi´n son o 1 1 1 7 π1 = , π2 = , π3 = , π4 = , π5 = 1, π6 = 1. 90 10 9 9Dos unidades son seleccionadas con una probabilidad 1. El problema se reduce a laselecci´n de una unidad en una subpoblaci´n de tama˜o 4. o o n5.3. Muestreo con probabilidades desiguales con reemplazamiento Hansen and Hurwitz (1943) han propuesto un m´todo de selecci´n de una muestra e ocon probabilidades desiguales con reemplazamiento. Sea xk pk = , k ∈ U, ∈U xy k vk = p , con v0 = 0. =1 u es una variable continua, uniforme en [0, 1[, 23
  • 30. se selecciona la unidad k tal que vk−1 ≤ u < vk . Esta operaci´n es repetida m veces de manera independiente. oyi es la i´sima unidad seleccionada en la muestra. El total Y es estimado por el esti-˜ emador de Hansen-Hurwitz m 1 yi ˜ YHH = . m i=1 piComo yi ˜ yk E = pk = Y, pi k∈U pkYHH es un estimador insesgado Y . En efecto, m m 1 yi ˜ 1 E YHH = E = Y = Y. m i=1 pi m i=1Varianza : 2 2 1 yk 1 yk var[YHH ] = − t2 y = pk −Y , (5.3) m k∈U pk m k∈U pky puede estimarse por m 2 1 yi ˜ var[YHH ] = − YyHH . m(m − 1) i=1 pi5.4. Dise˜ o de Poisson n Cada unidad de U es seleccionada de manera independiente con una probabilidadde inclusi´n πk . o πk = πk π ,∆k = πk − πk π = 0, para todos k = . El dise˜o muestral viene dado por n     p(s) = πk × (1 − πk ) , para todos s ⊂ U. (5.4)   k∈s k∈U s En un dise˜o de Poisson, ∆k = 0 cuando k = , la varianza del estimador puede nser calculada simplemente 2 πk (1 − πk )yk var Yπ = 2 , (5.5) k∈U πky puede estimarse por 2 (1 − πk )yk var Yπ = 2 . (5.6) k∈Se πk 24
  • 31. 5.5. Muestreo de entrop´ m´xima con tama˜ o fijo ıa a n Buscamos un dise˜o muestral con la entrop´ m´xima sobre el conjunto de todas n ıa alas muestras de U de tama˜o fijo n. n Sn = {s|#s = n}.El problema es maximizar I(p) = − p(s) log p(s), s∈Snsujeta a que p(s) = πk , y p(s) = 1. (5.7) s k s∈Sn s∈SnExiste una soluci´n pero es complicada. o exp k∈s λk p(s) = s∈Sn exp k∈s λkUn algoritmo (ver Chen et al., 1994; Deville, 2000; Till´, 2006) permite calcular los eπk a partir de los λk y los λk a partir de los πk . El conocimiento de los λk permitenumerosas implementaciones del dise˜o de muestreo (ver Till´, 2006). n e5.6. El dise˜ o muestral sistem´tico n a Madow (1949) propuso el primero m´todo con tama˜o fijo y probabilidades de e ninclusi´n desiguales. Tenemos 0 < πk < 1, k ∈ U con o πk = n. k∈USea k Vk = π , para todos k ∈ U, con Vo = 0. (5.8) =1Una variable uniforme es generada en [0, 1]. la primera unidad seleccionada k1 es tal que Vk1 −1 ≤ u < Vk1 , la segunda unidad seleccionada es tal que Vk2 −1 ≤ u + 1 < Vk2 y la j´sima unidad seleccionada es tal que Vkj −1 ≤ u + j − 1 < Vkj . e 25
  • 32. 0,2 0,9 1,7 2,2 2,6 0 1 2 3 u u+1 u+2 Figura 5.1: Muestreo sistem´tico aEjemplo 5.2 N = 6 y n = 3, π1 = 0,2, π2 = 0,7, π3 = 0,8, π4 = 0,5, π5 = π6 = 0,4,V1 = 0,2, V2 = 0,9, V3 = 1, 7, V4 = 2,2, V5 = 2,6, V6 = 3, u = 0,3658. Las unidades 2,3 y 5 son seleccionadas. El algoritmo tambi´n puede ser presentado de la manera siguiente : Primero, se eselecciona la unidad k tal que los intervalos [Vk−1 − u, Vk − u[ contengan un n´mero uentero.Algorithm 2 Algoritmo de muestreo sistem´tico a Definici´n a, b, u real; k entero; o u = un n´mero aleatorio uniforme en [0,1]; u a = −u; b = a; Repetir para k = 1, .., N a = a + πk ; si a = b seleccionar k. El problema es que la mayor´ de las probabilidades de inclusi´n son iguales a cero. ıa oLa matriz de probabilidades de inclusi´n viene dada por : o   − 0 0,2 0,2 0 0  0 − 0,5 0,2 0,4 0,3     0,2 0,5 − 0,3 0,4 0,2     0,2 0,2 0,3 − 0 0,3     0 0,4 0,4 0 − 0  0 0,3 0,2 0,3 0 −5.7. El m´todo de escisi´n e o5.7.1. Escisi´n en dos partes o El m´todo de escisi´n (ver Deville and Till´, 1998; Till´, 2006) es une t´cnica bas- e o e e etante simple para seleccionar une muestra seg´n probabilidades de inclusi´n dadas. A u opartir del vector de probabilidades de inclusi´n, se vuelve a aplicar a cada etapa une oescisi´n en dos o varios nuevos vectores. Un vector es elegido aleatoriamente. A cada oetapa se intenta lograr un vector m´s simple, por ejemplo, introduciendo 0 o 1 en el anuevo vector. En N etapas como m´ximo, la muestra es seccionada. El m´todo del cubo a epara seleccionar un dise˜o equilibrado es una generalizaci´n del m´todo de escisi´n. n o e o 26
  • 33. (1) (2) La t´cnica b´sica es muy simple : cada πk se separa en dos partes πk y πk que e averifican : (1) (2) πk = λπk + (1 − λ)πk ; (5.9) (1) (2) 0 ≤ πk ≤ 1 y 0 ≤ πk ≤ 1, (5.10) (1) (2) πk = πk = n, (5.11) k∈U k∈Udonde λ puede elegirse libremente dentro de 0 < λ < 1. El m´todo consiste en selec- ecionar n unidades con probabilidades desiguales (1) πk , k ∈ U, con una probabilidad λ (2) πk , k ∈ U, con una probabilidad 1 − λ.   π1  .   .  .    πk   .   .  . πN ¨¨rr λ¨ ¨ ¨ rr 1−λ rr ¨ ¨¨ rr % ¨ j r  (1)   (2)  π1 π1  .   .   . .   . .   (1)   (2)   π   π   k   k   .   .   . .   . .  (1) (2) πN πN Figura 5.2: Escisi´n en dos partes o El problema se reduce a otro problema de muestreo con probabilidades desiguales. (1) (2)Si la escisi´n es tal que uno o algunos de los πk y de los πk son iguales a 0 o 1, oel problema de muestreo ser´ m´s simple en la pr´xima etapa porque la escisi´n es a a o oaplicada a una poblaci´n m´s peque˜a. o a n 27
  • 34. 5.7.2. Escisi´n en M partes o El m´todo puede ser generalizado a una t´cnica de escisi´n en M vectores de pro- e e o (j)babilidades de inclusi´n. Primero, construimos los πk y los λj de manera que o M λj = 1, j=1 0 ≤ λj ≤ 1 (j = 1, . . . , M ), M (j) λj π k = π k , j=1 (j) 0 ≤ πk ≤ 1 (k ∈ U, j = 1, . . . , M ), (j) πk = n (j = 1, . . . , M ). k∈U   π1  .   .  .    πk   .   .  . πN ¨¨rr λ1 ¨¨ ¨ λ rr j rr λM ¨ ¨¨ c rr % ¨ j r  (1)   (i)   (M )  π1 π1 π1  . .   . .   . .   .   .   .         (1) πk  ...  (i) πk  ...  (M ) πk         . .   . .   . .   .   .   .  (1) (i) (M ) πN πN πN Figura 5.3: Escisi´n en M partes o (j) El m´todo consiste en seleccionar uno de los vectores πk con probabilidades λj (j = e (j)1, . . . , M ). De nuevo, los πk son tales que el problema de muestreo ser´ m´s simple a aen la pr´xima etapa. o 28
  • 35. 5.7.3. Dise˜ o con un soporte m´ n ınimo (π(1) , . . . , π(k) , . . . , π(N ) ) representa el vector de probabilidades de inclusi´n. Luego, odefinimos ın{1 − π(N −n) , π(N −n+1) }, λ = m´ (1) 0 si k ≤ N − n π(k) = 1 si k > N − n,  π(k)   if k ≤ N − n (2) 1−λ π(k) =  π(k) − λ  if k > N − n. 1−λEjemplo 1. Suponemos que N = 6, n = 3, π1 = 0,07, π2 = 0,17, π3 = 0,41, π4 = 0,61,π5 = 0,83, π6 = 0,91. En este caso, la soluci´n se encuentra en 4 etapas. El vector ode probabilidades de inclusi´n se separa en dos partes dadas en las columnas 2 y 3 ode la Tabla 1. Con la probabilidad λ = 0,59, la muestra {4, 5, 6} es seleccionada ycon probabilidad 1 − λ = 0,41, otro dise˜o muestral se aplica con probabilidades de ninclusi´n dadas por (0.171, 0.415, 1, 0.049, 0.585, 0.780). En la etapa 2, la escisi´n o ose aplica al vector y, en 4 etapas la muestra es seleccionada. El dise˜o muestral es el n Cuadro 5.1: Plan con soporte m´ ınima Etapa 1 Etapa 2 Etapa 3 Etapa 4 πk λ = 0,59 λ = 0,585 λ = 0,471 λ = 0,778 0,07 0 0,171 0 0,412 0 0,778 1 0 0,17 0 0,415 0 1 1 1 1 1 0,41 0 1 1 1 1 1 1 1 0,61 1 0,049 0 0,118 0 0,222 0 1 0,83 1 0,585 1 0 0 0 0 0 0,91 1 0,780 1 0,471 1 0 0 0siguiente p({4, 5, 6}) = 0,59; p({3, 5, 6}) = (1 − 0,59) × 0,585 = 0,24; p({2, 3, 6}) =(1 − 0,59 − 0,24) × 0,471 = 0,08; p({1, 2, 3}) = (1 − 0,59 − 0,24 − 0,08) × 0,778 = 0,07;p({2, 3, 4}) = 1 − 0,59 − 0,24 − 0,08 − 0,7 = 0,02. El dise˜o muestral viene dado por p({4, 5, 6}) = 0,59, p({3, 5, 6}) = (1 − 0,59) × n0,585 = 0,24, p({2, 3, 6}) = (1 − 0,59 − 0,24) × 0,471 = 0,08, p({1, 2, 3}) = (1 − 0,59 −0,24 − 0,08) × 0,778 = 0,07, p({2, 3, 4}) = (1 − 0,59 − 0,24 − 0,08 − 0,7) = 0,02.5.7.4. Escisi´n en dise˜ os simples o n Este m´todo permite separar el vector de probabilidades de inclusi´n en dos partes. e oDefinimos N N λ = m´ π(1) , ın , (5.12) n N −n 29
  • 36. y calculamos, para k ∈ U, n (1) n (2) πk − λ N π(k) = , π(k) = . N 1−λ (2) (2)Si λ = π(1) N/n, entonces π(1) = 0; si λ = (1 − π(N ) )N/(N − n), entonces π(N ) = 1. Enla pr´xima etapa, el problema se reduce a la selecci´n de una muestra de tama˜o n − 1 o o no n en una poblaci´n de tama˜o N − 1. En N − 1 etapas, el problema es reducido. o nEjemplo 2 Con los mismos πk que en el ejemplo 1, el resultado del m´todo viene edado en la Tabla 2. El problema consiste finalmente en seleccionar uno de los 6 dise˜os n Cuadro 5.2: Descomposici´n en planes simples o Etapa 1 Etapa 2 Etapa 3 Etapa 4 Etapa 5 πk λ = 0,14 λ = 0,058 λ = 0,173 λ = 0,045 λ = 0,688 0,07 0,5 0 0 0 0 0 0 0 0 0 0,17 0,5 0,116 0,600 0,086 0,5 0 0 0 0 0 0,41 0,5 0,395 0,600 0,383 0,5 0,358 0,667 0,344 0,5 0 0,61 0,5 0,628 0,600 0,630 0,5 0,657 0,667 0,656 0,5 1 0,83 0,5 0,884 0,600 0,901 0,5 0,985 0,667 1 1 1 0,91 0,5 0,977 0,600 1 1 1 1 1 1 1simples definidos en las columnas de la Tabla 3. λ1 = 0,14, λ2 = (1 − 0,14) × 0,058 =0,050, λ3 = (1 − 0,14) × (1 − 0,058) × 0,173 = 0,14, λ4 = (1 − 0,14) × (1 − 0,058) × (1 −0,173)×0,045 = 0,03, λ5 = (1−0,14)×(1−0,058)×(1−0,173)×(1−0,045)×0,688 = 0,44,λ6 = (1 − 0,14) × (1 − 0,058) × (1 − 0,173) × (1 − 0,045) × (1 − 0,688) = 0,200. Cuadro 5.3: Escisi´n en N planes simples o k λ1 = 0,14 λ2 = 0,050 λ3 = 0,14 λ4 = 0,03 λ5 = 0,44 λ6 = 0,200 1 0,5 0 0 0 0 0 2 0,5 0,6 0,5 0 0 0 3 0,5 0,6 0,5 0,667 0,5 0 4 0,5 0,6 0,5 0,667 0,5 1 5 0,5 0,6 0,5 0,667 1 1 6 0,5 0,6 1 1 1 15.7.5. El m´todo del pivote e Solamente son modificadas dos probabilidades de inclusi´n: i y j. o Si πi + πj > 1, entonces 1 − πj λ= , 2 − πi − π j 30
  • 37.   πk k ∈ U {i, j} (1) πk = 1 k =i  π i + πj − 1 k = j,   πk k ∈ U {i, j} (2) πk = π i + πj − 1 k =i  1 k = j.Por otra parte, si πi + πj < 1, entonces πi λ= , π i + πj   πk k ∈ U {i, j} (1) πk = π i + πj k=i  0 k = j,   πk k ∈ U {i, j} (2) πk = 0 k=i  π i + πj k = j.5.7.6. M´todo de Brewer e Brewer (1975) yBrewer and Hanif (1983, m´todo 8, p. 26) propusieron un m´todo e emuy simple para seleccionar una muestra con probabilidades desiguales. draw by draw procedure N −1 πz (n − πz ) πj (n − πj ) λj = . z=1 1 − πz 1 − πjLuego, calculamos   πk (n − 1) (j) si k = j πk = n − πj  1 si k = j.La validez del m´todo se deriva del resultado siguiente : eTeorema 2 N (j) λj π k = π k , j=1para todo k = 1, . . . , N, 31
  • 38. 5.8. Varianza en dise˜ os con probabilidades desiguales n Aproximaci´n de la varianza o bk var(Yπ ) = 2 (yk − yk )2 . ∗ k∈U πkcon ∗ ∈U b y /π yk = π k ∈U b N πk (1 − πk ) bk = . (N − 1) Estimaci´n de la aproximaci´n de la varianza o o ck var(Yπ ) = 2 (yk − yk )2 . ˆ∗ k∈S πkcon ∗ ∈S c y /π yk = π k ∈S b nπk (1 − πk ) ck = . (n − 1) 32
  • 39. Cap´ ıtulo 6Muestreo equilibrado6.1. Introducci´n o Une muestreo equilibrado selecciona unicamente las muestras cuyos estimadores de ´Horvitz-Thompson son iguales a los totales de las variables auxiliares conocidas. Evi-dentemente, para seleccionar una muestra equilibrada, se necesita disponer de une basede datos con los valores de las variables auxiliares para cada unidad de la poblaci´n. o La idea de seleccionar una muestra equilibrada es relativamente vieja. Ya Yates(1949) propuso un m´todo con un reemplazamiento aleatorio de los unidades a partir ede una muestra simple para mejorar el equilibrio de la muestra. Varios m´todos con erechazos de muestras fueron tambi´n propuestos (ver Thionet, 1953; H´jek, 1981). En e ala teor´ basada sobre un modelo Royall and Herson (1973a,b) surgi´ la idea de usar ıa omuestras equilibradas sin determinar una manera general de seleccionarlas. Otros m´to- edos fueron propuestos por Deville et al. (1988), Ardilly (1991), Hedayat and Majumdar(1995). El m´todo del cubo, propuesto por Deville and Till´ (2004), (tambi´n ver Till´, e e e e2001; Till´ and Favre, 2004, 2005; Till´, 2006; Till´ and Matei, 2007; Nedyalkova and e e eTill´, 2009) es el unico que permite seleccionar una muestra equilibrada sobre varias e ´variables auxiliares y con probabilidades de inclusi´n iguales o desiguales. oDefinici´n 6.1 Un dise˜o muestral p(s) es equilibrado sobre las variables x1 , . . . , xp , o nsi verifica las ecuaciones de equilibrio dadas por Xπ = X, (6.1)lo que tambi´n se puede escribir e xkj = xkj , k∈s πk k∈Upara toda s ∈ S tal que p(s) > 0, y para todos j = 1, . . . , p, o con otras palabras var Xπ = 0. 33
  • 40. Ejemplo 6.1 Un muestreo de tama˜o fijo es equilibrado sobre la variable xk = πk , k ∈ nU. En efecto, xk = 1= πk = n. k∈S πk k∈S k∈UEjemplo 6.2 Un plan estratificado es equilibrado sobre las variables 1 si k ∈ Uh δkh = 0 si k ∈ Uh . /Ejemplo 6.3 N = 10, n = 7, πk = 7/10, k ∈ U, xk = k, k ∈ U . k = k, k∈S πk k∈Ulo que da que k = 55 × 7/10 = 38,5, k∈SEn este caso, es imposible seleccionar una muestra que sea exactamente equilibrada.Seleccionar una muestra es un problema en n´meros enteros, y las ecuaciones de equi- ulibrio son restricciones lineales. Por eso, las ecuaciones de equilibrio no pueden siempreser satisfechas.Por lo tanto, vamos a buscar una muestra que sea perfectamente equilibrada si esposible o quien es aproximadamente equilibrada si no existen muestras que sean per-fectamente equilibradas.6.2. Representaci´n por un cubo o Representaci´n geom´trica de un dise˜o muestral. o e n s = (I[1 ∈ s] . . . I[k ∈ s] . . . I[N ∈ s]) ,donde I[k ∈ s] toma el valor 1 si k ∈ s y 0 sino. Geom´tricamente, cada vector s es un ev´rtice de un N -cubo. e E(s) = p(s)s = π, s∈Sdonde π = [πk ] es el vector de probabilidad de inclusi´n. o6.3. Muestras equilibradas M´todo del cubo e 1. fase de vuelo, 2. fase de aterrizaje. 34
  • 41. (011) (111) (010) (110) π (001) (101) (000) (100) Figura 6.1: Muestras posibles en una poblaci´n de tama˜o N = 3 o n Las ecuaciones de equilibrio (6.1) pueden tambi´n ser escritas e a k ck = a k πk (6.2) k∈U k∈U ck ∈ {0, 1}, k ∈ U,donde ak = xk /πk , k ∈ U. (6.2) define un subespacio en RN de dimensi´n N − p. o El problema Se elige un v´rtice del N -cubo (una muestra) que quede en el sub - ee spacio Q. Si C representa el N -cubo en RN , los v´rtices del N -cubo son las muestras de e U , la intersecci´n entre C y Q es no vacio, porque π est´ en el interior de C y o a pertenece a Q. La intersecci´n entre el N -cubo y un subespacio lineal define un poliedro convexo o K que es definido por K = C ∩ Q = [0, 1]N ∩ (π + Ker A) y tiene la dimensi´n N − p. o6.4. Representaci´n gr´fica del problema de redon - o a dea do El problema de redondeado tambi´n puede ser representado de manera geom´trica. e eExaminemos algunos casos de figura. En el caso donde la unica restricci´n sea el tama˜o ´ o nfijo (n = 2) de la muestra, no hay problema de redondeado, porque siempre es posibleseleccionar una muestra de tama˜o fijo. Vemos, en la Figura 6.2, que los v´rtices de la n eintersecci´n del cubo y del subespacio son v´rtices del cubo, es decir que son muestras. o e El problema de redondeado aparece cuando los v´rtices de la intersecci´n del sub - e oe spacio y del cubo no son v´rtices del cubo. Consideremos el ejemplo siguiente. e 35
  • 42. (011) (111) (010) (110) (001) (101) (000) (100)Figura 6.2: Contrainte de taille fixe : les 3 ´chantillons de taille n = 2 sont reli´s par e eun sous-espace affineEjemplo 6.4 Supongamos que la unica restricci´n (J = 1 sea dada por la variable ´ oauxiliar z1 = 0, z2 = 3 y z3 = 2 y qu´ las probabilidades de inclusi´n sean π1 = π2 = e oπ3 = 1/2. La matriz A se reduce pues al vector z 1 z2 z3 A= , , = (0, 6, 4), π1 π2 π3y la ecuaci´n de equilibrio es: o 0 × s1 + 6 × s2 + 4 × s3 = 0 + 3 + 2 = 5.El subespacio de restricciones de dimensi´n 2 es representado en la Figura 6.3. Este osubespacio no pasa por ninguno de los v´rtices del cubo. As´ pues, los v´rtices de la e ı eintersecci´n del cubo y del subespacio de equilibrio no son v´rtices del cubo y entonces o eno son muestras. Este ejemplo muestra la representaci´n geom´trica del problema de o eredondeado. Aqu´, no existe muestra que satisfaga exactamente las restricciones, ya que ıningun v´rtice del cubo pertenece al subespacio de las restricciones. Decimos entonces eque el sistema de ecuaciones de eequilibrio s´lo puede estar aproximadamente satisfecho. oPor fin, existen unos casos mixtos, donde ciertas cumbres de la intersecci´n del cubo y odel subespacio son muestras y otras no lo son. Consideremos el ejemplo siguiente :Ejemplo 6.5 Supongamos que la unica limitaci´n sea (J = 1 sea dada por la variable ´ oauxiliar z1 = 0,8, z2 = 2,4 et z3 = 0,8 et que π1 = π2 = π3 = 0,8. La matriz A esreducida al vector z 1 z2 z3 A= , , = (1, 3, 1), π1 π2 π3y la ecuaci´n de equilibrio se vuelve o 1 × s1 + 3 × s2 + 1 × s3 = 0,8 + 2,4 + 0,8 = 4. 36
  • 43. (011) (111) (010) (110) (001) (101) (000) (100) Figura 6.3: Ninguno de las v´rtices de K es una cumbre del cubo eEl subespacio de restricciones de dimensi´n 2 es representado en la Figura 6.4. En este ocaso, el subespacio de las restricciones pasa por dos v´rtices del cubo pero un v´rtice de e ela intersecci´n no es un v´rtice del cubo. La ecuaci´n de equilibrio puede ser satisfecha o e os´lo en ciertos casos. Decimos entonces que el sistema de ecuaciones de equilibrado opuede a veces ser satisfecho. (011) (111) (010) (110) (001) (101) (000) (100) Figura 6.4: Dos v´rtices de K son vertices del cubo pero el tercero no lo es eCuando el sistema de ecuaciones de equilibrio puede a veces ser satisfecho, ciertas mues-tras son exactamente equilibradas. Sin embargo, es necesario tomar en consideraci´n oen el dise˜o de muestreo las muestras que no son exactamente equilibradas para poder nsatisfacer las probabilidades de inclusi´n. o Una propiedad determinante para la implementaci´n del m´todo del cubo es que o etodos los v´rtices del poliedro convexo K posean por lo menos N − J componentes eiguales sea a 0, sea a 1, donde J es el n´mero de variables de equilibrio. Esta propiedad uemana del resultado siguiente:Resultado 6.1 Si r = [rk ] es un punto extremo de K entonces card{k|0 < rk < 1} ≤J. 37
  • 44. Demostraci´n (por contradicci´n) Sea A∗ la matriz A limitada a las unidades no o oenteras de r es decir limitada a U ∗ = {k|0 < rk < 1}. Si q = card(U ∗ ) > J, entoncesKer A∗ es de dimensi´n q − J > 0, y r no es un punto extremo de K. o 26.5. La martingala equilibrada Para seleccionar un v´rtice de la intersecci´n del subespacio y del cubo, vamos e oa usar un camino aleatorio. El camino empieza con el vector de probabilidades deinclusi´n π(0) = π. Para satisfacer las probabilidades de inclusi´n el proceso aleatorio o oπ(0), π(2), π(3), . . . tiene que ser une martingala.Definici´n 6.2 Un proceso aleatorio discreto π(t) = [πk (t)], t = 0, 1, . . . en RN se ollama una martingala equilibrada para un vector de probabilidades de inclusi´n π y opara las variables auxiliares x1 , . . . , xp , si 1. es una martingala: π(0) = π, 2. E [π(t)|π(t − 1), . . . ., π(0)] = π(t − 1), t = 1, 2, . . . 3. queda en la intersecci´n del subespacio de equilibrio y del cubo: π(t) ∈ K = o [0, 1]N ∩ (π + Ker A) , donde A es una matriz p×N dada por A = (x1 /π1 . . . xk /πk . . . xN /πN ).6.6. Implementaci´n de la fase de vuelo o La primera etapa de la fase de vuelo es presentada en la Figura 6.5 para un casomuy espec´ ıfico: el tama˜o demogr´fico N = 3 y la unica restricci´n de equilibrio es el n a ´ otama˜o fijo de la muestra n = 2. En la primera etapa, un vector u(0) debe ser escogido. n (011) (111) π(0) + λ∗ (0)u(0) 1 (010) (110) π(0) π(0) − λ∗ (0)u(0) 2 (001) (101) (000) (100)Figura 6.5: Fase de vuelo en una poblaci´n de tama˜o N = 3 con una muestra restric- o nci´n de tama˜o n = 2 o nEste vector puede ser escogido libremente, pero debe ser tal que π + u(0) permanezca 38
  • 45. en el subespacio de coacciones. En realidad, el m´todo de cubo es una familia de los em´todos que dependen del camino vector u(0)el que es escogido. Este vector puede ser eescogido al azar o no. Si, de π, seguimos la direcci´n dada por el vector u(0), entonces cruzaremos nece- osariamente una cara del cubo. Consideramos este punto denotado sobre la Figura 6.5por π(0) + λ∗ (0)u(0). Ahora, si, de π, seguimos la direcci´n opuesta, i.e. la direcci´n 1 o odada por el vector u(0), cruzaremos tambi´n una cara del cubo. Consideramos este epunto denotado sobre la Figura 6.5 por π(0) − λ∗ (0)u(0). En la primera etapa, el vec- 2tor π(0) = π es modificado al azar. Vector π(1) ser´ puesto a π(0) + λ∗ (0)u(0) o a a 1π(0) − λ∗ (0)u(0). La elecci´n es hecha al azar de tal modo que E[π(1)] = π(0) . Al final 2 ode la primera etapa de la fase de vuelo, hemos as´ saltado sobre una cara del cubo, que ıquiere decir que al menos un componente de π(1) es igual a 0 o 1, i.e. que el problemasea reducido de un problema de muestreo de una poblaci´n de tama˜o N = 3 a una o npoblaci´n de tama˜o N = 2. En N pasos por lo menos, la fase de vuelo as´ es acabado. o n ı Una manera de implementar una martingala equilibrada consiste en usar el algorit-mo siguiente. Primero, inicializamos por π(0) = π. Luego, En la etapa t = 1, . . . ., T, 1. Definimos un vector u(t) = [uk (t)] = 0 tal que (i) u(t) est´ en el n´cleo (kernel)de la matriz A, a u (ii) uk (t) = 0 si πk (t) es entero. 2. Calculamos λ∗ (t) y λ∗ (t), el valor m´s grande tal que 0 ≤ π(t) + λ1 (t)u(t) ≤ 1, 1 2 a y 0 ≤ π(t) − λ2 (t)u(t) ≤ 1. 3. Elegimos π(t) + λ∗ (t)u(t) 1 con una probabilidad q1 (t) π(t + 1) = π(t) − λ∗ (t)u(t) 2 con una probabilidad q2 (t), donde q1 (t) = λ∗ (t)/{λ∗ (t) + λ∗ (t)} 2 1 2 q2 (t) = λ1 (t)/{λ1 (t) + λ∗ (t)}. ∗ ∗ 26.7. Implementaci´n de la fase de aterrizaje o6.7.1. El problema Sea T la ultima etapa de la fase 1, y notamos por π∗ = [πk ] = π(T ). Sea tambi´n ∗ e ∗ ∗ ∗U = {k ∈ U |0 < πk < 1} . Deville and Till´ (2004) mostraron que card U < p, i.e. eque el n´mero de elementos de U ∗ que no son iguales a 0 o 1 es igual a mas peque˜o u nque el numero de variables de equilibrio. El problema es buscar un plan de muestreo que de una muestra s ⊂ U tal que ∗ ak ≈ a k πk = a k πk , k∈s k∈U k∈U 39
  • 46. lo que es equivalente a buscar un dise˜o muestral que de una muestra s∗ ⊂ U ∗ tal que n ∗ ak ≈ a k πk , k∈s∗ k∈U ∗donde s∗ = U ∗ ∩ s. Como q = #U ∗ es inferior o igual a p, el n´mero de unidades donde uqueda un problema de redondeo es peque˜o respecto al tama˜o de la poblaci´n. n n o6.7.2. Soluci´n 1: programa linear o La primera manera de lograr un dise˜o de muestreo sobre U ∗ que satisfaga las nprobabilidades de inclusi´n π ∗ , es hacer la lista de todas las muestras posibles s∗ ⊂ oU ∗ . Despu´s, vamos a buscar para cada muestra una probabilidad que respete las eprobabilidades π ∗ , y que minimice su coste medio. Por lo tanto, tenemos que definir un coste (s∗ ) para cada muestra s∗ que mida lacalidad de equilibrio de esta muestra. Este coste aumenta si las ecuaciones de equilibrio(6.1) no se verifican. Por ejemplo, el coste puede ser definido por p Xj (s) − Xj C(s) , j=1 Xjdonde Xj (s) es el valor del estimador de Horvitz-Thompson sobre la muestra s. Elcoste puede tambi´n ser la distancia entre la muestra y el subespacio de equilibrio. e Para resolver este problema, podemos aplicar el algoritmo del s´ ımplex sobre elprograma lineal, m´ ın C(s∗ )p(s∗ ), p(.) s∗ ⊂U ∗sujeto a que p(s∗ ) = 1, s∗ ⊂U p(s∗ ) = πk , k ∈ U, s∗ k 0 ≤ p(s∗ ) ≤ 1, s∗ ⊂ U,donde C(s∗ ) es el coste asociado a la muestra s∗ .6.7.3. Soluci´n 2: supresi´n sucesiva de variables o o El m´todo de del programa lineal es limitado por el hecho que no se puede hacer ela lista de todas las muestras posibles si el n´mero de variables de equilibrio es mas ugrande que 20. Otro m´todo simple para implementar la fase de aterrizaje consiste en esuprimir una variable de equilibrio al final de la fase de vuelo. Entonces, se puede poneren marcha de nuevo la fase de vuelo porque la dimensi´n del subespacio ha pasado de oN − p a N − p + 1. Es posible moverse de nuevo en el subespacio. Al fin de la segundafase de vuelo, se suprime una nueva variable de equilibrio, y as´ sucesivamente hasta ı 40
  • 47. que no haya m´s variables. Las variables suprimidas en primero lugar no ser´n t´n bien a a aequilibrados que las variables que son suprimidas al final. Por eso, se necesita suprimirlas variables en un orden que vaya de las menos importantes a las m´s importantes. a6.8. Varianza en un plan equilibrado6.8.1. Una t´cnica de residuos e La varianza del estimador de Horvitz-Thompson puede ser estimada usando lat´cnica de residuos desarrollada en Deville and Till´ (2005). Esta t´cnica de residuos e e ees comparable a la t´cnica usada para estimar la varianza del estimador de calibraci´n e oy fue validada por un conjunto de simulaciones. La varianza estimada del estimador deHorvitz-Thompson es entonces muy similar a la varianza estimada del estimador por laregresi´n generalizada (GREG). Sin embargo, la varianza del estimador por la regresi´n o ogeneralizada es generalmente subestimada porque no toma en cuenta el hecho que lospesos son aleatorios. En efecto, si la varianza usual del estimador GREG es calculadapara el caso especial de la post-estratificaci´n, encontramos la varianza de un plan oestratificado con afijaci´n proporcional. La varianza del estimador post-estratificado es otodav´ m´s grande que la varianza en un dise˜o de muestreo estratificado con afijaci´n ıa a n oproporcional.6.8.2. Aproximaci´n de la varianza o Deville and Till´ (2005, method 4) han propuesto la aproximaci´n siguiente de la e ovarianza dada en (6.3): (yk − xk b)2 varp (Yπ ) ∼ varapp (Yπ ) = = dk 2 , (6.3) k∈U πkdonde −1 xk x x k yk b= dk 2 k dk 2 , k∈U πk k∈U πky los dk son la soluci´n del sistema no lineal o −1 dk xk xx dk xk πk (1 − πk ) = dk − d 2 , k ∈ U. (6.4) πk ∈U π πkEsta aproximaci´n, que usa solamente probabilidades de inclusi´n del primer orden ha o osido validada por Deville and Till´ (2005) para un gran conjunto de dise˜os equilibra- e ndos. Una aproximaci´n pr´xima de la Expresi´n (6.3) fue tambi´n obtenida por Fuller o o o e(2007) para dise˜os equilibrados obtenidos por una procedimiento de rechazo. n 41
  • 48. 6.8.3. Estimaci´n de la varianza o Deville and Till´ (2005) propusieron una familia de estimadores de varianza para emuestreo equilibrado de la forma 2 yk − xk b var(Yπ ) = ck 2 , (6.5) k∈S πkdonde −1 xx xy b= c 2 c ∈S π ∈S π2y los ck son las soluciones del sistema no lineal −1 ck x k xx ck x k 1 − πk = ck − c 2 , (6.6) πk ∈S π πkQue puede ser resuelto por un algoritmo de punto fijo. En Deville and Till´ (2005), otras expresiones simples son propuestas. Se pueden etomar otros valores para los ck , n ck ≈ ˜ (1 − πk ), n−pQue son muy cerca del ck . El estimador var(Yπ ) es aproximadamente sin sesgo porquees un estimador por substituci´n de la aproximaci´n dada en la expresi´n (6.3), (para o o om´s informaciones sobre los estimadores por substituci´n ver Deville, 1999). a o6.9. Muestreo equilibrado en pr´ctica a6.9.1. Inter´s de muestreo equilibrado e En el marco asistido por el modelo y basado sobre el modelo, un dise˜o de muestreo nequilibrado con el estimador de Horvitz-Thompson es a menudo la estrategia ´ptima o(ver Nedyalkova and Till´, 2009). En realidad, cuando la muestra es equilibrada, las evarianzas de los estimadores Horvitz-Thompson de las variables auxiliares son igualesa cero. Bajo un modelo lineal, la varianza del estimador de Horvitz-Thompson de lavariable de inter´s s´lo depender´ de los residuos del modelo. e o a Las ventajas de muestreo equilibrado son as´ ı: El muestreo equilibrado aumenta la exactitud del estimador de Horvitz-Thompson. Este punto ha sido desarrollado en la Secci´n 6.8.2. De hecho, la varianza del o estimador de Horvitz-Thompson s´lo depende de los residuos de la regresi´n de o o la variable de inter´s por las variables de equilibrio. e El muestreo equilibrado protege contra errores de muestreo grandes. Las muestras m´s desfavorables tienen una probabilidad nula de ser seleccionada. a 42
  • 49. En la inferencia basada en el modelo, el muestreo equilibrado protege contra una mala especificaci´n del modelo. Este punto en gran parte es desarrollado por o Royall (1976b,a); Valliant et al. (2000). Encuentran una discusi´n reciente de o esta pregunta importante en Nedyalkova and Till´ (2009). e El muestreo equilibrado asegura que los tama˜os de la muestra en ´reas parti - n a culares no son demasiado peque˜os o - mucho peor - iguales a cero. n El muestreo equilibrado permite evitar el uso de un procedimiento de calibraci´n. o Si el dise˜o de muestreo no contiene ninguna restricci´n (por ejemplo con el n o dise˜o de Poisson), el sistema de ponderaci´n obtenido seg´n un procedimiento n o u de calibraci´n puede ser muy arbitrario, lo que reduce la eficiencia del estimador. o La ventaja y la simplicidad del m´todo de cubo son tan obvias que el m´todo de e ecubo ha sido r´pidamente usado en muy grandes procesos estad´ a ısticos. El primer usodel m´todo de cubo era la selecci´n de los grupos de rotaci´n para el censo franc´s. (ver e o o eDesplanques, 2000; Dumais et al., 2000; Durr and Dumais, 2001, 2002; Dumais andIsnard, 2000; Bertrand et al., 2004; da Silva et al., 2006). Para los municipios con menosde 10,000 habitantes, cinco grupos de rotaci´n que se no superponen de municipios ofueron seleccionados usando un dise˜o de muestreo equilibrado con probabilidades de ninclusi´n iguales (1/5). Cada a˜o, un quinto de los municipios son entrevistados. Tan o nsolo despu´s de 5 a˜os, todos los peque˜os municipios habr´n sido seleccionados. Para e n n alos municipios con m´s de 10,000 habitantes, en cada municipio, cinco muestras de adirecciones que no se no superponen son seleccionadas con probabilidades de inclusi´n o1/8. Tan solo despu´s de 5 a˜os, 40 e n En la muestra maestra francesa, las unidades primarias son ´reas geogr´ficas que a ason seleccionadas usando un dise˜o de muestreo equilibrado (vermirar Wilms, 2000; nChristine and Wilms, 2003; Christine, 2006). La muestra maestra es un muestreo auto-ponderado biet´pico. Entonces las unidades primarias son seleccionadas con probabili- adades desiguales proporcionales a sus tama˜os. Las variables de equilibrio son variables nsocio-demogr´ficas tomadas del ultimo censo. Bardaji (2001) y Even (2002) tambi´n a ´ ehan usado muestreo equilibrado para seleccionar una muestra de los beneficiarios detrabajo subvencionado. Siete poblaciones son inspeccionadas, una muestra equilibradade beneficiarios es seleccionada en cada una de las poblaciones, usando entre dos ycinco variables de equilibrio seg´n las poblaciones. u En la empresa Electricit´ de France (EDF), nuevos contadores de electricidad per- emite de medir el consumo de electricidad para cada casa en una base continua. Lacantidad de informaci´n es tan grande que es imposible archivar todos los datos. Desser- otaine (2006, 2007) ha usado muestreo equilibrado para seleccionar las serias temporalesde consumo que deben ser archivadas para asegurar una buena representaci´n de la opoblaci´n francesa. Biggeri and Falorsi (2006) han usado nuestreo equilibrado para omejorar la calidad del ´ ındice del los precios en Italia. D’Al` et al. (2006) tambi´n o epropuso usar muestreo equilibrado para estimar totales en peque˜os areas. Algunas nsimulaciones fueron hechas por Mar´ et al. (2007b) y Mar´ et al. (2007a) en Argentina ı ıpara evaluar el inter´s de muestreo equilibrado para la muestra maestra. e 43
  • 50. 6.9.2. Muestreo Equilibrado Contra Otras T´cnicas de Muestreo e El muestreo con probabilidades desiguales es un caso particular del m´todo de cubo. eDe verdad, cuando la unica variable auxiliar es la probabilidad de inclusi´n, la muestra ´ otiene un tama˜o de muestra fija. El m´todo de cubo es una generalizaci´n del m´todo n e o ede escisi´n (vean Deville and Till´, 1998), que incluye varios algoritmos de muestreo con o eprobabilidades desiguales (el m´todo de Brewer, el m´todo pivotal, el m´todo Sunter). e e eLa estratificaci´n es tambi´n un caso particular del m´todo de cubo. Las variables de o e eequilibrio son los indicadores de los estratos. El inter´s del m´todo de cubo es que e epermite equilibrar sobre estratos que se superponen. Por ejemplo, una muestra puedeser equilibrada sobre los totales marginales de una mesa de contingencia. Adem´s, ase pueden usar variables cualitativas y cuantitativas juntas. El muestreo sistem´tico aa´n puede ser visto como un dise˜o de muestreo equilibrado sobre la estad´ u n ıstica deorden(pedido) relacionada con la variable sobre la cual ordenan(piden) a la poblaci´n. o Casi todas las otras t´cnicas de muestreo son casos particulares de muestreo equili- ebrado (excepto el muestreo multiet´pico). De hecho, el muestreo equilibrado es simple- amente m´s general, en el sentido que todos los otros m´todos de muestreo pueden ser a epuestos en pr´ctica con el m´todo de cubo. El muestreo equilibrado nos permite usar a ecualquier variable para el equilibrio. Con el concepto general de equilibrio, los estratospuede superponerse, las variables cuantitativas y cualitativas pueden ser usadas juntos,y las probabilidades de inclusi´n pueden ser escogidas libremente. o Es conocido que el estimador de raz´n y el estimador postestratificado son casos oparticulares del estimador de regresi´n. El estimador de regresi´n es tambi´n un caso o o eparticular del estimador de calibraci´n (que incluye un ajuste no lineal). De la misma omanera, el muestreo equilibrado es m´s un m´todo general de muestreo que incluye a ecasi todos los otros m´todos. e6.9.3. Elecci´n de las variables de equilibrio o La recomendaci´n principal es de escoger las variables de equilibrio que son muy ocorrelacionadas a las variables de inter´s. Como, con cualquier problema de regresi´n, e olas variables de equilibrio deben ser escogidas seg´n un principio de taca˜er´ No hay u n ıa:que escoger demasiadas variables de equilibrio porque, para cada variable, un gradode libertad se pierde para la estimaci´n de la varianza. Pr´cticamente hablando, las o avariables de inter´s son m´ltiples, entonces las variables de equilibrio bien deben ser e ucorrelacionadas con las variables de inter´s en general, y las variables auxiliares no edeber´ ser demasiado correlacionadas entre ellas. Lesage (2008) propuso un m´todo ıan epara equilibrar sobre estad´ ısticas complejas, m´s que simplemente usando totales de apoblaciones. La idea principal consiste en el equilibrio sobre la variable linealizada (ola funci´n de influencia) del par´metro de inter´s. o a e En muchos casos, las variables de equilibrio contienen errores de medida. Por ejem -plo, en la mayor parte de registros, se puede sospechar errores en los datos. No-respuestaspueden obviamente ocurrir y variables auxiliares son a menudo corregidas por un m´to- edo de imputaci´n. Como para la calibraci´n, el hecho de tener errores en las variables o oauxiliares no es muy importante, por lo que la calibraci´n se hace sobre el total de las o 44
  • 51. variables auxiliares del registro. Con el muestreo equilibrado, el estimador de Horvitz-Thompson es sin sesgo incluso si las variables auxiliares son falsas. El beneficio en laeficacia depende solamente de la correlaci´n entre las variables de equilibrio y las varia- obles de inter´s. Esta correlaci´n generalmente no es afectada por algunos errores en e olas variables de equilibrio. Varias variables pueden ser usadas para mejorar la estimaci´n en el peque˜o do- o nminio. Para asegurar que un dominio D no est´ vac´ se puede simplemente a˜adir la a ıo, nvariable auxiliar: πk si k ∈ D xk = 0 si k ∈ D, /lo que implica que el n´mero de las unidades probadas que pertenecen a D es igual u nD = xk = πk , k∈U k∈Dsi nD es el n´mero entero, o uno de los dos n´meros enteros m´s cercanos a nD si nD u u ano es el n´mero entero. u6.9.4. Equilibrio versus Calibraci´n o La estratificaci´n es un caso particular de equilibrio, mientras que la estratificaci´n o oes un caso particular de calibraci´n. En la estratificaci´n y el equilibrio, los pesos no o oson aleatorios. Por lo tanto, el muestreo equilibrado es, en general, una mejor estrate-gia. Sin embargo, se necesita m´s informaci´n adicional para equilibrar. En efecto, a opara el muestreo equilibrado, las variables auxiliares deben ser conocidas por todaslas unidades de la poblaci´n, mientras que, para la calibraci´n, s´lo los totales de o o opoblaci´n son necesarios. Equilibrio es un m´todo muy interesante para poblaciones de o epeque˜o tama˜o. Por lo tanto, un m´todo de cubo es muy interesante para la selecci´n n n e ode unidades primarias en una muestra multiet´pica. a Ambas t´cnicas se pueden utilizar juntas y no son contradictorias. La mejor estrate- egia consiste en la utilizaci´n de muestreo equilibrado y calibraci´n juntos. De hecho o ola calibraci´n puede resolver el peque˜o problema de redondeo que puede permanecer o ndespu´s en la muestra equilibrada. En la etapa de estimaci´n, en general hay m´s e o avariables auxiliares disponibles. En general, se recomienda volver a calibrar en las vari-ables de equilibrio en la fase de estimaci´n, aunque m´s variables de calibraci´n est´n o a o edisponibles. Si s´lo se utilizan las nuevas variables en la calibraci´n, se puede perder el o oefecto de equilibrio. Hay, sin embargo, un caso en que la calibraci´n se puede utilizar sin onecesidad de volver a calibrar en las variables de equilibrio: cuando uno puede razona-blemente suponer que condicionalmente a las variables de calibraci´n, las variables de oequilibrio no tienen correlaci´n con las variables de inter´s. Esto puede ocurrir cuando o eel equilibrio y la variable de calibraci´n son las mismas variables medidas en diferentes omomentos, y las variables de calibraci´n son m´s recientes. o a Cuando el coeficiente de determinaci´n entre la variable de inter´s y las variables o eauxiliares es igual o cercano a uno, despu´s de la calibraci´n es m´s eficiente debido e o aal problema de redondeo de muestreo equilibrado. De todos modos la estrategia m´s a 45
  • 52. eficiente consiste en utilizar muestreo equilibrado y calibraci´n juntos (ver la simulaci´n o oen Deville and Till´, 2004). e6.9.5. Precisi´n de las ecuaciones de equilibrio o Es posible demostrar, con condiciones realistas (ver Deville and Till´, 2004), que econ el m´todo del cubo e Xj − Xj < O(p/n), Xjdonde p es el n´mero de variables, y O(x)/x es una cuantidad que queda delimitada ucuando x tiende a infinito. Con un plan simple, X j − Xj = Op ( 1/n), Xjdonde Op (x)/x es una cuantidad que queda delimitada en probabilidad cuando x tiendeal infinito. La ganancia de precisi´n, es muy importante. El peque˜o problema de redondeo o npuede ser fijado por una peque˜a calibraci´n. El problema de redondeo viene del hecho n ode que la selecci´n de una muestra es un problema en n´meros enteros. Este problema o utambi´n ocurre en estratificaci´n, que es un caso particular del muestreo equilibrado. En e oestratificaci´n con afijaci´n proporcional, las sumas de las probabilidades de inclusi´n o o oen los estratos no son por lo general enteras. As´ el tama˜o de las muestras en los ı, nestratos es obtenido por el redondeo de la suma de probabilidades de inclusi´n en los oestratos. El m´todo del cubo lo hace de forma autom´tica y redondeo al azar, de tal e aforma que se garantice que las probabilidades de inclusi´n sean exactamente satisfechas. o6.9.6. Principales Implementaciones de muestreo equilibrado Una implementaci´n en SAS-IML ha sido programado por tres estudiantes de la o´Ecole Nationale de la Statistique et de l’Analyse de l’Information (ENSAI) (Bousabaaet al., 1999). Una versi´n oficial hecha porTardieu (2001); Rousseau and Tardieu (2004) oest´ disponible en la p´gina web del INSEE. Otra versi´n en SAS-IML hecha por a a oChauvet and Till´ (2005b,a, 2006, 2007) est´ tambi´n disponible en la p´gina web de la e a e aUniversidad de Universidad de Neuchˆtel. En lenguaje R, el paquete (Till´ and Matei, a e2007) permite usar el m´todo del cubo. Todos estos programas son libres, disponible esobre el Internet y muy f´ciles de usa. a Estos programas escritos en lenguaje R o en SAS-IML no tienen l´ ımites para eltama˜o de la poblaci´n. Una aplicaci´n con 40 variables auxiliares es posible. El tiempo n o o 2de c´lculo aumenta de N × p , donde N es el tama˜o de la poblaci´n y p es el numero a n ode variables de equilibrio. Por eso, se puede seleccionar una muestra en una poblaci´node varios millones de unidades. 46
  • 53. Bibliograf´ ıa ´Ardilly, P. (1991). Echantillonnage repr´sentatif optimum ` probabilit´s in´gales. An- e a e e ´ nales d’Economie et de Statistique, 23:91–113.Bardaji, J. (2001). Un an apr`s la sortie d’un contrat emploi consolid´ : pr`s de six e e e chances sur dix d’avoir un emploi. Premi`res Informations Synth`ses, Direction de e e l’Animation de la Recherche des Etudes et des Statistiques (DARES) du Minist`re e du Travail des relations sociales et de la solidarit´, 43. 3:1–8. eBasu, D. (1971). An essay on the logical foundations of survey sampling. In Godambe, V. P. and Sprott, D. A., editors, Foundations of Statistical Inference, pages 203–233, Toronto. Holt, Rinehart and Winston.Bebbington, A. C. (1975). A simple method of drawing a sample without replacement. Applied Statistics, 24:136.Bertrand, P., Christian, B., Chauvet, G., and Grosbras, J.-M. (2004). Plans de sondage pour le recensement r´nov´ de la population. In S´ries INSEE M´thodes: Actes des e e e e Journ´es de M´thodologie Statistique, Paris. INSEE. e eBiggeri, L. and Falorsi, P. D. (2006). A probability sample strategy for improving the quality of the consumer price index survey using the information of the business register. In Proceedings of the Conference of European Statisticians Group of Experts on Consumer Price Indices, Eighth Meeting, Geneva, 10-12 May 2006.Bousabaa, A., Lieber, J., and Sirolli, R. (1999). La macro cube. Technical report, ENSAI, Rennes.Brewer, K. R. W. (1975). A simple procedure for πpswor. Australian Journal of Statistics, 17:166–172.Brewer, K. R. W. and Hanif, M. (1983). Sampling with Unequal Probabilities. Springer, New York.Chauvet, G. and Till´, Y. (2005a). e Fast SAS Macros for balanc- ing Samples: user’s guide. Software Manual, University of Neuchˆtel, a http://www2.unine.ch/statistics/page10890.html.Chauvet, G. and Till´, Y. (2005b). New SAS macros for balanced sampling. In Journ´es e e de M´thodologie Statistique, INSEE, Paris. e 47
  • 54. Chauvet, G. and Till´, Y. (2006). A fast algorithm of balanced sampling. Journal of e Computational Statistics, 21:9–31.Chauvet, G. and Till´, Y. (2007). Application of the fast sas macros for balancing e samples to the selection of addresses. Case Studies in Business, Industry and Gov- ernment Statistics, 1:173–182.Chen, S. X., Dempster, A. P., and Liu, J. S. (1994). Weighted finite population sampling to maximize entropy. Biometrika, 81:457–469.Christine, M. (2006). Use of balanced sampling in the framework of the master sample for french household surveys. In Joint Statistical Meeting of the American Statistical Association, Seattle August 2006.Christine, M. and Wilms, L. (2003). Theoretical and practical problems in constructing the MSX: how can the precision of regional extensions of national surveys be im- proved through additional sampling? In Proceedings of Statistics Canada Symposium 2003 Challenges in Survey Taking for the Next Decade, Ottawa.da Silva, A. D., da Silva Borges, A., Aires Leme, R., and Moura Reis Miceli, A. P. (2006). Modalidades alternativas de censo demogr´fico: o cen´rio internacional a a a partir das experiˆncias dos estados unidos, fran¸a, holanda, israel e alemanha. Tech- e c nical report, Instituto Brasileiro de Geografia e Estat´ıstica.D’Al`, M., Di Consiglio, L., Falorsi, S., and Solari, F. (2006). Small area estimation of o the italian poverty rate. Statistics in Transition, 7:771–784.Desplanques, G. (2000). La r´novation du recensement de la population. In Actes e de la s´ance du 5 octobre 2000 du s´minaire m´thodologique SFDS-INSEE sur la e e e r´novation du recensement, pages 2–5. eDessertaine, A. (2006). Sondages et s´ries temporelles : une application pour la pr´vi- e e sion de la consommation ´lectrique. In Actes des journ´es Fran¸aises de Statistique e e c 2006, Clamart, France.Dessertaine, A. (2007). Sampling and data-stream: Some ideas to built balanced sam- pling using auxiliary Hilbertian informations. In Proceedings of 56th the International Statistical Institute Conference: IPM56 - New methods of sampling, Liboa, Portugal.Deville, J.-C. (1999). Variance estimation for complex statistics and estimators: lin- earization and residual techniques. Survey Methodology, 25:193–204.Deville, J.-C. (2000). Note sur l’algorithme de Chen, Dempster et Liu. Technical report, CREST-ENSAI, Rennes.Deville, J.-C., Grosbras, J.-M., and Roth, N. (1988). Efficient sampling algorithms and balanced sample. In COMPSTAT, Proceedings in Computational Statistics, pages 255–266, Heidelberg. Physica Verlag. 48
  • 55. Deville, J.-C. and Till´, Y. (1998). Unequal probability sampling without replacement e through a splitting method. Biometrika, 85:89–101.Deville, J.-C. and Till´, Y. (2004). Efficient balanced sampling: The cube method. e Biometrika, 91:893–912.Deville, J.-C. and Till´, Y. (2005). Variance approximation under balanced sampling. e Journal of Statistical Planning and Inference, 128:569–591.Dumais, J., Bertrand, P., and Kauffmann, B. (2000). Sondage, estimation et pr´cision e dans la r´novation du recensement de la population. In Actes de la s´ance du 5 octobre e e 2000 du s´minaire m´thodologique SFDS-INSEE sur la r´novation du recensement, e e e pages 6–26.Dumais, J. and Isnard, M. (2000). Le sondage de logements dans les grandes communes dans le cadre du recensement r´nov´ de la population. In S´ries INSEE M´thodes: e e e e Actes des Journ´es de M´thodologie Statistique, volume 100, pages 37–76, Paris. e e INSEE.Durr, J.-M. and Dumais, J. (2001). La r´novation du recensement fran¸ais. In Recueil e c du Symposium 2001 de Statistique Canada, Ottawa.Durr, J.-M. and Dumais, J. (2002). Redesign of the french census of population. Survey Methodology, 28:43–49.Even, K. (2002). Improved tool for evaluating employment and vocational train- ing policy : panel of beneficiaries. Premi`res Informations Synth`ses, Direction de e e l’Animation de la Recherche des Etudes et des Statistiques (DARES) du Minist`ree du Travail des relations sociales et de la solidarit´, 33. 1:1–7. eFan, C. T., Muller, M. E., and Rezucha, I. (1962). Development of sampling plans by using sequential (item by item) selection techniques and digital computer. Journal of the American Statistical Association, 57:387–402.Fuller, W. A. (2007). Some design properties of a rejective sampling procedure. Tech- nical report, Department of Statistics, Iowa State University.Gabler, S. (1990). Minimax Solutions in Sampling from Finite Populations, volume 64. Springer, New York.H´jek, J. (1981). Sampling from a Finite Population. Marcel Dekker, New York. aHansen, M. H. and Hurwitz, W. N. (1943). On the theory of sampling from finite populations. Annals of Mathematical Statistics, 14:333–362.Hedayat, A. S. and Majumdar, D. (1995). Generating desirable sampling plans by the technique of trade-off in experimental design. Journal of Statistical Planning and Inference, 44:237–247. 49
  • 56. Lesage, E. (2008). Contraintes d’´quilibrage non lin´raires. In Guilbert, P., Haziza, e e D., Ruiz-Gazen, A., and Till´, Y., editors, M´thodes d’enquˆtes : applications aux e e e enquˆtes longitudinales, ` la sant´ et aux enquˆtes ´lectorales, pages 285–289, Paris. e a e e e Dunod.Madow, W. G. (1949). On the theory of systematic sampling, II. Annals of Mathe- matical Statistics, 20:333–354.Mar´ G., Barbar´, G., Mitas, G., and Passamonti, S. (2007a). Construcci´n de un ı, a o estimador de variancia para muestras balanceadas estratificadas. In XXXV Coloquio Argentino de Estad´stica. Mar del Plata, Argentina. 22, 23 y 24 de Octubre de 2007. ıMar´ G., Barbar´, G., Mitas, G., and Passamonti, S. (2007b). Muestras equilibradas en ı, a poblaciones finitas: un estudio comparativo en muestras de explotaciones agropecua- e ¨ rias. In Und´cimas Jornadas Investigaciones en la Facultad”de Ciencias Econ´micas o y Estad´ ıstica, noviembre de 2007, Universidad Nacional de Rosario, Argentina.Nedyalkova, D. and Till´, Y. (2009). Optimal sampling and estimation strategies under e linear model. Biometrika, 95:521–537.Neyman, J. (1934). On the two different aspects of representative method: The method of stratified sampling and the method of purposive selection. Journal of the Royal Statistical Society, 97:558–606.Rousseau, S. and Tardieu, F. (2004). La macro SAS CUBE d’´chantillonnage ´quilibr´, e e e Documentation de l’utilisateur. Technical report, INSEE, PARIS.Royall, R. M. (1976a). Likelihood functions in finite population sampling theory. Biometrika, 63:605–614.Royall, R. M. (1976b). The linear least squares prediction approach to two-stage sampling. Journal of the American Statistical Association, 71:657–664.Royall, R. M. and Herson, J. (1973a). Robust estimation in finite populations I. Journal of the American Statistical Association, 68:880–889.Royall, R. M. and Herson, J. (1973b). Robust estimation in finite populations II: Stratification on a size variable. Journal of the American Statistical Association, 68:890–893. ´Tardieu, F. (2001). Echantillonnage ´quilibr´: de la th´orie ` la pratique. Technical e e e a report, INSEE, Paris.Thionet, P. (1953). La th´orie des sondages. INSEE, Imprimerie nationale, Paris. eTill´, Y. (2001). Th´orie des sondages: ´chantillonnage et estimation en populations e e e finies. Dunod, Paris.Till´, Y. (2006). Sampling Algorithms. Springer, New York. e 50
  • 57. Till´, Y. and Favre, A.-C. (2004). Co-ordination, combination and extension of optimal e balanced samples. Biometrika, 91:913–927.Till´, Y. and Favre, A.-C. (2005). Optimal allocation in balanced sampling. Statistics e and Probability Letters, 74:31–37.Till´, Y. and Matei, A. (2007). The R Package Sampling. The Comprehensive R e Archive Network, http://cran. r-project. org/, Manual of the Contributed Packages.Valliant, R., Dorfman, A. H., and Royall, R. M. (2000). Finite Population Sampling and Inference: A Prediction Approach. Wiley, New York.Wilms, L. (2000). Pr´sentation de l’´chantillon-maˆ en 1999 et application au tirage e e ıtre des unit´s primaires par la macro cube. In S´ries INSEE M´thodes: Actes des e e e Journ´es de M´thodologie Statistique, Paris. INSEE. e eYates, F. (1949). Sampling Methods for Censuses and Surveys. Griffin, London. 51
  • 58. EUSKAL ESTATISTIKA ERAKUNDEA INSTITUTO VASCO DE ESTADÍSTICAwww.eustat.es