• Save
HLM  final project
Upcoming SlideShare
Loading in...5
×
 

HLM final project

on

  • 1,328 views

 

Statistics

Views

Total Views
1,328
Views on SlideShare
1,328
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

HLM  final project  HLM final project Document Transcript

  • HLM FINAL PROJECT By 임현숙, 신철균, 고은희 Class: Multivariate Analyses Instructor: Park, Hyun Jung Semester: Fall Semester 2007 1
  • HLM Question 11. 데이터에 사용된 변수들에 대한 설명 Variable Name DescriptionStudent level (Level 1)MATH ACHIEVEMENT A measure of mathematics achievement (mean=12.75, sd=6.88) A standardized scale constructed from variables measuring parentalSES education, occupation, and incomeMINORITY An indicator for student ethnicity (1=minority, 0 =others)FEMALE An indicator for student gender (1=female, 0=male)School level (Level 2)SIZE School enrollmentSECTOR 1= Catholic, 2=PublicPRACAD Proportion of students in the academic trackDISCLIM A scale measuring disciplinary climateHIMNTY 1=More than 40% minority enrollment, 0=less than 40% Mean of the SES values for the students in this school who are included inMEANSES the level-1 file2. 기술통계(1) Level 1(i) 기술통계량Minority에 따른 Math achievement의 기술통계량 (평균, 표준편차, 왜도, 첨도 등)은 다음과같다. [표 1] Minority에 따른 Math Achievement의 기술통계 minority Statistic Std. Error mathach 0 Mean 13.88239 .092219 Variance 44.316 Std. Deviation 6.657021 Skewness -.331 .034 Kurtosis -.789 .068 2
  • 1 Mean 9.75288 .147363 Variance 42.867 Std. Deviation 6.547308 Skewness .190 .055 Kurtosis -.825 .110(ii) 변수 분포 3 5,321 2 1 0 -1 -2 4,599 5,009 4,899 -3 6,033 -4 ses minority female원 자료의 분포가 제대로 되어 있는지, 결측치가 존재하는지 확인을 하기 위해 각 변수들에대한 box-plot 도표와 잔차 도표를 구한 결과, 3 개의 outlier값들 (case 번호 4899, 5321,6033)이 관찰되었다. 가설 검증을 위한 데이터 사례수 가 충분하므로 여기서는 보다 정확한추정을 위해 이 3 개의 outlier 값을 제거하고 분석을 시작하였다.(ⅲ) 정규성 검증 [표 2] Minority에 따른 Math Acheivement의 정규성 검증 Kolmogorov-Smirnov(a) Shapiro-Wilk minority Statistic df Sig. Statistic df Sig. mathach 0 .058 5211 .000 1 .054 1974 .000 .980 1974 .000a Lilliefors Significance Correction 3
  • [표 3] Female에 따른 Math Achievement의 정규성 검증 Kolmogorov-Smirnov(a) Shapiro-Wilk female Statistic df Sig. Statistic df Sig. mathach 0 .059 3390 .000 .965 3390 .000 1 .047 3795 .000 .980 3795 .000a Lilliefors Significance Correction[표 2]와 [표 3] 결과 정규성 영가설이 기각되어 정규성 가정을 만족시키지 못하는 것으로나타났다. 하지만, 일반적으로 표본의 수가 어느 정도 많은 경우, 잔차에 대한 분포가정규분포를 따르지 않더라도, 종모양의 비슷한 형태를 나타내기만 한다면 정규성 가정이 1만족되지 못하더라도 심각한 문제가 발생하지 않는다 . 실제, 빈도분석 결과, 전반적으로종모양의 형태를 띠는 것으로 나타났으므로 정규성 가정에 문제가 없다고 판단을 내리고분석을 진행하였다.(iv) 등분산성 검증 [표 4] Minority에 따른 Math Achievement의 등분산성 검증 Levene Statistic df1 df2 Sig. mathach Based on Mean 1.034 1 7183 .309 Based on Median .765 1 7183 .382 Based on Median and with .765 1 7178.133 .382 adjusted df Based on trimmed mean .875 1 7183 .350[표 4] 결과, Minority에 따른 Math Achievement의 등분산성에 대한 영가설이 지지되었으므로등분산성 조건을 만족시켰다.1 이군희 (2000). 사회과학 연구방법론, 법문사 4
  • [표 5] Female에 따른 Math Achievement의 등분산성 검증 Levene Statistic df1 df2 Sig.mathach Based on Mean 13.411 1 7183 .000 Based on Median 11.710 1 7183 .001 Based on Median and with 11.710 1 7150.795 .001 adjusted df Based on trimmed mean 12.547 1 7183 .000반면, Female에 따른 Math Achievement의 등분산성 검증은 영가설이 기각되어 등분산성조건을 만족시키지 못하였으므로 차후 위계적 선형 모형에서 Female 변수의 분산을이질적으로 설정하고 분석하고자 한다.Var (rij ) = σ ij and log(σ ij ) = α 0 + α 1 ( FEMALEij ) 2 2 [표 6] Comparison of Homogeneous and Heterogeneous Level-1 Variance Models for Mathematics Achievement(i) Results for Homogeneous Variance Model Standard Approx. Fixed Effect Coefficient Error T-ratio d.f. P-valueFor INTRCPT1, B0 INTRCPT2, G00 12.629710 0.135239 93.388 155 0.000 SECTOR, G01 0.618126 0.372608 1.659 155 0.099 PRACAD, G02 3.184714 0.905697 3.516 155 0.001 HIMINTY, G03 -1.121324 0.343665 -3.263 155 0.002 MEANSES, G04 3.841524 0.486533 7.896 155 0.000 For MINORITY slope, B1 INTRCPT2, G10 -3.090744 0.255884 -12.079 155 0.000 SECTOR, G11 2.493258 0.709652 3.513 155 0.001 PRACAD, G12 -0.754729 1.616671 -0.467 155 0.641 HIMINTY, G13 0.167364 0.544001 0.308 155 0.759 MEANSES, G14 -0.258677 0.810272 -0.319 155 0.750 For FEMALE slope, B2 INTRCPT2, G20 -1.104894 0.201094 -5.494 155 0.000 SECTOR, G21 0.238812 0.560862 0.426 155 0.670 PRACAD, G22 0.295424 1.368173 0.216 155 0.830 5
  • HIMINTY, G23 0.270330 0.492444 0.549 155 0.583 MEANSES, G24 0.193189 0.735303 0.263 155 0.793 For SES slope, B3 INTRCPT2, G30 1.906945 0.111868 17.046 155 0.000 SECTOR, G31 -1.070634 0.305571 -3.504 155 0.001 PRACAD, G32 -0.356812 0.743293 -0.480 155 0.631 HIMINTY, G33 -0.637234 0.276743 -2.303 155 0.023 MEANSES, G34 0.768704 0.398913 1.927 155 0.055 Random Effect Standard Variance df Chi-square P-value Deviation ComponentINTRCPT1, U0 1.44570 2.09004 95 294.93265 0.000 MINORITY slope, U1 1.12272 1.26050 95 114.12118 0.088 FEMALE slope, U2 0.98975 0.97961 95 119.88884 0.043 SES slope, U3 0.26254 0.06893 95 93.80676 >.500 level-1, R 5.93801 35.25995(ii) Results for Heterogeneous Variance Model Standard Approx. Fixed Effect Coefficient Error T-ratio d.f. P-value For INTRCPT1, B0 INTRCPT2, G00 12.629541 0.132908 95.025 155 0.000 SECTOR, G01 0.626505 0.366152 1.711 155 0.089 PRACAD, G02 3.171302 0.890135 3.563 155 0.001 HIMINTY, G03 -1.125486 0.337690 -3.333 155 0.001 MEANSES, G04 3.839626 0.478031 8.032 155 0.000 For MINORITY slope, B1 INTRCPT2, G10 -3.067982 0.249698 -12.287 155 0.000 SECTOR, G11 2.467170 0.692427 3.563 155 0.001 PRACAD, G12 -0.784022 1.576908 -0.497 155 0.619 HIMINTY, G13 0.079555 0.528302 0.151 155 0.881 MEANSES, G14 -0.219824 0.787487 -0.279 155 0.780 For FEMALE slope, B2 INTRCPT2, G20 -1.100951 0.196065 -5.615 155 0.000 SECTOR, G21 0.211126 0.547923 0.385 155 0.700 6
  • PRACAD, G22 0.373889 1.333972 0.280 155 0.780 HIMINTY, G23 0.275401 0.480888 0.573 155 0.567 MEANSES, G24 0.160079 0.718553 0.223 155 0.824 For SES slope, B3 INTRCPT2, G30 1.921190 0.111235 17.271 155 0.000 SECTOR, G31 -1.111562 0.303874 -3.658 155 0.001 PRACAD, G32 -0.297446 0.739653 -0.402 155 0.688 HIMINTY, G33 -0.633772 0.275030 -2.304 155 0.023 MEANSES, G34 0.749275 0.397081 1.887 155 0.061Random Effect Standard Variance df Chi-square P-value Deviation Component INTRCPT1, U0 1.41086 1.99053 95 294.98419 0.000 MINORITY slope, U1 0.97644 0.95344 95 113.04221 0.100 FEMALE slope, U2 0.86431 0.74703 95 117.72762 0.057 SES slope, U3 0.23885 0.05705 95 94.34888 >.500 Standard Parameter Coefficient Error Z-ratio P-valueINTRCPT1 ,alpha0 3.55983 0.017308 205.680 0.000 FEMALE ,alpha1 -0.17011 0.040660 -4.184 0.000 Number ofModel Parameters Deviance1. Homogeneous level-1 variance 31 46211.4679672. Heterogeneous level-1 variance 32 46193.332169 Chi-square df P-valueModel 1 versus Model 2 18.135798 1 0.000(2) Level 2(i) 기술통계량ELL_ENG 각 집단의 Aggregated Math achievement의 기술통계량 (평균, 표준편차, 왜도,첨도 등)은 다음과 같다. 7
  • 기술통계량 N 평균 표준편차 분산 왜도 첨도 통계량 통계량 통계량 통계량 통계량 표준오차 통계량 표준오차 size 160 1097.8250 629.50643 396278.347 .470 .192 -.555 .381 sector 160 .44 .498 .248 .254 .192 -1.960 .381 pracad 160 .5139 .25590 .065 .266 .192 -.803 .381 disclim 160 -.0151 .97698 .954 .239 .192 -.207 .381 himinty 160 .28 .448 .201 1.017 .192 -.977 .381 meanses 160 -.0002 .41397 .171 -.287 .192 -.394 .381 mathach 160 12.6245 3.11932 9.730 -.279 .192 .007 .381 유효수 (목록별) 160(ii) 변수 분포 1.00 0.50 0.00 -0.50 -1.00 -1.50 sector pracad himinty meanses집단 수준에서도 원 자료의 분포가 제대로 되어 있는지, 결측치가 존재하는지 확인을 하기위해 각 변수들에 대한 box-plot 도표를 구한 결과 결측치가 존재하지 않아 이 데이터를바탕으로 분석을 실시하였다. 8
  • (ⅲ) 정규성 검증 0.30000 Standard Error of Predicted Value 0.25000 0.20000 0.15000 2.00000 4.00000 6.00000 8.00000 10.00000 12.00000 14.00000 16.00000 Mahalanobis Distance위 제시된 Mahalanobis 도표를 보면, level 2 수준에서 전반적으로 정규성 가정을 만족하고있음을 알 수 있다.(iv) 등분산성 검증집단 2 수준에서의 등분산성 검증은 likelihood-ratio test을 통해 검증할 수 있으나,대안적으로 Levene test를 통해서도 검증할 수 있다. 여기서는 likelihood-ratio test 사용법을모르므로 대신 Levene test를 통해 검증하고자 한다.SECTOR, HIMINORITY 각각의 Levene test 결과는 다음과 같이 나타난다 (PREACAD,MEAN SES는 집단 수가 너무 많아 등분산성 검증 실시가 안되어 제시하지 않음). mathach Levene 통계량 자유도1 자유도2 유의확률 .250 1 158 .618 mathach Levene 통계량 자유도1 자유도2 유의확률 1.666 1 158 .199이를 통해, 집단 수준의 등분산성 가정도 만족되었음을 알 수 있다.(3) Level 1 과 Level 2 변수 요약기초통계 결과를 바탕으로, 3 개의 outlier 값들을(level 1 수준) 제거하고 분석을 시작하였으며 9
  • 전반적으로 Level 1, Level 2 모두 선형 모형 가설 검증에 필요한 가정들을 모두 만족시키고있으므로 이 데이터를 기초로 하여 위계적 선형 모형 (HLM) 검증을 시작하였다.3. 위계적 선형 모형 (Hierarchical Linear Model, HLM)(1) 기본 모형 (null model) 설정 및 Intraclass correlationMATHACH ij = β 0 j + rijβ 0 j = γ 00 + µ 0 j위와 같이 기본 모형을 설정하고 이를 토대로 구한 Intraclass correlation 값은 다음과 같다.Intraclass correlation = 8.61431/(8.61431+39.14831)=0.18036즉, 학교간 변량의 차이가 약 18%임을 알 수 있다.(2) Level 1 의 모형 결정(i) Level 1 변수 설정 [표 7] Random Coefficient Model of Mathematics AchievementFixed Effect Coefficient se t RatioSchool Mean Achievement , γ 00 12.635 0.245 51.637Minority Gap, γ 10 -2.930 0.267 -10.956Female, γ 20 -1.128 0.185 -6.097SES, γ 30 1.891 0.121 15.622Random Effect, Variance df χ2 p value Component 8.729 99 924.381 .000Mean Achievement, u0 j 2.429 99 125.395 .038Minority Gap, u1 j 0.725 99 121.728 .060Female, u2 j 0.428 99 113.667 0.149SES, u3 j 35.264Level-1 effect, rijCorrelation Among School Effects Minority Female SES Mean 10
  • AchievementMinority - .013 -.273 -.268Female .013 - -.069 -.123SES -.273 -.069 - .361Mean Achievement -.268 -.123 .361 -Reliability of OLS Regression-Coefficient EstimationsMean Achievement .908Minority Gap .227Female .166SES .178[표 7]에서 제시된 상관관계표 결과, SES(- .361), MINORITY(-.268), FEMALE (-.123) 등의순으로 MATH ACHIEVEMENT와 높은 상관관계를 가짐을 알 수 있다. 따라서, SES를 제일먼저 모형에 입력하고 그 다음이 minority, female 순으로 모형에 입력하였다.(ii) Centering 결정Centering은 집단 평균으로 교정하였다 (group mean centering). 이는, 강상진과 정혜경(2002)이 “연구자가 가장 안정적인 절편 모수 γ 00 를 얻고자 한다면, Level 1 에서 예측변수의중심점을 교정하고 Level 2 예측변수를 전체평균으로 교정하는 방식을 권장한다”는 주장에근거하여 설정하였다 2. 또한, 실제 각 개인들의 예측변수들은 전체 집단보다는 그 개인이속한 집단의 특성에 더 많은 영향을 받으므로 전체평균에 의한 교정보다는 집단평균에 의한교정이 더 적절하다고 판단되어 이 연구에서는 level 1 수준에서는 집단수준의 평균에 의한교정을 적용하였다.(iii) OLS 모수치에 대한 신뢰도 계수 - Random, Non-Random, Fixed 변수 선정Level 1 수준의 변인들을 선정함에 있어서 centering 이외에도 각 변수들을 random, non-random 또는 fixed로 봐야하는지에 대한 결정이 이루어져야 한다. 이를 결정하는 방법 중하나가 OLS 모수치에 대한 신뢰도 계수이다. 계산 결과, Mean Achievement (.908), MinorityGap (.227), Female (.166), 그리고 SES (.178)으로 나타났다 (표 7 참조). 모든 변수들의신뢰도 계수가 .05 보다 크므로 random으로 설정하였다.(3) Level 2 의 모형 결정2 강상진, 정혜경 (2002). 다층모형에서 예측변수 척도의 중심점 교정과 모수추정치의 변화,교육평가 연구, 제 15권 제 2호. 11
  • (i) Level 2 변수 설정Level 2 의 변수를 설정하기 위해 Level 2 수준에서의 탐색적 분석 (Exploratory Analysis)를수행하였다.[표 8] Exploratory Analysis: estimated level-2 coefficients and their standard errors Level-1 Coefficient Potential Level-2 Predictors SIZE SECTOR PRACAD DISCLIM HIMINTY MEANSESINTRCPT1,B0Coefficient -0.000 2.564 7.503 -1.350 -2.400 5.375Standard Error 0.000 0.402 0.643 0.203 0.463 0.334t value -1.290 6.372 11.668 -6.647 -5.177 16.112분석 결과, 가장 많은 영향을 미치는 변수가 meanses (16.112), pracad (11.668), disclaim(-6.647), sector(6.372), himinty(-5.177), size(-1.290) 순이다. size는 영향이 극히 작으므로변수에서 제외한다. 그리고, sector와 disclim의 상관이 -.712 로서 절대값 .70 을 넘으므로disclim을 삭제해주는 것이 바람직하다. 나머지 변수들의 상관은 .70 이하이므로 모두 level2 의 모형에 투입하였다. 결과적으로 level 2 수준에 포함되는 변수들은 meanses, pracad,sector, himinty으로 결정하였다.위와 같은 level 1 과 level 2 수준 각각의 변인들을 기반으로 다음과 같은 연구모형을설정하였다.Level 1Yij = β 0 j + β1 j ( SES ) ij + β 2 j ( MINORITY ) ij + β 3 j ( FEMALE ) ij + rij .Level 2β 0 j = γ 00 + γ 01 ( SECTOR ) ij + γ 02 ( PRACAD) ij + γ 03 ( HIMINTY ) ij + γ 04 ( MEAN SES ) ij + u 0 jβ 1 j = γ 10 + γ 11 ( SECTOR) ij + γ 12 ( PRACAD) ij + γ 13 ( HIMINTY ) ij + γ 14 ( MEAN SES ) ij + u1 jβ 2 j = γ 20 + γ 21 ( SECTOR) ij + γ 22 ( PRACAD) ij + γ 23 ( HIMINTY ) ij + γ 24 ( MEAN SES ) ij + u 2 jβ 3 j = γ 30 + γ 31 ( SECTOR) ij + γ 32 ( PRACAD) ij + γ 33 ( HIMINTY ) ij + γ 34 ( MEAN SES ) ij + u 3 j(4) Level 1 에서의 specification issue 12
  • [표 9] Confounding Effects of Minority With Fixed Effects of Minority Original Model Estimates Added Fixed Effect Coefficient Standard Error Coefficient Standard Error Model for school mean, B0j INTERCEPT, G00 12.632 0.140 12.632 0.141 MEAN SES, G01 4.478 0.446 4.477 0.446 PREACAD, G02 3.485 0.726 3.49 0.726 Model for FEMALE slope, B1j INTERCEPT, G10 -1.081 0.197 -1.132 0.193 MEAN SES, G11 0.035 0.674 0.053 0.661 PREACAD, G12 0.745 1.159 0.695 1.137 Model for SES slope, B2j INTERCEPT, G20 2.179 0.119 1.944 0.117 MEAN SES, G21 1.374 0.381 1.316 0.370 PREACAD, G22 -2.689 0.612 -2.461 0.594 Model for Minority slopes, B3j INTERCEPT, G30 -2.892 0.220Condition 1: Minority변수를 제거한 모형과 Minority 변수를 fixed effect로 추가하여 본 모형두개를 비교했을 때, 후자 모형의 coefficient값이 전자 모형에 비해 줄어듬을 알 수 있다.이는 Minority와 SES간 상관이 있기 때문이다. 그러므로, Minority를 제거해서는 안된다. [표 10] Random Coefficient Regression of Minority on SES Model Yij=B0j+Bij(SES)ij+rij where Yij=minority of student I in school j Boj=G00+U0j Bij=G01+U1j Fixed Effect Coefficient Standard Error T-ratio Mean intercept, G00 0.275 0.024 11.535 Mean SES slope, G01 -0.080 0.010 -8.450 13
  • Random Effect Variance Component df Chi-square P-value Intercept, U0j 0.088 159 6518.94 0.000 SES slope, U1j 0.009 159 440.324 0.000 Exploratory Regressions of B*ij on MEAN SES and PREACAD Coefficient Standard Error Approximate t-to-Enter MEAN SES 0.021 0.014 1.432 PREACAD 0.033 0.023 1.421Condition 2: Random coefficient regression model 결과, Mean SES slope인 G01 는 매우유의미한 값을 가진다. (t= -8.450) 그러므로 Minority는 원래 존재하는 SES와 관계를 가지고있기 때문에 제거해서는 안된다.Condition 3: SES와 Minority간 관계가 학교마다 차이가 있음이 나타났으며 [Var(U1j)=.009,p=.000] 이 기울기는 MEAN SES나 PREACAD와 같은 다른 학교수준의 변수들과 유의미한관계를 가짐을 보임으로써 Minority는 모형에서 제거해서는 안되는 것을 다시 한번검증하였다.(5) Level 2 에서의 specification issue Original Model Specification Test Mean SES missing Estimates (Fixed ses slope) Fixed Effect Coefficient se Coefficient se Coefficient se Model for school mean, B0j INTERCEPT, G00 12.630 0.133 12.619 0.158 12.619 0.158 SECTOR, G10 0.627 0.366 0.339 0.435 0.339 0.434 PREACAD, G02 3.171 0.890 7.464 0.853 7.460 0.853 HIMINTY, G03 -1.125 0.338 -2.339 0.359 -2.343 0.358 MEAN SES, G04 3.840 0.478 For MINORITY slope, B1j INTERCEPT, G10 2.467 0.692 -3.066 0.250 -3.089 0.250 SECTOR, G11 -3.068 0.250 2.476 0.693 2.479 0.692 PREACAD, G12 -0.784 1.577 -0.914 1.577 -0.818 1.573 HIMINTY, G13 0.080 0.528 0.111 0.528 0.037 0.527 MEAN SES, G14 -0.220 0.787 -0.106 0.788 -0.207 0.782 14
  • For FEMALE slope, B2j INTERCEPT, G20 -1.101 0.196 -1.099 0.197 -1.102 0.198 SECTOR, G20 0.211 0.548 0.267 0.550 0.260 0.553 PREACAD, G22 0.275 0.481 -0.456 1.333 -0.510 1.339 HIMINTY, G23 0.374 1.334 0.511 0.481 0.544 0.484 MEAN SES, G24 0.160 0.719 0.902 0.713 0.912 0.715 For SES slope, B3j INTERCEPT, G30 1.921 0.111 1.921 0.111 1.907 0.109 SECTOR, G30 -0.634 0.275 -1.126 0.304 -1.157 0.298 PREACAD, G32 -0.297 0.740 -0.086 0.740 0.482 0.604 HIMINTY, G33 -1.112 0.304 -0.693 0.275 -0.870 0.241 MEAN SES, G34 0.749 0.397 0.559 0.397MEAN SES 가 부적절하게 빠졌다고 가정했을 때, Original 모델과 ses를 missing 한 값의sector, pracad, himinty 값의 차이가 발생하므로 mean ses를 뺐을 때 misspecification이발생함을 알 수 있다.Ses slope를 fix시켰을 때는 se가 거의 유사함을 알 수 있다. 그것은 intercept와 slope 간서로 상관이 0 이라고 가정했기 때문이다.(6) Robust standard errors의 의미 및 진단 결과일반 standard errors는 가정이 만족되었다고 가정하고 검증하는 반면 Robust standarderrors는 가정을 고려하지 않고 검증을 한다. 만약 Robust standard error와 그냥 standarderror 값의 차이가 크면 해당 가정을 위배하는 것을 의미하며, 반대로 그 값들의 차이가크지 않으면 가정을 위배하지 않았다는 것을 보여준다.이 자료 분석 결과 일반 standard error 결과와 Robust standard error 결과간 차이는 거의존재하지 않으므로 모든 분석은 가정을 모두 위배하지 않음을 알 수 있다 3.(7) MLR versus MLF일반적으로, 사례수가 작은 경우 (size <30), MLF보다 MLR이 더 현실적이지만 사례수가클 경우에는 이 둘간 차이가 작아진다. MLF에 비해 MLR는 variance components의추정치는 고정 효과에 대한 불확실성을 조정해주므로 이 자료에서는 MLR을 채택하여분석하였다.3 일반 standard error 결과와 robust standard error 결과간 차이가 거의 존재하지 않으므로표로 제시하지 않음 15
  • (8) 여러 모형의 단계별 설명 변량 (proportion reduction)이 자료에서는 크게 3 단계를 거쳐 자료를 검증하였다.1 단계: Null model (unconditional model)2 단계: Random coefficient regression model3 단계: Intercepts and slopes as outcomes model각 모형의 단계별 설명 변량은 식 4.12 를 통해 다음과 같이 계산하였다.Null model  Random coefficient regression model (level 1 수준)Proportion of variance explained = (39.1413-35.29426)/ 39.1413=.098Random coefficient regression model  Intercepts and slopes as outcomes model (level2 수준)Proportion of variance explained = (8.6776 - 1.99538)/ 8.6776 =.77 16
  • HLM Question 21. 데이터에 사용된 변수들에 대한 설명 Variable Name DescriptionRepeated-Observations Model (Level 1)TIME 0=Fall 2003, 1=Winter 2004, 2=Spring 2004MATH ACHIEVEMENT Mathematics test scores (mean=122.64, sd=36.44)Person-Level Model (Level 2)ELL_ENG 0=Native, 1=Non Native2. 기술통계(1) Level 1(i) 기술통계량Time 0,1, & 2 각 시점의 Math achievement의 기술통계량 (평균, 표준편차, 왜도, 첨도 등)은다음과 같다. [표 6] Level 1 의 기술통계 time Statistic Std. Error Math achievement 0 Mean 109.60 2.941 Variance 1400.975 Std. Deviation 37.430 Skewness -.238 .191 Kurtosis .246 .379 1 Mean 124.56 2.804 Variance 1273.876 Std. Deviation 35.691 Skewness .004 .191 Kurtosis -.201 .379 2 Mean 131.52 2.851 Variance 1316.363 Std. Deviation 36.282 Skewness .105 .191 Kurtosis -.330 .379[표 1]을 살펴보면, 전반적으로 Time 0, 1, & 2 각 시점마다의 Math Achievement 점수의분포가 정상분포를 이루고 있음을 알 수 있다. 17
  • (ii) 변수 분포 250 Normal Q-Q Plot of fall cbm score, wrc for time= 0 200 3 fall cbm score, wrc 2 150 Expected Normal 1 100 0 -1 50 312 -2 61 0 196 118 -3 0 1 2 0 50 100 150 200 250 time Observed Value원 자료의 분포가 제대로 되어 있는지에 대한 확인을 위해 Time 0, 1, & 2 각 시점마다 box-plot 도표와 잔차도표를 구한 결과, 3 개의 outlier 값들이 (case 번호 61, 118, 196)관찰되었다. 가설 검증을 위한 데이터의 사례수가 충분하므로 여기서는 보다 정확한 추정을위해 이 3 개의 값을 제거하고 분석을 시작하였다.(ⅲ) 정규성 검증 [표 7] Level 1 의 정규성 검증 time Kolmogorov-Smirnov(a) Shapiro-Wilk Statistic df Sig. Statistic df Sig. Math 0 .033 162 .200(*) .990 162 .282 achievement 1 .030 162 .200(*) .997 162 .975 2 .055 162 .200(*) .990 162 .345* This is a lower bound of the true significance.a Lilliefors Significance Correction[표 2] 결과, Time 0, 1, & 2 각 시점마다 Shapiro-Wilk의 Sig. 값이 각각 .282, .975그리고 .345 로 영가설이 지지되어 정규성 가정을 만족시키는 것으로 나타났다. 18
  • (iv) 등분산성 검증 [표 8] Level 1 의 등분산성 검증 Levene Statistic df1 df2 Sig. Math achievement Based on Mean 1.499 2 477 .224 Based on Median 1.270 2 477 .282 Based on Median and 1.270 2 463.719 .282 with adjusted df Based on trimmed 1.394 2 477 .249 mean등분산성 검증 역시 [표 3] 결과를 통해 지지되었음을 알 수 있다.(2) Level 2(i) 기술통계량ELL_ENG 각 집단의 Aggregated Math achievement의 기술통계량 (평균, 표준편차, 왜도,첨도 등)은 다음과 같다. [표 9] Level 2 의 기술통계 ell_eng Statistic Std. Error Aggregated Math .00 Mean 144.0600 5.36540 achievement Variance 1439.377 Std. Deviation 37.93913 Skewness -.716 .337 Kurtosis .143 .662 1.00 Mean 113.0208 2.63800 Variance 779.412 Std. Deviation 27.91796 Skewness -.146 .228 Kurtosis -.172 .453 19
  • (ii) 변수 분포 210.00 Normal Q-Q Plot of mathach 180.00 for ell_eng= .00 4 150.00 mathach 2 Expected Normal 120.00 0 90.00 104 60.00 -2 104 30.00 -4 .00 1.00 50 100 150 200 ell_eng Observed Value집단 수준에서도 원 자료의 분포가 제대로 되어 있는지에 대한 확인을 위해 ell-english 각집단마다(native vs. non-native)의 mean math acheivement에 대한 box-plot 도표와잔차도표를 구한 결과, 1 개의 outlier 값이 (case 번호 104) 관찰되었다. 가설 검증을 위한데이터의 사례수가 충분하므로 여기서는 보다 정확한 추정을 위해 이 1 개의 값 또한제거하고(level 1 에서는 총 3 개 case 제거) 분석을 시작하였다.(ⅲ) 정규성 검증 [표 10] Level 2 의 정규성 검증 ell_eng Kolmogorov-Smirnov(a) Shapiro-Wilk Statistic df Sig. Statistic df Sig. Aggregated Math .00 .162 50 .002 .953 50 .043 achievement 1.00 .050 112 .200(*) .996 112 .983* This is a lower bound of the true significance.a Lilliefors Significance Correction[표 5] 결과, ell-english 각 집단마다 Shapiro-Wilk의 Sig. 값이 각각 .043, .983 으로 나타나non-native집단의 경우에는 정규성 가정이 지지된 반면 native집단은 정규성 가정을만족시키지 못하는 것으로 나타났다. 하지만, 일반적으로 표본의 수가 어느 정도 많은 경우, 20
  • 잔차에 대한 분포가 정규분포를 따르지 않더라도, 종모양의 비슷한 형태를 나타내기만 4한다면 정규성 가정이 만족되지 못하더라도 심각한 문제가 발생하지 않는다 . 실제,빈도분석 결과, 전반적으로 종모양의 형태를 띠는 것으로 나타났으므로 정규성 가정에문제가 없다고 판단을 내리고 분석을 진행하였다.(iv) 등분산성 검증 [표 11] Level 2 의 등분산성 검증 Levene Statistic df1 df2 Sig. Aggregated Math Based on Mean 1.035 1 160 .310 achievement Based on Median .640 1 160 .425 Based on Median and with adjusted .640 1 143.971 .425 df Based on trimmed .879 1 160 .350 mean Level 1 과 마찬가지로 Level 2 의 등분산성 검증 역시 [표 6] 결과를 통해 지지되었음을 알수 있다.(3) Level 1 과 Level 2 변수 요약기초통계 결과를 바탕으로, 6 개의 outlier 값들을(level 1 수준) 제거하고 분석을 시작하였으며전반적으로 Level 1, Level 2 모두 선형 모형 가설 검증에 필요한 가정들을 모두 만족시키고있으므로 이 데이터를 기초로 하여 위계적 선형 모형 (HLM) 검증을 시작하였다.3. 위계적 선형 모형 (Hierarchical Linear Model, HLM) – Individual Change Model(1) Time 변이에 대한 설정 방법 제시하기이 자료에서는 각 개인의 수학성적 점수를 Fall 2003, Winter 2004, 그리고 Spring 2004 년세 번에 걸쳐 측정하였으므로 첫번째 측정 시점인 Fall 2003 을 기준으로 삼아 Fall 2003 을0, Winter 2004 을 1, Spring 2004 를 2 로 설정하였다.4 이군희 (2000). 사회과학 연구방법론, 법문사 21
  • (2) 1 차 함수 vs. 2 차 함수 결정일반적으로 각 개인별 관찰 시점 갯수가 적을 때는 (예를 들면, 3, 4 개의 시점) 1 차 5선형함수를 사용하는 것이 더 유용하다 . 또한, 실제로 개인 변화(성장) 모형에서는[측정시점 총 갯수-2] 함수가 사용가능하다. 현재 자료에서는 측정 시점이 3 개밖에없으므로 1 차 선형함수를 채택하고자 한다.선형 성장 모형은 다음과 같다.Level 1Yti = π 0i + π 1i ati + etiLevel 2 Q0π 0i = β 00 + ∑ β 0 q X qi + r0i q =1 Q1π 1i = β10 + ∑ β1q X qi + r1i q =1(3) A Random-Coefficient Regression Model – unconditional model기초 모형은 각 개인의 수학성적은 시간에 의해 영향을 받으며(Level 1 모형) 개인간 차이는없다고 상정하고 모형을 설정하였다. 이 때, Time은 0 자체를 이미 초기시점인 Fall2003 으로 설정을 하였으므로 시점 변수를 centering를 하지 않아도 되므로 여기서 Time변수는 uncentered로 설정하였다.Level 1MATHACH ti = π 0i + π 1i (TIMEti ) + etiLevel 2π 0i = β 00 + r0iπ 1i = β10 + r1iHLM 결과는 아래 [표 7]과 같다.5 Raudenbush & Bryk (2002). Ch. 6 Applications in the Study of Individual Change, HierarchicalLinear Models: Applications and Data Analysis Methods, 2nd edition, Thousand Oaks, SagePublications. 22
  • [표 12] 수학성적의 선형 성장 모형 – unconditional model Fixed Effect Coefficient Standard Error T-ratio INTRCPT2, β 00 112.489538 2.710107 41.507 INTRCPT2, β10 10.024796 0.616192 16.269 Random Effect Variance Component df Chi-square P-value INTRCPT1, r0i 1092.30226 161 1994.36828 0.000 TIME slope, r1i 3.54503 161 170.85796 0.282 level-1, eti 114.32684 Reliability of OLS Regression Coefficient Estimate Initial status π 0i 0.90525105 Growth rate π 1i 0.030075284(i) Mean Growth Trajectory[표 7]의 고정효과 결과를 통해, 초기 평균 수학성적(B00)이 112.489538 점이며 각 개인의수학성적은 시점이 1 씩 증가할수록(한 학기마다) 10.024796 만큼 증가함을 알 수 있다.(ii) Individual Variation in Growth Trajectories개인간 분산은 무선효과 결과를 통해 알 수 있다. 개인 성장 모수인 π 0i , π 1i 의 분산추정치는 각각 1092.30226, 3.54503 이다. 3 장에서 제시되어 있듯이 개인들의 변화(성장)모수의 변화가 없다는 것을 검증하기 위해 χ 2 검증을 한 결과, 절편인 r0i 는 1994.36828(df= 161, p<.000)이다. 이는, 영가설을 기각하므로 각 개인은 초기 시점(Time 0 시점)에서그들의 수학성적은 유의미하게 차이가 있음을 알 수 있다. 이와 반대로 개인의 변화(성장)률영가설에 (i.e. H0: π 1i = 0) 대한 χ2 값은 170.85796 으로 영가설이 지지되어 개인의변화(성장)률이 유의미한 차이가 없음을 보여주었다 (df=161, p<.282). 이는, 초기 수학성적은 개인간 차이에 의해 더 설명될 수 있는 부분이 있는 반면, 변화 기울기는 시점에의해 모두 설명이 되어졌다는 의미로 해석할 수 있다.(iii) Reliability of Initial Status and Change초기 수학성적과 개인 변화(성장)률에 대한 신뢰도는 식 6.7 을 통해각각 .90525105 과 .030075284 로 나타났다 (표 7 참조). 이는 이 자료에서 초기수학성적에서만 개인간 차이가 있음을 보여주고 있으므로 초기 수학성적(절편)은 23
  • 개인수준의 변수에 의해 영향을 받은 것으로 해석할 수 있다.(iv) Correlation of Change with Initial Status선형 개인 변화(성장) 모형에서는 이들 변수들간 상관관계는 식 6.8 을 통해 구할 수 있다.여기서는 실제 변화와 실제 초기 수학성적 상태간 상관관계 추정치는 .282 이다. 이는 초기시점에 보다 높은 수학성적을 가진 개인이 보다 빠른 속도로 수학성적이 향상된다는 의미로앞서 언급한 것과 같이 π 0i 는 시점 변수인 Timeti 에 영향을 받음을 다시 확인할 수 있다.(4) An Intercepts- and Slopes-as-Outcomes ModelLevel 1 모형은 unconditional model에서 설정한 식 그대로 유지하고 여기서는 ell-english라는 level 2 수준의 변수 (더미변수로 0 = native, 1=non-native를 지칭)를 추가하였다.이를 바탕으로 다음과 같이 모형을 설정하였다. 이 때, ELL-ENGLISH에서 0 은 non-native임을 나타내므로 x 절편이 0 일 때의 값이 non-native인 사람들의 수학성적을나타내므로 centering을 하지 않아도 되므로 uncentered하여 모형에 추가하였다. 반면,π 1i 에는 앞서 Time에 의해 모두 설명되었으므로 여기서는 slope에는 개인수준 변수인 ELL-ENGLISH를 포함하지 않았다.Level 1MATHACH ti = π 0i + π 1i (TIMEti ) + etiLevel 2π 0i = β 00 + β 01 ( ELL _ ENG ) i + r0iπ 1i = β10 + r1i [표 13] 수학성적의 선형 성장 모형 – ELL-ENGLISH 효과 Fixed Effect Coefficient Standard Error T-ratio Approx. d.f. P-value Model for initial status, π 0i INTRCPT2, β 00 133.927113 5.344405 25.059 160 0.000 ELL_ENG, β 01 -31.025648 5.920476 -5.24 160 0.000 Model for growth rate, π 1i INTRCPT2, β10 10.032149 0.613825 16.344 161 0.000[표 8]은 고정효과 추정치를 나타내고 있다. 여기서 ELL-ENGLISH의 t값은 -.5.24 로 초기수학성적과 비교적 높은 상관관계를 보이고 있다. 평균적으로 영어가 모국어인 사람들보다영어가 모국어가 아닌 사람들의 초기 수학성적이 31.03 정도 낮은 것으로 나타났다. 24
  • [표 14] ELL_ENGLISH 결과의 초기 수학성적과 성장(변화)률의 설명 변량 Model Initial Status Var. Growth Rate Var.Unconditional 1092.30226 3.54503Conditional on Ell-English 892.98716 3.69333Propotions of variance explained 18.25% -4.18%[표 9]는 이 모형의 무선호과의 분산 추정치를 제시하고 있으며 이를 기초모형(unconditionalmodel)에서 나타난 분산 추정치와 비교한 결과를 제시해주고 있다. 식 4.24 에 의하여설명된 분산 비율 (the proportion of variance explained)를 구하면 ELL-ENGLISH가 초기수학성적의 분산 모수치의 18.25%를 설명해주고 있다.[표 8]과 [표 9]를 종합해볼 때, ELL-ENGLISH 변수가 개인들의 초기 수학성적에 영향을미치는 것을 알 수 있다. 즉, ELL-ENGLISH 변인을 투입하는 것이 보다 효과적이었다. 25