More Related Content More from Nghiên Cứu Định Lượng
More from Nghiên Cứu Định Lượng (20) Hướng dẫn sử dụng STATA1. 1
Sö dông ch−¬ng tr×nh Stata 8
néi dung
Ch−¬ng I: Giíi thiÖu chung vÒ ch−¬ng tr×nh Stata .................................................................. 2
1. Tæ chøc l−u tr÷ d÷ liÖu trong Stata (Dataset in Stata)..........................................................2
2. Khëi ®éng v tho¸t khái Stata (Open and exit) ...................................................................3
3. Giao diÖn Stata 7 (Stata interface).......................................................................................3
4. Biªn b¶n l m viÖc (log file)............................................... Error! Bookmark not defined.
5. NhËp v l−u d÷ liÖu (Use, input and and save)....................................................................6
Ch−¬ng II: Khai th¸c d÷ liÖu...................................................................................................... 8
1. CÊu tróc lÖnh trong Stata (Stata command syntax)..............................................................8
2.To¸n tö v h m sè (Operators and functions) ....................................................................11
3. M« t¶ d÷ liÖu (Data reporting)...........................................................................................12
4. Biªn tËp v söa ch÷a d÷ liÖu (Data manipulation).............................................................25
5. QuyÒn sè trong VHLSS (Weight)......................................................................................38
Ch−¬ng III: KiÓm ®Þnh gi¶ thiÕt v ph©n tÝch håi quy........................................................... 43
1. ¦íc l−îng v kiÓm ®Þnh gi¶ thiÕt (Estimation and hypothesis testing).............................43
2. Ph©n tÝch t−¬ng quan v håi quy (Correlation and regression) ........................................49
Ch−¬ng IV: VÏ ®å thÞ................................................................................................................ 55
1. VÏ ®å thÞ (graph)...............................................................................................................55
2. Mét sè lo¹i ®å thÞ th−êng dïng .........................................................................................64
3. L−u tr÷ v hiÓn thÞ ®å thÞ (Saving and graph using)..........................................................71
Ch−¬ng V: LËp tr×nh trong Stata ............................................................................................ 73
1. Giíi thiÖu chung vÒ ch−¬ng tr×nh do-file ..........................................................................73
2. Local v global macros .....................................................................................................77
3. TÝch v« h−íng v ma trËn (scalar and matrix)...................................................................80
4. LÖnh ®iÒu kiÖn v vßng lÆp ...............................................................................................82
5. Giíi thiÖu vÒ file ado.........................................................................................................84
T i liÖu tham kh¶o..................................................................................................................... 85
Phô lôc........................................................................................................................................ 85
2. 2
Ch−¬ng I: Giíi thiÖu chung vÒ ch−¬ng tr×nh Stata 8
1. Tæ chøc l−u tr÷ d÷ liÖu trong Stata (Dataset in Stata)
Stata l phÇn mÒm thèng kª sö dông ®Ó qu¶n lý, ph©n tÝch sè liÖu v vÏ ®å thÞ. Stata cho phÐp l−u tr÷
th«ng tin vÒ c¸c ®Æc ®iÓm cña c¸c ®èi t−îng nghiªn cøu. Sè liÖu l−u tr÷ trong Stata cã thÓ ®−îc hiÓn thÞ
d−íi d¹ng b¶ng nh− vÝ dô sau:
maho tenchuho quymoho thunhapbq
101 Nguyen Van A 6 2100
102 Le Thi B 5 3210
103 Tran Van C 10 1200
Quan s¸t (observation)
Mçi mét h ng ngang cña b¶ng sè liÖu ®−îc gäi l mét quan s¸t, hay mét b¶n ghi (record) l−u tr÷ sè
liÖu vÒ mét ®èi t−îng nghiªn cøu. ë vÝ dô trªn cã 3 quan s¸t l−u tr÷ sè liÖu vÒ M hé (maho); Tªn chñ
hé (tenchuho); Quy m« hé (quymoho); Thu nhËp b×nh qu©n (thunhapbq) cña 3 hé gia ®×nh.
BiÕn (variable)
Th«ng tin vÒ ®èi t−îng nghiªn cøu ®−îc thu thËp v l−u tr÷ theo c¸c ®Æc ®iÓm cña chóng. C¸c ®Æc ®iÓm
n y ®−îc gäi l biÕn. BiÕn ®−îc xem l c¸c cét cña b¶ng sè liÖu. ë vÝ dô trªn cã 4 biÕn, víi tªn l
maho, tenchuho, quymoho, v thunhapbq. Tªn biÕn d i tõ 1 ®Õn 32 ký tù, ®−îc b¾t ®Çu ch÷ hoÆc dÊu
g¹ch d−íi (_). Tªn biÕn chØ bao gåm ch÷, sç v dÊu g¹ch d−íi. C¸c ký tù ®Æc biÖt kh¸c kh«ng thÓ dïng
®Ó ®Æt tªn cho biÕn.
BiÕn x¸c ®Þnh (identifying variables)
Th«ng th−êng trong c¸c biÕn sÏ cã c¸c biÕn dïng ®Ó nhËn d¹ng quan s¸t, ®−îc gäi l biÕn x¸c ®Þnh.
Nhê cã c¸c biÕn x¸c ®Þnh n y m c¸c quan s¸t cã thÓ ph©n biÖt ®−îc víi nhau. Mçi mét quan s¸t cã
mét gi¸ trÞ cña c¸c biÕn n y. ë vÝ dô trªn, biÕn x¸c ®Þnh l maho, ®èi víi mçi mét quan s¸t biÕn maho
nhËn mét gi¸ trÞ.
C¸c ®Æc ®iÓm cña biÕn
C¸c biÕn cã thÓ ®−îc g¸n nh n (chó thÝch). VÝ dô biÕn maho cã thÓ ®−îc g¸n nh n l “M hé”.
BiÕn cã thÓ ®−îc ®Þnh d¹ng (format) l biÕn sè v biÕn ký tù víi c¸c lo¹i l−u tr÷ kh¸c nhau. BiÕn sè cã
thÓ l−u tr÷ d−íi lo¹i byte; int; long; float; double. Cßn biÕn ký tù th× cã thÓ l−u tr÷ d−íi d¹ng str1 ®Õn
str80 cho c¸c ®é d i kh¸c nhau.
KiÓu l−u tr÷
d¹ng sè
Dung l−îng
(Byte)
Gi¸ trÞ nhá nhÊt Gi¸ trÞ lín nhÊt KiÓu
byte 1 -127 126 Sè nguyªn
int 2 -32,767 32,766 Sè nguyªn
long 4 -2,147,483,647 2,147,483,646 Sè nguyªn
float 4 -10^36 10^36 Sè thùc
double 8 -10^308 10^308 Sè thùc
C¸c biÕn sè cã thÓ bao gåm c¸c biÕn rêi r¹c v liªn tôc. C¸c biÕn nh− l quy m« hé gia ®×nh, giíi tÝnh
chñ hé, vïng ®Þa lý, tr×nh ®é gi¸o dôc l c¸c biÕn rêi r¹c (discrete) (hay cßn gäi l biÕn ph©n lo¹i
3. 3
(categorical)). C¸c biÕn n y cã thÓ ®−îc l−u tr÷ d−íi d¹ng byte, int, v long. C¸c biÕn liªn tôc
(continuous) nh− thu nhËp, chi tiªu cña hé th× l−u tr÷ d−íi d¹ng float hoÆc double.
BiÕn ký tù (string) dïng ®Ó l−u tr÷ c¸c lo¹i ký tù. VÝ dô biÕn tenchuho l biÕn kiÓu ký tù dïng ®Ó l−u
tr÷ tªn cña chñ hé.
KiÓu l−u tr÷
d¹ng ch÷
Byte §é d i lín nhÊt
str1 1 1
str2 2 2
...
str80 80 80
2. Khëi ®éng v tho¸t khái Stata (Open and exit)
Stata ®−îc khëi ®éng t−¬ng tù nh− c¸c ch−¬ng tr×nh tin häc øng dông kh¸c, b»ng c¸ch kÝch v o biÓu
t−îng cña tÖp wstata.exe trong Windows explorer, hoÆc chän b»ng c¸ch chän Start -> Program ->
Stata. Ch−¬ng tr×nh ®−îc tho¸t ra b»ng lÖnh exit tõ cöa sæ lÖnh Stata Command, hoÆc tuú chän exit
trong thùc ®¬n (menu) File.
3. Giao diÖn Stata 8 (Stata interface)1
Sau khi Stata ®−îc khëi ®éng, giao diÖn cña Stata sÏ ®−îc hiÖn lªn, bao gåm thanh thùc ®¬n (menu bar)
ë trªn cïng, d−íi ®ã l thanh c«ng cô (tool bar) v c¸c cöa sæ (windows).
4. 4
C¸c cöa sæ cña Stata
C¸c cöa sæ cña Stata ®−îc më ra b»ng viÖc lùa chän c¸c tuú chän ë thanh thùc ®¬n Windows (menu
bar). C¸c cöa sæ n y bao gåm:
Results HiÓn thÞ c¸c lÖnh v kÕt qu¶
Graph HiÓn thÞ ®å thÞ
Viewer HiÓn thÞ cöa sæ trî gióp (help) v hiÓn thÞ néi dung c¸c file v¨n b¶n (text)
Command Dïng ®Ó gâ c¸c c©u lÖnh
Review HiÓn thÞ c¸c lÖnh ® thùc hiÖn
Variables HiÓn thÞ danh s¸ch c¸c biÕn cña tÖp sè liÖu
Data editor HiÓn thÞ v söa ch÷a sè liÖu d−íi d¹ng b¶ng
Do-file editor HiÓn thÞ cöa sæ ®Ó so¹n th¶o ch−¬ng tr×nh
Thanh thùc ®¬n (Menu bar)
B»ng c¸ch kÝch v o thanh thùc ®¬n v c¸c tuú chän trong ®ã, Stata sÏ thùc hiÖn c¸c lÖnh kh¸c nhau.
Thanh thùc ®¬n bao gåm c¸c nhãm lÖnh sau ®©y:
File
Open Më file sè liÖu
View Xem c¸c file cña Stata trong cöa sæ Viewer
Save L−u file sè liÖu
Save as L−u file sè liÖu d−íi tªn míi
File name Chän tªn file ®Ó ®−a v o cöa sæ lÖnh
Log §ãng, më, xem l¹i log file
Save graph L−u gi÷ file ®å thÞ
Print graph In ®å thÞ
Print results In kÕt qu¶
Exit Tho¸t khái Stata
Edit
Copy text Sao chÐp v¨n b¶n (text)
Copy tables Sao chÐp b¶ng biÓu
Paste D¸n
Table copy options Lùa chän sao chÐp b¶ng sè liÖu
Graph copy options Lùa chän sao chÐp ®å thÞ (kh«ng cã trong Stata 7)
5. 5
Prefs C¸c tuú chän vÒ m u s¾c, ph«ng ch÷, v kÝch cì
Windows
Results Më cöa sæ kÕt qu¶
Graph Më cöa sæ ®å thÞ
Log Më cöa sæ log file
Viewer Më cöa sæ trî gióp (help) v xem néi dung file
Command Më cöa sæ c©u lÖnh
Review Më cöa sæ c¸c lÖnh ® thùc hiÖn
Variables Më cöa sæ danh s¸ch c¸c biÕn cña tÖp sè liÖu
Help/Search Më cöa sæ trî gióp (help)
Data editor Më cöa ®Ó xem sè liÖu l−u tr÷ d−íi d¹ng b¶ng
Do-file editor Më cöa sæ viÕt ch−¬ng tr×nh
Help C¸c trî gióp liªn quan ®Õn viÖc sö dông Stata
Thanh c«ng cô (tool bar)
C¸c tuú chän trªn thanh c«ng cô ®−îc thiÕt kÕ ®Ó thùc hiÖn c¸c lÖnh th«ng dông cña Stata. NÕu chóng
ta di chuyÓn con trá ®Õn c¸c nót n y th× sÏ hiÖn lªn c¸c c©u huíng dÉn, bao gåm:
Open (use) Më file sè liÖu Stata
Save L−u tr÷ file sè liÖu ra ®Üa
Print results In néi dung cña cöa sæ kÕt qu¶
Begin log Më, ®ãng v xem néi dung cña file log
Start viewer Më cöa sæ trî trî (help)
Bring Dialog Window to font §−a cöa sæ hép tho¹i ra phÝa tr−íc
Bring Result Window to font §−a cöa sæ kÕt qu¶ ra phÝa tr−íc
Bring Graph Window to font §−a cöa sæ vÏ ®å thÞ ra phÝa tr−íc
Do-file editor Më cöa sæ so¹n th¶o ch−¬ng tr×nh
Data editor Më cöa sæ söa ch÷a sè liÖu
Data browser Më cöa sæ xem sè liÖu
Clear –more- condition T¾t lÖnh more
Break Dõng viÖc thùc hiÖn lÖnh hoÆc ch−¬ng tr×nh
6. 6
4. NhËp v l−u d÷ liÖu (Use, input and and save)
Më tÖp sè liÖu ®ang cã:
TÖp sè liÖu Stata cã thÓ ®−îc më b»ng lùa chän Open trªn thùc ®¬n File; hoÆc nót Open (use) trªn
thanh c«ng cô tool bar.
NÕu file sè liÖu cã dung l−îng lín th× chóng ta ph¶i thiÕt lËp bé nhí cÇn dïng cho Stata b»ng lÖnh:
set memory #[k|m]
VÝ dô:
set mem 32m
set mem 32000k
NhËp sè liÖu
Cã mét sè c¸ch ®Ó nhËp sè liÖu tõ b n phÝm v o bé nhí cña Stata.
- Sö dông cöa sæ Stata editor ®Ó nhËp sè liÖu. HoÆc tõ cöa sæ command, gâ lÖnh edit. Sau ®ã
nhËp sè liÖu theo kiÓu biÓu b¶ng trong cöa sæ n y.
7. 7
Stata cho phÐp nhËp sè liÖu tõ c¸c file c¬ së d÷ liÖu kh¸c. Tr−íc hÕt c¸c file sè liÖu n y cÇn ®−îc l−u
tr÷ d−íi d¹ng text (cã thÓ b»ng ch−¬ng tr×nh Excel), c¸c quan s¸t ®−îc c¸c nhau 1 dßng v c¸c gi¸ trÞ
c¸ch nhau 1 dÉu phÈy (commas) hoÆc dÊu c¸ch (tab). Sau ®ã dïng lÖnh copy v paste ®Ó nhËp sè liÖu
n y v o Stata.
L−u tr÷ sè liÖu
ViÖc l−u tr÷ sè liÖu cã thÓ thùc hiÖn b»ng c¸c tïy chän Save v Save as ë trong thanh thùc ®¬n (menu
bar); hoÆc nót Save trªn thanh c«ng cô (tool bar).
Chó ý: Xem thªm lÖnh infile v outfile
8. 8
Ch−¬ng II: Khai th¸c d÷ liÖu
1. CÊu tróc lÖnh trong Stata (Stata command syntax)
CÊu tróc c¬ b¶n cña mét lÖnh trong Stata nh− sau:
[by danh s¸ch biÕn:] Có ph¸p lÖnh [danh s¸ch biÕn] [biÓu thøc] [®iÒu kiÖn] [ph¹m vi] [quyÒn sè]
[, tuú chän]
Trong phÇn H−íng dÉn s− dông (Help) cña Stata, có ph¸p lÖnh tr×nh b y b»ng tiÕng Anh nh− sau:
[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]
Trong ®ã dÊu ngoÆc vu«ng ký hiÖu c¸c tuú chän.
Chó ý:
- C¸c c©u lÖnh Stata ®−îc viÕt b»ng ch÷ th−êng.
- §èi víi tªn biÕn, Stata ph©n biÖt ch÷ viÕt th−êng víi ch÷ viÕt hoa. VÝ dô, trong cïng mét tÖp sè
liÖu, biÕn “Ho_ten” v biÕn “ho_ten” l 2 biÕn kh¸c nhau.
- C¸c tuú chän ®−îc ký hiÖu trong dÊu ngoÆc vu«ng [ ]. C¸c tuú chän n y cã thÓ cã hoÆc kh«ng
trong c©u lÖnh. C¸c tham sè b¾t buéc (tªn biÕn) ®−îc ®Æt trong dÊu ngoÆc < >. C¸c c©u lÖnh sÏ
kh«ng thùc hiÖn ®−îc nÕu c¸c tham sè b¾t buéc n y kh«ng ®−îc khai b¸o.
- Mét sè lÖnh Stata cho phÐp viÕt t¾t. VÝ dô lÖnh summarize cã thÓ viÕt t¾t l sum. Trong cuèn
t i liÖu n y phÇn g¹ch ch©n d−íi có ph¸p cña c©u lÖnh l có ph¸p “viÕt t¾t” cña c©u lÖnh ®ã.
- C¸c vÝ dô trong cuèn t i liÖu n y sö dông sè liÖu §iÒu tra Møc sèng d©n c− n¨m 1998 do Tæng
côc Thèng kª tiÕn h nh. Trong ®ã TÖp chi tiªu tæng hîp Hhexp98n.dta th−êng xuyªn ®−îc sö
dông.
by danh s¸ch biÕn (by varlist): Stata sÏ thùc hiÖn c©u lÖnh víi theo tõng gi¸ trÞ ®−îc chØ ra bëi danh
s¸ch biÕn. BiÕn ®−îc chØ ra bëi danh s¸ch biÕn ®−îc yªu cÇu s½p xÕp tr−íc khi thùc hiÖn lÖnh.
VÝ dô:
. sort sex
. by sex: sum rlpcex1
-> sex = 1
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
rlpcex1 | 4375 2980.906 2430.648 357.318 45801.71
-> sex = 2
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
rlpcex1 | 1624 3748.368 3231.241 376.9805 30624.77
9. 9
Dïng thanh c«ng cô menu bar
Danh s¸ch biÕn (varlist)
ChØ ra danh s¸ch c¸c biÕn chÞu t¸c ®éng cña c©u lÖnh. NÕu nh− kh«ng cã biÕn n o ®−îc chØ ra th× lÖnh
Stata sÏ cã t¸c dông lªn tÊt c¶ c¸c biÕn (all variables)
VÝ dô:
. sum hhsize sex reg7
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
hhsize | 5999 4.752292 1.954292 1 19
sex | 5999 1.270712 .4443645 1 2
reg7 | 5999 4.01917 2.145305 1 7
. sum
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
househol | 5999 19617.86 11201.92 101 38820
year | 5999 97.94666 .2247337 97 98
month | 5999 6.340723 3.011082 1 12
10. 10
LÖnh sum n y hiÓn thÞ thèng kª c¬ b¶n cña tÊt c¶ c¸c biÕn trong tÖp sè liÖu.
§iÒu kiÖn (if exp)
Stata chØ thùc hiÖn c©u lÖnh ®èi víi c¸c quan s¸t m gi¸ trÞ cña nã cho kÕt qu¶ cña biÓu thøc l ®óng.
VÝ dô:
. sum poor if reg7==1
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
poor | 859 .4982538 .5002882 0 1
LÖnh n y chØ cã t¸c dông ®èi víi c¸c quan s¸t m biÕn reg7 cã gi¸ trÞ b»ng 1.
Ph¹m vi (in range)
ChØ ra ph¹m vi c¸c quan s¸t chÞu t¸c ®éng cña c©u lÖnh. Range (ph¹m vi) cã thÓ cã c¸c d¹ng sau:
sum poor in 10 TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t 10 (chÝnh b»ng gi¸
trÞ cña biÕn poor t¹i quan s¸t thø 10)
sum poor in 10/100 TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t tõ 10 ®Õn 100
sum poor in f/100 TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t tõ ®Çu tiªn ®Õn 100
sum poor in 100/l TÝnh gi¸ trÞ trung b×nh cña biÕn poor cho quan s¸t tõ thø 100 ®Õn quan
s¸t cuèi cïng
QuyÒn sè (weight)
Cho phÐp tÝnh to¸n sñ dông quyÒn sè. Tuú chän vÒ quyÒn sè sÏ ®−îc tr×nh b y kü ë môc 5 cña ch−¬ng
n y.
C¸c tuú chän (Options)
NhiÒu c©u lÖnh Stata cho phÐp c¸c tuú chän riªng. C¸c tuú chän n y ®−îc chØ ra sau dÊu phÈy.
VÝ dô:
LÖnh sum cã tuú chän l detail, cho phÐp tÝnh to¸n thªm mét sè thèng kª kh¸c ngo i gi¸ trÞ trung b×nh
v ®é lÖnh chuÈn.
. sum rlpcex1, detail
comp.M&Reg price adj.pc tot exp
-------------------------------------------------------------
Percentiles Smallest
1% 682.9575 357.318
5% 1012.433 366.2792
10% 1238.088 376.9805 Obs 5999
25% 1671.054 381.3502 Sum of Wgt. 5999
50% 2397.042 Mean 3188.667
Largest Std. Dev. 2692.567
75% 3711.917 26944.64
90% 5940.803 30624.77 Variance 7249918
11. 11
95% 8045.32 31066.5 Skewness 3.791027
99% 14163.04 45801.71 Kurtosis 29.21398
Chó ý:
- Stata cho phÐp viÕt t¾t c¸c lÖnh v tïy chän. Trong t i liÖu n y, phÇn g¹ch ch©n d−íi c¸c lÖnh
cã nghÜa l lÖnh ®ã cã thÓ viÕt t¾t b»ng ký tù trong phÇn g¹ch ch©n n y. VÝ dô nh− lÖnh use cã
nghÜa l cã thÓ ®−îc viÕt t¾t bëi u.
- Có ph¸p cña c¸c c©u lÖnh trong t i liÖu n y ®−îc viÕt b»ng tiÕng Anh, cho phÐp ng−êi ®äc cã
thÓ ®èi chiÕu víi phÇn h−íng dÉn sö dông trong Stata.
2.To¸n tö v h m sè (Operators and functions)
C¸c to¸n tö (operators)
C¸c to¸n tö trong Stata ®−îc ký hiÖu nh− sau:
Ký hiÖu ý nghÜa
Sè häc
+ Céng
- Trõ
* Nh©n
/ Chia
^ Luü thõa
Quan hÖ
> Lín h¬n
< Nhá h¬n
>= Lín h¬n hoÆc b»ng
<= Nhá h¬n hoÆc b»ng
== B»ng
~= Kh«ng b»ng (kh¸c)
!= Kh«ng b»ng (kh¸c)
L«gÝc
~ Kh«ng
| HoÆc
& V
Chó ý:
Trong biÓu thøc dÊu == ®−îc dïng cho viÖc kiÓm ®Þnh biÓu thøc, vÝ dô nh− ®−îc dïng sau lÖnh if. Cßn
dÊu = ®−îc dïng cho lÖnh t¹o biÕn.
VÝ dô:
gen RRD=0
replace RRD=1 if reg8==1
12. 12
C¸c h m sè (function)
H m sè th−êng ®−îc dïng trong biÓu thøc (exp) cña c©u lÖnh Stata. NÕu coi Y l mét h m sè cña f(X1,
X2,…, Xn) th× lÖnh vÒ h m sè trong Stata sÏ tÝnh gi¸ trÞ cña Y nÕu cho c¸c gi¸ trÞ cña Xi. Stata cã 8 lo¹i
h m sè:
Mathematical functions
Statistical functions
Random numbers
String functions
Special functions
Date functions
Time-series functions
Matrix functions
C¸c h m to¸n häc
H m thèng kª
H m cho sè ngÉu nhiªn
H m liªn quan ®Õn dÉy ký tù
H m ®Æc biÖt
H m ng y th¸ng
H m chuçi thêi gian
H m ma trËn
VÝ dô:
gen absx=abs(x)
gen log_exp=log(rlpcex1)
C¸c ký hiÖu cô thÓ vÒ c¸c h m sè n y cã thÓ xem ë môc help functions.
3. M« t¶ d÷ liÖu (Data reporting)
3.1. Xo¸ bé nhí cña Stata
Có ph¸p:
clear
LÖnh n y xo¸ c¸c d÷ liÖu trong bé nhí cña Stata, b¾t ®Çu cho mét file l m viÖc míi.
3.2. H−íng dÉn sö dông lÖnh Stata
Có ph¸p:
help <C©u lÖnh Stata>
LÖnh n y hiÓn thÞ h−íng dÉn sö dông c¸c lÖnh Stata, lÖnh Stata cÇn ph¶i ®−îc gâ ®Çy ®ñ v chÝnh x¸c.
VÝ dô:
. help sum
help for sum not found
try help contents or search sum
. help summarize
-----------------------------------------------------------------------------------------
help for summarize (manual: [R] summarize)
-----------------------------------------------------------------------------------------
Summary statistics
13. 13
….
Chó ý:
Chóng ta cã thÓ t×m h−íng dÉn sö dông theo tõ kho¸ b»ng lÖnh search. LÖnh search cã thÓ ®−îc thùc
hiÖn b»ng tuú chän Search ë thùc ®¬n help.
Chóng ta còng cã thÓ dïng cöa sæ lÖnh b»ng menu bar
3.3. M« t¶ d÷ liÖu
Có ph¸p:
describe [danh s¸ch biÕn]
LÖnh n y hiÓn thÞ th«ng tin chung nh− tªn biÕn, ®Þnh d¹ng, nh n biÕn cña c¸c biÕn ®−îc liÖt kª bëi
danh s¸ch biÕn cña file sè liÖu ®ang më. NÕu nh− kh«ng cã biÕn n o ®−îc chØ ra th× lÖnh describe sÏ
hiÖn thÞ th«ng tin cña tÊt c¶ c¸c biÕn.
VÝ dô:
. des househol year month vlssmphs
storage display value
variable name type format label variable label
-------------------------------------------------------------------
------------
househol long %12.0g household code
14. 14
year float %9.0g Year of interview
month float %9.0g Month of interview
vlssmphs byte %8.0g 1 if vlss, 2 if mphs
source
3.4. HiÓn thÞ gi¸ trÞ cña c¸c biÕn
Có ph¸p:
list [danh s¸ch biÕn] [®iÒu kiÖn] [ph¹m vi] [, nolabel]
LÖnh n y hiÓn thÞ gi¸ trÞ cña c¸c biÕn ®−îc chØ ra bëi danh s¸ch biÕn. Tuú chän nolable cho phÐp hiÓn
thÞ gi¸ trÞ sè chø kh«ng ph¶i l gi¸ trÞ g¸n nh n.
VÝ dô:
. list househol farm in 1/5
househol farm
1. 36307 farm
2. 28002 farm
3. 36017 farm
4. 32418 non farm
5. 15215 non farm
. list househol farm in 1/5, nolabel
househol farm
1. 36307 1
2. 28002 1
3. 36017 1
4. 32418 0
5. 15215 0
3.5. Söa ch÷a, xem sè liÖu
Có ph¸p:
edit [danh s¸ch biÕn] [®iÒu kiÖn] [ph¹m vi] [, nolabel]
browse [danh s¸ch biÕn] [®iÒu kiÖn] [ph¹m vi] [, nolabel]
LÖnh edit n y më cöa sæ Data editor ®Ó ng−êi sö dông söa ch÷a, nhËp sè liÖu. Tuú chän nolable cho
phÐp hiÓn thÞ gi¸ trÞ sè chø kh«ng ph¶i l gi¸ trÞ g¸n nh n. LÖnh n y cã thÓ ®−îc chän tõ tuú chän Data
editor trong thanh thùc ®¬n Windows.
LÖnh browse gièng lÖnh edit nh−ng kh«ng cho phÐp söa ch÷a sè liÖu.
3.6. §Õm quan s¸t
Có ph¸p:
count [®iÒu kiÖn] [ph¹m vi]
15. 15
LÖnh n y ®Õm sè quan s¸t ®−îc chØ ra bëi ®iÒu kiÖn (exp) v ph¹m vi (range). NÕu ®iÒu kiÖn (exp) v
ph¹m vi (range) kh«ng ®−îc chØ ra th× sÏ hiÖn thÞ sè quan s¸t cña tÖp sè liÖu.
VÝ dô:
. count
5999
. count if reg7==1
859
. count if reg7==1 & urban98==1
187
. count if reg7==1 & urban98==0
672
3.7. Thèng kª c¬ b¶n
Có ph¸p:
summarize [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, detail]
LÖnh n y tÝnh to¸n v hiÓn thÞ nh÷ng thèng kª c¬ b¶n cña c¸c biÕn ®−îc chØ ra bëi danh s¸ch biÕn.
Tuú chän detail cho phÐp hiÓn thÞ thªm mét sè thèng kª nh− ®é nhän, ®é lÖnh v c¸c gi¸ trÞ cña thËp vÞ
ph©n.
VÝ dô:
. sum rlpcex1
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
rlpcex1 | 5999 3188.667 2692.567 357.318 45801.71
. sum rlpcex1, detail
comp.M&Reg price adj.pc tot exp
-------------------------------------------------------------
Percentiles Smallest
1% 682.9575 357.318
5% 1012.433 366.2792
10% 1238.088 376.9805 Obs 5999
25% 1671.054 381.3502 Sum of Wgt. 5999
50% 2397.042 Mean 3188.667
Largest Std. Dev. 2692.567
75% 3711.917 26944.64
90% 5940.803 30624.77 Variance 7249918
95% 8045.32 31066.5 Skewness 3.791027
99% 14163.04 45801.71 Kurtosis 29.21398
16. 16
3.8. HiÓn thÞ th«ng tin chung vÒ biÕn
Có ph¸p:
inspect [danh s¸ch biÕn] [®iÒu kiÖn] [ph¹m vi]
LÖnh n y m« t¶ vÒ sè liÖu cña c¸c biÕn kiÓu sè. Nã ®−a ra th«ng tin vÒ sè ©m, d−¬ng, sè nguyªn, gi¸ trÞ
thiÕu (missing) cña gi¸ trÞ cña biÕn.
VÝ dô:
. gen x=invnorm(uniform())
. inspect x
x: Number of Observations
---- Non-
Total Integers Integers
| # Negative 2964 - 2964
| # Zero - - -
| # Positive 3035 - 3035
| # ----- ----- -----
| # # # Total 5999 - 5999
| . # # # . Missing -
+---------------------- -----
-3.918931 3.641588 5999
(More than 99 unique values)
Chó ý: cã thÓ xem thªm lÖnh codebook
3.9. T¹o b¶ng tÇn suÊt
T¹o b¶ng tÇn suÊt 1 chiÒu
Có ph¸p:
tabulate <tªn biÕn> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, missing nolabel]
tab1 <danh s¸ch biÕn> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, missing nolabel]
LÖnh n y t¹o b¶ng tÇn suÊt 1 chiÒu cña biÕn ®−îc chØ ra. LÖnh tabulate chØ cho phÐp cã 1 biÕn ®−îc chØ
ra, nÕu cã h¬n 1 biÕn ®−îc chØ ra th× Stata sÏ hiÓu l t¹o b¶ng tÇn suÊt 2 chiÒu.
C¸c tuú chän:
missing Cho phÐp c¸c quan s¸t kh«ng cã gi¸ trÞ (missing) ®−îc xÕp v o 1 lo¹i.
nolabel Cho phÐp hiÓn thÞ gi¸ trÞ sè cña biÕn, chø kh«ng ph¶i nh n biÕn
VÝ dô:
. tab sex
Gender of |
HH.head |
(1:M;2:F) | Freq. Percent Cum.
17. 17
------------+-----------------------------------
1 | 4375 72.93 72.93
2 | 1624 27.07 100.00
------------+-----------------------------------
Total | 5999 100.00
. tab1 urban98 reg7
-> tabulation of urban98
1:urban 98; |
0:rural 98 | Freq. Percent Cum.
------------+-----------------------------------
Rural | 4269 71.16 71.16
Urban | 1730 28.84 100.00
------------+-----------------------------------
Total | 5999 100.00
-> tabulation of reg7
Code by 7 |
regions | Freq. Percent Cum.
------------+-----------------------------------
region1 | 859 14.32 14.32
region2 | 1175 19.59 33.91
region3 | 708 11.80 45.71
region4 | 754 12.57 58.28
region5 | 368 6.13 64.41
region6 | 1023 17.05 81.46
region7 | 1112 18.54 100.00
------------+-----------------------------------
Total | 5999 100.00
Chóng ta còng cã thÓ dïng cöa sæ lÖnh b»ng menu bar
18. 18
T¹o b¶ng tÇn suÊt 2 chiÒu
Có ph¸p:
tabulate <tªn biÕn 1> <tªn biÕn 2> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, chi2 missing nofreq cell
column row]
tab2 <danh s¸ch biÕn> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, chi2 missing nofreq cell column row]
LÖnh tablulate n y tÝnh v hiÓn thÞ b¶ng tÇn suÊt 2 chiÒu cña 2 biÕn ®−îc chØ ra. LÖnh tab2 t¹o b¶ng
tÇn suÊt 2 chiÒu cña tõng cÆp biÕn ®−îc chØ ra trong danh s¸ch biÕn.
VÝ dô:
. tab urban98 farm
1:urban | Type of HH (1:farm;
98; | 0:nonfarm)
0:rural 98 | non farm farm | Total
-----------+----------------------+----------
Rural | 1021 3248 | 4269
Urban | 1540 190 | 1730
-----------+----------------------+----------
Total | 2561 3438 | 5999
C¸c tuú chän:
chi2 Thùc hiÖn kiÓm ®Þnh gi¶ thiÕt l hai biÕn ®éc lËp
19. 19
missing Cho phÐp c¸c quan s¸t kh«ng cã gi¸ trÞ ®−îc xÕp v o 1 lo¹i
nofreq Kh«ng hiÓn thÞ tÇn suÊt
cell HiÓn thÞ tÇn suÊt t−¬ng ®èi (tû lÖ %) cña c¸c «
column HiÓn thÞ tÇn suÊt t−¬ng ®èi (tû lÖ %) cña c¸c « theo cét
row HiÓn thÞ tÇn suÊt t−¬ng ®èi (tû lÖ %) cña c¸c « theo h ng
VÝ dô:
. tab reg7 urban98, cell nof
| 1:urban 98; 0:rural
Code by 7 | 98
regions | Rural Urban | Total
-----------+----------------------+----------
region1 | 11.20 3.12 | 14.32
region2 | 13.05 6.53 | 19.59
region3 | 10.00 1.80 | 11.80
region4 | 8.37 4.20 | 12.57
region5 | 6.13 0.00 | 6.13
region6 | 8.57 8.48 | 17.05
region7 | 13.84 4.70 | 18.54
-----------+----------------------+----------
Total | 71.16 28.84 | 100.00
. tab farm urban98, column row
Type of HH | 1:urban 98; 0:rural
(1:farm; | 98
0:nonfarm) | Rural Urban | Total
-----------+----------------------+----------
non farm | 1021 1540 | 2561
| 39.87 60.13 | 100.00
| 23.92 89.02 | 42.69
-----------+----------------------+----------
farm | 3248 190 | 3438
| 94.47 5.53 | 100.00
| 76.08 10.98 | 57.31
-----------+----------------------+----------
Total | 4269 1730 | 5999
| 71.16 28.84 | 100.00
| 100.00 100.00 | 100.00
3.10. T¹o b¶ng thèng kª tæng hîp b»ng lÖnh tabulate…summarize
Có ph¸p:
tabulate <tªn biÕn 1> <tªn biÕn 2> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] , summarize(tªn biÕn 3)
[means standard freq missing ]
LÖnh n y t¹o b¶ng mét hoÆc hai chiÒu ®Þnh nghÜa bëi biÕn 1 hoÆc biÕn 2 v mçi « cho gi¸ trÞ thèng kª
trung b×nh, ®é lÖch chuÈn v tÇn suÊt cña biÕn 3.
VÝ dô:
20. 20
. tab farm urban98, sum(poor)
Means, Standard Deviations and Frequencies of poor
Type of HH | 1:urban 98; 0:rural
(1:farm; | 98
0:nonfarm) | Rural Urban | Total
-----------+----------------------+----------
non farm | .2791381 .06168831 | .14837954
| .44879538 .24066673 | .35554523
| 1021 1540 | 2561
-----------+----------------------+----------
farm | .42302956 .12105263 | .4063409
| .4941161 .32705022 | .49122109
| 3248 190 | 3438
-----------+----------------------+----------
Total | .3886156 .06820809 | .29621604
| .48749275 .25217555 | .45662551
| 4269 1730 | 5999
C¸c tuú chän:
means HiÓn thÞ mçi gi¸ trÞ trung b×nh
standard HiÓn thÞ mçi gi¸ trÞ ®é lÖch chuÈn
freq HiÓn thÞ mçi gi¸ trÞ tÇn suÊt
missing Cho phÐp c¸c quan s¸t kh«ng cã gi¸ trÞ ®−îc xÕp v o 1 lo¹i
VÝ dô:
. replace poor=poor*100
(1777 real changes made)
. format poor %4.2f
. tab reg7 urban98, sum(poor) means
Means of poor
| 1:urban 98; 0:rural
Code by 7 | 98
regions | Rural Urban | Total
-----------+----------------------+----------
region1 | 61.46 8.02 | 49.83
region2 | 32.57 5.87 | 23.66
region3 | 44.83 10.19 | 39.55
region4 | 37.25 11.51 | 28.65
region5 | 47.28 . | 47.28
region6 | 12.45 2.16 | 7.33
region7 | 35.78 10.28 | 29.32
-----------+----------------------+----------
Total | 38.86 6.82 | 29.62
3.11. T¹o b¶ng thèng kª tæng hîp b»ng lÖnh tabstat
Có ph¸p:
21. 21
tabstat <danh s¸ch biÕn> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, statistics(có ph¸p tkª [...]) by(tªn
biÕn) missing format[(%fmt)]]
LÖnh n y tÝnh to¸n c¸c thèng kª cña c¸c biÕn ®−îc chØ ra bëi danh s¸ch biÕn cho tõng gi¸ trÞ cña biÕn
ph©n lo¹i (categorical) ®−îc chØ ra bëi by(tªn biÕn).
Chóng ta còng cã thÓ dïng cöa sæ lÖnh b»ng menu bar
VÝ dô:
. tabstat rlfood rlhhex1, stats(mean median) by(reg7)
Summary statistics: mean, p50
by categories of: reg7 (Code by 7 regions)
reg7 | rlfood rlhhex1
--------+--------------------
region1 | 5595.556 9560.349
| 5350.916 8536.373
-----------------------------
region2 | 6419.427 12951.14
| 5664.145 9997.146
-----------------------------
region3 | 5692.201 10885.38
| 5369.411 9022.334
-----------------------------
region4 | 6512.576 13525.41
22. 22
| 5790.046 11077.51
-----------------------------
region5 | 5894.983 11217.05
| 5380.505 9421.447
-----------------------------
region6 | 9746.158 23515.01
| 8428.743 18514.39
-----------------------------
region7 | 6556.616 13068.11
| 6066.128 11043.99
-----------------------------
Total | 6787.898 14010.74
| 5951.567 10733.19
-----------------------------
C¸c tuú chän:
statistics(statname [...]) ChØ ra thèng kª cÇn tÝnh cho danh s¸ch biÕn
by(tªn biÕn) ChØ ra biÕn ph©n lo¹i (categorical)
Missing Gi¸ trÞ thiÕu (mising) cña biÕn lo¹i ®−îc xem nh− 1 lo¹i
format[(%fmt)] ChØ ra ®Þnh d¹ng cña sè liÖu hiÓn thÞ
Stata cho phÐp c¸c lo¹i thèng kª ®−îc chØ ra bëi statistics(có ph¸p thèng kª [...]) nh− sau:
Có ph¸p thèng kª ý nghÜa
mean Trung b×nh mean
count §Õm sè quan s¸t
n Gièng nh− lÖnh count (§Õm sè quan s¸t)
sum Tæng céng
max Gi¸ trÞ lín nhÊt
min Gi¸ trÞ nhá nhÊt
range Biªn ®é = Gi¸ trÞ lín nhÊt - Gi¸ trÞ nhá nhÊt
sd §é lÖch chuÈn
sdmean §é lÖch chuÈn cña trung b×nh = §é lÖch chuÈn / {(Sè quan s¸t)^0.5}
skewness §é lÖch cña ph©n phèi
kurtosis §é nhän
median Trung vÞ (Gièng nh− p50)
p1 1% ph©n vÞ
p5 5% ph©n vÞ
p10 10% ph©n vÞ
p25 25% ph©n vÞ
p50 50% ph©n vÞ (trung vÞ)
23. 23
p75 75% ph©n vÞ
p90 90% ph©n vÞ
p95 95% ph©n vÞ
p99 99% ph©n vÞ
iqr p75 - p25
q t−¬ng ®−¬ng víi "p25 p50 p75"
VÝ dô:
. tabstat rlpcex1, stats(mean sd q) by(reg7) format(%5.1f)
Summary for variables: rlpcex1
by categories of: reg7 (Code by 7 regions)
reg7 | mean sd p25 p50 p75
--------+--------------------------------------------------
region1 | 2174.8 1265.1 1328.0 1792.1 2710.8
region2 | 3294.0 2511.9 1816.7 2532.5 3822.0
region3 | 2503.3 1918.0 1489.7 2001.2 2808.1
region4 | 2933.7 2260.5 1697.9 2362.2 3471.4
region5 | 2087.3 1285.4 1217.3 1850.8 2700.5
region6 | 5257.5 4005.7 2676.7 4154.1 6431.8
region7 | 2931.1 2137.2 1680.1 2321.9 3414.7
-----------------------------------------------------------
Total | 3188.7 2692.6 1671.1 2397.0 3711.9
-----------------------------------------------------------
3.12. T¹o b¶ng thèng kª tæng hîp b»ng lÖnh table
Có ph¸p:
table <biÕn dßng> [biÕn cét [biÕn cét trªn cïng]] [®iÒu kiÖn] [ph¹m vi] [quyÒn sè] [, contents(néi
dung) row col format(%fmt) missing]
LÖnh n y cho phÐp tÝnh c¸c thèng kª cña c¸c biÕn ®−îc chØ ra trong contents theo d¹ng b¶ng, trong ®ã
c¸c h ng ®−îc ®Þnh nghÜa bëi biÕn dßng, cßn c¸c cét ®−îc ®Þnh nghÜa bëi biÕn cét (v biÕn cét trªn
cïng). C¸c biÕn h ng v cét n y l c¸c biÕn ph©n lo¹i (categorical).
VÝ dô:
. table reg7 urban98 farm, contents(mean poor)
----------------------------------------------------
| Type of HH (1:farm; 0:nonfarm) and
| 1:urban 98; 0:rural 98
Code by 7 | ---- non farm ---- ------ farm ------
regions | Rural Urban Rural Urban
----------+-----------------------------------------
region1 | 19.35484 6.015038 65.7377 12.96296
region2 | 26.66667 4.624278 33.96524 15.21739
24. 24
region3 | 40.98361 10.11236 45.8159 10.52632
region4 | 21.6 11.63793 42.44032 10
region5 | 30.76923 49.24012
region6 | 15.04065 2.195609 10.07463 0
region7 | 38.62816 10.04184 34.35805 11.62791
----------------------------------------------------
C¸c tuú chän:
Contents(néi dung) LiÖt kª danh s¸ch c¸c biÕn v c¸c thèng kª. C¸c ký hiÖu thèng kª t−¬ng tù nh−
ë lÖnh tabstat
row HiÓn thÞ thèng kª tæng cña c¸c dßng
col HiÓn thÞ thèng kª tæng cña c¸c cét
format(%fmt) ChØ ra ®Þnh d¹ng cña sè liÖu hiÓn thÞ
missing Gi¸ trÞ thiÕu (mising) cña biÕn lo¹i ®−îc xem nh− 1 lo¹i
VÝ dô:
. table reg7 urban98 farm, contents(mean poor) row col format(%4.2f)
------------------------------------------------------
| Type of HH (1:farm; 0:nonfarm) and 1:urban
| 98; 0:rural 98
Code by 7 | ----- non farm ---- ------- farm ------
regions | Rural Urban Total Rural Urban Total
----------+-------------------------------------------
region1 | 19.35 6.02 10.26 65.74 12.96 61.45
region2 | 26.67 4.62 11.29 33.97 15.22 32.70
region3 | 40.98 10.11 27.96 45.82 10.53 44.47
region4 | 21.60 11.64 15.13 42.44 10.00 40.81
region5 | 30.77 30.77 49.24 49.24
region6 | 15.04 2.20 6.43 10.07 0.00 9.78
region7 | 38.63 10.04 25.39 34.36 11.63 32.72
|
Total | 27.91 6.17 14.84 42.30 12.11 40.63
------------------------------------------------------
. table urban98 farm, contents(mean poor sd poor) row col format(%4.2f)
----------------------------------------
1:urban |
98; | Type of HH (1:farm;
0:rural | 0:nonfarm)
98 | non farm farm Total
----------+-----------------------------
Rural | 27.91 42.30 38.86
| 44.88 49.41 48.75
|
Urban | 6.17 12.11 6.82
| 24.07 32.71 25.22
|
Total | 14.84 40.63 29.62
| 35.55 49.12 45.66
25. 25
----------------------------------------
. table urban98 farm, contents(mean rlpcex1 mean rlhhex1) row col
format(%4.2f)
----------------------------------------
1:urban |
98; | Type of HH (1:farm;
0:rural | 0:nonfarm)
98 | non farm farm Total
----------+-----------------------------
Rural | 2835.83 2212.12 2361.29
| 13242.03 10120.89 10867.36
|
Urban | 5476.86 3232.17 5230.33
| 22984.44 11903.19 21767.43
|
Total | 4423.95 2268.49 3188.67
| 19100.41 10219.39 14010.74
----------------------------------------
4. Biªn tËp v söa ch÷a d÷ liÖu (Data manipulation)
4.1.T¹o biÕn míi
T¹o biÕn b»ng lÖnh generate
Có ph¸p:
generate <biÕn míi> = biÓu thøc [®iÒu kiÖn] [ph¹m vi]
LÖnh n y cho phÐp t¹o biÕn míi cã gi¸ trÞ b»ng gi¸ trÞ cña biÓu thøc ®−îc chØ ra.
VÝ dô:
. gen poor = 1 if rlpcex1 < 1790
(4222 missing values generated)
. gen nonpoor=1 if rlpcex1 >= 1790
(1777 missing values generated)
LÖnh t¹o biÕn gi¶ tabulate…generate
Có ph¸p:
tabulate <biÕn ph©n lo¹i>, generate(biÕn míi)
LÖnh generate cã thÓ kÕt hîp víi tab ®Ó t¹o c¸c biÕn gi¶ . BiÕn míi t¹o ra sÏ cã d¹ng l “biÕn míi 1”,
“biÕn míi 2”, “biÕn míi 3”, v..v. BiÕn n y chÝnh l c¸c biÕn gi¶ ®−îc t¹o ra trªn c¬ së cña biÕn ph©n
lo¹i.
VÝ dô:
. tab reg7, gen(region)
Code by 7 |
26. 26
regions | Freq. Percent Cum.
------------+-----------------------------------
region1 | 859 14.32 14.32
region2 | 1175 19.59 33.91
region3 | 708 11.80 45.71
region4 | 754 12.57 58.28
region5 | 368 6.13 64.41
region6 | 1023 17.05 81.46
region7 | 1112 18.54 100.00
------------+-----------------------------------
Total | 5999 100.00
. tab1 region1 region2
-> tabulation of region1
reg7==regio |
n1 | Freq. Percent Cum.
------------+-----------------------------------
0 | 5140 85.68 85.68
1 | 859 14.32 100.00
------------+-----------------------------------
Total | 5999 100.00
-> tabulation of region2
reg7==regio |
n2 | Freq. Percent Cum.
------------+-----------------------------------
0 | 4824 80.41 80.41
1 | 1175 19.59 100.00
------------+-----------------------------------
Total | 5999 100.00
ë ®©y biÕn reg7 cã 7 gi¸ trÞ tõ 1 ®Õn 7 t−¬ng øng víi 7 biÕn gi¶ tõ region1 ®Õn region7 sÏ ®−îc t¹o ra.
BiÕn region1 nhËn gi¸ trÞ b»ng 1 nÕu nh− biÕn reg7 nhËn gi¸ trÞ 1, nÕu kh«ng th× b»ng 0. T−¬ng tù biÕn
region7 nhËn gi¸ trÞ 1 nÕu nh− biÕn reg7 b»ng 7.
ë vÝ dô trªn lÖnh tabulate…generate t−¬ng ®−¬ng víi 7 lÖnh sau:
gen region1=(reg7==1)
gen region2=(reg7==2)
…
gen region7=(reg7==7)
T¹o biÕn b»ng lÖnh egen
Có ph¸p:
egen <biÕn míi> = fcn(tham sè) [®iÒu kiÖn] [ph¹m vi] [, by(biÕn)]
LÖnh n y cho phÐp t¹o biÕn míi theo gi¸ trÞ cña h m sè ®−îc chØ ra bëi fcn. BiÕn míi n y sÏ nhËn gi¸
trÞ cè ®Þnh cho mäi quan s¸t. H m sè ë ®©y cã thÓ l :
count(exp) §Õm sè quan s¸t cña biÓu thøc
27. 27
mean(exp) Cho gi¸ trÞ trung b×nh cña biÓu thøc
median(exp) Cho gi¸ trÞ trung vÞ cña biÓu thøc
sd(exp) Cho gi¸ trÞ ®é lÖch chuÈn cña biÓu thøc
C¸c h m sè kh¸c cã thÓ xem ë phÇn help egen.
VÝ dô:
. egen sumexp=sum(rlpcex1)
. sum sumexp
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
sumexp | 5999 1.91e+07 0 1.91e+07 1.91e+07
. egen g=median( food+ nonfood1)
. sum g
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
g | 5999 11063.6 0 11063.6 11063.6
Thay thÕ gi¸ trÞ cña biÕn
Có ph¸p:
replace <biÕn> = biÓu thøc [®iÒu kiÖn] [ph¹m vi]
LÖnh n y thay thÕ gi¸ trÞ cña biÕn hiÖn cã b»ng gi¸ trÞ míi x¸c ®Þnh bëi biÓu thøc exp.
VÝ dô:
replace poor=poor*100
replace pcexp = hhexp/hhsize
T¹o biÕn ph©n lo¹i b»ng lÖnh encode
Có ph¸p:
encode <biÕn> [®iÒu kiÖn] [ph¹m vi], generate(biÕn míi)
LÖnh n y cho phÐp t¹o biÕn ph©n lo¹i míi (categorical) kiÓu sè t−¬ng øng víi c¸c gi¸ trÞ cña biÕn kiÓu
ch÷ chØ ra bëi tªn biÕn (®−îc xÕp theo vÇn ch÷ c¸i).
VÝ dô:
. gen str15(mucsong) = "Kha"
. drop mucsong
. gen mucsong="Rat ngheo"
type mismatch
r(109);
28. 28
. gen str15(mucsong)="Rat ngheo"
. replace mucsong="Ngheo" if rlpcex1<1790 & rlpcex1>1290
(1087 real changes made)
. replace mucsong="Khong ngheo" if rlpcex1>=1790
(4222 real changes made)
. tab mucsong
mucsong | Freq. Percent Cum.
----------------+-----------------------------------
Khong ngheo | 4222 70.38 70.38
Ngheo | 1087 18.12 88.50
Rat ngheo | 690 11.50 100.00
----------------+-----------------------------------
Total | 5999 100.00
. sum mucsong
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
mucsong | 0
. encode mucsong, gen(ma_ms)
. tab ma_ms
ma_ms | Freq. Percent Cum.
------------+-----------------------------------
Khong ngheo | 4222 70.38 70.38
Ngheo | 1087 18.12 88.50
Rat ngheo | 690 11.50 100.00
------------+-----------------------------------
Total | 5999 100.00
. sum ma_ms
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
ma_ms | 5999 1.411235 .6871957 1 3
T¹o biÕn b»ng lÖnh xtile
Có ph¸p:
xtile <biÕn míi> = biÓu thøc [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, nquantiles(#)]
LÖnh n y t¹o biÕn ph©n nhãm cho biÓu thøc theo ph©n vÞ. Trong ®ã nquantiles(#) chØ ra sè l−îng
ph©n vÞ.
VÝ dô: T¹o biÕn ngò vÞ ph©n theo chi tiªu
. xtile quinexp= rlpcex1, nq(5)
. tab quinexp
29. 29
5 quantiles |
of rlpcex1 | Freq. Percent Cum.
------------+-----------------------------------
1 | 1200 20.00 20.00
2 | 1200 20.00 40.01
3 | 1200 20.00 60.01
4 | 1200 20.00 80.01
5 | 1199 19.99 100.00
------------+-----------------------------------
Total | 5999 100.00
. tab quinexp, sum( rlpcex1)
| Summary of comp.M&Reg price adj.pc
5 quantiles | tot exp
of rlpcex1 | Mean Std. Dev. Freq.
------------+------------------------------------
1 | 1184.3975 261.20537 1200
2 | 1803.6331 151.66604 1200
3 | 2408.4867 211.5407 1200
4 | 3390.1065 403.08913 1200
5 | 7160.021 3690.3672 1199
------------+------------------------------------
Total | 3188.6671 2692.5673 5999
4.2.§æi tªn biÕn
Có ph¸p:
rename <tªn biÕn có> <tªn biÕn míi>
LÖnh n y thùc hiÖn viÖc ®æi tªn cò cña mét biÕn sang tªn míi.
VÝ dô:
rename poor nguoingheo
rename rpcexp1 chitieu
4.3. LÖnh xo¸ biÕn, xo¸ quan s¸t
Có ph¸p:
drop <danh s¸ch biÕn> LÖnh n y xo¸ biÕn ®−îc chØ ra bëi danh s¸ch biÕn
drop <®iÒu kiÖn> LÖnh n y xo¸ quan s¸t tho¶ m n ®iÒu kiÖn biÓu thøc
drop <ph¹m vi> [®iÒu kiÖn] LÖnh n y xo¸ quan s¸t ®−îc chØ ra bëi ph¹m vi (v cã thÓ ph¶i tho¶
m n ®iÒu kiÖn biÓu thøc)
keep <danh s¸ch biÕn> LÖnh n y gi÷ l¹i c¸c biÕn ®−îc chØ ra bëi danh s¸ch biÕn, c¸c biÕn
kh«ng ®−îc chØ ra sÏ bÞ xo¸ ®i
keep <®iÒu kiÖn> LÖnh n y gi÷ l¹i c¸c quan s¸t tho¶ m n ®iÒu kiÖn biÓu thøc, c¸c quan
s¸t kh¸c sÏ bÞ xo¸ ®i
keep <ph¹m vi> [®iÒu kiÖn] LÖnh n y gi÷ l¹i c¸c quan s¸t ®−îc chØ ra bëi ph¹m vi (v cã thÓ tho¶
m n ®iÒu kiÖn biÓu thøc), c¸c quan s¸t kh¸c sÏ bÞ xo¸ ®i.
30. 30
VÝ dô:
drop poor urban98 Xo¸ 2 biÕn poor v urban98
drop if sex==1 Xo¸ c¸c quan s¸t cã biÕn sex nhËn gi¸ trÞ b»ng 1
drop in 1/20 Xo¸ quan s¸t tõ 1 ®Õn 20
keep househol ChØ gi÷ l¹i biÕn househol, c¸c biÕn kh¸c bÞ xo¸ ®i
keep in f/50 Gi÷ l¹i quan s¸t tõ ®Çu tiªn ®Õn 50, c¸c quan s¸t kh¸c bÞ xo¸ ®i
4.4. LÖnh ®æi gi¸ trÞ cña biÕn ph©n lo¹i
Có ph¸p:
recode <tªn biÕn> gi¸ trÞ cò = gi¸ trÞ míi [®iÒu kiÖn] [ph¹m vi]
LÖnh n y ®æi gi¸ trÞ cña biÕn ph©n lo¹i theo c¸c quy t¾c ®−îc chØ ra ë sau ®ã.
VÝ dô:
. recode sex 0=1
(0 changes made)
. recode sex . = 0
(0 changes made)
. recode hhsize 1/5=1 6/10 = 2 * = 3
(5785 changes made)
. tab hhsize
Household |
size | Freq. Percent Cum.
------------+-----------------------------------
1 | 4164 69.41 69.41
2 | 1786 29.77 99.18
3 | 49 0.82 100.00
------------+-----------------------------------
Total | 5999 100.00
. tab urban98
1:urban 98; |
0:rural 98 | Freq. Percent Cum.
------------+-----------------------------------
Rural | 4269 71.16 71.16
Urban | 1730 28.84 100.00
------------+-----------------------------------
Total | 5999 100.00
. recode urban98 0=1 1=0
(5999 changes made)
. tab urban98
1:urban 98; |
31. 31
0:rural 98 | Freq. Percent Cum.
------------+-----------------------------------
Rural | 1730 28.84 28.84
Urban | 4269 71.16 100.00
------------+-----------------------------------
Total | 5999 100.00
4.5. LÖnh g¸n nh·n cho biÕn
G¸n nh·n cho biÕn
Có ph¸p:
label variable <tªn biÕn> “Nh·n cña biÕn”
LÖnh n y g¸n nh n l mét dÉy ký tù cho biÕn.
VÝ dô:
. gen ngheo=poor
. des ngheo
storage display value
variable name type format label variable label
---------------------------------------------------------------------------
ngheo float %9.0g
. tab ngheo
ngheo | Freq. Percent Cum.
------------+-----------------------------------
0 | 4222 70.38 70.38
1 | 1777 29.62 100.00
------------+-----------------------------------
Total | 5999 100.00
. label var ngheo "Nguoi co thu nhap duoi chuan ngheo"
. tab ngheo
Nguoi co |
thu nhap |
duoi chuan |
ngheo | Freq. Percent Cum.
------------+-----------------------------------
0 | 4222 70.38 70.38
1 | 1777 29.62 100.00
------------+-----------------------------------
Total | 5999 100.00
. des ngheo
storage display value
variable name type format label variable label
----------------------------------------------------------------------------
ngheo float %9.0g Nguoi co thu nhap duoi chuan
ngheo
G¸n gi¸ trÞ cho biÕn ph©n lo¹i
label define <tªn bé nh·n> # "nh·n" [# "nh·n" ...] [, add modify]
32. 32
label dir
label list <tªn bé nh·n>
label drop {tªn bé nh·n [tªn bé nh·n ...] | _all}
label values <tªn biÕn> [tªn bé nh·n]
LÖnh label define g¸n nh n cho mét bé gi¸ trÞ sè. Tªn cña bé nh n ®−îc chØ ra sau tõ kho¸ define, # l
gi¸ trÞ sè, “nh·n” l chuçi ký tù t−¬ng øng víi gi¸ trÞ sè ®Êy. Cã hai tuú chän ë ®©y: tuú chän add
thªm gi¸ trÞ v nh n t−¬ng øng v o 1 bé nh n ® cã s½n. Tuú chän modify cho phÐp söa ch÷a gi¸ trÞ v
nh n cña 1 bé nh n ® cã s½n.
LÖnh label dir hiÓn thÞ nh÷ng bé nh n cã s½n, cßn lÖnh label list hiÓn thÞ gi¸ trÞ cña bé nh n ®−îc chØ
ra. LÖnh label drop xo¸ c¸c bé nh n cã s½n.
VÝ dô:
T¹o nh n cã tªn l nngheo víi gi¸ trÞ 1 cã nghÜa l ng−êi nghÌo, cßn 0 cã nghÜa l ng−êi kh«ng nghÌo.
. label define nngheo 0 "Ngheo" 1 "Khong ngheo"
. label dir
nngheo
region
loaiho
diploma
urban
agegroup
. label list nngheo
nngheo:
0 Khong ngheo
1 Ngheo
. label drop _all
. label dir
LÖnh label values sÏ g¸n c¸c nh n cña 1 bé nh n cho c¸c gi¸ trÞ sè cña 1 biÕn ph©n lo¹i.
VÝ dô:
. tab ngheo
ngheo | Freq. Percent Cum.
------------+-----------------------------------
0 | 4222 70.38 70.38
1 | 1777 29.62 100.00
------------+-----------------------------------
Total | 5999 100.00
. list ngheo in 1/5
ngheo
1. 1
33. 33
2. 0
3. 1
4. 1
5. 0
. label values ngheo nngheo
. tab ngheo
ngheo | Freq. Percent Cum.
------------+-----------------------------------
Ngheo | 4222 70.38 70.38
Khong ngheo | 1777 29.62 100.00
------------+-----------------------------------
Total | 5999 100.00
. list ngheo in 1/5
ngheo
1. Khong ngheo
2. Ngheo
3. Khong ngheo
4. Khong ngheo
5. Ngheo
4.6. S¾p xÕp sè liÖu
Có ph¸p:
sort <danh s¸ch biÕn> [ph¹m vi]
gsort [+|-]tªn biÕn [[+|-]tªn biÕn [...]]
LÖnh sort s½p xÕp quan s¸t theo thø tù t¨ng dÇn cña gi¸ trÞ cña c¸c biÕn ®−îc chØ ra trong danh s¸ch
biÕn.
LÖnh gsort cho phÐp s½p xÕp c¸c quan s¸t theo thø tù t¨ng dÇn cña cña c¸c biÕn (danh s¸ch biÕn), nÕu
dÊu + ®−îc chØ ra (®©y còng l gi¸ trÞ ngÇm ®Þnh), hoÆc theo thø tù gi¶m dÇn, nÕu dÊu - ®−îc chØ ra.
VÝ dô:
sort reg7 hhsize LÖnh n y s½p xÕp c¸c quan s¸t theo thø tù t¨ng dÇn cña biÕn vïng reg7, trong
mçi vïng c¸c quan s¸t l¹i ®−îc s½p xÕp theo thø tù t¨ng dÇn cña biÕn quy m«
hé hhsize.
gsort reg7 –hhsize LÖnh n y s½p xÕp c¸c quan s¸t theo thø tù t¨ng dÇn cña biÕn vïng reg7, nh−ng
trong mçi vïng c¸c quan s¸t l¹i ®−îc s½p xÕp theo thø tù gi¶m dÇn cña biÕn
quy m« hé hhsize.
4.7. Trén sè liÖu
LÖnh thu gän sè liÖu - collapse
Có ph¸p:
collapse <biÓu thøc thèng kª> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, by(danh s¸ch biÕn)]
34. 34
trong ®ã:
BiÓu thøc thèng kª l danh s¸ch c¸c thèng kª v c¸c biÕn t−¬ng øng. C¸c thèng kª ®−îc ký hiÖu nh−
môc 3.12 cña ch−¬ng n y.
LÖnh collapse sÏ t¹o ra mét tÖp sè liÖu míi bao gåm c¸c biÕn ®−îc chØ ra bëi danh s¸ch biÕn, víi c¸c
gi¸ trÞ ®−îc tÝnh theo thèng kª t−¬ng øng. C¸c quan s¸t cña tÖp sè liÖu cò sÏ ®−îc nhãm l¹i theo c¸c gi¸
trÞ cïng lo¹i cña biÕn ®−îc chØ ra bëi by(danh s¸ch biÕn).
VÝ dô:
Chóng ta cã file sè liÖu vÒ thu nhËp v chi tiªu cña c¸c hé th nh viªn trong gia ®×nh:
ma_tv ma_ho thunhap Chitieu
1 101 200 500
2 101 1200 400
3 101 0 200
4 101 0 200
1 102 3200 500
2 102 1200 320
3 102 200 200
1 103 300 500
2 103 2100 250
3 103 0 300
4 103 0 300
1 104 4300 800
2 104 3500 500
3 104 300 500
4 104 0 300
5 104 0 200
6 104 0 200
Chóng ta sÏ dïng lÖnh collapse ®Ó t¹o file vÒ thu nhËp v chi tiªu b×nh qu©n cña c¸c hé, v t¹o thªm 1
biÕn vÒ qui m« hé.
. gen quimo=1
. collapse (mean) thunhap (mean) chitieu (sum) quimo, by(ma_ho)
TÖp sè liÖu míi cã d¹ng:
ma_ho thunhap chitieu quimo
101 350 325 4
102 1533.33 340 3
103 600 337.5 4
104 1350 416.667 6
KÕt hîp sè liÖu - lÖnh merge
Có ph¸p:
merge [danh s¸ch biÕn] using <tªn tÖp sö dông> [, update replace]
35. 35
LÖnh merge sÏ nèi c¸c quan s¸t cña tÖp sè liÖu ®ang më trong Stata (gäi l tÖp chñ (master dataset))
víi c¸c quan s¸t t−¬ng øng cña tÖp sè liÖu kh¸c ®−îc chØ ra sau tõ kho¸ using (gäi l tÖp sö dông (using
dataset)) th nh 1 tÖp míi. C¸c biÕn chØ ra trong danh s¸ch biÕn ®−îc gäi l biÕn x¸c ®Þnh (identifying
variables), v ph¶i ®−îc s½p xÕt b»ng lÖnh sort (hoÆc gsort) tr−íc khi thùc hiÖn lÖnh merge.
VÝ dô:
Chóng ta cã 2 tÖp sè liÖu nh− sau:
thunhap.dta
ma_ho thunhap chitieu quimo
101 350 325 4
102 1533.33 340 3
103 600 337.5 4
104 1350 416.667 6
dialy.dta
ma_ho thanhthi vung
204 0 1
102 1 4
103 0 3
104 0 6
LÖnh merge sÏ ®−îc thùc hiÖn nh− sau:
. use "C:dialy.dta", clear
. sort ma_ho
. save "C:dialy.dta"
file C:dialy.dta saved
. use "C:thunhap.dta", clear
. sort ma_ho
. merge ma_ho using "C:dialy.dta"
ma_ho was byte now int
. edit
TÖp kÕt qu¶ cã d¹ng nh− sau:
ma_ho thunhap chitieu quimo thanhthi vung _merge
101 350 325 4 . . 1
102 1533.33 340 3 1 4 3
103 600 337.5 4 0 3 3
104 1350 416.667 6 0 6 3
204 . . . 0 1 2
Trong tÖp kÕt qu¶ cã thªm 1 biÕn tªn l _merge, biÕn n y nhËn c¸c gi¸ trÞ nh− sau:
_merge==1 NÕu nh− quan s¸t chØ ®−îc t¹o tõ tÖp chñ
_merge==2 NÕu nh− quan s¸t chØ ®−îc t¹o tõ sö dông
36. 36
_merge==3 NÕu nh− quan s¸t ®−îc t¹o tõ c¶ tÖp chñ v tÖp sö dông
C¸c tuú chän:
Trong tr−êng hîp hai tÖp sè liÖu cã c¸c biÕn trïng nhau, c¸c tuú chän sau ®©y cho phÐp xö lý sè liÖu
theo c¸c c¸ch kh¸c nhau:
update NÕu sè liÖu cña biÕn trïng nhau cña tÖp chñ cã gi¸ trÞ thiÕu th× gi¸ trÞ thiÕu n y nhËn
gi¸ trÞ cña biÕn trïng nhau cña tÖp sö dông.
replace Gi¸ trÞ cña biÕn trïng nhau cña tÖp chñ sÏ nhËn gi¸ trÞ cña biÕn trïng nhau cña tÖp sö
dông.
NÕu kh«ng tuú chän n o ®−îc chØ ra th× theo ngÇm ®Þnh, gi¸ trÞ cña biÕn cña tÖp chñ sÏ kh«ng thay ®æi.
Nèi sè liÖu – lÖnh append
Có ph¸p:
append using <tªn tÖp>
LÖnh n y cho phÐp nèi tÖp ®−îc chØ ra bëi using v o víi tÖp ®ang ®−îc më theo c¸c biÕn cã cïng tªn
v ®Þnh d¹ng. Sè quan s¸t cña tÖp míi b»ng tæng sè sè quan s¸t cña 2 tÖp.
VÝ dô: cã tÖp thunhap2.dta nh− sau
ma_ho thunhap chitieu gioitinh
105 1350 425 1
106 1500 370 0
107 800 556 0
108 1500 417 0
109 2500 540 1
Hai tÖp n y sÏ ®−îc nèi víi nhau b»ng lÖnh append nh− sau:
. use "C:thunhap.dta", clear
. append using "C:thunhap2.dta"
. edit
TÖp kÕt qu¶ cã d¹ng:
ma_ho thunhap chitieu quimo gioitinh
101 350 325 4
102 1533.33 340 3
103 600 337.5 4
104 1350 416.667 6
105 1350 425 1
106 1500 370 0
107 800 556 0
108 1500 417 0
109 2500 540 1
Chó ý: Xem thªm lÖnh expand dung ®Ó t¹o ra c¸c quan s¸t gièng nhau.
4.8. ChuyÓn d¹ng sè liÖu
37. 37
Có ph¸p:
reshape wide <tªn biÕn>, i(danh s¸ch biÕn) [ j(tªn biÕn [values]) ... ]
reshape long <tªn biÕn>, i(danh s¸ch biÕn) [ j(tªn biÕn [values]) ... ]
reshape wide
reshape long
LÖnh n y cho phÐp chuyÓn sè liÖu tõ d¹ng ngang sang sè liÖu d¹ng däc (tuú chän long), v tõ d¹ng däc
sang d¹ng ngang (tuú chän wide). i(danh s¸ch biÕn) chØ ra biÕn x¸c ®Þnh (indentifying variables) dïng
®Ó ph©n biÖt c¸c quan s¸t víi nhau trong sè liÖu d¹ng ngang (gäi l quan s¸t cÊp 1). j(tªn biÕn) chØ ra
biÕn dïng ®Ó ph©n biÖt gi÷a c¸c quan s¸t cÊp 2 ë sè liÖu d¹ng däc.
VÝ dô 1:
Chóng ta cã thÓ sè liÖu d¹ng b¶ng ngang nh− mét ma trËn nh− sau:
- i - -------------------- xÞj -------------------
maho quimo thunhap95 thunhap96 thunhap97
101 5 4500 4400 5400
102 4 3400 3300 3700
103 6 5000 5400 5500
sè liÖu n y sÏ ®−îc chuyÓn sang d¹ng b¶ng däc nh− sau:
- i - - j - - xji -
maho quimo nam thunhap
101 5 95 4500
101 5 96 4400
101 5 97 5400
102 4 95 3400
102 4 96 3300
102 4 97 3700
103 6 95 5000
103 6 96 5400
103 6 97 5500
V lÖnh reshape sÏ ®−îc viÕt nh− sau:
. reshape long thunhap, i(maho) j(nam)
(note: j = 95 96 97)
Data wide -> long
---------------------------------------------------------------------
Number of obs. 3 -> 9
Number of variables 5 -> 4
j variable (3 values) -> nam
xij variables:
thunhap95 thunhap96 thunhap97 -> thunhap
---------------------------------------------------------------------
* Va chuyen nguoc lai tu dang doc sang dang ngang nhu sau
. reshape wide thunhap, i(maho) j(nam)
(note: j = 95 96 97)
38. 38
Data long -> wide
------------------------------------------------------------------------
Number of obs. 9 -> 3
Number of variables 4 -> 5
j variable (3 values) nam -> (dropped)
xij variables:
thunhap -> thunhap95 thunhap96 thunhap97
----------------------------------------------------------------------
VÝ dô 2:
Chóng ta cã sè liÖu d¹ng b¶ng sau ®©y:
maho sotien1 nguon1 sotien2 nguon2
101 1200 “Ngan hang A” 2000 “Ngan hang A”
102 1300 “Ngan hang B” . .
103 2500 “Ngan hang A” 1000 “Ngan hang C”
104 3000 “Ngan hang A” 2000 “Ngan hang B”
B¶ng n y ®−îc chuyÓn sang b¶ng d¹ng däc nh− sau:
. reshape long sotien nguon, i(maho) j(lanvay)
(note: j = 1 2)
Data wide -> long
---------------------------------------------------------------------
Number of obs. 4 -> 8
Number of variables 5 -> 4
j variable (2 values) -> lanvay
xij variables:
sotien1 sotien2 -> sotien
nguon1 nguon2 -> nguon
---------------------------------------------------------------------
B¶ng däc cã d¹ng nh− sau:
maho lanvay sotien nguon
101 1 1200 Ngan hang A
101 2 2000 Ngan hang A
102 1 1300 Ngan hang B
102 2
103 1 2500 Ngan hang A
103 2 1000 Ngan hang C
104 1 3000 Ngan hang A
104 2 2000 Ngan hang B
5. QuyÒn sè trong VHLSS (Weight)
5.1. QuyÒn sè trong ®iÒu tra chän mÉu
Trong ®iÒu tra chän mÉu, c¸c quan s¸t ®−îc lùa chän mét c¸ch ngÉu nhiªn nh−ng th«ng th−êng c¸c
quan s¸t th−êng cã x¸c suÊt lùa chän kh¸c nhau. QuyÒn sè b»ng gi¸ trÞ nghÞch ®¶o cña x¸c suÊt ®−îc
chän v o mÉu. NÕu nh− quan s¸t i cã quyÒn sè l wi th× cã thÓ nãi quan s¸t i trong mÉu ®¹i diÖn cho wi
39. 39
phÇn tö trong tæng thÓ. C¸c −íc l−îng suy diÔn vÒ tæng thÓ cÇn ph¶i tÝnh ®Õn quyÒn sè chän mÉu, nÕu
kh«ng th× kÕt qu¶ sÏ bÞ sai lÖch.
VÝ dô:
Gi¶ sö miÒn §ång b»ng S«ng Hång gåm 2 tØnh l H Néi v B¾c Ninh víi d©n sè t−¬ng øng l 4.5 triÖu
v 500 ngh×n ng−êi. Chóng ta muèn chän mét mÉu ngÉu nhiªn víi cì mÉu l 500 quan s¸t ®Ó nghiªn
cøu vÒ thu nhËp cña §ång b»ng S«ng Hång còng nh− 2 tØnh n y. NÕu nh− theo tû lÖ vÒ d©n sè gi÷a 2
tØnh th× chóng ta sÏ thu ®−îc mÉu gåm 450 hé t¹i H Néi v 50 hé t¹i Nam §Þnh. Tuy nhiªn mÉu ®−îc
chän mét c¸ch ngÉu nhiªn trªn c¶ vïng nªn sÏ cã kh¶ n¨ng l chóng ta thu ®−îc mét mÉu m kh«ng cã
quan s¸t n o cña tØnh Nam §Þnh, hoÆc cã víi sè l−îng rÊt nhá. §Ó cho mÉu mang tÝnh ®¹i diÖn cho c¸c
tØnh th× nªn chän 400 quan s¸t t¹i H Néi v 100 quan s¸t t¹i Nam §Þnh.
NÕu thu nhËp b×nh qu©n cña H Néi l 900 ngh×n/ th¸ng, v cña Nam §Þnh l 300 ngh×n/th¸ng th× thu
nhËp b×nh qu©n cña c¶ vïng §ång b»ng S«ng Hång kh«ng thÓ tÝnh l (900 + 300)/2, v× c¸c quan s¸t
trong mÉu kh«ng ®−îc chän tû lÖ víi c¸c tØnh. Mçi quan s¸t t¹i H néi ®¹i diÖn cho 11250 hé trong
vïng (4500000/400). §©y chÝnh l quyÒn sè cña quan s¸t, b»ng gi¸ trÞ nghÞch ®¶o cña x¸c suÊt ®−îc
chän v o mÉu. Cßn mçi quan s¸t t¹i Nam §Þnh ®¹i diÖn cho 50000 quan s¸t cña vïng (500000/100).
Thu nhËp cña vïng §ång b»ng S«ng Hång sÏ ®−îc tÝnh nh− sau:
840
5000010011250400
5000010030011250400900
nhapThu =
×+×
××+××
=
Trong VLSS 1998 cã 2 quyÒn sè. Thø nhÊt l quyÒn sè hé, biÕn wt, chÝnh l sè hé cña ViÖt Nam m
mçi hé ®¹i diÖn. QuyÒn sè thø hai l quyÒn sè cña th nh viªn hé, hhsizewt l sè ng−êi ViÖt Nam m
mçi th nh viªn cña hé ®¹i diÖn. QuyÒn sè cña th nh viªn hé b»ng quyÒn sè hé nh©n víi quy m« hé.
VÝ dô: QuyÒn sè trong VLSS 1998
. tab reg7, sum(wt)
Code by 7 | Summary of sample quyÒn sè
regions | Mean Std. Dev. Freq.
------------+------------------------------------
region1 | 3218.4296 850.74246 859
region2 | 3133.7277 849.12325 1175
region3 | 3185.1794 801.74266 708
region4 | 2199.37 492.37202 754
region5 | 1336.3098 269.14747 368
region6 | 1963.8964 528.69328 1023
region7 | 2938.2122 547.72125 1112
------------+------------------------------------
Total | 2688.5003 900.01379 5999
. tab reg7, sum(hhsizewt)
Code by 7 | Summary of =hhsize*wt
regions | Mean Std. Dev. Freq.
------------+------------------------------------
region1 | 15790.857 7555.7552 859
region2 | 12656.003 5970.9089 1175
region3 | 14814.504 7236.7592 708
region4 | 10794.537 5235.562 754
region5 | 7564.731 3185.9336 368
40. 40
region6 | 9447.7077 4535.0816 1023
region7 | 14653.702 6639.8297 1112
------------+------------------------------------
Total | 12636.546 6597.6574 5999
. di 2688.5003*5999
16128313
. di 12636.546*5999
75806639
5.2. C¸c lùa chän vÒ quyÒn sè
Stata cho phÐp sö dông 4 lo¹i lo¹i quyÒn sè sau ®©y:
fweights: quyÒn sè tÇn suÊt (frequency weights), Stata sÏ hiÓu quyÒn sè ë ®©y cã nghÜa l sè lÇn
m mçi quan s¸t mçi quan s¸t ®−îc lÆp l¹i trong tÝnh to¸n.
pweights: quyÒn sè chän mÉu (sampling weights), Stata sÏ hiÓu quyÒn sè l gi¸ trÞ nghÞch ®¶o
cña x¸c suÊt ®−îc chän v o mÉu, hay sè phÇn tö trong t«ng thÓ m mçi quan s¸t trong
mÉu ®¹i diÖn.
aweights quyÒn sè ph©n tÝch (analytical weights), Stata sÏ hiÓu quyÒn sè tû lÖ nghÞch víi ph−¬ng
sai cña quan s¸t.
iweights quyÒn sè quan träng (importance weights), ®©y l quyÒn sè chØ møc ®é quan träng cña
c¸c quan s¸t.
§èi víi §iÒu tra møc sèng c¸c lÖnh sö dông quyÒn sè pweights v fweights.
VÝ dô:
. sum poor
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
poor | 5999 29.6216 45.66255 0 100
. sum poor [fw=hhsize]
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
poor | 28509 34.17517 47.43051 0 100
.
.
. tab reg7 urban98
| 1:urban 98; 0:rural
Code by 7 | 98
regions | Rural Urban | Total
-----------+----------------------+----------
region1 | 672 187 | 859
region2 | 783 392 | 1175
region3 | 600 108 | 708
region4 | 502 252 | 754
region5 | 368 0 | 368
41. 41
region6 | 514 509 | 1023
region7 | 830 282 | 1112
-----------+----------------------+----------
Total | 4269 1730 | 5999
.
. tab reg7 urban98 [fw= hhsizewt]
| 1:urban 98; 0:rural
Code by 7 | 98
regions | Rural Urban | Total
-----------+----------------------+----------
region1 | 11993763 1570583 | 13564346
region2 | 11057932 3812871 | 14870803
region3 | 9582621 906048 | 10488669
region4 | 5618709 2520372 | 8139081
region5 | 2783821 0 | 2783821
region6 | 4545303 5119702 | 9665005
region7 | 13220727 3074190 | 16294917
-----------+----------------------+----------
Total | 58802876 17003766 | 75806642
. tab reg7 urban98 , sum(hhsize) means
Means of Household size
| 1:urban 98; 0:rural
Code by 7 | 98
regions | Rural Urban | Total
-----------+----------------------+----------
region1 | 5.1205357 3.7326203 | 4.8183935
region2 | 4.045977 4.0459184 | 4.0459574
region3 | 4.6666667 4.6759259 | 4.6680791
region4 | 4.8027888 5.1190476 | 4.9084881
region5 | 5.7065217 . | 5.7065217
region6 | 5.0719844 4.7131631 | 4.8934506
region7 | 5.1373494 4.3971631 | 4.9496403
-----------+----------------------+----------
Total | 4.8702272 4.4612717 | 4.752292
. tab reg7 urban98 [fw=wt], sum(hhsize) means
Means and Number of Observations of Household size
| 1:urban 98; 0:rural
Code by 7 | 98
regions | Rural Urban | Total
-----------+----------------------+----------
region1 | 5.1328749 3.6698008 | 4.9063857
| 2336656 427975 | 2764631
-----------+----------------------+----------
region2 | 4.0564115 3.987975 | 4.0386415
| 2726038 956092 | 3682130
-----------+----------------------+----------
42. 42
region3 | 4.6508908 4.6530097 | 4.6510738
| 2060384 194723 | 2255107
-----------+----------------------+----------
region4 | 4.8136253 5.132367 | 4.9080132
| 1167251 491074 | 1658325
-----------+----------------------+----------
region5 | 5.6609112 . | 5.6609112
| 491762 0 | 491762
-----------+----------------------+----------
region6 | 5.0486426 4.6174858 | 4.8106956
| 900302 1108764 | 2009066
-----------+----------------------+----------
region7 | 5.1494132 4.3925283 | 4.9872852
| 2567424 699868 | 3267292
-----------+----------------------+----------
Total | 4.8003065 4.3841133 | 4.7002214
| 12249817 3878496 | 16128313
.
. table reg7 urban98 , c(mean poor) col row format(%4.1f)
-------------------------------
| 1:urban 98; 0:rural
Code by 7 | 98
regions | Rural Urban Total
----------+--------------------
region1 | 61.5 8.0 49.8
region2 | 32.6 5.9 23.7
region3 | 44.8 10.2 39.5
region4 | 37.3 11.5 28.6
region5 | 47.3 47.3
region6 | 12.5 2.2 7.3
region7 | 35.8 10.3 29.3
|
Total | 38.9 6.8 29.6
-------------------------------
. table reg7 urban98 [pw=hhsizewt], c(mean poor) col row format(%4.1f)
-------------------------------
| 1:urban 98; 0:rural
Code by 7 | 98
regions | Rural Urban Total
----------+--------------------
region1 | 65.2 8.3 58.6
region2 | 36.1 7.0 28.7
region3 | 51.3 14.3 48.1
region4 | 43.6 16.6 35.2
region5 | 52.4 52.4
region6 | 13.0 2.9 7.6
region7 | 42.0 15.3 36.9
|
Total | 45.5 9.2 37.4
-------------------------------
43. 43
Ch−¬ng III: KiÓm ®Þnh gi¶ thiÕt vµ ph©n tÝch håi quy
1. ¦íc l−îng v kiÓm ®Þnh gi¶ thiÕt (Estimation and hypothesis testing)
1.1. ¦íc l−îng gi¸ trÞ trung b×nh b»ng kho¶ng tin cËy
Có ph¸p:
ci [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, level(#) binomial poisson exposure(tªn
biÕn) total]
LÖnh n y tÝnh sai sè chuÈn v kho¶ng tin cËy cho gi¸ trÞ trung b×nh cña mÉu theo quy luËt chuÈn, nhÞ
thøc v Poatx«ng.
C¸c tuú chän:
level(#) chØ ®Þnh møc ®é tin cËy cho −íc l−îng kho¶ng tin cËy. # nhËn
gi¸ trÞ tõ 10 ®ªn 99, gi¸ trÞ ngÇm ®Þnh l 95.
binomial ¸p dông cho quy luËt nhÞ thøc
poisson ¸p dông cho quy luËt Poatx«ng
exposure(tªn biÕn) ¸p dông cho quy luËt Poatx«ng, tªn biÕn chØ ra biÕn “thêi
l−îng” (th«ng th−êng l thêi gian hoÆc diÖn tÝch) m trong ®ã
x¶y ra c¸c “sù kiÖn” ®−îc chØ ra bëi danh s¸ch biÕn
total dïng khi ma “by prefix” ®−îc sö dung, yªu cÇu −íc l−îng
kho¶ng tin cËy cho to n bé nhãm.
VÝ dô:
. ci poor
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
poor | 5999 29.6216 .5895501 28.46587 30.77733
.
.
. sort reg7
. by reg7: ci poor, total
_______________________________________________________________________________
-> reg7 = region1
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
poor | 859 49.82538 1.706961 46.47507 53.17569
_______________________________________________________________________________
-> reg7 = region2
Variable | Obs Mean Std. Err. [95% Conf. Interval]
44. 44
-------------+-------------------------------------------------------------
poor | 1175 23.65957 1.240357 21.22601 26.09314
_______________________________________________________________________________
-> reg7 = region3
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
poor | 708 39.54802 1.838899 35.93767 43.15838
_______________________________________________________________________________
-> reg7 = region4
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
poor | 754 28.64721 1.64759 25.4128 31.88163
_______________________________________________________________________________
-> reg7 = region5
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
poor | 368 47.28261 2.606121 42.1578 52.40741
_______________________________________________________________________________
-> reg7 = region6
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
poor | 1023 7.331378 .8153306 5.731465 8.931292
_______________________________________________________________________________
-> reg7 = region7
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
poor | 1112 29.31655 1.365709 26.63689 31.99621
_______________________________________________________________________________
-> Total
Variable | Obs Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
poor | 5999 29.6216 .5895501 28.46587 30.77733
Chó ý:
C¸c lÖnh −íc l−îng cã thÓ ®−îc sö dông khi biÕt c¸c tham sè vÒ mÉu. §©y cã thÓ ®−îc gäi l “c¸c lÖnh
sö dông tham sè trùc tiÕp” (Commands using immediate arguments). C¸c lÖnh n y rÊt h÷u dông khi
chóng ta kh«ng cã sè liÖu gèc vÒ biÕn.
cii <sè quan s¸t> <gi¸ trÞ trungb×nh> <®é lÖch chuÈn> [, level(#) ] (ph©n phèi chuÈn)
cii <sè quan s¸t> <sè lÇn th nh c«ng cña quan s¸t> [, level(#) ] (ph©n phèi nhÞ thøc)
45. 45
#obs chØ ra sè quan s¸t, #succ chØ ra sè lÇn gi¸ trÞ biÕn nhËn gi¸ trÞ t−¬ng øng víi phÐp thö th nh c«ng
(th«ng th−êng nhËn gi¸ trÞ b»ng 1)
cii <gi¸ trÞ thêi l−îng> <sè lÇn sù kiÖn x¶y ra> poisson [ level(#) ] (ph©n phèi Poatx«ng)
VÝ dô:
. cii 5999 1777, level (90)
-- Binomial Exact --
Variable | Obs Mean Std. Err. [90% Conf. Interval]
-------------+-------------------------------------------------------------
| 5999 .296216 .005895 .2865107 .3060676
. cii 12 27, poisson
-- Poisson Exact --
Variable | Exposure Mean Std. Err. [95% Conf. Interval]
-------------+-------------------------------------------------------------
| 12 2.25 .4330127 1.483144 3.273587
1.2. KiÓm ®Þnh gi¶ thuyÕt thèng kª
1.2.1. KiÓm ®Þnh gi¸ trÞ trung b×nh cña mÉu
Ph©n phèi kh«ng mét
Có ph¸p:
prtest <biÕn>= # [®iÒu kiÖn] [ph¹m vi] [, level(#)]
LÖnh n y thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt vÒ tû lÖ gi¸ trÞ cña biÕn ph©n phèi theo quy luËt kh«ng mét
(Ho: p = p0).
VÝ dô:
. prtest poor=0.44 if reg7==1
One-sample test of proportion poor: Number of obs = 859
----------------------------------------------------------------------------
Variable | Mean Std. Err. z P>|z| [95% Conf. Interval]
---------+------------------------------------------------------------------
poor | .4982538 .0170597 29.2065 0.0000 .4648174 .5316901
----------------------------------------------------------------------------
Ho: proportion(poor) = .44
Ha: poor < .44 Ha: poor ~= .44 Ha: poor > .44
z = 3.440 z = 3.440 z = 3.440
P < z = 0.9997 P > |z| = 0.0006 P > z = 0.0003
prtest <biÕn 1> = <tªn biÕn2> [®iÒu kiÖn] [ph¹m vi] [, level(#)]
LÖnh n y thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt vÒ sù b»ng nhau cña tû lÖ cña hai gi¸ trÞ biÕn ®−îc chØ ra bëi
tªn biÕn (Ho: pX = pY).
46. 46
VÝ dô: KiÓm ®Þnh xem tû lÖ nghÌo ®ãi gi÷a vïng 2 v vïng 4 cã khac nhau kh«ng:
. gen poor2=poor if reg7==2
(4824 missing values generated)
. gen poor4=poor if reg7==4
(5245 missing values generated)
. prtest poor2 = poor4
Two-sample test of proportion poor2: Number of obs = 1175
poor4: Number of obs = 754
------------------------------------------------------------------------------
Variable | Mean Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------------------
poor2 | .2365957 .0123983 19.0829 0.0000 .2122955 .2608959
poor4 | .2864721 .016465 17.3989 0.0000 .2542014 .3187429
---------+--------------------------------------------------------------------
diff | -.0498764 .020611 -.0902732 -.0094796
| under Ho: .0203666 -2.44893 0.0143
------------------------------------------------------------------------------
Ho: proportion(poor2) - proportion(poor4) = diff = 0
Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0
z = -2.449 z = -2.449 z = -2.449
P < z = 0.0072 P > |z| = 0.0143 P > z = 0.9928
prtest <biÕn> [®iÒu kiÖn] [ph¹m vi], by(biÕn ph©n nhãm) [level(#)]
LÖnh n y thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt vÒ sù b»ng nhau cña tû lÖ cña hai nhãm ®−îc chØ ra bëi biÕn
ph©n nhãm (Ho: pX1 = pX2).
VÝ dô:
. prtest poor, by(sex)
Two-sample test of proportion 1: Number of obs = 4375
2: Number of obs = 1624
------------------------------------------------------------------------------
Variable | Mean Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------------------
1 | .3248 .00708 45.8755 0.0000 .3109234 .3386766
2 | .2192118 .0102661 21.353 0.0000 .1990906 .239333
---------+--------------------------------------------------------------------
diff | .1055882 .0124708 .0811459 .1300304
| under Ho: .0132673 7.95855 0.0000
------------------------------------------------------------------------------
Ho: proportion(1) - proportion(2) = diff = 0
Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0
z = 7.959 z = 7.959 z = 7.959
P < z = 1.0000 P > |z| = 0.0000 P > z = 0.0000
47. 47
Ph©n phèi nhÞ thøc
Có ph¸p:
bitest <biÕn> = #p [quyÒn sè] [®iÒu kiÖn] [ph¹m vi]
LÖnh n y kiÓm ®Þnh gi¶ thuyÕt vÒ tham sè p trong quy luËt nhÞ thøc (x¸c suÊt th nh c«ng cña phÐp thö)
cña biÕn ®−îc chØ ra bëi tªn biÕn. (Ho: p = p0)
VÝ dô:
. bitest poor=0.44 if reg7==1
Variable | N Observed k Expected k Assumed p Observed p
-------------+------------------------------------------------------------
poor | 859 428 377.96 0.44000 0.49825
Pr(k >= 428) = 0.000344 (one-sided test)
Pr(k <= 428) = 0.999732 (one-sided test)
Pr(k <= 328 or k >= 428) = 0.000660 (two-sided test)
. bitesti 859 428 0.44
N Observed k Expected k Assumed p Observed p
------------------------------------------------------------
859 428 377.96 0.44000 0.49825
Pr(k >= 428) = 0.000344 (one-sided test)
Pr(k <= 428) = 0.999732 (one-sided test)
Pr(k <= 328 or k >= 428) = 0.000660 (two-sided test)
Quy luËt ph©n phèi chuÈn
Có ph¸p:
ttest <biÕn> = # [®iÒu kiÖn] [ph¹m vi] [, level(#) ]
LÖnh n y kiÓm ®Þnh gi¶ thuyÕt vÒ gi¸ trÞ cña tham sè trung b×nh cña biÕn ngÉu nhiªn tu©n theo quy luËt
chuÈn ®−îc chØ ra bëi tªn biÕn (Ho: µ = µ0)
VÝ dô:
. ttest rlpcex1=3200
One-sample t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
rlpcex1 | 5999 3188.667 34.76379 2692.567 3120.518 3256.817
------------------------------------------------------------------------------
Degrees of freedom: 5998
Ho: mean(rlpcex1) = 3200
Ha: mean < 3200 Ha: mean ~= 3200 Ha: mean > 3200
t = -0.3260 t = -0.3260 t = -0.3260
P < t = 0.3722 P > |t| = 0.7444 P > t = 0.6278
48. 48
ttest <biÕn 1> = <biÕn 2> [®iÒu kiÖn] [ph¹m vi] [, unpaired unequal level(#) ]
LÖnh n y thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt r»ng hai biÕn cã gi¸ trÞ trung b×nh b»ng nhau. (Ho: µX = µY).
C¸c tuú chän:
unpaired Sè liÖu cña hai biÕn kh«ng cïng cÆp
unequal Phu¬ng sai cña hai biÕn kh«ng b»ng nhau
VÝ dô:
. ttest poor2=poor4, unpaired unequal
Two-sample t test with unequal variances
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
poor2 | 1175 .2365957 .0124036 .425173 .2122601 .2609314
poor4 | 754 .2864721 .0164759 .4524128 .254128 .3188163
---------+--------------------------------------------------------------------
combined | 1929 .2560912 .0099404 .436586 .2365962 .2755863
---------+--------------------------------------------------------------------
diff | -.0498764 .0206229 -.0903285 -.0094243
------------------------------------------------------------------------------
Satterthwaite's degrees of freedom: 1532.64
Ho: mean(poor2) - mean(poor4) = diff = 0
Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0
t = -2.4185 t = -2.4185 t = -2.4185
P < t = 0.0079 P > |t| = 0.0157 P > t = 0.9921
ttest <biÕn> [®iÒu kiÖn] [ph¹m vi], by(biÕn ph©n nhãm) [ unequal level(#) ]
LÖnh n y thùc hiÖn kiÓm ®Þnh gi¶ thuyÕt vÒ sù b»ng nhau cña gi¸ trÞ trung b×nh cña hai nhãm ®−îc chØ
ra bëi biÕn ph©n nhãm (Ho: µX1 = µX2).
VÝ dô:
. ttest rlpcex1, by(sex)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
1 | 4375 2980.906 36.74795 2430.648 2908.862 3052.951
2 | 1624 3748.368 80.18189 3231.241 3591.097 3905.638
---------+--------------------------------------------------------------------
combined | 5999 3188.667 34.76379 2692.567 3120.518 3256.817
---------+--------------------------------------------------------------------
diff | -767.4613 77.6155 -919.6156 -615.3071
------------------------------------------------------------------------------
Degrees of freedom: 5997
49. 49
Ho: mean(1) - mean(2) = diff = 0
Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0
t = -9.8880 t = -9.8880 t = -9.8880
P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000
1.2.2. KiÓm ®Þnh gi¸ trÞ ®é lÖch chuÈn
Có ph¸p:
sdtest <biÕn> = # [®iÒu kiÖn] [ph¹m vi] [, level(#) ]
sdtest <biÕn 1> = <biÕn 2> [®iÒu kiÖn] [ph¹m vi] [, level(#) ]
sdtest <biÕn> [®iÒu kiÖn] [ph¹m vi] , by(biÕn ph©n nhãm) [ level(#) ]
LÖnh n y kiÓm dÞnh tham sè ®é lÖch chuÈn cña biÕn ngÉu nhiªn tu©n theo quy luËt chuÈn ®−îc chØ ra
bëi tªn biÕn. Có ph¸p cña lÖn n y t−¬ng tù víi có ph¸p cña lÖnh ttest
VÝ dô:
. sum rlpcex1
Variable | Obs Mean Std. Dev. Min Max
-------------+-----------------------------------------------------
rlpcex1 | 5999 3188.667 2692.567 357.318 45801.71
. sdtest rlpcex1=2700
One-sample test of variance
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
rlpcex1 | 5999 3188.667 34.76379 2692.567 3120.518 3256.817
------------------------------------------------------------------------------
Ho: sd(rlpcex1) = 2700
chi2(5998) = 5965.022
Ha: sd(rlpcex1) < 2700 Ha: sd(rlpcex1) ~= 2700 Ha: sd(rlpcex1) > 2700
P < chi2 = 0.3838 2*(P < chi2) = 0.7676 P > chi2 = 0.6162
2. Ph©n tÝch t−¬ng quan v håi quy (Correlation and regression)
2.1. Ph©n tÝch t−¬ng quan
Có ph¸p:
correlate [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, means covariance _coef wrap]
LÖnh n y tÝnh ma trËn hÖ sè t−ong quan (correlation coefficient), hoÆc hiÖp ph−¬ng sai (covariance)
cho c¸c biÕn ®−îc liÖt kª trong danh s¸ch biÕn. Sè quan s¸t ®−îc dïng l sè quan s¸t cña biÕn cã Ýt
quan s¸t nhÊt.
C¸c tuú chän:
50. 50
means HiÓn thÞ c¸c thèng kª kh¸c nh− gi¸ trÞ trung b×nh, ®é lÖch chuÈn, gi¸
trÞ lín nhÊt, nhá nhÊt
covariance §−a ra ma trËn hiÖp ph−¬ng sai thay v× hÖ sè t−¬ng quan
_coef TÝnh ma trËn tu¬ng quan cña c¸c hÖ sè cña −íc l−îng gÇn nhÊt
wrap HiÓn thÞ c¸c dßng cña ma trËn liÒn nhau nÕu cã qua nhiÒu c¸c biÕn
®−îc liÖt kª
VÝ dô:
. corr hhsize poor rlpcex1 sex
(obs=5999)
| hhsize poor rlpcex1 sex
-------------+------------------------------------
hhsize | 1.0000
poor | 0.2425 1.0000
rlpcex1 | -0.2172 -0.4452 1.0000
sex | -0.2570 -0.1028 0.1267 1.0000
. corr hhsize poor rlpcex1 sex, means cov
(obs=5999)
Variable | Mean Std. Dev. Min Max
-------------+----------------------------------------------------
hhsize | 4.752292 1.954292 1 19
poor | .296216 .4566255 0 1
rlpcex1 | 3188.667 2692.567 357.318 45801.71
sex | 1.270712 .4443645 1 2
| hhsize poor rlpcex1 sex
-------------+------------------------------------
hhsize | 3.81926
poor | .216435 .208507
rlpcex1 | -1142.93 -547.335 7.2e+06
sex | -.223195 -.020849 151.543 .19746
pwcorr [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, obs sig print(#) star(#)]
LÖnh n y tÝnh hÖ sè t−¬ng quan cho tõng cÆp biÕn ®−îc chØ ra bëi danh s¸ch biÕn.
C¸c tuú chän:
obs HiÓn thÞ sè quan s¸t dïng ®Ó tÝnh hÖ sè t−¬ng quan
sig HiÓn thÞ møc ý nghÜa cña c¸c hÖ sè t−¬ng quan
print(#) ChØ ra møc ý nghÜa theo ®ã chØ c¸c hÖ sè t−¬ng quan cã møc ý
nghÜa nhá h¬n møc n y míi ®−îc hiÓn thÞ
star(#) §¸nh dÊu sao ®èi víi c¸c hÖ sè t−¬ng quan cã møc ý nghÜ nhá h¬n
51. 51
møc ®−îc chØ ra bëi star
VÝ dô:
. pwcorr hhsize poor rlpcex1 sex, obs sig star(5)
| hhsize poor rlpcex1 sex
-------------+------------------------------------
hhsize | 1.0000
|
| 5999
|
poor | 0.2425* 1.0000
| 0.0000
| 5999 5999
|
rlpcex1 | -0.2172* -0.4452* 1.0000
| 0.0000 0.0000
| 5999 5999 5999
|
sex | -0.2570* -0.1028* 0.1267* 1.0000
| 0.0000 0.0000 0.0000
| 5999 5999 5999 5999
|
pcorr <biÕn> <danh s¸ch biÕn> [quyÒn sè] [®iÒu kiÖn] [ph¹m vi]
LÖnh n y tÝnh hÖ sè t−¬ng quan cña biÕn ®−îc chØ ra bëi tªn biÕn víi c¸c biÕn ®−îc trong danh s¸ch
biÕn
VÝ dô:
. pwcorr poor hhsize rlpcex1 sex
| poor hhsize rlpcex1 sex
-------------+------------------------------------
poor | 1.0000
hhsize | 0.2425 1.0000
rlpcex1 | -0.4452 -0.2172 1.0000
sex | -0.1028 -0.2570 0.1267 1.0000
2.2. Ph©n tÝch håi quy
Ph−¬ng ph¸p b×nh ph−¬ng nhá nhÊt (Ordinary-Least Square)
Có ph¸p:
regress <biÕn phô thuéc> [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, option]
LÖnh n y −íc l−îng c¸c hÖ sè cña h m biÕn phô thuéc (dependent variable) theo c¸c biÕn ®éc lËp
(danh s¸ch biÕn) theo ph−¬ng ph¸p b×nh ph−¬ng nhá nhÊt.
VÝ dô:
52. 52
. reg rlpcex1 reg7 sex hhsize
Source | SS df MS Number of obs = 5999
-------------+------------------------------ F( 3, 5995) = 194.88
Model | 3.8639e+09 3 1.2880e+09 Prob > F = 0.0000
Residual | 3.9621e+10 5995 6609032.15 R-squared = 0.0889
-------------+------------------------------ Adj R-squared = 0.0884
Total | 4.3485e+10 5998 7249918.40 Root MSE = 2570.8
------------------------------------------------------------------------------
rlpcex1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
reg7 | 240.9633 15.5905 15.46 0.000 210.4003 271.5263
sex | 403.2984 77.38324 5.21 0.000 251.5994 554.9974
hhsize | -305.6382 17.70692 -17.26 0.000 -340.3501 -270.9263
_cons | 3160.201 155.6576 20.30 0.000 2855.056 3465.346
------------------------------------------------------------------------------
C¸c tuú chän:
level(#) ChØ ra møc tin cËy cho −íc l−îng kho¶ng tin cËy cña hÖ sè
noconstant Kh«ng cã hÖ sè (intercept) trong h m håi quy
noheader ChØ hiÓn thÞ kÕt qu¶ ph©n tÝch vÒ c¸c hÖ sè
beta HiÓn thÞ hÖ sè ®−îc chuÈn ho¸, dïng ®Ó so s¸nh møc ®é ¶nh h−ëng cña c¸c hÖ
sè víi nhau
Ph−¬ng ph¸p kh¶ n¨ng lín nhÊt (Maximum-Likelihood)
Có ph¸p:
probit <biÕn phô thuéc> [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, tuú chän]
LÖnh n y thùc hiÖn håi quy biÕn phô thuéc theo c¸c biÕn ®−îc chØ ra trong danh s¸ch biÕn theo ph−¬ng
ph¸p kh¶ n¨ng lín nhÊt. BiÕn phô thuéc th−êng l biÕn gi¶ víi hai gi¸ trÞ 0 v 1.
VÝ dô:
. probit poor reg7 sex hhsize
Iteration 0: log likelihood = -3645.1363
Iteration 1: log likelihood = -3367.2185
Iteration 2: log likelihood = -3364.8032
Iteration 3: log likelihood = -3364.8025
Probit estimates Number of obs = 5999
LR chi2(3) = 560.67
Prob > chi2 = 0.0000
Log likelihood = -3364.8025 Pseudo R2 = 0.0769
------------------------------------------------------------------------------
poor | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
reg7 | -.116342 .0084551 -13.76 0.000 -.1329136 -.0997703
sex | -.1284525 .0422247 -3.04 0.002 -.2112113 -.0456937
hhsize | .1808115 .0095806 18.87 0.000 .1620338 .1995892
_cons | -.8088731 .0824798 -9.81 0.000 -.9705306 -.6472157
------------------------------------------------------------------------------
53. 53
¦íc l−îng gi¸ trÞ biÕn phô thuéc v phÇn d−
Có ph¸p:
predict <tªn biÕn míi> [®iÒu kiÖn] [ph¹m vi] [, xb stdp resid]
LÖnh n y ®−îc thùc hiÖn sau lÖnh regress (hoÆc probit) ®Ó t¹o ra 1 biÕn míi cã gi¸ trÞ ®−îc tÝnh tuú
theo tuú chän ®−îc chØ ra.
C¸c tuú chän:
xb cho phÐp −íc l−îng gi¸ trÞ cña biÕn phô thuéc thu ®−îc tõ h m håi quy:
i10i XˆˆYˆ β+β=
stdp −íc l−îng sai sè chuÈn cña gia trÞ −íc l−îng:
),(CovX2)ˆ(VarX)(VarSE 10i1
2
i0i ββ−β+β=
redid −íc l−îng gi¸ trÞ phÇn d−:
iii YˆYe −=
VÝ dô:
predict exphat, xb
T¹o ra biÕn míi exphat cã gi¸ trÞ −íc l−îng cña biÕn phô thuéc (fitted value) theo hÖ sè thu ®−îc tõ
h m håi quy.
predict expres, resid
T¹o ra biÕn expres cã gi¸ trÞ cña phÇn d−.
KiÓm ®Þnh vÒ hÖ sè cña h m håi quy
Có ph¸p:
test [gi¸ trÞ biÓu thøc]
test [danh s¸ch biÕn]
testparm <danh s¸ch biÕn> [, equal ]
LÖnh test kiÓm ®Þnh c¸c gi¶ thiÕt vÒ hÖ sè cña h m håi quy võa míi ®−îc −íc l−îng
VÝ dô:
test urban98 =2000
KiÓm ®Þnh gi¶ thiÕt hÖ sè cña biÕn urban98 = 0
test region1 = region2
KiÓm ®Þnh gi¶ thiÕt hÖ sè cña biÕn region1 b»ng hÖ sè cña biÕn region2
test region1 = (region2+region3)/2
KiÓm ®Þnh gi¶ thiÕt vÒ quan hÖ gi÷a c¸c hÖ sè cña biÕn region1, region2, va region3
test region1 region2 region3
54. 54
KiÓm ®Þnh gi¶ thiÕt hÖ sè cña biÕn region1, region2, va region3 ®Òu b»ng 0
testparm region*
KiÓm ®Þnh gi¶ thiÕt vÒ cña hÖ sè cña biÕn region1 ®Õn region7 ®Òu b»ng 0
. tab reg7, gen(region)
Code by 7 |
regions | Freq. Percent Cum.
------------+-----------------------------------
region1 | 859 14.32 14.32
region2 | 1175 19.59 33.91
region3 | 708 11.80 45.71
region4 | 754 12.57 58.28
region5 | 368 6.13 64.41
region6 | 1023 17.05 81.46
region7 | 1112 18.54 100.00
------------+-----------------------------------
Total | 5999 100.00
. reg rlpcex1 urban98 region* sex educyr98 hhsize
Source | SS df MS Number of obs = 5999
-------------+------------------------------ F( 10, 5988) = 382.87
Model | 1.6960e+10 10 1.6960e+09 Prob > F = 0.0000
Residual | 2.6525e+10 5988 4429712.49 R-squared = 0.3900
-------------+------------------------------ Adj R-squared = 0.3890
Total | 4.3485e+10 5998 7249918.40 Root MSE = 2104.7
------------------------------------------------------------------------------
rlpcex1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
urban98 | 1995.163 66.46943 30.02 0.000 1864.859 2125.467
region1 | -923.7066 132.8334 -6.95 0.000 -1184.108 -663.3052
region2 | -362.6047 130.2254 -2.78 0.005 -617.8934 -107.316
region3 | -558.0354 137.1551 -4.07 0.000 -826.9089 -289.1619
region4 | -100.7586 135.8372 -0.74 0.458 -367.0486 165.5313
region5 | (dropped)
region6 | 1742.688 131.9928 13.20 0.000 1483.934 2001.441
region7 | 151.9854 128.0272 1.19 0.235 -98.99396 402.9648
sex | 270.9142 66.61031 4.07 0.000 140.3339 401.4944
educyr98 | 153.3281 6.836934 22.43 0.000 139.9253 166.731
hhsize | -257.691 14.73741 -17.49 0.000 -286.5816 -228.8004
_cons | 2362.355 178.3197 13.25 0.000 2012.784 2711.926
------------------------------------------------------------------------------
. test urban98 =2000
( 1) urban98 = 2000.0
F( 1, 5988) = 0.01
Prob > F = 0.9420
. test region1 = region2
( 1) region1 - region2 = 0.0
F( 1, 5988) = 34.57
55. 55
Prob > F = 0.0000
. test region1 = (region2+region3)/2
( 1) region1 - .5 region2 - .5 region3 = 0.0
F( 1, 5988) = 27.80
Prob > F = 0.0000
. test region1 region2 region3
( 1) region1 = 0.0
( 2) region2 = 0.0
( 3) region3 = 0.0
F( 3, 5988) = 20.22
Prob > F = 0.0000
. testparm region*
( 1) region1 = 0.0
( 2) region2 = 0.0
( 3) region3 = 0.0
( 4) region4 = 0.0
( 5) region5 = 0.0
( 6) region6 = 0.0
( 7) region7 = 0.0
Constraint 5 dropped
F( 6, 5988) = 148.55
Prob > F = 0.0000
Ch−¬ng IV: VÏ ®å thÞ
1. VÏ ®å thÞ (graph)
Có ph¸p:
56. 56
graph [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi] [, lo¹i_®å_thÞ tuú_chän_riªng
tuú_chän_chung]
Trong ®ã:
lo¹i_®å_thÞ (graph_type) ChØ ra lo¹i ®å thÞ cÇn vÏ
tuú_chän_riªng (specific_options) C¸c tuú chän liªn quan ®Õn tõng lo¹i ®å thÞ
tuú_chän_chung (common_options) C¸c tuú chän cã thÓ sö dông chung cho c¸c lo¹i ®å thÞ nh− tuú
chän vÒ ®¸nh nh n trªn c¸c trôc cña ®å thÞ
Stata cho phÐp vÏ 8 lo¹i ®å thÞ nh− sau (graph_type):
(1) §å thÞ 2 chiÒu (two-way scatterplots)
. graph rlpcex1 age
comp.M&Regpriceadj.pctotexp
Age of household head
16 95
357.318
45801.7
(2) Ma trËn ®å thÞ 2 chiÒu (two-way scatterplot matrices)
. gr rlpcex1 age educyr98 hhsize, matrix
57. 57
comp.M&Reg price
adj.pc tot exp
16
95
357.318 45801.7
1
19
16 95
Age of household
head
schooling year
of HH.head
0 22
357.318
45801.7
1 19
0
22
Household size
(3) §å thÞ tÇn suÊt (histograms)
. gr rlpcex1, bin(50) normal
Fraction
comp.M&Reg price adj.pc tot exp
357.318 45801.7
0
.329888
(4) §å thÞ r¶i mét chiÒu (one-way scatterplots)
. gr rlpcex1, oneway
58. 58
comp.M&Reg price adj.pc tot exp357.318 45801.71
(5) §å thÞ h×nh hép (box-and-whisker plots)
357.318
45801.7
comp.M&Reg price adj.pc tot exp
(6) §å thÞ cét (bar chart)
. sort reg7
. gr poor, bar means by(reg7)
59. 59
0
.498254
poor
1 2 3 4 5 6 7
(7) §å thÞ h×nh trßn (pie charts)
. for num 1/7: gen poorX=poor if reg7==X
-> gen poor1=poor if reg7==1
(5140 missing values generated)
-> gen poor2=poor if reg7==2
(4824 missing values generated)
-> gen poor3=poor if reg7==3
(5291 missing values generated)
-> gen poor4=poor if reg7==4
(5245 missing values generated)
-> gen poor5=poor if reg7==5
(5631 missing values generated)
-> gen poor6=poor if reg7==6
(4976 missing values generated)
-> gen poor7=poor if reg7==7
(4887 missing values generated)
. graph poor1-poor7, pie
60. 60
24% poor1
16% poor2
16% poor3
12% poor4
10% poor5
4% poor6
18% poor7
(8) §å thÞ h×nh sao (star charts)
chart_type l star
Price
Mileage (mpg)
Repair Record 1978
Headroom (in.)
Trunk space (cu. ft.)
Weight (lbs.)
Length (in.)
Turn Circle (ft.)
Displacement (cu. in.)
Audi 5000 Audi Fox BMW 320i Datsun 200 Datsun 210
Datsun 510 Datsun 810 Fiat Strada Honda Accord Honda Civic
Mazda GLC Renault Subaru Toyota Celica Toyota Corolla
Toyota Corona VW Dasher VW Diesel VW Rabbit VW Scirocco
Volvo 260
C¸c lùa chän chung (common_options)
* T¹o tÖp sè liÖu
. tabulate hhsize, sum (rlpcex1)
| Summary of comp.M&Reg price adj.pc
Household | tot exp
size | Mean Std. Dev. Freq.
------------+------------------------------------
1 | 4696.0254 4619.5012 214
61. 61
2 | 4131.4892 3677.2297 497
3 | 3834.8615 2913.8177 731
4 | 3428.8011 2599.7301 1404
5 | 2930.5486 2168.0644 1318
6 | 2626.6848 2277.1893 867
7 | 2501.0912 2186.1605 480
8 | 2329.7009 1803.7873 255
9 | 2207.0166 1380.5607 126
10 | 2252.3772 1423.7576 58
11 | 2370.7034 1404.7148 29
12 | 1747.3691 924.72977 9
13 | 2114.1337 2109.0077 4
14 | 1579.78 990.81152 4
16 | 2994.5771 2061.6804 2
19 | 4833.936 0 1
------------+------------------------------------
Total | 3188.6671 2692.5673 5999
. tab hhsize, sum(educyr98)
| Summary of schooling year of
Household | HH.head
size | Mean Std. Dev. Freq.
------------+------------------------------------
1 | 3.7897196 4.3956537 214
2 | 5.7545272 4.7225549 497
3 | 7.3023256 4.6396425 731
4 | 8.2578348 4.2659841 1404
5 | 7.7243298 4.2998488 1318
6 | 6.8788927 4.0778062 867
7 | 6.3348958 4.1241759 480
8 | 5.7333333 3.9623557 255
9 | 5.7936508 3.4878474 126
10 | 6.1724138 3.1851516 58
11 | 4.7931034 3.1665586 29
12 | 4.4444444 3.6438685 9
13 | 5 5.0990195 4
14 | 3 2.1602469 4
16 | 4 1.4142136 2
19 | 2 0 1
------------+------------------------------------
Total | 7.0944185 4.4160917 5999
. replace meanexp= meanexp/1000
(16 real changes made)
. replace meanexp= meanexp/1000
. rename var71 ahhsize
. rename var72 meanexp
. rename var73 meanedu
. replace meanexp= meanexp/1000
. label var meanexp “Chi tieu binh quan”
. label var meanedu “So nam hoc”
. label var ahhsize “Quy mo ho”
* C¸c tuú chän vÒ tiªu ®Ò v trôc to¹ ®é
LÊy vÝ dô ®å thÞ 2 chiÒu, trôc tung thÓ hiÖn chi tiªu b×nh qu©n v sè n¨m häc b×nh qu©n cña chñ hé,
trôc ho nh thÓ hiÖn quy m« hé gia ®×nh.
. gr meanexp meanedu ahhsize
62. 62
ahhsize
meanexp meanedu
1 19
1.57978
8.25783
* Lùa chän vÒ tiªu ®Ò:
title("chuçi ký tù") t1title("chuçi ký tù") t2title("chuçi ký tù") b1title("chuçi ký tù")
b2title("chuçi ký tù") l1title("chuçi ký tù") l2title("chuçi ký tù") r1title("chuçi ký tù")
r2title("chuçi ký tù")
LÖnh n y ghi c¸c tiªu ®Ò trªn phÝa trªn (top), phÝa d−íi (bottom), bªn tr¸i (left) v bªn ph¶i (right) ®å
thÞ.
VÝ dô:
gr meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh quan (tr
dong)) l2title(So nam hoc cua chu ho) b2title (Quy mo ho gia dinh)
Chitieubinhquan(trdong)
Sonamhoccuachuho
Do thi chi tieu va hoc van chu ho
Quy mo ho gia dinh
Chi tieu binh quan So nam hoc
1 19
1.57978
8.25783
63. 63
* HiÓn thÞ gi¸ trÞ trôc ®å thÞ
xlabel[(gi¸ trÞ sè)] ylabel[(gi¸ trÞ sè)] rlabel[(gi¸ trÞ sè)] tlabel[(gi¸ trÞ sè)]
VÝ dô:
gr meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh quan (tr
dong)) l2title(So nam hoc cua chu ho) b2title (Quy mo ho gia dinh) xlabel ylabel
Chitieubinhquan(trdong)
Sonamhoccuachuho
Do thi chi tieu va hoc van chu ho
Quy mo ho gia dinh
Chi tieu binh quan So nam hoc
0 5 10 15 20
2
4
6
8
Chó ý: C¸c lùa chän kh¸c cã thÓ xem ë phÇn help b»ng lÖnh: help graxes
C¸c tuú chän vÒ ®−êng nèi
xline[(gi¸ trÞ sè)] yline[(gi¸ trÞ sè)] rline[(gi¸ trÞ sè)] tline[(gi¸ trÞ sè)]
connect(c[[p]] ... c[[p]])
VÝ dô:
. gr meanexp meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh quan (tr
dong)) l2title(So nam hoc cua chu ho) b2title (Quy mo ho gia dinh) xlabel ylabel xline (5 10 to 20)
yline(2 4 to 8) connect(ll)
64. 64
Chitieubinhquan(trdong)
Sonamhoccuachuho
Do thi chi tieu va hoc van chu ho
Quy mo ho gia dinh
Chi tieu binh quan So nam hoc
0 5 10 15 20
2
4
6
8
2. Mét sè lo¹i ®å thÞ th−êng dïng
2.1. §å thÞ 2 chiÒu
Có ph¸p:
graph [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi], twoway [tuú_chän_chung rescale]
Tuú chän rescale cho phÐp hiÖn thÞ hai trôc tung víi gi¸ trÞ kh¸c nhau
. gen meanexp1=meanexp*1000
. label var meanexp1 "Chi tieu binh quan"
. gr meanexp1 meanedu ahhsize, title (Do thi chi tieu va hoc van chu ho) l1title(Chi tieu binh quan
(nghin dong)) b2title (Quy mo ho gia dinh) xlabel ylabel rlabel(2 4 to 8) connect(ll) rescale
65. 65
Chitieubinhquan(nghindong)
Do thi chi tieu va hoc van chu ho
Quy mo ho gia dinh
Sonamhoc
Chi tieu binh quan So nam hoc
0 5 10 15 20
1000
2000
3000
4000
5000
2
4
6
8
2.2. §å thÞ tÇn suÊt
Có ph¸p:
graph [biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi], histogram [tuú_chän_chung bin(#) freq
normal[(#,#)] density(#)]
C¸c tuú chän:
bin(#) ChØ ra sè l−îng kho¶ng cho ®å thÞ, gi¸ trÞ ngÇm ®Þnh l bin(5)
Freq Gi¸ trÞ tÇn suÊt sÏ ®−îc hiÓn thÞ trªn trôc tung
normal[(#,#)] VÏ h m ph©n phèi chuÈn
density(#)] §−îc dïng víi lùa chän normal, chØ ra sè l−îng ®iÓm ®Ó −íc l−îng
h m mËt ®é theo ph©n phèi chuÈn
VÝ dô:
§å thÞ tÇn suÊt cña chi tiªu binh qu©n ®Çu ng−êi
. gr rlpcex1, hist bin(20) normal
66. 66
Fraction
comp.M&Reg price adj.pc tot exp
357.318 45801.7
0
.56026
. gr rlpcex1, hist bin(50) normal freq
Frequency
comp.M&Reg price adj.pc tot exp
357.318 45801.7
0
1979
. gr rlpcex1, hist bin(50) normal freq by(reg7)
67. 67
Frequency
Histograms by Code by 7 regions
comp.M&Reg price adj.pc tot exp
region1
0
415
region2 region3
region4
0
415
region5
357.318 45801.7
region6
357.318 45801.7
region7
357.318 45801.7
0
415
2.3. §å thÞ h×nh cét
Có ph¸p:
graph [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi], bar [tuú_chän_chung [no]alt means
stack]
VÝ dô:
§å thÞ gi¸ trÞ trung b×nh häc vÊn cña chñ hé v quy m« hé gia ®×nh theo 7 vïng
. gr educyr98 hhsize, bar means by(reg7)
0
8.64426
schooling year of HH.head Household size
1 2 3 4 5 6 7
. label define region 1 "region1" 2 "region2" 3 "region3" 4 "region4" 5 "region5" 6 "region6" 7
"region7"
68. 68
. label values reg7 region
. tab reg7
Code by 7 |
regions | Freq. Percent Cum.
------------+-----------------------------------
region1 | 859 14.32 14.32
region2 | 1175 19.59 33.91
region3 | 708 11.80 45.71
region4 | 754 12.57 58.28
region5 | 368 6.13 64.41
region6 | 1023 17.05 81.46
region7 | 1112 18.54 100.00
------------+-----------------------------------
Total | 5999 100.00
. gr educyr98 hhsize, bar means by(reg7) ylabel( 2 4 to 10) alt
2
4
6
8
10
schooling year of HH.head Household size
region1
region2
region3
region4
region5
region6
region7
Lùa chän stack
. gen persons=1
. gr persons urban98, bar ylabel by(reg7) stack alt
69. 69
0
500
1000
1500
persons 1:urban 98; 0:rural 98
region1
region2
region3
region4
region5
region6
region7
VÝ dô:
H y vÔ ®å thÞ sau:
0
200
400
600
foodpoor poor
region1
region2
region3
region4
region5
region6
region7
2.4. §å thÞ h×nh trßn
Có ph¸p:
graph [danh s¸ch biÕn] [quyÒn sè] [®iÒu kiÖn] [ph¹m vi], pie [tuú_chän_chung]
LÖnh n y vÏ ®å thÞ h×nh trßn Mèi biÕn sÏ chiÕm 1 phÇn cña h×nh trßn v tû lÖ cña phÇn n y do tæng gi¸
trÞ cña c¸c quan s¸t cu¶ biÕn ®ã quyÕt ®Þnh.
VÝ dô:
VÏ ®å thÞ tû lÖ phÇn tr¨m sè ng−êi nghÌo cña mçi vïng trªn tæng sè ng−êi nghÌo cña c¶ n−íc.
. gr poor1-poor7, pie
70. 70
24% poor1
16% poor2
16% poor3
12% poor4
10% poor5
4% poor6
18% poor7
. gen nonfpood=poor- foodpoor
. label var nonfpood "poor but still above food poverty line"
. gen nonpoor=( rlpcex1>=1790)
. gr foodpoor nonfpood nonpoor, pie
. set textsize 90
12% foodpoor
18% poor but still above food povert
70% nonpoor
. set textsize 100
. gr foodpoor nonfpood nonpoor, pie by(reg7) total
71. 71
12% foodpoor
18% poor but still above food povert
70% nonpoor
region1 region2 region3
region4 region5 region6
region7 Total
3. L−u tr÷ v hiÓn thÞ ®å thÞ (Saving and graph using)
§Ó l−u tr÷ ®å thÞ th× t¹i cöa sæ graph, v o thùc ®¬n File, chän Save graph, sau ®ã lùa chän ®−êng dÉn
v tªn file cho ®å thÞ, phÇn më réng ngÇm ®Þnh l gph.
§å thÞ còng cã thÓ ®−îc l−u tr÷ b»ng tuú chän saving(tªn tÖp [,replace]) viÕt sau lÖnh graph
VÝ dô:
. gr educyr98 hhsize, bar means by(reg7) ylabel( 2 4 to 10) alt saving ("c: do thi 1")
. gr persons urban98, bar ylabel by(reg7) stack alt saving("c:do thi 2")
§Ó kh«ng hiÓn thÞ ®å thÞ th× cã thÓ dïng lÖnh t¾t chÕ ®é hiÓn thÞ ®å thÞ b»ng lÖnh
set graphics { on | off }
. set graphics off
. gr poor1-poor7, pie saving ("c:do thi 3", replace)
(note: file c:do thi 3.gph not found)
Stata cho phÐp hiÓn thÞ c¸c ®å thÞ ® l−u tr÷ b»ng lÖnh:
graph using <tÖp tÖp ®å thÞ 1> [tÖp tÖp ®å thÞ 2 ...] [, margin(#)]
margin(#) chØ ra kho¶ng c¸ch lÒ bao quanh ®å thÞ theo gi¸ trÞ phÇn tr¨m cña diÖn tÝch ®å thÞ. Gi¸ trÞ
ngÇm ®Þnh l 0.
VÝ dô:
. set graphics on
72. 72
. graph using "c:do thi 1" "c:do thi 2" "c:do thi 3", margin(10) title("Mot so dac diem cua ho gia
dinh")
Mot so dac diem cua ho gia dinh
12% foodpoor
18% poor but still above food povert
70% nonpoor
region1 region2 region3
region4 region5 region6
region7 Total
0
500
1000
1500
persons 1:urban 98; 0:rural 98
region1
region2
region3
region4
region5
region6
region7
24% poor1
16% poor2
16% poor3
12% poor4
10% poor5
4% poor6
18% poor7
Chó ý:
Chóng ta co thÓ kÕt hîp lÖnh saving víi using ®Ó l−u tr÷ ra ®å thÞ míi. VÝ dô:
. graph using "c:do thi 1" "c:do thi 2" "c:do thi 3", margin(10) title("Mot so dac die m cua ho gia
dinh") saving("c:do thi tong hop")
. graph using "c:do thi tong hop"