1 12. 評価と測定
「測定」=比較的限定された現象を客観的
な手段、尺度によって数値化する。
「評価」=事象の優劣、善悪などについて
価値判断を下すこと
評価の妥当性の判断には専門的検証
と間主観性に頼らざるを得ない。
3. 言語能力の測定と評価
測定対象
タスクと評価基準
測定 採点者の主観
要素の重み付け(上位能力と下位能力)
評価
1)「総括的評価」か「形成的評価」か?
2)内部評価か外部評価か?
3)自己評価か評価者による客観的評価か
*評価者に対する評価、或いは使用される基準に対する評価はどのように
なされるべきか?
7. 文法項目の例
1. She ( ) away for an errand right now.
You have to call back later.
a) was b) is c) may have been
d) can’t be
a) was b) is c) will be
d) had(has) been
8. 問題のある項目
10. I hear that your parents live in Kobe. How far is it
from here?
A. It’s ten kilometers long. (42%)
B. I come from Osaka. (15%)
C. It’s a thirty-minute drive. (29%)
D. I also live in Kobe. (13%)
9. 読解問題について
読解問題の種類(全てのカテゴリーに対
してglobalなものとlocalなものがある)
1)Main-theme Question
2)Recycling Question
3) Word-in-context Question
4)Judgment/Implication Question
*スキルを問うのか、語彙や内容も合わ
せて問うのか?
10. 能力観の変遷
1.Divisible Competence (50年代まで)
*Audio-lingualの時代。能力は個別に測れるという考え
方でDiscrete-point Test中心。
2.Unitary Competence (60-80年代)
*全ての能力を支える普遍的Communicative
Competenceがあるという考え方に基づく。科学的、
客観的なIntegrative Test、標準テストの時代へ。
3. Multidimensional Competence (80年代以降)
* 能力には関連するものもしないものもあってその関係
は多様、運用力に徐々に脚光。
11. 能力の諸相
Canale & Swain
Grammatical, Discoursal, Sociolinguistic, Strategic
Backman
Organizational(grammatical/textual)と
Pragmatic(illocutional/sociolinguistic)
*文法問題でライティングの力をどれだけ測れるのか?
発信能力(スピーキング、ライティング能力)の測定の難しさ
実際のコミュニケーションの場で何ができるか
を測る標準的基準の設定努力(can-do list)
12. Xcalibreによる分析
FINAL ITEM PARAMETER ESTIMATES
Item Lnk Flg a b c Resid PC PBs PBt N
1 0.63 -0.66 0.24 0.91 0.73 0.35 0.37 1424
2 0.51 -0.89 0.26 1.19 0.76 0.26 0.27 1424
3 0.82 0.13 0.24 0.29 0.6 0.43 0.43 1424
4 1.01 0 0.23 0.55 0.62 0.5 0.51 1424
5 0.98 -0.09 0.23 0.24 0.64 0.49 0.49 1424
6 1.04 0.14 0.22 0.83 0.58 0.51 0.51 1424
7 1.1 0.46 0.2 0.73 0.5 0.51 0.51 1424
8 0.98 0.89 0.23 0.7 0.44 0.4 0.39 1424
9 1.08 0.13 0.21 0.8 0.58 0.54 0.54 1424
10 K 0.97 2.73 0.26 0.72 0.29 0.09 0.06 1424
11 1.01 -0.67 0.23 0.61 0.76 0.49 0.52 1424
12 0.89 -0.6 0.23 0.64 0.74 0.47 0.49 1424
13 0.98 -0.82 0.23 0.37 0.78 0.46 0.5 1424
14 0.86 -0.58 0.23 0.48 0.73 0.45 0.48 1424
15 0.72 0.32 0.24 0.61 0.57 0.39 0.38 1424
16 1.09 0.71 0.24 0.95 0.48 0.44 0.42 1424
17 0.87 1.43 0.27 0.55 0.4 0.27 0.25 1424
18 0.78 1.09 0.24 0.45 0.44 0.33 0.31 1424
19 0.7 0.18 0.22 0.9 0.58 0.4 0.4 1424
20 1.09 1.11 0.23 0.67 0.4 0.38 0.36 1424
21 0.77 1.03 0.25 0.6 0.45 0.33 0.31 1424
22 0.77 0.29 0.23 0.5 0.57 0.42 0.42 1424
23 0.99 2 0.26 0.83 0.33 0.17 0.13 1424
24 0.74 0.61 0.23 0.96 0.51 0.38 0.38 1424
25 0.67 0.6 0.24 0.98 0.53 0.35 0.34 1424
13. Item Analysis
Endorsement Rate
Item 1 2 3 4 Oth
1 73~ 16 5 5
2 3 18 75~ 4
3 10 7 60~ 22
4 17 13 8 62~
5 12 64~ 13 10
6 58~ 14 15 12
7 8 22 49~ 20
8 15 31 44~ 10
9 20 8 14 57~
10 42 15 29~ 13
11 75~ 12 5 7
12 73~ 6 13 7
13 4 9 78~ 9
14 7 73~ 15 4
15 4 7 57~ 32
16 19 23 9 48~
17 40~ 21 16 23
18 22 18 43~ 15
19 7 6 58~ 28
20 22 18 39~ 20
21 45~ 27 18 9
22 8 20 56~ 15
23 10 15 33~ 41
24 15 14 51~ 19
25 17 18 52~ 11
14. 問題のある項目
P= Potentially problematic item:
a value< 0.30, b value>2.95, c value<-2.95,
c value>0.40
K= Keying error:
One of the incorrect options has a higher correlation
with total score than does the correct (keyed)
response.
R= Model fit:
The standardized residual statistic exceeded a value
of 2.0.