1 1

評価とその研究方法について

評価と測定
 「測定」＝比較的限定された現象を客観的
な手段、尺度によって数値化する。
 「評価」＝事象の優劣、善悪などについて
価値判断を下すこと

評価の妥当性の判断には専門的検証
と間主観性に頼らざるを得ない。

言語能力の測定と評価
 測定対象
 タスクと評価基準
測定  採点者の主観
 要素の重み付け（上位能力と下位能力）

評価
１）「総括的評価」か「形成的評価」か？
２）内部評価か外部評価か？
３）自己評価か評価者による客観的評価か
＊評価者に対する評価、或いは使用される基準に対する評価はどのように
なされるべきか？

テストの性格
どのような能力を測るのかという視点から。。。
１）熟達度テスト（ＰｒｏｆｉｃｉｅｎｃｙＴｅｓｔ）
＝実力テスト
２）到達度テスト（ＡｃｈｉｅｖｅｍｅｎｔＴｅｓｔ）
=ミクロ（教授内容への準拠）とマクロ
（実力テストに近い。。。入試など）
＊スピーキングとライティングは運用力テスト
(Performance Test)
＊使用目的により選抜テスト、診断テストなどにな
る。

別の基準から見ると。。。
１）集団準拠型テスト（Ｎｏｒｍ-referenced
Test)=Screening Test, Placement Testなど、
より広く分散する方が望ましいもの（相対評価）
２）基準準拠型テスト（Criterion-referenced
Test)=Diagnostic Testや狭義の到達度判定
テストのように、あるcut-off点を越えれば、学生
の習得度や指導の効果が確認できるもの。
（絶対評価）

「良い問題」を作る難しさ
信頼性は高くても必ずしも妥当性は良くない

でも妥当化はとても大変！

ある問題が、教授内容、既習事項に合っているか、
測るべき能力を測っているか、を判定するのは大
変multi-facetedな作業です。

文法項目の例
1. She ( ) away for an errand right now.
You have to call back later.
a) was b) is c) may have been
d) can’t be

a) was b) is c) will be
d) had(has) been

問題のある項目
10. I hear that your parents live in Kobe. How far is it
from here?

A. It’s ten kilometers long. (42%)
B. I come from Osaka. (15%)
C. It’s a thirty-minute drive. (29%)
D. I also live in Kobe. (13%)

読解問題について
 読解問題の種類(全てのカテゴリーに対
してglobalなものとlocalなものがある）
１）Main-theme Question
２）Recycling Question
3) Word-in-context Question
４）Judgment/Implication Question
*スキルを問うのか、語彙や内容も合わ
せて問うのか？

能力観の変遷
１．Divisible Competence （５０年代まで）
*Audio-lingualの時代。能力は個別に測れるという考え
方でDiscrete-point Test中心。
２．Unitary Competence （６０－８０年代）
*全ての能力を支える普遍的Communicative
Competenceがあるという考え方に基づく。科学的、
客観的なIntegrative Test、標準テストの時代へ。
3. Multidimensional Competence （８０年代以降）
* 能力には関連するものもしないものもあってその関係
は多様、運用力に徐々に脚光。

能力の諸相
 Canale & Swain
Grammatical, Discoursal, Sociolinguistic, Strategic
 Backman
Organizational(grammatical/textual)と
Pragmatic(illocutional/sociolinguistic)
*文法問題でライティングの力をどれだけ測れるのか？
発信能力（スピーキング、ライティング能力）の測定の難しさ

実際のコミュニケーションの場で何ができるか
を測る標準的基準の設定努力（can-do list)

Xcalibreによる分析

FINAL ITEM PARAMETER ESTIMATES
Ｉｔｅｍ Lnk Flg a b c Resid PC PBs PBt N

1 0.63 -0.66 0.24 0.91 0.73 0.35 0.37 1424
2 0.51 -0.89 0.26 1.19 0.76 0.26 0.27 1424
3 0.82 0.13 0.24 0.29 0.6 0.43 0.43 1424
4 1.01 0 0.23 0.55 0.62 0.5 0.51 1424
5 0.98 -0.09 0.23 0.24 0.64 0.49 0.49 1424
6 1.04 0.14 0.22 0.83 0.58 0.51 0.51 1424
7 1.1 0.46 0.2 0.73 0.5 0.51 0.51 1424
8 0.98 0.89 0.23 0.7 0.44 0.4 0.39 1424
9 1.08 0.13 0.21 0.8 0.58 0.54 0.54 1424
10 K 0.97 2.73 0.26 0.72 0.29 0.09 0.06 1424
11 1.01 -0.67 0.23 0.61 0.76 0.49 0.52 1424
12 0.89 -0.6 0.23 0.64 0.74 0.47 0.49 1424
13 0.98 -0.82 0.23 0.37 0.78 0.46 0.5 1424
14 0.86 -0.58 0.23 0.48 0.73 0.45 0.48 1424
15 0.72 0.32 0.24 0.61 0.57 0.39 0.38 1424
16 1.09 0.71 0.24 0.95 0.48 0.44 0.42 1424
17 0.87 1.43 0.27 0.55 0.4 0.27 0.25 1424
18 0.78 1.09 0.24 0.45 0.44 0.33 0.31 1424
19 0.7 0.18 0.22 0.9 0.58 0.4 0.4 1424
20 1.09 1.11 0.23 0.67 0.4 0.38 0.36 1424
21 0.77 1.03 0.25 0.6 0.45 0.33 0.31 1424
22 0.77 0.29 0.23 0.5 0.57 0.42 0.42 1424
23 0.99 2 0.26 0.83 0.33 0.17 0.13 1424
24 0.74 0.61 0.23 0.96 0.51 0.38 0.38 1424
25 0.67 0.6 0.24 0.98 0.53 0.35 0.34 1424

Item Analysis

Endorsement Rate
Item 1 2 3 4 Oth

1 73~ 16 5 5
2 3 18 75~ 4
3 10 7 60~ 22
4 17 13 8 62~
5 12 64~ 13 10
6 58~ 14 15 12
7 8 22 49~ 20
8 15 31 44~ 10
9 20 8 14 57~
10 42 15 29~ 13
11 75~ 12 5 7
12 73~ 6 13 7
13 4 9 78~ 9
14 7 73~ 15 4
15 4 7 57~ 32
16 19 23 9 48~
17 40~ 21 16 23
18 22 18 43~ 15
19 7 6 58~ 28
20 22 18 39~ 20
21 45~ 27 18 9
22 8 20 56~ 15
23 10 15 33~ 41
24 15 14 51~ 19
25 17 18 52~ 11

問題のある項目

 P= Potentially problematic item:
a value< 0.30, b value>2.95, c value<-2.95,
c value>0.40
 K= Keying error:
One of the incorrect options has a higher correlation
with total score than does the correct (keyed)
response.
 R= Model fit:
The standardized residual statistic exceeded a value
of 2.0.

1 1

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (14)

1 1