SlideShare a Scribd company logo
1 of 14
Download to read offline
評価とその研究方法について
評価と測定
   「測定」=比較的限定された現象を客観的
    な手段、尺度によって数値化する。
   「評価」=事象の優劣、善悪などについて
    価値判断を下すこと

     評価の妥当性の判断には専門的検証
    と間主観性に頼らざるを得ない。
言語能力の測定と評価
        測定対象
        タスクと評価基準
測定      採点者の主観
        要素の重み付け(上位能力と下位能力)

     評価
1)「総括的評価」か「形成的評価」か?
2)内部評価か外部評価か?
3)自己評価か評価者による客観的評価か
*評価者に対する評価、或いは使用される基準に対する評価はどのように
 なされるべきか?
テストの性格
どのような能力を測るのかという視点から。。。
1)熟達度テスト(Proficiency Test)
    =実力テスト
2)到達度テスト(Achievement Test)
    =ミクロ(教授内容への準拠)とマクロ
     (実力テストに近い。。。入試など)
*スピーキングとライティングは運用力テスト
  (Performance Test)
* 使用目的により選抜テスト、診断テストなどにな
  る。
別の基準から見ると。。。
1)集団準拠型テスト(Norm-referenced
  Test)=Screening Test, Placement Testなど、
  より広く分散する方が望ましいもの(相対評価)
2)基準準拠型テスト(Criterion-referenced
   Test)=Diagnostic Testや狭義の到達度判定
  テストのように、あるcut-off点を越えれば、学生
  の習得度や指導の効果が確認できるもの。
   (絶対評価)
「良い問題」を作る難しさ
信頼性は高くても必ずしも妥当性は良くない


 でも妥当化はとても大変!

ある問題が、教授内容、既習事項に合っているか、
測るべき能力を測っているか、を判定するのは大
変multi-facetedな作業です。
文法項目の例
1. She (      ) away for an errand right now.
    You have to call back later.
    a) was b) is c) may have been
    d) can’t be

   a) was b) is c) will be
   d) had(has) been
問題のある項目
10. I hear that your parents live in Kobe. How far is it
    from here?

     A.   It’s ten kilometers long. (42%)
     B.   I come from Osaka. (15%)
     C.   It’s a thirty-minute drive. (29%)
     D.   I also live in Kobe. (13%)
読解問題について
   読解問題の種類(全てのカテゴリーに対
    してglobalなものとlocalなものがある)
    1)Main-theme Question
    2)Recycling Question
    3) Word-in-context Question
    4)Judgment/Implication Question
    *スキルを問うのか、語彙や内容も合わ
    せて問うのか?
能力観の変遷
1.Divisible Competence (50年代まで)
  *Audio-lingualの時代。能力は個別に測れるという考え
 方でDiscrete-point Test中心。
2.Unitary Competence (60-80年代)
  *全ての能力を支える普遍的Communicative
   Competenceがあるという考え方に基づく。科学的、
   客観的なIntegrative Test、標準テストの時代へ。
3. Multidimensional Competence (80年代以降)
  * 能力には関連するものもしないものもあってその関係
    は多様、運用力に徐々に脚光。
能力の諸相
   Canale & Swain
    Grammatical, Discoursal, Sociolinguistic, Strategic
   Backman
    Organizational(grammatical/textual)と
    Pragmatic(illocutional/sociolinguistic)
*文法問題でライティングの力をどれだけ測れるのか?
 発信能力(スピーキング、ライティング能力)の測定の難しさ

            実際のコミュニケーションの場で何ができるか
            を測る標準的基準の設定努力(can-do list)
Xcalibreによる分析

        FINAL ITEM PARAMETER ESTIMATES
Item   Lnk   Flg    a       b       c     Resid   PC     PBs    PBt    N

 1                 0.63    -0.66   0.24    0.91   0.73   0.35   0.37   1424
 2                 0.51    -0.89   0.26    1.19   0.76   0.26   0.27   1424
 3                 0.82    0.13    0.24    0.29   0.6    0.43   0.43   1424
 4                 1.01    0       0.23    0.55   0.62   0.5    0.51   1424
 5                 0.98    -0.09   0.23    0.24   0.64   0.49   0.49   1424
 6                 1.04    0.14    0.22    0.83   0.58   0.51   0.51   1424
 7                 1.1     0.46    0.2     0.73   0.5    0.51   0.51   1424
 8                 0.98    0.89    0.23    0.7    0.44   0.4    0.39   1424
 9                 1.08    0.13    0.21    0.8    0.58   0.54   0.54   1424
 10          K     0.97    2.73    0.26    0.72   0.29   0.09   0.06   1424
 11                1.01    -0.67   0.23    0.61   0.76   0.49   0.52   1424
 12                0.89    -0.6    0.23    0.64   0.74   0.47   0.49   1424
 13                0.98    -0.82   0.23    0.37   0.78   0.46   0.5    1424
 14                0.86    -0.58   0.23    0.48   0.73   0.45   0.48   1424
 15                0.72    0.32    0.24    0.61   0.57   0.39   0.38   1424
 16                1.09    0.71    0.24    0.95   0.48   0.44   0.42   1424
 17                0.87    1.43    0.27    0.55   0.4    0.27   0.25   1424
 18                0.78    1.09    0.24    0.45   0.44   0.33   0.31   1424
 19                0.7     0.18    0.22    0.9    0.58   0.4    0.4    1424
 20                1.09    1.11    0.23    0.67   0.4    0.38   0.36   1424
 21                0.77    1.03    0.25    0.6    0.45   0.33   0.31   1424
 22                0.77    0.29    0.23    0.5    0.57   0.42   0.42   1424
 23                0.99    2       0.26    0.83   0.33   0.17   0.13   1424
 24                0.74    0.61    0.23    0.96   0.51   0.38   0.38   1424
 25                0.67    0.6     0.24    0.98   0.53   0.35   0.34   1424
Item Analysis

  Endorsement Rate
Item      1          2     3     4     Oth

 1        73~        16    5     5
 2        3          18    75~   4
 3        10         7     60~   22
 4        17         13    8     62~
 5        12         64~   13    10
 6        58~        14    15    12
 7        8          22    49~   20
 8        15         31    44~   10
 9        20         8     14    57~
 10       42         15    29~   13
 11       75~        12    5     7
 12       73~        6     13    7
 13       4          9     78~   9
 14       7          73~   15    4
 15       4          7     57~   32
 16       19         23    9     48~
 17       40~        21    16    23
 18       22         18    43~   15
 19       7          6     58~   28
 20       22         18    39~   20
 21       45~        27    18    9
 22       8          20    56~   15
 23       10         15    33~   41
 24       15         14    51~   19
 25       17         18    52~   11
問題のある項目

   P= Potentially problematic item:
    a value< 0.30, b value>2.95, c value<-2.95,
    c value>0.40
   K= Keying error:
    One of the incorrect options has a higher correlation
    with total score than does the correct (keyed)
    response.
   R= Model fit:
    The standardized residual statistic exceeded a value
    of 2.0.

More Related Content

Viewers also liked (14)

Los Juegos del Hambre
Los Juegos del HambreLos Juegos del Hambre
Los Juegos del Hambre
 
1 5
1 51 5
1 5
 
1 3-2
1 3-21 3-2
1 3-2
 
Animasi
AnimasiAnimasi
Animasi
 
1 3-1
1 3-11 3-1
1 3-1
 
Perancangan Komunikasi Visual 82 Tahun PT. Jamu Indonesia Simona Semarang
Perancangan Komunikasi Visual 82 Tahun PT. Jamu Indonesia Simona SemarangPerancangan Komunikasi Visual 82 Tahun PT. Jamu Indonesia Simona Semarang
Perancangan Komunikasi Visual 82 Tahun PT. Jamu Indonesia Simona Semarang
 
Bibliopaper 2016
Bibliopaper 2016Bibliopaper 2016
Bibliopaper 2016
 
Hindu budha marsha rp-42410173
Hindu budha marsha rp-42410173Hindu budha marsha rp-42410173
Hindu budha marsha rp-42410173
 
2 4
2 42 4
2 4
 
Pingos de Ciência
Pingos de CiênciaPingos de Ciência
Pingos de Ciência
 
Pingos de ciência
Pingos de ciênciaPingos de ciência
Pingos de ciência
 
Fórum de leitura
Fórum de leituraFórum de leitura
Fórum de leitura
 
Evidências das be do agrupamento
Evidências das be do agrupamentoEvidências das be do agrupamento
Evidências das be do agrupamento
 
Ppt janeiro
Ppt janeiroPpt janeiro
Ppt janeiro
 

1 1

  • 2. 評価と測定  「測定」=比較的限定された現象を客観的 な手段、尺度によって数値化する。  「評価」=事象の優劣、善悪などについて 価値判断を下すこと 評価の妥当性の判断には専門的検証 と間主観性に頼らざるを得ない。
  • 3. 言語能力の測定と評価  測定対象  タスクと評価基準 測定  採点者の主観  要素の重み付け(上位能力と下位能力) 評価 1)「総括的評価」か「形成的評価」か? 2)内部評価か外部評価か? 3)自己評価か評価者による客観的評価か *評価者に対する評価、或いは使用される基準に対する評価はどのように なされるべきか?
  • 4. テストの性格 どのような能力を測るのかという視点から。。。 1)熟達度テスト(Proficiency Test) =実力テスト 2)到達度テスト(Achievement Test) =ミクロ(教授内容への準拠)とマクロ (実力テストに近い。。。入試など) *スピーキングとライティングは運用力テスト (Performance Test) * 使用目的により選抜テスト、診断テストなどにな る。
  • 5. 別の基準から見ると。。。 1)集団準拠型テスト(Norm-referenced Test)=Screening Test, Placement Testなど、 より広く分散する方が望ましいもの(相対評価) 2)基準準拠型テスト(Criterion-referenced Test)=Diagnostic Testや狭義の到達度判定 テストのように、あるcut-off点を越えれば、学生 の習得度や指導の効果が確認できるもの。 (絶対評価)
  • 7. 文法項目の例 1. She ( ) away for an errand right now. You have to call back later. a) was b) is c) may have been d) can’t be a) was b) is c) will be d) had(has) been
  • 8. 問題のある項目 10. I hear that your parents live in Kobe. How far is it from here? A. It’s ten kilometers long. (42%) B. I come from Osaka. (15%) C. It’s a thirty-minute drive. (29%) D. I also live in Kobe. (13%)
  • 9. 読解問題について  読解問題の種類(全てのカテゴリーに対 してglobalなものとlocalなものがある) 1)Main-theme Question 2)Recycling Question 3) Word-in-context Question 4)Judgment/Implication Question *スキルを問うのか、語彙や内容も合わ せて問うのか?
  • 10. 能力観の変遷 1.Divisible Competence (50年代まで) *Audio-lingualの時代。能力は個別に測れるという考え 方でDiscrete-point Test中心。 2.Unitary Competence (60-80年代) *全ての能力を支える普遍的Communicative Competenceがあるという考え方に基づく。科学的、 客観的なIntegrative Test、標準テストの時代へ。 3. Multidimensional Competence (80年代以降) * 能力には関連するものもしないものもあってその関係 は多様、運用力に徐々に脚光。
  • 11. 能力の諸相  Canale & Swain Grammatical, Discoursal, Sociolinguistic, Strategic  Backman Organizational(grammatical/textual)と Pragmatic(illocutional/sociolinguistic) *文法問題でライティングの力をどれだけ測れるのか? 発信能力(スピーキング、ライティング能力)の測定の難しさ 実際のコミュニケーションの場で何ができるか を測る標準的基準の設定努力(can-do list)
  • 12. Xcalibreによる分析 FINAL ITEM PARAMETER ESTIMATES Item Lnk Flg a b c Resid PC PBs PBt N 1 0.63 -0.66 0.24 0.91 0.73 0.35 0.37 1424 2 0.51 -0.89 0.26 1.19 0.76 0.26 0.27 1424 3 0.82 0.13 0.24 0.29 0.6 0.43 0.43 1424 4 1.01 0 0.23 0.55 0.62 0.5 0.51 1424 5 0.98 -0.09 0.23 0.24 0.64 0.49 0.49 1424 6 1.04 0.14 0.22 0.83 0.58 0.51 0.51 1424 7 1.1 0.46 0.2 0.73 0.5 0.51 0.51 1424 8 0.98 0.89 0.23 0.7 0.44 0.4 0.39 1424 9 1.08 0.13 0.21 0.8 0.58 0.54 0.54 1424 10 K 0.97 2.73 0.26 0.72 0.29 0.09 0.06 1424 11 1.01 -0.67 0.23 0.61 0.76 0.49 0.52 1424 12 0.89 -0.6 0.23 0.64 0.74 0.47 0.49 1424 13 0.98 -0.82 0.23 0.37 0.78 0.46 0.5 1424 14 0.86 -0.58 0.23 0.48 0.73 0.45 0.48 1424 15 0.72 0.32 0.24 0.61 0.57 0.39 0.38 1424 16 1.09 0.71 0.24 0.95 0.48 0.44 0.42 1424 17 0.87 1.43 0.27 0.55 0.4 0.27 0.25 1424 18 0.78 1.09 0.24 0.45 0.44 0.33 0.31 1424 19 0.7 0.18 0.22 0.9 0.58 0.4 0.4 1424 20 1.09 1.11 0.23 0.67 0.4 0.38 0.36 1424 21 0.77 1.03 0.25 0.6 0.45 0.33 0.31 1424 22 0.77 0.29 0.23 0.5 0.57 0.42 0.42 1424 23 0.99 2 0.26 0.83 0.33 0.17 0.13 1424 24 0.74 0.61 0.23 0.96 0.51 0.38 0.38 1424 25 0.67 0.6 0.24 0.98 0.53 0.35 0.34 1424
  • 13. Item Analysis Endorsement Rate Item 1 2 3 4 Oth 1 73~ 16 5 5 2 3 18 75~ 4 3 10 7 60~ 22 4 17 13 8 62~ 5 12 64~ 13 10 6 58~ 14 15 12 7 8 22 49~ 20 8 15 31 44~ 10 9 20 8 14 57~ 10 42 15 29~ 13 11 75~ 12 5 7 12 73~ 6 13 7 13 4 9 78~ 9 14 7 73~ 15 4 15 4 7 57~ 32 16 19 23 9 48~ 17 40~ 21 16 23 18 22 18 43~ 15 19 7 6 58~ 28 20 22 18 39~ 20 21 45~ 27 18 9 22 8 20 56~ 15 23 10 15 33~ 41 24 15 14 51~ 19 25 17 18 52~ 11
  • 14. 問題のある項目  P= Potentially problematic item: a value< 0.30, b value>2.95, c value<-2.95, c value>0.40  K= Keying error: One of the incorrect options has a higher correlation with total score than does the correct (keyed) response.  R= Model fit: The standardized residual statistic exceeded a value of 2.0.