Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

外国語教育研究における尺度の構成と妥当性検証

2,351 views

Published on

川口勇作 (2016, August). 「外国語教育研究における尺度の構成と妥当性検証」 草薙邦広・徳岡大・川口勇作 (2016). 外国語教育メディア学会 第56回全国研究大会 公募シンポジウム「外国語教育研究における多変量解析の諸問題:よりよい質問紙研究を目指して」. 早稲田大学. で使用したスライドです。

Published in: Education
  • Be the first to comment

外国語教育研究における尺度の構成と妥当性検証

  1. 1. 川口 勇作 名古屋大学大学院 y.kawaguchi@nagoya-u.jp 外国語教育メディア学会 第56回全国大会公募シンポジウム 外国語教育研究における多変量解析の諸問題: よりよい質問紙研究を目指して 外国語教育研究における 尺度の構成と妥当性検証
  2. 2. 背景 • 質問紙調査に必要な質問紙(尺度)をど のように準備するか 1. 先行研究で使われているものをそのまま 使う 2. 先行研究で作られたものをそのまま使う 3. 先行研究で使われた/作られたものに手を 加えて使う 4. 一から自作
  3. 3. 背景 • 本日の発表に関係する方 – これから質問紙を自作する方 – 海外で開発された外国語の質問紙を日本語 に翻訳する方 – 使用する/作成した質問紙が妥当性を満た しているかどうか検証する方
  4. 4. 内容 尺度の構成 尺度の翻訳 妥当性の検証
  5. 5. 尺度の構成
  6. 6. 尺度の構成 • 背景 – 尺度を構成する場合、自分で書き下ろした もの/修正したものをそのまま使うことは、 基本的に望ましくないとされる – 因子構造が明確ではないため • 対策 – 因子分析を用いる – 基本的な流れは、 探索的因子分析 → 検証的因子分析
  7. 7. 尺度構成に関するガイドライン • 前田・大和(2000) – SILLを用いた研究における分析方法と結果 の提示方法について – 因子分析を行う際の6項目の留意点を提示 • 前田(2000) – 外国語教育研究における因子分析について – 前田・大和(2000)の留意点に3項目追加
  8. 8. 1. 観測変数の分布を示す、またそれについての 言及を行うこと 2. 相関行列を明示すること 3. 因子抽出は最尤法、最小二乗法、もしくは一般 化最小二乗法で行うこと 4. 因子軸回転は斜交回転で行うこと 5. 回転後のパターン行列、または因子行列などを 明示すること 6. 検証的因子分析を行う、または斜交回転の適 合度検定の結果や適合度指標を明示すること 7. 因子数決定に関する言及をすること 8. 因子あたりの指標数を考慮すること 9. サンプル数と標本集団の性質に注意すること (前田・大和, 2000; 前田, 2000)
  9. 9. 尺度構成に関するガイドライン • COSMINチェックリスト(Mokkink et al., 2012) –COnsensus-based Standards for the selection of health Measurement INstruments –尺度特性を、信頼性、反応性、妥当性 の3つの領域に分類 • それぞれの尺度特性の基準を示す
  10. 10. 尺度特性 信頼性 反応性 妥当性 解釈可能性 内的 一貫性 信頼性 測定誤差 反応性 構成概念妥当性 構造的妥当性 異文化間 妥当性 仮説検証 内容的 妥当性 表面的 妥当性 基準関連 妥当性
  11. 11. COSMINチェックリスト • すべての尺度特性に共通の項目 –欠損値の割合が報告されているか –欠損値の処理方法が報告されているか –標本サイズは十分か –研究デザイン、方法についての重大な 欠陥はないか
  12. 12. 尺度構成に関するガイドライン • 「行動療法研究」における研究報告 に関するガイドライン –『行動療法研究』の特集号 –尺度研究の必須事項(土屋, 2015) • COSMINチェックリストの概要を紹介
  13. 13. 尺度研究の必須事項(土屋, 2015) • 例数設計 –COSMINでは、すべての尺度特性におい て、標本サイズが十分かどうか確認す ることが求められている –COSMINの得点化システム(Terwee et al., 2012)では、項目数×7 かつ100以上が推 奨されている
  14. 14. 標本サイズの目安(構造的妥当性の場合) 目安 Excellent 項目数×7以上 かつ 100以上 Good 項目数×5以上 かつ 100以上 Fair 項目数×5以上 かつ 100未満 Poor 項目数×5未満
  15. 15. 尺度研究の必須事項(土屋, 2015) • 仮説の設定 – 確定基準(gold standard)でない測定指標との 相関や平均値差についての仮説を設定し、 検討する(仮説検証) • cf. 基準関連妥当性の検討 – 確定基準である測定指標を用いる – 事前に設定した仮説、仮説指示の評価を提 示すること • 2つの尺度間の相関係数は.60以上 • 2つの被調査者群の平均値差は10
  16. 16. 尺度の構成 まとめ • ガイドラインに従って、 –探索的因子分析のみでなく検証的因子 分析を実施 –十分な標本サイズを確保 –欠損値の割合、処理方法を明示 –仮説検証の際は、仮説と基準を明示
  17. 17. 尺度の翻訳
  18. 18. 尺度の翻訳 • 海外で開発された外国語の尺度を翻 訳して使用する場合にも、正しい手 順を踏む必要がある • 「行動療法研究」における研究報告 に関するガイドライン –尺度翻訳に関する基本指針(稲田, 2015)
  19. 19. 尺度翻訳に関する基本指針(稲田, 2015) • 事前準備 – 原案者に翻訳の許可を求める – 尺度に対する理解を深める • 順翻訳 – 2名以上で元の言語から日本語への翻訳を行う • 調整 – 2名以上による順翻訳版を結合する • 逆翻訳 – 順翻訳版を元の言語に翻訳する • 逆翻訳のレビュー – 原版と比較し、双方が等価であることを確認する
  20. 20. 尺度翻訳に関する基本指針(稲田, 2015) • 調和 – 原版の著者が、原版と逆翻訳版とを比較し、等価で あることを確認する • 認知デブリーフィング – 使用が想定される被調査者に尺度に回答してもらい、 わかりにくい項目などがないか確認する • 認知デブリーフィング結果のレビューと翻訳終 了 – これまでの結果を踏まえ、翻訳を完了する • 校正 • 最終報告 – 尺度翻訳のプロセスを報告書にまとめる
  21. 21. 尺度の翻訳 まとめ • 正しいガイドラインに従って翻訳を 行う –原版の著作者に許可を得て、助言を仰 ぐ –一人ではなく、複数人で行う • 翻訳終了後に、通常の尺度構成と同 様に、妥当性の検証などの手続きを
  22. 22. 妥当性の検証
  23. 23. 尺度特性 信頼性 反応性 妥当性 解釈可能性 内的 一貫性 信頼性 測定誤差 反応性 構成概念妥当性 構造的妥当性 異文化間 妥当性 仮説検証 内容的 妥当性 表面的 妥当性 基準関連 妥当性
  24. 24. 妥当性の検証 • 表面的妥当性・内容的妥当性の検証 • 基準関連妥当性の検証 • 構造的妥当性の検証
  25. 25. 表面的・内容的妥当性の検証 • 表面的妥当性(face validity) –尺度項目が、測ろうとしている構成概 念を十分に反映しているように見える 度合い • 内容的妥当性(content validity) –尺度項目が、測ろうとしている構成概 念を十分に反映している度合い
  26. 26. 表面的・内容的妥当性の検証 • 条件 – すべての項目が測定しようとしている構成概念 の側面を表しているか – すべての項目が母集団と関連しているか – すべての項目が指標の目的と関連しているか – すべての項目が包括的に、測定しようとしてい る構成概念を反映しているか • 専門家に判断してもらう方法(e.g., Kusanagi et al., 2015)
  27. 27. 妥当性の検証 • 表面的妥当性・内容的妥当性の検証 • 基準関連妥当性の検証 • 構造的妥当性の検証
  28. 28. 基準関連妥当性の検証 • 基準関連妥当性(criterion validity) – 尺度の得点が確定基準(gold standard)を十 分に反映している度合い • 条件 – 基準が確定基準として適切か – 項目間相関、ROC面積が算出されているか
  29. 29. 基準関連妥当性の検証 • 研究事例 –Tamura & Kusanagi(2015) • 確定基準:タスクで収集したパフォーマン スデータ –川口(2016) • 確定基準:すでに確立した関連尺度 • これらの確定基準と尺度との相関を算出
  30. 30. 基準関連妥当性の検証 • 基準関連妥当性に対しての激しい批判 (e.g., Borsboom et al., 2004) – “criterion validity was truly one of the most serious mistakes ever made in the theory of psychological measurement” (p. 1065) – “not just criterion validity but any correlational conception of validity is hopeless” (p. 1067)
  31. 31. 妥当性の検証 • 表面的妥当性・内容的妥当性の検証 • 基準関連妥当性の検証 • 構造的妥当性の検証
  32. 32. 構造的妥当性の検証 • 構造的妥当性(structural validity) – 尺度の得点が測定しようとしている構成概 念の次元を十分に反映している度合い • 条件 – 反映的モデル(reflective model)に基い ていること – 探索的/検証的因子分析がおこなわれてい ること
  33. 33. ある反映的モデル 潜在変数 A 潜在変数 B i1 i2 i3 i4 i5 i6
  34. 34. 構造的妥当性の検証 • 検証的因子分析 –得られたデータが、想定するモデルに 当てはまるかを確認するための因子分 析 • 探索的因子分析のみで分析を終了せず、検 証的因子分析でデータのモデルへの当ては まりを必ず確認する
  35. 35. 課題 • 結果が異なる集団で再現されるとは 限らない • 例 –教師を対象とした尺度を学習者に使用 した場合 –母語話者を対象とした尺度を学習者に 使用した場合
  36. 36. 潜在変数 A 潜在変数 B i1 i2 i3 i4 i5 i6 潜在変数 A 潜在変数 B i1 i4 i6 i2 i3 i6 因子構造が再現されない場合 二重負荷 (double-loading) 理論的に影響すべき変 数と異なる変数に影響
  37. 37. 因子負荷が異なる場合 潜在変数 A 潜在変数 B i1 i2 i3 i4 i5 i6 本来のモデルよりも 強い負荷 本来のモデルよりも 弱い負荷
  38. 38. 方策 • 構造方程式モデリング(SEM)を用 いた多母集団の同時分析 –異なる集団間で、因子構造、因子負荷、 切片などの母数を等値に固定したモデ ルを複数設定 –モデル間で当てはまりを比較
  39. 39. SEMを用いた多母集団の同時分析 集団A 集団B A B i1 i2 i3 i4 i5 i6 A B i1 i2 i3 i4 i5 i6 異なる集団間で、 因子構造が同じというモデル
  40. 40. SEMを用いた多母集団の同時分析 集団A 集団B A B i1 i2 i3 i4 i5 i6 A B i1 i2 i3 i4 i5 i6 異なる集団間で、 因子負荷が同じというモデル
  41. 41. SEMを用いた多母集団の同時分析 • 5つのモデル(豊田, 2014)を仮定 –因子構造が同じ配置不変モデル –上に加え因子負荷が同じ弱測定不変モ デル –上に加え切片が同じ強測定不変モデル –上に加え観測変数の誤差分散が同じ 厳密な測定不変モデル –すべての母数が等しいモデル これらのモデルを満たす場合、因子平均の比較が可能に
  42. 42. SEMを用いた多母集団の同時分析 • 研究事例 – 山森(2002) • 外国語教育研究で多母集団の同時分析を用い た初期の研究 • 英語学習目的尺度の因子構造が、中学1年生と 3年生で変化しないかを確認 – 前田・田頭・三浦(2003) • 語彙学習方略の使用傾向を、学習成果の上位 群/中位群/下位で比較
  43. 43. SEMを用いた多母集団の同時分析 • 研究事例 –Kusanagi et al.(2015) –川口・草薙(2015) • 尺度構成に関する研究 • 異なる学校種間で、多母集団の同時分析を 使用 • 尺度の因子構造・因子負荷などが、異なる 校種において再現されるかを確認
  44. 44. SEMを用いた多母集団の同時分析 • 研究事例 –前田(2003) –草薙(2016) –川口(2015) • ジェンダー間で多母集団の同時分析を使用 • 尺度の因子構造・因子負荷などが異なる ジェンダーにおいて再現されるかを確認
  45. 45. SEMを用いた多母集団の同時分析 • 因子ごとに合計得点を出してから t検定・ 分散分析、という手法のオルタナティブ – 集団間で因子構造が再現されない可能性 • 項目が、異なるものを測定しているかもしれない – 構造は再現されるが、因子負荷や切片、誤差分 散が異なる可能性 • 項目ごとの持つ意味が異なるかもしれない – リッカート尺度のデータは順序尺度なので、そ もそも t検定を使ってはいけない、という主張 (前田・大和, 2000)
  46. 46. SEMを用いた多母集団の同時分析 • 実装されているソフトウェアの一例 – Amos • 高い – SAS • 高い • University Editionは 無料 – Mplus • やや高い – R(lavaanパッケージ) • 無料
  47. 47. 妥当性の検証 まとめ • 種々の妥当性を検証する必要 – 表面的・内容的妥当性 – 基準関連妥当性 – 構造的妥当性 • ガイドラインに従い、目的にあった手法を 選ぶこと • 検証の結果を論文・発表中で報告すること が望ましい
  48. 48. 批判 • 妥当性の証拠集めを指して「切手集め」と批判 (Landy, 1986) • 重要なのは形式的な証拠集めではなく、「測定 したいものが正しく測れているか」ということ – 証拠集めに拘泥しない、当初の目的を忘れない – ただし、外国語教育研究においては、妥当性の切手 集めすらまだ十分になされていない、というのも現 状 • 何をもって妥当性とするかは慎重に検討する必 要がある(e.g., Borsboom et al., 2004)
  49. 49. 全体のまとめ • 尺度を使用する/作成する際は –種々のガイドラインを参照する –多母集団の同時分析などの手法で、妥 当性の証拠を集める • 質問紙研究は決してお手軽ではない • 適切な手法で得た結果にもとづく適 切な解釈を!
  50. 50. 参考文献
  51. 51. 参考文献 Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061–1071. 稲田尚子 (2015).「尺度翻訳に関する基本指針」 『行動療法研究』41, 117–125. 川口勇作 (2015).「性差がコンピュータ支援語学学習態度に与える影響―中学・高校・大 学生を対象として―」EVERGREEN, 9, 9–16. 川口勇作・草薙邦広 (2015).「日本人英語学習者を対象とした新しいコンピュータ支援語 学学習態度尺度の作成」Language Education & Technology, 52, 257–277. 川口勇作 (2016).「コンピュータ支援語学学習態度尺度の妥当化―コンピュータへの不 安・アクセスの良さに着目して―」『外国語教育メディア学会中部支部外国語教育 基礎研究部会2015年度報告論集』 13–28. Kusanagi, K., Fukuta, J., Kawaguchi, Y., Tamura, Y., Goto, A., Kurita, A., & Murota, D. (2015). Foreign language grammatical carefulness scale: Scale development and its initial validation. Annual Review of English Language Education in Japan, 26, 77–92. 草薙邦広 (2016).「外国語における文法的慎重性とジェンダー:多母集団の検証的因子分 析による測定および構造不変性の検討」外国語教育メディア学会中部支部第87回春 季研究大会.
  52. 52. 参考文献 Landy, F. J. (1986). Stamp collecting versus science: Validation as hypothesis testing. American Psychologist, 41, 1183–1192. 前田啓朗 (2000).「構成概念の妥当性の検証―日本の英語教育学研究における傾向と展 望」『外国語教育評価学会研究紀要』3, 119–126. 前田啓朗 (2003). 「日本の英語学習者における学習方略と学習成果:性差を考慮した適性 処遇交互作用の観点から」『広島外国語教育研究』6, 81–90. 前田啓朗・大和知史 (2000). 「構造方程式モデリングによる高校生の言語学習方略使用と 言語学習達成の分析:SILL で得られたデータのより適切な分析と結果の提示方法の 提案」Language Laboratory, 37, 143–162. 前田啓朗・田頭憲二・三浦宏昭 (2003).「高校生英語学習者の語彙学習方略使用 と学習成 果」『教育心理学研究』51, 273–280. Mokkink, L. B., Terwee, C. B., Knol, D. L., Stratford, P. W., Alonso, J., Patrick, D. L., Bouter, L. M., & de Vet, H. CW. (2010). The COSMIN checklist for evaluating the methodological quality of studies on measurement properties: A clarification of its content. BMC Medical Research Methodology, 10, 1–8.
  53. 53. 参考文献 Mokkink, L. B., Terwee, C. B., Patrick, D. L., Alonso, J., Stratford, P. W., Knol, D. L., Bouter, L. M., & de Vet, H. CW. (2012). COSMIN checklist manual. http://www.cosmin.nl/images/upload/files/COSMIN%20checklist%20manual%20v9.pdf Tamura, Y., & Kusanagi, K. (2015). Validation of the grammatical carefulness scale using a discourse completion task and a reading and underlining task. LET Journal of Central Japan, 26, 75–84. Terwee, C. B., Mokkink, L. B., Knol, D. L., Ostelo, R. W., Bouter, L. M., & de Vet, H. C. (2012). Rating the methodological quality in systematic reviews of studies on measurement properties: a scoring system for the COSMIN checklist. Quality of Life Research, 21, 651– 657. 豊田秀樹 (2014). 『共分散構造分析[R編]』東京図書. 土屋政雄 (2015).「尺度研究の必須事項」『行動療法研究』41, 107–116. 山森光陽 (2002).「中学生用英語学習目的尺度の開発:縦断研究を可能とするために」『早 稲田大学大学院教育学研究科紀要 別冊』10, 111–118

×