外国語教育研究におけるRを用いた統計処理入門

外国語教育研究における
を用いた統計処理入門

川口勇作
愛知学院大学教養部
ykawa@dpc.agu.ac.jp
FLEAT VII ワークショップ@早稲田大学
2019/8/6

自己紹介
• 川口勇作 (KAWAGUCHI Yusaku)
–所属：愛知学院大学教養部
• 教養科目の英語授業などを担当しています
–専門：外国語教育学
• コンピュータを用いた英語教育・学習
–Nagoya.R 主催
–R歴：約7年

この講習について
• 目的
–Rを用いた、外国語教育研究における統計処理の手法を
習得すること
• 内容
–R の（必要最小限の）操作方法の導入
–外国語教育研究においてよく用いられる分析方法の実
習

この講習で扱うもの・扱わないもの
○ 扱うもの
• 最低限のRの仕様・操作
• 記述統計量の算出方法
• よく用いられる各種検定・分析の
実行方法と算出方法、結果の見方
– t 検定
– 分散分析
– 効果量の算出
– 相関分析
– 回帰分析
❌ 扱わないもの
• 細かいRの仕様・操作
• よく用いられる各種検定・分析の
詳細な説明
• 高度な統計分析
– ベイズ統計、一般化線形混合効果モ
デル、構造方程式モデリング、項目
反応理論、などなど
• 文字列処理・コーパス分析
• データハンドリング・管理

導入編
• Rの基本操作
• 変数・関数
• ベクトルと行列
• データの読み込み
• パッケージのインストール・読み込み

とは
• 統計処理のためのプログラミング言語で、無償＋
オープンソースのソフトウェア
• 無償の追加機能（パッケージ）をインストールするこ
とで、外国語教育研究で用いられる多くの統計処理
が可能

スクリプト編集画面
データ確認画面
コンソール
コードを選択して
F5キーを押すと
コンソールで実行されます

Windows ユーザーの方へ
• ユーザー名（ユーザーフォルダ名）に、2バイト文字
（漢字・ひらがな・カタカナ）が含まれていないか確認
–後々不具合が発生するおそれがある
• 対策
–ユーザー名を英数字のみに変更する
–R使用時専用の、名前が英数字のみのユーザーを新規作
成する

RStudio
• Rのための統合開発環境（IDE）
• Rがより使いやすくなります（詳細は割愛）
• 特別な事情がない限りはぜひインストールを
• https://www.rstudio.com/products/rstud
io/download/

スクリプト編集画面
データ確認画面
コンソール
変数一覧
履歴
ファイル一覧
作図スペース
パッケージ
ヘルプ
コードを選択して
Shift + Enterを押すと
コンソールで実行されます

以下 > から始まる式を
コンソールに入力してください
> は入力不要です
#から始まる部分はコメント行なので、
入力不要です

R version 3.0.1 (2013-05-16) -- "Good Sport"
Copyright (C) 2013 The R Foundation for Statistical Computing
Platform: i386-w64-mingw32/i386 (32-bit)
R は、自由なソフトウェアであり、「完全に無保証」です。
一定の条件に従えば、自由にこれを再配布することができます。
配布条件の詳細に関しては、'license()' あるいは 'licence()' と入力してください。
R は多くの貢献者による共同プロジェクトです。
詳しくは 'contributors()' と入力してください。
また、R や R のパッケージを出版物で引用する際の形式については
'citation()' と入力してください。
'demo()' と入力すればデモをみることができます。
'help()' とすればオンラインヘルプが出ます。
'help.start()' で HTML ブラウザによるヘルプがみられます。
'q()' と入力すれば R を終了します。
>｜
← ここから入力
入力している部分は赤く表示されます

命令の入力方法
• 命令を入力して、 Enter を押す
• 四則演算をしてみましょう
> 3+5
> 10-3
> 2*3
> 100/20
8
7
6
5

便利な機能
• 履歴機能
–矢印キーの上下（↑↓）を押すと、今まで入力した命令を
遡って呼び出すことができる
• 補完機能
–関数や変数、パッケージ名（後述）の一部を入力してTab
キーを押すと、一番それっぽいものを提案してくれる

R基本操作まとめ
• 命令を打ち込んでEnter、それだけ
• 過去に入力したものは、履歴機能で呼び出すと楽
• 入力の途中でTabを押すと楽ができる（かも）

変数とは
• １つ以上のデータをまとめて入れておく「箱」のよう
なもの
• 変数に数値を入れることを「代入」という
• 統計処理を行う際には、複数のデータをまとめて扱
うことが多いため、変数を用いてデータをまとめる
ことが重要

変数にデータを代入する
• 変数の名前を書き、- と > で矢印を作る
• 右辺には、変数に入れたいデータを記入する
> # hakoという名の変数に 5 という数字を代入する
> hako <- 5
> # hakoという名の変数の中身を確認
> hako
[1] 5

変数の名前
• どのような名前でもOK
–2バイト文字も使用できるが、変換が面倒なので使わな
い
• 後で見返したときに、どんなデータが入っているか
わかるような名前をつける
• 既存の変数にデータを代入すると、
新しいデータで上書きされる
> hako <- 5
> hako <- 10
> hako
[1] 10

変数にデータを代入する
1. 変数の名前を ”hako” とする
2. c関数で、値を1つにまとめる
– このまとまりをベクトルと呼ぶ
3. まとめた値を ”hako” という変数に代入する
<- は矢印を表現
4. 代入したら中身を確認する
> hako <- c(1, 2, 3, 4, 5)
> hako

入力中に「+」が出たら
• 入力途中に Enter キーを押すと、待機状態を示す
「＋」が出る
–そのまま入力を続けても問題ない
–気になる人は、ボタン、もしくは Escキーで入力を
キャンセル
> hako <- c(
+

関数とは
• 指定した値（引数）に対して、何らかの処理をして結
果を出すしくみ
–引数は、関数名の後ろの()の中に入る
–英語の文法に例えると、関数は他動詞、引数は目的語
–引数（目的語）を複数とる関数もある
• 統計分析では必ず関数を使うため、使い方に慣れて
おく必要がある

平方根を算出
• sqrt という関数を使用
( sqrt = square root )
> sqrt(2)
1.414214
> sqrt(144)
12
> sqrt(104976)
324

平方根を一気に
> hako <- c(1, 2, 3, 4, 5)
> sqrt(hako)
[1] 1.000000 1.414214 1.732051 2.000000
[5] 2.236068

変数を使うとこんなに楽
使った場合
> sqrt(hako)
使わない場合
> sqrt(1)
> sqrt(2)
> sqrt(3)
> sqrt(4)
> sqrt(5)

変数と関数まとめ
• 変数を使って、複数のデータをまとめて扱う
• 関数で、変数の中の値を一気に処理
• 統計分析を行う際には、変数でデータをまとめて、統
計分析用の関数で処理

ベクトルとは
• 数値が一列に並べられたもの
–全員の勉強時間
–全員のテスト得点
–全員の覚えている単語の数

行列とは
• ベクトルを縦横に並べたもの
–全員の勉強時間とテストの得点
–全員の勉強時間と覚えている単語の数

行列の要素を取り出す
• 行列の中から、ベクトルとして取り出したい行や列を
指定
–行を取り出す：変数名[行番号,]
–列を取り出す：変数名[,列番号]
> #2列目を取り出す場合
> 変数名[,2]
[1] 2 5 8
> #2行目を取り出す場合
> 変数名[2,]
[1] 4 5 6

イメージ
[,1] [,2] [,3] [,4] [,5]
[1,]
[2,]
[3,]
[4,]
[5,]

ベクトルと行列まとめ
• ベクトル
–数字や文字の列
• 行列
–ベクトルを縦横に並べたもの
–横方向が行、縦方向が列
–行列から必要な要素を取り出すには、変数名[行番号,列
番号]

データ読み込み
• 下準備
–getwd関数で、現在の作業ディレクトリの場所を確認
• 作業ディレクトリ：データを読み込みたいファイルを置く場所
–その作業ディレクトリに、配布したcsvファイルを移動し
てください
> getwd()
[1] "C:/Users/yusaku/Documents"

• read.csv関数
–データフレーム形式のカンマ区切りデータを読み込む
–1つ目の引数を"ファイル名"とする
• ファイル名には、拡張子（.csv）を含める
> read.csv("ファイル名", header = T)

• read.csv関数
–2つ目の引数（ｈｅａｄｅｒ）で見出し行（1行目にある項目名
などの書かれた行）の有無を指定
• Tなら1行目を見出し行として読み込み
• Fなら1行目をデータ行として読み込み
> # 見出し行がある場合
> read.csv("ファイル名", header = T)
> # 見出し行がない場合
> read.csv("ファイル名", header = F)

• 読み込んだデータを分析に使う場合は、必ず変数に
代入する
–読み込むだけでは、コンソールにデータの中身が表示さ
れるだけで、分析できる状態で残らない
> # 読み込んだデータを、 datという変数に代入する
> dat <- read.csv("ファイル名", header = T)

演習
• 見出し行のあるテストのデータを、csvファイル
（test.csv）から読み込んで、「dat」という名前の変
数に代入してみましょう
> dat <- read.csv(“test.csv", header=T)

データ読み込みまとめ
• Rにデータを読み込む際は、
–データはcsv形式で用意
• 管理もしやすい
• 配布・公開もしやすい
–作業ディレクトリにcsvファイルを移動したら、
read.csv関数で読み込み
–見出し行の有無は、headerオプションで指定

パッケージとは
• パッケージとは、便利な機能・関数がまとめられてい
るもの
• Rにデフォルトで入っているパッケージだけでも色々
できる
• デフォルトで入っていない関数を使うためには、パッ
ケージを追加する必要がある

パッケージのインストール
• メニューを使ってインストールする
–Rのメニューの中の「パッケージ」> 「パッケージのインス
トール」> ほしいパッケージを選択
–簡単だが、複数のパッケージをインストールする場合、何
度もクリックする手間がかかる

パッケージのインストール
• パッケージをインストールする関数
–install.packages("ほしいパッケージ名")
• " "で囲むことを忘れないように
• インストールできたらlibrary 関数で読み込む
–library(読み込みたいパッケージ名)
> install.packages("psych")
> library(psych)

パッケージまとめ
• パッケージは、
–install.packages 関数でインストール
–library関数で読み込み

記述（要約）統計量とは
• 標本の分布の特徴を要約して記述する値
• 標本の各変数について平均値・分散を求めたり、度
数分布を調べたり、2変数間の相関関係を示す散布
図を描いたりする。相関係数を求めたり、クロス集計
表を作成することもこれに含まれる（青木, 2002）

記述統計量を算出する関数一覧
• データの個数 length • 最大値 max
• 平均値 mean • 最小値 min
• 中央値 median • 標準偏差 sd

記述統計
• summary関数
–平均値・第１四分位・中央値・第３四分位・最小値を算出で
きる
• 事前テストの得点の記述統計をsummary関数で算
出してみましょう
> summary(dat$pre)

記述統計
• 歪度（skewness）・尖度(kurtosis)
–分布の偏り具合・尖り具合
–デフォルトではこれらを算出できる関数が用意されてい
ない
–以下のパッケージ・関数を用いて、歪度・尖度を算出可能
• e1071パッケージのskewness関数・kurtosis関数
• psychパッケージのskew関数・kurt関数

記述統計
• psychパッケージのdescribe関数を用いて記述統
計を一通り算出できる
> install.packages(“psych”)
> library(psych)
> describe(dat)

ヒストグラムの作成
• hist関数でヒストグラム（度数分布図）を描き、事前テス
ト/事後テストの分布を観察する
–さきほどの練習で作った変数 test のデータを使う
> hist(dat[,1]) #事前テストのヒストグラム
> hist(dat[,2]) #事後テストのヒストグラム

2つのヒストグラム
事前テストの分布事後テストの分布
Histogram of dat[, 1]
dat[, 1]
Frequency
30 40 50 60 70 80 90
0510152025
Histogram of dat[, 2]
dat[, 2]
Frequency
30 40 50 60 70 80 90
05101520

箱ひげ図の作成
• boxplot関数で箱ひげ図（box plot）を作成
–事前テスト・事後テストの分布を、箱ひげ図を観察して比
較しましょう
> boxplot(dat)

箱ひげ図
最大値
中央値
最小値
第1四分位点
第3四分位点

蜂群図を箱ひげ図に重ねる
• 蜂群図（beeswarm plot）を箱ひげ図に重ね描きして、
一人ひとりのばらつきを把握する
–beeswarmパッケージのbeeswarｍ関数を使用
–さっき描いた箱ひげ図はそのままで以下のコードを入力
> beeswarm(dat, add = T) # addは重ね描きをするオプション

と、その前に
• beeswarm関数はそのままでは使えない
–Rにはもともと入っていない関数だから
–まず、beeswarm関数が含まれている、beeswarm
パッケージをインストールし、読み込まないといけない
> install.packages("beeswarm")
> library(beeswarm)
> beeswarm(dat, add = T) #addは重ね描きをするオプション

t 検定
2つの変数の平均値の差をみる

こんなときに使う
• それぞれ異なる学習方略で学習した、2つのグルー
プのテストの平均得点の間に統計的に有意な差があ
るか確かめたい
→対応なし（繰り返しなし）のt 検定
• 学習者グループの、ある学習方略で学習する前と後
のテストの平均得点の間に、統計的に有意な差があ
→対応あり（繰り返しあり）のt 検定

その前に
• 分析の前提条件を満たしているか確認（本日は割愛）
– データが名義尺度ではないか
– データが正規分布しているか
– 標本サイズに偏りがないか
• 記述統計量、特に平均、標準偏差、尖度・歪度は確認した
か
• ヒストグラムや箱ひげ図を確認したか
• 最低限、これらを行ってから分析に移りましょう

やってみよう
• 事前テストと事後テストの得点を比較する
–同じ人が2回テストを受けている →対応ありt 検定
• t.test関数を使う
–引数1：事前テストのデータ
–引数2：事後テストのデータ
–pairedオプションで対応あり/なしを選ぶ（T：あり）
> t.test(dat$pre, dat$post, paired = T)

やってみよう
• 事前テストと事後テストの間の効果量を算出する
• t 検定の場合は、Cohen’s d と呼ばれる効果量を
用いる
–effsizeパッケージのcohen.d関数でd が算出できる
> install.packages(“effsize”)
> library(effsize)
> cohen.d(dat$pre, dat$post)

結果の見方
• t 値、自由度（df ）、p 値を読み取る
• t 値の小数第3位以降は不要なので四捨五入
• p 値は紙面の許す限り、少数第２, 3位までの
正確な値を報告（APA, 2010）
• .001を下回る場合はp < .001でよい
• 効果量も後ろに付記する
本文中での報告例
t (62) = -5.29, p < .001, d = 0.91

一元配置分散分析
3つ以上の変数の平均値の差をみる

• それぞれ異なる学習方略で学習した、3つのグループの
テストの平均得点の間に統計的に有意な差があるか確か
めたい
→被験者間計画（対応なし・繰り返しなし）の一元配置分散分析
• 学習者グループの、ある学習方略で学習する前と後、そ
のさらに後の3つのテストの平均得点の間に、統計的に
有意な差があるか確かめたい
→被験者内計画（対応あり・繰り返しあり）の一元配置分散分析

やってみよう
• 事前テストと事後テストと遅延事後テストの得点を
比較する
–同じ人が３回テストを受けている →被験者内計画
• ANOVA君を使う
–井関龍太先生（大正大学）が作成された、分散分析用関数
–多重比較、効果量の算出も一度にでき、非常に便利
> source("anovakun_483.txt")
> source("anovakun_483.txt", encoding = 'CP932')
# Mac/Linuxの方はこちら

やってみよう
• anovakun関数を使う
– 引数1：データ
– 引数2：要因計画
• “sA”：被験者内計画（今回はこれ）
• “As”：被験者間計画
– 引数3：要因の水準数
• 今回は事前・事後・遅延の3水準
– holmオプションをTにし、多重比較の方法をHolm法に
– ｅｔａオプションをTにし、効果量（イータ二乗）を算出
> anovakun(oneway, “sA”, 3, holm = T, eta = T)

結果の見方
• F 値、自由度（df ）、p 値を読み取る
• 自由度は、要因のもの（A）と誤差（s x A）
のものをピックアップする
• F 値の小数第3位以降は不要なので四捨五入
• 多重比較の結果を確認し、報告（t 検定と同様）
F (2, 98) = 43.64, p < .001, η2 = 0.39

二元配置分散分析
2つの要因とその水準間の平均値の差をみる

• 2種類の指導方法と2種類の教室環境で学習した4つの異なる
学習者グループのテストの平均得点の間に統計的に有意な差が
あるか確かめたい
→被験者間計画（対応なし・繰り返しなし）の二元配置分散分析
• 1つの学習者グループを、2種類の指導法で指導し、2種類の教
室環境で学習したとき、テストの平均得点の間に統計的に有意な
差があるか確かめたい
→被験者内計画（対応あり・繰り返しあり）の二元配置分散分析
• 2つの学習者グループを、それぞれ異なる指導法で指導し、その
前と後の2つのテストの平均得点の間に、統計的に有意な差があ
→被験者内・被験者間混合計画の二元配置分散分析

やってみよう
• 協同学習ベースと個別学習ベースの授業をおこなっ
た2つの学習者グループの、事前テストと事後テスト
の得点を比較する
–同じ人が2回テストを受けている →被験者内計画
–学習方法（学習者グループ）は2つ →被験者間計画
• ANOVA君を使う
> source("anovakun_483.txt")
> source("anovakun_483.txt", encoding = 'CP932')
# Mac/Linuxの方はこちら

やってみよう
• anovakun関数を使う
– 引数1：データ
– 引数2：要因計画
• “sAB”：被験者内計画
• “AsB”:被験者内・被験者間混合計画（今回はこれ）
• “ABs”：被験者間計画
– 引数3, 4：1つ目・2つ目の要因の水準数
• 今回は協同学習G・個別学習Gの2水準と事前・事後の2水準
– holmオプションをTにし、多重比較の方法をHolm法に
– pｅｔａオプション（etaではない）をTにし、効果量（偏イータ二乗）を算出
> anovakun(twoway, “AsB”, 2, 2, holm = T, peta = T)

結果の見方
• 交互作用が有意
• 単純主効果の分析へ
F (1, 90) = 15.40, p < .001, η2
partial = 0.14

相関
2つの変数間の関係をみる

• リーディングテストと語彙テストの得点との間に、ど
のような関係（＝片方が大きいとき、もう片方がどう変化するか）
があるかを明らかにしたい
• 動機づけの質問紙調査の結果（数値）と、学習方略の
質問紙調査の結果（数値）との間にどのような関係
があるかを明らかにしたい

散布図
• 散布図を作成して、相関関係を観察
–csvファイル「toeic.csv」を読み込んで、「toeic」という
変数に代入
–plot関数で、散布図を描画して、TOEICスコアと英作文
の語数の相関関係を観察しましょう
> toeic <- read.csv("toeic.csv", header=T)
> plot(toeic$score, toeic$words)

300 400 500 600 700 800 900 1000
150200250300350
toeic$score
toeic$words

相関係数
• 2つの変数の相関関係の強さを0～1の間で数量的
に表現
–ピアソンの積率相関係数
• データが正規分布していたり、間隔尺度以上のときに使用
–スピアマンの順位相関係数・ケンドールの順位相関係数
• データが正規分布していなかったり、順序尺度のときに使用

やってみよう
• 変数「toeic」の中の、TOEICスコアと英作文の語数
とのピアソンの積率相関係数を算出する
> # 相関係数の算出
> cor(toeic$score, toeic$words, method = “pearson")
> # 相関係数、p値、信頼区間の算出
> cor.test(toeic, method = “pearson")

回帰分析
ひとつの変数から、ひとつの変数を予測する

• 語彙テストの得点からTOEICの得点を予測する
→単回帰分析
–従属変数 = a + b × 独立変数
• 読解力・聴解力・語彙力のうち、TOEICの得点を
もっとも予測するものはどれか明らかにする
→重回帰分析
–従属変数 = a + b1 × 独立変数1 + b2 × 独立変数2
+ b3 × 独立変数3 + ... + bn × 独立変数n +

やってみよう
• 単回帰分析で、読解テストの得点からTOEICの得点
を予測する
> res1 <- lm(kaiki$toeic ~ kaiki$read)
> summary(res1)

結果の見方 • 導かれる回帰式：
TOEIC得点の予測値 = １４９．１２ + 4.81 × 読
解テストの得点
• 決定係数 0.2４、自由度調整済み決定係数0.22
TOEIC得点の分散の22～２4％が説明されてい
る

やってみよう
• 重回帰分析で、読解テストの得点、聴解テストの得点、
ごテストの得点のうち、最もTOEICの得点を予測す
るものはどれかを明らかにする
> res2 <- lm(kaiki$toeic ~ kaiki$read + kaiki$listen + kai
ki$vocab)
> summary(res2)

結果の見方
• 導かれる回帰式：
TOEIC得点の予測値 = 8９．43 + 2.29 × 読
解テストの得点 + 3.14 × 聴解テストの得点 +
1.51 × 語彙テストの得点
• 偏回帰係数が有意だったのは聴解テストのみ
→TOEIC得点を最も予測するものは聴解テスト
• 決定係数 0.3４、自由度調整済み決定係数0.31
TOEIC得点の分散の約30％が説明されている

より深くRを学びたくなった方へ
• 日本全国にあるRコミュニティにどうぞ
• Japan.R
• Tokyo.R
• SappoRo.R
• Nagoya.R
• Kobe.R
• HiRoshima.R
• Fukuoka.R

外国語教育研究における
を用いた統計処理入門
連絡先：川口勇作（愛知学院大学教養部）
ykawa@dpc.agu.ac.jp
https://y-kawaguchi.com

外国語教育研究におけるRを用いた統計処理入門

More Related Content

What's hot

Similar to 外国語教育研究におけるRを用いた統計処理入門

More from Yusaku Kawaguchi

外国語教育研究におけるRを用いた統計処理入門