Webアプリケーションを使った
コーパス研究のための統計的手法
英語コーパス学会(JAECS)
第41回大会
2015/10/03@愛知大学名古屋キャンパス
水本 篤(関西大学)
自己紹介
竹内・水本(編著)(2012)
http://mizumot.com/handbook
書籍で使用したデータと分析方法
•MS Excel(できるものだけ)
•IBM SPSS
•フリーのデータ解析環境R
•MS Excel(できるものだけ)
•IBM SPSS
•フリーのデータ解析環境R
•過去のJAECSでのWS

(田畑, 2004; 金, 2007; 田中・小林, 2009; 阪上, 2013)
•過去のLET全国大会WS(小林, 2011; 阪上, 2012, 2014)
• R passes SPSS in scholarly use (Muenchen, 2014)
ただ... RはCLI
RをGUIで利用できる
http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/Rcmdr-screenshot.html
R Commander(EZR)など
http://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/statmedEN.html
https://sites.google.com/site/casualmacr/home
RをGUIで利用できる
Mac用アプリのMacR
http://norimune.net/had
(FYI)なんでもExcelで

できるHAD
さらに一歩進んで便利
(というか楽)なのが
Webアプリケーション
これまでの経験から…
赤野・堀・投野(編著)(2014)石川・前田・山崎(編著)(2010)
http://www.kisnet.or.jp/nappa/software/star/
便利な
http://www.m-sugaya.jp/python/
便利な
http://www.hju.ac.jp/ kiriki/anova4/index.html
便利な
普段Rでやってること
•csvやxlsなどで元データを準備
•Rにデータを読み込む
•パッケージの関数を使って分析
http://hoxom-hist.appspot.com/hist.html
こういうのを作りたかった
便利な
こういうのを作りたかった
http://www.wessa.net/rwasp_cronbach.wasp
便利な
Since 2012
http://shiny.rstudio.com/
http://shiny.rstudio.com/
• 「ハンドブック」の量的チャプター
のサンプルを使用して再現できる。
• アウトプットの見方がわかる
• 自分でも簡単に分析できる。
• グラフを充実させている。
• Excelのデータをコピペするだけ。
langtest.jp
ここにExcelから

データをコピペするだけ
行列もいける。
コードはアプリ上と

GitHubですべて公開
https://github.com/mizumot
注意点
•誰でもできる… だけに危険。
•ドキュメンテーションがない。
•サーバでRを走らせているので少し重い。
•自由度ゼロ(要望が有り次第改善予定)。
•コードが残らないので再現性に乏しい。
• 学部生,修士課程の院生

「ハンドブック」などの分析をハンズオンで実行し,

卒論,修論の分析で利用。
• 博士課程の院生,量的研究を行う研究者

分析方法の確認,コードを見て自分でRを使う。

(langtest.jp だけでは不十分と感じるはずなので)
対象と目的
http://www.routledgetextbooks.com/textbooks/9781138024571/
これまでに使用された国
(2015/09/30 現在)
http://mizumot.com/handbook
http://langtest.jp/
https://twitter.com/CorpusTan/status/640876418801405953
Webアプリケーションを使った
コーパス研究のための統計的手法
1. コンコーダンサーやウェブサイトから
ワードリスト作成,もしくは,特定の語・
フレーズの頻度抽出(レマ化,頻度の標準化)
2. Rなどの統計解析ソフトで分析
基本的な分析の流れ
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使った
コーパス研究のための統計解析
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使った
コーパス研究のための統計解析
全体
一部
抽出
推測
1. 記述統計と推測統計
母集団と標本
母集団
(未知)
標 本
(既知)
推定
データ解析
Σ, F, t, p...
http://www.urano-ken.com/blog/2013/08/05/let2013-workshop/
母集団

μ = 15.3
標本A

M = 14.7
標本B

M = 15.9
標本C

M = 15.2
標本D

M = 15.4
標本E

M = 15.1 http://www.urano-ken.com/blog/2013/08/05/let2013-workshop/
標本ごとに実現値は違う
母集団

μ = ?
標本A

M = 14.7
http://www.urano-ken.com/blog/2013/08/05/let2013-workshop/
実際はM = μとして推定
母集団

μ = ?
実際はM = μとして推定
ScoreFrequency
30 40 50 60 70 80
05101520
M = 50.59
コーパスの代表性について
The web may not be“representative of
anything other than itself,”as Kilgarriff and
Grefenstette (2003: 333) point out –“but
then neither are other corpora”

(Boulton, 2012).
e.g., The web as“corpus”
Hands-on 1
1. langtest.jpを開く
2. “Basic Statistics Calculator” を開く
3. JAECS2015data の「(1)記述統計」の「語数」を数字のみをコピペ
Basic statistics
平均30点,標準偏差10点
MとSD
頻度データの扱いに注意
•同じ内容をコーパスから作成し
たワードリスト(頻度データ)
に適用しても意味がない。
•データの種類にあった分析方法
を心がける。
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使った
コーパス研究のための統計解析
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使った
コーパス研究のための統計解析
• Chi-square test: 22%
• Correlation: 17%
• ANOVA: 12%
• t-test: 11%
• log-linear analysis: 10%
• Followed by non-parametric techniques, multiple regression,
logistic regression, etc.
どのような分析が多いか?
“Quantitative research methods and
study quality in Learner Corpus
Research”
Paquot & Plonsky (2015@LCR) 

reported by Dr. Akira Murakami
https://twitter.com/mrkm_a/status/642802550928998400
カイ2乗検定
コーパス
A
コーパス
B
合計
語X 40
語Y 40
合計 40 40 80
カイ2乗検定
コーパス
A
コーパス
B
合計
語X 20 20 40
語Y 20 20 40
合計 40 40 80
左が期待値,右が実測値
コーパス
A
コーパス
B
合計
語X 20 20 40
語Y 20 20 40
合計 40 40 80
コーパス
A
コーパス
B
合計
語X 15 25 40
語Y 25 15 40
合計 40 40 80
カイ2乗値のイメージ
コーパス
A
コーパス
B
合計
語X 20 20 40
語Y 20 20 40
合計 40 40 80
コーパス
A
コーパス
B
合計
語X 15 25 40
語Y 25 15 40
合計 40 40 80
ズレ
全体
一部
抽出
推測
母集団から抽出
0 1 2 3 4 5 6
0.00.20.40.60.81.0
df=1のときのカイ2乗分布曲線
Chi-square value
相対度数(確率密度)
同じ 違う
カイ2乗値のイメージ
コーパス
A
コーパス
B
合計
語X 20 20 40
語Y 20 20 40
合計 40 40 80
コーパス
A
コーパス
B
合計
語X 15 25 40
語Y 25 15 40
合計 40 40 80
ズレ
(15-20)^2/20+(25-20)^2/20+(25-20)^2/20+(15-20)^2/20 = 5
同じ 違う
0 1 2 3 4 5 6
0.00.20.40.60.81.0
df=1のときのカイ2乗分布曲線
Chi-square value
相対度数(確率密度)
ズレ
結果の見方
• X-squared: カイ2乗値(大きいと「ズレ」が大きい)
• df: 自由度(行の数 − 1)×(列の数 − 1)
• p-value: p 値が0.05以下なら有意差あり
• 特定のセルの「期待値」が5以下の場合,カイ2乗検定は不正確
残差
分析
Hands-on 2
1. langtest.jpを開く
2. “Chi-square Test” を開く
3. JAECS2015dataの「(2)カイ2乗」の該当部分をコピペ
Chi-square test
コロケーション指標
• 相互情報量(MI)
• tスコア,zスコア
• ダイス係数,ジャッカード係数,

コサイン類似度,シンプソン係数
コロケーション指標
石川(2012) 石川(2008)
で分析を実行する場合
← Shinyで使用
← Shinyで使用
この部分をRで使用
↑ワーキングディレクトリなどのファイルを参照
で分析を実行する場合
(カイ2乗検定)
Hands-on 3
「小林(2015)の例」のセルの値をすべて10倍にして,
10倍にする前と後で p 値がどう変化するか確認する。
Introduction to effect sizes
統計的に有意な
p < .05(0.05以下)
statistically significant
• 統計的検定の問題点

- サンプルサイズが影響。

- 有意差あり・なしのみの判断。

- p 値は実質的な差を示さない。
効果量(effect size)
• 効果量(effect size)

- サンプルサイズに影響されない。

- 効果の大小を示す。

- 実質的な差を確認できる。

• APA 6th では報告が「不可欠」
Cumming (2012)
ストップ p 値信仰
APA 6th (2009) 大久保・岡田 (2009)
「統計改革」
The Basic and Applied Social Psychology
http://www.tandfonline.com/doi/abs/10.1080/01973533.2015.1012991#.Vb3tuJPtlBd
p値(帰無仮説検定)禁止!
"it is important to note that one cannot
use the chi-square value as a measure of
effect size, i.e. as an indication of how
strong the correlation between the two
investigated variables is. This is due to the
fact that the chi-square value is
dependent on the effect size, but also on
the sample size."
Gries (2009, p. 196)
http://www.mizumot.com/method/06-05_Kobayashi.pdf
“log ratio as a means of taking effect size
into consideration in the ranking of
keyword results is being incorporated
into a number of programs”(p. 105).
Culpeper, J., & Demmen, J. (2015). Keywords. In D. Biber & R.
Reppen (Eds.), The Cambridge handbook of English corpus
linguistics (pp. 90–105). Cambridge University Press.
コーパス言語学でも
log ratio = ”the binary log of the ratio of relative frequencies” (http://cass.lancs.ac.uk/?p=1133)
https://benjamins.com/#catalog/journals/ijcl.20.3.01ant/details
http://www.laurenceanthony.net/software/protant/
CasualConc
https://sites.google.com/site/casualconcj/
Version 2.0: 効果量 r を特徴語抽出に利用
langtest.jp — Cramer’s V
※ 行と列のいずれかが2のクロス表の場合は,
 M=2となり,ファイ係数(四分点相関係数)と一致。
(一般的な)基準:
V = 0.1 効果量小
V = 0.3 効果量中
V = 0.5 効果量大
Vは0から1の値をとる(相関係数と同じ)
(with 95% CI)
Cramer’s V
2×2の分割表

(= φ係数)の場合
(四分点)相関係数の絶対値を求める
= 0.25
コーパスA
語X
コーパスA
語Y
コーパスB
語X
コーパスB
語Y
langtest.jp — オッズ比
語Xは語Yと比べると,コーパスA
よりもコーパスBで使われやすい。
コーパスA(語X):

15/25 = 0.60
コーパスB(語X):

25/15 = 1.6667
オッズ比: 0.6/1.6667 = 0.36
オッズ比 = 1 は2つの
コーパスで差がない

ことを意味する。
1以上だとコーパスA,
1以下だとコーパスBで

使われやすいという

解釈になる。
(2×2の分割表のときのみ表示) (with 95% CI)
(1 / 0.36 = 2.778倍)
http://ucrel.lancs.ac.uk/llwizard.html
Hands-on 4
1. langtest.jpを開く
2. “Chi-square Test” を開く
3. JAECS2015dataの「(2)カイ2乗」の該当部分をコピペ
4. オッズ比,クラメールのV(φ係数)を確認
Calculating effect sizes
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使った
コーパス研究のための統計解析
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使った
コーパス研究のための統計解析
相関係数
•  2 	
1 1
.00 ± . 20 .00
.20 ± . 40
.40 ± . 70
.70 ± 1.00
赤野・堀・投野(2014)「英語教師のためのコーパス活用ガイド」(p. 204)
エッセイの総語数
英語習熟度
エッセイの総語数英語習熟度 エッセイの総語数
英語習熟度
エッセイの総語数
英語習熟度
エッセイ中のエラー数
英語習熟度
エッセイ中のエラー数
英語習熟度
エッセイ中のエラー数
英語習熟度
エッセイ中のエラー数
英語習熟度
r = .00 r = .30 r = .70 r = .90
r = .00 r = -.30 r = -.70 r = -.90
相関係数の効果量は「相関係数そのもの」で,
一般的には,0.1(小),0.3(中),0.5(大)
Hands-on 5
1. langtest.jpを開く
2. “Correlation” を開く
3. JAECS2015dataの「(3)相関・多変量」の該当部分をコピペ
Correlation
多変量解析
(大まかな)目的
クラスター分析(cluster analysis)
→ データを分類する
因子分析(exploratory factor analysis)
→ データの潜在因子を探る
主成分分析(principal component analysis)
→ データを圧縮する,結合する
コレスポンデンス分析(correspondence analysis)
→ データを圧縮する(少ない次元にまとめる)
主成分分析のイメージ
変数間の情報を圧縮して「合成得点」
(主成分)を作る
コレスポンデンス分析の
イメージ
行
と
列
の
関
係
(
相
関
)
が
最
大
に
な
る
よ
う
に
並
べ
替
え
る
http://www.mizumot.com/files/2009_corpus2.pdf
Tabata, T. (1995). Narrative style and the frequencies of very common words: A corpus-
based approach to Dickens's first person and third person narratives. English Corpus
Studies, 2, 91–109. Retrieved from http://www.lang.osaka-u.ac.jp/~tabata/papers/1995.pdf
-100
0
100
200
300
400
500
600
-2000 -1500 -1000 -500 0 500 1000 1500
2nd PC
1st PC
David#1
David#2
David#3
David#4
David#5
Esther#1
Esther#2
Esther#3Esther#4
Pip#1
Pip#2
Pip#3 Pip#4
SB#1
SB#2
SB#3
PP#1
PP#2
PP#3
OT#1
OT#2
OT#3
OT#4
NN#1
NN#2
NN#3
BH#1
BH#2
TTC#1
TTC#2
TTC#3
OMF#1
OMF#2
OMF#3
ED#1
ED#2
ED#3
First person narratives
Third person narratives
Figure 2. First person narratives versus Third person narratives: Texts in 4000-
word segments (based on the 100 most common words of the narrative corpus).
内田 諭 (2015).「CEFR レベルに基づいた教材コーパス—レベル別基準特性の
抽出に向けて」『英語コーパス研究』22, 87–100.
Tono, Y. (2013). Criterial feature extraction using parallel learner corpora and machine
learning. In A. Díaz-Negrillo, N. Ballier, & P. Thompson (Eds.), Automatic treatment and
analysis of learner corpus data (pp. 169–203). Amsterdam/Philadelphia: John Benjamins.
Tono, Y. (2013). Criterial feature extraction using parallel learner corpora and machine
learning. In A. Díaz-Negrillo, N. Ballier, & P. Thompson (Eds.), Automatic treatment and
analysis of learner corpus data (pp. 169–203). Amsterdam/Philadelphia: John Benjamins.
Hands-on 6
1. langtest.jpを開く
2. "Cluster Analysis","Principal Component Analysis", "Correspondence
Analysis"の3つを確認
3. JAECS2015data の「(3)相関・多変量」の該当部分をコピペ
Multivariate analysis
参考
http://www.lang.osaka-u.ac.jp/~tabata/JAECS2004/multi.html
http://www.lang.osaka-u.ac.jp/~tabata/JAECS2004/JAECS2004hand.pdf
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使った
コーパス研究のための統計解析
1. 記述統計と推測統計
2. 統計的検定と効果量
3. 相関と多変量解析
4. 再現性
Webアプリケーションを使った
コーパス研究のための統計解析
1. コンコーダンサーやウェブサイトから
ワードリスト作成,もしくは,特定の語・
フレーズの頻度抽出(レマ化,頻度の標準化)
2. Rなどの統計解析ソフトで分析
コーパス研究の再現性は?
前田・山森(編著)(2004)
「必要な情報はきちんと書く。
情報は追試できるように書く。
読者にわかりやすく書く。」
(p. 172)
Porte (2012)
Replication や
メタ分析に
必要な情報を書く
「ダメ。ゼッタイ。」
• 平均・標準偏差の記載なし。
• 人数・総数が不明。
• 信頼性係数などの報告なし。
• p 値のみの報告。(* がたくさん。)
(分析の)再現に必要な情報
•サンプルサイズ,平均,標準偏差
•相関係数(対応ありデータ,SEMなど)
•信頼性係数(平均への回帰,相関の希薄化

       の修正など)
L2研究における「統計改革」
•「統計改革」がL2研究でも進んでいる。
• 各ジャーナルで Editorial や Guideline,

特別号に方針が掲載されている。
http://onlinelibrary.wiley.com/doi/10.1111/lang.2015.65.issue-S1/issuetoc
L2研究における「統計改革」
Larson-Hall, J., & Plonsky, L. (2015). Reporting and interpreting 

quantitative research findings: What gets reported and 

recommendations for the field. Language Learning, 65/Supp. 1, 

125–157. doi:10.1111/lang.12115
1. 記述統計報告の改善
2. 効果量とその信頼区間の報告
3. 測定道具の信頼性の報告
4. データ可視化の重視
5. データの公開
L2研究における「統計改革」
Larson-Hall, J., & Plonsky, L. (2015). Reporting and interpreting 

quantitative research findings: What gets reported and 

recommendations for the field. Language Learning, 65/Supp. 1, 

125–157. doi:10.1111/lang.12115
1. 記述統計報告の改善
2. 効果量とその信頼区間の報告
3. 測定道具の信頼性の報告
4. データ可視化の重視
5. データの公開
再現性は研究の基本
• データの二次利用を推奨すべき。
例えば,使用したデータを(個人情報に

気をつけて)オンラインなどで公開。	
  
• Rなどのコードも

公開すれば,誰でも再現可能。
コーパス研究の場合
• 分析の各ステップで使用した

データやメモ書きは残しておく。

論文中では可能な限り記載。	
  
• 研究を生業とするのなら,データ
やコードの公開,分析再現の練習
を惜しまない。
どうやって	
  
やればいいですか?
http://mizumot.com/files/ecs2015.html
http://onlinelibrary.wiley.com/doi/10.1111/lang.12134/full
http://www.iris-database.org/iris/app/home/index;jsessionid=CB9E46535FA0D81136CADA87BC414BA0
https://osf.io/
Open Science Framework
Dataverse Project
http://dataverse.org/
まとめ
• langtest.jp 

-「ハンドブック」などの分析確認

- Rへの橋渡し
• コーパス研究のための統計解析

記述・推測統計,検定・効果量,相関・多変量解析
• 進む「統計改革」と研究の透明化
を使って	
  
コーパス研究をはじめたい人
http://www.slideshare.net/langstat/presentationshttp://www.slideshare.net/sakaue/presentations

2015-1003 英語コーパス学会ワークショップ使用スライド