形態素習得研究形態素習得研究形態素習得研究形態素習得研究とととと
リサンプリングリサンプリングリサンプリングリサンプリング
草薙邦広草薙邦広
名古屋大学大学院
kusanagi@nagoya-u.jp
NagoyaR. #10NagoyaR. #10
2013/7/27
形態素習得研究
• 自然順序仮説
– 外国語学習者が習得す
る形態素には固定的な
(普遍的)順序がある
• 母語によらない
• 学習の順序によらない
–S. Krashen
http://unt.unice.fr/uoh/learn_teach...
形態素習得研究
http://www.danielcraig.co
m/category/linguistics-2/
形態素習得研究
• 今日的な見方
––タスクの影響(Larsen-freeman, 1975)
–母語の影響の強さ(Luk & Shirai, 2009)
–しかし項目自体が持つ言語的特性の
影響は確かにある(Goldshneider &
De...
形態素習得研究
• 形態素習得研究の評価
–1970年代から現在まで,応用言語学,
第二言語習得研究を支えた理論的柱
であった
–主張自体の真偽に関わらずその功績が–主張自体の真偽に関わらずその功績が
絶大
形態素習得研究
• しかし,その手法といえば…
– Group Score Method (GSM)
• 「グループにおける」義務的文脈(使わなければならない
状況)と正用率(正しく使えた回数)の比率
• 重み付けをする場合もある
• Dula...
形態素習得研究
進行形 過去形 冠詞
正用 義務的文脈 正用 義務的文脈 正用 義務的文脈
Aさん 3 4 13 40 50 140
Bさん 3 6 14 43 32 103
Cさん 3 4 14 65 31 180
Dさん 1 2 5 40 ...
http://matome.naver.jp/odai/2136223288290
780701/2136223522491514403
形態素習得研究
• 時代を感じるところ• 時代 感
–全然分母の違う比率の比較
–外れ値(個人の特性)の影響
–分析や尺度におけるばらつきや信頼性を
「解釈が容易なかたち」で示す方法がな「解釈が容易なかたち」で示す方法がな
い
そこで!そこで!そこで!そこで!そこで!そこで!そこで!そこで!
リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!
• 問題の解決
–全然分母の違う比率の比較
• →まあとりあえず逆正弦変換でも• →まあとりあえず逆正弦変換でも
–外れ値(個人の特性)の影響
–分析や尺度におけるばらつきや信頼性を
「解釈が容易なかたち」で示す方法がな
いい
• →リサンプリ...
リサンプリング
• 何?
–リサンプリング/再標本化
• 手持ちの標本から再度,下位の標本を複
数作り出すこと,またはその過程を用いる統
計的検定,パラミター推定,モデルの妥
当化当化
• ブートストラップ
• ジャックナイフ
リサンプリング
• なんでそんなことするの?
–手持ちの標本からリサンプリングを繰り
返して得られる統計量(平均値や分散)
は,母集団からサンプリングを繰り返し
たものにより近似するだろう
–確率分布に依存せず(未知の場合の–確率分布に依存せず...
簡単簡単簡単簡単なななな例例例例
英語学習者の
母集団
A B C
A
B
A B C
A B D
A C D
C
D B C D
進行形 過去形 冠詞
正用 義務的文脈 正用 義務的文脈 正用 義務的文脈
Aさん 3 4 13 40 50 140
Bさん 3 6 14 43 32 103
Cさん 3 4 14 65 31 180
Dさん 1 2 5 40 120 201
...
進行形 過去形 冠詞
正用 義務的文脈 正用 義務的文脈 正用 義務的文脈
1 Aさん 3 4 13 40 50 140
Bさん 3 6 14 43 32 103
Cさん 3 4 14 65 31 180
合計 9 14 41 148 113 ...
55
進行形 過去形 冠詞
35404550
1 53.30 31.76 31.12
2 49.80 30.67 42.42
3 56.79 28.02 38.40
4 49.80 28.18 37.94
M 52.42 29.66 37.47...
リサンプリング
• 形態素習得研究における研究法上• 形態素習得研究における研究法上
の利点
– 著しくデータを歪める個人の影響を緩和できる(サン
プリングエラー緩和)
– 母集団における正用率を区間推定できる(そんなも
のが理論的にあるとは限...
RRRRでやろう!でやろう!でやろう!でやろう!
ソース
rGSM <- function(x, n.boot, n.sub)
{
meany = numeric(0)
for(i in 1:n.boot)
{
subs <- x[sample(nrow(x),n.sub,replace=TR...
使い方
• データの読み込み• データ 読 込
–x <- matrix(c(3,3,3,1,1,6,4,2), 4, 2 )
–必ずデータは二列
–rGSM(a, b, c)
• aは,二列のデータ
進行形
正用 義務的文脈
Aさん 3 4
...
使い方
• 例(重複4個を1,000施行)• 例
使い方
• 同時に図示も!• 同時に図示も!3132333435
score
31.231.431.631.8
score
frequency
100015002000
282930
0 4000 8000
30.630.831.0
score...
これだけ!これだけ!これだけ!これだけ!これだけ!これだけ!これだけ!これだけ!
超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!
展望
• 順序だけのものよりも遥かに豊富な• 順序 遥 豊富な
情報量
• 今日的な学習者コーパスを用いた
研究との組み合わせ研究との組み合わせ
草薙邦広草薙邦広
名古屋大学大学院
kusanagi@nagoya-u.jpkusanagi@nagoya-u.jp
Upcoming SlideShare
Loading in …5
×

NagoyaR #10 形態素習得研究とリサンプリング

1,717 views

Published on

名古屋を中心として活動する統計環境Rに関する勉強会,NagoyaRの第10回勉強会における草薙邦広(名古屋大学大学院)の発表資料です。

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,717
On SlideShare
0
From Embeds
0
Number of Embeds
50
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

NagoyaR #10 形態素習得研究とリサンプリング

  1. 1. 形態素習得研究形態素習得研究形態素習得研究形態素習得研究とととと リサンプリングリサンプリングリサンプリングリサンプリング
  2. 2. 草薙邦広草薙邦広 名古屋大学大学院 kusanagi@nagoya-u.jp NagoyaR. #10NagoyaR. #10 2013/7/27
  3. 3. 形態素習得研究 • 自然順序仮説 – 外国語学習者が習得す る形態素には固定的な (普遍的)順序がある • 母語によらない • 学習の順序によらない –S. Krashen http://unt.unice.fr/uoh/learn_teach_FL/aff iche_theorie.php?id_theoricien=42
  4. 4. 形態素習得研究 http://www.danielcraig.co m/category/linguistics-2/
  5. 5. 形態素習得研究 • 今日的な見方 ––タスクの影響(Larsen-freeman, 1975) –母語の影響の強さ(Luk & Shirai, 2009) –しかし項目自体が持つ言語的特性の 影響は確かにある(Goldshneider & DeKeyserによるメタ分析など)DeKeyserによるメタ分析など) –電子媒体による大規模な言語資料を 作成し,計量的な分析をする方向へ
  6. 6. 形態素習得研究 • 形態素習得研究の評価 –1970年代から現在まで,応用言語学, 第二言語習得研究を支えた理論的柱 であった –主張自体の真偽に関わらずその功績が–主張自体の真偽に関わらずその功績が 絶大
  7. 7. 形態素習得研究 • しかし,その手法といえば… – Group Score Method (GSM) • 「グループにおける」義務的文脈(使わなければならない 状況)と正用率(正しく使えた回数)の比率 • 重み付けをする場合もある • Dulay & Burt(1974)など – もちろんその後沢山の亜種が派生– もちろんその後沢山の亜種が派生 • GMS… • 計算方法や誘出方法もまた問題であった(Rusansky, 1976)
  8. 8. 形態素習得研究 進行形 過去形 冠詞 正用 義務的文脈 正用 義務的文脈 正用 義務的文脈 Aさん 3 4 13 40 50 140 Bさん 3 6 14 43 32 103 Cさん 3 4 14 65 31 180 Dさん 1 2 5 40 120 201 合計 10 16 54 188 233 624 比率 .63 .29 .37 順位 1 3 2
  9. 9. http://matome.naver.jp/odai/2136223288290 780701/2136223522491514403
  10. 10. 形態素習得研究 • 時代を感じるところ• 時代 感 –全然分母の違う比率の比較 –外れ値(個人の特性)の影響 –分析や尺度におけるばらつきや信頼性を 「解釈が容易なかたち」で示す方法がな「解釈が容易なかたち」で示す方法がな い
  11. 11. そこで!そこで!そこで!そこで!そこで!そこで!そこで!そこで! リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!リサンプリング!
  12. 12. • 問題の解決 –全然分母の違う比率の比較 • →まあとりあえず逆正弦変換でも• →まあとりあえず逆正弦変換でも –外れ値(個人の特性)の影響 –分析や尺度におけるばらつきや信頼性を 「解釈が容易なかたち」で示す方法がな いい • →リサンプリングのまね事をしよう!
  13. 13. リサンプリング • 何? –リサンプリング/再標本化 • 手持ちの標本から再度,下位の標本を複 数作り出すこと,またはその過程を用いる統 計的検定,パラミター推定,モデルの妥 当化当化 • ブートストラップ • ジャックナイフ
  14. 14. リサンプリング • なんでそんなことするの? –手持ちの標本からリサンプリングを繰り 返して得られる統計量(平均値や分散) は,母集団からサンプリングを繰り返し たものにより近似するだろう –確率分布に依存せず(未知の場合の–確率分布に依存せず(未知の場合の 時などに)に母集団の性質に見通しを つけられる
  15. 15. 簡単簡単簡単簡単なななな例例例例
  16. 16. 英語学習者の 母集団 A B C A B A B C A B D A C D C D B C D
  17. 17. 進行形 過去形 冠詞 正用 義務的文脈 正用 義務的文脈 正用 義務的文脈 Aさん 3 4 13 40 50 140 Bさん 3 6 14 43 32 103 Cさん 3 4 14 65 31 180 Dさん 1 2 5 40 120 201 合計 10 16 54 188 233 624 比率 .63 .29 .37 順位 1 3 2
  18. 18. 進行形 過去形 冠詞 正用 義務的文脈 正用 義務的文脈 正用 義務的文脈 1 Aさん 3 4 13 40 50 140 Bさん 3 6 14 43 32 103 Cさん 3 4 14 65 31 180 合計 9 14 41 148 113 423 比率 0.64 0.28 0.27 順位 1 2 3順位 1 2 3 2 Aさん 3 4 13 40 50 140 Bさん 3 6 14 43 32 103 Dさん 1 2 5 40 120 201 合計 7 12 32 123 202 444 比率 0.58 0.26 0.45 順位 1 3 2 3 Aさん 3 4 13 40 50 140 Cさん 3 4 14 65 31 180 Dさん 1 2 5 40 120 201 7 10 32 145 201 521合計 7 10 32 145 201 521 比率 0.70 0.22 0.39 順位 1 3 2 4 Bさん 3 6 14 43 32 103 Cさん 3 4 14 65 31 180 Dさん 1 2 5 40 120 201 合計 7 12 33 148 183 484 比率 0.58 0.22 0.38 順位 1 3 2
  19. 19. 55 進行形 過去形 冠詞 35404550 1 53.30 31.76 31.12 2 49.80 30.67 42.42 3 56.79 28.02 38.40 4 49.80 28.18 37.94 M 52.42 29.66 37.47 30 進進進 過過進 冠冠 SD 3.35 1.85 4.69 MとSDはあくまで便宜的に。
  20. 20. リサンプリング • 形態素習得研究における研究法上• 形態素習得研究における研究法上 の利点 – 著しくデータを歪める個人の影響を緩和できる(サン プリングエラー緩和) – 母集団における正用率を区間推定できる(そんなも のが理論的にあるとは限らないけども)のが理論的にあるとは限らないけども)
  21. 21. RRRRでやろう!でやろう!でやろう!でやろう!
  22. 22. ソース rGSM <- function(x, n.boot, n.sub) { meany = numeric(0) for(i in 1:n.boot) { subs <- x[sample(nrow(x),n.sub,replace=TRUE),] y[i] <-(c(57.29578*(asin(sqrt((sum(subs[,1])/sum(subs[,2]))))))) meany[i] <-mean(y) } par(mfrow=c(1,3))par(mfrow=c(1,3)) boxplot(y, ylab="score") plot(meany, xlab="", ylab="score") hist(y, ylab="frequency", xlab="score", main="") list("summary"=summary(y),"95%CI"=quantile(y,p=c(0.025,0.975))) }
  23. 23. 使い方 • データの読み込み• データ 読 込 –x <- matrix(c(3,3,3,1,1,6,4,2), 4, 2 ) –必ずデータは二列 –rGSM(a, b, c) • aは,二列のデータ 進行形 正用 義務的文脈 Aさん 3 4 Bさん 3 6 • bは繰り返しの回数 • cは標本の大きさ(重複有り) • 逆正弦変換をする Cさん 3 4 Dさん 1 2
  24. 24. 使い方 • 例(重複4個を1,000施行)• 例
  25. 25. 使い方 • 同時に図示も!• 同時に図示も!3132333435 score 31.231.431.631.8 score frequency 100015002000 282930 0 4000 8000 30.630.831.0 score 28 30 32 34 0500
  26. 26. これだけ!これだけ!これだけ!これだけ!これだけ!これだけ!これだけ!これだけ! 超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!超簡単!
  27. 27. 展望 • 順序だけのものよりも遥かに豊富な• 順序 遥 豊富な 情報量 • 今日的な学習者コーパスを用いた 研究との組み合わせ研究との組み合わせ
  28. 28. 草薙邦広草薙邦広 名古屋大学大学院 kusanagi@nagoya-u.jpkusanagi@nagoya-u.jp

×