Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

一般化極値分布をもちいた単位時間内における最大語数のモデリング

544 views

Published on

石井雄隆・石井卓巳・川口勇作・阿部大輔・西村嘉人・草薙邦広(2015)「Writing MaetriXを用いた言語資源の構築と英語学習者のライティング・プロセスの解明」外国語教育メディア学会 第55回全国研究大会. 千里ライフサイエンスセンター. (公募シンポジウム)

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

一般化極値分布をもちいた単位時間内における最大語数のモデリング

  1. 1. 一般化極値分布をもちいた一般化極値分布をもちいた 単位時間内における単位時間内における 最大増加語数のモデリング最大増加語数のモデリング 「コピペ」をプロセスの観点から⾒破る 草薙邦広草薙邦広 名古屋大学大学院 日本学術振興会日本学術振興会
  2. 2. 概要概要 • PC上でライティングプロセスを記録すると き,通常のライティングプロセス以外のプロき,通常のライティングプロセス以外のプロ セスが混入する場合がある 別のソフトウェアで書きためたものをコピーアン セスが混入する場合がある – 別のソフトウェアで書きためたものをコピーアン ドペ―ストドペ―スト – いわゆる剽窃や書き写し – 語数のカウントを稼ぐためだけの無意味文の作成– 語数のカウントを稼ぐためだけの無意味文の作成 • これを統計的な手法によってフィルタリング したい • これを統計的な手法によってフィルタリング したい
  3. 3. データデータ • 本プロジェクトで収集したうち,338個 のプロセスファイル(.klg)のプロセスファイル(.klg) – ただし,人の重複あり– ただし,人の重複あり • 60分間,60データポイントで分析 • 1分間あたりの増加語数に関する交差時• 1分間あたりの増加語数に関する交差時 系列データ(パネルデータ)系列データ(パネルデータ)
  4. 4. 400 Words 200300 Words 100200 50100 0 10 20 30 40 50 60 0 Words 050 Time Words -50 増加語数の時系列推移傾向のな -150-100 増加語数の時系列推移傾向のな かで,あきらかに特異な振る舞 いを示すケースがいくかある 0 10 20 30 40 50 60 -150 Time 0 10 20 30 40 50 60
  5. 5. 着眼点着眼点 • 通常のライティングプロセスでは,1分 間に書ける語数には限界があると考えら間に書ける語数には限界があると考えら れるれる • 極値統計(extreme value statistics)の方法を使 い,確率論的に整合的な1分間の最大増い,確率論的に整合的な1分間の最大増 加語数を計算加語数を計算 • それを超える値はおそらく異常なプロセ スによる混入であろうスによる混入であろう
  6. 6. 極値統計極値統計 極値分布• 極値分布(extreme value distribution) – 漸近的に最大値(区間最大値データ;block maximum)が従う分布 – 漸近的に最大値(区間最大値データ;block maximum)が従う分布 – 経済学,⾦融⼯学,品質⼯学,信頼性⼯学,気象学 などでちいられるなどでちいられる – 単変量の⼀般化極値分布は,以下の三⺟数をもつ • 位置パラミタ• 位置パラミタ • スケールパラミタ • 形状パラミタ ⺟数により,分布は,以下のような型に分類できる 形状パラミタ – ⺟数により,分布は,以下のような型に分類できる • ガンベル型 • フレシェ型• フレシェ型 • ワイブル型
  7. 7. 本調査本調査 • ライティングプロセスにおける区分最大 値データを最尤推定によって極値分布に値データを最尤推定によって極値分布に あてはめ,1分間における最大の増加語数 をモデル化する あてはめ,1分間における最大の増加語数 をモデル化する • モデルにおいて確率論的な整合性がない• モデルにおいて確率論的な整合性がない と判断する基準(e.g., 1%, 0.1%)におと判断する基準(e.g., 1%, 0.1%)にお ける閾値を設定し,それ以上の値を取る ケースを抽出するケースを抽出する
  8. 8. 一般化極値分布⺟数の推定一般化極値分布⺟数の推定 • 区分最大値データ 250300 Frequency 150200250 Frequency 50100 • 最尤推定 Words 0 20 40 60 80 100 120 140 0 推定値 標準誤差 位置パラミタ 13.05 0.16位置パラミタ 13.05 0.16 スケールパラミタ 2.72 0.12 形状パラミタ 0.18 0.03
  9. 9. 推定モデル推定モデル 0.140.120.140.080.100.120.060.08 p 0.020.040.060.000.02 0 10 20 30 40 50 0.00 WordsWords
  10. 10. 5%, 1%, 0.1%点5%, 1%, 0.1%点 0.140.120.140.080.100.060.08 distrev 0.040.060.000.02 0 10 20 30 40 50 0.00 x
  11. 11. 結果結果 • 0.1%水準を閾値としたとき,およそ 50語以上の増加語数は確率論的に整50語以上の増加語数は確率論的に整 合性がない合性がない – 50語以上の増加はコピペの可能性大50語以上の増加はコピペの可能性大 – しかし,あくまでもこの基準はRule of ThumbThumb
  12. 12. 14010012080100602040020 Time 0 10 20 30 40 50 60 Time
  13. 13. まとめと展望まとめと展望 • ライティング研究において剽窃は主要な 問題のひとつ問題のひとつ • 現在,英作文がPCで⾏われることは,あ• 現在,英作文がPCで⾏われることは,あ たりまえだからこそ,それを検知する技 術を開発する必要性がある術を開発する必要性がある • 本プロジェクトのような新しいタイプの• 本プロジェクトのような新しいタイプの コーパス研究が貢献できることは,従来 のコーパス研究の枠に留まらないのコーパス研究の枠に留まらない

×