Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

2015LETシンポジウム 増加語数の時系列推移情報をもちいた時系列モデリング

397 views

Published on

石井雄隆・石井卓巳・川口勇作・阿部大輔・西村嘉人・草薙邦広(2015, August)「Writing MaetriXを用いた言語資源の構築と英語学習者のライティング・プロセスの解明」外国語教育メディア学会 第55回全国研究大会 公募シンポジウム. 千里ライフサイエンスセンター.

Published in: Education
  • Be the first to comment

2015LETシンポジウム 増加語数の時系列推移情報をもちいた時系列モデリング

  1. 1. 増加語数の時系列推移情報を増加語数の時系列推移情報を もちいた時系列モデリングもちいた時系列モデリング 草薙邦広草薙邦広 名古屋大学大学院 日本学術振興会 川口勇作 日本学術振興会 川口勇作 名古屋大学大学院 阿部大輔 名古屋大学大学院 阿部大輔 名古屋大学大学院
  2. 2. 概要概要 • WMX Corpus Projectで蓄積されたデー タの⼀部をもちいて,増加語数の時系列タの⼀部をもちいて,増加語数の時系列 推移傾向に対する時系列データ分析の⽅ 法を紹介 推移傾向に対する時系列データ分析の⽅ 法を紹介
  3. 3. 複数データの同時可視化複数データの同時可視化 4003002001000 Time 0 10 20 30 40 50 60
  4. 4. 単位時間内の語数の増減単位時間内の語数の増減 • ラグ処理(lag processing)100050-500-150-100-150 Time 0 10 20 30 40 50 60
  5. 5. ポアソン分布へのあてはめポアソン分布へのあてはめ • 推定された⺟数(λ) – 離散確率の分布 Λが高ければ高いほどよい というわけではなく,発達 – 離散確率の分布 • 当てはまり(カイ二乗値) というわけではなく,発達 に対して非線形の関係をも つ可能性が指摘されている (草薙ほか, 2014; 川口ほか, 2014)• 当てはまり(カイ二乗値) (草薙ほか, 2014; 川口ほか, 2014) 150200 これまでのさまざまな研究 (e.g., 草薙ほか, 2012; 川口ほか, 2014; 50100150 Words (e.g., 草薙ほか, 2012; 川口ほか, 2014; 石井ほか, 2014)では理論的予測 に反して実測値が適切に フィットしない場合がある 050 フィットしない場合がある ことがわかってきている 0 10 20 30 40 50 60 Time
  6. 6. 1次関数へのあてはめ1次関数へのあてはめ • 推定された⺟数(切片,傾き) • 当てはまり(決定係数)• 当てはまり(決定係数) • 語数を標準化することも可能• 語数を標準化することも可能 150200 これまでのさまざまな研究 50100150 Words これまでのさまざまな研究 (e.g., 川口ほか, 2014; 石井ほか, 2014)では概して線形モデル のほうがフィットがよいと 050 のほうがフィットがよいと 報告されている 0 10 20 30 40 50 60 Time
  7. 7. 多項式平滑化曲線(LOESS)多項式平滑化曲線(LOESS) • 可視化による把握 • 適切にフィットするが,変数化すること• 適切にフィットするが,変数化すること はできないはできない 200100150200 all...2.LOESSは学習者へのライ ティングプロセスのフィー 50100 all...2. ティングプロセスのフィー ドバックに応用することが よい 0 10 20 30 40 50 60 0 Time
  8. 8. 自己相関係数自己相関係数 • 周期性が⾒られる場合もある10 Words 50 Time 0 10 20 30 40 50 60 Time
  9. 9. 自己相関係数自己相関係数 • 4-5分毎に⾃⼰相関係数が高くなる例 – 書き手のリズムや局所的計画– 書き手のリズムや局所的計画 1.00.6 ACF 0.2 ACF -0.2 0 5 10 15 Lag
  10. 10. 成分の分解成分の分解 • トレンド + 周期性成 200 • トレンド + 周期性成 分 + 誤差 50100150 data 分 + 誤差 – ほかにも⾃⼰回帰モデ ル,状態空間モデルな 0 0.00.5 seasonal ル,状態空間モデルな どより高度な時系列 データ分析が可能 -1.5-0.5 seasonal 200 データ分析が可能 50100150200 trend 050 24 remainder ただし実測値のライティングプロセスが -4-20 remainder ただし実測値のライティングプロセスが 明確な周期性をもつことは稀であると予 測される 2 4 6 8 10 12 time
  11. 11. 時系列モデリングの目的時系列モデリングの目的 • 情報の適切なレベルでの縮約・次元削減• 情報の適切なレベルでの縮約・次元削減 – 時系列データは膨大であり,処理が非常に困– 時系列データは膨大であり,処理が非常に困 難 – 適切なレベルで変数化ないし多変量による構– 適切なレベルで変数化ないし多変量による構 成概念として扱うことでさまざまな解析が可 能になる能になる • エデュケーショナルデータマインニング• エデュケーショナルデータマインニング や教育評価の観点
  12. 12. これからお送りする3つの事例報告これからお送りする3つの事例報告 プロダクトとのプロダクトとの 関係性 ⽅略との関係性 剽窃などといった 異常なライティング異常なライティング プロセスについて

×