増加語数の時系列推移情報を増加語数の時系列推移情報を
もちいた時系列モデリングもちいた時系列モデリング
草薙邦広草薙邦広
名古屋大学大学院
日本学術振興会
川口勇作
日本学術振興会
川口勇作
名古屋大学大学院
阿部大輔
名古屋大学大学院
阿部大輔
名古屋大学大学院
概要概要
• WMX Corpus Projectで蓄積されたデー
タの⼀部をもちいて,増加語数の時系列タの⼀部をもちいて,増加語数の時系列
推移傾向に対する時系列データ分析の⽅
法を紹介
推移傾向に対する時系列データ分析の⽅
法を紹介
複数データの同時可視化複数データの同時可視化
4003002001000
Time
0 10 20 30 40 50 60
単位時間内の語数の増減単位時間内の語数の増減
• ラグ処理(lag processing)100050-500-150-100-150
Time
0 10 20 30 40 50 60
ポアソン分布へのあてはめポアソン分布へのあてはめ
• 推定された⺟数(λ)
– 離散確率の分布
Λが高ければ高いほどよい
というわけではなく,発達
– 離散確率の分布
• 当てはまり(カイ二乗値)
というわけではなく,発達
に対して非線形の関係をも
つ可能性が指摘されている
(草薙ほか, 2014; 川口ほか, 2014)• 当てはまり(カイ二乗値) (草薙ほか, 2014; 川口ほか, 2014)
150200
これまでのさまざまな研究
(e.g., 草薙ほか, 2012; 川口ほか, 2014;
50100150
Words
(e.g., 草薙ほか, 2012; 川口ほか, 2014;
石井ほか, 2014)では理論的予測
に反して実測値が適切に
フィットしない場合がある
050
フィットしない場合がある
ことがわかってきている
0 10 20 30 40 50 60
Time
1次関数へのあてはめ1次関数へのあてはめ
• 推定された⺟数(切片,傾き)
• 当てはまり(決定係数)• 当てはまり(決定係数)
• 語数を標準化することも可能• 語数を標準化することも可能
150200
これまでのさまざまな研究
50100150
Words
これまでのさまざまな研究
(e.g., 川口ほか, 2014; 石井ほか,
2014)では概して線形モデル
のほうがフィットがよいと
050
のほうがフィットがよいと
報告されている
0 10 20 30 40 50 60
Time
多項式平滑化曲線(LOESS)多項式平滑化曲線(LOESS)
• 可視化による把握
• 適切にフィットするが,変数化すること• 適切にフィットするが,変数化すること
はできないはできない
200100150200
all...2.LOESSは学習者へのライ
ティングプロセスのフィー 50100
all...2.
ティングプロセスのフィー
ドバックに応用することが
よい
0 10 20 30 40 50 60
0
Time
自己相関係数自己相関係数
• 周期性が⾒られる場合もある10
Words
50
Time
0 10 20 30 40 50 60
Time
自己相関係数自己相関係数
• 4-5分毎に⾃⼰相関係数が高くなる例
– 書き手のリズムや局所的計画– 書き手のリズムや局所的計画
1.00.6
ACF
0.2
ACF
-0.2
0 5 10 15
Lag
成分の分解成分の分解
• トレンド + 周期性成
200
• トレンド + 周期性成
分 + 誤差
50100150
data
分 + 誤差
– ほかにも⾃⼰回帰モデ
ル,状態空間モデルな
0
0.00.5
seasonal
ル,状態空間モデルな
どより高度な時系列
データ分析が可能
-1.5-0.5
seasonal
200
データ分析が可能
50100150200
trend
050
24
remainder
ただし実測値のライティングプロセスが
-4-20
remainder
ただし実測値のライティングプロセスが
明確な周期性をもつことは稀であると予
測される
2 4 6 8 10 12
time
時系列モデリングの目的時系列モデリングの目的
• 情報の適切なレベルでの縮約・次元削減• 情報の適切なレベルでの縮約・次元削減
– 時系列データは膨大であり,処理が非常に困– 時系列データは膨大であり,処理が非常に困
難
– 適切なレベルで変数化ないし多変量による構– 適切なレベルで変数化ないし多変量による構
成概念として扱うことでさまざまな解析が可
能になる能になる
• エデュケーショナルデータマインニング• エデュケーショナルデータマインニング
や教育評価の観点
これからお送りする3つの事例報告これからお送りする3つの事例報告
プロダクトとのプロダクトとの
関係性
⽅略との関係性
剽窃などといった
異常なライティング異常なライティング
プロセスについて

2015LETシンポジウム 増加語数の時系列推移情報をもちいた時系列モデリング