SlideShare a Scribd company logo
1 of 13
Download to read offline
一般化極値分布をもちいた一般化極値分布をもちいた
単位時間内における単位時間内における
最大増加語数のモデリング最大増加語数のモデリング
「コピペ」をプロセスの観点から⾒破る
草薙邦広草薙邦広
名古屋大学大学院
日本学術振興会日本学術振興会
概要概要
• PC上でライティングプロセスを記録すると
き,通常のライティングプロセス以外のプロき,通常のライティングプロセス以外のプロ
セスが混入する場合がある
別のソフトウェアで書きためたものをコピーアン
セスが混入する場合がある
– 別のソフトウェアで書きためたものをコピーアン
ドペ―ストドペ―スト
– いわゆる剽窃や書き写し
– 語数のカウントを稼ぐためだけの無意味文の作成– 語数のカウントを稼ぐためだけの無意味文の作成
• これを統計的な手法によってフィルタリング
したい
• これを統計的な手法によってフィルタリング
したい
データデータ
• 本プロジェクトで収集したうち,338個
のプロセスファイル(.klg)のプロセスファイル(.klg)
– ただし,人の重複あり– ただし,人の重複あり
• 60分間,60データポイントで分析
• 1分間あたりの増加語数に関する交差時• 1分間あたりの増加語数に関する交差時
系列データ(パネルデータ)系列データ(パネルデータ)
400
Words
200300
Words
100200
50100
0 10 20 30 40 50 60
0
Words
050
Time
Words
-50
増加語数の時系列推移傾向のな
-150-100
増加語数の時系列推移傾向のな
かで,あきらかに特異な振る舞
いを示すケースがいくかある
0 10 20 30 40 50 60
-150
Time
0 10 20 30 40 50 60
着眼点着眼点
• 通常のライティングプロセスでは,1分
間に書ける語数には限界があると考えら間に書ける語数には限界があると考えら
れるれる
• 極値統計(extreme value statistics)の方法を使
い,確率論的に整合的な1分間の最大増い,確率論的に整合的な1分間の最大増
加語数を計算加語数を計算
• それを超える値はおそらく異常なプロセ
スによる混入であろうスによる混入であろう
極値統計極値統計
極値分布• 極値分布(extreme value distribution)
– 漸近的に最大値(区間最大値データ;block
maximum)が従う分布
– 漸近的に最大値(区間最大値データ;block
maximum)が従う分布
– 経済学,⾦融⼯学,品質⼯学,信頼性⼯学,気象学
などでちいられるなどでちいられる
– 単変量の⼀般化極値分布は,以下の三⺟数をもつ
• 位置パラミタ• 位置パラミタ
• スケールパラミタ
• 形状パラミタ
⺟数により,分布は,以下のような型に分類できる
形状パラミタ
– ⺟数により,分布は,以下のような型に分類できる
• ガンベル型
• フレシェ型• フレシェ型
• ワイブル型
本調査本調査
• ライティングプロセスにおける区分最大
値データを最尤推定によって極値分布に値データを最尤推定によって極値分布に
あてはめ,1分間における最大の増加語数
をモデル化する
あてはめ,1分間における最大の増加語数
をモデル化する
• モデルにおいて確率論的な整合性がない• モデルにおいて確率論的な整合性がない
と判断する基準(e.g., 1%, 0.1%)におと判断する基準(e.g., 1%, 0.1%)にお
ける閾値を設定し,それ以上の値を取る
ケースを抽出するケースを抽出する
一般化極値分布⺟数の推定一般化極値分布⺟数の推定
• 区分最大値データ
250300
Frequency
150200250
Frequency
50100
• 最尤推定 Words
0 20 40 60 80 100 120 140
0
推定値 標準誤差
位置パラミタ 13.05 0.16位置パラミタ 13.05 0.16
スケールパラミタ 2.72 0.12
形状パラミタ 0.18 0.03
推定モデル推定モデル
0.140.120.140.080.100.120.060.08
p
0.020.040.060.000.02
0 10 20 30 40 50
0.00
WordsWords
5%, 1%, 0.1%点5%, 1%, 0.1%点
0.140.120.140.080.100.060.08
distrev
0.040.060.000.02
0 10 20 30 40 50
0.00
x
結果結果
• 0.1%水準を閾値としたとき,およそ
50語以上の増加語数は確率論的に整50語以上の増加語数は確率論的に整
合性がない合性がない
– 50語以上の増加はコピペの可能性大50語以上の増加はコピペの可能性大
– しかし,あくまでもこの基準はRule of
ThumbThumb
14010012080100602040020
Time
0 10 20 30 40 50 60
Time
まとめと展望まとめと展望
• ライティング研究において剽窃は主要な
問題のひとつ問題のひとつ
• 現在,英作文がPCで⾏われることは,あ• 現在,英作文がPCで⾏われることは,あ
たりまえだからこそ,それを検知する技
術を開発する必要性がある術を開発する必要性がある
• 本プロジェクトのような新しいタイプの• 本プロジェクトのような新しいタイプの
コーパス研究が貢献できることは,従来
のコーパス研究の枠に留まらないのコーパス研究の枠に留まらない

More Related Content

Similar to 2015LETシンポジウム 最大増加語数のモデリング

Xpfp 070626
Xpfp 070626Xpfp 070626
Xpfp 070626takepu
 
50代現役SEのつぶやき
50代現役SEのつぶやき50代現役SEのつぶやき
50代現役SEのつぶやきKenichi Yamada
 
PFPファシグラ(2009/07/03)
PFPファシグラ(2009/07/03)PFPファシグラ(2009/07/03)
PFPファシグラ(2009/07/03)nishikawa_makoto7
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)MKT International Inc.
 
大阪工大プログラミング言語の標準化
大阪工大プログラミング言語の標準化大阪工大プログラミング言語の標準化
大阪工大プログラミング言語の標準化Toshiaki Kurokawa
 
密着!わたしのコンソールアプリ開発環境
密着!わたしのコンソールアプリ開発環境密着!わたしのコンソールアプリ開発環境
密着!わたしのコンソールアプリ開発環境Fumihito Yokoyama
 
Sphinxを使って本を書こう #pyconjp 2012
Sphinxを使って本を書こう #pyconjp 2012Sphinxを使って本を書こう #pyconjp 2012
Sphinxを使って本を書こう #pyconjp 2012Takayuki Shimizukawa
 
InDesign正規表現勉強会_名古屋_0727
InDesign正規表現勉強会_名古屋_0727InDesign正規表現勉強会_名古屋_0727
InDesign正規表現勉強会_名古屋_0727ShinyaNakagawa
 
グローバルリモートチーム開発とは
グローバルリモートチーム開発とはグローバルリモートチーム開発とは
グローバルリモートチーム開発とはatyenoria
 
GCSアジャイル開発を使ったゲームの作り方
 GCSアジャイル開発を使ったゲームの作り方 GCSアジャイル開発を使ったゲームの作り方
GCSアジャイル開発を使ったゲームの作り方Hiroyuki Tanaka
 
International php conference 2016 参加レポート
International php conference  2016 参加レポートInternational php conference  2016 参加レポート
International php conference 2016 参加レポートRyosuke Miyahara
 
今、おさえておきたい DevOps
今、おさえておきたい DevOps 今、おさえておきたい DevOps
今、おさえておきたい DevOps 智治 長沢
 
最新C#動向と関数型言語haskell ~命令型静的プログラミングから関数型動的プログラミングへのシフト~
最新C#動向と関数型言語haskell ~命令型静的プログラミングから関数型動的プログラミングへのシフト~最新C#動向と関数型言語haskell ~命令型静的プログラミングから関数型動的プログラミングへのシフト~
最新C#動向と関数型言語haskell ~命令型静的プログラミングから関数型動的プログラミングへのシフト~Fujio Kojima
 
Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践Kazuto Kusama
 

Similar to 2015LETシンポジウム 最大増加語数のモデリング (16)

Xpfp 070626
Xpfp 070626Xpfp 070626
Xpfp 070626
 
50代現役SEのつぶやき
50代現役SEのつぶやき50代現役SEのつぶやき
50代現役SEのつぶやき
 
PFPファシグラ(2009/07/03)
PFPファシグラ(2009/07/03)PFPファシグラ(2009/07/03)
PFPファシグラ(2009/07/03)
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
 
大阪工大プログラミング言語の標準化
大阪工大プログラミング言語の標準化大阪工大プログラミング言語の標準化
大阪工大プログラミング言語の標準化
 
密着!わたしのコンソールアプリ開発環境
密着!わたしのコンソールアプリ開発環境密着!わたしのコンソールアプリ開発環境
密着!わたしのコンソールアプリ開発環境
 
Sphinxを使って本を書こう #pyconjp 2012
Sphinxを使って本を書こう #pyconjp 2012Sphinxを使って本を書こう #pyconjp 2012
Sphinxを使って本を書こう #pyconjp 2012
 
InDesign正規表現勉強会_名古屋_0727
InDesign正規表現勉強会_名古屋_0727InDesign正規表現勉強会_名古屋_0727
InDesign正規表現勉強会_名古屋_0727
 
グローバルリモートチーム開発とは
グローバルリモートチーム開発とはグローバルリモートチーム開発とは
グローバルリモートチーム開発とは
 
GCSアジャイル開発を使ったゲームの作り方
 GCSアジャイル開発を使ったゲームの作り方 GCSアジャイル開発を使ったゲームの作り方
GCSアジャイル開発を使ったゲームの作り方
 
Agile Overview In Ono
Agile Overview In OnoAgile Overview In Ono
Agile Overview In Ono
 
International php conference 2016 参加レポート
International php conference  2016 参加レポートInternational php conference  2016 参加レポート
International php conference 2016 参加レポート
 
今、おさえておきたい DevOps
今、おさえておきたい DevOps 今、おさえておきたい DevOps
今、おさえておきたい DevOps
 
最新C#動向と関数型言語haskell ~命令型静的プログラミングから関数型動的プログラミングへのシフト~
最新C#動向と関数型言語haskell ~命令型静的プログラミングから関数型動的プログラミングへのシフト~最新C#動向と関数型言語haskell ~命令型静的プログラミングから関数型動的プログラミングへのシフト~
最新C#動向と関数型言語haskell ~命令型静的プログラミングから関数型動的プログラミングへのシフト~
 
Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践
 
Python勉強会 2015-12-02
Python勉強会 2015-12-02Python勉強会 2015-12-02
Python勉強会 2015-12-02
 

More from WritingMaetriX

2015LETシンポジウム 増加語数の時系列推移情報をもちいた時系列モデリング
2015LETシンポジウム 増加語数の時系列推移情報をもちいた時系列モデリング2015LETシンポジウム 増加語数の時系列推移情報をもちいた時系列モデリング
2015LETシンポジウム 増加語数の時系列推移情報をもちいた時系列モデリングWritingMaetriX
 
2015LETシンポジウム 総括
2015LETシンポジウム 総括2015LETシンポジウム 総括
2015LETシンポジウム 総括WritingMaetriX
 
2015LETシンポジウム 時系列指標とライティング方略
2015LETシンポジウム 時系列指標とライティング方略2015LETシンポジウム 時系列指標とライティング方略
2015LETシンポジウム 時系列指標とライティング方略WritingMaetriX
 
2015LETシンポジウム コーパス構築について
2015LETシンポジウム コーパス構築について2015LETシンポジウム コーパス構築について
2015LETシンポジウム コーパス構築についてWritingMaetriX
 
2015LETシンポジウム はじめに
2015LETシンポジウム はじめに2015LETシンポジウム はじめに
2015LETシンポジウム はじめにWritingMaetriX
 
2014LETシンポジウム 総括
2014LETシンポジウム 総括2014LETシンポジウム 総括
2014LETシンポジウム 総括WritingMaetriX
 
2014LETシンポジウム 予備的検討
2014LETシンポジウム 予備的検討2014LETシンポジウム 予備的検討
2014LETシンポジウム 予備的検討WritingMaetriX
 
2014LETシンポジウム コーパス構築計画
2014LETシンポジウム コーパス構築計画2014LETシンポジウム コーパス構築計画
2014LETシンポジウム コーパス構築計画WritingMaetriX
 
2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについて2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについてWritingMaetriX
 
2014LETシンポジウム 趣旨説明
2014LETシンポジウム 趣旨説明2014LETシンポジウム 趣旨説明
2014LETシンポジウム 趣旨説明WritingMaetriX
 
キー入力記録システムを援用したライティングプロセスの可視化:自律的学習を促すフィードバック環境構築に向けて
キー入力記録システムを援用したライティングプロセスの可視化:自律的学習を促すフィードバック環境構築に向けてキー入力記録システムを援用したライティングプロセスの可視化:自律的学習を促すフィードバック環境構築に向けて
キー入力記録システムを援用したライティングプロセスの可視化:自律的学習を促すフィードバック環境構築に向けてWritingMaetriX
 

More from WritingMaetriX (11)

2015LETシンポジウム 増加語数の時系列推移情報をもちいた時系列モデリング
2015LETシンポジウム 増加語数の時系列推移情報をもちいた時系列モデリング2015LETシンポジウム 増加語数の時系列推移情報をもちいた時系列モデリング
2015LETシンポジウム 増加語数の時系列推移情報をもちいた時系列モデリング
 
2015LETシンポジウム 総括
2015LETシンポジウム 総括2015LETシンポジウム 総括
2015LETシンポジウム 総括
 
2015LETシンポジウム 時系列指標とライティング方略
2015LETシンポジウム 時系列指標とライティング方略2015LETシンポジウム 時系列指標とライティング方略
2015LETシンポジウム 時系列指標とライティング方略
 
2015LETシンポジウム コーパス構築について
2015LETシンポジウム コーパス構築について2015LETシンポジウム コーパス構築について
2015LETシンポジウム コーパス構築について
 
2015LETシンポジウム はじめに
2015LETシンポジウム はじめに2015LETシンポジウム はじめに
2015LETシンポジウム はじめに
 
2014LETシンポジウム 総括
2014LETシンポジウム 総括2014LETシンポジウム 総括
2014LETシンポジウム 総括
 
2014LETシンポジウム 予備的検討
2014LETシンポジウム 予備的検討2014LETシンポジウム 予備的検討
2014LETシンポジウム 予備的検討
 
2014LETシンポジウム コーパス構築計画
2014LETシンポジウム コーパス構築計画2014LETシンポジウム コーパス構築計画
2014LETシンポジウム コーパス構築計画
 
2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについて2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについて
 
2014LETシンポジウム 趣旨説明
2014LETシンポジウム 趣旨説明2014LETシンポジウム 趣旨説明
2014LETシンポジウム 趣旨説明
 
キー入力記録システムを援用したライティングプロセスの可視化:自律的学習を促すフィードバック環境構築に向けて
キー入力記録システムを援用したライティングプロセスの可視化:自律的学習を促すフィードバック環境構築に向けてキー入力記録システムを援用したライティングプロセスの可視化:自律的学習を促すフィードバック環境構築に向けて
キー入力記録システムを援用したライティングプロセスの可視化:自律的学習を促すフィードバック環境構築に向けて
 

2015LETシンポジウム 最大増加語数のモデリング