SlideShare a Scribd company logo
1 of 61
読み時間について
国立国語研究所 コーパス開発センター
浅原正幸
はじめに
2017/09/01 SVM2017 2
はじめに
• Psycholinguistics × Corpus Linguistics
2017/09/01 SVM2017 3
Reading Time × Balanced Corpus × Corpus Annotation
きょうのおはなし
『現代日本語書き言葉均衡コーパス』[Maekawa+ 2014]
(BCCWJ) に付与された
の対照比較
2017/09/01 SVM2017 4
読み時間データ
(BCCWJ-EyeTrack)
MAPLL-TCP 2016年7月
COLING 2016年12月
言語処理学会 2017年3月
節の意味分類情報アノテーション
(BCCWJ-ToriClause)
言語学会 2017年6月
と
分類語彙表番号アノテーション
(BCCWJ-WLSP)
認知科学会 2017年9月
情報構造アノテーション
(BCCWJ-Infostr)
言語処理学会 2017年3月
利用するデータ
BCCWJ-EYETRACK
均衡コーパスに対する読み時間付与
2017/09/01 SVM2017 5
コーパスの設計
手法と環境
• 自己ペース読文法
– linger
• 視線走査法
– EyeLink 1000 (SR Research),
– tower mount, 1000Hz
• ディスプレイ
– EIZO FlexScan EV2116W
– 1920x1080 (Full-HD, 1080p)
– MS 明朝24pt
– 最大 5 行 x 53 文字
– 文節境界にスペースありとスペースなし
2017/09/01 SVM2017 6
コーパスの設計
元テキスト
『現代日本語書き言葉均衡コーパス』
– 新聞記事コアデータ PN
– 5-6 記事x 4 sets {A, B, C, D}
2017/09/01 SVM2017 7
Data 文節 文 画面
A 470 66 19
B 455 67 21
C 355 44 16
D 363 41 15
コーパスの設計
被験者のグループ化
• 24人の日本語母語話者
– 2015年8月~12月に実験を実施
2017/09/01 SVM2017 8
Group 視線走査法 自己ペース読文法
1 A 境界なし B 境界あり C 境界なし D 境界あり
2 A 境界あり B 境界なし C 境界あり D 境界なし
3 C 境界なし D 境界あり A 境界なし B 境界あり
4 C 境界あり D 境界なし A 境界あり B 境界なし
5 B 境界なし A 境界あり D 境界なし C 境界あり
6 B 境界あり A 境界なし D 境界あり C 境界なし
7 D 境界なし C 境界あり B 境界なし A 境界あり
8 D 境界あり C 境界なし B 境界あり A 境界なし
コーパスの設計
被験者の言語背景情報
• アンケート
– 年齢(5歳刻み)
– 生年代 (5年刻み)
– 性別
– 出生地
– 学歴(専門分野)
– 言語形成地:0-15歳の在住地
– 両親の出生地
– 裸眼かソフトコンタクトレンズか
• テスト
– リーディングスパンテスト [苧坂+ 2002]
– 語彙数テスト [天野+ 1998]
2017/09/01 SVM2017 9
コーパスの設計
視線走査実験データ
2017/09/01 SVM2017 10
コーパスの設計
視線走査実験データ の言語資源化
2017/09/01 SVM2017 11
読み時間の指標 概要
First Fixation Time (FFT) Interest Area (文節の表示範囲) に最初に視線が入った
ときの停留時間
First-Pass Time (FPT) Interest Area に最初に視線が入ってから、左右どちらか
に出るまでの停留時間の合計
Regression Path Time (RPT) Interest Area に最初に視線が入ってから、右に出るまで
の停留時間の合計
Second-Pass Time (SPT) Total Time(Total) – First-Pass Time(SPT)
Total Time (Total) Interest Area の停留時間の合計
視線走査順から元テキスト単語順への変換
コーパスの設計→視線走査実験データ の言語資源化
読み時間の指標(例)
2017/09/01 SVM2017 12
measurements 「初年度決算も」
First Fixation Time (FFT) 5
First-Pass Time (FPT) 5, 6
Regression Path Time (RPT) 5, 6, 7, 8, 9
Second-Pass Time (SPT) 9, 11
Total Time (Total) 5, 6, 9, 11
コーパスの設計→視線走査実験データ の言語資源化
データ形式(1/2)
2017/09/01 SVM2017 13
Column Name Type Description Example
surface factor 表層文字列 “初年度決算も”
time int 読み時間 (ms) 750
logtime num 対数読み時間 2.87
measure factor 読み時間集計手法 “EyeTrack:FFT”,
“EyeTrack:FPT” ...
sample factor サンプル名 {“A”, “B”, “C”, “D”}
article factor 記事情報 “00001_A_PN1c_00001_A
A_1”, ...
metadata_orig factor 文書構造タグ “titleBlock”, “authorData”, ..
metadata factor 修正文書構造タグ “titleBlock”, “authorData”, ..
Analysis
Data format (2/2)
2017/09/01 SVM2017 14
Column Name Type Description Example
sessionN int セッション順 {1,2}
articleN int 記事呈示順 {1,2,3,4,5}
screenN int 画面呈示順 {1,2,...,21}
lineN int 行(画面縦方向) {1,2,3,4,5}
segmentN int 文節番号(画面横方向) 1,2,3,...
sample_screen factor 画面識別子 {“A_1”,“A_2”,..., “D_15”}
length int 文字数 6
space factor 文節間に空白をいれる
かいれないか
{“0”, “1”}
subj factor 実験協力者ID “U100729”
dependent int 係る文節数 0, 1, 2, ...
BCCWJ-EyeTrack 単体の分析
Bayesian Linear Mixed Model
2017/09/01 SVM2017 15
結果
(Total のみ)
2017/09/01 SVM2017 16
係り受けの数が多いほど
読み時間が短くなる
文字数が多いと長くなる
空白があると短くなる
実験が進むと短くなる
レイアウトの影響
BCCWJ-EyeTrack 単体の分析
被験者属性による分析
2017/09/01 SVM2017 17
線形混合モデルに基づく分析
• データ処理
– メタデータ “authorsData”, “caption”, “listItem”, “profile”, and “titleBlock” を排
除
– ゼロ秒データ(視線停留なし)を分析対象から排除
• 外れ値除去
– ± 3-SD 以上のデータポイントを除去
• レイアウト要因 (固定因子):
– is_first, is_last, is_second_last
• 進行順(固定因子):
– articleN, screenN, lineN, segmentN
logtime ~
space * sessionN + length + dependent +
is_first +
is_last + is_second_last + articleN + screenN +
lineN + segmentN + rspan + voc + (1 | article)
• 文字長(固定因子): length
• 係る文節数(固定因子): dependent
• 記事(ランダム因子): article
対数読み時間(logtime)に対する
被験者属性を評価
記事がランダム効果
BCCWJ-EyeTrack 単体の分析
被験者属性による分析
短期記憶評価結果が優れている群は
1回読む速度が早い(FFT, FPT)が、複数回読む傾向にあり(SPT)、
全体として (TOTAL) は読み時間は他の群と変わらない
語彙力評価結果が優れている群は
読み時間が長くなる(FPT, SPT, RPT, TOTAL) 傾向にある
2017/09/01 SVM2017 18
固定効果 FFT FPT SPT RPT TOTAL
【短期記憶】
rspan
リーディングスパン得点
- - + - 0
【語彙力】
voc
語彙数テスト
0 + + + +
節の意味分類情報アノテーション
(BCCWJ-TORICLAUSE)との対照比較
2017/09/01 SVM2017 19
先行研究 『鳥バンク』
http://unicorn.ike.tottori-u.ac.jp/toribank/
日本語重文と複文を対象とする
「意味類型パターン辞書」
このうちの節境界パターンを
UniDic 体系に適応させて電子化したもの
https://github.com/masayu-a/clause_pattern
2017/09/01 SVM2017 20
『現代日本語書き言葉均衡コーパス』
に対する節の意味分類情報アノテーション
節境界の用法分類
1. パターンで候補を枚挙
2. 作業者2名で用法分類
(一次作業)
3. 作業者1名で確認作業
(二次作業)
大分類:
• 名詞修飾節
• 副詞節
• 並列節
• 補足節
2017/09/01 SVM2017 21
松本ほか(2017)
『現代日本語書き言葉均衡コーパス』に対する節の意味分類情報アノテーション
–基準策定、仕様書作成の必要性について--
言語資源活用ワークショップ2016発表論文集
節分類
名詞修飾節(連体節)
2017/09/01 SVM2017 22
大分類 中分類 小分類 パターン
名詞修飾節 補足語修飾節 限定的 連体形+名詞
非限定的 連体形+固有名詞
内容節 非限定的 連体形+思考・発言名詞
縮約形修飾節 連体形+因果名詞
機能的表現 形式名詞修飾節 連体形+形式名詞
文末表現相当 連体形+名詞+述部
慣用的表現 連体形+名詞+述部
副詞節相当 連体形+名詞+で
その他 用言+接続表現 ...からの...
節分類
副詞節(1)
2017/09/01 SVM2017 23
大分類 中分類 小分類 パターン
副詞節 時 事態の時 時(に)(は), てから
事態の継続期間 時から、まで(は)
因果関係 原因 ので,故,事で
結果 ため, たことから
理由根拠 から, をもって
条件・譲歩 法則的 ば
偶有的 と,たら,たところ
仮想的 としたら,とすると
反事実的 たら~(だろう)
譲歩 ても
節分類
副詞節(2)
2017/09/01 SVM2017 24
大分類 中分類 小分類 パターン
副詞節 付帯状況・様態 付帯状況 つつ,ながら,まま
様態 とおり, ふうに
逆接 が,けれど,のに
目的 ため,べく,よう
程度 くらい,ほど
前提 からには,以上は
手段 ことで, ことによって
二者関係 一方で, より, のと同様
相関 とともに, につれ
判断,主観 とは, ようでは, からして
節分類
副詞節(3)
2017/09/01 SVM2017 25
大分類 中分類 小分類 パターン
副詞節 場面 ところでは,ところによると
限定 だけで,を除き
独立 感情動詞+ことには
その他 助動詞相当表現 ざるを
慣用的表現 Aと言ったらA
副詞相当表現 節+接続表現
発言・思考内容 たく,とて
2文 、
節分類
並列節(並列型連用節)
2017/09/01 SVM2017 26
大分類 中分類 小分類 パターン
並列節 順接的並列 総記の並列 し,連用中止,て
例示の並列 ば,たり,や
累加の並列 だけではなく
平行 とともに,と同時に,かつ
否定の並列 なくて,ないで
選択 か
逆接的並列 が,けれど,けれども
節分類
補足節(補語相当節)
2017/09/01 SVM2017 27
大分類 中分類 小分類 パターン
補足節 名詞節 コト型
ノ型
トコロ型
節+格助詞
疑問節 選択疑問文 か,かどうか
疑問語疑問文 疑問後+か, 疑問後+のか
引用節 直接引用 」と
間接引用 と,ように,なんて
節分類の頻度
BCCWJ-EyeTrack と BCCWJ-ToriClause の重複部分
名詞修飾節 94 副詞節 83 並列節 28
補足語修飾節 61 時 5 手段 7 順接的並列 27
内容節 19 因果関係 20 二者関係 2 逆接的並列 1
縮約形修飾節 6 条件・譲歩 5 相関 1
機能的表現 7 付帯状況 10 判断・主観 2 補足節 64
その他 1 逆接 8 限定 1 名詞節 28
目的 3 独立 8 疑問節 2
前提 2 その他 9 引用節 34
2017/09/01 SVM2017 28
分析 線形混合モデルに基づくモデリング
2017/09/01 SVM2017 29
• データ処理
– メタデータ “authorsData”, “caption”, “listItem”, “profile”, and “titleBlock” を排
除
– ゼロ秒データ(視線停留なし)を分析対象から排除
• 外れ値除去
– ± 3-SD 以上のデータポイントを除去
• レイアウト要因 (固定因子):
– is_first, is_last, is_second_last
• 進行順(固定因子):
– articleN, screenN, lineN, segmentN
logtime ~ space * sessionN + lengthN +
dependent
+ is_first + is_last + is_second_last
+ articleN + screenN + lineN + segmentN
+ MS? + FU? + HR? + HS?
+ (1| subj) + (1|article)
• 文字長(固定因子): length
• 係る文節数(固定因子): dependent
• 実験協力者(ランダム因子): subj
• 記事(ランダム因子): article
対数読み時間(logtime)に対する
節分類(固定因子)を評価
大分類と中分類の
2種のモデルを作成
節の中分類 分析結果(Table 3)
名詞修飾節
2017/09/01 SVM2017 35
SELF FFT FPT SPT RPT TOTAL
MSa
補足語修飾
節
-0.028***
(0.002)
-0.027***
(0.010)
-0.057***
(0.013)
-0.002
(0.026)
-0.064***
(0.015)
-0.065***
(0.013)
MSb
内容節
-0.005
(0.011)
-0.026
(0.018)
-0.050**
(0.022)
0.075*
(0.045)
-0.080***
(0.027)
-0.045**
(0.023)
MSc
縮約形修飾
節
-0.022
(0.019)
0.028
(0.002)
-0.017
(0.039)
-0.090
(0.066)
-0.037
(0.047)
-0.010
(0.041)
MSd
機能的表現
-0.063***
(0.018)
-0.051*
(0.026)
-0.001
(0.033)
-0.094
(0.062)
-0.028
(0.040)
-0.030
(0.035)
MSe
その他
0.044
(0.048)
0.057
(0.064)
0.007
(0.081)
-0.155
(0.115)
0.004
(0.098)
-0.002
(0.085)
*p<0.1; **p<0.05; ***p<0.01
名詞修飾節(MS)
補足語修飾節(MSa) と内容節(MSb)
補足語修飾節【関係節 内の関係】:
「被修飾名詞が修飾節内述部と格関係にあるもの」
SELF で読み時間が短くなる
(1) 幼稚園から大学まで通った青山学院では、
【MSa200:名詞修飾節:補足語修飾節:非限定的】
(読売新聞2001 年[ BCCWJ: 00001_A_PN1c_00001_A_1])
内容節【関係節 外の関係】 :
「被修飾名詞が発言・思考・事柄に関する意味を持ち、被修飾名詞と修飾節が
同格にあるもの」
SELF で読み時間が短くならない
SPT で読み時間が長くなる(二度見が多い)
(2) 支払利息や減価償却費の計上額が少ない傾向がある。
【MSb:名詞修飾節:内容節】
(北海道新聞2002 年[ BCCWJ: 00005 A PN2e 00001 A 2])
2017/09/01 SVM2017 36
次に来る格要
素を予測する
ことにより、
読み速度が
速くなる?
節の中分類 分析結果(Table 3)
副詞節 (a-f)
2017/09/01 SVM2017 37
SELF FFT FPT SPT RPT TOTAL
FUa
時
-0.005
(0.021)
-0.138***
(0.038)
-0.100***
(0.047)
0.108
(0.095)
-0.019
(0.057)
-0.066
(0.049)
FUb
因果関係
-0.059***
(0.011)
-0.012
(0.018)
-0.055**
(0.022)
-0.032
(0.045)
-0.047*
(0.027)
-0.075***
(0.023)
FUc
条件・譲歩
-0.068***
(0.021)
-0.034
(0.032)
-0.114***
(0.040)
-0.210***
(0.077)
-0.111
(0.049)
-0.158
(0.042)
FUd
付帯状況・
様態
-0.022
(0.015)
-0.077***
(0.024)
-0.115***
(0.030)
-0.059
(0.054)
-0.132***
(0.036)
-0.089***
(0.031)
FUe
逆接
0.076***
(0.017)
-0.009
(0.027)
-0.067**
(0.034)
-0.078
(0.060)
-0.080*
(0.041)
-0.059*
(0.035)
FUf
目的
-0.045*
(0.027)
-0.019
(0.049)
-0.158***
(0.061)
0.116
(0.172)
-0.150**
(0.074)
-0.191***
(0.064)
*p<0.1; **p<0.05; ***p<0.01
節の中分類 分析結果(Table 3)
副詞節 (h-n)
2017/09/01 SVM2017 38
SELF FFT FPT SPT RPT TOTAL
FUh
前提
-0.073**
(0.033)
-0.063
(0.048)
-0.145**
(0.060)
0.027
(0.095)
-0.035
(0.072)
-0.106*
(0.063)
FUi
手段
-0.001
(0.018)
-0.055
(0.028)
0.021
(0.035)
-0.134
(0.071)
0.015
(0.043)
-0.002
(0.037)
FUj
二者関係
-0.096***
(0.033)
-0.008
(0.061)
-0.131*
(0.076)
-0.073
(0.134)
-0.006
(0.092)
-0.099
(0.079)
FUk
相関
-0.024
(0.047)
-0.038
(0.090)
-0.158
(0.112)
-0.274
(0.211)
-0.192
(0.135)
-0.183
(0.117)
FUl
判断・主観
-0.018
(0.033)
-0.134**
(0.063)
-0.075
(0.079)
-0.135
(0.175)
-0.085
(0.095)
-0.130
(0.083)
FUn
限定
0.031
(0.047)
0.077
(0.070)
0.119
(0.083)
0.032
(0.105)
0.084
(0.091)
*p<0.1; **p<0.05; ***p<0.01
節の中分類 分析結果(Table 3)
副詞節 (o-p)
2017/09/01 SVM2017 39
SELF FFT FPT SPT RPT TOTAL
FUo
独立
-0.036**
(0.017)
-0.002
(0.027)
-0.054
(0.034)
0.050
(0.069)
-0.004
(0.041)
-0.048
(0.035)
FUp
その他
-0.012
(0.016)
-0.073***
(0.027)
-0.148***
(0.034)
-0.141*
(0.080)
-0.174***
(0.041)
-0.183***
(0.036)
*p<0.1; **p<0.05; ***p<0.01
副詞節(FU)
因果関係(FUb) と付帯状況・様態(FUd)
因果関係:
「従属節と主節で表される事態間の因果関係を表すもの」
SELF で読み時間が短くなる
(3) 「しゃべるのが得意なんだから、能力を生かしてみたら」と、
【FUb300:副詞節:因果関係:理由根拠】
(読売新聞2001 年[ BCCWJ: 00001_A_PN1c_00001_A_1])
付帯状況・様態:
「ある動作に付随する状態や並行的に行われている動作、またはその際の様態
を表すもの」
SELF で読み時間が短くならない
FFT, FPT で読み時間が短くなる
(4) もみじの木にとまって仲良く寄り添う二羽のキジバト。
【FUd100:副詞節:付帯状況・様態:付帯状況】
(産経新聞2001 年[ BCCWJ: 00002_A_PN1d 00001_B_1])
2017/09/01 SVM2017 40
SELF と FFT,
FPT との
齟齬?
節の中分類 分析結果(Table 3)
並列節
2017/09/01 SVM2017 41
SELF FFT FPT SPT RPT TOTAL
HRa
順接的並列
-0.018**
(0.010)
-0.021
(0.015)
-0.071***
(0.019)
-0.038
(0.039)
-0.058**
(0.023)
-0.072***
(0.035)
HRb
逆接的並列
-0.003
(0.047)
0.103
(0.066)
0.047
(0.083)
-0.208
(0.173)
-0.136
(0.100)
0.018
(0.087)
*p<0.1; **p<0.05; ***p<0.01
節の中分類 分析結果(Table 3)
補足節
2017/09/01 SVM2017 42
SELF FFT FPT SPT RPT TOTAL
HSa
名詞節
-0.073***
(0.009)
-0.020
(0.015)
-0.072***
(0.019)
-0.056
(0.038)
-0.063***
(0.023)
-0.078***
(0.020)
HSb
疑問節
-0.008
(0.033)
0.019
(0.048)
-0.063
(0.060)
-0.098
(0.096)
-0.023
(0.073)
-0.045
(0.063)
HSc
引用節
-0.023***
(0.009)
-0.029**
(0.014)
-0.040**
(0.018)
0.036
(0.033)
0.010
(0.021)
-0.032*
(0.018)
*p<0.1; **p<0.05; ***p<0.01
補足節(HS)
名詞節(HSa) と引用節(HSc)
名詞節:
「『節+形式名詞(こと・の・ところ)』の形で、格助詞を伴って主節の述語を補う要素とな
る節」
SELF, FPT, RPT, TOTAL で読み時間が短くなる
(5) 「タイミングよくまぶたを閉じてくれたことで、独特な雰囲気の写真になりま
した。」
【HSa100:補足節:名詞節:コト型】
(産経新聞2001 年[ BCCWJ: 00002_A_PN1d 00001_B_1])
引用節:
「引用の形式で主節の述部を補う要素となる節」
SELF, FFT, FPT, TOTAL で読み時間が短くなる
SELF, TOTAL は名詞節ほど読み時間が短くならない
SPT, RPT で読み時間が短くならない
(6) シャープの携帯情報端末「ザウルス」のコンテンツを5月中旬から販売すると
発表した。
【HSc200:補足節:引用節:間接引用】
(産経新聞2001 年[ BCCWJ: 00015_A_PN1d 00002_B_5])
2017/09/01 SVM2017 43
統語・意味分類アノテーション
(分類語彙表番号)との対照比較
2017/09/01 SVM2017 44
『現代日本語書き言葉均衡コーパス』
に対する分類語彙表番号アノテーション
BCCWJに出現する全ての自立語に人手で
語義の曖昧性解消を行いながら分類語彙
表に基づく分類番号を付与
(短単位・長単位ともに)
2017/09/01 SVM2017 45
加藤ほか(2017)
『現代日本語書き言葉均衡コーパス』に対する分類語彙表番号アノテーション
言語処理学会第23回年次大会発表論文集
分類番号の構造「この」(分類番号: 3.1010)
類 部門 中項目 分類項目
相(3) 関係(.1) 真偽(.10) こそあど(.1010)
分類語彙表番号の文節への写像
文節内自立語主辞(長単位)の情報を利用
2017/09/01 SVM2017 46
1 体の類 2 用の類 3 相の類 未定義語・他
1150 357 125 21
業務と 演じた 激しい しかし
.1 関係 .2 主体 .3 活動 .4 生産物 .5 自然
663 285 596 69 28
会談し, 政府の 決定し, 補助金を もみじの
統語分類(類)の頻度と例
意味分類(部門)の頻度と例
列名 データ型 摘要
WLSP_LUW_A factor 分類語彙表における類(統語分類)
WLSP_LUW_B factor 分類語彙表における部門(意味分類)
分析 線形混合モデルに基づくモデリング
2017/09/01 SVM2017 47
• データ処理
– メタデータ “authorsData”, “caption”, “listItem”, “profile”, and “titleBlock” を排
除
– ゼロ秒データ(視線停留なし)を分析対象から排除
• 外れ値除去
– ± 3-SD 以上のデータポイントを除去
• レイアウト要因 (固定因子):
– is_first, is_last, is_second_last
• 進行順(固定因子):
– articleN, screenN, lineN, segmentN
logtime ~ space * sessionN + lengthN +
dependent
+ is_first + is_last + is_second_last
+ articleN + screenN + lineN + segmentN
+ WLSP_LUW_A + WLSP_LUW_B
+ (1| subj) + (1|article)
• 文字長(固定因子): length
• 係る文節数(固定因子): dependent
• 実験協力者(ランダム因子): subj
• 記事(ランダム因子): article
対数読み時間(logtime)に対する
分類語彙表番号(類・部門)
結果
分類語彙表番号関連のみ抜粋
SELF FFT FPT SPT RPT TOTAL
WLSPLUWA2
用の類 (vs. 体の類)
-0.047***
(0.004)
-0.038***
(0.006)
-0.096***
(0.007)
-0.029**
(0.014)
-0.088***
(0.009)
-0.101***
(0.008)
WLSPLUWA3
相の類 (vs. 体の類)
-0.036***
(0.005)
-0.003***
(0.008)
-0.056***
(0.010)
-0.034*
(0.020)
-0.054***
(0.012)
-0.071***
(0.010)
WLSPLUWAFALSE
未登録語等(vs. 体の類)
-0.030
(0.019)
0.020
(0.061)
-0.075
(0.076)
-0.031
(0.299)
-0.109
(0.092)
-0.160**
(0.079)
WLSPLUWB.2
主体 (vs. 関係)
0.001
(0.004)
0.014**
(0.006)
0.018**
(0.007)
0.011
(0.013)
0.005
(0.009)
0.018**
(0.008)
WLSPLUWB.3
活動(vs. 関係)
-0.007**
(0.003)
0.015***
(0.005)
0.024***
(0.006)
0.012
(0.011)
0.021***
(0.007)
0.023***
(0.006)
WLSPLUWB.4
生産物 (vs. 関係)
0.017***
(0.007)
0.005
(0.010)
0.022*
(0.013)
0.009
(0.021)
0.018
(0.015)
0.037***
(0.013)
WLSPLUWB.5
自然(vs. 関係)
0.014
(0.010)
0.034**
(0.015)
0.017
(0.019)
0.054
(0.034)
0.024
(0.023)
0.040**
(0.020)
事例数 17,628 13,232 13,232 4,769 13,232 13,232
2017/09/01 SVM2017 48
結果
分類語彙表番号関連のみ抜粋
SELF FFT FPT SPT RPT TOTAL
WLSPLUWA2
用の類 (vs. 体の類)
-0.047***
(0.004)
-0.038***
(0.006)
-0.096***
(0.007)
-0.029**
(0.014)
-0.088***
(0.009)
-0.101***
(0.008)
WLSPLUWA3
相の類 (vs. 体の類)
-0.036***
(0.005)
-0.003***
(0.008)
-0.056***
(0.010)
-0.034*
(0.020)
-0.054***
(0.012)
-0.071***
(0.010)
WLSPLUWAFALSE
未登録語等(vs. 体の類)
-0.030
(0.019)
0.020
(0.061)
-0.075
(0.076)
-0.031
(0.299)
-0.109
(0.092)
-0.160**
(0.079)
WLSPLUWB.2
主体 (vs. 関係)
0.001
(0.004)
0.014**
(0.006)
0.018**
(0.007)
0.011
(0.013)
0.005
(0.009)
0.018**
(0.008)
WLSPLUWB.3
活動(vs. 関係)
-0.007**
(0.003)
0.015***
(0.005)
0.024***
(0.006)
0.012
(0.011)
0.021***
(0.007)
0.023***
(0.006)
WLSPLUWB.4
生産物 (vs. 関係)
0.017***
(0.007)
0.005
(0.010)
0.022*
(0.013)
0.009
(0.021)
0.018
(0.015)
0.037***
(0.013)
WLSPLUWB.5
自然(vs. 関係)
0.014
(0.010)
0.034**
(0.015)
0.017
(0.019)
0.054
(0.034)
0.024
(0.023)
0.040**
(0.020)
事例数 17,628 13,232 13,232 4,769 13,232 13,232
2017/09/01 SVM2017 49
統語分類の比較
FFT 以外の指標で
用の類<相の類<体の類
意味分類の比較
FPTとTOTALの指標で
関係<{主体,活動,生産物,自然}
考察
Anti-locality
係り元文節が多い要素ほど読み時間が短くなる(予測に基づ
く)
• 統語分類:用の類・相の類は体の類に比して項を取りうる傾
向にある
• 意味分類:関係は項を取りうる
日本語の場合、
陽に項が表出する場合は dependent にその傾向が表れる
一方、陽に項が表出しないが、取りうる項が読み手に想定で
きる場合があり
結果として、予測しやすい傾向があるため読み時間が短くな
る
2017/09/01 SVM2017 50
情報構造アノテーション(BCCWJ-
INFOSTR) との対照比較
2017/09/01 SVM2017 51
『現代日本語書き言葉均衡コーパス』
に対する情報構造アノテーション
共参照アノテーションの拡
張としての情報構造アノ
テーション
7種類の情報を BCCWJ 新聞
(PN)コアサンプル 16ファイ
ル名詞句 2023 件に対して
付与
今回はそのうちの595件の
み利用
• 情報状態 (information status)
• 共有性 (commonness)
• 定性 (definiteness)
• 特定性 (specificity)
• 有生性 (animacy)
• 有情性 (sentience)
• 動作主性 (agentivity)
2017/09/01 SVM2017 52
宮内ほか(2017)
『現代日本語書き言葉均衡コーパス』に対する情報構造アノテーションの構築
言語処理学会第23回年次大会発表論文集
情報構造アノテーション
情報状態 (information status)
• テクスト(談話)中に既出か未出か
• 共参照アノテーションから判断
– 旧情報(discourse-old) = 既出
– 新情報(discourse-new) =未出
2017/09/01 SVM2017 53
旧情報 新情報
228 367
情報構造アノテーション
共有性 (commonness)
• 情報を受容者側が既に知っていると発信
者側が想定しているか否か (既知 or 未知)
– 共有 (hearer-old) =既知
– 非共有(hearer-new) =未知
– 想定可能(bridging)
2017/09/01 SVM2017 54
共有 非共有 想定可能 どちらでもない
337 109 143 6
情報構造アノテーション
定性 (definiteness)
• 指示対象を受容者が同定できるか否か
本研究の基準:スコープとして前後3文を見る
– 定(definite)
– 不定 (indefinite)
2017/09/01 SVM2017 55
定 不定 どちらでもよい
358 236 1
情報構造アノテーション
特定性 (specificity)
• 発信者が特定の事物を想定しているか
本研究の基準:スコープとして前後3文を見る
– 特定(specific)
– 不特定 (unspecific)
2017/09/01 SVM2017 56
特定 不特定 どちらでもよい
384 187 24
情報構造アノテーション
有生性 (animacy)
• 生きているか否か
本研究の基準:名詞句レベルで判別
– 有生 (animate)
– 無生 (inanimate)
2017/09/01 SVM2017 57
有生 無生
94 501
情報構造アノテーション
有情性 (sentient)
• 情意があるか否か
自由意志による移動が可能か否か
本研究の基準:述語-項レベルで判別
– 有情 (sentient)
– 無情 (insentient)
2017/09/01 SVM2017 58
有情 無情 どちらでもよい
91 502 2
情報構造アノテーション
動作主性 (agentivity)
• 事態に関わる人がその事態ではたしている役割
本研究の基準:節レベルで判別
– 動作主 (agent)
– 被動作主(patient/theme)
– どちらでもある (主節で agent, 従属節で theme)
2017/09/01 SVM2017 59
動作主 被動作主 どちらでもある どちらでもない
79 98 1 417
分析
線形混合モデル
2017/09/01 SVM2017 60
• データ処理
– メタデータ “authorsData”, “caption”, “listItem”, “profile”, and
“titleBlock” を排除
– ゼロ秒データ(視線停留なし)を分析対象から排除
• 外れ値除去
– ± 3-SD 以上のデータポイントを除去
• レイアウト要因の追加
– is_first, is_last, is_second_last
logtime ~ space * session + lengthN + dependent
+ is_first + is_last + is_second_last
+ articleN + screenN + lineN + segmentN
+ infostatus + definite + specificity + animacy + sentience + agentivity + commonness
+ (1| subj) + (1|article)
結果まとめ(一般)
Fixed Effect SELF FFT FPT SPT RPT Total
length + - + + + +
space=T 0 0 - - - -
dependent 0 0 0 0 0 0
sessionN 0 0 0 0 0 0
articleN - 0 0 0 0 0
screenN - - - - - -
lineN - - - 0 - -
segmentN - 0 - - - -
is_first=T + 0 + 0 + +
is_last=T + 0 0 - + 0
is_second_last=T - 0 + 0 + +
space=T:sessionN 0 0 0 0 0 0
61
+: t-value > 1.96
-: t-value < -1.96
0: others文字列長
読み時間 +
空白入り
読み時間 -
係り受け影響なし
呈示順 読み時間 -
レイアウト要因
2017/09/01 SVM2017
結果まとめ(情報構造)
Fixed Effect SELF FFT FPT SPT RPT Total
infostat=discourse-old (vs. d-new) 0 0 0 0 0 0
definite=indefinite (vs. definite) 0 0 0 0 0 0
specificity=specific (vs. either) + 0 + 0 + +
specificity=unspecific (vs. either) 0 0 0 0 0 0
animacy=inanimate (vs. animate) 0 0 + 0 0 0
sentience=insentient (vs. either) 0 0 0 0 0 0
sentience=sentient (vs. either) 0 0 + 0 + 0
agentivity=both (vs. agent) 0 0 0 0 0 0
agentivity=neither (vs. agent) 0 0 0 0 0 0
agentivity=patient (vs. agent) 0 0 0 0 0 0
commonness=h-new (vs. bridging) + 0 0 0 0 +
commonness=h-old (vs. bridging) - 0 0 0 0 0
commonness=neither (vs. bridging) 0 0 0 0 0 0
62
+: t-value > 1.96
-: t-value < -1.96
0: others
2017/09/01 SVM2017
結果まとめ(情報構造)
Fixed Effect SELF FFT FPT SPT RPT Total
infostat=discourse-old (vs. d-new) 0 0 0 0 0 0
definite=indefinite (vs. definite) 0 0 0 0 0 0
specificity=specific (vs. either) + 0 + 0 + +
specificity=unspecific (vs. either) 0 0 0 0 0 0
animacy=inanimate (vs. animate) 0 0 + 0 0 0
sentience=insentient (vs. either) 0 0 0 0 0 0
sentience=sentient (vs. either) 0 0 + 0 + 0
agentivity=both (vs. agent) 0 0 0 0 0 0
agentivity=neither (vs. agent) 0 0 0 0 0 0
agentivity=patient (vs. agent) 0 0 0 0 0 0
commonness=h-new (vs. bridging) + 0 0 0 0 +
commonness=h-old (vs. bridging) - 0 0 0 0 0
commonness=neither (vs. bridging) 0 0 0 0 0 0
63
+: t-value > 1.96
-: t-value < -1.96
0: others情報状態
有意差なし
情報状態
有意差なし
動作主性
有意差なし
2017/09/01 SVM2017
結果まとめ(情報構造)
Fixed Effect SELF FFT FPT SPT RPT Total
infostat=discourse-old (vs. d-new) 0 0 0 0 0 0
definite=indefinite (vs. definite) 0 0 0 0 0 0
specificity=specific (vs. either) + 0 + 0 + +
specificity=unspecific (vs. either) 0 0 0 0 0 0
animacy=inanimate (vs. animate) 0 0 + 0 0 0
sentience=insentient (vs. either) 0 0 0 0 0 0
sentience=sentient (vs. either) 0 0 + 0 + 0
agentivity=both (vs. agent) 0 0 0 0 0 0
agentivity=neither (vs. agent) 0 0 0 0 0 0
agentivity=patient (vs. agent) 0 0 0 0 0 0
commonness=h-new (vs. bridging) + 0 0 0 0 +
commonness=h-old (vs. bridging) - 0 0 0 0 0
commonness=neither (vs. bridging) 0 0 0 0 0 0
64
+: t-value > 1.96
-: t-value < -1.96
0: others
FFT, SPT
有意差なし
2017/09/01 SVM2017
結果まとめ(情報構造)
Fixed Effect SELF FPT RPT Total
specificity=specific (vs. either) + + + +
specificity=unspecific (vs. either) 0 0 0 0
animacy=inanimate (vs. animate) 0 + 0 0
sentience=insentient (vs. either) 0 0 0 0
sentience=sentient (vs. either) 0 + + 0
commonness=h-new (vs. bridging) + 0 0 +
commonness=h-old (vs. bridging) - 0 0 0
commonness=neither (vs. bridging) 0 0 0 0
65
+: t-value > 1.96
-: t-value < -1.96
0: others
・特定性: 特定 SELF, FPT, RPT, Total で時間がかかる
・有情性: 有情 RPT で時間がかかる
・共有性: 非共有 SELF, Total で時間がかかる
共有 SELF で早くなる
FPT: 無生 +
FPT: 有情 +
おそらく打ち消しあう
強いて言うなら
<無生, 有情> が遅い2017/09/01 SVM2017
おわりに
2017/09/01 SVM2017 66

More Related Content

Similar to 2017 09-01-gengo

[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門Koichi Hamada
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習Naoaki Okazaki
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門Yuichiro Kobayashi
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentationRoy Ray
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and BeyondTakashi YAMAMURA
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へHiroshi Nakagawa
 
続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ考司 小杉
 

Similar to 2017 09-01-gengo (11)

[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
 
Word2vec alpha
Word2vec alphaWord2vec alpha
Word2vec alpha
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
 
黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ黒い目の大きな女の子:構文から意味へ
黒い目の大きな女の子:構文から意味へ
 
形態素解析器 売ってみた
形態素解析器 売ってみた形態素解析器 売ってみた
形態素解析器 売ってみた
 
続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ続・心理学のためのpsychパッケージ
続・心理学のためのpsychパッケージ
 

2017 09-01-gengo