Japanese Analysis Utilizing IT:Japanese poetic vocabulary through visualization

大阪電気通信大学 2012 1
IT を活用した日本語分析
目で見てわかる日本の歌ことば
山元啓史
東京工業大学
カリフォルニア大学サンディエゴ校
20 March 2012

概要
1. 研究目的
• 歌ことばのコノテーションを調べる。
• 古今集（905 年頃、OP）と現代語訳（CT）を比
べる。
2. シソーラスの開発
3. 応用

和歌: Japanese Songs
立田姫
手向くる神の / あればこそ
秋の木の葉の / 幣と散るらめ
because Princess Tatsuta
has a god to whom she oﬀers brocades,
the leaves of trees
in autumn will scatter
as an oﬀering.
兼覧王（？–832）
古今和歌集 298 番歌

コノテーションって定義できるの？
Octopus
weird たこやき
spooky ... VS (fried octopus!)
= おいしい！
‘コノテーション’ は受け手に依存する意味である。

比較対象: 立田と吉野
Tatsuta
Yoshino
「うたまくら」とは:
1. 地名
2. 歌にちなんだ特別な意味
→どうちがう？！

問題: 正書法がない！
漢字
ひらがな立田
たつた竜田
龍田
→上記はすべて「たつた」 (地名)

問題: 処理単位のサイズが決まっていない！
処理単位のサイズは文脈の意味によってちがう。
• 単位 →卯の花 or 卯／の／花 (中野, 1998)
• 正書法 →さびしい／さみしい／寂しい／淋しい (sad)
• 意味 →卯の花 ∈ plant or 卯の花 ∈ food (unohana = a
deutzia or bean curd refuse)

シソーラスの例: 神 (God)
BG-01-2030-01-030-A-かみ-神
↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑
(1) (2) (3) (4) (5) (6) (7) (8)
Figure 1: Structure of an item of BG database in the case of kami (god):
(1) database ID (BG = short-unit general vocabulary);
(2) part of speech ID (01 = noun);
(3) group ID (2030 = Shinto deities and Buddhas);
(4) ﬁeld ID;
(5) exact ID (030 = god);
(6) era-ﬂag (A = contemporary, C = classic);
(7) Chinese character reading;
(8) Chinese character

開発: シソーラス, KH, t2c
• 和歌用語のシソーラス
• KH (形態素解析システム: tokenizer)
• t2c (分類コードつけシステム: token to code converter)

材料: 八代集
• 八代集（905 年頃–1205 年）
• 国文学研究資料館編集の二十一代集データベース
• 正保本版の八代集
46 56 79 38 20 44 17
900 950 1000 1050 1100 1150 1200 1250

方法: 処理の手順
A B C D E F

開発: シソーラス, KH, t2c
• 和歌用語のシソーラス
• KH (形態素解析システム: tokenizer)
• t2c (分類コードつけシステム: token to code converter)

Table 1: 形態素解析／語分割 KH / 後撰集 664 番歌
input: 000664 わすられて思ふなげきのしげるをや身をはづかしのもりといふらん
output:000664
わすら (ラ四-未:忘る:わする:忘ら:わすら)
れ (自可受-用:る:る:れ:れ)
て (接助:て:て)
思ふ (ハ四-終体:思ふ:おもふ:思ふ:おもふ)
なげき (カ四-用:嘆く:なげく:嘆き:なげき)
の (格助:の:の)
しげる (ラ四-終体:茂る:しげる:茂る:しげる)
を (＊助:を:を)
や (係助:や:や)
身 (名:身:み)
を (＊助:を:を)
---
はづかし (名-地名:羽束師:はづかし)
---
はづかし (形シク-終:恥づかし:はづかし:恥づかし:はづかし)
---
もり (名:森:もり)
と (格助-引用:と:と)
いふ (ハ四-終体:言ふ:いふ:言ふ:いふ)
らん (推-終体:らむ:らむ:らむ:らむ)

開発: 語分割からシソーラスへ
単位分割コードづけ
詳細コードの付加
表記の統一
品詞タグづけ
代表形の付加
八代集
シソーラス
和歌テキスト kh t2c
未登録語追加
解析用古語辞書
(A)
未登録語追加
分類語彙表(一般)
地名・人名辞書
(B)

(A) コーパス開発: 和歌 (OP)
KW00029801|A|兼覧王=かねみの王
KW00029801|B|たつたひめ [名-地名:立田姫]£
たむくる [カ下二-体:手向くる], かみ [名:神] の [格助-主格]£
あれ [ラ変-已:有れ] ば [接助-確定] こそ [係助-係]£
あき [名:秋] の [格助-連体], このは [名:木の葉] の [格助-連体]£
ぬさ [名:幣] と [格助-一般], ちる [ラ四-終:散る] らめ [推-已-結]/
Figure 2: 和歌データベースのフォーマット: →は行を折り返していることを意味
する。第１行目の|A|は和歌の作者を示す。第１行目の|B|は和歌の内容
と品詞を示す。

(A) コーパス開発: 現代語訳 (CT)
$A|000298
$B|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £
をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。
$C|秋の歌
$D|秋の末近くなって帰り道についた龍田姫が、道中の無事を願って手向け £
をする神があるからこそ、秋の木の葉が幣となって散っているのだろう。
$I|あきのすえちかくなってかえりみちについたたつたひめが、どうちゅう £
のぶじをねがってたむけをするかみがあるからこそ、あきのこのはがぬさ £
となってちっているのだろう。
Figure 3: 現代語訳データベースのフォーマット

(B) 語分割: Tokenisation
もとの和歌
立田姫手向ける神の有ればこそ秋の木の葉の幣と散るらめ
↓
語分割
立田姫/手向ける/神/の/[有れ]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らめ]
↓
基本形に変換する
立田姫/手向ける/神/の/[有り]/ば/こそ/秋/の/木の葉/の/幣/と/散る/[らむ]
Figure 4: 現代語訳を語分割した例

(C) 語を分類するために番号に変換する
CH-29-2130-01-010-A たつたひめ立田姫 Tatsutahime Princess-Tatsuta
CH-29-0000-14-010-A -- 立田
BG-01-2030-01-101-A -- 姫
-- Tatsuta Tatsuta
-- hime princess
BG-02-3770-04-080-C たむくる手向く tamukuru present(verb)
handBG-01-5730-02-010-A -- 手
BG-02-1700-01-040-A -- 向ける
BG-01-2030-01-030-A かみ神
BG-08-0061-07-010-A のの
BG-02-1200-01-010-C あれ有り
BG-08-0064-26-010-A ばば
BG-04-1120-05-150-A -- ば
BG-08-0065-01-010-A こそこそ
-- te
-- mukeru
kami
no
for
god
SUB (particle)
beare
ba because (particle)
because (reason)
KP (emphasis)
-- ba
koso
Figure 5: 分類番号への変換（OP）

(C) 分類番号の形式–1
BG-01-2030-01-030-A-かみ-神
↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑
(1) (2) (3) (4) (5) (6) (7) (8)
Figure 6: BG データベースの例「神」:
(1) database ID (BG = short-unit general vocabulary);
(2) part of speech ID (01 = noun);
(3) group ID (2030 = Shinto deities and Buddhas);
(4) ﬁeld ID;
(5) exact ID (030 = god);
(6) era-ﬂag (A = contemporary, C = classic);
(7) Chinese character reading;
(8) Chinese character

BG-01-2600-01-020-A (1) = BG-01-2610-01-040-A (2)
世の中 (world) 世 (world)
+ BG-08-0010-01-021-A (3)
の (of)
+ BG-01-1770-01-080-A (4)
中 (inside)
Figure 7: BG データベースの構造の例「世の中」(world)

CH-29-2130-01-010-A たつたひめ立田姫 Tatsutahime Princess-Tatsuta
CH-29-0000-14-010-A -- 立田
BG-01-2030-01-101-A -- 姫
-- Tatsuta Tatsuta
-- hime princess
BG-02-3770-04-080-C たむくる手向く tamukuru present(verb)
handBG-01-5730-02-010-A -- 手
BG-02-1700-01-040-A -- 向ける
BG-01-2030-01-030-A かみ神
BG-08-0061-07-010-A のの
BG-02-1200-01-010-C あれ有り
BG-08-0064-26-010-A ばば
BG-04-1120-05-150-A -- ば
BG-08-0065-01-010-A こそこそ
-- te
-- mukeru
kami
no
for
god
SUB (particle)
beare
ba because (particle)
because (reason)
KP (emphasis)
-- ba
koso
Figure 8: BG データベース変換の例

10th century 20th century
Field of experience Field of experience (expert)
poet expert readerwrite OP read
write
CT
read
novice reader
20th century
Field of experience
(novice)
Figure 9: OP と CT の位置づけの整理（まとめ）

大阪電気通信大学 2012
+-------- # of pair
23
| +----- value of matching level, exact=17, field=13, group=10
| | +-- # of POS
| | |
| | | # of element of OP ----+ +- # of element of CT
| +--- element of CT
| |
| | |
| | |
1 17 11
2 17 47
3 17 47
4 17 2
element of OP -+ |
| |
立田姫 00 <-> 12 龍田姫 (Tatsutahime)
手 04 <-> 25 手
(hand)
向ける 05 <-> 26 向ける (toward)神 06 <-> 32 神 (god)
(SUB)
(be)
(because)
(EM)
(autumn)
5 10 61
6 17 47
7 10 64
8 17 65
9 17 2
10 17 71
11 17 2
12 17 2
13 17 61
14 17 47
15 13 74
の 07 <-> 33 が
有り 08 <-> 34 ある
ば 09 <-> 35 から
こそ 11 <-> 36 こそ
秋 12 <-> 38 秋
の 13 <-> 39 の
木の葉 14 <-> 40 木の葉 (leaf of tree)
(CON)
幣 19 <-> 45 幣
と 20 <-> 46 と
散る 21 <-> 49 散る
らむ 22 <-> 54 う
(present)
(CRD)
(fall)
(CJR)
Figure 10: OP と CT のマッチング処理の例古今集 298 番歌

差分はどこに？あまりは？
CT (秋の末近くなって帰り道についた)龍田姫(が道中の無事を願って)手向け
OP ——— — — — — — — — 立田姫 — — — — — — —手向ける
CT (をする)神があるからこそ秋の木の葉(が)幣(となって)散っ(ているのだろ) う
OP — — 神のあればこそ秋の木の葉[の]幣と — — 散る — — — — らめ
Figure 11: 小町谷 (1982) による古今集 298 番歌のマッチング結果

OP の成分
Table 2: CT から OP を引いた結果
OP (valid number of element) = 16
E
F
G
T
U
(ratio of exact match)
(ratio of field match)
(ratio of group match)
(ratio of total match)
(ratio of unmatched OP)
12/16 = 0.750
1/16 = 0.062
2/16 = 0.125
15/16 = 0.938
1 - T = 0.062

差分の計算
OP
D = 1 − (1)
CT
16
= 1 −
= 0.61
(2)
(3)
41

CT の成分
Table 3: CT の成分: 古今集 298 番歌の小町谷 (1982) による現代語訳: fabs(D-H)
は実験値 D から理論値 H を引いて絶対値で示したもの
CT (valid number of element)
W (ratio of original word use)
A (ratio of annotation)
=41
12/41=0.293(E/CT)
1-0.293=0.707(1-W)
---breakdown of the annotation---
P1(ratio of F+G paraphrased) (0.62+0.12)/0.707=0.073(F+G)/A
P2(ratio of U paraphrased) (0.707-0.073)*0.062=0.040(A-P1)*U
D (ratio of purely added)
H (theoretical value of D)
Gap
0.707-(0.073+0.040)=0.595A-(P1+P2)
1-16/41=0.6101-OP/CT
fabs(0.595-0.610)=0.015fabs(D-H)

差分: CT - OP
P1 3 (7.3%)
P2 1 (4.0%) W 12 (29.3%)
Exact 12 (75.0%)
Unmatched 1 (6.2%)
Group 2 (12.5%)
D 25 (59.5%)
Field 1 (6.2%)
OP : 16 elements CT(298,koma) : 41 elements(298)
Figure 12: OP と CT の成分と対応を示す円グラフ（Pie-charts）

(E) 数理モデル
√
cw(t , t )=(1+log ctf(t , t )) idf(t ) idf(t ) (4)
1
1 2 1 2 2
N
idf(t) = log (5)
df(t)

共出現パターンを作る
ひとつのテキストに出てくる任意の１つの単語の組み合わせパターン
ゆきのうちにはるはきにけりうくひすの...
snow of inside at spring (topic)come (past) (perfect) warbler of
すべての歌毎にこれを繰り返すとパターンの種類は 5,000 以上

グラフの例「手
山
10
春霞
10
触れる 9
隠れる
とまる
鳴く立田立つ6 10
10
15
縫う 7
花 10
まだ145
30
106 枝4 138
散る35
23
10
挿頭す
鴬
52
88
笠4
4
梅10 56
春62
29
声22
青柳 6
17
泣く 9
10
折る
7 香
野辺老誘い出す
8
毎朝
4
4 送る
5
6
案内
近く添える
鴬 (23/229,3.73): CT cw.>15;
non-dist=off; idf=on(2)

ふりしぼる
手 6
山時鳥
老
青柳 10
夏山 9
横
挿頭す鳴き声6 五月雨 8 8
4
聞く触れる4 4 11 聞える夏
10
一声14
69
21
37縫う 6
春笠枝 39
借り12る
6 10 10
7 23
10
時鳥 19
とまる 20
去年
隠れる梅泣く 35
88
174
声 29
10
15
6
29
56
20261
110
4262
145鴬今朝羽ばたく26
花 138 鳴く
五月 6
44
梢20 910
17
22
山 9
野辺 11 1030
52
まだ
19
毎朝 8
10
10
9
20
6
近く 10
音羽9
越える7 10
折る 8
立田
何時の間に
散る 5
7
誘い出す 4 はるか4 10 6 7 あやめ草
条理案内
9 10
梢高い4
7
5
7 木高い別れ惜しむ送る
春霞立つ
添える
香
鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16

ひとり
「立田」
4
沖5
夜中
祈る 9
5
9
5
白波
4
10
越える
通り過ぎる
安全
降る
4
5
3
上流 9 8
もみじ葉3
湊12 手向ける4 御室神奈備8 神74 4
流す 9
9
毎年
6
8
9 9
3 5 8 12
10 流れる17 78 88
10 56 17
時雨5 8 7
幣
28 山河口 12
紅葉
5
手向け木の葉
20 7 5
10 10 7
川
20
雨 5
竪糸 9
8
10
43
10 神無月9 1010
15
葉8 149 810 8
9
織る 10 7 20 4 5
9 横糸 19
8 絞り染め
錦 17
9
括り染める
水 4
供え物9
3 4
渡るささげる2
9
神代
乱れ流れる 5
3
9
紅
2
3
断ち切れる 4 聞く
不思議唐紅色
立田 (12/116,8.52): CT cw.>13;
non-dist=off; idf=on(2); pruned 立田
kks 994
風吹けば沖つ白波立田山
夜半にや君が一人越ゆらむ

「立田川」のモデル
山聞く
kks 294
たつたひめ
通り過ぎる括り染める神
たむくるかみの
あればこそ
17 5
9
不思議 84
あきのこのはの
ぬさとちるらめ
紅葉4
7
幣12
神奈備 5
神代
水 9
流れる 9
8
7
手向け43 17
9
28 9
手向ける4
8
9
8 御室10
絞り染め
川 kks 300
かむなびの
20
渡る 17 9
時雨
やまをすぎゆく
あきなれば
たつたがはにぞ
ぬさはたむくる
8 8
10
20 10 10
10
降る7 横糸 10
98
98
竪糸108
10
7
錦 10
9
河口 9 9
神無月織る
6
流す 5
毎年
立田/川 (12/116,8.52): CT cw.>14.5;
non-dist=off; idf=on(2); pruned 立田

「吉野川」のモデル
kks 828
ながれては
いもせのやまの
なかにおつる
よしののかはの
よしやよのなか
4
3
4
3
4
8
8
10 26
6
21
11 8
4
6 18 9
11 4
kks 471
よしのがは
いはなみたかく
ゆくみづの
22
16
6 15 4
14
15
30
4
7
9
13 11
10
はやくぞひとを
おもひそめてし
15
8
7
8
7
8
6
8
5
5
non-dist=off; idf=on(2); pruned

「吉野山」のモデル
山奥
4
kks 950
みよしのの
3
入る
麓
やまのあなたに
やどもがな
よのうきときの
かくれがにせむ
その後
6
5
4
照る
ふみ分ける
降りしきる
4
7 7
里
在明 9
降り積もる8
白雪 7
9
月
22
「かくれが」は
世の中を厭い隠れる
ための場所山日
雪
46
10
10
9
近い向こう隠れ所10 6
6
降る 6
10 9 4
ほしい
夕方世の中一日いや積もる 6
寒い6
5 6
奈良
吉野/山 (23/193,6.08): CT cw.>13.5;
non-dist=off; idf=on(2); pruned 吉野,御吉野

おわりに
シソーラスを作って数理モデルを作ってみると
1. 表記のちがう語を処理することができた。
2. ちがう長さの単位でも処理することもできる。
3. 同じ語でもちがう意味をもつかもしれない語も処理できる。
4. 相対的なちがうを見つけることができた。

質問
• 和歌の数理モデルについては
http://warbler.ryu.titech.ac.jp/ yamagen/~
をご覧ください。
• その他ご質問については:
山元啓史 Hilofumi Yamamoto までお気軽にどうぞ。
yamagen@ryu.titech.ac.jp

Japanese Analysis Utilizing IT:Japanese poetic vocabulary through visualization

Recommended

Recommended

More Related Content

More from Hilo Yamamoto

More from Hilo Yamamoto (12)

Japanese Analysis Utilizing IT:Japanese poetic vocabulary through visualization