形態素解析を用いた帝国議会議事速記録の変遷に関する研究

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
形態素解析を用いた帝国議会
議事速記録の変遷に関する研究
北海道大学工学部
情報エレクトロニクス学科情報理工学コース
複雑系工学講座調和系工学研究室
学部4年北野勇太

2
研究背景
• 帝国議会議事速記録
– 帝国議会の議事録
• 57年にわたって蓄積
• 国の意思決定をたどる重要な資料
– 会話形式の議事録
• 話した内容がそのまま記録
• 当時話されていた言葉を研究する資料
• 分析例
– 教科書無償化の審議過程[1]
– 東北地方出身議員の可能表現の使い方[2]
[1] 伊藤孝行. “『帝国議会衆議院議事速記録』に於ける東北地方出身議員の可能表現について.” (2002): 145-146.
[2] 大島隆太郎. "第 56 帝国議会 (1929 年) における「国定教科書官給法案 (衆法)」の審議過程: 昭和初期における小学
校教科書の無償化の論点と議会制度の影響." 東京大学大学院教育学研究科教育行政学論叢= The journal of educational
administration, Graduate School of Education, the University of Tokyo 39 (2019): 99-113.

3
研究背景
• 調査対象が限定的
– テキスト化が完了していない
• 光学文字認識プログラムNDLOCR
– 分析の自動化がされていない
• テキストデータに対する分析
– 対象となる表現の抽出 ⇒大きな負担
– 抽出結果に対する考察

4
研究目的
• 帝国議会議事速記録における抽出の自動化
• 当時国が注目していたものの変遷
– 会議のメイントピック抽出
• 日本語の使い方の変遷
– 日本語表現の自動抽出

5
帝国議会議事速記録
• 近代日本の国会の記録
– 貴族院・衆議院の記録
– 期間：1890年から1947年の57年間
– 議長の署名が必要な正式な記録
– 議事の発言が逐語的に記録
– 一般的な議事録とは異なる
第1回帝国議会衆議院奉答文に関する件
(明治23年11月29日)
https://teikokugikai-
i.ndl.go.jp/#/detailPDF?minId=000113158X000
18901129&page=1&current=137

6
帝国議会議事速記録
• データの公開状況
– 本会議, 委員会
• 帝国議会会議録検索システム(Web)にて公開
– 戦前期（明治23年11月～昭和20年8月）
» 24,894件・画像データのみ
– 戦後期（昭和20年 9月～昭和22年3月）
» 1,249件・画像データ＋テキストデータ
– 秘密会：非公開の会議
• 『帝国議会衆議院秘密会議事速記録集』など書籍で
入手可能
• 北海道大学伊藤孝行先生（日本語学）により
秘密会31件/89件のテキスト化が完了
– 書籍の見開き画像をスキャナにより撮影・テキスト化

7
関連研究
• 議事録におけるトピック抽出
– TF-IDFをベースにした指標による抽出[1]
– 変動係数による抽出[2]
• 日本語表現の自動抽出
– 形に注目した可能動詞の自動抽出[3]
– 共起パターンを利用した評価表現抽出[4]
• TF-IDFを利用した話題抽出
• 文型に注目した日本語表現抽出
[1]高丸; 内田; 木村. 地方政治コーパスにおける都道府県議会会議録パネルデータの基礎分析. 宇都宮共和大学シ
ティライフ学論叢, 2017, 18: 136-155.
[2]岩見麻子, et al. 公共事業計画策定過程の議事録分析のための変動係数を用いた対象語選定手法の開発. 環境情
報科学論文集, 2011, 0: 55-60.
[3] 小木曽智信. 近代語テキストからの可能動詞の抽出--「太陽コーパス」を例に. 明海日本語, 2002, 7: 125-135.
[4] 小林のぞみ, et al. 意見抽出のための評価表現の収集. 自然言語処理, 2005, 12.3: 203-222.

8
発表内容
• 会議の話題に対する自動タグ付け
• 可能表現の自動抽出

9
発表内容

10
話題タグ
• トピック抽出に関する研究
– TF-IDFを用いた記事に対するタグ付け[1][2]
• 記事のTF-IDF上位単語をタグとして付与
• TF-IDFの上位単語を利用した会議への
タグ付与
[1] BROOKS, Christopher H.; MONTANEZ, Nancy. Improved annotation of the blogosphere via autotagging and
hierarchical clustering. In: Proceedings of the 15th international conference on World Wide Web. 2006. p. 625-632.
[2] 岩下志乃; 中島佑介. 自動タグ付けによるニュースサイト記事の分類と検索手法. In: 日本知能情報ファジィ学
会ファジィシステムシンポジウム講演論文集第 25 回ファジィシステムシンポジウム. 日本知能情報ファジィ
学会, 2009. p. 77-77.

11
話題タグの定義
• 明治憲法下の省を元にタグを設定
– 議会で話されるのは国の統治に必要な要素
省名役割
外務省外交
内務省警察・地方行政
大蔵省財政・金融
陸軍省・海軍省陸軍・海軍
司法省刑務所の管理・司法行政
文部省教育・学術・文化政策
農商務省産業行政
逓信省（ていしん）通信・郵便
表1 明治憲法下での省庁

12
話題タグの定義
• タグの組み合わせでメイントピックを表現
– 軍事予算の話なら「軍事」「財政」
タグ名対象となる話題
軍事軍事関連
外交条約・国際事件など
財政予算・賠償金などのお金関連
法案法律・憲法についての検討
事件何かしらの事件（国内外は問わない）
行政地方行政など
議会議会の進行に関すること
表2 各タグの定義

13
話題タグの自動付与
タグの自動付与手順
1. 各会議を1文書としfugashi[1]による
形態素解析を適用（旧仮名口語Unidic使用）
2. 各会議に出現する名詞を抽出
3. 単語のグループ化を行う
同ジャンルの単語をすべて同じ単語に置き換え
4. TF-IDFを計算
5. 上位N名詞にグループ化した単語が出現した
場合該当するタグを付与
[1] McCann, P.: fugashi, a Tool for Tokenizing Japanese in Python, 2020.

14
• 同ジャンルの単語は多く出現するが
個々の出現頻度は低い
– 話題に関連する単語をグループ化して出現頻度を
高くする
– TF-IDF上位N名詞に置き換えた単語が出現したら
タグを付与する
出現単語
軍備艦船
師団陸軍
大蔵予算
取引収入
委員
会議
出現単語
軍事軍事
軍事軍事
財政財政
財政財政
委員
会議

15
話題タググループ化対象単語
軍事
「軍」「兵」「艦」「戦」を含む単語
「師団」「要塞」「防備」
外交
「亜米利加」「支那」「朝鮮」「露西亜」「仏蘭西」「独逸」
「満州」「条約」「同盟」「外務」
財政「円」「予算」「収入」「支出」「大蔵」「取引」
法案名詞＋「法」、「法案」
事件「警察」「事件」
行政「行政」「地方」
議会「秘密会」「延期」「投票」
表3 各タグのグループ化対象単語

16
実験1
• 目的
– TF-IDFによる話題タグ付けの閾値(上位N名詞)を
定める
– 提案手法により人間の付けた
タグとどの程度近くなるか検証
• 対象：秘密会31会議
• 正解データ：手作業で付与
– メディアコミュニケーション研究院
伊藤孝行先生に助力いただいた
• N=3, 10, 30に対しF1スコアでの評価
話題タグ
付与された
会議数
軍事 13
外交 7
財政 9
法案 4
事件 11
行政 3
議会 2
表3 タグの付与数

17
結果・考察
N 正解率適合率再現率 F1スコア
3 0.871 0.839 0.531 0.65
10 0.871 0.698 0.755 0.725
30 0.779 0.506 0.796 0.619
表4 N=3, 10, 30に対する自動付与精度
タグ正解率適合率再現率 F1スコア
軍事 0.871 0.765 1.000 0.867
外交 0.742 0.462 0.857 0.600
財政 0.936 0.889 0.889 0.889
法案 0.903 1.000 0.250 0.400
事件 0.839 0.875 0.636 0.737
行政 0.839 0.000 0.000 0.000
議会 0.968 0.667 1.000 0.800
表4-2 N=10に対するタグの自動付与精度

18
結果・考察
• 軍事・財政：頻出する単語が予想しやすい
⇒結果が良い
• 事件：頻出する語が会議ごとに異なる
• 外交：国名や地名
• 適切なグループ化により、一部話題に対して
自動でのタグ付けが可能
– グループ化対象となる単語の選定が重要

19
発表内容

20
議論で使われる表現
• 程度表現[1]
– 現実の程度量
• 非常に、かなり、ややなど
– 実現の程度量
• きっと、たぶん、おおかたなど
– 時間的程度量
• いつも、ときどき、たまになど
• 可能表現[2]
– 連体形＋コト＋助詞＋「出来ル」
• 「読むことができる」など
– 可能動詞
• 「読める」など
⇒議会の場で変化したという仮説がある可能表現に注目
[1] 織田揮準, 日本語の程度量表現用語に関する研究, 教育心理学研究 18.3 (1970): 166-176.
[2] 伊藤孝行，『帝国議会衆議院議事速記録』に於ける東北地方出身議員の可能表現について，國語學 53(4)，
pp.145-146，2002

21
可能表現の形
大きく分けて7つの区分[1]
①「出来る」に関する区分
1-1. 連体形＋こと＋助詞＋「出来る」
• 走ることが出来る
1-2. 名詞＋助詞＋「出来る」
• 解読が出来る
1-3. 名詞＋「出来る」
• 解読出来る
②得る
– 例：解読し得る
③れる・られる
– 例：この料理は食べられる量である
– 意味判別に文脈情報が必要
[1] 伊藤孝行，『帝国議会衆議院議事速記録』に於ける東北地方出身議員の可能表現について，國語學 53(4)，
pp.145-146，2002

22
可能表現の形
④可能動詞
– 五段活用動詞を下一段活用に変化させたもの
– 例：「読める」「走れる」
⑤能フ
– 例：了解し能はざる
⑥ナラヌ
– 例：公務のために欠席することはならぬ
⑦重複型
– 複数の可能表現が重なってできたもの
– 例：議長限で出来得べきでない

23
可能表現の自動抽出
• 抽出手法
– 文脈情報から抽出
– 文型から抽出
• 文型に注目
– 品詞の組み合わせによる区分が存在
– 機械学習の可能表現に関するデータ不足
– 文脈情報が必要な可能表現は全体の10％程度

24
可能表現の自動抽出
• 可能表現の形と対応する品詞の
組み合わせルールを作成
– 再現率重視ルール
• 可能表現をすべて抽出できる
• 可能表現でないものが多く混ざる
– 縮小ルール
• すべての可能表現は抽出できない
• 抽出したものが可能表現である可能性が高い

25
自動抽出ルール
再現率重視ルール
①動詞「出来る」
②動詞「得る」
③助動詞「れる」「られる」
④終止形がエ段＋「る」で終わる動詞
⑤動詞「能ふ」
⑥「なる」＋「ぬ」
⑦動詞「兼ねる」
– 区分には存在しないが会議録中に可能表現として出現

26
自動抽出ルール
縮小ルール
①・動詞＋「こと」＋助詞1個以上＋（副詞）＋「出来る」
・名詞＋助詞1個以上＋（副詞）＋「出来る」
・名詞＋「出来る」
② 五段活用動詞かつ終止形が「エ段＋る」で終わる動詞
③「能ふ」
④「こと」＋助詞＋「ならぬ」
⑤ 動詞＋「得る」
⑥ 動詞「兼ねる」
– 区分には存在しないが本文中に可能表現として出現
• 「れる・られる」の判別は文脈情報が必要
– このルールでは対象外とする

27
漸く十二年迄に補充が出来るのであります
可能表現の抽出手順
1. 対象の文書にfugashi[1]による形態素解析を
適用（旧仮名口語unidic使用）
2. ルールに合致する品詞の組がある場合、
それを可能表現として抽出
名詞＋助詞＋「出来る」の抽出例
名詞助詞出来る
可能表現
[1] McCann, P.: fugashi, a Tool for Tokenizing Japanese in Python, 2020.

28
実験2
• 目的
– 可能表現の自動抽出の精度検証
• 対象：秘密会1会議（全23015字）
– 第四十五回帝国議会衆議院予算委員第四分科会
陸軍の軍備に付て
• 発言数：71
• 発言者：7人
• 正解データ：可能表現全86個
– 北海道大学伊藤孝行先生(日本語学)に助力いただいた
• 正解判定：抽出部分と正解部分が1文字以上
重なっている

29
実験結果
再現率重視ルール
ルール抽出数適合率再現率 F1スコア
動詞「出来る」 70 0.771 0.628 0.692
動詞「得る」 37 0.454 0.174 0.244
助動詞「れる」「られ
る」
104 0.087 0.105 0.095
終止形がエ段＋「る」で
終わる動詞
211 0.047 0.116 0.067
動詞「能ふ」 0 - - -
「なる」＋「ぬ」 46 0.022 0.012 0.015
動詞「兼ねる」 4 0.750 0.035 0.067
表5-2 再現率重視ルールにおける各ルールの抽出精度
抽出数適合率再現率 F1スコア
466 0.185 1.000 0.312
表5-1 再現率重視ルールの抽出結果

30
実験結果
縮小ルール
動詞＋「こと」＋助詞1個以上＋（副詞）＋「出来る」 18 0.833 0.174 0.288
名詞＋助詞1個以上＋（副詞）＋「出来る」 62 0.774 0.558 0.649
名詞＋「出来る」 2 1.000 0.023 0.045
五段活用動詞かつ終止形が「エ段＋る」で
終わる動詞
19 0.316 0.070 0.114
「能ふ」 0 - - -
「こと」＋助詞＋「ならぬ」 0 - - -
動詞＋「得る」 16 0.938 0.174 0.294
動詞「兼ねる」 4 0.750 0.035 0.067
表6-1 縮小ルールの抽出精度
抽出数適合率再現率 F1スコア
104 0.673 0.814 0.737
表6-2 縮小ルールの各ルールにおける抽出精度

31
考察
• 「ならぬ」：両ルールとも抽出で低い精度
• 可能表現の11.7%は抽出に文脈情報が必要
– 「れる・られる」：10.5%
– 「ならぬ」： 1.2%
• 縮小ルール：可能表現全体の81.4%を抽出
– 「れる・られる」「ならぬ」の抽出
適合率重視ルール 46 0.022 0.012 0.015
縮小ルール 0 - - -
表7 「ならぬ」の抽出精度

32
まとめ
• 帝国議会議事速記録に対し2つの観点からの
分析手法を提案した
– 同ジャンルの単語のグループ化により、
各会議の話題にタグ付けが可能であることを確認
– 品詞の組み合わせマッチングにより、
81.4%の可能表現の抽出が出来ることを確認
– 可能表現の11.7%は文脈情報が必要

形態素解析を用いた帝国議会議事速記録の変遷に関する研究

Recommended

Recommended

More Related Content

Similar to 形態素解析を用いた帝国議会議事速記録の変遷に関する研究

Similar to 形態素解析を用いた帝国議会議事速記録の変遷に関する研究 (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (14)

形態素解析を用いた帝国議会議事速記録の変遷に関する研究

Editor's Notes