A narrative review of NLP applications to political science
人工知能、機械学習の急速な発展とともに、そうした分析で利用できる「データ」の範囲が拡大しつつある。人が発話・作成した言葉を人工知能が読み解いて、翻訳・要約、さらには特徴・パターンを見つけるなど高度な分析をする「自然言語処理」はすでに多くの分野で実用化されている。この発表では政治学における自然言語処理を用いたこれまでの研究をレビューし、今後の可能性について検討する。Keywords: artificial intelligence, natural language processing (NLP), text mining, political science, data science
1. 人工知能と自然言語処理:
政治学への応用
Natural Language Processing (NLP)
applications to political science: a narrative
review
2021年5月
日本選挙学会
Keiko Ono, Ph.D.
keiko.ono1@gmail.com
International Christian University Social Science Research Institute
Temple University Japan
National Graduate Institute of Policy Studies
1
Walmart.com
3. Overview
1. データサイエンス時代の「データ」とは
Characteristics of data in data science era
2. 人工知能と自然言語処理
Artificial intelligence and NLP
-Deep Learning
-Transformers (2017-)
3. 政治学における自然言語処理研究
Applications of NLP to politics and political science
1. 2000年以降の発展
2. データベース分析
3. 例
3
8. データサイエンス時代の「データ」とは
Greater accuracy, relevance, and precision
Continuous monitoring
• データ型の多様性
• データソースの多様性
– 衛星
– 各種センサ
• 地理空間ユニットの粒度と多様性
– メッシュ
– 3D
• 時間ユニットの粒度
• 継続的なモニタリング・サーベイランス
• オープンデータとユーザビリティ
– API
– LOD
8
社会科学で利用する
データ全般に影響を及
ぼす。今回は「自然言
語」=テキストに着目す
る “Text is arguably
the most pervasive—
and certainly the most
persistent—artifact of
political
behavior” (Monroe &
Schrodt, 2008).
9. Natural Language Processing is an
Inter-disciplinary field encompassing….
9
Artificial
Intelligence
Computer
Science
Cognitive
Science
Information
Processing
Linguistics
Deng and Liu (2018)
10. 自然言語処理 Natural Language Processingとは
10
“investigates the use of computers to process or to
understand human (i.e., natural) languages for the
purpose of performing useful tasks.” (Deng & Liu,
2018, p.1)
Scientific perspective
“aims to model the cognitive mechanisms underlying the understanding
and production of human languages”
Engineering perspective
“is concerned with how to develop novel practical applications to
facilitate the interactions between computers and human languages”
Deng and Liu (2018), p.1
11. 11
自然言語処理 Natural Language Processing
Typical applications
lexical analysis
dialogue systems
spoken language
understanding
speech recognition
parsing
machine translation
knowledge graph
information
retrieval
question
answering
Deng and Liu (2018), p.1
13. • 第一波 1950年代以降 Rationalism
Turing, Chomskyの影響
• 第二波 1990年代以降 Empiricism
言語Corpusの利用が可能になる、浅い機械学習
• 第三波 2010年代以降 Deep Learning
第二波は第一波より進化したが、人間レベルには
ほど遠かった。
13
自然言語処理 Natural Language Processingの発展
Deng and Liu (2018), p.5-
14. 14
自然言語処理 Natural Language Processingの発展
Deep Learning
Deng and Liu (2018), p.7
“Deep learning originated from artificial neural
networks, which can be viewed as
cascading models of cell types inspired by
biological neural systems. With the advent
of backpropagation algorithm (Rumelhart et al.
1986), training deep neural networks
from scratch attracted intensive attention in
1990s.”
第三世代NLPの特徴(の一つ):産
学協働2009 NIPS
Workshop on Deep Learning for
Speech Recognition and
Related Applications
15. 自然言語処理 Natural Language Processingの発展
15
2017 Transformers 時代の幕開け
Walmart.com
それじゃない
Google社の A. Vaswani らによる論文(2017)はすでに引用6500 回超(Scopus)。NLP
+Transformers をキーワードなどに含む論文数は2019年に131、2020年405点、今年
はすでに138(Scopus)
16. 自然言語処理 Natural Language Processingの発展
2017 Transformers 時代の幕開け
16
Markowitz, 2021. Googleエンジニアによ
るブログ記事。CNN、RNNとの違いに
ついて非エンジニアにもわかりやすく説
明している
Souza dos Reis et al. 2021.
19. 政治学におけるNLPの発展
• 初期のデータは議会における議論、政党プラットフォーム
• Laver, M., Benoit, K., & Garry, J. (2003). Extracting
policy positions from political texts using words as
data. American Political Science Review, 97(2), 311–
331. 引用650回以上
• Wordscores (Benoit & Laver, 2003)
• ‘‘Automated content analysis and computer
annotation’’ workshop at 2006 APSA
• Two panels on systematic textual analysis at 2007
MPSA
• Political Analysis special issue “the statistical analysis
of political text” in 2008
• International Interactions issue “event data in the study
of conflict” in 2012
19
Monroe and Schrodt (2008), p.352. Schrodt (2012)
20. 2000年以降、政治イベントデータの発展に寄与した
要因 (Schrodt, 2012. p.546)
• Technological changes ウェブ上のデータ、自動
コーディングなどにより、データ作成コストが劇的に下がった
• More elaborate event data 従来のState-
centricだけではない、SubstateまたはNonstateアクターに
関するデータも増えた
• Major institutional investments (see next)
20
21. 2000年以降、政治イベントデータの発展に寄与した要因
(Schrodt, 2012. p.547)
• Substantial and sustained investment in
interlinked event data sets (e.g. UCDP,
PRIO)
• US DARPA initiated the Integrated Conflict
Early Warning System (ICEWS)
– invested substantial resources in event data
development, particularly automated coding
– ICEWS collected 6.5 million news stories
(1998-2006) about countries under the
Pacific Command. 253 million lines of text
from over 75 sources
21
22. “Natural language processing” + “politic*” in Scopus
Journal articles only
22
233 documents (as
of end of April,
2021). 2008年まで
ほぼゼロ、年10本以
上は2014年から
NLP全般についてはすでに2万
点あり、2013年ごろからは年
1000本超
23. “Natural language processing” + “politic*” in Scopus
Journal articles only 使用頻度が高いキーワード
23
n
Natural Language Processing 113
Natural Language Processing Systems 63
Sentiment Analysis 60
Data Mining 39
Machine Learning 38
Social Media 36
Social Networking (online) 36
NAtural Language Processing 35
Twitter 32
Learning Algorithms 21
Text Mining 21
Human 20
Learning Systems 19
Article 18
Politics 17
Artificial Intelligence 16
Opinion Mining 16
Semantics 16
25. Political event data
• 報道などの情報をもとにしたデータ
• CIA Foreign Broadcast Information Service,
BBC Summary of World Broadcasts などを
使ったものは1940年代から
• 1990年代以降、Lexis-Nexis、Factivaなどデー
タベースの充実とともに対象データが急増
• 同名の区別、重複などが課題
• Annualized、National から、時間・地理ともによ
り粒度の高いデータ収集が可能に
25
Schrodt, 2012
27. Gandrud, C., & Hallerberg, M. (2019).
The measurement of real-time perceptions of
financial stress: implications for political science.
British Journal of Political Science, 49, 1577-1589.
27
金融危機は(たとえば)
選挙にどう関係?金融危
機があったかどうか、ど
う測る?
28. “A continuous measure of real-time perceptions of financial
market stress..” “EIU Perceptions of Financial Market
Stress Index (FinStress”)
28
Gandrud, C., & Hallerberg, M. (2019).
29. マクロ経済・金融制度のストレス どう測る?
Measuring financial stress in a country at a given period:
FinStress これまでの自然言語処理の課題を克服
• The EIU compiles “real-time, third-party qualitative
assessments of financial market conditions”
• 従来の方法 “‘bags-of-words’ approaches
simply summarize unordered words. Aim is to
find clusters of topics within texts or clusters
of texts around topics”
• もっと良い方法 Kernel principal component
analysis (KPCA) “can preserve word orders
while extracting structure from the corpus”
29
Gandrud, C., & Hallerberg, M. (2019).
30. Comparing FinStress to Laeven and Valencia’s Banking
Crisis Measure in Europe (2013)
Gandrud, C., & Hallerberg, M. (2019).
Laeven, L. & Valencia, F. 2013. Systemic Banking Crisis Database. IMF Economic Review 61
(2):225–70.
30
31. 米大統領の一般教書演説
Rule, A., Cointet, J.-P., & Bearman, P. S. (2015). Lexical
shifts, substantive changes, and continuity in State of the
Union discourse, 1790-2014. Proceedings of the National
Academy of Sciences of the United States of America,
112(35), 10837–10844.
https://doi.org/10.1073/pnas.1512221112
31
“1917 as the decisive
transition to the modern
period in American political
consciousness, ushering in
new objects of political
discourse..”
35. Abbreviations
• Bidirectional Encoder Representations
from Transformers BERT
• Integrated Conflict Early Warning System
ICEWS
• Peace Research Institute Oslo PRIO
• Uppsala Conflict Data Program UCDP
• U.S. Defense Research Projects Agency
DARPA
35
36. References
• Benoit, K., & Laver, M. (2003). Estimating Irish party policy
positions using computer wordscoring: The 2002 election–a
research note. Irish Political Studies, 18(1), 97–107.
https://doi.org/10.1080/07907180312331293249
• Faustini, P. H. A., & Covões, T. F. (2020). Fake news detection
in multiple platforms and languages. Expert Systems with
Applications, 158. https://doi.org/10.1016/j.eswa.2020.113503
• Laver, M., Benoit, K., & Garry, J. (2003). Extracting policy
positions from political texts using words as data. American
Political Science Review, 97(2), 311–331.
https://doi.org/10.1017/S0003055403000698
• Laeven, L., & Valencia, F. (2013). Systemic banking crises
database. IMF Economic Review, 61(2), 225–270.
https://doi.org/10.1057/imfer.2013.12
• Markowitz, Dale. (2021). Transformers, Explained: Understand
the Model https://daleonai.com/transformers-explained
• Monroe, B. L., & Schrodt, P. A. (2009). Introduction to the
Special Issue : The Statistical Analysis of Political Text, (2008),
351–355. https://doi.org/10.1093/pan/mpn017
36
37. References
• Parthasarathy, R., Rao, V., & Palaniswamy, N. (2019).
Deliberative democracy in an unequal world: A text-as-data
study of South India’s Village Assemblies. American Political
Science Review, 113(3), 623–640.
https://doi.org/10.1017/S0003055419000182
• Schrodt, P. A. (2012). Precedents, Progress, and Prospects in
Political Event Data. International Interactions, 38(4), 546–569.
https://doi.org/10.1080/03050629.2012.697430
• Souza dos Reis, E. et al. (2021). Transformers Aftermath :
Current. Communication of the ACM, 64.
• Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L.,
Gomez, A. N., … Polosukhin, I. (2017). Attention is all you
need. In Advances in Neural Information Processing Systems
(Vol. 2017-December, pp. 5999–6009). Google Brain, United
States.
37