ルールベースによるTwitter タイムライン感情分析

自然言語処理による
Twitter タイムライン感情分析

プロジェクトの目的
・投稿されたタイムラインの感情レベルを数値化
・Twitterのようなカジュアルな投稿の分析
・NPLで投稿の感情レベルに対する，評価指標を作成
・感情分析のアルゴリズムを作成し，スコアを高精度化

Twitter API CSV
前処理
形態素解析
プロジェクトの概要
評価極性辞書
辞書化
FastText
レビュー
データ
拡張
Google Natural
Language
①
②
③
④
①〜④スコアを
それぞれ比較，効果検証

Google Natural Language
Twitter API 前処理 GCP スコア
・Twitter API でキーワードを検索 → ７日間分のタイムラインを取得
・csvファイルを取得
・Google Natural Language API → スコア化
・絵文字の除去；関数
・リンクの除去；正規表現
・TimeStamp変換
・データの読み込み
−1 ≤ 𝑠 ≤ 1
・投稿をスコア化

うざいと感じる菅総理
・う；感動詞，*，…
・ざいと；名詞，一般，…
・感じる；動詞，自立，…
・菅；名詞，固有名詞，…
・総理；名詞，一般，…
Neologd
userdic.csv
・固有名詞
・スラング
・うざい；形容詞，一般，…
・と；助詞，格助詞，…
・感じる；動詞，自立，…
・菅総理；名詞，固有名詞，…
拡張
うざい形容詞 … ウザイ

評価極性辞書
テキスト評価極性辞書
照合
助詞，連体詞，助動詞
除外
形態素の平均値を算出
・彼；
・は；
・面白い；
・賢い；
NAN
NAN
0.989199
0.999486
注）「NAN」は形態素の要素としてカウントしない
Ex）
𝑠𝑐𝑜𝑟𝑒 =
(0.989199 + 0.999486)
2
= 0.9943425

評価極性辞書の問題点
・カジュアルな単語が網羅されていない
→スラングや俗語などが評価されない
・FastTextの分散表現
・商品レビューによる重要度のスコア化

FastTextを用いたスコア化
・FastText；単語同士の類似度を数値で表現するための学習モデル（Word2Vec）
Wikipedia
学習済みモデル
・テキスト抽出
・分かち書き
FastText
学習
・ネガポジ度を算出
Ex）笑った；0.83442
Ex）ワロタ

レビューサイトによる重要度のスコア化
𝑠 = 𝑛𝑤𝑒𝑖𝑔ℎ𝑡 × log(𝑑𝑓 𝑡 )
𝑑𝑓 𝑡 ；文章における単語の出現頻度
𝑛𝑤𝑒𝑖𝑔ℎ𝑡；レビューサイトの評価（ −5 ≤ 𝑛𝑤𝑒𝑖𝑔ℎ𝑡 ≤ 5 ）
スコアの極性
・文章中の単語の頻度→単語の極性=スコアの指標
・レビューの星の数(評価)→ネガティブ(負)かポジティブ(正)の分類

プロジェクトの実行結果
・Google Natural Languageによる実装
→『トランプ大統領』のキーワードで評価

プロジェクトの実行結果
・『トランプ大統領』に対するスコアの結果

プロジェクトの評価
・Google Natural Language ・評価極性辞書
「ウザイ」という単語がデータベースにない
明らかにネガティブな投稿なのに
ポジティブなスコアになっている

プロジェクトの評価
・FastText ・レビューデータ
score = -0.521852で平均値化
学習用に利用したWikipediaの記事には
「うざい」という項目がない

プロジェクトの考察
・フォーマルな投稿はAPIである程度スコア化できる．
・レビューデータを利用することで，スラングなどの評価を適切に行うことができた．
（レビュースコアの定義をもう一度見直す必要はあり）

プロジェクトの課題
・文脈を考慮したスコアの分析を行うことでより，精緻化することができる．
・Deep Learningやロジスティック回帰モデルによる評価極性辞書の拡張
・絵文字など，文章ではないが感情を含むテキストの分析

ルールベースによるTwitter タイムライン感情分析

Recommended

Recommended

More Related Content

Similar to ルールベースによるTwitter タイムライン感情分析

Similar to ルールベースによるTwitter タイムライン感情分析 (20)

Recently uploaded

Recently uploaded (20)

ルールベースによるTwitter タイムライン感情分析