感情の出どころを探る、一歩進んだ感情解析

Copyright © 2017 TIS Inc. All rights reserved.
感情の出どころを探る、一歩進んだ感情解析
戦略技術センター
久保隆宏
Introduction for Aspect Based Sentiment Analysis

Copyright © 2017 TIS Inc. All rights reserved. 2
 観点感情解析(Aspect Based Sentiment Analysis)とは
 既存の感情解析の問題点
 観点感情解析のはじまり
 観点感情解析のタスク
 タスクの定義
 現在行われているアプローチ
 今後のアプローチ
 基本方針
 観点表現の認識を起点にした手法
 1-shot文分類を利用する手法
 観点表現の特定と分類を併用するパターン
 Try Aspect Based Sentiment Analysis!
目次

久保隆宏
TIS株式会社戦略技術センター
 化学系メーカーの業務コンサルタント出身
 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへと異動
 現在は機械学習や自然言語処理の研究・それらを用いたシステムのプ
ロトタイピングを行う
自己紹介
kintoneアプリ内にたまった
データを簡単に学習・活用
(@Cybozu Days 2016)
チュートリアル講演：深層学習
の判断根拠を理解するための研
究とその意義(@PRMU 2017)
機械学習をシステムに組み込む
際の依存性管理について
(@MANABIYA 2018)

chakkiのミッション
Summarize data for human
あらゆるデータを、人間にとってわかりやすく要約
することを目指します。
chakkiが目指す機能:
 要約の観点を、なるべく少ないデータで学習する
 自然言語以外の、画像や数値データの要約も扱う
 図や表といった表現形態にも挑戦する
この機能の実現を通じ、最終的にはいつでもティー
タイム(15:00)に帰れる(=茶帰)社会を目指します。
2018年度より具体化

観点を指定した自然言語処理
観点単位にまとめることで、情報の欠落を
防ぐと共に図表化を行いやすくする。
モデルにお任せで「こんなん出ました」で
なく、利用者が出力をコントロールする。
ex: 観点要約
ペンギンのサイズは小さくて、手触りは冷たい。
 「サイズ」は「小さく」
 「手触り」は「冷たい」
サイズ手触り
ペンギン小さい冷たい
ライオン大きい温かい
ウサギ中くらい温かい
業務要件により観点は異なる。そして、観点の学習データは少ない。
⇒自然言語処理における転移学習に注力し、「少ないデータでカスタマ
イズ可能な分類/生成器の作成」を目指している。
(2/3)

(3/3)
 研究開発活動は基本オープンに行っている(GitHub★総計 728)。
 研究に関することであれば、個人のブログ/リポジトリも評価される。
機械学習関連の論文のまとめをGitHubのIssueを使って行っ
ています。月一での輪講も開催中です。

観点感情解析(Aspect Based Sentiment Analysis)とは

「何が」肯定的・否定的に評価されているのかわからない。
既存の感情解析の問題点(1/2)
ここのピザは絶品だね！うちの家族はみんな大好き
と言っているよ。
ただ、ここのビールはとても薄いね！ビールの水割
りと思うくらいさ。
店員さんもちょっとぶっきらぼうかな。割られた
ビールの分、サービスしてほしいね！
レビューや論評といった肯定・否定が混在するようなケースでは、単に各
文のポジティブ・ネガティブだけでなく、「何が」肯定的/否定的に評価
されているかを知りたい。
Positive
Negative
Negative

以下のように、感情の対象が特定できるとよい。
既存の感情解析の問題点(2/2)
Positive
Negative
Negative
ただ、対象の種類は非常に多い(ピザ、マルゲリータ、etc...)。また、評
価軸も様々(味、サービス、値段、etc...)。
そのため、同じカテゴリに属するもの=同じ観点はまとめたい。

(ドメインごとに)整理された観点に基づき、感情評価を分析する。
観点感情解析のはじまり
初期(2004~)は、feature-based opinion miningと呼ばれていた。
研究の歴史やアプローチについては、書籍Sentiment Analysis and
Opinion Mining にて体系的にまとめられている。
※この書籍はレビューなどから意見やその極性を抽出する方法について400件以上の文献をまとめている神書籍。
Positive
Negative
Negative
FOODのQUALITY
SERVICE
DRINKのQUALITY

観点感情解析のタスク

観点単位の感情解析が、最初に意味解析のワークショップ(SemEval)で取
り上げられたのは2014年。そこから2016年まで3回連続で開催された。
(2017年以降は、TwitterなどのSNS上のメッセージの解析にとってかわられている)
そこでのタスク、つまり「どう観点単位の感情解析を行うか？」について
は年により若干の違いがある。ただ、最終的には以下の3タスクに落ち着
いている。
 Slot1: 各文の観点カテゴリの推定
 ピザは美味しいが価格は高い => カテゴリ: (FOOD#QUALITY、FOOD#PRICE)
 Slot2: 各文の観点カテゴリのエンティティを抽出
 ピザは美味しいが価格高い +カテゴリ: (FOOD#QUALITY、FOOD#PRICE) => エンティティ:
(FOOD#QUALITY=ピザ、 FOOD#PRICE=価格)
 Slot3: 各文の観点カテゴリについて極性の推定
 ピザは美味しいが価格は高い + カテゴリ: (FOOD#QUALITY、FOOD#PRICE) =>極性:
(FOOD#QUALITY =〇、 FOOD#PRICE =×)
タスクの定義(1/5)

SemEval 2014 Task4
 SB1: 観点にかかわる表現の抽出
 ピザは美味しいが価格は高い => 表現: (ピザ、価格)、極性: (ピザ=〇、価格=×)
 SB2: 観点にかかわる表現について、その極性を推定
 ピザは美味しいが価格は高い + 表現: (ピザ、価格) => 極性: (ピザ=〇、価格=×)
 SB3: 各文が議論している観点のカテゴリの推定
 ピザは美味しいが価格は高い => カテゴリ: (FOOD、PRICE)
 SB4: 観点にかかわる表現について、その極性を推定
 ピザは美味しいが価格は高い + カテゴリ: (FOOD、PRICE) => 極性: (FOOD=〇、PROCE=×)
ピザ
美味しい
FOOD
観点表現を特定してから、その種別極性を判断する。

SemEval 2015 Task12
観点の種別を特定してから、その表現・極性を判断する。
FOOD#
QUALITY
美味しい
ピザ

カテゴリは、エンティティ+属性で表現(FOOD#QUALITYなど)。明言さ
れていなくてもわかる場合付与する。
例：「この神の舌を持つ僕をうならせる」という場合、明示的に「味」とは言っていないが明らかな
ため、FOOD#QUALITYとなる。
また、各文を単独ではなく周辺テキストも含めて考慮する。
例：「ピザの味は本当にいいよ。すごくいい！」という時、二文目(すごくいい！)は単独では何がい
いのかわからないが、一文目から推定可能なためFOOD#QUALITYとなる。
SemEval 2016 Task5
SemEval2015に加え、以下のサブタスクが追加された(SubTask1は2015
と同じ)。
 Subtask2: テキストレベル(レビュー全体)におけるカテゴリの推定・カ
テゴリごとの極性の推定
 Subtask3: ドメイン外のテキストでの性能検証(転移性能)
 ただ提出したチームはなかった？

SemEval2014~ SemEval2015,2016でタスクが変更された背景。
2014での傾向として「レビュー内で暗黙的に示唆される性質」の特定が
難しかったとしている(特にPCのドメインで。「僕のPCはずっとうなりを
あげているよ」はPCの性能について話しているが、性能を示す明確な言葉
はない)。
そのため、2015では明示的な表現(Aspect Term)の特定でなく、全体と
して「何を言っているのか」を先に推定する方(Aspect Categoryの推定
=Slot1)に舵を切っている。
ただ、その分少ないデータでエンティティ＋属性という多めのカテゴリ
(しかもマルチラベル)の問題を一番先に解く形態になってしまってはいる。

SemEval 2016までで定義されたタスクをどうこなすかが一つの論点と
なっている。一つの研究で3つ(Slot1~Slot3)すべてをやっているものはあ
まりなく、どれか一つを選んで行っていることが多い。
現在行われているアプローチ(1/6)

ベースラインモデル、また提出された研究については後述するが、大まか
には以下のような傾向がある。
 Slot1
 単語分散表現を利用することで一定の精度はでる。近いドメインの
コーパスで学習した分散表現だとなおよい
 ニューラル系のモデルではそんなに深い層は使ってない(データが
少ないので過学習する)
 係り受け関係も一定の効果がある
 頻度が少ないカテゴリは切り捨てるのもあり
 Slot2
 CRFがベースで、カテゴリを区別しなくても一定の検出が可能とみ
える(カテゴリごとは、数が少なくそもそも難しい)
 Slot3
 Slot1と同等のアプローチで可能

SemEval 2016でベースラインとして使用されている実装は以下。
シンプルな単語特徴を使用したモデル。
モデルスコア
Slot1
観点カテゴリの推定
stop wordを除いた1000の上位語を特徴量
としたSVM(One vs All: 一文に複数カテゴ
リがつくため)
ラベルの確率が0.2を超えるものは付与する
F1(micro)
59.928
Slot2
各観点カテゴリのエンティ
ティ抽出
学習データ中にある{"カテゴリ": "エンティ
ティ表現"}のペアを辞書として持っておき、
順番に当てていく
F1(micro)
44.071
Slot3
各観点カテゴリの推定
stop wordを除いた1000の上位語＋観点カ
テゴリのインデックスを特徴量としたSVM
accuracy
76.484

タスクで提出された研究のアプローチは以下(スコアが良かったもの)。
NLANGP at SemEval-2016 Task 5: Improving Aspect Based
Sentiment Analysis using Neural Network Features
 Slot1
 n-gram、学習データ中のエンティティ表現、係り受け関係にある
単語(HEAD)、単語分散表現、K-meansクラスタなどを特徴使用。
 これらの特徴＋これらの特徴の一部使ってCNNで畳み込んで予測し
た結果を一層のニューラルネットに入れて学習
 CNNだけでも精度は高いが、併用するとさらに上がるらしい。
 Slot2
 CRFにRNNの出力を加えて予測。表現だけ予測すればいいので、ど
のAspectのTargetかを区別せず学習。

NileTMRG at SemEval-2016 Task 5: Deep Convolutional Neural
Networks for Aspect Category and Sentiment Extraction
 Slot1
 単語の分散表現(YelpやAmazonレビューなどのセンチメント系の
データセットでも学習したもの)を、CNNで畳み込む。
 Slot3
 同じくCNNをベースにした3つのモデルのアンサンブルで予測する。
AUEB-ABSA at SemEval-2016 Task 5: Ensembles of Classifiers and
Embeddings for Aspect Based Sentiment Analysis
 Slot1/2/3すべてを扱っている。Slot1はSVM、Slot2はCRF、Slot3は
特徴量/単語分散表現をベースにした線形回帰。いずれもアンサンブル
を行うことで精度を上げている。
 実装が公開されている

ECNU: Extracting Effective Features from Multiple Sequential
Sentences for Target-dependent Sentiment Analysis in
Reviews
 Aspectの推定(Slot1)に効く特徴を調べた研究。ドメイン固有の単語
(パソコンなら便利、速い、など)がやはり一番効いている。また、係り
受け関係などの文法的特徴が効いている。
Deep Learning for Aspect-Based Sentiment Analysis
 Slot1
 文中単語の単語分散表現を、2層のニューラルネット(Deepと
は・・・)で予測(深すぎると過学習するためあえて)。なお、予測ラ
ベルで頻度が低いものはOTHERとしてまとめてしまっている。
 Slot3
 CNNを使用。Aspectの分類確率(Slot1の出力)でもって単語ベクト
ルを重みづけしたうえで入力している(これにより、Aspectに関連
する語が重要視されてSentimentが判定される)

今後のアプローチ方法

レストランの評価にはレストランの、ホテルの評価にはホテルの観点単位
のデータが必要、となると評価対象が増えるごとにデータを毎回作らない
といけない。これは厳しい。
 半教師あり学習
 転移学習
こうした技術を活用していく必要がある。
現在までの研究で、最も転移性が期待できるのはSlot2(観点表現の抽出)
の箇所。SemEval 2016でトップの成績を出している手法は、いずれも抽
出にあたり観点カテゴリの指定を行っていない(カテゴリを区別しない)。
そのため観点特定を起点にする手法もあるが、1-shotや事前学習済みモデ
ルで分類をブーストする方法もありうる。
基本方針

観点表現の認識を起点にした手法
Pre-trained
Aspect term
Detector
Aspect Category
Classifier
Polality
Classifier
ピザは美味しかった。
FOOD#QUALITY
POSITIVE
ただ、弱点として明確な表現がない場合に対応できない(主語/目的語が省
略されているパターン、比喩表現など)。

1-shot文分類を利用する手法
Aspect Category
Classifier
Target
Extraction
Polality
Classifier
ピザは美味しかった/パスタはうまい・・・
POSITIVE
あれは僕の舌をうならせた
1/few shot train
Trained Aspect
Category
Classifier
FOOD#QUALITY
NULL
特定できなくて
も問題ない

観点表現の特定と分類を併用するパターン
Pre-trained
Aspect term
Detector
Aspect Category
Classifier
Polality
Classifier
FOOD#QUALITY
POSITIVE
1shot/Pretrainedモ
デルを使うことで
ブースト
Merge
観点表現の特定と分
類は、シリアルに行
う必要は別段ない。

観点別の感情解析か・・・面白そうだけど、
どうせ日本語のデータセットはないんだろうな
Try Aspect Based Sentiment Analysis!(1/2)

Try Aspect Based Sentiment Analysis!(2/2)
有価証券報告書(2016年度)をベースにアノテーションした
データを無償で公開しています(GitHub/Kaggleで公開)。
今すぐアクセス！

感情の出どころを探る、一歩進んだ感情解析

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 感情の出どころを探る、一歩進んだ感情解析

Similar to 感情の出どころを探る、一歩進んだ感情解析 (20)

More from Takahiro Kubo

More from Takahiro Kubo (20)

感情の出どころを探る、一歩進んだ感情解析