サポーターズ勉強会スライド 2018/2/27

実務で使う自然言語処理をする
2018/2/27 サポーターズ勉強会
@kensuke3238

Who are you ?
三澤賢佑（ミツザワケンスケ）
Github Qiita
愛知県出身
2012年大阪外国語大学ペルシア語科卒
2014年奈良先端科学技術大学院大学卒
株式会社Insight Tech
データサイエンティスト

本日内容サンプルコードがあります
Github Kensuke-Mitsuzawa

本日内容サンプルコードがあります
Github Kensuke-Mitsuzawa
Dockerコンテナもついてるよ！

本日内容スライド（公式版）あります

なぜ、いまさら
じめ一歩っぽい自然言語処理なか？

先端やり技術 ≠ ビジネス最前線で使える技術
● モデル中身を理解不可能。（少なくとも非技術者に）
● パラメータチューニングもコストがかかる。
ビジネス価値が高い技術と？
● シンプル、理解しやすい
● 説明可能（間違い理由を顧客が理解しやすい）
● 早く、安くできる
一方でディープラーニング系技術？

先端技術 = ビジネス最前線技術いつやってくる？
企業（システム提供者）、システム利用者（一般ユーザー）が
みんな「これくらい間違いしゃーないわな」と納得できるようになった時。
Google photoゴリラ事件
出典 http://jp.wsj.com/articles/SB10468926462754674708104581082773456994848
Google Photoが黒人人物がうつった写真を
「ゴリラ」と判別してしまった事件。
最初に騒ぎ出した、Web系開発者。
人権団体を中心に大きな騒動になった。

先端技術 = ビジネス最前線技術いつやってくる？
企業（システム提供者）、システム利用者（一般ユーザー）が
みんな「これくらい間違いしゃーないわな」と納得できるようになった時。
Google photoゴリラ事件
出典 http://jp.wsj.com/articles/SB10468926462754674708104581082773456994848
Google Photoが黒人人物がうつった写真を
「ゴリラ」と判別してしまった事件。
最初に騒ぎ出した、Web系開発者
人権団体を中心に大きな騒動になった。
技術系人物でも、
こような間違いに厳しい段階。
非技術者にまで意識が浸透する、ま
だまだ先か？

わかりやすいモデル不滅
今後産業界へ技術浸透（主観予想）
産業分野によって「高い説明可能性」を求められる分野がある。(Ex. 医療系など)
わかりやすくて、間違い理由も理解できるモデル今後も生き残る。
ディープラーニング系技術わかりやすいモデル
精度さえよけれ、
なんでもええわ！系産業
中身説明を求める系産業

自然言語処理へ第一歩
1. 形態素分割

Q. 形態素分割となにか？
A. テキストを単語にバラすこと[1]
[1] 厳密に単語と形態素異なる。形態素⊆単語と認識すると良い。

なぜ、形態素分割が必要か？
● テキストデータでも集計処理をしたい
● 文、文書状態だと、機械学習にも適応できない

“きょう、サポーターズオフィスにやってきたよ！
あした、社畜としてバリバリ働くよ。
今週も社畜生活だ！
社畜といえ、ぼく友だち Aが..（こあとめちゃ長い） .”

テキスト内容を俯瞰したい。
集計するにどうしたら・・・？

単語頻度
社畜 23
休日 20
働く 15
... ...

えっ、なんだか難しそう・・・？
たった１行で完結 on unixコンソール
% echo "きょう、サポーターズオフィスにやってきたよ！ " | mecab -d
/usr/local/lib/mecab/dic/mecab-ipadic-neologd
きょう名詞,副詞可能,*,*,*,*,きょう,キョウ,キョー
助詞,係助詞,*,*,*,*, ,ハ,ワ
、記号,読点,*,*,*,*,、,、,、
サポーターズ名詞,一般,*,*,*,*,*
助詞,連体化,*,*,*,*, ,ノ,ノ
オフィス名詞,一般,*,*,*,*,オフィス,オフィス,オフィス
に助詞,格助詞,一般,*,*,*,に,ニ,ニ
やってき動詞,自立,*,*,カ変・クル,連用形,やってくる,ヤッテキ,ヤッテキ
た助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
よ助詞,終助詞,*,*,*,*,よ,ヨ,ヨ
！記号,一般,*,*,*,*,！,！,！
EOS

えっ、なんだか難しそう・・・？
たった１行で完結 on python
In [2]: from JapaneseTokenizer import MecabWrapper
In [3]: MecabWrapper(‘ipadic’).
tokenize('きょう、サポーターズオフィスにやってきたよ！ ').
convert_list_object()
Out[3]: ['きょう', ' ', '、', 'サポーターズ', ' ', 'オフィス', 'に', 'やってくる', 'た', 'よ', '!']

形態素解析器仕組み
「辞書データ + 形態素解析モデル」組み合わせ。
「形態素解析モデル」、ツールごとに違うアルゴリズムを採用
形態素解析器
辞書データ
形態素解析モデル

形態素解析器勢力 (主観)
ツール名特徴
Mecab 形態素解析界で一番有名。とりあえず Mecabという風潮がある。
とにかく、動作が早い。
Kuromoji ElasticSearchとペアで使われる鉄板的な存在。
動作アルゴリズムに不透明なところがある。
Juman 人手でパラメタチューニングがされている。味があるツール。
単語意味分類も教えてくれる。
Juman++ 日本語で最初にディープラーニング系アルゴリズムを導入した。
いまところ、最高精度。
Kytea 他とまったく違うアルゴリズムを利用。
形態素解析研究コミュニティが好んでいる傾向がある。
RakutenMA 楽天市場商品名を精度よく区切るためにチューニングされている
Chasen Mecab 1世代前子。いま積極的に使われていない

辞書勢力 (主観)
辞書名特徴
IPA辞書 Mecab 標準辞書としてアナウンスされている。
IPA-neologd辞書 IPA-Dic 体系で、新語に対応させまくっている。
Web系新語にとにかく対応したいなら、これ。
Unidc辞書国立国語研究所で作成されている辞書
解析性能自体、Unidicが一番高い。
Naist-j 辞書 Naistで作成された辞書。現在メンテナンスされていない。
Juman辞書 Juman用辞書。IPA辞書と別品詞体系を利用している。
意味分類が細かい。 “駅” -> 「交通・ドメイン」など
辞書比較詳細に関して、以下ページや論文を参加にしてください。
- 形態素解析に使う辞書何が適切なか？
- 形態素解析辞書ベンチマークテスト

形態素解析性能とこれから
「きれいな文（新聞記事）」で98%くらい分割精度(Mecab)
チャレンジ内容「Web分野」や「話し言葉」へ対応

形態素解析性能とこれから
「きれいな文（新聞記事）」で98%くらい分割精度(Mecab)
チャレンジ内容「Web分野」や「話し言葉」へ対応
Web分野と話し言葉へ対応
Web文書に「Mecab + IPA neologd辞書」組み合わせで処理する人多い。

Pythonでやってみる形態素分割と単語集計
“JapaneseTokenizer”で基本的なことがカバーできる。
● Mecab, Juman, Juman++, Kytea 呼び出し
● 品詞でフィルタリング
● Stopword（分割結果から除外したい語）フィルタリング
形態素分割
単語集計
Python標準 collection.Counterクラスで一発処理
詳しくサンプルコード on Githubを見てください

2. キーワード抽出

どうしてキーワード抽出が必要か？
形態素集計で、意味がない単語出現

単語頻度
する 2513
なる 554
演 283
ある 270
信繁 195
Wikipedia 「テレビ番組」に関係する 15文書を集計。
品詞に「動詞・自立」、「形容詞・自立」、「名詞・固有名詞」を利用。

単語頻度
する 2513
なる 554
演 283
ある 270
信繁 195
Wikipedia 「テレビ番組」に関係する 15文書を集計。
品詞に「動詞・自立」、「形容詞・自立」、「名詞・固有名詞」を利用。
単語
CM
視聴者
視聴率
24時間テレビ
制作進行
理想的にこんな感
じ出力がいい

キーワード抽出へアプローチ
キーワード抽出へアプローチ大きく２つある。
今回「データ重み付け」アプローチを紹介
データ重み付けデータベース照合
文集合に重み付け計算を行なう。
文や文書につけられた「ラベル」ベース
ラベルごと出現差分を計算に考慮
既存データベースを「正解」キーワード
既存データベースと照合して、キーワード抽出。
Wikipediaがよく使われる。

重み付けアプローチ実例紹介
不満買取センターで実例。
「不満で振り返る2016年各月注目キーワードTOP5」
【1月】　新成人　正月太り　大寒波　正月三が日　バルス
【2月】　歯舞　春一番　立春　グラミー賞　台湾地震　
【3月】　ナベツネ　なでしこJAPAN　開花宣言　大相撲三月場所　無観
客試合
【4月】　エイプリル・フール　前震　前田健　桃田　震災対応
（１月分〜４月分までを抜粋）
抽出されたキーワード

重み付けアプローチ実例紹介
不満買取センターで実例。
「不満で振り返る2016年各月注目キーワードTOP5」
抽出フローチャート
不満買取センター
DB
形態素分割
重み付け
計算
キーワード
単語集合

（２分でわかる）重み付け手法概念
ある単語aについて、ラベルAとあるラベルB 出現差分を比較する。
（ラベルベース重み付け手法場合）
ラベル- テレビ番組ラベル- 自動車
新車
トヨタ
CM
多様な
視聴率
イグニッション
新車
トヨタ
多様な
多様な
あう
販売
新車
ホンダ
低燃費
新車
多様な
CM
視聴者
多様な
CM
CM
視聴率
CM
多様な
視聴率
視聴者
視聴率
多様な
新車
多様な
CM
視聴率

CM
視聴者
多様な
CM
CM
視聴率
CM
多様な
視聴率
視聴者
視聴率
多様な
新車
多様な
CM
視聴率
新車
トヨタ
CM
多様な
視聴率
新車
トヨタ
多様な
多様な
あう
販売
新車
ホンダ
低燃費
新車
多様な
灰色四角=1文書
単語文書に出現する単語

新車
トヨタ
CM
多様な
視聴率
新車
トヨタ
多様な
多様な
あう
販売
新車
ホンダ
低燃費
新車
多様な
ラベルつき「複数文書」
「ラベル- テレビ番組」文書が4文書
CM
視聴者
多様な
CM
CM
視聴率
CM
多様な
視聴率
視聴者
視聴率
多様な
新車
多様な
CM
視聴率

新車
トヨタ
CM
多様な
視聴率
新車
トヨタ
多様な
多様な
あう
販売
新車
ホンダ
低燃費
新車
多様な
ラベルつき「複数文書」
「ラベル- 自動車」文書が4文書
CM
視聴者
多様な
CM
CM
視聴率
CM
多様な
視聴率
視聴者
視聴率
多様な
新車
多様な
CM
視聴率

ラベルごとに頻度をカウントする
ラベルごと頻度(Documen Frequency); 単語が出現した「文書数」。単語頻度でない。
単語ラベル頻度
CM 3
視聴率 3
多様な 4
新車 1
単語ラベル頻度
CM 1
視聴率 1
多様な 4
新車 4

ラベル頻度をカウントすると
ラベルごと頻度(Documen Frequency); 単語が出現した「文書数」。単語頻度でない。
単語頻度差分
CM 3 +2
視聴率 3 +2
多様な 4 0
新車 1 -3
単語頻度差分
CM 1 -2
視聴率 1 -2
多様な 4 0
新車 4 +3

ラベル頻度(Documen Frequency); 単語が出現した「文書数」。単語頻度でない。
単語頻度差分
CM 3 +2
視聴率 3 +2
多様な 4 0
新車 1 -3
単語頻度差分
CM 1 -2
視聴率 1 -2
多様な 4 0
新車 4 +3
差分が大きい単語 ≒「ラベルに固有単語」
大きな重みスコア

ラベル頻度(Documen Frequency); 単語が出現した「文書数」。単語頻度でない。
単語頻度差分
CM 3 +2
視聴率 3 +2
多様な 4 0
新車 1 -3
単語頻度差分
CM 1 -2
視聴率 1 -2
多様な 4 0
新車 4 +3
差分がない単語 ≒ 「一般的な単語」
低い重みスコア（また 0）

Q. どんなラベルを使えいいか？
A. なんでもいい。それ使う人が決めること。
そもそも「ラベル」という概念が主観と客観境界にある
ラベル情報例
● 「タグ」ようなメタデータ
● 人手で分類をして、付与してきた「タグ」
● タイムスタンプ (週単位、月単位に変換して「ラベル」に)
● 人手で最初にキーワード設定。キーワードを「ラベル」にして使う。
などなど。

Q. どんなラベルを使えいいか？
例え、Wikipedia 記事をいい感じにラベル付けする（超主観）
記事名ラベル
スターウォーズ映画
日本酒アルコール
竹鶴アルコール
餃子王将レストラン
奈良先端科学技術大学院大学教育

Pythonで重み付けアプローチをやってみる
DocumentFeatureSelectionを使え、TF-IDF, BNS, PMI, SOAが実行可能
Input データ構
{
“ラベル名-1”: [
[文1に出現する単語],
],
“ラベル名-2”: [
],
}

Input データ構
{
"テレビ番組": [
["視聴率", "CM", "CM", "多様な", "新車", "視聴者"],
["トヨタ", "CM", "CM", "多様な", "視聴者"],
["CM", "CM", "多様な", "視聴者", "視聴率"],
],
"自動車": [
["新車", "トヨタ", "視聴率", "CM", "多様な"],
["新車", "トヨタ", "販売", "多様な"],
["新車", "販売店", "低燃費", "トヨタ", "多様な"],
["新車", "販売店", "低燃費", "ホンダ", "多様な"],
]}

In [1]: from DocumentFeatureSelection import interface
In [2] : データ前スライド入力データを利用。 input_dict = 前スライドデータ
In [3]: interface.run_feature_selection(input_dict=input_dict,method='soa').ScoreMatrix2ScoreDictionary()
Out[3]:
[{'label': 'テレビ番組', 'score': 2.0, 'word': 'CM'},
{'label': '自動車', 'score': 1.5849625007211563, 'word': '新車'},
{'label': 'テレビ番組', 'score': 1.4150374992788437, 'word': '視聴率'},
{'label': '自動車', 'score': 1.1699250014423124, 'word': 'トヨタ'},
{'label': 'テレビ番組', 'score': -1.1699250014423124, 'word': 'トヨタ'},
...略
サンプルコード

Out[3]:
...略
method = ‘手法名’を指定すれ OK

Out[9]:
...略
“CM”がテレビ番組,
“新車”が自動車
ラベルで高いスコアになった！

● シンプルにデータ入力できるインターフェース
○ ４手法が利用可能
● 高な計算
○ Cythonを利用
● 巨大データへスケール性
○ 10GB程度までテキストデータに対応実績あり[1]
DocumentFeatureSelection 特徴
[1] 64GBメモリマシンで実行。メモリを 95%程度まで使い切り

3. カテゴリ分類（ラベル分類）

カテゴリ分類と何か？
テキストデータを、「内容を考慮して」、カテゴリに分けること。
例：ニュース記事分類
日本経済新聞Web版 1/30 http://www.nikkei.com/article/DGXLASGM30H0T_Q7A130C1MM0000/

カテゴリ分類
モデル
「国際」カテゴリ

カテゴリ分類
モデル
カテゴリ体系「モデル」を作成する
人が、自由に体系を設計する

カテゴリ分類アプローチ手法
ルールベース機械学習ベース

人手ルールに従った分類
例え
● 「アメリカ」が出現 ->
● 「アメリカ」と「トランプ」
-> 「国際」カテゴリ
● など。

スコアリングベース
分類器ベース
計算済み重み付けスコアを使う。
カテゴリごとにスコアを足し算。
最高値カテゴリ -> 予測カテゴリ。
予測カテゴリを一意に出力する
例え
● SVM
● 深層学習
● など
例え

スコアリングベース
分類器ベース
例え
計算済み重み付けスコアを使う。
カテゴリごとにスコアを足し算。
最高値カテゴリ -> 予測カテゴリ。
予測カテゴリを一意に出力する
例え
● SVM
● 深層学習
● など

スコアリングベース、カテゴリ分類処理フロー
ラベル付き
テキストデータ
重み付け手法
重みスコアデータ
ラベルなし
テキストデータ
形態素分割
カテゴリ
スコア計算
予測
カテゴリ
２章内容
形態素分割

Pythonでカテゴリ分類をやってみる
サンプルコードこちら
スコアリング関数ゆるふわ疑似コード
seq_input_tokens; 形態素分割をした入力文List[str]
dict_weight_score; 重み付けをした辞書データ。Ex.{‘単語’: [ (‘自動車ラベル’, 4.023) ]}
dict_label_score = {} // ラベルごとスコア足し算結果を保存するハッシュマップ
for token in seq_input_tokens {
1. “token” が “dict_weight_score” にあるかチェックする。なけれ、next
2. “token” ラベルごとスコアをdict_label_score に保存する。
}

{
“自動車ラベル”: 67.322,
“テレビ番組ラベル”: 32.1345,
“映画ラベル”: 23.432,
...
}
出力（dict_label_score）こようになる。（数値適当な例）

{
“自動車ラベル”: 67.322,
“テレビ番組ラベル”: 32.1345,
“映画ラベル”: 23.432,
...
}
出力（dict_label_score）こようになる。（数値適当な例）
予測結果を1つだけにしたい。
-> スコアが最大なTop1だけ使う。
予測ラベルを複数つけたい。
-> 上からスコア多い順にN件使う。

モデル性能評価をしよう。
「ワイが作ったモデルみてや〜。すごいんやで〜」と自慢するために、
性能数値が不可欠
Accuracy指標
「予測結果が正しかった割合」を示す数値。
Accuracy指標 = N(予測が正解データ) / N(評価用データ)

モデル性能評価をしよう。
「ワイが作ったモデルみてや〜。すごいんやで〜」と自慢するために、
性能数値が不可欠
Accuracy指標
評価用データラベル予測結果ラベル
自動車自動車
テレビ番組自動車
テレビ番組テレビ番組
映画映画
Accuracy指標; 0.75 = 3 / 4

評価データ用意方法
重みスコア作成元に「使わなかった」データを評価に
利用可能なラベル付きデータ

評価データ用意方法
重み付けスコア作成データ評価用データ
重みスコア作成元に「使わなかった」データを評価に
注：分類器ベースモデルで「 N-fold 交差検定」という検証法をよく使います。興味がある人検索 DA☆

ちなみに・・・
サンプルコードでモデル性能
k（Top-kに正解があったら正解とみなす） Accuracy
1 0.47 (10/21)
3 0.9 (19/21)

不満買取センターモデル辞書紹介
不満買取センター 100くらいカテゴリラベルから作った重みスコア辞書
重み付きモデル準備がめんどい・・人ために！
不満カテゴリ辞書
● 「レストラン」、「カフェ・喫茶」、「テレビ番組」等、細かい単位ラベル
● 80%くらい Accuracy性能がある (Wikipedia文書で評価)
● 無料で利用可能！申し込みフォームに入力したら、即ダウンロード！

不満買取センターモデル辞書紹介
不満カテゴリ辞書

まとめ
● 形態素分割と単語集計
● 重み付けスコアリング法とキーワード抽出
● 重み付けスコアリング法とカテゴリ予測
「今すぐできる基礎レベル」を中心に紹介。
「すごいプロジェクト立ち上げるぜ！」前に
こっそりと個人でやってみることをオススメします☆

自然言語処理もっと先に進みたい人へ
● 分類器ベースカテゴリ分類予測
● 単語分散表現 (word2vec)
● 単語を越えた分散表現
○ 言語モデル (LSTM)
○ フレーズ対訳モデル (seq2seq)
「こんな感じこと知っておくといいお」技術

重み付け手法選び方
ラベル有無、ラベル数、欲しい結果数値などによって変わってきます。
データにラベルをつけられるか？
ラベル数２つで、
データ数に偏りがあるか？
結果数値範囲
マイナスから　プラス方がよいか？
TF-IDF
SOA PMI
BNS
Yes
Yes
Yes
No
No
No

サポーターズ勉強会スライド 2018/2/27

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to サポーターズ勉強会スライド 2018/2/27

Similar to サポーターズ勉強会スライド 2018/2/27 (20)

サポーターズ勉強会スライド 2018/2/27