レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築公開版

レポート作成業務支援のための
中国語ソーシャルメディア
投稿分類システムの構築
第9回テキストマイニング・シンポジウム 2016年9月8日
株式会社ホットリンク
R&Dグループ
榊剛史水木栄セーヨーサンティ

Copyright© Hottolink, Inc.
▶TOPICS 背景
中国人観光客のインバウンド消費動向を、中国ソーシャル・ビッグデータの
リアルタイム分析により毎週レポート。
■中国の人が春節の本旅行中に買ったモノランキング日

▶TOPICS 背景

▶TOPICS
• さ
背景
単に商品名を含む投稿を収集するだけでなく、収集した投稿を
分析の観点から分類・集計する必要がある
製品情報販売情報キャンペーン関連メディア推薦使用感想
商品に言及した投稿の分類例

▶TOPICS 背景
• さ• 現状
– 商品を含む投稿を収集した後，与えられたカテゴリに人手
で分類している
• 問題点
– カスタマイズされたレポートを作成する人的リソースが足
りない
– レポート作成にかかるコストが大きい
– 分類のカテゴリ自体は状況によって変わる可能性がある
機械学習技術を用いて、多様なカテゴリ分類に適応しつつ、
投稿のカテゴリ分類コストを削減する

▶TOPICS 背景
• その他の問題意識
機械学習を用いて文書分類器を構築する際に、
どの工夫を優先的に行うべきか？
対象言語に対する理解が低い状態で、
実用的な分類器を作成することができるのか？
学習手法、特徴量の作り方、経験的な工夫・・・・
分類器作成のパラメータは多数ある
#微博橱窗#日本花王卫生巾搬运工在此，工农阶级万岁！|微博橱窗-...
→ # 微博橱窗 # 日本花王卫生巾搬运工在此，工农阶级万岁！ | 微博橱窗 - ...
日本本土直邮大王尿不湿，拉拉裤，需要的➕微信还有花王，尤妮佳！！！
→ 日本本土直邮大王尿不湿，拉拉裤，需要的 ➕ 微信还有花王，尤妮佳！！！

▶TOPICS 提案システム
• 目的
• 特徴
• 要件
Weibo上から，特定の商品に言及した文書を収集した後，それ
らを与えられたクラスに分類する
ユーザが分類クラスおよび学習データを設定できる点
顧客ニーズによって、必要な分類カテゴリが変わる可能性があるため
分類対象文書と分類器の学習データのドメインが異なることを
想定している点
新商品や未知の企業について分類が必要になる際は、領域適応が必要
ドメイン内分類（学習データと同じドメインでの分類）精度 ≧ 0.8
交差ドメイン学習（学習データと異なるドメインでの分類）精度 ≧ 0.6

ユーザが分類クラスおよび学習データを設定
製品情報販売情報キャンペーン関連メディア推薦使用感想
分類クラスの例
その１
過去の行動現在の行動未来の予定・希望
その２
分析したい内容によって、必要な分類クラスが異なる

▶TOPICS
分類対象文書と分類器の学習データのドメインが異なる場合
既存の商品A
学習データ
商品A
分類モデル
分類器
商品A
分類モデル
分類器
学習フェーズ
運用フェーズ
既存の商品A
テストデータ
新商品B
分類結果
分類結果
未知のドメインのデータ分類する必要は、少なく無い頻度で起き得る

使用感想製品情報販売情報
想把好东西分享给你。
…
使用感想
#日本海淘代购#… 製品情報
データセット3
データセット2
データセット1
分類器Y
使用感想製品情報
分類器X
データセット3
分類器Y#香港代購#秋冬必备… ？
【现货】日本代购… ？
#香港代購#秋冬必
备…
販売情
報
【现货】日本代购
…
販売情
報
1. 分類クラスを定義
2. 分類済みデータを
アップロード
3. 分類器を
オンデマンド構築
4. 内容分類を
実施
未分類データセット
ブラウザ up
ブラウザ指定
ブラウザ条件指定
ブラウザ up 担当者
確認
dl
バッチ処理
(on HTL server)
択一

▶TOPICS 提案システムのパラメータ
• 使用する分類器
• Naïve Bayes EM Algorithm（NBEM）
• Linear Support Vector Machine（SVM）
• 特徴量
• Bag of Words（BoW）
• Bag of Word Vectors
• 手法
• word2vec（BoWV）
• GraRep（BoWV-GraRep）
• 単語ベクトル（分散表現）学習用データ
• 学習データをそのまま利用
• 大規模コーパス
• 経験的な工夫
• 固有表現の認識（NER）
• サンプル数の違いによるクラス毎の重みの調整（Weight）
目的とする精度を，低い計算コストで実現できる組み合わせを明らかにする

• Naïve Bayes EM Algorithm（NBEM）
• 入力Xが与えられた時にYである確率を元に、分類クラスを決定する
• 例：投稿に投価格表現が含まれる→「販売情報」であると推測される
• 多クラス分類に用いられることが多い
• NBEMは、領域適応に強いとされる
• Support Vector Machine
• 教師あり学習のデファクトスタンダード
• 2クラス分類によく用いられる
使用する分類器
※領域適応（domain adaptation）
ある領域で学習されたモデルを、異なる領域に適応させること
例：「紙おむつ」で学習したモデル → 「化粧品」の投稿を分類

• Bag of Words（BoW）
• ある文書を、そこに含まれる単語集合で表現する
• 例：#微博橱窗#日本花王卫生巾搬运工在此，工农阶级万岁！|微博橱窗-...
=> # 微博橱窗 # 日本花王卫生巾搬运工在此，工农阶级万岁！ | 微博
橱窗 - ...
使用する特徴量

• Bag of Word Vectors
• 単語分散表現：単語をn次元のベクトルで表現する
• 文ベクトル：含まれる単語ベクトルの次元ごとの平均値で表現する
• 手法
• word2vec（BoWV）
• GraRep（BoWV-GraRep）
• データセット（事前学習）
• 分類器学習用のデータ
• 大規模データセット(Corpus)
• 中国語Wikipedia等のオープンデータ
によるコーパス
• 弊社がWebから収集したニュース記事等
使用する特徴量

• 固有表現の認識（NER）
• URL，値段，商品のサイズ，販売単位といったルールベース（正規表現）で抽出
• クラス毎の重みの調整（Weight）
• 各クラスのデータサイズが不均等→分類精度の低下の可能性
• 学習データのサイズに基づいて各クラスの重みを調整
𝑙𝑙 𝑚𝑚𝑒𝑒𝑒𝑒𝑒𝑒: 分類クラスのサンプル数の平均
𝑙𝑙 𝑚𝑚𝑚𝑚 𝑚𝑚: 分類クラスのサンプル数の最小値
𝑙𝑙max: 分類クラスのサンプル数の最大値
𝑐𝑐𝑖𝑖: クラス𝑖𝑖のサンプル数
クラス𝑖𝑖の重み𝑤𝑤𝑖𝑖 = log 10 + 𝑎𝑎𝑎𝑎𝑎𝑎 𝑐𝑐𝑖𝑖 − 𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 �
𝑙𝑙 𝑚𝑚 𝑚𝑚𝑚𝑚−𝑙𝑙 𝑚𝑚𝑚𝑚 𝑚𝑚
𝑐𝑐𝑖𝑖
34cm → <size> 10品牌→ <quant> http://t.cn/RUeePJl→ <URL>
経験的な工夫

▶TOPICS 評価実験
• データセット
• 分類クラス
ID セット名ツイート数
A 製品A(生理用品) 12,407
B 製品B(蒸気アイマスク) 5,516
C 製品C（小児用紙おむつ） 6,526
D ブランドＤ (化粧品ブランド) 87,387
ID クラス名
1 製品情報
2 販売情報
3 キャンペーン関連
4 メディア推薦
5 使用感想

▶TOPICS
評価実験
～分類器の比較～
• 分類器比較
• NBEM はドメイン内学習，交差ドメイン学習共にaccuracy がSVM に劣っている
ドメイン内
Accuracy
ドメイン内
Macro precision
交差ドメイン
Accuracy
交差ドメイン
Macro precision
BoW(NBEM) 0.76 0.30
BoW(SVM) 0.92 0.43
BoWV 0.86 0.71 0.62 0.46
BoWV+NER 0.86 0.71 0.64 0.46
BoWV+
NER+Weight 0.86 0.79 0.63 0.47
BoWV-GraRep+
NER+Weight 0.85 0.70 0.72 0.49
BoWV+NER+Weig
ht+Corpus 0.84 0.77 0.68 0.55

▶TOPICS
評価実験
～分類器の比較～
• 交差ドメイン学習で用いられるデータセット間において共通単語が約1 − 2 割しかな
い
• 学習フェーズと予測フェーズでは大半の単語の情報をうまく利用されていないため，
BoW が特徴量として有効に機能しないと考えられる
製品A 製品B 製品C ブランドD
製品A 1.00 0.24 0.23 0.10
製品B - 1.00 0.24 0.11
製品C - - 1.00 0.11
ブランドD - - - 1.00
データセット間での単語共有割合

▶TOPICS
評価実験
～特徴量の比較～
• 特徴量比較
• NBEM はドメイン内学習，交差ドメイン学習共にaccuracy がSVM に劣っている
ドメイン内
Accuracy
ドメイン内
Macro precision
交差ドメイン
Accuracy
交差ドメイン
Macro precision
BoW(NBEM) 0.76 0.30
BoW(SVM) 0.92 0.43
BoWV 0.86 0.71 0.62 0.46
BoWV+NER 0.86 0.71 0.64 0.46
BoWV+
NER+Weight 0.86 0.79 0.63 0.47
BoWV-GraRep+
NER+Weight 0.85 0.70 0.72 0.49
BoWV+NER+Weig
ht+Corpus 0.84 0.77 0.68 0.55

▶TOPICS
評価実験
～経験的な工夫の比較～
• 固有表現の認識
• BoWV ＋ NER BoWV と比べて，有意な精度の変化は見られないため，精度向上に殆
ど寄与しないと言えるだろう．
• 重みの調整
• ドメイン内macro precision が0.71 → 0.79 と向上していることから、ドメイン内学習に
ついて，accuracy を保ちながらmacro precision を高める効果があると考えられる．
ドメイン内
Accuracy
ドメイン内
Macro precision
交差ドメイン
Accuracy
交差ドメイン
Macro precision
BoW(NBEM) 0.76 0.30
BoW(SVM) 0.92 0.43
BoWV 0.86 0.71 0.62 0.46
BoWV+NER 0.86 0.71 0.64 0.46
BoWV+
NER+Weight 0.86 0.79 0.63 0.47
BoWV-GraRep+
NER+Weight 0.85 0.70 0.72 0.49
BoWV+NER+Weig
ht+Corpus 0.84 0.77 0.68 0.55

▶TOPICS
評価実験
～経験的な工夫の比較～
• 単語分散表現の違い
• GraRep を用いることで交差ドメイン学習においてより精度を向上させることが可
能になると言えるだろう．ただし、大規模データへの適用は困難
ドメイン内
Accuracy
ドメイン内
Macro precision
交差ドメイン
Accuracy
交差ドメイン
Macro precision
BoW(NBEM) 0.76 0.30
BoW(SVM) 0.92 0.43
BoWV 0.86 0.71 0.62 0.46
BoWV+NER 0.86 0.71 0.64 0.46
BoWV+
NER+Weight 0.86 0.79 0.63 0.47
BoWV-GraRep+
NER+Weight 0.85 0.70 0.72 0.49
BoWV+NER+Weig
ht+Corpus 0.84 0.77 0.68 0.55

▶TOPICS
評価実験
～単語ベクトル（分散表現）学習データの比較～
• 分散表現学習データの違い
• 分散表現のコーパスを大規模化することで、ドメイン内学習の精度を維持しつつ、交差ドメ
イン学習の精度向上を実現した
ドメイン内
Accuracy
ドメイン内
Macro precision
交差ドメイン
Accuracy
交差ドメイン
Macro precision
BoW(NBEM) 0.76 0.30
BoW(SVM) 0.92 0.43
BoWV 0.86 0.71 0.62 0.46
BoWV+NER 0.86 0.71 0.64 0.46
BoWV+NER+Weig
ht 0.86 0.79 0.63 0.47
BoWV-GraRep+
NER+Weight 0.85 0.70 0.72 0.49
BoWV+NER+Weig
ht+Corpus 0.84 0.77 0.68 0.55

▶TOPICS 考察
• 分類器
• SVMとNBEMを比較すると、SVMが優位であった
• SVMで目的とする精度を達成することができた
• 特徴量
• BoWよりもBoWVの方が、領域適応に適している
• 分散表現の学習のコーパスの大規模化が、交差ドメイン学習の精度向
上に貢献
• 経験的な工夫
• SVMにおけるクラス毎の重み調整が、ドメイン内学習の精度向上に貢献

▶TOPICS おわりに
• インバウンドレポートを作成するための支援ツールとして，中国語ソーシャルメディ
アを対象とした投稿分類システムを構築
• 高い精度を目的とするのではなく、「より低い計算コストで実用的な精度を実現す
る」ことを目的とした
• 目的と精度を達成するために必要な要素を明らかにし，それらにより実用的なコス
トが得られることを評価実験により検証した．
• 分類器の精度向上において、優先的に行うべき工夫を明らかにした

▶TOPICS おわりに
機械学習を用いて文書分類器を構築する際に、
どの工夫を優先的に行うべきか？
対象言語に対する理解が低い状態で、
実用的な分類器を作成することができるのか？
•SVM、単語分散表現（word2vec）の適用
•小規模データの場合はGraRepを用いる
•単語分散表現の学習用コーパスの整備
分かち書き(形態素解析）が実現できれば、それ以降は言語依存の知識を
用いなくても、実用的な精度が得られる

レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築公開版

Recommended

Recommended

More Related Content

Similar to レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築公開版

Similar to レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築公開版 (20)