SlideShare a Scribd company logo
レポート作成業務支援のための
中国語ソーシャルメディア
投稿分類システムの構築
第9回テキストマイニング・シンポジウム 2016年9月8日
株式会社ホットリンク
R&Dグループ
榊 剛史 水木 栄 セーヨーサンティ
Copyright© Hottolink, Inc.
▶TOPICS 背景
中国人観光客のインバウンド消費動向を、中国ソーシャル・ビッグデータの
リアルタイム分析により毎週レポート。
■中国の人が春節の本旅行中に買ったモノランキング日
Copyright© Hottolink, Inc.
▶TOPICS 背景
Copyright© Hottolink, Inc.
▶TOPICS 背景
Copyright© Hottolink, Inc.
▶TOPICS
• さ
背景
単に商品名を含む投稿を収集するだけでなく、収集した投稿を
分析の観点から分類・集計する必要がある
製品情報 販売情報 キャンペーン関連 メディア推薦 使用感想
商品に言及した投稿の分類例
Copyright© Hottolink, Inc.
▶TOPICS 背景
• さ• 現状
– 商品を含む投稿を収集した後,与えられたカテゴリに人手
で分類している
• 問題点
– カスタマイズされたレポートを作成する人的リソースが足
りない
– レポート作成にかかるコストが大きい
– 分類のカテゴリ自体は状況によって変わる可能性がある
機械学習技術を用いて、多様なカテゴリ分類に適応しつつ、
投稿のカテゴリ分類コストを削減する
Copyright© Hottolink, Inc.
▶TOPICS 背景
• その他の問題意識
機械学習を用いて文書分類器を構築する際に、
どの工夫を優先的に行うべきか?
対象言語に対する理解が低い状態で、
実用的な分類器を作成することができるのか?
学習手法、特徴量の作り方、経験的な工夫・・・・
分類器作成のパラメータは多数ある
#微博橱窗#日本花王卫生巾搬运工在此,工农阶级万岁!|微博橱窗-...
→ # 微博 橱窗 # 日本 花王 卫生巾 搬运工 在此 , 工农 阶级 万岁 ! | 微博 橱窗 - ...
日本本土直邮大王尿不湿,拉拉裤,需要的➕微信 还有花王,尤妮佳!!!
→ 日本 本土 直 邮 大王 尿不湿 , 拉拉裤 , 需要 的 ➕ 微信 还有 花王 , 尤妮佳 ! ! !
Copyright© Hottolink, Inc.
▶TOPICS 提案システム
• 目的
• 特徴
• 要件
Weibo上から,特定の商品に言及した文書を収集した後,それ
らを与えられたクラスに分類する
ユーザが分類クラスおよび学習データを設定できる点
顧客ニーズによって、必要な分類カテゴリが変わる可能性があるため
分類対象文書と分類器の学習データのドメインが異なることを
想定している点
新商品や未知の企業について分類が必要になる際は、領域適応が必要
ドメイン内分類(学習データと同じドメインでの分類) 精度 ≧ 0.8
交差ドメイン学習(学習データと異なるドメインでの分類) 精度 ≧ 0.6
Copyright© Hottolink, Inc.
▶TOPICS 提案システム
ユーザが分類クラスおよび学習データを設定
製品情報 販売情報 キャンペーン関連 メディア推薦 使用感想
分類クラスの例
その1
過去の行動 現在の行動 未来の予定・希望
その2
分析したい内容によって、必要な分類クラスが異なる
Copyright© Hottolink, Inc.
▶TOPICS
分類対象文書と分類器の学習データのドメインが異なる場合
既存の商品A
学習データ
商品A
分類モデル
分類器
商品A
分類モデル
分類器
学習フェーズ
運用フェーズ
既存の商品A
テストデータ
新商品B
分類結果
分類結果
未知のドメインのデータ分類する必要は、少なく無い頻度で起き得る
Copyright© Hottolink, Inc.
▶TOPICS 提案システム
使用感想 製品情報 販売情報
想把好东西分享给你。
…
使用感想
#日本海淘代购#… 製品情報
データセット3
データセット2
データセット1
分類器Y
使用感想 製品情報
分類器X
データセット3
分類器Y#香港代購#秋冬必备… ?
【现货】日本代购… ?
#香港代購#秋冬必
备…
販売情
報
【现货】日本代购
…
販売情
報
1. 分類クラスを定義
2. 分類済みデータを
アップロード
3. 分類器を
オンデマンド構築
4. 内容分類を
実施
未分類データセット
ブラウザ up
ブラウザ 指定
ブラウザ 条件指定
ブラウザ up 担当者
確認
dl
バッチ処理
(on HTL server)
択一
Copyright© Hottolink, Inc.
▶TOPICS 提案システム
使用感想 製品情報 販売情報
想把好东西分享给你。
…
使用感想
#日本海淘代购#… 製品情報
データセット3
データセット2
データセット1
分類器Y
使用感想 製品情報
分類器X
データセット3
分類器Y#香港代購#秋冬必备… ?
【现货】日本代购… ?
#香港代購#秋冬必
备…
販売情
報
【现货】日本代购
…
販売情
報
1. 分類クラスを定義
2. 分類済みデータを
アップロード
3. 分類器を
オンデマンド構築
4. 内容分類を
実施
未分類データセット
ブラウザ up
ブラウザ 指定
ブラウザ 条件指定
ブラウザ up 担当者
確認
dl
バッチ処理
(on HTL server)
択一
Copyright© Hottolink, Inc.
▶TOPICS 提案システムのパラメータ
• 使用する分類器
• Naïve Bayes EM Algorithm(NBEM)
• Linear Support Vector Machine(SVM)
• 特徴量
• Bag of Words(BoW)
• Bag of Word Vectors
• 手法
• word2vec(BoWV)
• GraRep(BoWV-GraRep)
• 単語ベクトル(分散表現)学習用データ
• 学習データをそのまま利用
• 大規模コーパス
• 経験的な工夫
• 固有表現の認識(NER)
• サンプル数の違いによるクラス毎の重みの調整(Weight)
目的とする精度を,低い計算コストで実現できる組み合わせを明らかにする
Copyright© Hottolink, Inc.
▶TOPICS 提案システムのパラメータ
• Naïve Bayes EM Algorithm(NBEM)
• 入力Xが与えられた時にYである確率を元に、分類クラスを決定する
• 例:投稿に投価格表現が含まれる→「販売情報」であると推測される
• 多クラス分類に用いられることが多い
• NBEMは、領域適応に強いとされる
• Support Vector Machine
• 教師あり学習のデファクトスタンダード
• 2クラス分類によく用いられる
使用する分類器
※領域適応(domain adaptation)
ある領域で学習されたモデルを、異なる領域に適応させること
例:「紙おむつ」で学習したモデル → 「化粧品」の投稿を分類
Copyright© Hottolink, Inc.
▶TOPICS 提案システムのパラメータ
• Bag of Words(BoW)
• ある文書を、そこに含まれる単語集合で表現する
• 例:#微博橱窗#日本花王卫生巾搬运工在此,工农阶级万岁!|微博橱窗-...
=> # 微博 橱窗 # 日本 花王 卫生巾 搬运工 在此 , 工农 阶级 万岁 ! | 微博
橱窗 - ...
使用する特徴量
Copyright© Hottolink, Inc.
▶TOPICS 提案システムのパラメータ
• Bag of Word Vectors
• 単語分散表現:単語をn次元のベクトルで表現する
• 文ベクトル:含まれる単語ベクトルの次元ごとの平均値で表現する
• 手法
• word2vec(BoWV)
• GraRep(BoWV-GraRep)
• データセット(事前学習)
• 分類器学習用のデータ
• 大規模データセット(Corpus)
• 中国語Wikipedia等のオープンデータ
によるコーパス
• 弊社がWebから収集したニュース記事等
使用する特徴量
Copyright© Hottolink, Inc.
▶TOPICS 提案システムのパラメータ
• 固有表現の認識(NER)
• URL,値段,商品のサイズ,販売単位といったルールベース(正規表現)で抽出
• クラス毎の重みの調整(Weight)
• 各クラスのデータサイズが不均等→分類精度の低下の可能性
• 学習データのサイズに基づいて各クラスの重みを調整
𝑙𝑙 𝑚𝑚𝑒𝑒𝑒𝑒𝑒𝑒: 分類クラスのサンプル数の平均
𝑙𝑙 𝑚𝑚𝑚𝑚 𝑚𝑚: 分類クラスのサンプル数の最小値
𝑙𝑙max: 分類クラスのサンプル数の最大値
𝑐𝑐𝑖𝑖: クラス𝑖𝑖のサンプル数
クラス𝑖𝑖の重み𝑤𝑤𝑖𝑖 = log 10 + 𝑎𝑎𝑎𝑎𝑎𝑎 𝑐𝑐𝑖𝑖 − 𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 �
𝑙𝑙 𝑚𝑚 𝑚𝑚𝑚𝑚−𝑙𝑙 𝑚𝑚𝑚𝑚 𝑚𝑚
𝑐𝑐𝑖𝑖
34cm → <size> 10品牌→ <quant> http://t.cn/RUeePJl→ <URL>
経験的な工夫
Copyright© Hottolink, Inc.
▶TOPICS 評価実験
• データセット
• 分類クラス
ID セット名 ツイート数
A 製品A(生理用品) 12,407
B 製品B(蒸気アイマスク) 5,516
C 製品C(小児用紙おむつ) 6,526
D ブランドD (化粧品ブランド) 87,387
ID クラス名
1 製品情報
2 販売情報
3 キャンペーン関連
4 メディア推薦
5 使用感想
Copyright© Hottolink, Inc.
▶TOPICS
評価実験
~分類器の比較~
• 分類器比較
• NBEM はドメイン内学習,交差ドメイン学習共にaccuracy がSVM に劣っている
ドメイン内
Accuracy
ドメイン内
Macro precision
交差ドメイン
Accuracy
交差ドメイン
Macro precision
BoW(NBEM) 0.76 0.30
BoW(SVM) 0.92 0.43
BoWV 0.86 0.71 0.62 0.46
BoWV+NER 0.86 0.71 0.64 0.46
BoWV+
NER+Weight 0.86 0.79 0.63 0.47
BoWV-GraRep+
NER+Weight 0.85 0.70 0.72 0.49
BoWV+NER+Weig
ht+Corpus 0.84 0.77 0.68 0.55
Copyright© Hottolink, Inc.
▶TOPICS
評価実験
~分類器の比較~
• 交差ドメイン学習で用いられるデータセット間において共通単語が約1 − 2 割しかな
い
• 学習フェーズと予測フェーズでは大半の単語の情報をうまく利用されていないため,
BoW が特徴量として有効に機能しないと考えられる
製品A 製品B 製品C ブランドD
製品A 1.00 0.24 0.23 0.10
製品B - 1.00 0.24 0.11
製品C - - 1.00 0.11
ブランドD - - - 1.00
データセット間での単語共有割合
Copyright© Hottolink, Inc.
▶TOPICS
評価実験
~特徴量の比較~
• 特徴量比較
• NBEM はドメイン内学習,交差ドメイン学習共にaccuracy がSVM に劣っている
ドメイン内
Accuracy
ドメイン内
Macro precision
交差ドメイン
Accuracy
交差ドメイン
Macro precision
BoW(NBEM) 0.76 0.30
BoW(SVM) 0.92 0.43
BoWV 0.86 0.71 0.62 0.46
BoWV+NER 0.86 0.71 0.64 0.46
BoWV+
NER+Weight 0.86 0.79 0.63 0.47
BoWV-GraRep+
NER+Weight 0.85 0.70 0.72 0.49
BoWV+NER+Weig
ht+Corpus 0.84 0.77 0.68 0.55
Copyright© Hottolink, Inc.
▶TOPICS
評価実験
~経験的な工夫の比較~
• 固有表現の認識
• BoWV + NER BoWV と比べて,有意な精度の変化は見られないため,精度向上に殆
ど寄与しないと言えるだろう.
• 重みの調整
• ドメイン内macro precision が0.71 → 0.79 と向上していることから、ドメイン内学習に
ついて,accuracy を保ちながらmacro precision を高める効果があると考えられる.
ドメイン内
Accuracy
ドメイン内
Macro precision
交差ドメイン
Accuracy
交差ドメイン
Macro precision
BoW(NBEM) 0.76 0.30
BoW(SVM) 0.92 0.43
BoWV 0.86 0.71 0.62 0.46
BoWV+NER 0.86 0.71 0.64 0.46
BoWV+
NER+Weight 0.86 0.79 0.63 0.47
BoWV-GraRep+
NER+Weight 0.85 0.70 0.72 0.49
BoWV+NER+Weig
ht+Corpus 0.84 0.77 0.68 0.55
Copyright© Hottolink, Inc.
▶TOPICS
評価実験
~経験的な工夫の比較~
• 単語分散表現の違い
• GraRep を用いることで交差ドメイン学習においてより精度を向上させることが可
能になると言えるだろう.ただし、大規模データへの適用は困難
ドメイン内
Accuracy
ドメイン内
Macro precision
交差ドメイン
Accuracy
交差ドメイン
Macro precision
BoW(NBEM) 0.76 0.30
BoW(SVM) 0.92 0.43
BoWV 0.86 0.71 0.62 0.46
BoWV+NER 0.86 0.71 0.64 0.46
BoWV+
NER+Weight 0.86 0.79 0.63 0.47
BoWV-GraRep+
NER+Weight 0.85 0.70 0.72 0.49
BoWV+NER+Weig
ht+Corpus 0.84 0.77 0.68 0.55
Copyright© Hottolink, Inc.
▶TOPICS
評価実験
~単語ベクトル(分散表現) 学習データの比較~
• 分散表現学習データの違い
• 分散表現のコーパスを大規模化することで、ドメイン内学習の精度を維持しつつ、交差ドメ
イン学習の精度向上を実現した
ドメイン内
Accuracy
ドメイン内
Macro precision
交差ドメイン
Accuracy
交差ドメイン
Macro precision
BoW(NBEM) 0.76 0.30
BoW(SVM) 0.92 0.43
BoWV 0.86 0.71 0.62 0.46
BoWV+NER 0.86 0.71 0.64 0.46
BoWV+NER+Weig
ht 0.86 0.79 0.63 0.47
BoWV-GraRep+
NER+Weight 0.85 0.70 0.72 0.49
BoWV+NER+Weig
ht+Corpus 0.84 0.77 0.68 0.55
Copyright© Hottolink, Inc.
▶TOPICS 考察
• 分類器
• SVMとNBEMを比較すると、SVMが優位であった
• SVMで目的とする精度を達成することができた
• 特徴量
• BoWよりもBoWVの方が、領域適応に適している
• 分散表現の学習のコーパスの大規模化が、交差ドメイン学習の精度向
上に貢献
• 経験的な工夫
• SVMにおけるクラス毎の重み調整が、ドメイン内学習の精度向上に貢献
Copyright© Hottolink, Inc.
▶TOPICS おわりに
• インバウンドレポートを作成するための支援ツールとして,中国語ソーシャルメディ
アを対象とした投稿分類システムを構築
• 高い精度を目的とするのではなく、「より低い計算コストで実用的な精度を実現す
る」ことを目的とした
• 目的と精度を達成するために必要な要素を明らかにし,それらにより実用的なコス
トが得られることを評価実験により検証した.
• 分類器の精度向上において、優先的に行うべき工夫を明らかにした
Copyright© Hottolink, Inc.
▶TOPICS おわりに
機械学習を用いて文書分類器を構築する際に、
どの工夫を優先的に行うべきか?
対象言語に対する理解が低い状態で、
実用的な分類器を作成することができるのか?
•SVM、単語分散表現(word2vec)の適用
•小規模データの場合はGraRepを用いる
•単語分散表現の学習用コーパスの整備
分かち書き(形態素解析)が実現できれば、それ以降は言語依存の知識を
用いなくても、実用的な精度が得られる

More Related Content

Similar to レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築 公開版

#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法
Yasushi Hara
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
kan_yukiko
 
Cognos reportauthoring a10_promptfix
Cognos reportauthoring a10_promptfixCognos reportauthoring a10_promptfix
Cognos reportauthoring a10_promptfix
Shinsuke Yamamoto
 
データフィードマーケティング概要
データフィードマーケティング概要データフィードマーケティング概要
データフィードマーケティング概要
Go Sugihara
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
CROSSHACK, Inc.
 
20180730 ds womens
20180730 ds womens20180730 ds womens
20180730 ds womens
Rio Kurihara
 
【KSKアナリティクス】Pentaho紹介
【KSKアナリティクス】Pentaho紹介【KSKアナリティクス】Pentaho紹介
【KSKアナリティクス】Pentaho紹介
KSK Analytics Inc.
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
Sho Nakamura
 
コンテンツマーケティング提案資料
コンテンツマーケティング提案資料コンテンツマーケティング提案資料
コンテンツマーケティング提案資料
Kodai Aiba
 
Boommap main
Boommap mainBoommap main
Boommap main
agilemedia
 
福井解析セミナー20140326
福井解析セミナー20140326福井解析セミナー20140326
福井解析セミナー20140326
Aマーケティング合同会社
 
ウフル ソーシャルリスニング紹介資料
ウフル ソーシャルリスニング紹介資料ウフル ソーシャルリスニング紹介資料
ウフル ソーシャルリスニング紹介資料
uhuru_jp
 
Localyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイントLocalyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイントLocalyticsJP
 
Localyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイントLocalyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイントHiromitsu Ishimori
 
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
オラクルエンジニア通信
 
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろうユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
izumi ito
 
Cognos reportauthoring a12_bookmark
Cognos reportauthoring a12_bookmarkCognos reportauthoring a12_bookmark
Cognos reportauthoring a12_bookmark
Shinsuke Yamamoto
 
ナレッジ共有ベース業務スタイル変革ソリューションKCUBE
ナレッジ共有ベース業務スタイル変革ソリューションKCUBEナレッジ共有ベース業務スタイル変革ソリューションKCUBE
ナレッジ共有ベース業務スタイル変革ソリューションKCUBE
Erin Kim
 

Similar to レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築 公開版 (20)

#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
 
Cognos reportauthoring a10_promptfix
Cognos reportauthoring a10_promptfixCognos reportauthoring a10_promptfix
Cognos reportauthoring a10_promptfix
 
データフィードマーケティング概要
データフィードマーケティング概要データフィードマーケティング概要
データフィードマーケティング概要
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
20180730 ds womens
20180730 ds womens20180730 ds womens
20180730 ds womens
 
サービス紹介|myアンケート
サービス紹介|myアンケートサービス紹介|myアンケート
サービス紹介|myアンケート
 
【KSKアナリティクス】Pentaho紹介
【KSKアナリティクス】Pentaho紹介【KSKアナリティクス】Pentaho紹介
【KSKアナリティクス】Pentaho紹介
 
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
 
コンテンツマーケティング提案資料
コンテンツマーケティング提案資料コンテンツマーケティング提案資料
コンテンツマーケティング提案資料
 
Boommap main
Boommap mainBoommap main
Boommap main
 
福井解析セミナー20140326
福井解析セミナー20140326福井解析セミナー20140326
福井解析セミナー20140326
 
ウフル ソーシャルリスニング紹介資料
ウフル ソーシャルリスニング紹介資料ウフル ソーシャルリスニング紹介資料
ウフル ソーシャルリスニング紹介資料
 
Localyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイントLocalyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイント
 
Localyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイントLocalyticsを活用したアプリ解析事例と分析のポイント
Localyticsを活用したアプリ解析事例と分析のポイント
 
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例
 
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろうユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
ユーザーストーリーマッピングを使ってプロダクトバックログを作ろう
 
Cognos reportauthoring a12_bookmark
Cognos reportauthoring a12_bookmarkCognos reportauthoring a12_bookmark
Cognos reportauthoring a12_bookmark
 
ナレッジ共有ベース業務スタイル変革ソリューションKCUBE
ナレッジ共有ベース業務スタイル変革ソリューションKCUBEナレッジ共有ベース業務スタイル変革ソリューションKCUBE
ナレッジ共有ベース業務スタイル変革ソリューションKCUBE
 

レポート作成業務支援のための中国語ソーシャルメディア投稿分類システムの構築 公開版

  • 2. Copyright© Hottolink, Inc. ▶TOPICS 背景 中国人観光客のインバウンド消費動向を、中国ソーシャル・ビッグデータの リアルタイム分析により毎週レポート。 ■中国の人が春節の本旅行中に買ったモノランキング日
  • 5. Copyright© Hottolink, Inc. ▶TOPICS • さ 背景 単に商品名を含む投稿を収集するだけでなく、収集した投稿を 分析の観点から分類・集計する必要がある 製品情報 販売情報 キャンペーン関連 メディア推薦 使用感想 商品に言及した投稿の分類例
  • 6. Copyright© Hottolink, Inc. ▶TOPICS 背景 • さ• 現状 – 商品を含む投稿を収集した後,与えられたカテゴリに人手 で分類している • 問題点 – カスタマイズされたレポートを作成する人的リソースが足 りない – レポート作成にかかるコストが大きい – 分類のカテゴリ自体は状況によって変わる可能性がある 機械学習技術を用いて、多様なカテゴリ分類に適応しつつ、 投稿のカテゴリ分類コストを削減する
  • 7. Copyright© Hottolink, Inc. ▶TOPICS 背景 • その他の問題意識 機械学習を用いて文書分類器を構築する際に、 どの工夫を優先的に行うべきか? 対象言語に対する理解が低い状態で、 実用的な分類器を作成することができるのか? 学習手法、特徴量の作り方、経験的な工夫・・・・ 分類器作成のパラメータは多数ある #微博橱窗#日本花王卫生巾搬运工在此,工农阶级万岁!|微博橱窗-... → # 微博 橱窗 # 日本 花王 卫生巾 搬运工 在此 , 工农 阶级 万岁 ! | 微博 橱窗 - ... 日本本土直邮大王尿不湿,拉拉裤,需要的➕微信 还有花王,尤妮佳!!! → 日本 本土 直 邮 大王 尿不湿 , 拉拉裤 , 需要 的 ➕ 微信 还有 花王 , 尤妮佳 ! ! !
  • 8. Copyright© Hottolink, Inc. ▶TOPICS 提案システム • 目的 • 特徴 • 要件 Weibo上から,特定の商品に言及した文書を収集した後,それ らを与えられたクラスに分類する ユーザが分類クラスおよび学習データを設定できる点 顧客ニーズによって、必要な分類カテゴリが変わる可能性があるため 分類対象文書と分類器の学習データのドメインが異なることを 想定している点 新商品や未知の企業について分類が必要になる際は、領域適応が必要 ドメイン内分類(学習データと同じドメインでの分類) 精度 ≧ 0.8 交差ドメイン学習(学習データと異なるドメインでの分類) 精度 ≧ 0.6
  • 9. Copyright© Hottolink, Inc. ▶TOPICS 提案システム ユーザが分類クラスおよび学習データを設定 製品情報 販売情報 キャンペーン関連 メディア推薦 使用感想 分類クラスの例 その1 過去の行動 現在の行動 未来の予定・希望 その2 分析したい内容によって、必要な分類クラスが異なる
  • 11. Copyright© Hottolink, Inc. ▶TOPICS 提案システム 使用感想 製品情報 販売情報 想把好东西分享给你。 … 使用感想 #日本海淘代购#… 製品情報 データセット3 データセット2 データセット1 分類器Y 使用感想 製品情報 分類器X データセット3 分類器Y#香港代購#秋冬必备… ? 【现货】日本代购… ? #香港代購#秋冬必 备… 販売情 報 【现货】日本代购 … 販売情 報 1. 分類クラスを定義 2. 分類済みデータを アップロード 3. 分類器を オンデマンド構築 4. 内容分類を 実施 未分類データセット ブラウザ up ブラウザ 指定 ブラウザ 条件指定 ブラウザ up 担当者 確認 dl バッチ処理 (on HTL server) 択一
  • 12. Copyright© Hottolink, Inc. ▶TOPICS 提案システム 使用感想 製品情報 販売情報 想把好东西分享给你。 … 使用感想 #日本海淘代购#… 製品情報 データセット3 データセット2 データセット1 分類器Y 使用感想 製品情報 分類器X データセット3 分類器Y#香港代購#秋冬必备… ? 【现货】日本代购… ? #香港代購#秋冬必 备… 販売情 報 【现货】日本代购 … 販売情 報 1. 分類クラスを定義 2. 分類済みデータを アップロード 3. 分類器を オンデマンド構築 4. 内容分類を 実施 未分類データセット ブラウザ up ブラウザ 指定 ブラウザ 条件指定 ブラウザ up 担当者 確認 dl バッチ処理 (on HTL server) 択一
  • 13. Copyright© Hottolink, Inc. ▶TOPICS 提案システムのパラメータ • 使用する分類器 • Naïve Bayes EM Algorithm(NBEM) • Linear Support Vector Machine(SVM) • 特徴量 • Bag of Words(BoW) • Bag of Word Vectors • 手法 • word2vec(BoWV) • GraRep(BoWV-GraRep) • 単語ベクトル(分散表現)学習用データ • 学習データをそのまま利用 • 大規模コーパス • 経験的な工夫 • 固有表現の認識(NER) • サンプル数の違いによるクラス毎の重みの調整(Weight) 目的とする精度を,低い計算コストで実現できる組み合わせを明らかにする
  • 14. Copyright© Hottolink, Inc. ▶TOPICS 提案システムのパラメータ • Naïve Bayes EM Algorithm(NBEM) • 入力Xが与えられた時にYである確率を元に、分類クラスを決定する • 例:投稿に投価格表現が含まれる→「販売情報」であると推測される • 多クラス分類に用いられることが多い • NBEMは、領域適応に強いとされる • Support Vector Machine • 教師あり学習のデファクトスタンダード • 2クラス分類によく用いられる 使用する分類器 ※領域適応(domain adaptation) ある領域で学習されたモデルを、異なる領域に適応させること 例:「紙おむつ」で学習したモデル → 「化粧品」の投稿を分類
  • 15. Copyright© Hottolink, Inc. ▶TOPICS 提案システムのパラメータ • Bag of Words(BoW) • ある文書を、そこに含まれる単語集合で表現する • 例:#微博橱窗#日本花王卫生巾搬运工在此,工农阶级万岁!|微博橱窗-... => # 微博 橱窗 # 日本 花王 卫生巾 搬运工 在此 , 工农 阶级 万岁 ! | 微博 橱窗 - ... 使用する特徴量
  • 16. Copyright© Hottolink, Inc. ▶TOPICS 提案システムのパラメータ • Bag of Word Vectors • 単語分散表現:単語をn次元のベクトルで表現する • 文ベクトル:含まれる単語ベクトルの次元ごとの平均値で表現する • 手法 • word2vec(BoWV) • GraRep(BoWV-GraRep) • データセット(事前学習) • 分類器学習用のデータ • 大規模データセット(Corpus) • 中国語Wikipedia等のオープンデータ によるコーパス • 弊社がWebから収集したニュース記事等 使用する特徴量
  • 17. Copyright© Hottolink, Inc. ▶TOPICS 提案システムのパラメータ • 固有表現の認識(NER) • URL,値段,商品のサイズ,販売単位といったルールベース(正規表現)で抽出 • クラス毎の重みの調整(Weight) • 各クラスのデータサイズが不均等→分類精度の低下の可能性 • 学習データのサイズに基づいて各クラスの重みを調整 𝑙𝑙 𝑚𝑚𝑒𝑒𝑒𝑒𝑒𝑒: 分類クラスのサンプル数の平均 𝑙𝑙 𝑚𝑚𝑚𝑚 𝑚𝑚: 分類クラスのサンプル数の最小値 𝑙𝑙max: 分類クラスのサンプル数の最大値 𝑐𝑐𝑖𝑖: クラス𝑖𝑖のサンプル数 クラス𝑖𝑖の重み𝑤𝑤𝑖𝑖 = log 10 + 𝑎𝑎𝑎𝑎𝑎𝑎 𝑐𝑐𝑖𝑖 − 𝑙𝑙 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 � 𝑙𝑙 𝑚𝑚 𝑚𝑚𝑚𝑚−𝑙𝑙 𝑚𝑚𝑚𝑚 𝑚𝑚 𝑐𝑐𝑖𝑖 34cm → <size> 10品牌→ <quant> http://t.cn/RUeePJl→ <URL> 経験的な工夫
  • 18. Copyright© Hottolink, Inc. ▶TOPICS 評価実験 • データセット • 分類クラス ID セット名 ツイート数 A 製品A(生理用品) 12,407 B 製品B(蒸気アイマスク) 5,516 C 製品C(小児用紙おむつ) 6,526 D ブランドD (化粧品ブランド) 87,387 ID クラス名 1 製品情報 2 販売情報 3 キャンペーン関連 4 メディア推薦 5 使用感想
  • 19. Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~分類器の比較~ • 分類器比較 • NBEM はドメイン内学習,交差ドメイン学習共にaccuracy がSVM に劣っている ドメイン内 Accuracy ドメイン内 Macro precision 交差ドメイン Accuracy 交差ドメイン Macro precision BoW(NBEM) 0.76 0.30 BoW(SVM) 0.92 0.43 BoWV 0.86 0.71 0.62 0.46 BoWV+NER 0.86 0.71 0.64 0.46 BoWV+ NER+Weight 0.86 0.79 0.63 0.47 BoWV-GraRep+ NER+Weight 0.85 0.70 0.72 0.49 BoWV+NER+Weig ht+Corpus 0.84 0.77 0.68 0.55
  • 20. Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~分類器の比較~ • 交差ドメイン学習で用いられるデータセット間において共通単語が約1 − 2 割しかな い • 学習フェーズと予測フェーズでは大半の単語の情報をうまく利用されていないため, BoW が特徴量として有効に機能しないと考えられる 製品A 製品B 製品C ブランドD 製品A 1.00 0.24 0.23 0.10 製品B - 1.00 0.24 0.11 製品C - - 1.00 0.11 ブランドD - - - 1.00 データセット間での単語共有割合
  • 21. Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~特徴量の比較~ • 特徴量比較 • NBEM はドメイン内学習,交差ドメイン学習共にaccuracy がSVM に劣っている ドメイン内 Accuracy ドメイン内 Macro precision 交差ドメイン Accuracy 交差ドメイン Macro precision BoW(NBEM) 0.76 0.30 BoW(SVM) 0.92 0.43 BoWV 0.86 0.71 0.62 0.46 BoWV+NER 0.86 0.71 0.64 0.46 BoWV+ NER+Weight 0.86 0.79 0.63 0.47 BoWV-GraRep+ NER+Weight 0.85 0.70 0.72 0.49 BoWV+NER+Weig ht+Corpus 0.84 0.77 0.68 0.55
  • 22. Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~経験的な工夫の比較~ • 固有表現の認識 • BoWV + NER BoWV と比べて,有意な精度の変化は見られないため,精度向上に殆 ど寄与しないと言えるだろう. • 重みの調整 • ドメイン内macro precision が0.71 → 0.79 と向上していることから、ドメイン内学習に ついて,accuracy を保ちながらmacro precision を高める効果があると考えられる. ドメイン内 Accuracy ドメイン内 Macro precision 交差ドメイン Accuracy 交差ドメイン Macro precision BoW(NBEM) 0.76 0.30 BoW(SVM) 0.92 0.43 BoWV 0.86 0.71 0.62 0.46 BoWV+NER 0.86 0.71 0.64 0.46 BoWV+ NER+Weight 0.86 0.79 0.63 0.47 BoWV-GraRep+ NER+Weight 0.85 0.70 0.72 0.49 BoWV+NER+Weig ht+Corpus 0.84 0.77 0.68 0.55
  • 23. Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~経験的な工夫の比較~ • 単語分散表現の違い • GraRep を用いることで交差ドメイン学習においてより精度を向上させることが可 能になると言えるだろう.ただし、大規模データへの適用は困難 ドメイン内 Accuracy ドメイン内 Macro precision 交差ドメイン Accuracy 交差ドメイン Macro precision BoW(NBEM) 0.76 0.30 BoW(SVM) 0.92 0.43 BoWV 0.86 0.71 0.62 0.46 BoWV+NER 0.86 0.71 0.64 0.46 BoWV+ NER+Weight 0.86 0.79 0.63 0.47 BoWV-GraRep+ NER+Weight 0.85 0.70 0.72 0.49 BoWV+NER+Weig ht+Corpus 0.84 0.77 0.68 0.55
  • 24. Copyright© Hottolink, Inc. ▶TOPICS 評価実験 ~単語ベクトル(分散表現) 学習データの比較~ • 分散表現学習データの違い • 分散表現のコーパスを大規模化することで、ドメイン内学習の精度を維持しつつ、交差ドメ イン学習の精度向上を実現した ドメイン内 Accuracy ドメイン内 Macro precision 交差ドメイン Accuracy 交差ドメイン Macro precision BoW(NBEM) 0.76 0.30 BoW(SVM) 0.92 0.43 BoWV 0.86 0.71 0.62 0.46 BoWV+NER 0.86 0.71 0.64 0.46 BoWV+NER+Weig ht 0.86 0.79 0.63 0.47 BoWV-GraRep+ NER+Weight 0.85 0.70 0.72 0.49 BoWV+NER+Weig ht+Corpus 0.84 0.77 0.68 0.55
  • 25. Copyright© Hottolink, Inc. ▶TOPICS 考察 • 分類器 • SVMとNBEMを比較すると、SVMが優位であった • SVMで目的とする精度を達成することができた • 特徴量 • BoWよりもBoWVの方が、領域適応に適している • 分散表現の学習のコーパスの大規模化が、交差ドメイン学習の精度向 上に貢献 • 経験的な工夫 • SVMにおけるクラス毎の重み調整が、ドメイン内学習の精度向上に貢献
  • 26. Copyright© Hottolink, Inc. ▶TOPICS おわりに • インバウンドレポートを作成するための支援ツールとして,中国語ソーシャルメディ アを対象とした投稿分類システムを構築 • 高い精度を目的とするのではなく、「より低い計算コストで実用的な精度を実現す る」ことを目的とした • 目的と精度を達成するために必要な要素を明らかにし,それらにより実用的なコス トが得られることを評価実験により検証した. • 分類器の精度向上において、優先的に行うべき工夫を明らかにした
  • 27. Copyright© Hottolink, Inc. ▶TOPICS おわりに 機械学習を用いて文書分類器を構築する際に、 どの工夫を優先的に行うべきか? 対象言語に対する理解が低い状態で、 実用的な分類器を作成することができるのか? •SVM、単語分散表現(word2vec)の適用 •小規模データの場合はGraRepを用いる •単語分散表現の学習用コーパスの整備 分かち書き(形態素解析)が実現できれば、それ以降は言語依存の知識を 用いなくても、実用的な精度が得られる