Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

商品レビューのディープラーニングによる分類

476 views

Published on

2016年10月25日に行われた卒業研究の中間発表で使ったスライドです。

Published in: Data & Analytics
  • Be the first to comment

商品レビューのディープラーニングによる分類

  1. 1. 商品レビューの ディープラーニング による分類 岡山理科大学 総合情報学部 情報科学科 井上佳祐(I13I006) 1
  2. 2. アジェンダ 1. 背景 2. 目的 3. データについて 4. 分類について 5. 技術的な概要 6. 学習の評価結果と比較 7. まとめ 8. 今後の予定 2
  3. 3. 背景 • 近年、インターネットの普及やコンピュータの性能の向上のため データの収集やその処理などを行うハードルが下がった • ディープラーニングを含め機械学習を行うための便利なツールやラ イブラリなどが容易に利用できるようになった • 収集した情報や機械学習などの技術を用いて自動的に会話文を 生成し返答するBOTなどが増えた • 商業利用もされてきている 3
  4. 4. 目的 • 本研究では、前ページの背景にある技術の初歩的な機能である 「分類」をおこなうことが目的 • 分類対象は、楽天市場の商品レビューデータ 4
  5. 5. 楽天市場の商品レビューデー タについて(1/2)  2011年7月28日現在のデータ  レビュー数 1297697件 (複数ファイルがあるがとりあえず1ファイル で)  17項目 5 ID データ名 説明 0 投稿者 「user1」のようにマスクしたユーザ名 1 年齢 10歳代など 2 性別 0:男 1:女 2:不明 3 商品コード 店舗コード:商品id 4 商品名 5 店舗名 6 商品URL 商品ページのURLのドメイン以降の部分 7 商品ジャンル ID 商品のジャンルID
  6. 6. 楽天市場の商品レビューデー タについて(2/2) 6 ID データ名 説明 8 商品価格 商品購入時の価格 9 購入フラグ 0:購入なし 1:購入あり 10 内容 「実用品・普段使い」などの文字列 11 目的 「自分用」などの文字列 12 頻度 「はじめて」などの文字列 13 評価ポイント 0-5の6段階評価スコア 14 レビュー タイトル レビューの題名 15 レビュー内容 レビューのコメント 16 レビュー 登録日時 「yyyy/mm/dd HH:MM:SS」
  7. 7. 分類について • 購入者が投稿したレビューデータのコメントをその商品に対する購 入者の評価(星の数)で分類 7
  8. 8. 技術的な概要 • この分類は、ディープラーニングを用いて学習させる • ディープラーニングのアルゴリズムとしてRNN(特にLSTM)を用い る • 楽天市場のレビューデータは内容的には加工せずそのまま用いる • インターネットに公開してあるサンプルデータでの今回の手法によ る分類は、6割の正確性で分類できている • 2クラスへの分類 8
  9. 9. ニューラルネットワーク、 ディープラーニングとは?  ニューラルネットワークとは、生物の脳の神経ネットワークをモデル としたコンピュータ処理の仕組み  ディープラーニングとは、ニューラルネットワークの延長上にあり、 階層を多段階にしたニューラルネットワークを利用したアルゴリズ ムの総称 9 入力層 隠れ層 出力層
  10. 10. RNNとは? • RNNとはRecurrent Neural Networkの略で、可変長のデータを 扱えるようにするために、隠れ層に再帰的な構造をもたせたニュー ラルネットワークを利用したアルゴリズム 10 入力層 隠れ層 出力層
  11. 11. LSTMとは? • LSTMとはLong Short Term Memoryの略で、RNNの一種 • 従来のRNNでは学習できない長期依存が学習可能である 11 LSTM Block 入力層 隠れ層 出力層
  12. 12. LSTM BLOCKについて 12 [参考]わかるLSTM ~ 最近の動向と共に | Qiita http://qiita.com/t_Signull/items/21b82be280b46f467d1b
  13. 13. 実行・開発環境 • OS:Linux Ubuntu16.04 LTS 64bit • CPU:Corei7 6700 • RAM:32GB • GPU:GTX960 2GB • GPGPU:CUDA7.5 • プログラミング言語:Python2.7.12 • 形態素解析器:MeCab0.996 + IPA NEologd 辞書 • ディープラーニングライブラリ:Keras • ディープラーニングフレームワーク:Tensorflow • Kerasのバックエンドで動く 13
  14. 14. LSTMに文を入力 • 文を以下のようなイメージのモデルで学習させたい • 学習データとして「コメント」、教師データとして「評価値」 14 LSTM Block コメント 評価値 入力層 隠れ層 出力層
  15. 15. LSTMに文を単語にして入力 • LSTMに文を直接入力できない • 文を形態素解析器で単語に分解し、単語ごとに入力 • 長期依存の学習が可能なLSTMを使うのはそのため • 例 • 文:とてもよかったです • 評価値:5 • 単語に分解 • 文:「とても」「よかっ」「た」「です」 • 単語にIDを付与 • 1「とても」2「よかっ」3「た」4「です」 • 文は以下のようになる • 「1」「2」「3」「4」 15
  16. 16. LSTMに文を単語にして入力する図 16 LSTM Block LSTM Block LSTM Block LSTM Block 単語 「1」 単語 「2」 単語 「3」 単語 「4」 評価 「5」 入力層 隠れ層 出力層
  17. 17. 学習の評価結果と比較 17 手法 正確に分類できた割合 TF-IDF+SVM(10000文) 60.55% TF-IDF+SVM(50000文) 62.94% TF-IDF+SVM(1297697文) 66.90% 今回の手法(LSTM)(1297697文) 1.67%
  18. 18. まとめ • 今回は、LSTMによる楽天市場のレビューデータ学習および分類 を行った • また、その評価をおこない正確に分類できた割合の算出をし、TF- IDFによる分類での割合と比較した • 学習する文が圧倒的にTF-IDFより多いが、満足いく結果が得られ なかったため工夫が必要 • サンプルデータでは6割の正確性を得られていることから、学習結 果(正確性)は、学習させるデータに影響されやすい 18
  19. 19. 今後の予定 • 形態素解析器を最近流行りのJUMAN++に変更 • 単語の切り方が変わる • 単語をステミング • 活用などを考慮するので、学習する単語数が減る • 単語をWord2Vecでベクトル化しそれをLSTMで学習 • 単語をWord2Vecでベクトル化しそれをCNNで学習 • 商品を購入した人がレビューをする際、コメントから自動的に商品 の評価を行えるようにすることが最終的な目標 19
  20. 20. ご静聴ありがとうございました 20
  21. 21. 質疑応答 21

×