Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

2,218 views

Published on

NLP若手の会 (YANS) 第12回シンポジウムでの口頭発表の資料です.

Published in: Technology
  • Be the first to comment

メルカリにおける 自然言語処理・機械学習の活用について@NLP若手の会2017

  1. 1. NLP若手の会 (YANS) 第12回シンポジウム 株式会社メルカリ 工藤 啓朗 メルカリにおける 自然言語処理・機械学習の活用について
  2. 2. ■ 工藤 啓朗(くどう ひろあき) - 株式会社メルカリ Software Engineer (ML/NLP) ■ 経歴 - 大学 : 物理学科 (Black Hole, Inflation) - クラウドERPサービスを提供している企業 - プログラマ, 見積りデータ等を活用した業務改善や分析 - 転職サービスを提供している企業 - データ分析基盤の開発・運用, 機械学習等の技術を活用したチームの立ち上げ - レコメンドエンジンの開発 - ニュースキュレーションアプリを提供している企業 - データ分析やアルゴリズムの開発・改善 自己紹介
  3. 3. アジェンダ 1. メルカリのご紹介 2. 機械学習・自然言語処理の活用のご紹介 3. 今後の取り組みについて
  4. 4. アジェンダ 1. メルカリのご紹介 2. 機械学習・自然言語処理の活用のご紹介 3. 今後の取り組みについて
  5. 5. 株式会社メルカリ 概要 ■ 会社設立日: 2013年2月1日 ✓ サービスローンチ: • 日本:2013年7月 • 米国:2014年9月 • 英国:2017年3月 ■ オフィス : 東京、仙台、福岡、      San Francisco、Portland、London ■ 従業員数:約500名 ✓ 半数以上の従業員はカスタマーサポート 5 N
  6. 6. フリマアプリ「メルカリ」とは ● 日本最大のフリマアプリ ○ フリマアプリ利用者中約9割がメルカリを利用 ○ 月間の流通額100億円超 ○ 1日あたり100万出品 ○ アプリダウンロード数 (日本5,000万、アメリカ2,500万) ● 安心安全の決済 ○ エスクロー ○ お金のやり取りは当社が間に介在 ● 3分で簡単出品 ○ 写真を撮る ○ 商品情報を記入 ○ 出品ボタンを押すだけ 6 ※「フリマアプリの利用に関するアンケート調査期間: 2015年10月14日〜10月19日」よりジャストシステム「ファストアスク」調べ
  7. 7. メルカリのデータ 7 ● 出品データ ○ 100万出品 / 日 ○ 商品画像 ○ 商品名 ○ 商品説明 ○ 商品状態 ○ 商品価格 ○ カテゴリ ○ ブランド ○ サイズ ○ 配送方法 ● サポートコミュニティ ○ Q&Aデータ ● お客さまの行動データ ○ 商品検索 ○ 商品タップ ○ 商品への「いいね」 ○ 商品へのコメント ○ 価格交渉 ○ 商品購入 ○ 商品出品 ○ 取引メッセージ ○ 問い合わせ ○ 商品通報 ● ライブフリマ ○ 動画データ メルカリチャンネル ライブ配信で売ったり買ったりを 楽しめるライブフリマの 動画データ 画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ
  8. 8. アジェンダ 1. メルカリのご紹介 2. 機械学習・自然言語処理の活用のご紹介 3. 今後の取り組みについて
  9. 9. メルカリでの応用範囲の例 ● 情報検索,情報推薦 ○ 検索精度の改善,タイムラインのパーソナライズ,レコメンド ● 文書分類,単語分割,状態空間モデル ○ 取引メッセージからお客様が困っていそうなケースを検知 ○ 不適切な商品の検知 ● 統計モデリング,ランキング学習 ○ 出品時に売却されやすい価格の推薦
  10. 10. 検索精度の改善 10 同じ検索ワードでも 検索したいものは人それぞれ ● 検索の意図を推定 ○ 面白い ○ 効果ありそう ○ 行動ログから推定できそう ● 検索ワードのサジェストの改善 ○ カテゴリフィルタの追加 ○ 検索→タップログから集計 ● 検索アルゴリズムの改善
  11. 11. 検索精度の改善 11 同じ検索ワードでも 検索したいものは人それぞれ ● 検索の意図を推定 ○ 面白い ○ 効果ありそう ○ 行動ログから推定できそう ● 検索ワードのサジェストの改善 ○ カテゴリフィルタの追加 ○ 検索→タップログから集計 ● 検索アルゴリズムの改善 ○ 本体 / 付属品問題 ■ 本体が欲しいのに付属品ばかり・・・ ■ パソコン / スマートフォン / ゲーム機
  12. 12. メルカリのデータ 12 ● 出品データ ○ 100万出品 / 日 ○ 商品画像 ○ 商品名 ○ 商品説明 ○ 商品状態 ○ 商品価格 ○ カテゴリ ○ ブランド ○ サイズ ○ 配送方法 ● サポートコミュニティ ○ Q&Aデータ ● お客さまの行動データ ○ 商品検索 ○ 商品タップ ○ 商品への「いいね」 ○ 商品へのコメント ○ 価格交渉 ○ 商品購入 ○ 商品出品 ○ 取引メッセージ ○ 問い合わせ ○ 商品通報 ● ライブフリマ ○ 動画データ メルカリチャンネル ライブ配信で売ったり買ったりを 楽しめるライブフリマの 動画データ 画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ
  13. 13. デモグラフィック情報 / 趣味嗜好の推定 13 よりよいユーザ体験を提供するために ● タイムラインの出しわけ ○ デモグラフィック情報の推定 ○ タップされた商品のタイトルを連結 ○ TF-IDF + ナイーブベイズ分類器 ● 趣味嗜好の推定 女性向け 男性向け columbia ショルダーバッグ mont-bell モンベル ショルダー バッグ、ノース フェイス、コロンビア☆ Columbia ウエストポーチ ショルダーバッグ Columbia・ショルダーバッグ ショルダーバック コロンビア
  14. 14. デモグラフィック情報 / 趣味嗜好の推定 14 よりよいユーザ体験を提供するために ● タイムラインの出しわけ ○ デモグラフィック情報の推定 ○ タップされた商品のタイトルを連結 ○ TF-IDF + ナイーブベイズ分類器 ● 趣味嗜好の推定 ○ タップ履歴に基づくユーザクラスタリング ○ タップされた商品のタイトルを連結 ○ TF-IDF + k-means ○ 例えば、プッシュ通知の文言の出しわけ インテリア好き スマホもおしゃれにしたい女子高生 小物まで気を遣うオシャレ男子
  15. 15. 関連ワード / 関連カテゴリ / 関連ブランドの抽出 15 商品名 ダナキャラン黒 半 袖 シャツ カットソー トップス リフレクト アール ユー カットソー2枚 トップス トミーヒルフィガーロ ンT ☆新品☆ CROON A SONG トップス シンプリシテェ美品 黒 カットソー カテゴリ Tシャツ/カットソー (半袖/袖なし) (119) Tシャツ/カットソー (半袖/袖なし) (119) トップス (291) Tシャツ/カットソー (半袖/袖なし) (119) Tシャツ/カットソー (七分/長袖) (120) Tシャツ/カットソー (七分/長袖) (120) ブランド Donna Karan New York (763) ReFLEcT (1309) ofuon (392) TOMMY HILFIGER (840) CROON A SONG (503) Simplicite (7227) TAP TAP TAP TAP TAP ダナキャラン 黒 半袖 シャツ カットソー トップス リフレクト アールユー カットソー2枚 トップス トミーヒルフィガー ロン T ☆新品☆ CROON A SONG トップス シンプリシテェ 美品 黒 カットソー 119 119 291 119 120 120 763 1309 392 840 503 7227 商品名、カテゴリID、ブランドIDをタッ プ順に単純にそれぞれ連結 Word2Vecで、単語やIDのベクトル表現を抽出し、類似するものを見てみると: ● 関連ワード ○ (ワンワン, うーたん), (ダウン, ダウンジャケット) ● 関連カテゴリ ○ (ショルダーバッグ, トートバッグ, ハンドバッグ), (ひざ丈スカート, ミニワンピース, ひざ丈ワンピース) ● 関連ブランド ○ (Gap, Old Navy, Nirvana), (IBM, CybertronPC, Dell), (Coach, Lauren Merkin, Michael Kors) 検索精度の改善や、関連商品の 列挙に応用可能
  16. 16. メルカリのデータ 16 ● 出品データ ○ 100万出品 / 日 ○ 商品画像 ○ 商品名 ○ 商品説明 ○ 商品状態 ○ 商品価格 ○ カテゴリ ○ ブランド ○ サイズ ○ 配送方法 ● サポートコミュニティ ○ Q&Aデータ ● お客さまの行動データ ○ 商品検索 ○ 商品タップ ○ 商品への「いいね」 ○ 商品へのコメント ○ 価格交渉 ○ 商品購入 ○ 商品出品 ○ 取引メッセージ ○ 問い合わせ ○ 商品通報 ● ライブフリマ ○ 動画データ メルカリチャンネル ライブ配信で売ったり買ったりを 楽しめるライブフリマの 動画データ 画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ
  17. 17. カスタマーサポートへの機械学習の適用 (商品通報) 17 不適切な商品に対する 報告(商品通報)機能 ● カスタマーサポートスタッフによる巡回 ● お客さまによる商品通報によって市場を健全化 ● 商品通報は基本的には人手で全て確認 ● 誤操作によるものや、問い合わせ感覚の通報も含まれる ● 商品情報や出品者情報などを利用した業務効率化を進行中 ○ 商品通報の人手による分類結果をそのまま学習できる
  18. 18. カスタマーサポートへの機械学習の適用 (プロアクティブサポート) 18 問い合わせの内容は様々 ● 取引手順に関するもの ● 商品が届かない ● 商品が思っていたものと違った ● 間違った評価をしてしまった ● 発送方法がわからない 問い合わせがなくても、お客さまをサポートしたい ● 取引メッセージ等からサポート対象を抽出 ○ USでの特定の対象について進行中 ● カスタマーサポートスタッフからメッセージを送信 ● プロアクティブなサポートの履歴が溜まれば自動化も視野に入れる
  19. 19. メルカリのデータ 19 ● 出品データ ○ 100万出品 / 日 ○ 商品画像 ○ 商品名 ○ 商品説明 ○ 商品状態 ○ 商品価格 ○ カテゴリ ○ ブランド ○ サイズ ○ 配送方法 ● サポートコミュニティ ○ Q&Aデータ ● お客さまの行動データ ○ 商品検索 ○ 商品タップ ○ 商品への「いいね」 ○ 商品へのコメント ○ 価格交渉 ○ 商品購入 ○ 商品出品 ○ 取引メッセージ ○ 問い合わせ ○ 商品通報 ● ライブフリマ ○ 動画データ メルカリチャンネル ライブ配信で売ったり買ったりを 楽しめるライブフリマの 動画データ 画像 / 動画 / テキスト / 行動ログなど、多岐にわたる大量のデータ
  20. 20. 売却される価格の推定(US Mercari にて) 20 よりよいユーザ体験を提供するために ● いくらくらいで売れるのかわからない ○ 過去の購買データよりどのくらいの金額になるかをモデリングする ○ 出品されるタイミングで, ■ カテゴリ情報 ■ ブランド情報 ■ 商品名や商品説明文 ■ 商品の状態,... など ○ より価格の推定を行い,お客様へサジェストする より良い出品/購買の体験を提供するために改善中
  21. 21. アジェンダ 1. メルカリのご紹介 2. 機械学習・自然言語処理の活用のご紹介 3. 今後の取り組みについて
  22. 22. 今後の取り組み 1. データは豊富にあります !! a. まだまだ出来ること,取り組みたいことがたくさんあります b. メンバーとインターンを含めて約10名の体制 i. Bg. 画像処理,自然言語処理,機械学習,物理,ロボット系, ... 2. Kaggle に US Mercariのテーマを掲載(近日公開予定) 3. 機械学習や自然言語処理のエンジニアのインターン募集中です a. 2017/08 中は,初めてサマーインターンも開催されました

×