Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

NLPでオンライン広告のオーディエンスの性別を推定する方法

912 views

Published on

2019/09/02
【学生エンジニア限定】GMOアドパートナーズ MEETUP #2
での発表資料です。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

NLPでオンライン広告のオーディエンスの性別を推定する方法

  1. 1. 【学生エンジニア限定】GMOアドパートナーズ MEETUP #2 NLPでオンライン広告のユーザーの性別を推定する方法 2019/09/02
  2. 2. © 2019 GMO AD Marketing Inc. 2 劉(リュウ) - 所属: GMOアドマーケティング - データマイニングチーム、機械学習エンジニア - 出身: 中国福建省 - 趣味: 料理(中華) - 得意なレシピ: 自己紹介 糖醋排骨(スペアリブの甘酢煮) 红烧肉(中国版の角煮)
  3. 3. © 2019 GMO AD Marketing Inc. 3 NLP要約
  4. 4. © 2019 GMO AD Marketing Inc. 4 NLPとは NLPはNatural language processingの略で、日本語では自然言語処理といいます。 NLPは人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、 人工知能と言語学の一分野でもあります。 NLP Personal assistant 機械翻訳 検索エンジン 自然言語
  5. 5. © 2019 GMO AD Marketing Inc. 5 NLPの市場規模 引用元: https://www.tractica.com/newsroom/press-releases/natural-language- processing-is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across- 17-industries/ 全世界で2018年に5000億円の規模になっており、2025年には5兆円(2018年のオンラン広告の市場規 模は1兆4480億円)の市場規模になる予想(調査会社Tracticaより)
  6. 6. © 2019 GMO AD Marketing Inc. 6 NLPの一般的な処理の流れ 機械翻訳の例で説明します。 ... NLP日本語 英語
  7. 7. © 2019 GMO AD Marketing Inc. 7 私は博多ラーメンが大好きです! NLPの一般的な処理の流れ 形態素解析 (* 中国語、日本語、タイ語 など単語の分かち書きをし ない言語に必要な処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコ ードする (autoencoder) 日本語を入力 機械学習のモデルでデコー ドする (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  8. 8. © 2019 GMO AD Marketing Inc. 8 私は博多ラーメンが大好きです! NLPの一般的な処理の流れ 形態素解析 (* 中国語、日本語、タイ語 など単語の分かち書きをし ない言語に必要な処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコ ードする (autoencoder) 日本語を入力 機械学習のモデルでデコー ドする (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  9. 9. © 2019 GMO AD Marketing Inc. 9 数値化する 単語 単語の出現頻度 数値化にあたっての代表的な手法の一つに、 処理対象の文書群から特定の単語の出現頻度を求め、 その出現頻度を数値化の指標として使う手法があります。 頻繁に出現する単語は、その文書の特徴を判別するのに有用です。 数値化指標
  10. 10. © 2019 GMO AD Marketing Inc. 10 数値化する 単語 単語の出現頻度 単語の出現頻度だけを数値化の指標として使う手法には 大きな欠点が一つあります。 数値化指標
  11. 11. © 2019 GMO AD Marketing Inc. 11 数値化する 単語 単語の出現頻度 単語の出現頻度のみで数値化すると、 scoreが高い単語は助詞になるかもしれません。 は: 300 が: 288 です: 100 … 数値化指標
  12. 12. © 2019 GMO AD Marketing Inc. 12 数値化する 単語 逆文書頻度 単語X 単語Xを含む文章の数 文章の総数 単語の出現 頻度 TF /IDF 様々な文書に頻繁に出現する 単語なら低い値を示すもので す。 数値化指標 LOG( )
  13. 13. © 2019 GMO AD Marketing Inc. 13 オンライン広告業界でNLPの実用例
  14. 14. © 2019 GMO AD Marketing Inc. 14 オンライン広告の男女予測問題 男性と女性では広告についての好みが違うので、ウェブサイトを閲覧し ている人の性別情報が分かれば広告配信がより効率的になります 化粧品の広告 競馬の広告 メディアサイト メディアサイト
  15. 15. © 2019 GMO AD Marketing Inc. 15 オンライン広告を表示する際の簡単な流れ ③ リクエストの情報をLogへ保存する ④ 該当するオーディエンスに配信する 適切な広告を決定する ユーザー Media Site( 例えば: NHK News) AD Network ① アクセス ② 広告リクエスト ⑤ 広告のリンクを送る⑥ 広告を表示する ● この5つのステップは数ミリセカンドで完了する ● AD Networkは複数の広告媒体(Webサイトやソーシャルメ ディア、ブログ等)を集めて広告配信ネットワークを作り、 それらの媒体に広告をまとめて配信する仕組みのこと ミリセカンド
  16. 16. © 2019 GMO AD Marketing Inc. 16 オンライン広告を表示する際の簡単な流れ ③ リクエストの情報をLogへ保存する。 logにはmedia先のURL,直前にアクセス したURL,性別、アクセス時間など情報 が含まれている ④ 該当するオーディエンスに配信する 適切な広告を決定する ユーザー ユーザーの性別情報を持っ ているMedia Site AD network ① アクセス ② 広告リクエスト + ユーザーの性別 ⑤ 広告のリンクを送る⑥ 広告を表示する
  17. 17. © 2019 GMO AD Marketing Inc. 17 オンライン広告業界でNLPの実用例 男性のオーディエンス群と女性のオーディエンス群は日々アクセスしてい るウェブサイトと時間が異なります。この相違に基づいて性別の情報を推 定できるはずです。 男 女 URL NLPの処理 数 字 化 し た 特 徴 ? URL NLPの処理 数 字 化 し た 特 徴 ②入力 ③予測 0.8 0.2 性別の情報 + アクセスしたURLの 履歴 アクセスしたURLの 履歴 機械学習の 分類モデル
  18. 18. © 2019 GMO AD Marketing Inc. 18 今回紹介した手法を社内のプロダクトに適用した結果、 82%の予測精度が得られました。(100回の予測に対して82回正解)
  19. 19. © 2019 GMO AD Marketing Inc. 19 以上です ご清聴いただき ありがとうございました
  20. 20. © 2019 GMO AD Marketing Inc. 20 ● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、 https://ja.wikipedia.org/wiki/自然言語処理 ● Natural Language Processing Is a Key Engine of AI Market Growth, Enabling 44 Discrete Use Cases Across 17 Industries, https://www.tractica.com/newsroom/press-releases/natural-language- processing-is-a-key-engine-of-ai-market-growth-enabling-44-discrete- use-cases-across-17-industries/ 参考文献

×