Advertisement
Advertisement

More Related Content

Advertisement

自然言語処理の活用事例_オーディエンスの性別推定の仕組み

  1. 自然言語処理の活用事例 〜オーディエンスの性別推定の仕組み Developers Night #12

  2. © 2019 GMO AD Marketing Inc. 2 1. 自然言語処理の要約 2. 広告オーディエンスの性別推定の仕組みの紹介 
 今回の内容 
  3. © 2019 GMO AD Marketing Inc. 3 自然言語処理の要約 
  
  4. © 2019 GMO AD Marketing Inc. 4  自然言語処理とは
   自然言語処理(NLP, Natural language processing)は人間が日常的に使っている自然言語をコン ピュータに処理させる一連の技術であり、人工知能と言語学の一分野です。
  
 NLP Personal assistant 機械翻訳 検索エンジン 自然言語
  5. © 2019 GMO AD Marketing Inc. 5 自然言語処理の市場規模 
 ... 全世界で2019年では1兆円の規模でしたが、 2025年には見積もり5兆円(2018年のオンラン広告の市場規 模は1兆4480億円)の市場規模になる予想 (調査会社Tracticaより)
  6. © 2019 GMO AD Marketing Inc. 6 自然言語処理の一般的な処理の流れ 
 機械翻訳の例で説明します。
 
 ... NLP日本語 英語
  7. © 2019 GMO AD Marketing Inc. 7 
 私は博多ラーメンが大好きです! 自然言語処理の一般的な処理の流れ 
 形態素解析 (* 中国語、日本語、タイ語な ど単語の分かち書きをしない 言語に必要の処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコー ドする (autoencoder) 日本語を入力 機械学習のモデルでデコード する (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  8. © 2019 GMO AD Marketing Inc. 8 
 私は博多ラーメンが大好きです! 自然言語処理の一般的な処理の流れ 
 形態素解析 (* 中国語、日本語、タイ語な ど単語の分かち書きをしない 言語に必要の処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコー ドする (autoencoder) 日本語を入力 機械学習のモデルでデコード する (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  9. © 2019 GMO AD Marketing Inc. 9 数値化手法の一つTF/IDFを紹介する 
  
  10. © 2019 GMO AD Marketing Inc. 10   単語の出現頻度(TF)
 ... 単語 単語の出現頻度 一つの一番直感的な考えるのは指定された単語 の文書内で の出現回数を数字化の指標として使うことです。 よく出現する単語は、その文書の特徴を判別するのに有用! 
 数値化指標
 単語 の文書内での出現回数 
 文書内単語の総数

  11. © 2019 GMO AD Marketing Inc. 11   単語の出現頻度(TF)
 ... 単語 単語の出現頻度 単語の出現頻度だけで数値化する指標にとして使うのは一つ 大きな欠点があります。 数値化指標
 単語 の文書内での出現回数 
 文書内単語の総数

  12. © 2019 GMO AD Marketing Inc. 12   単語の出現頻度(TF)の欠点
 ... 単語 単語の出現頻度 単語の出現頻度のみで scoreが高い単語は助詞になるかもし れません。 
 は: 300
 が: 288
 です: 100
 …
 数値化指標
 単語 の文書内での出現回数 
 文書内単語の総数

  13. © 2019 GMO AD Marketing Inc. 13   逆文書頻度(IDF)
 ... 単語 逆文書頻度 単語 が出現する文書の数 
 文章の総数
 色々な文書によく出現する単 語」なら低い値を示すもので す。 
 LOG( ) + 1 

  14. © 2019 GMO AD Marketing Inc. 14   数値化する
 ... 単語 逆文書頻度 単語の出現 頻度 TF x IDF 色々な文書によく出現する単 語」なら高い値を示すもので す。 
 数値化指標
 X
 単語 が出現する文書の数 
 文章の総数
 LOG( ) + 1
 単語 の文書内での出現回数 
 文書内単語の総数

  15. © 2019 GMO AD Marketing Inc. 15 
 例  分析対象になる文章 : [文書A] 博多ラーメンは一番最高 ! [文書B] 札幌ラーメンは最高 ! 
 TF(博多) = 1 / 4 = 0.25 TF(札幌) = 1 / 4 = 0.25 TF(ラーメン) = 2 / 4 = 0.5 IDF(博多) = log(2) + 1 = 1.3 IDF(札幌) = log(2) + 1 = 1.3 IDF(ラーメン) = log(2/2) + 1 = 1 [文書A] 博多, ラーメン [文書B] 札幌, ラーメン 
 形態素解析で名詞だけ抽出 
 TF/IDFを算出

  16. © 2019 GMO AD Marketing Inc. 16 オンライン広告業界で 自然言語処理の実用例 
 

  17. © 2019 GMO AD Marketing Inc. 17 オンライン広告の男女予測問題 
 男性と女性が広告について好みが違うので、もし Webサイトをみっている 人の性別の情報が分かれば広告の施策を有利に行えます 化粧品の広告 競馬の広告 メディアサイド メディアサイド
  18. © 2019 GMO AD Marketing Inc. 18  
 機械学習問題の処理流れ 
 学習データの集計 機械学習モデルを訓練 機械学習モデルを運用
  19. © 2019 GMO AD Marketing Inc. 19 学習データの集計 

  20. © 2019 GMO AD Marketing Inc. 20 オンライン広告を表示する際の簡単な流れ 
 ❸ リクエストの情報をLogへ保存する ❹ 該当するオーディエンスに対する適切 な広告が決まる ユーザー Media Site( 例えば: NHK News) AD Network ❶ アクセス ❷ 広告リクエスト ❺ 広告のリンクを送る❻ 広告を表示する ● この五つのステップは数ミリセカンドで完了する。 ● AD Networkは複数の広告媒体( Webサイトやソーシャルメディ ア、ブログ等)を集めて広告配信ネットワークを作り、それらの 媒体に広告をまとめて配信する仕組みのことです ミリセカンド
  21. © 2019 GMO AD Marketing Inc. 21 学習データの集計
 ❸ リクエストの情報をLogへ保存する。log にはmedia先のURL,直前にアクセスした URL,性別、アクセス時間など情報が含ま れている ❹ Logをもとに最適な広告を選ぶ ユーザー ユーザーの 性 別 の 情 報 を 持っているMedia Site AD network ❶ アクセス ❷ 広告リクエスト + ユーザーの性別 ❺ 広告のリンクを送る❻ 広告を表示する
  22. © 2019 GMO AD Marketing Inc. 22 機械学習モデルを訓練 &運用 

  23. © 2019 GMO AD Marketing Inc. 23 オンライン広告業界でNLPの実用例 
 男性のオーディエンス群と女性のオーディエンス群は日々アクセスしているウェ ブサイトと時間が異なります。この相違に基づいて性別の情報を推定できるはず です。 男 女 URL NLPの処理 数 字 化 し た 特 徴 ? ❶ 学 習 URL NLPの処理 数 字 化 し た 特 徴 ❷入力 ❸予測 0.8 0.2 性別の情報 + アクセスしたURLの履 歴 アクセスしたURLの履 歴 機械学習の 分類モデル
  24. © 2019 GMO AD Marketing Inc. 24 今回紹介した方法において、AkaNe・ReeMoで 82%の正解度が得られました。(100回の予測に82回正解)
  25. © 2019 GMO AD Marketing Inc. 25 以上です
 ご清聴いただき
 ありがとうございました

  26. © 2019 GMO AD Marketing Inc. 26 
 ● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、 https://ja.wikipedia.org/wiki/自然言語処理
 ● Natural Language Processing Is a Key Engine of AI Market Growth, Enabling 44 Discrete Use Cases Across 17 Industries, https://www.tractica.com/newsroom/press-releases/natural-language-processing- is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across-17 -industries/
 
 参考文献

Advertisement