SlideShare a Scribd company logo
自然言語処理の活用事例
〜オーディエンスの性別推定の仕組み
Developers Night #12

© 2019 GMO AD Marketing Inc. 2
1. 自然言語処理の要約
2. 広告オーディエンスの性別推定の仕組みの紹介


今回の内容 
© 2019 GMO AD Marketing Inc. 3
自然言語処理の要約


 
© 2019 GMO AD Marketing Inc. 4
 自然言語処理とは

 
自然言語処理(NLP, Natural language processing)は人間が日常的に使っている自然言語をコン
ピュータに処理させる一連の技術であり、人工知能と言語学の一分野です。

 

NLP
Personal assistant
機械翻訳
検索エンジン
自然言語
© 2019 GMO AD Marketing Inc. 5
自然言語処理の市場規模 

...
全世界で2019年では1兆円の規模でしたが、 2025年には見積もり5兆円(2018年のオンラン広告の市場規
模は1兆4480億円)の市場規模になる予想 (調査会社Tracticaより)
© 2019 GMO AD Marketing Inc. 6
自然言語処理の一般的な処理の流れ 

機械翻訳の例で説明します。



...
NLP日本語 英語
© 2019 GMO AD Marketing Inc. 7

 私は博多ラーメンが大好きです!
自然言語処理の一般的な処理の流れ 

形態素解析
(* 中国語、日本語、タイ語な
ど単語の分かち書きをしない
言語に必要の処理)
数値化する
私, は, 博多, ラーメン, が , 大好き , です
103, 120, 001,100, 110, 033, 221
機械学習のモデルでエンコー
ドする
(autoencoder)
日本語を入力
機械学習のモデルでデコード
する
(autoencoder)
[1.3, 3.2, 4.3]
I like Hakata Ramen very much
英語を出力
© 2019 GMO AD Marketing Inc. 8

 私は博多ラーメンが大好きです!
自然言語処理の一般的な処理の流れ 

形態素解析
(* 中国語、日本語、タイ語な
ど単語の分かち書きをしない
言語に必要の処理)
数値化する
私, は, 博多, ラーメン, が , 大好き , です
103, 120, 001,100, 110, 033, 221
機械学習のモデルでエンコー
ドする
(autoencoder)
日本語を入力
機械学習のモデルでデコード
する
(autoencoder)
[1.3, 3.2, 4.3]
I like Hakata Ramen very much
英語を出力
© 2019 GMO AD Marketing Inc. 9
数値化手法の一つTF/IDFを紹介する


 
© 2019 GMO AD Marketing Inc. 10
 
単語の出現頻度(TF)

...
単語 単語の出現頻度
一つの一番直感的な考えるのは指定された単語 の文書内で
の出現回数を数字化の指標として使うことです。
よく出現する単語は、その文書の特徴を判別するのに有用!


数値化指標

単語 の文書内での出現回数 

文書内単語の総数

© 2019 GMO AD Marketing Inc. 11
 
単語の出現頻度(TF)

...
単語 単語の出現頻度
単語の出現頻度だけで数値化する指標にとして使うのは一つ
大きな欠点があります。
数値化指標

単語 の文書内での出現回数 

文書内単語の総数

© 2019 GMO AD Marketing Inc. 12
 
単語の出現頻度(TF)の欠点

...
単語 単語の出現頻度
単語の出現頻度のみで scoreが高い単語は助詞になるかもし
れません。


は: 300

が: 288

です: 100

…

数値化指標

単語 の文書内での出現回数 

文書内単語の総数

© 2019 GMO AD Marketing Inc. 13
 
逆文書頻度(IDF)

...
単語
逆文書頻度
単語 が出現する文書の数


文章の総数

色々な文書によく出現する単
語」なら低い値を示すもので
す。 

LOG( ) + 1 

© 2019 GMO AD Marketing Inc. 14
 
数値化する

...
単語
逆文書頻度
単語の出現
頻度
TF
x IDF
色々な文書によく出現する単
語」なら高い値を示すもので
す。 

数値化指標

X

単語 が出現する文書の数 

文章の総数

LOG( ) + 1

単語 の文書内での出現回数 

文書内単語の総数

© 2019 GMO AD Marketing Inc. 15


例 
分析対象になる文章 :
[文書A] 博多ラーメンは一番最高 !
[文書B] 札幌ラーメンは最高 !


TF(博多) = 1 / 4 = 0.25
TF(札幌) = 1 / 4 = 0.25
TF(ラーメン) = 2 / 4 = 0.5
IDF(博多) = log(2) + 1 = 1.3
IDF(札幌) = log(2) + 1 = 1.3
IDF(ラーメン) = log(2/2) + 1 = 1
[文書A] 博多, ラーメン
[文書B] 札幌, ラーメン


形態素解析で名詞だけ抽出 

TF/IDFを算出

© 2019 GMO AD Marketing Inc. 16
オンライン広告業界で
自然言語処理の実用例




© 2019 GMO AD Marketing Inc. 17
オンライン広告の男女予測問題 

男性と女性が広告について好みが違うので、もし Webサイトをみっている
人の性別の情報が分かれば広告の施策を有利に行えます
化粧品の広告
競馬の広告
メディアサイド
メディアサイド
© 2019 GMO AD Marketing Inc. 18
 

機械学習問題の処理流れ 

学習データの集計
機械学習モデルを訓練
機械学習モデルを運用
© 2019 GMO AD Marketing Inc. 19
学習データの集計


© 2019 GMO AD Marketing Inc. 20
オンライン広告を表示する際の簡単な流れ 

❸ リクエストの情報をLogへ保存する
❹ 該当するオーディエンスに対する適切
な広告が決まる
ユーザー Media Site( 例えば: NHK News)
AD Network
❶ アクセス ❷ 広告リクエスト
❺ 広告のリンクを送る❻ 広告を表示する
● この五つのステップは数ミリセカンドで完了する。
● AD Networkは複数の広告媒体( Webサイトやソーシャルメディ
ア、ブログ等)を集めて広告配信ネットワークを作り、それらの
媒体に広告をまとめて配信する仕組みのことです
ミリセカンド
© 2019 GMO AD Marketing Inc. 21
学習データの集計

❸ リクエストの情報をLogへ保存する。log
にはmedia先のURL,直前にアクセスした
URL,性別、アクセス時間など情報が含ま
れている
❹ Logをもとに最適な広告を選ぶ
ユーザー ユーザーの 性 別 の 情 報 を
持っているMedia Site AD network
❶ アクセス
❷ 広告リクエスト +
ユーザーの性別
❺ 広告のリンクを送る❻ 広告を表示する
© 2019 GMO AD Marketing Inc. 22
機械学習モデルを訓練
&運用


© 2019 GMO AD Marketing Inc. 23
オンライン広告業界でNLPの実用例 

男性のオーディエンス群と女性のオーディエンス群は日々アクセスしているウェ
ブサイトと時間が異なります。この相違に基づいて性別の情報を推定できるはず
です。
男
女 URL
NLPの処理
数
字
化
し
た
特
徴
?
❶
学
習
URL
NLPの処理
数
字
化
し
た
特
徴
❷入力
❸予測
0.8
0.2
性別の情報 +
アクセスしたURLの履
歴
アクセスしたURLの履
歴
機械学習の
分類モデル
© 2019 GMO AD Marketing Inc. 24
今回紹介した方法において、AkaNe・ReeMoで
82%の正解度が得られました。(100回の予測に82回正解)
© 2019 GMO AD Marketing Inc. 25
以上です

ご清聴いただき

ありがとうございました

© 2019 GMO AD Marketing Inc. 26


● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、
https://ja.wikipedia.org/wiki/自然言語処理

● Natural Language Processing Is a Key Engine of AI Market Growth, Enabling 44
Discrete Use Cases Across 17 Industries,
https://www.tractica.com/newsroom/press-releases/natural-language-processing-
is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across-17
-industries/



参考文献


More Related Content

Similar to 自然言語処理の活用事例_オーディエンスの性別推定の仕組み

Nativ.team presentation2019
Nativ.team presentation2019Nativ.team presentation2019
Nativ.team presentation2019Nativ,inc
 
あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416DemandSphere
 
190515 tmh online_videomarketing_v13_slideshare
190515 tmh online_videomarketing_v13_slideshare190515 tmh online_videomarketing_v13_slideshare
190515 tmh online_videomarketing_v13_slideshareikedanoriyuki
 
201410 12【媒体資料】bypass 20140929
201410 12【媒体資料】bypass 20140929201410 12【媒体資料】bypass 20140929
201410 12【媒体資料】bypass 20140929Miho Marumo
 
人材紹介スキーム
人材紹介スキーム人材紹介スキーム
人材紹介スキームryuhei kasahara
 
【アド部講演】スマートフォンアプリマネタイズのコツ
【アド部講演】スマートフォンアプリマネタイズのコツ【アド部講演】スマートフォンアプリマネタイズのコツ
【アド部講演】スマートフォンアプリマネタイズのコツTomohiro Mukoyama
 
北米市場動向
北米市場動向北米市場動向
北米市場動向gipwest
 
2020/02/14 code.org meetup
2020/02/14 code.org meetup2020/02/14 code.org meetup
2020/02/14 code.org meetupYuta Tonegawa
 

Similar to 自然言語処理の活用事例_オーディエンスの性別推定の仕組み (10)

Nativ.team presentation2019
Nativ.team presentation2019Nativ.team presentation2019
Nativ.team presentation2019
 
あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416
 
190515 tmh online_videomarketing_v13_slideshare
190515 tmh online_videomarketing_v13_slideshare190515 tmh online_videomarketing_v13_slideshare
190515 tmh online_videomarketing_v13_slideshare
 
201410 12【媒体資料】bypass 20140929
201410 12【媒体資料】bypass 20140929201410 12【媒体資料】bypass 20140929
201410 12【媒体資料】bypass 20140929
 
人材紹介スキーム
人材紹介スキーム人材紹介スキーム
人材紹介スキーム
 
2019年下半期アドバイザリーボードMTG資料
2019年下半期アドバイザリーボードMTG資料2019年下半期アドバイザリーボードMTG資料
2019年下半期アドバイザリーボードMTG資料
 
【アド部講演】スマートフォンアプリマネタイズのコツ
【アド部講演】スマートフォンアプリマネタイズのコツ【アド部講演】スマートフォンアプリマネタイズのコツ
【アド部講演】スマートフォンアプリマネタイズのコツ
 
Zgrow会社概要
Zgrow会社概要Zgrow会社概要
Zgrow会社概要
 
北米市場動向
北米市場動向北米市場動向
北米市場動向
 
2020/02/14 code.org meetup
2020/02/14 code.org meetup2020/02/14 code.org meetup
2020/02/14 code.org meetup
 

More from GMOアドパートナーズ株式会社 (10)

機械学習を用いた広告配信での入札価格決定ロジック
機械学習を用いた広告配信での入札価格決定ロジック機械学習を用いた広告配信での入札価格決定ロジック
機械学習を用いた広告配信での入札価格決定ロジック
 
スケールする広告配信システムの作り方
スケールする広告配信システムの作り方スケールする広告配信システムの作り方
スケールする広告配信システムの作り方
 
アドテクノロジー入門 〜歴史と概要を学ぼう〜
アドテクノロジー入門 〜歴史と概要を学ぼう〜アドテクノロジー入門 〜歴史と概要を学ぼう〜
アドテクノロジー入門 〜歴史と概要を学ぼう〜
 
スクラムを半年間実践してみて
スクラムを半年間実践してみてスクラムを半年間実践してみて
スクラムを半年間実践してみて
 
GMOアドマーケティング GCP勉強会 第2回
GMOアドマーケティング GCP勉強会 第2回GMOアドマーケティング GCP勉強会 第2回
GMOアドマーケティング GCP勉強会 第2回
 
GMOアドマーケティングのインフラについて
GMOアドマーケティングのインフラについてGMOアドマーケティングのインフラについて
GMOアドマーケティングのインフラについて
 
未経験新卒入社でできること
未経験新卒入社でできること未経験新卒入社でできること
未経験新卒入社でできること
 
リーダブルコードの必要性と活用事例
リーダブルコードの必要性と活用事例リーダブルコードの必要性と活用事例
リーダブルコードの必要性と活用事例
 
Okyu
OkyuOkyu
Okyu
 
Junk
JunkJunk
Junk
 

Recently uploaded

5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一瑛一 西口
 
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521Satoshi Makita
 
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptxssuserbefd24
 
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayersToru Tamaki
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizesatsushi061452
 
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑Akihiro Kadohata
 
Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )iwashiira2ctf
 
20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdfAyachika Kitazaki
 
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationToru Tamaki
 
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)keikoitakurag
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...atsushi061452
 
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員Sadaomi Nishi
 

Recently uploaded (12)

5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
 
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
 
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
 
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
クラウド時代におけるSREとUPWARDの取組ーUPWARD株式会社 CTO門畑
 
Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )
 
20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf
 
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
部内勉強会(IT用語ざっくり学習) 実施日:2024年5月17日(金) 対象者:営業部社員
 

自然言語処理の活用事例_オーディエンスの性別推定の仕組み

  • 2. © 2019 GMO AD Marketing Inc. 2 1. 自然言語処理の要約 2. 広告オーディエンスの性別推定の仕組みの紹介 
 今回の内容 
  • 3. © 2019 GMO AD Marketing Inc. 3 自然言語処理の要約 
  
  • 4. © 2019 GMO AD Marketing Inc. 4  自然言語処理とは
   自然言語処理(NLP, Natural language processing)は人間が日常的に使っている自然言語をコン ピュータに処理させる一連の技術であり、人工知能と言語学の一分野です。
  
 NLP Personal assistant 機械翻訳 検索エンジン 自然言語
  • 5. © 2019 GMO AD Marketing Inc. 5 自然言語処理の市場規模 
 ... 全世界で2019年では1兆円の規模でしたが、 2025年には見積もり5兆円(2018年のオンラン広告の市場規 模は1兆4480億円)の市場規模になる予想 (調査会社Tracticaより)
  • 6. © 2019 GMO AD Marketing Inc. 6 自然言語処理の一般的な処理の流れ 
 機械翻訳の例で説明します。
 
 ... NLP日本語 英語
  • 7. © 2019 GMO AD Marketing Inc. 7 
 私は博多ラーメンが大好きです! 自然言語処理の一般的な処理の流れ 
 形態素解析 (* 中国語、日本語、タイ語な ど単語の分かち書きをしない 言語に必要の処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコー ドする (autoencoder) 日本語を入力 機械学習のモデルでデコード する (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  • 8. © 2019 GMO AD Marketing Inc. 8 
 私は博多ラーメンが大好きです! 自然言語処理の一般的な処理の流れ 
 形態素解析 (* 中国語、日本語、タイ語な ど単語の分かち書きをしない 言語に必要の処理) 数値化する 私, は, 博多, ラーメン, が , 大好き , です 103, 120, 001,100, 110, 033, 221 機械学習のモデルでエンコー ドする (autoencoder) 日本語を入力 機械学習のモデルでデコード する (autoencoder) [1.3, 3.2, 4.3] I like Hakata Ramen very much 英語を出力
  • 9. © 2019 GMO AD Marketing Inc. 9 数値化手法の一つTF/IDFを紹介する 
  
  • 10. © 2019 GMO AD Marketing Inc. 10   単語の出現頻度(TF)
 ... 単語 単語の出現頻度 一つの一番直感的な考えるのは指定された単語 の文書内で の出現回数を数字化の指標として使うことです。 よく出現する単語は、その文書の特徴を判別するのに有用! 
 数値化指標
 単語 の文書内での出現回数 
 文書内単語の総数

  • 11. © 2019 GMO AD Marketing Inc. 11   単語の出現頻度(TF)
 ... 単語 単語の出現頻度 単語の出現頻度だけで数値化する指標にとして使うのは一つ 大きな欠点があります。 数値化指標
 単語 の文書内での出現回数 
 文書内単語の総数

  • 12. © 2019 GMO AD Marketing Inc. 12   単語の出現頻度(TF)の欠点
 ... 単語 単語の出現頻度 単語の出現頻度のみで scoreが高い単語は助詞になるかもし れません。 
 は: 300
 が: 288
 です: 100
 …
 数値化指標
 単語 の文書内での出現回数 
 文書内単語の総数

  • 13. © 2019 GMO AD Marketing Inc. 13   逆文書頻度(IDF)
 ... 単語 逆文書頻度 単語 が出現する文書の数 
 文章の総数
 色々な文書によく出現する単 語」なら低い値を示すもので す。 
 LOG( ) + 1 

  • 14. © 2019 GMO AD Marketing Inc. 14   数値化する
 ... 単語 逆文書頻度 単語の出現 頻度 TF x IDF 色々な文書によく出現する単 語」なら高い値を示すもので す。 
 数値化指標
 X
 単語 が出現する文書の数 
 文章の総数
 LOG( ) + 1
 単語 の文書内での出現回数 
 文書内単語の総数

  • 15. © 2019 GMO AD Marketing Inc. 15 
 例  分析対象になる文章 : [文書A] 博多ラーメンは一番最高 ! [文書B] 札幌ラーメンは最高 ! 
 TF(博多) = 1 / 4 = 0.25 TF(札幌) = 1 / 4 = 0.25 TF(ラーメン) = 2 / 4 = 0.5 IDF(博多) = log(2) + 1 = 1.3 IDF(札幌) = log(2) + 1 = 1.3 IDF(ラーメン) = log(2/2) + 1 = 1 [文書A] 博多, ラーメン [文書B] 札幌, ラーメン 
 形態素解析で名詞だけ抽出 
 TF/IDFを算出

  • 16. © 2019 GMO AD Marketing Inc. 16 オンライン広告業界で 自然言語処理の実用例 
 

  • 17. © 2019 GMO AD Marketing Inc. 17 オンライン広告の男女予測問題 
 男性と女性が広告について好みが違うので、もし Webサイトをみっている 人の性別の情報が分かれば広告の施策を有利に行えます 化粧品の広告 競馬の広告 メディアサイド メディアサイド
  • 18. © 2019 GMO AD Marketing Inc. 18  
 機械学習問題の処理流れ 
 学習データの集計 機械学習モデルを訓練 機械学習モデルを運用
  • 19. © 2019 GMO AD Marketing Inc. 19 学習データの集計 

  • 20. © 2019 GMO AD Marketing Inc. 20 オンライン広告を表示する際の簡単な流れ 
 ❸ リクエストの情報をLogへ保存する ❹ 該当するオーディエンスに対する適切 な広告が決まる ユーザー Media Site( 例えば: NHK News) AD Network ❶ アクセス ❷ 広告リクエスト ❺ 広告のリンクを送る❻ 広告を表示する ● この五つのステップは数ミリセカンドで完了する。 ● AD Networkは複数の広告媒体( Webサイトやソーシャルメディ ア、ブログ等)を集めて広告配信ネットワークを作り、それらの 媒体に広告をまとめて配信する仕組みのことです ミリセカンド
  • 21. © 2019 GMO AD Marketing Inc. 21 学習データの集計
 ❸ リクエストの情報をLogへ保存する。log にはmedia先のURL,直前にアクセスした URL,性別、アクセス時間など情報が含ま れている ❹ Logをもとに最適な広告を選ぶ ユーザー ユーザーの 性 別 の 情 報 を 持っているMedia Site AD network ❶ アクセス ❷ 広告リクエスト + ユーザーの性別 ❺ 広告のリンクを送る❻ 広告を表示する
  • 22. © 2019 GMO AD Marketing Inc. 22 機械学習モデルを訓練 &運用 

  • 23. © 2019 GMO AD Marketing Inc. 23 オンライン広告業界でNLPの実用例 
 男性のオーディエンス群と女性のオーディエンス群は日々アクセスしているウェ ブサイトと時間が異なります。この相違に基づいて性別の情報を推定できるはず です。 男 女 URL NLPの処理 数 字 化 し た 特 徴 ? ❶ 学 習 URL NLPの処理 数 字 化 し た 特 徴 ❷入力 ❸予測 0.8 0.2 性別の情報 + アクセスしたURLの履 歴 アクセスしたURLの履 歴 機械学習の 分類モデル
  • 24. © 2019 GMO AD Marketing Inc. 24 今回紹介した方法において、AkaNe・ReeMoで 82%の正解度が得られました。(100回の予測に82回正解)
  • 25. © 2019 GMO AD Marketing Inc. 25 以上です
 ご清聴いただき
 ありがとうございました

  • 26. © 2019 GMO AD Marketing Inc. 26 
 ● 自然言語処理、 2018年6月22日、ウィキペディア日本語版、 https://ja.wikipedia.org/wiki/自然言語処理
 ● Natural Language Processing Is a Key Engine of AI Market Growth, Enabling 44 Discrete Use Cases Across 17 Industries, https://www.tractica.com/newsroom/press-releases/natural-language-processing- is-a-key-engine-of-ai-market-growth-enabling-44-discrete-use-cases-across-17 -industries/
 
 参考文献