Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
TH
Uploaded by
Takanori Hayashi
PPTX, PDF
7,355 views
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
Kaggleコンペ TalkingData AdTracking Fraud Detection Challengeの1位解法の概要です
Data & Analytics
◦
Read more
5
Save
Share
Embed
Embed presentation
Download
Downloaded 54 times
1
/ 14
2
/ 14
3
/ 14
4
/ 14
5
/ 14
6
/ 14
7
/ 14
Most read
8
/ 14
9
/ 14
10
/ 14
Most read
11
/ 14
12
/ 14
13
/ 14
14
/ 14
Most read
More Related Content
PDF
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
by
mlm_kansai
PDF
全力解説!Transformer
by
Arithmer Inc.
PDF
Attentionの基礎からTransformerの入門まで
by
AGIRobots
PDF
Skip Connection まとめ(Neural Network)
by
Yamato OKAMOTO
PDF
DSIRNLP#1 ランキング学習ことはじめ
by
sleepy_yoshi
PDF
Anomaly detection 系の論文を一言でまとめた
by
ぱんいち すみもと
PDF
機械学習モデルの判断根拠の説明(Ver.2)
by
Satoshi Hara
PPTX
強化学習 DQNからPPOまで
by
harmonylab
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
by
mlm_kansai
全力解説!Transformer
by
Arithmer Inc.
Attentionの基礎からTransformerの入門まで
by
AGIRobots
Skip Connection まとめ(Neural Network)
by
Yamato OKAMOTO
DSIRNLP#1 ランキング学習ことはじめ
by
sleepy_yoshi
Anomaly detection 系の論文を一言でまとめた
by
ぱんいち すみもと
機械学習モデルの判断根拠の説明(Ver.2)
by
Satoshi Hara
強化学習 DQNからPPOまで
by
harmonylab
What's hot
PDF
ゼロから始める転移学習
by
Yahoo!デベロッパーネットワーク
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
PDF
Transformerを多層にする際の勾配消失問題と解決法について
by
Sho Takase
PDF
Transformer メタサーベイ
by
cvpaper. challenge
PDF
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
by
Megagon Labs
PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
by
Preferred Networks
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
by
SSII
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
by
Yuta Kikuchi
PDF
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
by
Deep Learning JP
PPTX
画像キャプションの自動生成
by
Yoshitaka Ushiku
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
by
SSII
PDF
画像生成・生成モデル メタサーベイ
by
cvpaper. challenge
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
by
Deep Learning JP
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
by
Yusuke Uchida
PDF
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
by
Preferred Networks
PDF
Active Learning 入門
by
Shuyo Nakatani
PDF
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
by
hoxo_m
PPTX
強化学習アルゴリズムPPOの解説と実験
by
克海 納谷
PPTX
モデル高速化百選
by
Yusuke Uchida
PDF
[DL輪読会]Control as Inferenceと発展
by
Deep Learning JP
ゼロから始める転移学習
by
Yahoo!デベロッパーネットワーク
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
by
Deep Learning JP
Transformerを多層にする際の勾配消失問題と解決法について
by
Sho Takase
Transformer メタサーベイ
by
cvpaper. challenge
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
by
Megagon Labs
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
by
Preferred Networks
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
by
SSII
最近のDeep Learning (NLP) 界隈におけるAttention事情
by
Yuta Kikuchi
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
by
Deep Learning JP
画像キャプションの自動生成
by
Yoshitaka Ushiku
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
by
SSII
画像生成・生成モデル メタサーベイ
by
cvpaper. challenge
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
by
Deep Learning JP
モデルアーキテクチャ観点からのDeep Neural Network高速化
by
Yusuke Uchida
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
by
Preferred Networks
Active Learning 入門
by
Shuyo Nakatani
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
by
hoxo_m
強化学習アルゴリズムPPOの解説と実験
by
克海 納谷
モデル高速化百選
by
Yusuke Uchida
[DL輪読会]Control as Inferenceと発展
by
Deep Learning JP
Similar to TalkingData AdTracking Fraud Detection Challenge (1st place solution)
PDF
レコメンドエンジン作成コンテストの勝ち方
by
Shun Nukui
PDF
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
by
Takahiro Kubo
PPTX
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
by
Keiku322
PDF
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
by
Takashi J OZAKI
PDF
強化学習の実適用に向けた課題と工夫
by
Masahiro Yasumoto
PDF
異常行動検出入門 – 行動データ時系列のデータマイニング –
by
Yohei Sato
PDF
ChatGPTの驚くべき対話能力 20230414APR.pdf
by
YamashitaKatsushi
PDF
偏りのある時系列データ の分類について
by
Masato Miwada
PDF
NGK2022S
by
陽平 山口
PPTX
Machine learning
by
Masafumi Noda
PDF
Sakusaku svm
by
antibayesian 俺がS式だ
PDF
プライバシを考慮した移動系列情報解析のための安全性の提案
by
Junpei Kawamoto
レコメンドエンジン作成コンテストの勝ち方
by
Shun Nukui
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
by
Takahiro Kubo
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
by
Keiku322
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
by
Takashi J OZAKI
強化学習の実適用に向けた課題と工夫
by
Masahiro Yasumoto
異常行動検出入門 – 行動データ時系列のデータマイニング –
by
Yohei Sato
ChatGPTの驚くべき対話能力 20230414APR.pdf
by
YamashitaKatsushi
偏りのある時系列データ の分類について
by
Masato Miwada
NGK2022S
by
陽平 山口
Machine learning
by
Masafumi Noda
Sakusaku svm
by
antibayesian 俺がS式だ
プライバシを考慮した移動系列情報解析のための安全性の提案
by
Junpei Kawamoto
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
1.
TalkingData AdTracking Fraud Detection
Challenge Winner’s solution(の概要) Team: ['flowlight', 'komaki'].shuffle() @flowlight_ @Komaki__
2.
チーム紹介 ● 学生時代はTopCoder, Codeforces, ICPCなどアルゴリズム系コンペを 中心に参加していた ●
同じ研究室、同じ職場 ● チームを組んだのは初めて Komaki 「毎月2倍、1年で4096倍強くなった。 優勝する気しかしない。」
3.
● 広告がクリックされた時にダウンロードされるかを予測 ○ 通常のコンバージョン予測コンペと似たような二値分類 ○
不正クリックを検出する必要はない ユーザのip, os, device クリックされたappとchannel (広告媒体) クリック時刻 ダウンロードの有無
4.
データセットの統計情報・評価指標 ● 評価指標 ○ AUC
(Area under the curve) ● データセット ○ 訓練データは1.85億件(3日分のクリック) ○ テストデータは0.58億件(次の1日分) ■ 特徴量を1つ増やすと約1GBデータが増える感じ ○ is_attributed = 1となっているデータはわずか0.2%
5.
主なアイデア ● 学習と特徴量作成の高速・省メモリ化 ○ Negative
down-sampling ● 特徴量作成 ○ 未来の情報を用いた特徴量 ○ 全探索的に特徴量を作成 ○ カテゴリ変数の埋め込み
6.
Negative down-sampling ● 広告クリックの界隈ではよく知られた手法 ○
Google [McMahan+ ’13], Facebook [He+ ’14] ● 正例(is_attributed = 1)と負例(is_attributed = 0)の個数が等しく なるように負例だけをdown-sample(99.8%の負例を捨てる) ○ 訓練データのサイズが約2億から100万程度になる ○ 数百個の特徴量を作成することが可能に ● 精度に関しても問題ない ○ down-samplingで複数のデータセットを作成しモデルをバギング することで全データで訓練したモデルの性能を超えた [McMahan+ ’13] Ad Click Prediction: a View from the Trenches [He+ ’14] Practical Lessons from Predicting Clicks on Ads at Facebook
7.
未来の情報を用いた特徴量 ● 全てのデータが一度に与えられるコンペではユーザの未来の行動から 過去の行動を予測(?)することができる ○ 過去の行動よりも未来の行動に基づく特徴の方が大抵強い ●
今回は各カテゴリ変数(ip, os, device, channel, app)の値に対して以下 のような特徴量を求めた ○ 直後(直前)のクリックからの経過時間 ○ 今後一時間以内でのそのカテゴリ変数の値の出現回数
8.
全探索的な特徴量の作成 ● 同じ特徴量を(ip, os)や(ip,
os, channel)などの組にも計算したい ○ どのような組み合わせを選ぶ? ● 全ての組み合わせに対して計算(2^5 - 1 = 31通り) ○ 経験上LightGBMは無意味な特徴量に対してもロバスト ○ (有用な特徴量による利益)> (無用な特徴量による不利益) ○ (人間の作業コスト)>(計算コスト)
9.
カテゴリ変数の埋め込み ● 各カテゴリ変数(ip, app,
channel,...)をベクトルに埋め込みたい ○ NLPでのword embeddingみたいな気持ち ● カテゴリ変数同士で共起行列を作ってLDA / NMF / tSVDを適用 ○ ここでも全探索的に特徴量を生成 ■ 5P2 = 20通りの組み合わせ ■ deviceがほとんど役に立たないことがわかり4P2 = 12通りに変更 ○ LDAが一番効果的 ○ 最終的にLDAのトピック数は5, 20を使用 ■ トピック数が5のとき5 * 12 = 60個の特徴量が作成される ■ NMF, tSVDでは5次元のベクトルのみ計算した
10.
最終的なモデル ● シングルモデル ○ LightGBM
(>600 features) ■ 訓練時間(iteration数の決定+全データでの訓練): 1時間未満 ■ 使用メモリ: 100GB未満 ■ 計算環境: AWSのr3.8xlarge (32CPUs, 244GB memory) ○ 5個のdown-samplingされたデータセットで構築して平均を計算 ● アンサンブル ○ 材料 ■ 異なる特徴量・パラメータのLightGBMモデル ■ 三層のニューラルネットワーク ○ 上記の材料でRank averaging (Kaggle Ensembling Guide | MLWave)
13.
実装上の工夫 ● 特徴量は毎回計算せずに一度計算したらファイルでキャッシュする ○ 全訓練データに対する特徴量をファイルに書いたらディスク不足に ○
特徴量を作る前にサンプリングして、そのインデックスに対応する特徴 量だけ保存するように変更 ● データセットも特徴量もfeather形式で保存した ○ https://github.com/wesm/feather ○ 訓練データが数秒で読めるように(CSVだと1分以上) ● 全探索的な特徴量生成をC++で実装 ○ Pandasでカテゴリ変数の組でのgroupingを高速を行う方法がわからなか った(Click time deltaの計算に必要) ○ C++では31通りの特徴量の計算がシングルスレッドで1時間程度
14.
最終的な特徴量とモデルのパラメータ 説明しません。雰囲気だけ
Editor's Notes
#7
Todo: 引用をちゃんとしたものにする
Download