Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
sleepy_yoshi
PDF, PPTX
7,192 views
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
2014-09-23 KDD2014勉強会の発表資料 https://atnd.org/events/55940
Technology
◦
Read more
22
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 29
2
/ 29
3
/ 29
4
/ 29
5
/ 29
6
/ 29
7
/ 29
8
/ 29
9
/ 29
10
/ 29
11
/ 29
12
/ 29
13
/ 29
14
/ 29
15
/ 29
16
/ 29
17
/ 29
18
/ 29
19
/ 29
20
/ 29
21
/ 29
22
/ 29
23
/ 29
24
/ 29
25
/ 29
26
/ 29
27
/ 29
28
/ 29
29
/ 29
More Related Content
PDF
SVM実践ガイド (A Practical Guide to Support Vector Classification)
by
sleepy_yoshi
PDF
MLP SVM Chapter 7 分割法
by
Taikai Takeda
PDF
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
by
Tatsuya Tojima
PDF
Active Learning 入門
by
Shuyo Nakatani
PDF
Active Learning from Imperfect Labelers @ NIPS読み会・関西
by
Taku Tsuzuki
PDF
クラスタリングとレコメンデーション資料
by
洋資 堅田
PDF
はてなインターン「機械学習」
by
Hatena::Engineering
PDF
画像認識で物を見分ける
by
Kazuaki Tanida
SVM実践ガイド (A Practical Guide to Support Vector Classification)
by
sleepy_yoshi
MLP SVM Chapter 7 分割法
by
Taikai Takeda
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
by
Tatsuya Tojima
Active Learning 入門
by
Shuyo Nakatani
Active Learning from Imperfect Labelers @ NIPS読み会・関西
by
Taku Tsuzuki
クラスタリングとレコメンデーション資料
by
洋資 堅田
はてなインターン「機械学習」
by
Hatena::Engineering
画像認識で物を見分ける
by
Kazuaki Tanida
What's hot
PDF
それっぽく感じる機械学習
by
Yuki Igarashi
PDF
データマイニング勉強会3
by
Yohei Sato
PPTX
Pythonとdeep learningで手書き文字認識
by
Ken Morishita
PDF
パターン認識 第10章 決定木
by
Miyoshi Yuya
PDF
機械学習を使った時系列売上予測
by
DataRobotJP
KEY
アンサンブル学習
by
Hidekazu Tanaka
PDF
[第2版] Python機械学習プログラミング 第4章
by
Haruki Eguchi
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
by
Satoshi Kato
PPTX
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
by
Daiyu Hatakeyama
PDF
Pythonによる機械学習入門 ~Deep Learningに挑戦~
by
Yasutomo Kawanishi
PDF
[第2版] Python機械学習プログラミング 第5章
by
Haruki Eguchi
PDF
Sakusaku svm
by
antibayesian 俺がS式だ
PDF
ランダムフォレスト
by
Kinki University
PDF
最近のRのランダムフォレストパッケージ -ranger/Rborist-
by
Shintaro Fukushima
PDF
ルールベースから機械学習への道 公開用
by
nishio
PDF
第1回 Jubatusハンズオン
by
Yuya Unno
PDF
2013.07.15 はじパタlt scikit-learnで始める機械学習
by
Motoya Wakiyama
PDF
Random Forests
by
Hironobu Fujiyoshi
PDF
mxnetで頑張る深層学習
by
Takashi Kitano
PDF
Jubatusの特徴変換と線形分類器の仕組み
by
JubatusOfficial
それっぽく感じる機械学習
by
Yuki Igarashi
データマイニング勉強会3
by
Yohei Sato
Pythonとdeep learningで手書き文字認識
by
Ken Morishita
パターン認識 第10章 決定木
by
Miyoshi Yuya
機械学習を使った時系列売上予測
by
DataRobotJP
アンサンブル学習
by
Hidekazu Tanaka
[第2版] Python機械学習プログラミング 第4章
by
Haruki Eguchi
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
by
Satoshi Kato
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
by
Daiyu Hatakeyama
Pythonによる機械学習入門 ~Deep Learningに挑戦~
by
Yasutomo Kawanishi
[第2版] Python機械学習プログラミング 第5章
by
Haruki Eguchi
Sakusaku svm
by
antibayesian 俺がS式だ
ランダムフォレスト
by
Kinki University
最近のRのランダムフォレストパッケージ -ranger/Rborist-
by
Shintaro Fukushima
ルールベースから機械学習への道 公開用
by
nishio
第1回 Jubatusハンズオン
by
Yuya Unno
2013.07.15 はじパタlt scikit-learnで始める機械学習
by
Motoya Wakiyama
Random Forests
by
Hironobu Fujiyoshi
mxnetで頑張る深層学習
by
Takashi Kitano
Jubatusの特徴変換と線形分類器の仕組み
by
JubatusOfficial
Similar to KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
PDF
Twitterユーザに対するゼロショットタグ付け
by
Kohei Shinden
PPTX
Coling読み会 2014
by
ai_06_14
PDF
20201010 kaggle tweet コンペの話
by
taguchi naoya
PDF
【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining
by
cvpaper. challenge
PDF
機械学習を用いた予測モデル構築・評価
by
Shintaro Fukushima
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
by
Preferred Networks
PDF
第1回 Jubatusハンズオン
by
JubatusOfficial
PDF
computer visionen 勉強会
by
ShuNakamura2
PDF
単一の深層学習モデルによる不確実性の定量化の紹介 ~その予測結果正しいですか?~
by
Fumihiko Takahashi
PPTX
機械学習を民主化する取り組み
by
Yoshitaka Ushiku
PDF
Pythonによる機械学習入門〜基礎からDeep Learningまで〜
by
Yasutomo Kawanishi
PDF
論文紹介:"RAt: Injecting Implicit Bias for Text-To-Image Prompt Refinement Models...
by
Toru Tamaki
PDF
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
by
Hokuto Kagaya
PPTX
Long-Tailed Classificationの最新動向について
by
Plot Hong
PPTX
DNNの曖昧性に関する研究動向
by
Naoki Matsunaga
PDF
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
by
Toru Tamaki
PDF
Jubatusにおける大規模分散オンライン機械学習
by
Preferred Networks
PDF
偏りのある時系列データ の分類について
by
Masato Miwada
PPTX
NeurIPS2019参加報告
by
Masanari Kimura
PDF
[第2版]Python機械学習プログラミング 第8章
by
Haruki Eguchi
Twitterユーザに対するゼロショットタグ付け
by
Kohei Shinden
Coling読み会 2014
by
ai_06_14
20201010 kaggle tweet コンペの話
by
taguchi naoya
【ECCV 2018】Exploring the Limits of Weakly Supervised Pretraining
by
cvpaper. challenge
機械学習を用いた予測モデル構築・評価
by
Shintaro Fukushima
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
by
Preferred Networks
第1回 Jubatusハンズオン
by
JubatusOfficial
computer visionen 勉強会
by
ShuNakamura2
単一の深層学習モデルによる不確実性の定量化の紹介 ~その予測結果正しいですか?~
by
Fumihiko Takahashi
機械学習を民主化する取り組み
by
Yoshitaka Ushiku
Pythonによる機械学習入門〜基礎からDeep Learningまで〜
by
Yasutomo Kawanishi
論文紹介:"RAt: Injecting Implicit Bias for Text-To-Image Prompt Refinement Models...
by
Toru Tamaki
2014/5/29 東大相澤山崎研勉強会:パターン認識とニューラルネットワーク,Deep Learningまで
by
Hokuto Kagaya
Long-Tailed Classificationの最新動向について
by
Plot Hong
DNNの曖昧性に関する研究動向
by
Naoki Matsunaga
論文紹介:ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models
by
Toru Tamaki
Jubatusにおける大規模分散オンライン機械学習
by
Preferred Networks
偏りのある時系列データ の分類について
by
Masato Miwada
NeurIPS2019参加報告
by
Masanari Kimura
[第2版]Python機械学習プログラミング 第8章
by
Haruki Eguchi
More from sleepy_yoshi
PDF
KDD2013読み会: Direct Optimization of Ranking Measures
by
sleepy_yoshi
PDF
PRML復々習レーン#15 前回までのあらすじ
by
sleepy_yoshi
PDF
PRML復々習レーン#14 前回までのあらすじ
by
sleepy_yoshi
PDF
PRML復々習レーン#13 前回までのあらすじ
by
sleepy_yoshi
PDF
PRML復々習レーン#12 前回までのあらすじ
by
sleepy_yoshi
PDF
ICML2013読み会: Distributed training of Large-scale Logistic models
by
sleepy_yoshi
PDF
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
by
sleepy_yoshi
PDF
計算論的学習理論入門 -PAC学習とかVC次元とか-
by
sleepy_yoshi
PDF
PRML復々習レーン#11 前回までのあらすじ
by
sleepy_yoshi
PDF
SMO徹底入門 - SVMをちゃんと実装する
by
sleepy_yoshi
PDF
PRML復々習レーン#10 前回までのあらすじ
by
sleepy_yoshi
PDF
PRML復々習レーン#10 7.1.3-7.1.5
by
sleepy_yoshi
PDF
PRML復々習レーン#9 6.3-6.3.1
by
sleepy_yoshi
PDF
PRML復々習レーン#9 前回までのあらすじ
by
sleepy_yoshi
PDF
PRML復々習レーン#7 前回までのあらすじ
by
sleepy_yoshi
PDF
SIGIR2012勉強会 23 Learning to Rank
by
sleepy_yoshi
PDF
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
by
sleepy_yoshi
PDF
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
by
sleepy_yoshi
PDF
PRML復々習レーン#3 3.1.3-3.1.5
by
sleepy_yoshi
PDF
PRML復々習レーン#3 前回までのあらすじ
by
sleepy_yoshi
KDD2013読み会: Direct Optimization of Ranking Measures
by
sleepy_yoshi
PRML復々習レーン#15 前回までのあらすじ
by
sleepy_yoshi
PRML復々習レーン#14 前回までのあらすじ
by
sleepy_yoshi
PRML復々習レーン#13 前回までのあらすじ
by
sleepy_yoshi
PRML復々習レーン#12 前回までのあらすじ
by
sleepy_yoshi
ICML2013読み会: Distributed training of Large-scale Logistic models
by
sleepy_yoshi
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
by
sleepy_yoshi
計算論的学習理論入門 -PAC学習とかVC次元とか-
by
sleepy_yoshi
PRML復々習レーン#11 前回までのあらすじ
by
sleepy_yoshi
SMO徹底入門 - SVMをちゃんと実装する
by
sleepy_yoshi
PRML復々習レーン#10 前回までのあらすじ
by
sleepy_yoshi
PRML復々習レーン#10 7.1.3-7.1.5
by
sleepy_yoshi
PRML復々習レーン#9 6.3-6.3.1
by
sleepy_yoshi
PRML復々習レーン#9 前回までのあらすじ
by
sleepy_yoshi
PRML復々習レーン#7 前回までのあらすじ
by
sleepy_yoshi
SIGIR2012勉強会 23 Learning to Rank
by
sleepy_yoshi
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
by
sleepy_yoshi
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
by
sleepy_yoshi
PRML復々習レーン#3 3.1.3-3.1.5
by
sleepy_yoshi
PRML復々習レーン#3 前回までのあらすじ
by
sleepy_yoshi
Recently uploaded
PDF
20251210_MultiDevinForEnterprise on Devin 1st Anniv Meetup
by
Masaki Yamakawa
PDF
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #1
by
Tasuku Takahashi
PDF
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #2
by
Tasuku Takahashi
PDF
流行りに乗っかるClaris FileMaker 〜AI関連機能の紹介〜 by 合同会社イボルブ
by
Evolve LLC.
PDF
エンジニアが選ぶべきAIエディタ & Antigravity 活用例@ウェビナー「触ってみてどうだった?Google Antigravity 既存IDEと...
by
NorihiroSunada
PPTX
楽々ナレッジベース「楽ナレ」3種比較 - Dify / AWS S3 Vector / Google File Search Tool
by
Kiyohide Yamaguchi
20251210_MultiDevinForEnterprise on Devin 1st Anniv Meetup
by
Masaki Yamakawa
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #1
by
Tasuku Takahashi
Machine Tests Benchmark Suite. Explain github.com/alexziskind1/machine_tests #2
by
Tasuku Takahashi
流行りに乗っかるClaris FileMaker 〜AI関連機能の紹介〜 by 合同会社イボルブ
by
Evolve LLC.
エンジニアが選ぶべきAIエディタ & Antigravity 活用例@ウェビナー「触ってみてどうだった?Google Antigravity 既存IDEと...
by
NorihiroSunada
楽々ナレッジベース「楽ナレ」3種比較 - Dify / AWS S3 Vector / Google File Search Tool
by
Kiyohide Yamaguchi
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
1.
KDD2014勉強会: Large-Scale High-Precision
Topic Modeling on Twitter 2014-09-23 Yoshihiko Suhara @sleepy_yoshi ※発表後、訓練データの獲得方法について修正しました
2.
Large-Scale High-Precision Topic
Modeling on Twitterby ShuangYang, Alek Kolcz, Andy Schlaikjer, Pankaj Gupta (Twitter, Inc.) •大量に蓄積されるTweetに対して、あらかじめ用意した300+種類の“ト ピック” 付与問題をマルチラベル問題として解く –いわゆる“Topic Model” な話ではない –本発表ではトピックの代わりにタグと表現 •様々な工夫 –訓練データの自動獲得 –高速な特徴抽出 –閾値のチューニング –タグ階層構造の利用 –など •Precision 93% (37% coverage) のタグ割り当て精度を達成 Twitterで実運用可能なレベルの高Precisionのタグ割り当て機能を実現 1枚概要 Industry paper 2 ※Recall 重視の方法については別のpaperがunder review中
3.
システム全体図(1/6) 3
4.
システム全体図(2/6) 訓練データは半自動獲得します 4
5.
システム全体図(3/6) 各タグごとに2値分類器(Logistic Regression)
を用意します 5
6.
システム全体図(4/6) 閾値のチューニングを行います 6
7.
システム全体図(5/6) ユーザとのインタラクティブなインタフェースを用いて誤り事例に 対してモデルを修正する仕組みを導入しています
7
8.
システム全体図(6/6) 300+種類のラベルを付与するのは大変なので、タグ毎に {-1,+1}
の2値ラベル付与をクラウドワーカに依頼 8 [Industryぽいところ] パラメータチューニングと 評価に重点的に人手を利用
9.
タクソノミの構築 ODPやFreebaseをベースに階層構造を持ったトピック分類体系 を人手で修正・構築します
•最大6階層、300+のトピック 階層構造の情報は分類器構築に利用(後述) 9
10.
テキスト分類を用いたタグ判定 様々な工夫をこらしています •4.1
Chatter detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 10
11.
テキスト分類を用いたタグ判定 •4.1 Chatter
detection –単なる「おしゃべり」Tweetの除去([3]を利用) •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 11
12.
テキスト分類を用いたタグ判定 •4.1 Chatter
detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 12
13.
4.2 Training data
acquisitionCo-training + PU-learning ベースの枠組みで正例、負例を判定し、訓練デー タを半自動獲得します •Co-training –特徴空間を2つに分けてそれぞれの特徴空間で分類器を構築し、一方の予 測結果を反映してもう一方の分類器のラベルありデータとして用いる半教師 あり学習 –(1) URLベースの分類器+ (2) Tweet本文の分類器 •PU-learning –現在のモデルで確信度が閾値以下の事例を負例とみなす半教師あり学習 13 URLを含む Tweetのみを対象 ※一部ラベルあり ※タグごとに2値分類器を用意する方法ではco-training で正例を増やせれば、他タグの負例とみなせる 安心して負例とみなせる事例を準備するためにPU-learningを使っているものと思われる
14.
4.3 Feature extraction
単語unigramよりも高速な特徴抽出方法を利用します •Binary hashed byte 4gram (Byte4gram) –訓練データ獲得ではTweet 分類に利用 –4byteサイズのsliding windowをd次元にハッシュ •d=1,000,081(?!) •Hashed unigram frequency (Unigram-logTF-norm) –訓練データ獲得ではURL 分類に利用 –1 characterをハッシュ値に変更して、頻度の対数を利用 14
15.
[補足] Unigram-logTF-norm の計算方法
SpeedyFx [13] を利用 • 文字列をそのまま使うと文字列一致の判定コストが高い 15
16.
4.4 Model pretraining
タグ数だけLRを用意して閾値によってタグ付与を判定する方法を採用 •正則化項にはElastic Net regularizer(L1+L2) を利用 正則化項 尤度 ※300クラスのMLRって… 正規化項(分母計算) で死ぬ ICML2013読み会の論文 16
17.
4.4 Model pretraining
タグ数だけLRを用意して閾値によってタグ付与を判定する方法を採用 •正則化項にはElastic Net regularizer(L1+L2) を利用 正則化項 尤度 ※300クラスのMLRって… 正規化項(分母計算) で死ぬ ICML2013読み会の論文 (Twitter社内部のライブラリをひととおり自慢し、速度が大切であることを述べたあとに) 最適化にはバッチ学習を採用と記述 17 ?!
18.
テキスト分類を用いたタグ判定 •4.1 Chatter
detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 18
19.
4.5 Relational regularization
トピック分類体系の階層構造をパラメータ学習に利用 •(1) Label expansion –対象タグの{先祖、子孫}から負例を選択しない –※タグごとに2値分類器を用意している •(2) Cost-sensitive learning –피푒푦, 푦푥= 푐=1 푘푒푦푐푝( 푦=푐|푥) •푒푦푐にはtree distance を利用 •(3) Hierarchical regularization –ペナルティ項を追加: 12 휂 푐=1 푘푤푐−푤parent푐22 性能はどれも同じくらいだったので今回は(1)を採用 19
20.
4.6 Model calibration
クラウドワーカの判定結果を使って各タグの分類器の閾値を 決定します 事前設定の lower bound 푃(푦푐 |풙) 0 1 Crowd workers (1) 確信度毎に箱詰め20
21.
4.6 Model calibration
クラウドワーカの判定結果を使って各タグの分類器の閾値を 決定します 事前設定の lower bound 푃(푦푐 |풙) 0 1 Crowd workers 1.00 0.86 0.72 0.69 0.625 ラベル付与 Precision (1) 確信度毎に箱詰め(2) 判定結果から閾値を決定21
22.
4.6 Model calibration
クラウドワーカの判定結果を使って各タグの分類器の閾値を 決定します 事前設定の lower bound 푃(푦푐 |풙) 0 1 Crowd workers 1.00 0.86 0.72 0.69 0.625 ラベル付与 Precisionの達成目標を 超える最も小さい閾値 を選択 Precision (1) 確信度毎に箱詰め(2) 判定結果から閾値を決定22
23.
テキスト分類を用いたタグ判定 •4.1 Chatter
detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 23
24.
4.8 Diagnosis and
corrective learning アノテータに判定を要求し、corrective learningに基づいて 重み判定します 24
25.
補足: Corrective learning
[Raman+ 12] 特徴空間の排他的な領域ごとにモデルを用意し、各モデルは 当該領域に含まれる訓練データのみを用いて生成 • 領域ごとにモデルを用意する分割統治モデル(学習アルゴリズム、領域 関数は与える) • 追加データは対象領域のモデルのみ更新する モデル分割の話 してなかったけど なぁ… 25
26.
テキスト分類を用いたタグ判定 •4.1 Chatter
detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 26
27.
4.9 Model fine-tuning
全データを使って構築したモデル푤0を事前分布として きれいな訓練データでモデルを学習します • 今回は훿はCVで決定 27 • きれいな訓練データの作り方については詳細記述なし
28.
まとめ 300+種類のタグを90%+のPrecisionで推定可能なシステムを 構築しました
•90%+ のprecisionを達成 –Precision 93% –Tweet Coverage 37% –Topic Coverage 81% •本論文で使用したテクニック –Co-training –PU-learning –Elastic Net regularizer –Extreme Fast Feature Extraction –Threshold calibration –Corrective learning 28
29.
おしまい 29
Download