SlideShare a Scribd company logo
1 of 12
Download to read offline
LDAを使った教師なし単語分類
概要
LDAについて
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
LDAの構造
- 文章中の各単語がそれぞれ背景
にトピックを持つ
- 各文章は様々なトピックが混合
されている 20% 20%60%文章:
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
3.以下の確率で選んだ単語wのトピ
ックを変更する
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
単語分類の手順
( ­ は「選んだ単語を除く」という意味)
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
3.以下の確率で選んだ単語wのトピ
ックを変更する
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
( ­ は「選んだ単語を除く」という意味)
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
3.以下の確率で選んだ単語wのトピ
ックを変更する
4. 2と3の繰り返し(収束するまで)
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
( ­ は「選んだ単語を除く」という意味)
5.各背景トピックを持つ単語を
 数え上げる
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
トピック1
同点:1
競技性:1
トピック2
大リーグ:1
青木:1
カージナルス:1
本塁打:1
報道:1
トピック3
発祥:1
ロンドン:1
パラリンピック:1
世界記録:1
リオデジャネイロ:1
ニュース記事に適用してみる
セットアップ
単語の抽出: 30万語登録したキーワード辞書による
データ: スポーツの記事 2000 件
トピック数: 15
, : 全て 0.01
結果:
男子:85
大会:64
選手:63
メートル:61
女子:59
メダル:56
日本:54
金メダル:49
車いす:45
ロンドンパラリンピック:45
ゴルフ:129
ツアー:110
ヤード:94
オープン:91
女子:86
国内:85
大会:85
スタート:85
ホール:70
男子:63
試合:333
安打:205
監督:205
阪神:202
選手:178
広島:164
投手:156
連続:136
巨人:131
野球:122
選手:220
試合:212
Goa:152
監督:133
クラブ:122
大会:100
スペイン:97
世界:93
ワールドカップ:81
時間:76
オートスポーツ:54
レース:52
F1:40
イタリア:33
マシン:32
ドライバー:26
時間:15
タイム:15
ステージ:15
試合:246
日本:187
アジア最終予選:174
監督:168
日本代表:162
選手:160
イラク:136
サッカー:118
ブラジル:114
自分:113
大相撲:63
秋場所:62
大関:51
場所:48
両国国技館:44
東京:37
横綱:35
琴奨菊:35
日馬富士:35
初日:34
王者:54
東京:46
大会:33
カード:28
イベント:26
トーナメント:25
試合:24
王座:20
ジム:19
世界:17
女子:29
スポニチ:26
東京:25
大会:23
関係者:23
五輪:22
来年:20
ロンドン五輪:20
指導:16
東京都:15
15回以上登場した単語のみ表示
残り6トピック中には,
15回以上登場した単語が0
だったので表示していない
数字は各トピックに属する単語
の数
スポーツの各トピックごとに単語が分類できた
1つ1つが
トピックに対応

More Related Content

What's hot

不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
 

What's hot (20)

【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agents【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agents
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...
【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...
【DL輪読会】FactorVAE: A Probabilistic Dynamic Factor Model Based on Variational A...
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
関数データ解析の概要とその方法
関数データ解析の概要とその方法関数データ解析の概要とその方法
関数データ解析の概要とその方法
 
A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”A summary on “On choosing and bounding probability metrics”
A summary on “On choosing and bounding probability metrics”
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
ベイジアンディープニューラルネット
ベイジアンディープニューラルネットベイジアンディープニューラルネット
ベイジアンディープニューラルネット
 
【DL輪読会】Factory: Fast Contact for Robotic Assembly
【DL輪読会】Factory: Fast Contact for Robotic Assembly【DL輪読会】Factory: Fast Contact for Robotic Assembly
【DL輪読会】Factory: Fast Contact for Robotic Assembly
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 

Viewers also liked (7)

LDA入門
LDA入門LDA入門
LDA入門
 
Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析
 
Machine Learning Bootstrap
Machine Learning BootstrapMachine Learning Bootstrap
Machine Learning Bootstrap
 
スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習
 
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデル
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 

Recently uploaded

Recently uploaded (11)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

LDAを用いた教師なし単語分類