LDAを用いた教師なし単語分類

LDAを使った教師なし単語分類

LDAについて
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、４年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
LDAの構造
- 文章中の各単語がそれぞれ背景
にトピックを持つ
- 各文章は様々なトピックが混合
されている 20% 20%60%文章:

単語分類の手順
大リーグは９日、各地であり、ブル
ワーズの青木はカージナルス戦に１
番右翼で出場し、９回に同点の２点
本塁打を放つなど５打数２安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る

た。
を割り振る
2.文章を任意に選び、更にその中
の単語を任意に選ぶ

た。
を割り振る
3.以下の確率で選んだ単語wのトピ
ックを変更する
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
( は「選んだ単語を除く」という意味)

た。
を割り振る

を割り振る
4. 2と3の繰り返し(収束するまで)
た。

5.各背景トピックを持つ単語を
数え上げる
た。
トピック1
同点:1
競技性:1
トピック2
大リーグ:1
青木:1
カージナルス:1
本塁打:1
報道:1
トピック3
発祥:1
ロンドン:1
パラリンピック:1
世界記録:1
リオデジャネイロ:1

ニュース記事に適用してみる

セットアップ
単語の抽出: 30万語登録したキーワード辞書による
データ: スポーツの記事 2000 件
トピック数: 15
, : 全て 0.01

結果:
男子:85
大会:64
選手:63
メートル:61
女子:59
メダル:56
日本:54
金メダル:49
車いす:45
ロンドンパラリンピック:45
ゴルフ:129
ツアー:110
ヤード:94
オープン:91
女子:86
国内:85
大会:85
スタート:85
ホール:70
男子:63
試合:333
安打:205
監督:205
阪神:202
選手:178
広島:164
投手:156
連続:136
巨人:131
野球:122
選手:220
試合:212
Goa:152
監督:133
クラブ:122
大会:100
スペイン:97
世界:93
ワールドカップ:81
時間:76
オートスポーツ:54
レース:52
F1:40
イタリア:33
マシン:32
ドライバー:26
時間:15
タイム:15
ステージ:15
試合:246
日本:187
アジア最終予選:174
監督:168
日本代表:162
選手:160
イラク:136
サッカー:118
ブラジル:114
自分:113
大相撲:63
秋場所:62
大関:51
場所:48
両国国技館:44
東京:37
横綱:35
琴奨菊:35
日馬富士:35
初日:34
王者:54
東京:46
大会:33
カード:28
イベント:26
トーナメント:25
試合:24
王座:20
ジム:19
世界:17
女子:29
スポニチ:26
東京:25
大会:23
関係者:23
五輪:22
来年:20
ロンドン五輪:20
指導:16
東京都:15
15回以上登場した単語のみ表示
残り6トピック中には,
15回以上登場した単語が0
だったので表示していない
数字は各トピックに属する単語
の数
スポーツの各トピックごとに単語が分類できた
1つ1つが
トピックに対応

LDAを用いた教師なし単語分類

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (7)

Recently uploaded

Recently uploaded (11)

LDAを用いた教師なし単語分類