SlideShare a Scribd company logo
1 of 23
Download to read offline
論文紹介
Detecting Research Topics via the
Correlation between Graphs and Texts
KDD 07 August 12-15
筑波大学CS専攻1年 北川データ工学研究室
伊藤寛祥
発表の流れ
• 概要
• 提案手法
• 実験
• 結論
2
概要
• 近年,トピック分析に関する研究は活発に行われて
いる
• この論文では,リンク情報を持つ大規模なテキスト
データからのトピック分析に焦点を当てる
• この論文では,グラフ分析を用いた新しいトピック
検出手法を提案する
3
手法のアプローチ
• この手法では
• 単語がトピックとして振る舞うときの文書集合にお
ける分布
• 引用関係のグラフの形状
から単語の トピック らしさを算出
• 単語がトピックとして振る舞うときはグ
ラフが密に結合しているはずである
4
単語と引用グラフ
5
α
α
α
α
α
α
α
α α
α
α
単語と引用関係
6
α
α
α
α
α
α
α
α
α
α
α
α
η
η
η
η
η
η
η
η
η
η
η
η
η
単語αを含む文書の引用関係 単語ηを含む文書の引用関係
単語αはトピック 単語ηはトピックではない
単語の引用関係のグラフの形状から
単語のトピックらしさを算出する
定義
• この論文で扱う 単語 は n-gram として扱う
• 例. network , for the , association rule mining
• 単語Aをもつ文書のグラフ  は,文書全体からな
る引用グラフ の部分グラフである
• 単語Aの引用グラフ は以下で定義される
7
GA
Gall
V (GA) = {d|document d contains a term A, d 2 V (Gall)}
E(GA) = {e(di, dj)|di, dj 2 G(GA), e(di, dj) 2 E(Gall)}
GA
トピックらしさの算出
• ある単語Aが与えられた時,単語Aがトピックとして振る舞うか否
かを数値として算出する
• H1  : 単語Aはトピックとして振る舞う
• H0  : 単語Aはトピックとして振る舞わない
•    :  の形状
• H1が与えられた時の    の尤度とH0が与えられた時の   
の尤度との差をTopicScore(A)とする
8
TopicScore(A)
= log(P(O(GA)|H1)) log(P(O(GA)|H0))
= log
✓
P(O(GA)|H1)
P(O(GA)|H0)
◆
O(GA)
O(GA) O(GA)
GA
単語グラフの形状が「トピックらしい」とは
•   における各ノードに関して,少なくとも一本   内のノードに
つながるリンクが存在しているか
•    :   のノードの数
•   :   のノードのうち少なくとも一本   内につながるリンクを持つノードの数
• :単語Aをトピックと過程したとき,各ノードのリンクが少なくとも一本   内に
つながる確率(1に近い値.パラメータ)
9
GA GA
log(P(O(GA)|H1))
= log
Y
i
P(Oi(GA)|H1)
!
= nc.Alog(pc) + (nA nc.A)log(1 pc)
nc.A
nA GA
GA GA
pc
トピックとして振る舞う単語
は引用元にも存在しているは
ずである
GA
トピックらしさ
• 単純なリンクの多さで トピックらしさ を算出する
ことは不可能
10
単語グラフの形状が「トピックらしくない」とは
•   における各ノードに関して少なくとも一本  
におけるノードにランダムにつながっていないか
11
GA GA
単語Aはストップワードではないか
• H0は, 単語Aはストップワードとして振る舞う
単語グラフの形状が「トピックらしくない」とは
•   における各ノードに関して少なくとも一本  
におけるノードにランダムにつながっていないか
12
GA GA
GA
GA   におけるノード i においてランダム
な選出で  内にリンクがつながる確率GA
nA 1
N 1
?
?
   におけるノード i においてランダムな選出
で  内に一本でもリンクがつながる確率
GA
GA
1
✓
1
nA 1
N 1
◆li
li :ノード i における引用リンクの総数
N :グラフ全体におけるノードの数
単語グラフの形状が「トピックらしくない」とは
•   における各ノードに関して少なくとも一本  
におけるノードにランダムにつながっていないか
13
GA GA
log(P(O|H0))
=
X
i
log(P(Oi(GA)|H0))
=
X
i2Vc(GA)
log 1
✓
1
nA 1
N 1
◆li
!
+
X
i2(V (GA) Vc(GA))
li log
✓
1
nA 1
N 1
◆
Vc(GA) : におけるノードのうち少なくとも
一本  にリンクを持つノード
GA
GA
実験 1
• 論文データベースでこの手法の有用性を検証する
• ArXiv
• 物理学が中心の論文データベース
• 1991 2006年の主要な7分野の論文を取得
• 214,546件の論文,2,165,170の引用リンクを取得
• 論文の内容は,アブストラクト,引用情報
• 137,098単語(bi-gram)に関して解析(出現頻度があまりに少ない
単語は除去)
14
ArXivにおけるトピックらしい単語ランキング:上位
15
n :   におけるノード数GA
nc :  におけるノード
のうち,少なくとも一本
  へつながるリンク
を持っているノード数
GA
GA
|E| :  におけるノードが
持つリンクの総数
GA
ArXivにおけるトピックらしい単語ランキング:下位
16
ランキング下位は
ストップワード
TopicScore = log(P(O(GA)|H1))
log(P(O(GA)|H0))
帰無仮説が優位
になったため
ArXivにおけるトピックらしい単語ランキング:中位
17
1,971位 :
two-dimensional qcd のグラフ
かなり粒度の細かい
トピックまで発見できる
グラフのノード数とランキングの関係
18
縦軸:log(グラフのノード数)
横軸:単語のランク
実験 2
• CiteSeerX
• 計算機科学に関する論文データベース
• 1994 2004年の論文を取得
• 716,771件の論文,1,740,326の引用リンクを取得
• 論文の内容は,タイトル,アブストラクト,引用情報
• 631,839単語(bi-gram)に関して解析(出現頻度があまりに少ない
単語は除去)
19
CiteSeerXにおけるトピックランキングの変遷
20
1999年までの文書
からのトピック
2000年からの文書
からのトピック
1999年までのランキングには存在
しなかった単語が上位に
トピックの発展
• 全文書における,トピックを含む文書の割合からト
ピックの流行度を算出
21
・縦軸:トピックを持つ
文書の割合
・横軸:年
トピックの発展
22
結論
• この論文では,グラフの形状と単語の分布の関係か
らトピックらしい単語を検出する手法を提案した
• トピックらしさによる単語のランキング
• ストップワードの検出
• ランキングによるトピックの粒度の算出
• 単語の流行度の算出
23

More Related Content

Viewers also liked

【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016cvpaper. challenge
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016cvpaper. challenge
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016cvpaper. challenge
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016cvpaper. challenge
 
Robust Large-Scale Machine Learning in the Cloud
Robust Large-Scale Machine Learning in the CloudRobust Large-Scale Machine Learning in the Cloud
Robust Large-Scale Machine Learning in the CloudYuto Yamaguchi
 

Viewers also liked (8)

【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
 
【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016
 
Robust Large-Scale Machine Learning in the Cloud
Robust Large-Scale Machine Learning in the CloudRobust Large-Scale Machine Learning in the Cloud
Robust Large-Scale Machine Learning in the Cloud
 

Similar to Detecting Research Topics via the Correlation between Graphs and Texts

トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本hoxo_m
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTakanori Nakai
 
Rm20140730 15key
Rm20140730 15keyRm20140730 15key
Rm20140730 15keyyouwatari
 
Survey of Scientific Publication Analysis by NLP and CV
Survey of Scientific Publication Analysis by NLP and CVSurvey of Scientific Publication Analysis by NLP and CV
Survey of Scientific Publication Analysis by NLP and CVShintaro Yamamoto
 
An efficient framework for learning sentence representations
An efficient framework for learning sentence representationsAn efficient framework for learning sentence representations
An efficient framework for learning sentence representationsYuya Soneoka
 
テキストマイニング930
テキストマイニング930テキストマイニング930
テキストマイニング930mina127
 
ICDE2012勉強会:Social Media
ICDE2012勉強会:Social MediaICDE2012勉強会:Social Media
ICDE2012勉強会:Social MediaYuto Yamaguchi
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方Satoshi Miura
 

Similar to Detecting Research Topics via the Correlation between Graphs and Texts (9)

トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
 
論文の書き方入門 2017
論文の書き方入門 2017論文の書き方入門 2017
論文の書き方入門 2017
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
 
Rm20140730 15key
Rm20140730 15keyRm20140730 15key
Rm20140730 15key
 
Survey of Scientific Publication Analysis by NLP and CV
Survey of Scientific Publication Analysis by NLP and CVSurvey of Scientific Publication Analysis by NLP and CV
Survey of Scientific Publication Analysis by NLP and CV
 
An efficient framework for learning sentence representations
An efficient framework for learning sentence representationsAn efficient framework for learning sentence representations
An efficient framework for learning sentence representations
 
テキストマイニング930
テキストマイニング930テキストマイニング930
テキストマイニング930
 
ICDE2012勉強会:Social Media
ICDE2012勉強会:Social MediaICDE2012勉強会:Social Media
ICDE2012勉強会:Social Media
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方
 

More from Shunya Ueta

Introducing "Challenges and research opportunities in eCommerce search and re...
Introducing "Challenges and research opportunities in eCommerce search and re...Introducing "Challenges and research opportunities in eCommerce search and re...
Introducing "Challenges and research opportunities in eCommerce search and re...Shunya Ueta
 
Auto Content Moderation in C2C e-Commerce at OpML20
Auto Content Moderation in C2C e-Commerce at OpML20Auto Content Moderation in C2C e-Commerce at OpML20
Auto Content Moderation in C2C e-Commerce at OpML20Shunya Ueta
 
How to evaluate & manage machine learning model #daft
How to evaluate & manage machine learning model  #daftHow to evaluate & manage machine learning model  #daft
How to evaluate & manage machine learning model #daftShunya Ueta
 
Introduction to argo
Introduction to argoIntroduction to argo
Introduction to argoShunya Ueta
 
Introduction to TFX (TFDV+TFT+TFMA)
Introduction to TFX (TFDV+TFT+TFMA)Introduction to TFX (TFDV+TFT+TFMA)
Introduction to TFX (TFDV+TFT+TFMA)Shunya Ueta
 
Kubeflowで何ができて何ができないのか #DEvFest18
Kubeflowで何ができて何ができないのか #DEvFest18Kubeflowで何ができて何ができないのか #DEvFest18
Kubeflowで何ができて何ができないのか #DEvFest18Shunya Ueta
 
How to break the machine learning system barrier ?
How to break the machine learning system barrier ?How to break the machine learning system barrier ?
How to break the machine learning system barrier ?Shunya Ueta
 
TFX: A tensor flow-based production-scale machine learning platform
TFX: A tensor flow-based production-scale machine learning platformTFX: A tensor flow-based production-scale machine learning platform
TFX: A tensor flow-based production-scale machine learning platformShunya Ueta
 
Applied machine learning at facebook a datacenter infrastructure perspective...
Applied machine learning at facebook  a datacenter infrastructure perspective...Applied machine learning at facebook  a datacenter infrastructure perspective...
Applied machine learning at facebook a datacenter infrastructure perspective...Shunya Ueta
 
コミュニティサイトを爆速で作成し、お手軽に運用する方法
コミュニティサイトを爆速で作成し、お手軽に運用する方法コミュニティサイトを爆速で作成し、お手軽に運用する方法
コミュニティサイトを爆速で作成し、お手軽に運用する方法Shunya Ueta
 

More from Shunya Ueta (10)

Introducing "Challenges and research opportunities in eCommerce search and re...
Introducing "Challenges and research opportunities in eCommerce search and re...Introducing "Challenges and research opportunities in eCommerce search and re...
Introducing "Challenges and research opportunities in eCommerce search and re...
 
Auto Content Moderation in C2C e-Commerce at OpML20
Auto Content Moderation in C2C e-Commerce at OpML20Auto Content Moderation in C2C e-Commerce at OpML20
Auto Content Moderation in C2C e-Commerce at OpML20
 
How to evaluate & manage machine learning model #daft
How to evaluate & manage machine learning model  #daftHow to evaluate & manage machine learning model  #daft
How to evaluate & manage machine learning model #daft
 
Introduction to argo
Introduction to argoIntroduction to argo
Introduction to argo
 
Introduction to TFX (TFDV+TFT+TFMA)
Introduction to TFX (TFDV+TFT+TFMA)Introduction to TFX (TFDV+TFT+TFMA)
Introduction to TFX (TFDV+TFT+TFMA)
 
Kubeflowで何ができて何ができないのか #DEvFest18
Kubeflowで何ができて何ができないのか #DEvFest18Kubeflowで何ができて何ができないのか #DEvFest18
Kubeflowで何ができて何ができないのか #DEvFest18
 
How to break the machine learning system barrier ?
How to break the machine learning system barrier ?How to break the machine learning system barrier ?
How to break the machine learning system barrier ?
 
TFX: A tensor flow-based production-scale machine learning platform
TFX: A tensor flow-based production-scale machine learning platformTFX: A tensor flow-based production-scale machine learning platform
TFX: A tensor flow-based production-scale machine learning platform
 
Applied machine learning at facebook a datacenter infrastructure perspective...
Applied machine learning at facebook  a datacenter infrastructure perspective...Applied machine learning at facebook  a datacenter infrastructure perspective...
Applied machine learning at facebook a datacenter infrastructure perspective...
 
コミュニティサイトを爆速で作成し、お手軽に運用する方法
コミュニティサイトを爆速で作成し、お手軽に運用する方法コミュニティサイトを爆速で作成し、お手軽に運用する方法
コミュニティサイトを爆速で作成し、お手軽に運用する方法
 

Detecting Research Topics via the Correlation between Graphs and Texts