SlideShare a Scribd company logo
1 of 11
DBpediaを用いた
社会問題に関するタグの自動付与手法
25115166 渡辺 賢
情報工学科 白松研究室
1
背景と目的
大目標:地域の社会問題や,その解決策の共有
社会問題に関する背景を検索する際,社会問題
に関するタグがあれば効率的に検索できる.
2
タグの付与が手動 タグの量が少ない
目的:タグを自動で生成・付与
タグセットの生成
3
社会問題カテゴリおよびその下位カテゴリに属す
るページからページタイトルを抽出
関係ないものは別のカテゴリを辿ってフィ
ルタリング
対象から外すのに利用した
カテゴリ
フィルタA
スタブカテゴリ,
計算機科学,裁判,
作品,社会運動団体,
人物,生物学の分野,
犯罪学,犯罪類型,
平和学,論理学
4
フィルタB
フィルタAで利用した
カテゴリの中から
生物学の分野
を省いたもの
評価方法(自動生成)
再現率
Wikipedia上のページか
ら社会問題に関する
ページを102個選択
適合率
各手法で取得したタグ
候補の中から100個を
選択
5
各手法で取得したタグ
の中に選択された物が
どの程度含まれるかを
計算
被験者にそれらのタグ
が社会問題であるかを
5段階評価で判定.
適合と判定された物が
どの程度含まれるかを
計算(3以上が適合)
自動生成の評価
6
タグの自動付与
対象の記事とタグ名のタイトルを持つ全ての
Wikipedia記事との間で,Cos類似度を計算.
ベクトルの生成には2通りの手法を用いる.
1. TF-IDF
2. パラグラフベクター
閾値以上の類似度となるタグを付与タグとする
7
評価方法(自動付与)
予め集めた社会問題に関する記事10個に
対して,各手法でCos類似度を測定
8
上位最大10個のタグと無作為抽出した下位3個
のタグ合計最大13個を被験者に見せて,タグの
妥当性を7段階で評価.
評価を元に相関係数と正解率を計算.
自動付与の評価(TF-IDF)
9
自動付与の評価
(パラグラフベクター)
10
まとめと今後の課題
再現率,適合率の両方で,
十分な値を得られなかった.
TF-IDFを用いることによっ
て実用に耐えうる値を得る
ことができた.
11
タグの自動生成 タグの自動付与
フィルタリングの方法や,
扱うデータセットを再検討
したい.
例:
サポートベクターマシンの
利用
WordNetの利用
パラグラフベクターの精度
を向上させる手法の検討を
したい.
例:
Wikipedia記事以外の活用
他の手法との組み合わせ

More Related Content

More from siramatu-lab

高出力BLEビーコンによる 認知症高齢者見守りのための 徘徊経路可視化機構の試作
高出力BLEビーコンによる認知症高齢者見守りのための徘徊経路可視化機構の試作高出力BLEビーコンによる認知症高齢者見守りのための徘徊経路可視化機構の試作
高出力BLEビーコンによる 認知症高齢者見守りのための 徘徊経路可視化機構の試作siramatu-lab
 
Web 議論の自動ファシリテーションのための事前知識を用いた質問生成手法
Web 議論の自動ファシリテーションのための事前知識を用いた質問生成手法Web 議論の自動ファシリテーションのための事前知識を用いた質問生成手法
Web 議論の自動ファシリテーションのための事前知識を用いた質問生成手法siramatu-lab
 
Filtering out improper user accounts from twitter user accounts for discoveri...
Filtering out improper user accounts from twitter user accounts for discoveri...Filtering out improper user accounts from twitter user accounts for discoveri...
Filtering out improper user accounts from twitter user accounts for discoveri...siramatu-lab
 
議題の関連情報推薦によるIBIS構造作成支援システムの試作
議題の関連情報推薦によるIBIS構造作成支援システムの試作議題の関連情報推薦によるIBIS構造作成支援システムの試作
議題の関連情報推薦によるIBIS構造作成支援システムの試作siramatu-lab
 
Watanabe civictechforum
Watanabe civictechforumWatanabe civictechforum
Watanabe civictechforumsiramatu-lab
 
Supporting System of Improvisational Ensemble Based on User's Motion Using Sm...
Supporting System of Improvisational Ensemble Based on User's Motion Using Sm...Supporting System of Improvisational Ensemble Based on User's Motion Using Sm...
Supporting System of Improvisational Ensemble Based on User's Motion Using Sm...siramatu-lab
 
Prototype System for Recommending Academic Subjects for Students' Self Design...
Prototype System for Recommending Academic Subjects for Students' Self Design...Prototype System for Recommending Academic Subjects for Students' Self Design...
Prototype System for Recommending Academic Subjects for Students' Self Design...siramatu-lab
 
Tag-based Approaches to Sharing Background Information regarding Social Probl...
Tag-based Approaches to Sharing Background Information regarding Social Probl...Tag-based Approaches to Sharing Background Information regarding Social Probl...
Tag-based Approaches to Sharing Background Information regarding Social Probl...siramatu-lab
 
Improvisation Ensemble Support Systems for Music Beginners based on Body Mot...
Improvisation Ensemble Support Systems for Music  Beginners based on Body Mot...Improvisation Ensemble Support Systems for Music  Beginners based on Body Mot...
Improvisation Ensemble Support Systems for Music Beginners based on Body Mot...siramatu-lab
 
韻律情報による議論の場の空気推定手法の検討
韻律情報による議論の場の空気推定手法の検討韻律情報による議論の場の空気推定手法の検討
韻律情報による議論の場の空気推定手法の検討siramatu-lab
 
即興合奏時のコード進行をユーザがデザインする機構の検討
即興合奏時のコード進行をユーザがデザインする機構の検討即興合奏時のコード進行をユーザがデザインする機構の検討
即興合奏時のコード進行をユーザがデザインする機構の検討siramatu-lab
 
BLEビーコンを所持する徘徊高齢者のいち推定結果可視化機構の試作
BLEビーコンを所持する徘徊高齢者のいち推定結果可視化機構の試作BLEビーコンを所持する徘徊高齢者のいち推定結果可視化機構の試作
BLEビーコンを所持する徘徊高齢者のいち推定結果可視化機構の試作siramatu-lab
 
議論参加者の脳波による議論の場の空気推定手法の検討
議論参加者の脳波による議論の場の空気推定手法の検討議論参加者の脳波による議論の場の空気推定手法の検討
議論参加者の脳波による議論の場の空気推定手法の検討siramatu-lab
 
視線と表情を用いた議論の場の空気の推定手法の検討
視線と表情を用いた議論の場の空気の推定手法の検討視線と表情を用いた議論の場の空気の推定手法の検討
視線と表情を用いた議論の場の空気の推定手法の検討siramatu-lab
 
ipsj全国大会発表スライド_水野
ipsj全国大会発表スライド_水野ipsj全国大会発表スライド_水野
ipsj全国大会発表スライド_水野siramatu-lab
 
2017ipsj全国大会発表スライド_一ノ瀬
2017ipsj全国大会発表スライド_一ノ瀬2017ipsj全国大会発表スライド_一ノ瀬
2017ipsj全国大会発表スライド_一ノ瀬siramatu-lab
 

More from siramatu-lab (17)

高出力BLEビーコンによる 認知症高齢者見守りのための 徘徊経路可視化機構の試作
高出力BLEビーコンによる認知症高齢者見守りのための徘徊経路可視化機構の試作高出力BLEビーコンによる認知症高齢者見守りのための徘徊経路可視化機構の試作
高出力BLEビーコンによる 認知症高齢者見守りのための 徘徊経路可視化機構の試作
 
Web 議論の自動ファシリテーションのための事前知識を用いた質問生成手法
Web 議論の自動ファシリテーションのための事前知識を用いた質問生成手法Web 議論の自動ファシリテーションのための事前知識を用いた質問生成手法
Web 議論の自動ファシリテーションのための事前知識を用いた質問生成手法
 
Filtering out improper user accounts from twitter user accounts for discoveri...
Filtering out improper user accounts from twitter user accounts for discoveri...Filtering out improper user accounts from twitter user accounts for discoveri...
Filtering out improper user accounts from twitter user accounts for discoveri...
 
議題の関連情報推薦によるIBIS構造作成支援システムの試作
議題の関連情報推薦によるIBIS構造作成支援システムの試作議題の関連情報推薦によるIBIS構造作成支援システムの試作
議題の関連情報推薦によるIBIS構造作成支援システムの試作
 
Watanabe civictechforum
Watanabe civictechforumWatanabe civictechforum
Watanabe civictechforum
 
Supporting System of Improvisational Ensemble Based on User's Motion Using Sm...
Supporting System of Improvisational Ensemble Based on User's Motion Using Sm...Supporting System of Improvisational Ensemble Based on User's Motion Using Sm...
Supporting System of Improvisational Ensemble Based on User's Motion Using Sm...
 
Prototype System for Recommending Academic Subjects for Students' Self Design...
Prototype System for Recommending Academic Subjects for Students' Self Design...Prototype System for Recommending Academic Subjects for Students' Self Design...
Prototype System for Recommending Academic Subjects for Students' Self Design...
 
Tag-based Approaches to Sharing Background Information regarding Social Probl...
Tag-based Approaches to Sharing Background Information regarding Social Probl...Tag-based Approaches to Sharing Background Information regarding Social Probl...
Tag-based Approaches to Sharing Background Information regarding Social Probl...
 
Improvisation Ensemble Support Systems for Music Beginners based on Body Mot...
Improvisation Ensemble Support Systems for Music  Beginners based on Body Mot...Improvisation Ensemble Support Systems for Music  Beginners based on Body Mot...
Improvisation Ensemble Support Systems for Music Beginners based on Body Mot...
 
韻律情報による議論の場の空気推定手法の検討
韻律情報による議論の場の空気推定手法の検討韻律情報による議論の場の空気推定手法の検討
韻律情報による議論の場の空気推定手法の検討
 
即興合奏時のコード進行をユーザがデザインする機構の検討
即興合奏時のコード進行をユーザがデザインする機構の検討即興合奏時のコード進行をユーザがデザインする機構の検討
即興合奏時のコード進行をユーザがデザインする機構の検討
 
BLEビーコンを所持する徘徊高齢者のいち推定結果可視化機構の試作
BLEビーコンを所持する徘徊高齢者のいち推定結果可視化機構の試作BLEビーコンを所持する徘徊高齢者のいち推定結果可視化機構の試作
BLEビーコンを所持する徘徊高齢者のいち推定結果可視化機構の試作
 
議論参加者の脳波による議論の場の空気推定手法の検討
議論参加者の脳波による議論の場の空気推定手法の検討議論参加者の脳波による議論の場の空気推定手法の検討
議論参加者の脳波による議論の場の空気推定手法の検討
 
視線と表情を用いた議論の場の空気の推定手法の検討
視線と表情を用いた議論の場の空気の推定手法の検討視線と表情を用いた議論の場の空気の推定手法の検討
視線と表情を用いた議論の場の空気の推定手法の検討
 
Ikeda ica2017
Ikeda ica2017Ikeda ica2017
Ikeda ica2017
 
ipsj全国大会発表スライド_水野
ipsj全国大会発表スライド_水野ipsj全国大会発表スライド_水野
ipsj全国大会発表スライド_水野
 
2017ipsj全国大会発表スライド_一ノ瀬
2017ipsj全国大会発表スライド_一ノ瀬2017ipsj全国大会発表スライド_一ノ瀬
2017ipsj全国大会発表スライド_一ノ瀬
 

白松研卒論発表_渡辺

Editor's Notes

  1. それでは,表記の題目で白松研の渡辺が発表致します.
  2. 近年,社会問題を解決しようとする市民活動で情報技術やWebを活用する機会が増えています. 本研究の大目標は地域の社会問題やその解決策を共有することです. 社会問題に関する背景を検索する際,社会問題に関するタグがあれば効率的に検索することが出来ます. しかし,従来はタグの付与が手動で行われていたり,選択できるタグの種類が少ないという問題がありました. 本研究では,タグの生成とタグの付与を自動化することでこれらの問題の解決を目指します.
  3. まず,タグセットの生成について説明します. 本研究ではタグの抽出元として日本語版DBpediaを選択しました. DBpediaはWikipediaから情報を抽出してリンクトオープンデータとして公開するプロジェクトです. 社会問題に関するタグを抽出するため,社会問題カテゴリおよびその下層カテゴリに属するページを取得,ページタイトルをタグ名として抽出しました. しかし,これらのタグ名の中には社会問題とは関係のないものまで含まれてしまいます. そこで,抽出したページの中で,他の特定のカテゴリページ及びその下層カテゴリにも属するページを抽出対象から外すことにしました.
  4. 本研究では2種類のフィルタを用意しました. フィルタAは,フィルタリングしていない状態で取得したタグのリストを観察した上で,社会問題と関係がないと判断できるタグに見られる共通点を元に設計したフィルタです. フィルタBは,フィルタAで利用したカテゴリの中で社会問題に関連するものまで多くフィルタリングしてしまっていた「生物学の分野」というカテゴリをフィルタリングに利用しないようにしたフィルタです.
  5. 自動生成の評価では再現率と適合率を計算しました. 再現率の計算についてです. 6人の被験者にWikipedia上のページから社会問題に関するページを102個選択していただきました. 利用するフィルタと社会問題カテゴリから辿った階層数別に,取得できたリスト中に102個のタグが含まれる割合を計算しました. 続いて,適合率についてです. こちらは各手法で取得したタグの中から100個を無作為に選択し,被験者に社会問題だと思うかを判定していただき,社会問題だと判断できるものの割合を計算いたしました.
  6. 評価結果です. フィルタの有無に関わらず,3階層になった時点で大きく適合率が落ちています. また,フィルタを用いない状態で5階層まで辿っても再現率が84.3%しかならず,社会問題カテゴリに直接属しているページのみを取得したことを示すフィルタ無し1階層の適合率が,そのわりにはかなり低いという結果を得ました. タグ生成にDBpediaのみを用いるという点に関しても再検討すべきだと考えます.
  7. 次に,タグの自動付与についてお話しします. 自動付与にはタグ候補と同名のタイトルを持つWikipediaの記事を用います. タグを付与する対象となる記事と,タグ候補と同名のWikipedia記事のCos類似度を計算し, 閾値以上の類似度となるタグを付与タグとします. Cos類似度を計算するためのベクトルを作成する上で,本研究ではTF-IDFとパラグラフベクターという二つの手法を用いました.
  8. 自動付与の評価では,相関係数と正解率を計算しました. 各手法で作成したタグ付与システムに対し,10個の記事を与えCos類似度を計算しました. 計算されたCos類似度が上位10個以内かつ一定の値以上となったもの,および無作為に選択した3つのタグを被験者に見せ,7段階で評価していただきました. その評価を元に,相関係数と正解率を計算しました.
  9. 評価結果です. TF-IDFの散布図と正解率はこのようになり,相関係数は0.732と強い相関を示しました. アンケート評価値が7となったタグ候補のシステム評価値が0.589から0.154の範囲で大きくばらけました. これは類義語を扱えないTF-IDFの特徴によるものだと考えます. 正解率は閾値を0.2に設定した時に最大値である0.812を示しました. 類似度0.2以上と判定されたタグはアンケートを取った全タグ候補85個中37個存在し,1つの記事に対して平均3.7個のタグが付与される結果になりました. これは半自動でタグ付与を支援するには十分実用的な値であると考えます.
  10. パラグラフベクターの散布図はこのようになり,相関係数は0.346と弱い相関を示しました. 本研究では評価基準となる Wikipediaの記事をタグの分である102個しか用いておりませんでした. 文書数が不足していたため精度が出なかったのではと考えております. また,パラグラフベクターアルゴリズムでは語順を考慮しているので,文体の違いが影響している可能性があります 正解率は0.35になるまで上がり続け,0.3では0.814,0.35では0.824となりました. ただし,全タグ候補102個のうち,類似度0.3以上では17個,類似度0.35以上では8個しか該当するタグが存在しません. そのため,8割以上の正解率となるこれらの閾値は実用上適していないと考えております.
  11. まとめです. タグの自動生成に関しては,十分な値を得ることができませんでした. サポートベクターマシンや,DBpedia以外のデータセットであるWordNetを利用することで再現率,適合率を向上させることを今後の研究の課題とします. タグの自動付与ではTF-IDFを用いることで半自動でタグの付与を支援するには十分な値を得ることができました. しかし,一般的により精度が高くなるパラグラフベクターを用いた手法で満足な結果を得ることができませんでした. Wikipedia記事以外の文書を入力として用いることや,他の手法との組み合わせにより,精度を高めていくことを今後の研究の課題とします. 以上で発表を終わります.