More Related Content
PDF
PDF
45分で理解する webクローリング入門 斉藤之雄 PDF
PDF
HTML5 Local Storageを利用したメモ帳アプリ PDF
PDF
PDF
PPT
What's hot
PDF
PPTX
COD2013「ネットワーク パケット解析・基本の基本」 PPTX
PPTX
ODP
PDF
PDF
PPTX
PDF
MongoDB very basic (Japanese) / MongoDB基礎の基礎 PDF
PPTX
MongoDB World 2014に行ってきた! Viewers also liked
PPT
Cytoscape3 と Processing-based new visualizer PPTX
PPTX
Python neo4j cytoscapejsでデータ可視化入門 PPTX
pixivのタグ情報+cytoscape+PHPで、「魔法少女まどか☆マギカ」をネットワーク分析 PDF
Cytoscapeの現状とCyberinfrastructure KEY
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門 Similar to Lab-ゼミ資料-5-20150512
PDF
PPTX
Wikipedia Entity VectorとWordNetで
対話内容を選定し Chainer を用いたAttentionモデルで 発話内の重要な単語... PDF
PDF
オントロジー検索エンジンを用いた領域オントロジー構築支援環境DODDLE-OWLの拡張 PDF
PDF
PPTX
PPTX
PDF
PPTX
PDF
Twitterにおける即時話題推定技術「どたばたかいぎ」の開発 PDF
PPTX
Identifying Users’ Topical Tasks in Web Search PDF
GeneratingWikipedia_ICLR18_論文紹介 PDF
大規模常識知識ベース構築のための常識表現の自動獲得 PDF
AI学会 合同研究会2020 発表スライド (201120) PPTX
Step by Stepで学ぶ自然言語処理における深層学習の勘所 PDF
PDF
機関リポジトリから収集した学術論文のテキスト解析に関する一検討 PPTX
科研費分野-トピック分類マトリックスへの主成分分析の適用 Lab-ゼミ資料-5-20150512
- 1.
- 2.
- 3.
- 4.
- 5.
2章 基礎研究・理論 IF-‐IDF
•TF-‐IDF (Term Frequency-‐Inverse Document Frequency)
𝑡𝑓𝑖𝑑𝑓 𝑡, 𝑑 = 𝑡𝑓 𝑡, 𝑑 ' 𝑖𝑑𝑓 𝑡
• TF値 … 対象とする文書dにおける単語tの出現頻度を表す
𝑡𝑓 𝑡, 𝑑 =
𝑛*,+
∑ 𝑛*,+-∈+
※単語tの出現回数が多いほどTF値は高くなる
• IDF値 … 単語が全文書集合のどのくらいの文書に出現するかを表す
𝑖𝑑𝑓 𝑡 = log
N
𝑑𝑓(𝑡)
※複数の文書で横断的に使われている単語はIDF値が小さくなる
N … 全文書数
df(t) … ある単語tが出現する文書の数
𝑛*,+ … ある単語tが文書d中に出現する回数
∑ 𝑛*,+-∈+ … 文書d内のすべての単語の出現回数の和
- 6.
- 7.
2章 基礎研究・理論 共起指標
•共起指標
• Jaccard係数
• 二つの集合(単語)間の類似性を表す指標
𝐽𝑎𝑐𝑐𝑎𝑟𝑑 𝑋, 𝑌 =
| 𝑋 ∩ 𝑌 |
| 𝑋 ∪ 𝑌 |
※単独でのヒット件数が多い単語ほど他の単語との関係が薄くなる
• Simpson係数
• Jaccard係数を改良し、分母にmin関数をとっている
𝑆𝑖𝑚𝑝𝑠𝑜𝑛 𝑋, 𝑌 =
| 𝑋 ∩ 𝑌 |
min 𝑋 , 𝑌 | )
※X >> Y (X << Y) などのケースだと、関係が強くないキーワードも高い値を出してしまう
- 8.
- 9.
- 10.
- 11.
- 12.
4章 提案手法
手順2.キーワードの抽出
• 検索API
•検索エンジンの機能を活用して検索後に対する検索結果情報を取得できる
• 今回は、検索語句に「オーロラ」、コンテキストワードに「天体」を使用
• Google Custom Search API
• 検索フィルターの使用
• 検索ごとコンテクストワードをクエリとして入力
• アドレスに日本語版ウィキペディアのurlを含むページを検索
• 日本語版ウィキペディア内の下記ページを除外
• Help、Category、Portal、特別ページ、曖昧さ回避ページ
※コンテキストワード … 抽出するキーワードの文脈を特定する
- 13.
4章 提案手法
手順2.キーワードの抽出
• 形態素解析による名詞抽出
•不要語を取り除くために二つのモデルを考案
• 不要語 … 数字、記号、意味をなさない語
1. 検索でヒットした最上位のページ
• 英数字、記号、一文字、出現回数が一回の名詞を除外
• 残った名詞集合をキーワード候補群とする
※1341語中、977語が除外されたので、キーワード候補群は364文字
1. 検索でヒットした最上位以外のページ
• キーワード候補群の名詞と合致しない名詞を除去
- 14.
- 15.
- 16.
- 17.
- 18.
5章 評価実験
キーワード評定のための主成分分析
• 評定項目
•項目1 … 専門用語ほど得点が低くなる
• 項目2 … ありきたりなものであれば得点が低くなる
• 項目3 … ページの内容とキーワードの一致度が低いほと得点が低くなる
• 項目4 … リンク本数などを参考に、見にくいと感じれば得点が低くなる
• 項目5 … リンクの関連性が正確でないと感じれば得点が低くなる
項目内容 評定観点
項目1 キーワードの意味の難易度 言語的観点
項目2 検索語句に対するキーワードの特徴度
項目3 主観印象との一致度
項目4 リンク構造の見易さ 構造的観点
項目5 他キーワードとの関連の精度
- 19.
- 20.
- 21.
- 22.
- 23.
- 24.
- 25.
第6章 考察
• キーワード抽出
•提案手法では、ほとんどの抽出キーワードが検索語の特徴を表していた
• TFIDFにより不要語が除去されたため
• 最上位ページのドキュメントがある程度の規模でないと精度が落ちる
• リンク選定
• 共起性における正確な数値を算出できた
• 閾値付きSimpson係数を用いたため
• キーワードあたりのリンク数が4本以上
-‐> リンク構造が複雑だと評価される傾向がある
- 26.
- 27.
- 28.