ゼミ資料
公立はこだて未来大学 システム情報科学部
複雑系知能学科 大沢 英一 研究室
B4  小笠原 佑樹
今日の流れ
• 先輩の卒論・修論
• Jaccard係数を用いたリンクの選定に基づく
wikipediaのナビゲーション情報の抽出
• ウィキペディアにおける検索語句に対する共起ネットワークの生成
ウィキペディアにおける検索語に対する
共起ネットワークの生成
• 目標
• 単語の重み付けによりキーワード抽出と精度検証
• 共起指標をもとにした共起ネットワークが学習支援に有用であるかの検証
• 位置付け
• 日本語版ウィキペディアを用いた、学習効率向上と記憶力定着を実現する
ための前段階の研究
2章 基礎知識・理論 形態素解析
• 形態素解析
• 文書をある単語に分解し、特定の辞書を用いて品詞や内容を判別すること
2章 基礎研究・理論 IF-­‐IDF
• TF-­‐IDF (Term  Frequency-­‐Inverse  Document  Frequency)
𝑡𝑓𝑖𝑑𝑓 𝑡, 𝑑 = 𝑡𝑓 𝑡, 𝑑 ' 𝑖𝑑𝑓 𝑡
• TF値 …  対象とする文書dにおける単語tの出現頻度を表す
𝑡𝑓 𝑡, 𝑑 =  
𝑛*,+
∑ 𝑛*,+-∈+
※単語tの出現回数が多いほどTF値は高くなる
• IDF値 …  単語が全文書集合のどのくらいの文書に出現するかを表す
𝑖𝑑𝑓 𝑡 =  log
N
𝑑𝑓(𝑡)
※複数の文書で横断的に使われている単語はIDF値が小さくなる
N  …  全文書数
df(t)  …  ある単語tが出現する文書の数
𝑛*,+ …  ある単語tが文書d中に出現する回数
∑ 𝑛*,+-∈+ …  文書d内のすべての単語の出現回数の和
2章 基礎研究・理論 語の共起性
• 語の共起性
• 任意の文書において、ある二つの文字列が同時に出現する割合
• 共起指標
• Jaccard係数
• Simpson係数
2章 基礎研究・理論 共起指標
• 共起指標
• Jaccard係数
• 二つの集合(単語)間の類似性を表す指標
𝐽𝑎𝑐𝑐𝑎𝑟𝑑 𝑋, 𝑌 =   
|   𝑋   ∩    𝑌  |
|   𝑋   ∪    𝑌  |
※単独でのヒット件数が多い単語ほど他の単語との関係が薄くなる
• Simpson係数
• Jaccard係数を改良し、分母にmin関数をとっている
𝑆𝑖𝑚𝑝𝑠𝑜𝑛 𝑋, 𝑌 =   
|  𝑋   ∩    𝑌  |
min    𝑋   ,   𝑌  |  )
※X  >>  Y  (X  <<  Y)  などのケースだと、関係が強くないキーワードも高い値を出してしまう
3章 関連研究
Web上の情報からの人間関係ネットワーク抽出
• Web上の情報からの人間関係ネットワークの抽出
• 手順
1. 学会の参加者の氏名と所属を過去論文の著者リストなどから入手
2. 検索エンジンで2者の氏名をAND検索してヒット件数を取得
3. 単独者のヒット件数を取得する際は、氏名と所属でAND検索する
4. 上記 2,  3  をもとに閾値付きSympton係数を用いて共起の強さを調べる
5. 判別ルールや属性を設けて、2者間の関係性をもとにリンクを張る
6. 上記のように作成した人間関係ネットワークを表示する
3章 関連研究
Web上の情報からの人間関係ネットワーク抽出
• 閾値付きSimpson係数
𝑅 𝑋, 𝑌 =  G
|  𝑋   ∩   𝑌  |
min    𝑋   ,   𝑌  |  )
  𝑖𝑓   𝑋 > 𝑘  𝑎𝑛𝑑   𝑌 > 𝑘
0  𝑂𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
• Simpson係数の欠点を克服
例 )|X|  =  100,  |Y|  =  1,  |   𝑋   ∩    𝑌  | =  1のとき
• Simpson係数なら…  Simpson(X,  Y)  =  1
• 閾値付きSimpson係数なら…  R(X,  Y)  =  0
4章 提案手法
• 手順
1. コーパスの生成
2. キーワードの抽出
3. リンクの選定
4. 共起ネットワークの可視化
4章 提案手法
手順1.コーパスの生成
• 日本語版wikipediaの全記事データ(2013/11/4 時点)を取得
• WP2TXTを用いて、XML  -­‐>  TXTに変換
• 具体的には…
1. 圧縮形式を展開
2. XMLデータを解析
3. WikiHTMLタグを除去
4. テキストファイルとして分割・保存
4章 提案手法
手順2.キーワードの抽出
• 検索API
• 検索エンジンの機能を活用して検索後に対する検索結果情報を取得できる
• 今回は、検索語句に「オーロラ」、コンテキストワードに「天体」を使用
• Google  Custom  Search  API
• 検索フィルターの使用
• 検索ごとコンテクストワードをクエリとして入力
• アドレスに日本語版ウィキペディアのurlを含むページを検索
• 日本語版ウィキペディア内の下記ページを除外
• Help、Category、Portal、特別ページ、曖昧さ回避ページ
※コンテキストワード …  抽出するキーワードの文脈を特定する
4章 提案手法
手順2.キーワードの抽出
• 形態素解析による名詞抽出
• 不要語を取り除くために二つのモデルを考案
• 不要語 …  数字、記号、意味をなさない語
1. 検索でヒットした最上位のページ
• 英数字、記号、一文字、出現回数が一回の名詞を除外
• 残った名詞集合をキーワード候補群とする
※1341語中、977語が除外されたので、キーワード候補群は364文字
1. 検索でヒットした最上位以外のページ
• キーワード候補群の名詞と合致しない名詞を除去
4章 提案手法
手順2.キーワードの抽出
• TF-­‐IDFを用いた単語の重み付け
• キーワード候補群に対してTF-­‐IDFを適用して上位30語を抽出
• これらキーワード集合の要素ごとの組み合わせに対し共起の強さを求める
画像
4章 提案手法
手順3.リンクの選定
• 閾値付きSimpson係数の算出
• Google  APIからヒット検索データを取得
• 検索時には、コンテキストワード「天体」とAND検索する
• リンクの有無と強弱の選定
• リンクなし …  0  〜 0.29
• 弱いリンク …  0.3  〜 0.39
• 強いリンク …  0.4  〜
4章 提案手法
手順4.共起ネットワークの可視化
• Cytoscapeを用いて可視化
• 弱いリンクを点線、強いリンクを実線で表示する
• 30のノード、77のリンクから構成される共起ネットワーク
画像
5章 評価実験
キーワード評定のための主成分分析
• キーワード評定のための主成分分析
• 共起ネットワークに必要とされる要素(主成分)を抽出する
• 手順
1. 検索でヒットした最上位ページについて全文を読む
2. 被験者の主観によって重要後をメモする
3. 5つの評定項目によって提案するキーワードを点数化する
4. 点数データから主成分分析をする
5章 評価実験
キーワード評定のための主成分分析
• 評定項目
• 項目1 …  専門用語ほど得点が低くなる
• 項目2 …  ありきたりなものであれば得点が低くなる
• 項目3 …  ページの内容とキーワードの一致度が低いほと得点が低くなる
• 項目4 …  リンク本数などを参考に、見にくいと感じれば得点が低くなる
• 項目5 …  リンクの関連性が正確でないと感じれば得点が低くなる
項目内容 評定観点
項目1 キーワードの意味の難易度 言語的観点
項目2 検索語句に対するキーワードの特徴度
項目3 主観印象との一致度
項目4 リンク構造の見易さ 構造的観点
項目5 他キーワードとの関連の精度
5章 評価実験
キーワード評定のための主成分分析
• 評価方法
1. 標準偏差、寄与率、累積寄与率の出力
2. 固有ベクトルの出力
3. 因子負荷量の出力
4. 主成分分析の出力
5章 評価実験
キーワード評定のための主成分分析
• 標準偏差
• 主成分が持つ情報量を表す
LP(第𝑗固有値)
• 寄与率
• 主成分𝐿Pが全体に占める情報量の割合
𝐿P(第𝑗固有値)
∑ 𝐿P
S
PTU (総分散)
• 累積寄与率
• 𝐿Uから𝐿Vまでの主成分が全体に占める情報量の割合
∑ 𝐿W
V
WTU
総分散
5章 評価実験
キーワード評定のための主成分分析
• 因子負荷量
• 主成分と各変数との相関関係を表す
※分散共分散行列に基づいた場合は以下の式で求められる
Cor(𝑥W, 𝑦P) =  
𝐿PℎWP
xの分散
𝑦P …  第j主成分
𝐿P …   𝑦Pの固有値
第三主成分で全体の6〜7割の情報を占めている
画像
5章 評価実験
キーワード評定のための主成分分析l
• 第1主成分 …  キーワードの意味の難易度
• 第2主成分 …  リンク構造の見易さ
• 第3主成分 …  検索後に対するキーワードの特徴度
写真
5章 評価実験
キーワードとリンクの精度検証
• 提案手法とウィキペディアシソーラスビジュアライザーとの比較検証
• 検索語「オフサイド」、コンテクストワード「サッカー」
• 検索語に適合したキーワード/リンクかどうかの精度Pを検証
P =  
ω
ω   + 𝑥
• WikiVis …  どの概念とどの概念が関連が強いかを可視化する
• ウィキペディアシソーラス
• リンク構造解析に着目し、ウィキペディアから抽出した連想関係辞書
ω …  抽出された適合キーワード数
x  …  抽出された非適合キーワード数
5章 評価実験
キーワード評定のための主成分分析l
• 提案手法はおよそ8割の精度を実現
• WikiVisはおよそ4割程度
• リンク選定の精度は、全体の半分以下
画像
第6章 考察
• キーワード抽出
• 提案手法では、ほとんどの抽出キーワードが検索語の特徴を表していた
• TFIDFにより不要語が除去されたため
• 最上位ページのドキュメントがある程度の規模でないと精度が落ちる
• リンク選定
• 共起性における正確な数値を算出できた
• 閾値付きSimpson係数を用いたため
• キーワードあたりのリンク数が4本以上
-­‐>  リンク構造が複雑だと評価される傾向がある
第6章 考察
• 共起ネットワークを構成する重要な要素
1. キーワードの意味の難易度
2. リンク構造の見易さ
3. 検索後に対するキーワードの特徴度
画像
第7章 結論
• 今後の課題
• 閾値付きSimpson係数によるリンク選定のための閾値の設定
• TFIDFによる不要語の除去の際の、不要語に対する条件の検討
今後の予定
• 論文を探す
• 共起ネットワーク、検索システム、自然言語処理、クラスター解析
• 論文を読む
• CNM法の英語論文
• 書籍を読む
• 書籍

Lab-ゼミ資料-5-20150512