Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Kin b

546 views

Published on

  • Be the first to comment

  • Be the first to like this

Kin b

  1. 1. Hadoopを利用した新聞記事群の関係抽出に 関する研究 Hadoop based analyzing for relations among articles of newspaper 複雑系工学講座 調和系工学研究室 4年 金 正福
  2. 2. 背景新聞記事を用いた分析新聞記事は社会の動向を表す人文学・社会学等の調査で利用 分析手段 従来:人手による解析 近年:計算機による高速な解析
  3. 3. 新聞データベース解析への アプローチ• 従来研究:対象範囲が特定の分野に限定内海ら,”社会課題とその解決に結びつく科学技術に関する有用知識の抽出”,社会技術研究論文集、Vol.6, pp187-198, (2009) 従来の対 従来研究で の対象範囲 象範囲 医療 政治 経済 外交 新聞記事 本研究での 対象範囲 全紙面を対象とする情報抽出法の提案
  4. 4. 新聞記事間の関連性に基づく 解析手法• 記事間の関連性 – 日付 – 掲載紙面 – 文字数、段落数 – 執筆者 名詞一般を「キーワード」と定義 – 単語の重複 キーワードを共通で保持する 記事群の特徴を調査• キーワードの重複数の計算手法 – 並列処理技術を用いて計算
  5. 5. 並列処理新聞記事データベースの関連性の計算のための分散データ処理の要件1. 日々拡張されるデータ スケーラビリティを持った計算機構2. それぞれのデータに対し変更が無い 計算ノード間の同期は必要ない 並列処理技術 特徴 本研究で利用 計算リソース 拡張性の高さ 分散ファイルシステム
  6. 6. キーワードの重複数に基づく記事間 ネットワークの構築重複数が最大となる記事間にネットワークのリンクを張る a2  a3 記事集合 A  {a1 , a2 ,..., am } の重複 数 aroot  a2 a1 a1 間の重 32 複数 25 120 45 aroot a2 a3 22 ルート記事 a3 3 17 a4 a4 接続されるリンク 接続されないリンク 100リンクまで計算
  7. 7. Hadoopを用いた キーワードの重複数の計算本研究でのHadoopサーバの構成 マスターノード(1台) ・スレーブノードにタスクを割り当て ・ジョブ(MapReduce処理)の監視 ・各スレーブノードによる計算結果の集約 スレーブノード(3台) ・記事データの保存 ・割り当てられたタスクを処理する
  8. 8. ネットワーク解析実験• 解析対象:北海道新聞データベース – 朝刊・夕刊(一日約500件) – 対象期間:1988年07月01日~2007年12月31日 – 対象記事数:270万件• 実験 – ルート記事を複数選び、そのルート記事から始まるネットワークを、100リンク まで構築 – 各記事に,”政治”, “スポーツ”などの,見出し内容に則したラベルを与える (見出しラベル) 選挙 国際 経済 地方 政治 医療 自治 外交 予算 観光 犯罪 スポーツ 防災 法律 汚職 データ 人事 災害 少子化 社会保障 社説 年金 憲法 表:見出しラベル
  9. 9. ネットワーク解析実験・調査1 接続の前後関係から事例を確認・調査2 記事をラベルでカテゴライズされたグループに分ける グループ間のネットワーク構造を俯瞰する 選挙 国際 経済 地方 政治 医療 自治 外交 予算 観光 犯罪 スポーツ 防災 法律 汚職 データ 人事 災害 少子化 社会保障 社説 年金 憲法 表:見出しラベル
  10. 10. 調査1:ネットワークの 前後関係の調査• 事例1)民主党代表交代 「代表辞任」から「新代表決定」へ直接つながる a92  a93 の重複 数 17 48 10 a92 a93 記事ID: 2004/05/11/0179 記事ID: 2004/05/14/0115 日付 2004/05/11 日付 2004/05/15 ラベル 政治 ラベル 政治 見出し <視角触角>菅・民主代 見出し 民主代表 小沢氏受 表が辞任*党再生「切り 諾*「剛腕」に期待と 札」不在*「小沢不信」根 警戒*党イメージ 強く*参院選へ増す不安 変質の懸念
  11. 11. 調査1:ネットワークの 前後関係の調査• 事例2)「スポーツ」→「汚職」 – 「対決」という単語によって、無関係な記事同士がつながる a10  a11 の重複 数 67 8 48 a10 a11 記事ID: 2001/11/04/0104 記事ID: 2004/03/02/0191 日付 2001/11/04 日付 2004/03/02 ラベル スポーツ ラベル 汚職 見出し 札幌J1残留*今 見出し 道警報償費疑惑 季の札幌*「堅守 *元弟子屈署次 からの速攻」定着 長の証言(要旨)
  12. 12. 調査1:ネットワークの 前後関係の調査• 事例3)人名などが羅列された記事(データ系記事)がつながる a10  a11 a11  a12 の重複 の重複 数 数 45 64 48 9 a10 a11 a12記事ID: 2007/03/27/0180 記事ID: 2007/03/23/0285 記事ID: 1995/07/24/0345日付 2007/03/27 日付 2007/03/23/0285 日付 1995/07/24ラベル 選挙 ラベル 人事 ラベル 選挙見出し <2007統一地方選 見出し <公立高、特殊学 見出し <95参院選>道 >道議選30日告示 校の人事>教諭 選挙区市町村別 4月8日投開票(2の 1)*48選挙区 構図 投票率(3の2) 鮮明に*道東、道北
  13. 13. 調査2: グループ間のネットワーク構造記事 ID: 2007/12/27/0112 「ブット元首相 暗殺*対テロ戦 米にも痛手 」をルート記事としたネットワーク 医 療 スポーツ 地 社会保障 方 憲法 予 自 算 治 外 交 災 防 害 災 政 社 治 汚 説 法 職 選 律 年 国際 金 挙 少子化 人 事 犯 経 罪 観 データ 済 光
  14. 14. グループ間ネットワークの次数分布 記事ID: 2007/12/27/0112 「ブット元首相 暗殺*対テロ戦 米にも痛手 」 をルート記事としたネットワーク 18 16 14 12 10次数 8 6 4 2 0 ラベルグループ
  15. 15. まとめ新聞データベースの特性を生かした新たな解析手法の開発 Hadoopを用いた道新データベースのネットワーク解析• ネットワーク構造に関する実験結果 ハブとなるラベルを持つ記事グループの存在 (「選挙」、「国際」、「地方」、「経済」)• 記事間の関連性の定義 キーワード重複数だけでなく、意味論や 日付も考慮することで より適切なネットワークの生成の可能性

×