Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

honda b

676 views

Published on

  • Be the first to comment

  • Be the first to like this

honda b

  1. 1. 地域でカテゴライズされたWebサイト群 の特徴分析とキーワード抽出に関する 研究 平成16年度 卒業論文発表 複雑系工学講座 調和系工学研究室 4年 本田 崇智
  2. 2. 背景 • 施設や団体は、存在する地域やカテゴリーによって数に違いがある 地域: 都道府県、市町村・・・ カテゴリー: 宿泊施設、スポーツ施設・・・ • 施設や団体ごとに、Webサイトが存在 地域やカテゴリーによる施設・団体の数の違いが、Webサイトの特徴となん らかの関連があると考えられる Webサイト ページ内リンク ページ外リンク 他のWebサイトのWebページ Web ページ 画像ファイル タグ 文字 ページサイズ(bites) Webサイトには多くの特徴が存在
  3. 3. 目的 あるカテゴリーにおける地域ごとのWebサイトの特徴を 分析し、その違いを検証 < 本研究の流れ > 地域・カテゴリーごとにWebサイトを収集 Webサイトから特徴の抽出 地域・カテゴリーごとにWebサイトの特徴を比較
  4. 4. Webサイトの収集の流れ WWW L3 L1 L1 L1 L2 L2 L2 L3 L3 C1 C2 C3 L L:地域に存在する施設・団体のWebサイト集合 Li:地域iに存在する施設・団体のWebサイト集合 Cj:カテゴリーjに属する施設・団体のWebサイト集合 1. 対象とする地域のWebサイト集合{L1,L2,…,Ln }の決定 2. 対象とするカテゴリーのWebサイト集合{C1,C2,…Cn}の決定 3. サイト集合Ciを収集するためのキーワード集合CKiの決定 4. サイト集合Ljを収集するためのキーワード集合LKjの決定 5. Googleを利用してCKiの要素とLKjの要素のand検索
  5. 5. Webサイトから抽出する特徴 • Webページを頂点、リンクを弧としたWebサイトのグラフ構造 • 使用しているファイルの種類・数 • 文字やタグの使用頻度 しかし、特徴ベクトルにはテキストの内容に関わる特徴は用いられていない Webサイトの特徴ベクトルを構築 Webサイト中のテキストから、キーワードの抽出 Webサイトごとにその情報の豊富さや充実度などの質の違いを 調べるために、以下の特徴を抽出
  6. 6. Webサイトの特徴ベクトルの構築 • htmlのソースを解析することによって、正確に抽出できる以下の特徴を抽出 • それぞれの特徴をカテゴリごとに正規化 page: Webページ数 depth: Webサイトの深さ inlink: ページ内リンク数 outlink: ページ外リンク数 image: 画像数 audio: 音楽・動画ファイル数 pdf: pdfファイル数 cgi: cgiファイル数 css: スタイルシート数 tag: タグ数 char: 文字数 tel: 電話番号数 mail: メールアドレス数 size: ページサイズ(bites) 特徴ベクトル F=(page,depth,inlink,outlink,image,audio,pdf,cgi,css,tag,char,tel,mail,size) Webサイト ページ内リンク ページ外リンク 他のWebサイトのWebページ Web ページ 深さ リンク構造 データファイル ソース情報 カテゴリごとに特徴の比較
  7. 7. Webサイトのキーワード抽出法 Tf-idf法[Salton,1990]の利用 Webサイト内の単語Wの重要度 I(W) I(w)= max( freq(p,w)× : 1<p<N ))0.1 )( (log  wpage N N:サイト内の総ページ数 freq(p,w):ページp中の単語wの出現頻度 page(w):サイト内の単語wが出現するページ数 多くのWebページに出現する単語 → 重要ではない 少ないWebページで出現回数の多い単語 → 重要 • キーワードは、Webサイト中の使用頻度が高いと思われる • 日常的に多く使われる語は省きたい
  8. 8. 実験 • 地域・カテゴリーごとに、Webサイトの特徴に違いが現れるか検証 目的 設定 • 対象地域:各都道府県 LKi ={北海道、青森、秋田・・・} • カテゴリー : 観光施設 C1={鑑賞・体験型施設}、C2={活動型施設}、C3={保 養型施設} • カテゴリーの検索語: CK1 ={博物館,美術館}、CK2 ={キャンプ場,カントリーク ラブ}、CK3 ={ホテル,旅館} 観光施設の多い地域(北海道)と少ない地域(佐賀県)で それぞれの特徴の分析・キーワード抽出を行う 北海道 博物館・美術館数:全国2位 キャンプ場・ゴルフ場数:全国1位 ホテル・旅館数:全国2位 佐賀県 博物館・美術館数:全国44位 キャンプ場・ゴルフ場数:全国44位 ホテル・旅館数:全国47位
  9. 9. 実験結果(鑑賞・体験型施設) • 北海道では深さが深くページ数が多い → 発信されている情報量が多い • 佐賀県では電話番号が少ない → 公式サイトがほとんどなかったからだと推測でき、 実際に佐賀県ではほとんど博物館・美術館の公式サイトは現れなかった リンク構造(北海道) 0 0.2 0.4 0.6 0.8 1 ページ数 深さ ページ内リンク数 ページ外リンク数 データファイル(北海道) 0 0.2 0.4 0.6 0.8 1 画像数 pdf数 cgi数 css数 オーディオ数 ソースファイル(北海道) 0 0.2 0.4 0.6 0.8 1 電話番号数 メールアドレス数 文字数 ページサイズ タグ数 リンク構造(佐賀県) 0 0.2 0.4 0.6 0.8 1 ページ数 深さ ページ内リンク数 ページ外リンク数 データファイル(佐賀県) 0 0.2 0.4 0.6 0.8 1 画像数 pdf数 cgi数 css数 オーディオ数 ソースファイル(佐賀県) 0 0.2 0.4 0.6 0.8 1 電話番号数 メールアドレス数 文字数 ページサイズ タグ数 北海道:83サイト 佐賀県:65サイト
  10. 10. 実験結果(活動型施設) • 北海道でソース情報の各値が大きい → 発信されている情報量が多い • 北海道のpdf数が多い → 少数の市や町のサイト内で多量の議事録がpdfファイルと して存在 リンク構造(北海道) 0 0.2 0.4 0.6 0.8 1 ページ数 深さ ページ内リンク数 ページ外リンク数 データファイル(北海道) 0 0.2 0.4 0.6 0.8 1 画像数 pdf数 cgi数 css数 オーディオ数 ソース情報(北海道) 0 0.2 0.4 0.6 0.8 1 電話番号数 メールアドレス数 文字数 ページサイズ タグ数 リンク構造(佐賀県) 0 0.2 0.4 0.6 0.8 1 ページ数 深さ ページ内リンク数 ページ外リンク数 データファイル(佐賀県) 0 0.2 0.4 0.6 0.8 1 画像数 pdf数 cgi数 css数 オーディオ数 ソース情報(佐賀県) 0 0.2 0.4 0.6 0.8 1 電話番号数 メールアドレス数 文字数 ページサイズ タグ数 北海道:72サイト 佐賀県:46サイト
  11. 11. 実験結果(保養型施設) • 佐賀県ではpdfファイルが多いのは、施設の公式サイトが少ない分関係のないサイト の中でpdfが多く含まれているサイト(総理府やYahoo!Japan・・・)の影響であった • 保養型施設では電話番号の数が逆転している → 北海道では保養型施設のリンク 集が多く存在し、これらの多くに電話番号が記載されていなかった リンク構造(北海道) 0 0.2 0.4 0.6 0.8 1 ページ数 深さ ページ内リンク数 ページ外リンク数 データファイル(北海道) 0 0.2 0.4 0.6 0.8 1 画像数 pdf数 cgi数 css数 オーディオ数 ソース情報(北海道) 0 0.2 0.4 0.6 0.8 1 電話番号数 メールアドレス数 文字数 ページサイズ タグ数 リンク構造(佐賀県) 0 0.2 0.4 0.6 0.8 1 ページ数 深さ ページ内リンク数 ページ外リンク数 データファイル(佐賀県) 0 0.2 0.4 0.6 0.8 1 画像数 pdf数 cgi数 css数 オーディオ数 ソース情報(佐賀県) 0 0.2 0.4 0.6 0.8 1 電話番号数 メールアドレス数 文字数 ページサイズ タグ数 北海道:163サイト 佐賀県:93サイト
  12. 12. 実験結果(抽出したキーワード) 鑑賞・体験型 活動型 保養型 1 近隣 支店 下呂 2 海外 キー 予約 3 ツアー 年月 那須 4 国内 情報 伊香保 5 航空 多度 伊東 6 トラベル (株) 熱海 7 京都 広島 温泉 8 バス 革命 下田 9 磐梯 テレ 伊豆長岡 10 格安 共和 浜松 鑑賞・体験型 活動型 保養型 1 美術館 時分 特急 2 文化財 月日 北斗 3 団体 読売新聞 スーパー 4 辞書 情報 東室蘭 5 芸術 ニュース 千歳空港 6 企業 時事通信 苫小牧 7 資料 地域 延べ数 8 人文 トップ すずらん 9 文化 動画 入込み 10 子供 北海道 月別 北海道 佐賀県 • 北海道の保養型施設では、アクセス情報からキーワードが抽出されてしまったと考 えられる → アクセス情報がほぼ全ての公式サイトの一部のページに存在してしまっ ているために、tf-idf法によりキーワードとして判断されてしまった
  13. 13. 結論 • カテゴリー/地域によってWeb上の特徴が現れることが確 認された • 全都道府県においても、観光施設の多い都道府県では 情報量が多いという傾向がみられた • カテゴリによって特色を示すキーワードが抽出できなかっ たのは、キーワードの抽出法に原因があると考えられる 今後の課題 • キーワードの抽出方法の改善 • 収集するWebサイト数の増加

×