SlideShare a Scribd company logo
1 of 14
Download to read offline
平成18年度 修士論文


カテゴリーに特徴的な単語を利用した
 Webサイトの分類に関する研究
Automated Classification Method of
 Websites by using Characteristic
           Keywords
          複合情報学専攻
          複雑系工学講座
          調和系工学研究室
            本田 崇智
背景
 • 観光客が、Webサイトから情報を得る機会の増加
 • WWW上には大量の情報が存在し、効率よく観光情報を得
   ることが困難

         カテゴリーに属するサイトの検索
    カテゴリー(=人によって定義されたルール)
      (ex) 「飲食店」:飲食店の公式サイト
           「ゴルフ」 : ゴルフ場の公式サイトと ゴルフ練習場の公式サイト
<必要とされる技術>

      WWW                              カテゴリー
                   Crawler



   Webサイトの収集            Webサイトのカテゴリーへの分類
目的
 • カテゴリーに属するWebサイト群
    – 他のカテゴリーには出現しにくいカテゴリーに特徴的な名詞が
      共通して複数存在
       (ex) カテゴリー「ゴルフ」 : “ゴルフ”、”コース”、”コンペ”

<Webサイトのテキスト情報を用いた分類の関連研究>

 • Tf-idf法   [安形,99][堀田,03][上村,04]
    – 特定のサイトのみ多く出現する語を特徴的な語とみなして分類
 • Bayesian Classifier   [Andrew,98]
    – 単語の出現頻度によってカテゴリーに属する確率を計算し分類

<目的>


 カテゴリーに特徴的な名詞を利用したWebサイトの分類
Webサイトの分類法:学習時
     特徴的な名詞の抽出による学習
                                    <カテゴリー i 中の名詞 w のスコア R(i,w)>
分類したいカテゴリー
                                                       df (i, w)
Webサイト                                      F (i, w)
                                                          Si

                                     df(i,w) : カテゴリー i に属し,かつ名詞wが出
                                     現するWebサイト数
正例                            負例     Si: カテゴリー i に属するWebサイト集合

                                    → カテゴリー中(正例)の多くのサイトに出現
  円 ・・・0.8         料金・・・0.8
                                      する名詞のスコアが高い
  温泉・・・0.7
      ・・           円・・・0.4
                        ・・                          F (i, w )
                                    R (i, w )
                                              F (i, w )   F (i , w )
F (i, w)                F (i , w)
           温泉・・・0.8
                                     F (i , w) :i以外の全てのカテゴリーを1つのカテゴ
           お客・・・0.4                  リーとした場合
           宿泊・・・0.1
               ・・
                                    → その他のカテゴリー(負例)には出現しない
                                      名詞のスコアが高い
             R (i, w)
Webサイトの分類法:分類時
 未知のサイトから全名詞を抽出し、分類

  未知のサイト中の全名詞                           カテゴリー「旅館」の名詞のスコアR(i,w)

                                              温泉・・・0.7
         温泉
         温泉                                   お客・・・0.4      カテゴリー「旅館」
         お客
         お客                                    月・・・0.1      の閾値 ・・・α
          月
          月
          日
          日                                              旅館に属するサイト
                           類似度similarity
                             を計算              閾値α以上
                                                           学習集合を用いてその
<サイト s とカテゴリー i の類似度 similarity(s,i)>                      中で分類精度が高くな
                                   R (i, w)                るように設定
                            w Ws
     similarity ( s, i )
                                   Ws

    Ws : サイト s 中の名詞集合
実験の概要
<提案手法の概要>
                                                           正例と負例の選び
          Webサイト                                           方による分類への
                                                           影響?
              正例                                     負例
                                                           → 学習集合の選択
                     円 ・・・0.8            料金・・・0.8
                     温泉・・・0.7            円・・・0.4           による分類精度の平
                        ・・                   ・・            均・分散の変化の検
未知のサイト中の全名詞
                                                           証実験
                   F (i , w )   温泉・・・0.8      F (i , w )
     温泉
     温泉                         お客・・・0.4
     お客
     お客                         宿泊・・・0.1
      月                            ・・
      月
      日
      日
                                 R (i , w )
            類似度similarity
              を計算                               カテゴリーに属するサイト
あらゆるサイトに対して                      閾値α以上
も分類は有効?

→ WWW上からリンクをたどって収集し                 関連研究と比較した              → 関連研究との分類
たサイトについて分類精度の検証実験                   分類精度の有効性?              精度の比較実験
実験:関連手法との分類精度の比較
<設定>

     関連手法:Bayesian Classifier
    [未知のサイトdi がカテゴリーcjに属する確率]
                                                                                 P(c j ) 全体におけるカテゴリーcj 中のサイト数の割合
                                                                                       :
                                 V
c* (di ) argmax p(c j )                (Bit p(wt c j ) (1 Bit )(1 p(wt c j )))    Bit : サイトdiにwtが 出現:1 出現しない:0
            cj                   t 1
                                                                                  tw(cj,wt) : カテゴリー cjのwtが出現するサイト数
                                                                                  t(cj) : カテゴリー cjのサイト数
                                        1        tw ( c j , w t )
          p (w       c       )
                 t       j
                                             2       t(c   j   )                  →単語の出現情報により
                                                                                   カテゴリーに属する確率を計算
     観光に関する以下の10カテゴリーを定義
     Yahoo! Japanから各カテゴリーの定義を満たすサイトを選択し使用
•    「ゴルフ」:ゴルフ場・練習場の公式サイト(524サイト)                                         •      「カフェ」:カフェ・喫茶店の公式サイト(358サイト)
•    「施設」:スポーツ施設の公式サイト(91サイト)                                             •      「テーマパーク」:テーマパークの公式サイト(190サイト)
•    「公園」:公園の公式サイト(181サイト)                                                •      「美術館」:美術館の公式サイト(409サイト)
•    「ペンション」:ペンションの公式サイト (1020サイト)                                        •      「祭り」:祭りの公式サイト(485サイト)
•    「和食」:和食店の公式サイト(503サイト)                                               •      「旅館」:旅館の公式サイト(1020サイト)


     各カテゴリーごとに
       ランダムに選択した90%のサイト:訓練集合                                                         → 特徴的な名詞の抽出に使用
       残り10%のサイト:テスト集合                                                               → 分類のテストに使用
結果:各カテゴリーの分類精度
              Bayesian Classifierと提案手法それぞれにおけるF1値

  1
0.9
0.8
0.7
0.6                                                                                                                                Bayesian Classifier
0.5
0.4                                                                                                                                提案手法
0.3
0.2
0.1
  0   ゴ                     ペ   和     美             祭                   カ                          旅          テ         施   公     ペンションと旅館以外は
          ル             ン       食     術             り                       フ                      館          ー         設   園     提案手法のほうが高い
          フ         シ                 館                                         ェ                                 マ
                                                                                                                  パ               分類精度を示した
                            ョ
                        ン                                                                                     ー
                                                                                                              ク


                                                                 N tp
              Ntp                                       N tp        N
                                                                                                                                       正例と判断 負例と判断
再現率                             適合率
                                                                                    fn
                                                                                                                      2 再現率 適合率
                                                 N tp                                    N               F1                       正例     Ntp   Nfp
      Ntp N fn                            N tp          N               N
                                                                                             fp

                                                                                                  N tn
                                                                                                                       再現率 適合率
                                                            fn                      fp                                            負例     Nfn   Ntn
結果:「ペンション」「旅館」の考察
 「ペンション」に属すると判断された         「旅館」に属すると判断された
 サイトの実際のカテゴリー(215サイト)      サイトの実際のカテゴリー(169サイト)

         4                         10
    14
                              12
                  ペンション                             旅館
                  旅館                                ペンション
                  その他                               その他

             80                         70




                             間違って分類されたサイト22サイト
間違って分類されたサイト18サイト中14サイトが
                             中12サイトがカテゴリー「ペンション」
カテゴリー「旅館」のサイトで占められている
                             のサイトで占められている

                             「ペンション」「旅館」     472語
各カテゴリーごとに名詞のスコアRの降順に5000語
選択したとき2カテゴリー間で一致した名詞数        その他2カテゴリー       205語
                             の平均

 似たカテゴリーを選択したときにはどちらも似た名詞が抽出されたため
 間違って分類されたと考えられる
結果:抽出された名詞
カテゴリー         高      名詞のスコアR    低
ゴルフ       ロングヒッター     ティーショット       ペリア

ペンション       岩岳         八方屋根         MTB

和食          うな重        すっぽん         甘鯛


美術館         本展          絹本          文展


祭り          宵宮         御旅所          宮入

カフェ       キリマンジャロ      ジャマイカ    ダージリン


テーマパーク    メリーゴーランド     のりもの     ホルスタイン


旅館          殿方          小宴          適応症

公園         シラカシ        アラカシ         エゴノキ

施設        日本体育協会       浦和レッズ        ダンベル
実験:学習集合の選択による分類精度の影響
•   10fold Cross-validation:各カテゴリーのサイト数を10分割し,それぞれ
    訓練集合全10通りの選び方によるF1値の平均と分散を計算
                       F1の平均   F1の分散

              ゴルフ      0.92    0.00023
              ペンション    0.81    0.00029
              和食       0.83    0.00059
              美術館      0.86    0.00030
              祭り       0.88    0.00053
              カフェ      0.64    0.00052
              旅館       0.72    0.00049
              テーマパーク   0.45    0.01399
              施設       0.63    0.00465
              公園       0.63    0.00076


     どのカテゴリーでも分散は小さく、訓練集合の選び方による
     影響は少ないということがいえる
実験:www上のサイトに対する分類精度の検証
<設定>

  提案手法を適用し、カテゴリー「ゴルフ」に属するサイトを収集

  訓練集合
    以下のカテゴリーを定義し、Yahoo! Japanから定義を満たすサイトを選択し使用

  •    「ゴルフ」:ゴルフ場・練習場の公式サイト(472サイト)
  •    「施設」:スポーツ施設の公式サイト(82サイト)
  •    「公園」:公園の公式サイト(163サイト)
  •    「ペンション」:ペンションの公式サイト (918サイト)
  •    「和食」:和食店の公式サイト(453サイト)
  •    「カフェ」:カフェ・喫茶店の公式サイト(323サイト)
  •    「テーマパーク」:テーマパークの公式サイト(171サイト)
  •    「美術館」:美術館の公式サイト(369サイト)
  •    「祭り」:祭りの公式サイト(437サイト)
  •    「旅館」:旅館の公式サイト(918サイト)

  テスト集合
    訓練集合のカテゴリー「ゴルフ」のサイトからリンクをたどって収集した計384サイト
結果
 「ゴルフ」に属すると判断された                    「ゴルフ」に属さないと判断された
 サイトの実際のカテゴリー(215サイト)               サイトの実際のカテゴリー(169サイト)

            20                                 5
                                          25
   28                  ゴルフ場・練習場                             ゴルフ場・練習場
                       宿泊施設          19                     宿泊施設
                       天気
                                                       64   天気
  15                   会社・団体                                会社・団体
   8             128   ゴルフ団体・ショップ                           ショップ
                       その他                                  その他
       16
                                          54       2



                                          ゴルフリゾートのサイトのように
ゴルフ団体・ショップやゴルフ場の天気予報など、
                                          ホテルなどその他の情報が多く
ゴルフの情報が含まれるサイトが多い
                                          間違って分類されたと考えられる

                           再現率:0.96 適合率:0.60 F1:0.74

  再現率が0.96と、カテゴリーに属するサイトはほとんど収集で
  きたが、ゴルフに似たサイトも多く収集された
まとめ
Webサイトのカテゴリーへの自動分類法を提案した
 カテゴリーに特徴的な名詞を利用した分類


Yahoo! Japanとその他WWW上のサイトに対して適
用し、有効性を示した
 Bayesian Classifierとの比較実験
 WWW上からカテゴリー「ゴルフ」に属するサイトを収集
 Cross-validation法を用いて学習集合の選び方による分類
 精度の影響がないことを示した

More Related Content

Viewers also liked

Viewers also liked (12)

Ppt tsujijun g
Ppt tsujijun gPpt tsujijun g
Ppt tsujijun g
 
Ppt imakawa
Ppt imakawaPpt imakawa
Ppt imakawa
 
kita b
kita bkita b
kita b
 
Ebata m
Ebata mEbata m
Ebata m
 
Kimura b
Kimura bKimura b
Kimura b
 
Kobayashi b
Kobayashi bKobayashi b
Kobayashi b
 
katayama b
katayama bkatayama b
katayama b
 
Ppt yamagata
Ppt yamagataPpt yamagata
Ppt yamagata
 
Ppt minagawa
Ppt minagawaPpt minagawa
Ppt minagawa
 
iba m
iba miba m
iba m
 
takahashi b
takahashi btakahashi b
takahashi b
 
ashida b
ashida bashida b
ashida b
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Ppt honda

  • 1. 平成18年度 修士論文 カテゴリーに特徴的な単語を利用した Webサイトの分類に関する研究 Automated Classification Method of Websites by using Characteristic Keywords 複合情報学専攻 複雑系工学講座 調和系工学研究室 本田 崇智
  • 2. 背景 • 観光客が、Webサイトから情報を得る機会の増加 • WWW上には大量の情報が存在し、効率よく観光情報を得 ることが困難 カテゴリーに属するサイトの検索 カテゴリー(=人によって定義されたルール) (ex) 「飲食店」:飲食店の公式サイト 「ゴルフ」 : ゴルフ場の公式サイトと ゴルフ練習場の公式サイト <必要とされる技術> WWW カテゴリー Crawler Webサイトの収集 Webサイトのカテゴリーへの分類
  • 3. 目的 • カテゴリーに属するWebサイト群 – 他のカテゴリーには出現しにくいカテゴリーに特徴的な名詞が 共通して複数存在 (ex) カテゴリー「ゴルフ」 : “ゴルフ”、”コース”、”コンペ” <Webサイトのテキスト情報を用いた分類の関連研究> • Tf-idf法 [安形,99][堀田,03][上村,04] – 特定のサイトのみ多く出現する語を特徴的な語とみなして分類 • Bayesian Classifier [Andrew,98] – 単語の出現頻度によってカテゴリーに属する確率を計算し分類 <目的> カテゴリーに特徴的な名詞を利用したWebサイトの分類
  • 4. Webサイトの分類法:学習時 特徴的な名詞の抽出による学習 <カテゴリー i 中の名詞 w のスコア R(i,w)> 分類したいカテゴリー df (i, w) Webサイト F (i, w) Si df(i,w) : カテゴリー i に属し,かつ名詞wが出 現するWebサイト数 正例 負例 Si: カテゴリー i に属するWebサイト集合 → カテゴリー中(正例)の多くのサイトに出現 円 ・・・0.8 料金・・・0.8 する名詞のスコアが高い 温泉・・・0.7 ・・ 円・・・0.4 ・・ F (i, w ) R (i, w ) F (i, w ) F (i , w ) F (i, w) F (i , w) 温泉・・・0.8 F (i , w) :i以外の全てのカテゴリーを1つのカテゴ お客・・・0.4 リーとした場合 宿泊・・・0.1 ・・ → その他のカテゴリー(負例)には出現しない 名詞のスコアが高い R (i, w)
  • 5. Webサイトの分類法:分類時 未知のサイトから全名詞を抽出し、分類 未知のサイト中の全名詞 カテゴリー「旅館」の名詞のスコアR(i,w) 温泉・・・0.7 温泉 温泉 お客・・・0.4 カテゴリー「旅館」 お客 お客 月・・・0.1 の閾値 ・・・α 月 月 日 日 旅館に属するサイト 類似度similarity を計算 閾値α以上 学習集合を用いてその <サイト s とカテゴリー i の類似度 similarity(s,i)> 中で分類精度が高くな R (i, w) るように設定 w Ws similarity ( s, i ) Ws Ws : サイト s 中の名詞集合
  • 6. 実験の概要 <提案手法の概要> 正例と負例の選び Webサイト 方による分類への 影響? 正例 負例 → 学習集合の選択 円 ・・・0.8 料金・・・0.8 温泉・・・0.7 円・・・0.4 による分類精度の平 ・・ ・・ 均・分散の変化の検 未知のサイト中の全名詞 証実験 F (i , w ) 温泉・・・0.8 F (i , w ) 温泉 温泉 お客・・・0.4 お客 お客 宿泊・・・0.1 月 ・・ 月 日 日 R (i , w ) 類似度similarity を計算 カテゴリーに属するサイト あらゆるサイトに対して 閾値α以上 も分類は有効? → WWW上からリンクをたどって収集し 関連研究と比較した → 関連研究との分類 たサイトについて分類精度の検証実験 分類精度の有効性? 精度の比較実験
  • 7. 実験:関連手法との分類精度の比較 <設定> 関連手法:Bayesian Classifier [未知のサイトdi がカテゴリーcjに属する確率] P(c j ) 全体におけるカテゴリーcj 中のサイト数の割合 : V c* (di ) argmax p(c j ) (Bit p(wt c j ) (1 Bit )(1 p(wt c j ))) Bit : サイトdiにwtが 出現:1 出現しない:0 cj t 1 tw(cj,wt) : カテゴリー cjのwtが出現するサイト数 t(cj) : カテゴリー cjのサイト数 1 tw ( c j , w t ) p (w c ) t j 2 t(c j ) →単語の出現情報により カテゴリーに属する確率を計算 観光に関する以下の10カテゴリーを定義 Yahoo! Japanから各カテゴリーの定義を満たすサイトを選択し使用 • 「ゴルフ」:ゴルフ場・練習場の公式サイト(524サイト) • 「カフェ」:カフェ・喫茶店の公式サイト(358サイト) • 「施設」:スポーツ施設の公式サイト(91サイト) • 「テーマパーク」:テーマパークの公式サイト(190サイト) • 「公園」:公園の公式サイト(181サイト) • 「美術館」:美術館の公式サイト(409サイト) • 「ペンション」:ペンションの公式サイト (1020サイト) • 「祭り」:祭りの公式サイト(485サイト) • 「和食」:和食店の公式サイト(503サイト) • 「旅館」:旅館の公式サイト(1020サイト) 各カテゴリーごとに ランダムに選択した90%のサイト:訓練集合 → 特徴的な名詞の抽出に使用 残り10%のサイト:テスト集合 → 分類のテストに使用
  • 8. 結果:各カテゴリーの分類精度 Bayesian Classifierと提案手法それぞれにおけるF1値 1 0.9 0.8 0.7 0.6 Bayesian Classifier 0.5 0.4 提案手法 0.3 0.2 0.1 0 ゴ ペ 和 美 祭 カ 旅 テ 施 公 ペンションと旅館以外は ル ン 食 術 り フ 館 ー 設 園 提案手法のほうが高い フ シ 館 ェ マ パ 分類精度を示した ョ ン ー ク N tp Ntp N tp N 正例と判断 負例と判断 再現率 適合率 fn 2 再現率 適合率 N tp N F1 正例 Ntp Nfp Ntp N fn N tp N N fp N tn 再現率 適合率 fn fp 負例 Nfn Ntn
  • 9. 結果:「ペンション」「旅館」の考察 「ペンション」に属すると判断された 「旅館」に属すると判断された サイトの実際のカテゴリー(215サイト) サイトの実際のカテゴリー(169サイト) 4 10 14 12 ペンション 旅館 旅館 ペンション その他 その他 80 70 間違って分類されたサイト22サイト 間違って分類されたサイト18サイト中14サイトが 中12サイトがカテゴリー「ペンション」 カテゴリー「旅館」のサイトで占められている のサイトで占められている 「ペンション」「旅館」 472語 各カテゴリーごとに名詞のスコアRの降順に5000語 選択したとき2カテゴリー間で一致した名詞数 その他2カテゴリー 205語 の平均 似たカテゴリーを選択したときにはどちらも似た名詞が抽出されたため 間違って分類されたと考えられる
  • 10. 結果:抽出された名詞 カテゴリー 高 名詞のスコアR 低 ゴルフ ロングヒッター ティーショット ペリア ペンション 岩岳 八方屋根 MTB 和食 うな重 すっぽん 甘鯛 美術館 本展 絹本 文展 祭り 宵宮 御旅所 宮入 カフェ キリマンジャロ ジャマイカ ダージリン テーマパーク メリーゴーランド のりもの ホルスタイン 旅館 殿方 小宴 適応症 公園 シラカシ アラカシ エゴノキ 施設 日本体育協会 浦和レッズ ダンベル
  • 11. 実験:学習集合の選択による分類精度の影響 • 10fold Cross-validation:各カテゴリーのサイト数を10分割し,それぞれ 訓練集合全10通りの選び方によるF1値の平均と分散を計算 F1の平均 F1の分散 ゴルフ 0.92 0.00023 ペンション 0.81 0.00029 和食 0.83 0.00059 美術館 0.86 0.00030 祭り 0.88 0.00053 カフェ 0.64 0.00052 旅館 0.72 0.00049 テーマパーク 0.45 0.01399 施設 0.63 0.00465 公園 0.63 0.00076 どのカテゴリーでも分散は小さく、訓練集合の選び方による 影響は少ないということがいえる
  • 12. 実験:www上のサイトに対する分類精度の検証 <設定> 提案手法を適用し、カテゴリー「ゴルフ」に属するサイトを収集 訓練集合 以下のカテゴリーを定義し、Yahoo! Japanから定義を満たすサイトを選択し使用 • 「ゴルフ」:ゴルフ場・練習場の公式サイト(472サイト) • 「施設」:スポーツ施設の公式サイト(82サイト) • 「公園」:公園の公式サイト(163サイト) • 「ペンション」:ペンションの公式サイト (918サイト) • 「和食」:和食店の公式サイト(453サイト) • 「カフェ」:カフェ・喫茶店の公式サイト(323サイト) • 「テーマパーク」:テーマパークの公式サイト(171サイト) • 「美術館」:美術館の公式サイト(369サイト) • 「祭り」:祭りの公式サイト(437サイト) • 「旅館」:旅館の公式サイト(918サイト) テスト集合 訓練集合のカテゴリー「ゴルフ」のサイトからリンクをたどって収集した計384サイト
  • 13. 結果 「ゴルフ」に属すると判断された 「ゴルフ」に属さないと判断された サイトの実際のカテゴリー(215サイト) サイトの実際のカテゴリー(169サイト) 20 5 25 28 ゴルフ場・練習場 ゴルフ場・練習場 宿泊施設 19 宿泊施設 天気 64 天気 15 会社・団体 会社・団体 8 128 ゴルフ団体・ショップ ショップ その他 その他 16 54 2 ゴルフリゾートのサイトのように ゴルフ団体・ショップやゴルフ場の天気予報など、 ホテルなどその他の情報が多く ゴルフの情報が含まれるサイトが多い 間違って分類されたと考えられる 再現率:0.96 適合率:0.60 F1:0.74 再現率が0.96と、カテゴリーに属するサイトはほとんど収集で きたが、ゴルフに似たサイトも多く収集された
  • 14. まとめ Webサイトのカテゴリーへの自動分類法を提案した カテゴリーに特徴的な名詞を利用した分類 Yahoo! Japanとその他WWW上のサイトに対して適 用し、有効性を示した Bayesian Classifierとの比較実験 WWW上からカテゴリー「ゴルフ」に属するサイトを収集 Cross-validation法を用いて学習集合の選び方による分類 精度の影響がないことを示した