SlideShare a Scribd company logo
平成18年度 修士論文




 Webサイトに存在する施設属性
   情報の統合に関する研究
A Study on Integration of Facility Information on Websites


      複雑系工学講座 調和系工学研究室
         修士2年 森 康真
背景
• WWWの規模の広がり
 – 飲食店や宿泊施設に関する情報が増加
   • 飲食店紹介サイトや宿泊施設予約サイトに大量に存在
   • 複数のサイトにHTML文書の形式で重複・分散

  施設属性情報を抽出し統合
     ・属性名:施設名,電話番号,住所・・・
     ・属性値:全日空ホテル,011-221-4411 ,札幌市中央区・・・

    ・ 情報収集を行うユーザーの利便性向上
    ・ 大量のデータを必要とするデータベースの初期構築コスト低減


HTML:レイアウト情報を含み半構造的.属性名,属性値の抽出が困難
属性名,属性値はサイト毎に表現が異なる.統合のためには表現の統一が必要.
関連研究
     シリーズ型HTML文書を対象とした,事例に基づく情報抽出法[梅原ら 2002]
    共通のスタイルシートによる同種のレイアウトと構造を持つ文書 【例】ぐるナビ,楽天トラベル
                                                                                 属性名を予め定めた
      HTML文書                HTMLソース                               テキストブロック       XMLスキーマ
事        HTML文書 <td width="1%"><small><strong>
                      <td width="1%"><small><strong>
      テキストブロック間の類似度を算出.      HTMLソース
                住所</strong></small></td><td
                      住所</strong></small></td><td                 SURYA          <店舗情報>
例       類似度の和が最大になるように
                         width="98%"bgcolor="#F9F9E4"
                               width="98%"bgcolor="#F9F9E4"
                         colspan="3"><small>北海道札幌市
                               colspan="3"><small>北海道札幌市          新規オープン!           <店名> </店名>
                         西区琴似1条2丁目5-
                               西区琴似1条2丁目5-                        住所                <住所> </住所>
        アラインメントにより対応を取る. 2</small></td></tr><!--/住所--><tr
                               2</small></td></tr><!--/住所--><tr
                                                                  北海道札幌市西区・・・
                         valign="top"
                               valign="top"                                         <電話> </電話>
    SURYA                bgcolor="FFFFFF"><td width="1%"
                               bgcolor="FFFFFF"><td width="1%"
                                 食べ飲み処 あかり家                       電話             </店舗情報>
                         nowrapnowrap                             011-613-7070
    新規オープン!                      住所
                         bgcolor="#FEE890"><small><stro
                               bgcolor="#FEE890"><small><stro
                                                                  メニュー
    住所                           北海道札幌市中央区
                         ng>電話</strong>
                               ng>電話</strong>

    北海道札幌市西区                    電話                                食べ飲み処 あかり家
                              <td width="1%"><small><strong>
抽   電話                         011-209-3444
                              住所</strong></small></td><td         住所           <店舗情報>
出   011-613-7070               FAX
                              width="98%"bgcolor="#F9F9E4"
                                                                  北海道札幌市中央区・・・    <店名> </店名>
対   メニュー                      colspan="3"><small>北海道札幌市
                               011-209-3445
                                                                  電話
                              中央区北5条西4丁目
                               メニュー
                                                                                  <住所> </住所>
象                             </small></td></tr><!--/住所--><tr
                              valign="top"
                                                                  011-209-3444    <電話> </電話>
        同じ名詞が出現=高い類似度                                             FAX
                              bgcolor="FFFFFF"><td width="1%"
                              nowrap                              011-209-3445
                                                                               </店舗情報>
                              bgcolor="#FEE890"><small><stro
                              ng>電話</strong>
                                                                  メニュー


同じ名詞を持たないが同一の属性名を表す文字列→データ型として扱う                                                       精度向上
1つの事例のレイアウト構造,出現名詞に特化した抽出→複数の事例を用いる                                                    の余地
目的
• Webサイトに存在する施設情報の属性名・属
  性値を統合する手法の開発
 – 属性名に対応する属性値の1つのサイトからの
   抽出精度の向上
 – 属性値の統合ルールの構築
データ型
テキストブロック間の類似度の算出
郵便番号         〒063-0031                         〒060-0808             郵便番号

電話番号         090-1234-5678                     011-706-3083          電話番号

E-mail       fti@albany.net                    cats@victory.com       E-mail

                 同じ属性名を表しているが同じ名詞が出現しない
           ある属性名を表している文字列を型として定義する
     【例】郵便番号型
        <POST> ::= '〒' <num> <num> <num> '-' <num> <num> <num> <num>

2つのテキストブロック Ti , T j 間の類似度

                   SVi SV j   min SVi , SV j    DVi DV j   min DVi , DV j
Sim(Ti , T j )
                  SVi   SV j max SVi , SV j    DVi   DV j max DVi , DV j
                 SV :テキストブロック内の名詞出現数から構成した項ベクトル
                 DV :データ型の出現回数を元に構成した項ベクトル
                   :調整係数
複数事例の利用
                                                 テキストブロックの内容
◎複数事例利用のメリット                                               ・・
 →特定の事例のレイアウト構造に                                     市町村
 依存しない属性値抽出が可能                                        札幌
                                                    電話番号
                              抽出対象                      ・・
                                                  011-123-4567
                             HTML文書
                                                         市町村の情報を
                                                          持たない事例

 事例 1              事例 2             事例 3                事例 4


 事例 1により            事例 2により          事例 3により            事例 4により
 抽出された              抽出された            抽出された              抽出された
  属性値                属性値              属性値                属性値
<city>札幌</city>   <city>札幌</city>   <city>市町村</city>    <city></city>


札幌 : 2回出現
市町村 : 1回出現            <city>札幌</city>                  多数決による決定
実験設定
•   データ型と複数事例の導入の効果を検証                       •   評価指標
•   実験対象データ                                       – 適合率
    – 以下のサイト内のシリーズ型HTML文書                             システムの正解数
      から事例と100個の抽出対象を用意                               システムの抽出数
        • ぐるなび ( http://www.gnavi.co.jp/ )        – 再現率
•   パラメータ設定                                           システムの正解数
    –       1 .4                                         全正解数
•   実験条件                                          – F-measure
    – 事例数の変更                                          2×適合率×再現率
        •   ランダムに以下の個数を選択                              適合率+再現率
        •   1個
                                                   抽出先となるXMLスキーマ
        •   3個
                                                 <店舗情報>
        •   5個
                                                    <店名></店名>
        •   7個                                      <住所></住所>
        •   9個                                      <電話番号></電話番号>
    – データ型の利用                                       <営業時間></営業時間>
        • 用いない場合                                    <定休日></定休日>
                                                    <駐車場></駐車場>
        • 用いる場合
                                                    <席数></席数>
    – 10回試行                                         <平均予算></平均予算>
                                                    <ホームページ></ホームページ>
                                                    <メールアドレス></メールアドレス>
                                                 </店舗情報>
実験結果
                                 ぐるなび 結果

     1.000

     0.950

     0.900                                                        適合率
                                                                  再現率
 値




     0.850                                                        F-measure

     0.800

     0.750
             しない   する   しない する   しない   する   しない   する   しない   する
              1    1     3   3   5   5  7         7     9    9
                              データ型利用/事例数


                                        ・ 事例数を増やすこと
先行研究による結果に相当
                                        ・ データ型を利用すること
                                        によってF-measureが向上
                                        F-measureの低い属性名
                                        ・店名
                                         →型として定義されていない
属性値統合ルール
• サイト毎に属性値の表現は異なる
 – 例:属性名「郵便番号」に対する属性値
   • サイトA:”〒”+3桁の数字+”-”+4桁の数字
   • サイトB: 3桁の数字+”-”+4桁の数字
   • サイトC: 7桁の数字
   1種類の表現に統一するルールを規定
     例: ”〒”+3桁の数字+”-”+4桁の数字に統一

• 同じ施設の属性名に対する属性値が異なる場合
 – 多数決で最も多い属性値を選択
   • サイトA:〒063-0036
   • サイトB:〒063-0037     〒063-0036を選択
   • サイトC:〒063-0036
宿泊施設予約サイトの施設情報統合
• 札幌市内(定山渓含む)の                               • XMLスキーマ
  宿泊施設情報を対象                                    – 個々の宿泊施設の特徴が把握
                                                 できる属性名を定める
サイト名          URL                                 • 観光情報学会による宿泊施設
楽天トラベル        http://travel.rakuten.co.jp/          自己点検評価項目を元に策定
Yahoo! トラベル   http://travel.yahoo.co.jp/        <ホテル情報>
                                                   <基本情報></基本情報>
じゃらんnet       http://www.jalan.net/                <施設></施設>
ベストリザーブ       http://www.bestrsv.com/              <サービス></サービス>   自己点検
                                                   <食></食>         評価項目
                                                   <交通至便></交通至便>
                                                   <眺望></眺望>
                                                                   に基づく
複数サイトに重複して存在している                                   <癒し></癒し>       6種類の
同一の施設であることの判定                                      <その他></その他>     大項目
 →電話番号,宿泊施設名,住所                                 </ホテル情報>
のいずれかが一致したものを同一                               大項目内に複数の小項目を持つ(64項目)
施設と見なす                                        【例】
                                              「基本情報」内に“施設名” “住所” など
                                              「施設」内に“総客室数” “会議場”の有無など
                                              「サービス」内に“外国語接客”“スリッパ”の有無など
実験結果
    サイト名       件数    値が抽出できた   値が抽出できた
                     属性数の平均     総属性数
 楽天トラベル        148     46.2      6838
 Yahoo! トラベル   136     28.4      3863
 じゃらんnet       123     29.4      3617
 ベストリザーブ       102     42.5      4335    統
                                         合
               件数    値が取得できた   値が取得できた
                     属性数の平均     総属性数
 統合後           158     49.4      7805


統合により最大の情報を持つ楽天トラベルと比較して
 ・ 宿泊施設件数 10件
 ・ 属性値数 967項目
を多く取得することができた
まとめ
• 1つのサイトから属性名に対応する属性値の抽出
  精度の向上
 – データ型と複数事例の導入
  • 先行研究と比較して抽出精度が向上
• 属性情報の統合
 – 属性名:任意の属性名を事前に定める
 – 属性値:表現の揺らぎを統一するルールを構築
 – 4種類の宿泊施設予約サイトの施設属性情報を統合

More Related Content

Viewers also liked

egawa_b_2013
egawa_b_2013egawa_b_2013
egawa_b_2013
harmonylab
 
miyamori_b_2013
miyamori_b_2013miyamori_b_2013
miyamori_b_2013
harmonylab
 

Viewers also liked (14)

Nakabayashi m
Nakabayashi mNakabayashi m
Nakabayashi m
 
Sekiya b
Sekiya bSekiya b
Sekiya b
 
Ppt kasawaki
Ppt kasawakiPpt kasawaki
Ppt kasawaki
 
Nakano b
Nakano bNakano b
Nakano b
 
nagata b
nagata bnagata b
nagata b
 
Ppt yoshimoto
Ppt yoshimotoPpt yoshimoto
Ppt yoshimoto
 
Ppt takahashi
Ppt takahashiPpt takahashi
Ppt takahashi
 
shioji m
shioji mshioji m
shioji m
 
hosokawa b
hosokawa bhosokawa b
hosokawa b
 
segawa m
segawa msegawa m
segawa m
 
iimura m
iimura miimura m
iimura m
 
touya m
touya mtouya m
touya m
 
egawa_b_2013
egawa_b_2013egawa_b_2013
egawa_b_2013
 
miyamori_b_2013
miyamori_b_2013miyamori_b_2013
miyamori_b_2013
 

More from harmonylab

【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab
 

More from harmonylab (20)

【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 

Ppt mori

  • 1. 平成18年度 修士論文 Webサイトに存在する施設属性 情報の統合に関する研究 A Study on Integration of Facility Information on Websites 複雑系工学講座 調和系工学研究室 修士2年 森 康真
  • 2. 背景 • WWWの規模の広がり – 飲食店や宿泊施設に関する情報が増加 • 飲食店紹介サイトや宿泊施設予約サイトに大量に存在 • 複数のサイトにHTML文書の形式で重複・分散 施設属性情報を抽出し統合 ・属性名:施設名,電話番号,住所・・・ ・属性値:全日空ホテル,011-221-4411 ,札幌市中央区・・・ ・ 情報収集を行うユーザーの利便性向上 ・ 大量のデータを必要とするデータベースの初期構築コスト低減 HTML:レイアウト情報を含み半構造的.属性名,属性値の抽出が困難 属性名,属性値はサイト毎に表現が異なる.統合のためには表現の統一が必要.
  • 3. 関連研究 シリーズ型HTML文書を対象とした,事例に基づく情報抽出法[梅原ら 2002] 共通のスタイルシートによる同種のレイアウトと構造を持つ文書 【例】ぐるナビ,楽天トラベル 属性名を予め定めた HTML文書 HTMLソース テキストブロック XMLスキーマ 事 HTML文書 <td width="1%"><small><strong> <td width="1%"><small><strong> テキストブロック間の類似度を算出. HTMLソース 住所</strong></small></td><td 住所</strong></small></td><td SURYA <店舗情報> 例 類似度の和が最大になるように width="98%"bgcolor="#F9F9E4" width="98%"bgcolor="#F9F9E4" colspan="3"><small>北海道札幌市 colspan="3"><small>北海道札幌市 新規オープン! <店名> </店名> 西区琴似1条2丁目5- 西区琴似1条2丁目5- 住所 <住所> </住所> アラインメントにより対応を取る. 2</small></td></tr><!--/住所--><tr 2</small></td></tr><!--/住所--><tr 北海道札幌市西区・・・ valign="top" valign="top" <電話> </電話> SURYA bgcolor="FFFFFF"><td width="1%" bgcolor="FFFFFF"><td width="1%" 食べ飲み処 あかり家 電話 </店舗情報> nowrapnowrap 011-613-7070 新規オープン! 住所 bgcolor="#FEE890"><small><stro bgcolor="#FEE890"><small><stro メニュー 住所 北海道札幌市中央区 ng>電話</strong> ng>電話</strong> 北海道札幌市西区 電話 食べ飲み処 あかり家 <td width="1%"><small><strong> 抽 電話 011-209-3444 住所</strong></small></td><td 住所 <店舗情報> 出 011-613-7070 FAX width="98%"bgcolor="#F9F9E4" 北海道札幌市中央区・・・ <店名> </店名> 対 メニュー colspan="3"><small>北海道札幌市 011-209-3445 電話 中央区北5条西4丁目 メニュー <住所> </住所> 象 </small></td></tr><!--/住所--><tr valign="top" 011-209-3444 <電話> </電話> 同じ名詞が出現=高い類似度 FAX bgcolor="FFFFFF"><td width="1%" nowrap 011-209-3445 </店舗情報> bgcolor="#FEE890"><small><stro ng>電話</strong> メニュー 同じ名詞を持たないが同一の属性名を表す文字列→データ型として扱う 精度向上 1つの事例のレイアウト構造,出現名詞に特化した抽出→複数の事例を用いる の余地
  • 4. 目的 • Webサイトに存在する施設情報の属性名・属 性値を統合する手法の開発 – 属性名に対応する属性値の1つのサイトからの 抽出精度の向上 – 属性値の統合ルールの構築
  • 5. データ型 テキストブロック間の類似度の算出 郵便番号 〒063-0031 〒060-0808 郵便番号 電話番号 090-1234-5678 011-706-3083 電話番号 E-mail fti@albany.net cats@victory.com E-mail 同じ属性名を表しているが同じ名詞が出現しない ある属性名を表している文字列を型として定義する 【例】郵便番号型 <POST> ::= '〒' <num> <num> <num> '-' <num> <num> <num> <num> 2つのテキストブロック Ti , T j 間の類似度 SVi SV j min SVi , SV j DVi DV j min DVi , DV j Sim(Ti , T j ) SVi SV j max SVi , SV j DVi DV j max DVi , DV j SV :テキストブロック内の名詞出現数から構成した項ベクトル DV :データ型の出現回数を元に構成した項ベクトル :調整係数
  • 6. 複数事例の利用 テキストブロックの内容 ◎複数事例利用のメリット ・・ →特定の事例のレイアウト構造に 市町村 依存しない属性値抽出が可能 札幌 電話番号 抽出対象 ・・ 011-123-4567 HTML文書 市町村の情報を 持たない事例 事例 1 事例 2 事例 3 事例 4 事例 1により 事例 2により 事例 3により 事例 4により 抽出された 抽出された 抽出された 抽出された 属性値 属性値 属性値 属性値 <city>札幌</city> <city>札幌</city> <city>市町村</city> <city></city> 札幌 : 2回出現 市町村 : 1回出現 <city>札幌</city> 多数決による決定
  • 7. 実験設定 • データ型と複数事例の導入の効果を検証 • 評価指標 • 実験対象データ – 適合率 – 以下のサイト内のシリーズ型HTML文書 システムの正解数 から事例と100個の抽出対象を用意 システムの抽出数 • ぐるなび ( http://www.gnavi.co.jp/ ) – 再現率 • パラメータ設定 システムの正解数 – 1 .4 全正解数 • 実験条件 – F-measure – 事例数の変更 2×適合率×再現率 • ランダムに以下の個数を選択 適合率+再現率 • 1個 抽出先となるXMLスキーマ • 3個 <店舗情報> • 5個 <店名></店名> • 7個 <住所></住所> • 9個 <電話番号></電話番号> – データ型の利用 <営業時間></営業時間> • 用いない場合 <定休日></定休日> <駐車場></駐車場> • 用いる場合 <席数></席数> – 10回試行 <平均予算></平均予算> <ホームページ></ホームページ> <メールアドレス></メールアドレス> </店舗情報>
  • 8. 実験結果 ぐるなび 結果 1.000 0.950 0.900 適合率 再現率 値 0.850 F-measure 0.800 0.750 しない する しない する しない する しない する しない する 1 1 3 3 5 5 7 7 9 9 データ型利用/事例数 ・ 事例数を増やすこと 先行研究による結果に相当 ・ データ型を利用すること によってF-measureが向上 F-measureの低い属性名 ・店名 →型として定義されていない
  • 9. 属性値統合ルール • サイト毎に属性値の表現は異なる – 例:属性名「郵便番号」に対する属性値 • サイトA:”〒”+3桁の数字+”-”+4桁の数字 • サイトB: 3桁の数字+”-”+4桁の数字 • サイトC: 7桁の数字 1種類の表現に統一するルールを規定 例: ”〒”+3桁の数字+”-”+4桁の数字に統一 • 同じ施設の属性名に対する属性値が異なる場合 – 多数決で最も多い属性値を選択 • サイトA:〒063-0036 • サイトB:〒063-0037 〒063-0036を選択 • サイトC:〒063-0036
  • 10. 宿泊施設予約サイトの施設情報統合 • 札幌市内(定山渓含む)の • XMLスキーマ 宿泊施設情報を対象 – 個々の宿泊施設の特徴が把握 できる属性名を定める サイト名 URL • 観光情報学会による宿泊施設 楽天トラベル http://travel.rakuten.co.jp/ 自己点検評価項目を元に策定 Yahoo! トラベル http://travel.yahoo.co.jp/ <ホテル情報> <基本情報></基本情報> じゃらんnet http://www.jalan.net/ <施設></施設> ベストリザーブ http://www.bestrsv.com/ <サービス></サービス> 自己点検 <食></食> 評価項目 <交通至便></交通至便> <眺望></眺望> に基づく 複数サイトに重複して存在している <癒し></癒し> 6種類の 同一の施設であることの判定 <その他></その他> 大項目 →電話番号,宿泊施設名,住所 </ホテル情報> のいずれかが一致したものを同一 大項目内に複数の小項目を持つ(64項目) 施設と見なす 【例】 「基本情報」内に“施設名” “住所” など 「施設」内に“総客室数” “会議場”の有無など 「サービス」内に“外国語接客”“スリッパ”の有無など
  • 11. 実験結果 サイト名 件数 値が抽出できた 値が抽出できた 属性数の平均 総属性数 楽天トラベル 148 46.2 6838 Yahoo! トラベル 136 28.4 3863 じゃらんnet 123 29.4 3617 ベストリザーブ 102 42.5 4335 統 合 件数 値が取得できた 値が取得できた 属性数の平均 総属性数 統合後 158 49.4 7805 統合により最大の情報を持つ楽天トラベルと比較して ・ 宿泊施設件数 10件 ・ 属性値数 967項目 を多く取得することができた
  • 12. まとめ • 1つのサイトから属性名に対応する属性値の抽出 精度の向上 – データ型と複数事例の導入 • 先行研究と比較して抽出精度が向上 • 属性情報の統合 – 属性名:任意の属性名を事前に定める – 属性値:表現の揺らぎを統一するルールを構築 – 4種類の宿泊施設予約サイトの施設属性情報を統合