Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20131125 gis学会

817 views

Published on

Published in: Technology
  • Be the first to comment

  • Be the first to like this

20131125 gis学会

  1. 1. GISA学術研究発表Web大会 デジタル電話帳データを用いた店舗・事業所の 時系列データ構築と分析手法の研究   東京大学大学院 新領域創成科学研究科   社会文化環境学専攻 柴崎研究室     ○水野弘規、仙石裕明、秋山祐樹、柴崎亮介 1
  2. 2. 目次 1.  時系列変化データ活用の可能性 p3〜4   2.  時系列変化データ構築方法 p5〜19   3.  時系列変化データを用いた分析 p20〜23   2
  3. 3. 1-­‐1.  時系列変化データ活用の可能性   商業店舗の売上時系列変化 × 商業店舗の周辺店舗の時系列変化   ↓   売上変化要因の検証   (自社要因) (他社要因) (市場要因)   2.0e+07 1.5e+07 1.0e+07 as.ts(shop201746$sale) 2.5e+07 Sale (売上の時系列的変化)   Time 0 50 1.データ活用例 100 Time 売上の周期性に反する異常値検出!       ↑ 要因は?     ・自社要因    e.g.店員の態度、キャンペーンの展開     ・他社要因(周辺変化)→空間解析   e.g.   競合店の出現・消滅、人口の流出・流入     ・市場要因   e.g.景気変動   150 2.データ構築手法 3.データ分析 3
  4. 4. 1-­‐2.  時系列変化データ活用の可能性   商業店舗の売上時系列変化と商業店舗の周辺店舗の時系列 変化を組み合わせ、売上変化要因を検証できれば以下のような 出店の立地戦略に関わるデータが検証できる。     •  商業店舗相性の良い・悪い業種の検出   •  相性の良い店舗との相乗効果を狙った共同出店   •  売上の将来予測   •  各店舗の周辺店舗・事業所からの潜在的売上予測   1.データ活用例 2.データ構築手法 3.データ分析 4
  5. 5. 2-­‐1.  時系列変化データ構築のために用いたデジタル電話帳データ 住所情報 電話帳データ(テキストデータ) 1.データ活用例 2.データ構築手法 3.データ分析 5
  6. 6. 2-­‐1.  デジタル電話帳データの紹介 本研究で用いる電話帳データ(テレポイントPack!(株式会社ゼンリ ン))は、掲載されている店舗・事業所1件1件に関する以下の属 性情報を保有している。     電話帳データは2ヶ月に1回更新される上に、テレポイントPack!の 場合、過去のデータも蓄積されているため、店舗・事業所の変遷 を位置情報を含めて時系列的に把握することが出来る。   <電話帳データ(テレポイントPack!)の属性情報>   電話帳掲載名、電話長掲載名補足記述、電話帳掲載名カナ、電話番号、電話番 号ハイフンなし、住所、コード化住所カナ、住所コード、コード化文字数、郵便番号、 業種コード、代表区分、会社区分、属性区分、初回登録年月、電話帳発行年月、 字下げ文字数、掲載名・住所有無フラグ、親-­‐  掲載名・住所有無フラグ、精度フラグ、 緯度(X座標)、経度(Y座標)   1.データ活用例 2.データ構築手法 3.データ分析 6
  7. 7. 2-­‐1.  デジタル電話帳データの紹介 これらのうち、電話帳掲載名から店舗・事業所名、業種コードから 店舗毎の業種(業態)が分かる。またそれらの立地も住所や経緯 度から分かる。   ↓   新旧の電話帳に掲載されたこれらの情報を数珠つなぎにリンクし ていくことで、現在分布している店舗の出現時期、過去の変遷(名 称・業種の変化)が把握出来る。 <電話帳データ(テレポイントPack!)の属性情報>   電話帳掲載名、電話長掲載名補足記述、電話帳掲載名カナ、電話番号、電話番 号ハイフンなし、住所、コード化住所カナ、住所コード、コード化文字数、郵便番号、 業種コード、代表区分、会社区分、属性区分、初回登録年月、電話帳発行年月、 字下げ文字数、掲載名・住所有無フラグ、親-­‐  掲載名・住所有無フラグ、精度フラグ、 緯度(X座標)、経度(Y座標)   1.データ活用例 2.データ構築手法 3.データ分析 7
  8. 8. 2-­‐2.  店舗・事業所の時系列変化の分類   存続・・・・・・・2時点間で同じ場所に同じ店舗・事業所が継続   入れ替え・・・2時点間で同じ場所で店舗・事業所が入れ替わり   消滅・・・・・・・2時点間である地点に古い年には店舗・事業所が           存在するが、新しい年には存在しない   新規出現・・・2時点間である地点に古い年には店舗・事業所が           存在しないが、新しい年には存在する   時系列変化の例   1.データ活用例 2.データ構築手法 3.データ分析 8
  9. 9. 2-­‐3.  店舗・事業所の同一性判定手法 2時点間の時系列変化の判定手法     1.新旧で経緯度が完全一致する店舗      >店舗名称の同一性を判定。一致すれば存続、       一致しない場合は入替とする。   2.経緯度が完全一致しないもの      >住所や名称の同一性に応じて条件が分岐する。     3.結合先が見つからないもの      >新規出現か消滅と判定される。     以下本手法の詳細について説明する。   1.データ活用例 2.データ構築手法 3.データ分析 9
  10. 10. 2-­‐3.  店舗・事業所の同一性判定フロー   1.データ活用例 2.データ構築手法 3.データ分析 10
  11. 11. 2-­‐3.  経緯度が完全一致するもの   1.データ活用例 2.データ構築手法 3.データ分析 11
  12. 12. 2-­‐3.  経緯度が完全一致するもの   完全に同一地点にあるデータ同士をリンクする。   ↓   名称が完全一致する場合、「存続」とする。   名称が完全一致しない場合、N-­‐gram(後述)により類似度が0.35以 上で「存続」、0.35未満で「入れ替え」とする。   ↓   以上の処理を行った後、新旧時点間でリンクできない場合、新しい 年のみに存在する店舗は「新規出現」、古い年にのみに存在する店 舗は「消滅」と判定する。   1.データ活用例 2.データ構築手法 3.データ分析 12
  13. 13. 2-­‐3.  N-­‐gramとは?    文字列同士の類似度を定量的に評価する手法。表記揺れや語順の揺れを吸収 しながら文字列の同一性を評価できる。表意文字を使い、単語間の分かち書きを 行わない日本語や中国語、韓国語等の処理で利用価値が高い手法である。 Text-i アキ アキヤマ書店 キヤ ヤマ 文字列iと文字列jの類似度 マ書 書店 mi( 2 ) = 5 ( 2) ij n =3 S ( 2) ij 3ブロックが一致   n (ji2) = 3 本の Text-j のア アキ キヤ ヤマ m ( 2) j =5 = ( 2) ij ( 2) i ( 2) ji ( 2) j n +n m +m 3+3 = 0.60 5+5 本のアキヤマ 1.データ活用例 2.データ構築手法 3.データ分析 13
  14. 14. 2-­‐3.  経緯度が完全一致しないもの   1.データ活用例 2.データ構築手法 3.データ分析 14
  15. 15. 2-­‐3.  経緯度が完全一致しないもの   経緯度が完全一致するデータが存在しない。   ↓   ・住所と名称の同一性判断により、共に完全一致する場合、「存続」とする。   名称が完全一致しない場合はN-­‐gramによる名称同一性判定を実施する。                           ↓    ・最近隣の店舗同士をリンクし名称同一性判断    (ただし最近隣店舗までの距離が20m以上なら無視。)   ↓   N-­‐gramにより類似度が0.35以上で「存続」、0.35以下で「入れ替え」とする。   ↓   以上の処理を行った後、新旧年でリンクできないもので新しい年のみに存在 する店舗は「新規出現」、古い年にのみに存在する場合は「消滅」とする。   1.データ活用例 2.データ構築手法 3.データ分析 15
  16. 16. 2-­‐3.  結合先が見つからないもの   1.データ活用例 2.データ構築手法 3.データ分析 16
  17. 17. 2-­‐3.  結合先が見つからないもの   新しい年のみに存在する店舗は「新規出現」、古い年にのみに存在 する場合は「消滅」とする。   1.データ活用例 2.データ構築手法 3.データ分析 17
  18. 18. 2-­‐4.  処理結果 東京都と八王子市について店舗・事業所の2011年〜2012 年までの時系列変化を明らかにした。   2 69 ," 6.08% ," 1.85% 19.36% ," ," 7.19% ," 72.72% 0.96% 17.91% ," ," ," 73.95% 東京都全体と八王子市は「存続」70%前後、「入替え」1%前後、「消滅」6%前後、 「新規出現」18%前後と、概ね同じような時系列変化が見られる。   時系列変化は全国の詳細な地域にピックアップすることが可能である。 1.データ活用例 2.データ構築手法 3.データ分析 18
  19. 19. 2-­‐4.  八王子市における時系列空間結合の例 八王子市における時系列空間結合 0km % 八王子駅周辺における時系列空間結合 % % N % 例えば、八王子市全域の時空間結合で は「入れ替え」を表す青色のポイント データが集中する場所がある。そこを拡 大すると八王子駅周辺でターミナル駅で あり、店舗・事業所の多くが入れ替わっ ていることが分かる。 % % % % % % 1.データ活用例 1%km 0km % % % 店舗・事業所の時系列変化を地図にプロットした。   これによりどこでどのような時系列変化が起こったの か可視化できる。 8%km 2.データ構築手法 N % 3.データ分析 19
  20. 20. 3-­‐1.  構築データを用いた分析 構築した店舗・事業所の時系列変化データを用いて商業店舗の売り 上げ変化要因を検証する為にデータを集計した。   1.  業種別の時系列変化の件数・割合の集計   •  •  今回は東京都全域、東京23区、東京都の各市区町村につ いて明らかにした。   同様のデータは日本全国で作成可能であり、市区町村別集 計も可能である。     2.  売上データを提供いただいている各商業店舗から500m圏内 (可変)の業種別の時系列変化の件数と割合の集計   •    店舗データを与えることで任意の店舗で集計可能。   1.データ活用例 2.データ構築手法 3.データ分析 20
  21. 21. 3-­‐2.  業種別の時系列変化別の件数(2011~2012年)      東京都全域 200,000 180,000 160,000 店 舗 事 業 所 数 件 140,000 120,000 100,000 80,000 60,000 40,000 20,000 0 娯行病大生車学役 不 水鉱建食繊 化石 窯鉄非金機電輸精 商金不陸海空倉通電技 楽楽院型活関校所 明 産業設品維 学油 業鋼鉄属械気送密 業融動運運運庫信気術 製 金製 機用機他 保産 地福総関連教公他 農 土 薬 石 運情 専 食 属品 器機器製 険 紙品炭品 林 木 輸 報 門 施 用 事 関 祉 合 連 養 共 店 店 K 器 品 製 関 職 設 品 関 連 舗 機 品 連 関 店係 第三次産業の娯楽・食事、生活関連店(小売店)が非常に多い。第二次産業では建設土木業が 圧倒的に多い。第一次産業は極めて少ない。 21
  22. 22. 3-­‐2.  業種別の時系列変化別の割合(2011~2012年)      東京都全域 東京都の業種ごとの店舗・事業所にどのような変化が起きたのかも明らかにできる。 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 娯行病大生車学役 不 水鉱建食繊 化石 窯鉄非金機電輸精 商金不陸海空倉通電技 楽楽院型活関校所 明 産業設品維 学油 業鋼鉄属械気送密 業融動運運運庫信気術 製 金製 機用機他 保産 地福総関連教公他 農 土 薬 石 運情 専 食関 合連 属品 器機器製 険 紙品炭品 林 木 輸 報 門 施 用 事 連 祉 店 店 養 共 K 器 品 製 関 職 設 品 関 舗 機 品 連 関 店係 1.データ活用例 2.データ構築手法 3.データ分析 22
  23. 23. 3-­‐3.  ある商業店舗のスタディデータ ある商業店舗の売上と周辺(500m圏内)の業種別店舗・事業所の時系列変化の件数・割 合(2011年から2012年)を明らかにした。今後はこのようなデータをどのように組み合わ せ定量的に売上要因を表せるかが課題となる。 31000000   500m圏内の競合他社(コンビニ)時系列変化 29000000   sale 27000000   25000000   前年比(2012)   コンビニ 存続 入替わり   新規出現   消滅 2012sale   23000000   2011sale   21000000   19000000   2010sale   17000000   2009sale   +31.85% 18 1 1 3 15000000   1   2   3   4   5   6   7   8   9   10   11   12   month 800   店舗・事業所数(件) 100%   90%   80%   70%   60%   50%   40%   30%   20%   10%   0%   700   600   廃業 500   新設 400   入替 300   存続 200   100   0   ー K 23 ー K ー 娯行病大生車学役 不 水鉱建食繊 化石 窯鉄非金機電輸精 商金不陸海空倉通電技 楽楽院型活関校所 明 産業設品維 学油 業鋼鉄属械気送密 業融動運運運庫信気術 製 他 金製 機用機他 保産 地 総関連 農 土 薬石品 運情 専 食関福合連 教公 属品 器機器製 険 紙品炭 林 木 輸報 門施用事連祉店店 養共 品 器 職設品関 製 関 機 舗 品 連 関 店係 ー ー ー ー ー 娯行病大生車学役 不 水鉱建食繊 化石 窯鉄非金機電輸精 商金不陸海空倉通電技 楽楽院型活関校所 明 産業設品維 学油 業鋼鉄属械気送密 業融動運運運庫信気術 製 他 金製 機用機他 保産 地 総関連 農 土 薬石品 運情 専 食関福合連 教公 属品 器機器製 険 紙品炭 林 木 輸報 門施用事連祉店店 養共 品 器 職設品関 製 関 機 舗 品 連 関 店係
  24. 24. 今後の課題 作成したデータをどのように組み合わせて、他社要因による売上変 化を定量的に表すか?   •  売上変化要因となり得る業種の絞り込み      >売上が伸びた(あるいは下がった)時期に、周辺ではどの        業種の店舗が出現・消滅したのか?   •  売上変化に関係する店舗との距離関係の検証   •  自社要因、市場要因をどのように取り除くのか?   >競合他社の時系列変化のみで売上変化が起きたと    どのように断定するのか?   24

×