食べログデータから見る
東新宿と西早稲田のランチ事情
石塚 淳
祝移転!
今日のランチどうしよう…
目的
• 食べログデータから東新宿と西早稲田のお店の傾向
の違いを知る
• オススメのお店を見つける
• 西早稲田で頻繁に利用していたお店に似ている東新
宿のお店を探す(余裕があれば…)
クローリングで使用した技術
• Python 3系
• Selenium
• ブラウザ操作を自動化できるツール
• PhantomJS
• ヘッドレスなブラウザ
• BeautifulSoup
• Pythonのスクレイピング用モジュール
クローリング時の3つの注意
• サイトに配慮しよう
• バグが出ないように逐次確認しよう
• 著作権を気にしよう
東新宿から500m圏内の店
西早稲田から500m圏内の店
実際にデータを見てみる
by Python
Pandas , Spicy
食べログレビュー
• お店の数は移転して増えた
• レビューは悪くなっているように見える
お店の数 レビュー
平均値 中央値 不偏分散
東新宿 720 3.13 3.05 0.03
西早稲田 208 3.19 3.08 0.05
レビューの平均値に差があるのか
• Studentのt検定を使用する(平均値の差の検定)
• 母集団は正規分布を仮定
• 東新宿と西早稲田の分散は等しいと仮定する
昼の価格帯
• 価格は設定されていない店も多かった
• 昼価格なのに5000円以上の店が。。
~999 1000~1999 2000~2999 3000~3999 5000~5999
東新宿
214 64 9 4 2
30% 8.9% 1% 0.6% 0%
西早稲田
117 20 1 3 0
56% 10% 0% 1% 0%
オススメのお店とは
• 安い
• ランチにそもそも1000円以上払いたくない
• レビューが高い
• 安直w
実際にいくつか出してみた
マイセレクト
• ラーメン、スイーツを除去(20件 → 9件)
• 独断と偏見で絞り込む(9件 → 3件)
• 万人受けする
• あまり知られていない
そば寿 す奈ば
飲食笑商何屋ねこ膳
サンサール
まとめ
• みんなもっとクローリングしよう
Webにはいろんなデータが落ちている
• データ分析
答えのない問題にデータを用いて解決する手段
少しでも興味を持ってもらえたら幸いです

食べログデータから見る東新宿と西早稲田のランチ事情

Editor's Notes

  • #3 10月末に西早稲田にあるビルからこのビルに移転
  • #4 いいことばかりじゃない 行きつけの店がない
  • #6 まずはデータを取ってくるところの話
  • #7 sleep(3) F5攻撃と一緒です クローリングには時間がかかる 構造が途中で変わっていたりするので余計なエラーを引き起こしやすい 情報解析のためであるなら著作権法第47条の7で認められている 利用規約なども念のため確認
  • #8 かぶりが出ないようにしたかった 件数が多すぎないように
  • #9 かぶりが出ないようにしたかった 件数が多すぎないように
  • #11 検定を行えば統計的に差があるかどうか言える →ABテスト(カイ二乗検定)
  • #12 t検定は二種類存在する 母集団の分散が異なる場合は、Welchのt検定を用いる 正規分布が仮定できない場合は、Wilcoxonの順位和検定
  • #13 ランチで5000円以上ってどんなお店だよ >鹿児島県産の黒豚を使ったしゃぶしゃぶ(あまり評価高くない) >「味楽亭」めちゃくちゃ美味しそうな焼肉
  • #15 上位20件
  • #16 サンサール 山西亭 サームロット トンタイ そば寿す奈ば 名家 ハンヤン ねこ膳 BWカフェ