Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
Teruyuki Sakaue
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
Teruyuki Sakaue
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
Teruyuki Sakaue
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
Teruyuki Sakaue
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
Teruyuki Sakaue
Marketing×Python/Rで頑張れる事例16本ノック
Teruyuki Sakaue
機械学習による積極的失業〜オウンドメディアの訪問予測
Teruyuki Sakaue
最新1:1仿造伍伦贡大学毕业证文凭
gboth
1
of
27
Top clipped slide
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
Feb. 3, 2020
•
0 likes
1 likes
×
Be the first to like this
Show More
•
6,164 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Science
2020/2/3 地理データを集め、可視化し分析することが簡単にできるプログラミング言語について 5分間のLT発表資料
Teruyuki Sakaue
Follow
Data Analyst
Advertisement
Advertisement
Advertisement
Recommended
実務と論文で学ぶジョブレコメンデーション最前線2022
Teruyuki Sakaue
1.3K views
•
36 slides
警察庁オープンデータで交通事故の世界にDeepDive!
Teruyuki Sakaue
3.2K views
•
41 slides
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
Teruyuki Sakaue
3.8K views
•
38 slides
[Music×Analytics]プロの音に近づくための研究と練習
Teruyuki Sakaue
3.3K views
•
43 slides
[DSO] Machine Learning Seminar Vol.8 Chapter 9
Teruyuki Sakaue
521 views
•
54 slides
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
Teruyuki Sakaue
5.3K views
•
23 slides
More Related Content
More from Teruyuki Sakaue
(7)
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
Teruyuki Sakaue
•
6.3K views
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
Teruyuki Sakaue
•
6K views
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
Teruyuki Sakaue
•
642 views
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
Teruyuki Sakaue
•
23K views
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
Teruyuki Sakaue
•
14.8K views
Marketing×Python/Rで頑張れる事例16本ノック
Teruyuki Sakaue
•
22.1K views
機械学習による積極的失業〜オウンドメディアの訪問予測
Teruyuki Sakaue
•
6.7K views
Recently uploaded
(20)
最新1:1仿造伍伦贡大学毕业证文凭
gboth
•
2 views
bioenergetika_pp.ppt
DeslinaCitraHefryami
•
6 views
无法毕业?德国乌尔兹堡大学毕业证书和学位证书办理
sefomo
•
3 views
学校原版仿《田纳西大学毕业证学士学位证书》
gbxyz
•
2 views
哪里可以买美国科罗拉多大学波尔得分校毕业证文凭
aswdgyo
•
3 views
留学美国必看:康涅狄格大学毕业证、学位证办理流程
oqcymp
•
3 views
荷兰阿姆斯特丹自由大学毕业证文凭成绩单制作指南
nahej99297
•
4 views
最新1:1仿造伦敦大学学院毕业证文凭
gboth
•
2 views
无法毕业?澳洲莫道克大学毕业证书和学位证书办理
sefomo
•
2 views
最新1:1仿造渥太华大学毕业证文凭
gboth
•
2 views
カジノおすすめサイト 「www,rt33,top」コード b77 カジノの夜 📫 プレミアレイヤー ␈ コインカジノおすすめコード ṝ カナダ 💛 クレイ...
ssuser8be025
•
10 views
在哪里可以办加拿大大学文凭《百年理工学院毕业证成绩单仿制》
bqexmu
•
2 views
最新1:1仿造格拉斯哥大学毕业证文凭
ueususw
•
3 views
オンカジノ 【www.rt33.top】コード:b77 キリバス国家代表 🪁 fcヒムキ ᄋ ゴールドスロット ờ ハングオーバー ㈭ mlb中継インター...
ssuser8be025
•
3 views
最新1:1仿造佐治亚理工学院毕业证文凭
gboth
•
2 views
留学美国必看:奥罗-罗伯特大学毕业证、学位证办理流程
oqcymp
•
2 views
在哪里可以办美国大学文凭《纽黑文大学毕业证成绩单仿制》
nukotk
•
2 views
美国纽约大学毕业证文凭成绩单制作指南
nahej99297
•
5 views
无法毕业?德国维尔茨堡大学毕业证书和学位证书办理
sefomo
•
3 views
Periodic_table_large-es-updated-2018.pdf
benCHAVEZ4
•
1 view
Advertisement
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単に できるプログラミング言語について 2020/2/3 BIT VALLEY -INSIDE-
Vol.16 Mr_Sakaue(SKUE)
● 阪上晃幸(@Mr_Sakaue) ● データアナリスト@渋谷のベンチャー企業 ●
経歴 2012/2:インターン@渋谷のベンチャー企業 2012/3:一橋大学大学院経済学研究科 修士課程修了 2012/4〜:渋谷のベンチャー企業入社 ● 趣味 料理、ブログ記事の作成 『かものはしの分析ブログ』で検索! 自己紹介 2
● 事故物件に関する某UGC(User Generated
Content)サイトがあるが、人口あたりの発 生件数などが提供されていない。事故の発生要因もフリーテキストなため全体感を俯瞰 することが難しい。そこでテキストマイニングなどを用いてその詳細を調べ引っ越しの際 の参考としたい。 研究動機 3
1. 某UGCサイトから事故物件の情報をWebスクレイピング 2. 事故物件に記載された住所から緯度経度をAPIにより取得 3.
メッシュデータを作成し、メッシュあたりの事故物件件数を集計 4. 国土地理院の提供している人口や地価などのメッシュデータとつなぎこむ 5. 集計・可視化をする 6. 事故物件に関してテキストマイニングをする 研究計画 4
1.某UGCサイトから事故物件の情報をWebスクレイピング 5 【主な処理内容】 1.都内の住所一覧を収集 2.検索窓に住所を入力 3.検索結果一覧の上位 5件をクリック 4.一度地図を引くことで物件を広い範囲で捉 えれるようにする 5.物件のマークの要素を取得し、 1件ずつク リックし、表示された物件の情報をデータフ レームに格納する
事故物件に記載された住所から緯度経度をAPIにより取得 6 "{"ResultInfo":{"Count":1,"Total":1,"Start":1,"Status":200,"Description ":"","Copyright":"","Latency":0.011},"Feature":[{"Id":"34368.2","Gid ":"","Name":"広島県山県郡安芸太田町穴(大字) ","Geometry":{"Type":"point","Coordinates":"132.37215787,34.56353 237","BoundingBox":"132.34500700,34.53783800 132.40468100,34.61470700"},"Category":[],"Description":"","Style":[], "Property":{"Uid":"932e61fed665b8216c2c3c3fed72600199c1e52a","Ca ssetteId":"b22fee69b0dcaf2c2fe2d6a27906dafc","Yomi":"ヒロシマケンヤ マガタグンアキオオタチョウアナ(オオアザ) ","Country":{"Code":"JP","Name":"日本"},"Address":"広島県山県郡 安芸太田町穴(大字) ","GovernmentCode":"34368","AddressMatchingLevel":"3","AddressT ype":"町・大字"}}]}" 【主な処理内容】 1.Yahoo!のAPIのアカウントに関する config ファイルを読み込む。 2.先程の工程で手に入れた住所の緯度経度 をAPIを用いて取得
メッシュデータを作成し、メッシュあたりの事故物件件数を集計 7
メッシュデータを作成し、メッシュあたりの事故物件件数を集計 8 横軸は事故物件発生件数、縦軸は頻度。 ※APはAccidental Propertyの略 一番発生しているのは新 宿歌舞伎町周辺の1km メッシュ 2番目に発生しているの は池袋周辺の1kmメッ シュ
国土地理院の提供している人口や地価などのメッシュデータとつなぎこむ 9
国土地理院の提供している人口や地価などのメッシュデータとつなぎこむ 10
国土地理院の提供している人口や地価などのメッシュデータとつなぎこむ 11 それぞれ属するメッ シュごとに集計し平均 値を取った。
集計・可視化をする 12
集計・可視化をする 13 人口密度が高いと治安が悪くなる?人口 密度が高いと地価が上がる? 横軸は地価の階級値、縦軸は人口あたり事故物件発生件数 ※APはAccidental Propertyの略
集計・可視化をする 14 インタラクティブに操作できる
事故物件に関してテキストマイニングをする 15 MeCabで形態素解析を行い、頻度の高いものの文字が大きくなるよう表示 以下は事故物件の詳細に関するテキストについて
事故物件に関してテキストマイニングをする 16 以下は事故物件の住所について形態素解析を行ったもの
事故物件に関してテキストマイニングをする 17 LDA(トピックモデル)を用いて、潜在的なトピック数を10に固定してそのトピックに含まれ やすい単語のランキングTop5 治安と関係してそうなトピック は少なめだった。
事故物件に関してテキストマイニングをする 18 LDA×ベイズ時系列分析の手法を用いて、潜在的なトピック数を3に固定してそのトピッ クの時系列推移をプロット ・incident(事件)に関するトピックが近年増えている? ・近年まではビルからの転落が減っていた?
これまでの分析はたった一つのプログラミング言語で可能 19 1. 某UGCサイトから事故物件の情報をWebスクレイピング 2. 事故物件に記載された住所から緯度経度をAPIにより取得 3.
メッシュデータを作成し、メッシュあたりの事故物件件数を集計 4. 国土地理院の提供している人口や地価などのメッシュデータとつなぎこむ 5. 集計・可視化をする 6. 事故物件に関してテキストマイニングをする
その言語とは 20
Python 21
ではなくて 22
● 統計解析に特化したスクリプト言語 ● データ取得、前処理、可視化、分析、レポーティング、分析結果を用いたアプリケーション の開発までをスムーズに行える ●
RStudio、Jupyter Notebookなど統合開発環境が充実 ● 自由な書き方ができる ● 豊富なライブラリ(2020年1月時点で15,344以上(GitHub除く) ) ● 頻度の高いコミュニティー(Tokyo.R) ● カジュアルに相談できるSlackチャンネル(r-wakalang) ● 書籍も充実(統計解析系の本はRを扱っているものも多い) R言語 23
R言語の人気は伸び悩んでいる? 24
● configファイルの読み込み:config ● Seleniumの実行:RSelenium ●
APIを用いたデータ取得:RJSONIO、RCurl ● データ整形:tidyverse(dplyr) ● 地理データ関連:jpmesh、sf、kokudosuuchi、jpndistrict ● 可視化:mapview、ggplot2 ● 形態素解析:RMeCab ● LDA:topicmodels ● LDA×ベイズ時系列分析:LDATS 本日登場したライブラリ 25
さぁ、皆さんも R言語 始めてみませんか? 26
Enjoy 27
Advertisement