野良ビッグデータ
へのお誘い
Takano
Twitter: @mtknnktm
2017/01/21 第58回 Tokyo.R
1
⾃⼰紹介
•  名前: takano
•  Twitter: @mtknnktm
•  仕事: Web系企業のデータ関連あれこれ
•  興味: 計算社会科学・複雑系科学
•  もろもろ
– Publications: https://sites.google.com/site/mtkn35699/
– Slide: http://www.slideshare.net/MasanoriTakano1
– Blog: http://mtkn.hatenablog.com/
2
•  ふと回帰分析したくなった時
•  ふとMCMCしたくなった時
•  ふと前処理したくなった時
•  ふと機械学習したくなった時
•  ふと集計したくなった時
•  ふと社会科学したくなった時
でも iris はもう飽きた
→ そんなときのために、
  誰でも使えるデータをご紹介 3
公開データなんて調べつく
されてるんじゃないの?
問題設定と⼯夫次第で
意外なデータから意外な
ことが分かる(かも)
4
おもしろいと思ったデータの取り⽅と使い⽅
⼥性の美醜ステレオタイプの⽂化差の研究
•  差別: 超重⼤な問題
–  どのように、どこで、性・⼈種差別が起きているか?
の状況把握をしたい
•  ⽅法
–  検索エンジンの検索結果を使う
–  検索結果は間接的に⼈の⾏動を表す
–  "beautiful woman", "ugly woman" を22ヶ国の⾔語に翻訳し、
GoogleとBingで画像検索しデータ収集
→ 検索された画像の年齢・⼈種を推定(Face++を使⽤)
→ ⾔語(≒国・⽂化)ごとの⼥性の
  ⾝体的なステレオタイプの傾向を分析
•  基本的な傾向:
–  ⽩⼈・若い⼥性の⾼評価傾向が強い
•  美醜ステレオタイプの⽂化差クラスタリングしたり
Camila	Souza	Araújo,	Wagner	Meira	Jr.,	Virgilio	Almeida,	"Iden;fying	Stereotypes	in	the	Online	Percep;on	of	
Physical	AErac;veness",	Proceedings	of	The	8th	Interna3onal	Conference	on	Social	Informa3cs	(SocInfo),	pp.	
419-437,	2016.	preprint:	hEps://arxiv.org/abs/1608.02499	
5
建前と本⾳、意識と無意識の乖離
•  ⽶出会い系サイトOkキューピットの例
–  アンケート結果
•  「差別主義者とデートするか?」→ No
–  ⾏動ログ分析の結果
•  特定の⼈種に対する好み
•  ⽇本における最近の乖離の例
(これは両⽅共アンケート)
–  LGBTに関する意識調査
•  上司や同僚が同性愛者や両性愛者だったら「嫌だ」「どちらか
といえば嫌だ」と感じる⼈が計35.0%
•  職場での差別については81.0%が「なくすべきだ」
•  http://www.nikkei.com/article/DGXLASDG07H4N_X00C17A1CR8000/
性や差別に関してはこういった不⼀致が⾒られやすい?
実態の把握には、本⾳・無意識が表れやすい⾏動ログ分析が
キーになるかも
ビッグデータの残酷な現実
https://www.amazon.co.jp/dp/B01JHNBK90
6
⽇本の傾向 – ⼈種
7	
⽇本はアジア⼈に
偏っている
韓国・マレーシアも
似た傾向
アジア⼈はアジア⼈が
対象?(ビッグデータの残酷
な現実も同様の傾向)
⼥性の美醜ステレオタイプの⽂化差の研究
検索ヒットした⼥性の画像が美醜ともに低年齢な傾向
•  単に⽇本⼈が若く判別されただけ?
→ 韓国よりも⽇本のほうが低いので、そうでも無さそう
仮説: ⽇本のアイドルなどの低年齢傾向を⽰す?
  若年層の性的搾取も⼈類の深刻な問題の⼀つ
単にライブラリが⽇本⾵の撮り⽅を若く判別してるだけかも。年齢・⼈種の判別はFace++を利⽤。
8	
⽇本の傾向 – 年齢
⼥性の美醜ステレオタイプの⽂化差の研究
⽇本語と韓国語の年齢層⽐較
⾒た感じはあまり変わらないような…?
→ 何とも⾔えない…? 要検証。
9	
(キーワードは適当なので論⽂と異なるかも。韓国語はGoogle翻訳による)
というわけで、
公開ビッグデータ
を使っていろんな
ことを知ろう
10
本⽇ご紹介するデータ
•  BigQuery(Github)
•  PornHub
•  Dryad, figshare
11
BigQuery
•  様々なビッグデータが公開されている。
–  Hacker newsの記事とコメント、オンラインゲームのロ
グ、サッカーデータ、Reddit、Twitterとかも
–  https://www.reddit.com/r/bigquery/wiki/datasets
•  ⽣データが多いので中⾝を理解できればかなり楽しい
•  BigQueryにSQLを投げればデータが取れるので
とにかく⼿軽。
•  BigQueryなので⼤きなデータの前処理も楽勝
•  ちゃんとしたドキュメントはあまりないがスキーマが
分かるのでなんとなくわかる(こともある)
12
Githubのデータ
•  BigQueryに⾏動ログが毎⽇⼊れられている
–  新鮮な⽣データ!
•  ⾏動ログ
–  公開リポジトリについての、プルリク、マージ、コミッ
ト、フォーク、Issueなどなど
(各APIのレスポンス?)
•  ドキュメント
–  https://www.githubarchive.org/
–  https://developer.github.com/v3/activity/events/
types
•  これとは別にある程度まとめたものもある
–  リポジトリの利⽤⾔語とかがわかる
–  https://cloud.google.com/bigquery/public-data/
github
13
データの詳細のさわり
(詳しくはドキュメント参照)
•  ⾏動のタイプ: かなりいろいろ取れる
–  CommitCommentEvent, CreateEvent,
DeleteEvent, ForkEvent, GollumEvent,
IssueCommentEvent, IssuesEvent,
LabelEvent, MemberEvent, PublicEvent,
PullRequestEvent, PullRequestReviewEvent,
PullRequestReviewCommentEvent,
PushEvent, WatchEvent
•  JSON形式でユーザやリポジトリの情報など
詳細な情報が格納されている
14
データの取得例
クエリ(BigQueryにこのまま書けばOK)
結果 クリスマス〜年末は
プルリクが少ない
15
幸せなコメントの多い
プログラミング⾔語 at Stackoverflow
圧倒的
1位!
Gigazine: どのプログラミング⾔語で幸せなコメントor怒りのコメントが多いのかランキング
http://gigazine.net/news/20170116-programming-language-happiest-comment/
16
Githubのissueコメントでも
やってみた
クエリ
17
結果…
18
結果…
Rは51位…(61個中)
やらなきゃよかった
19
⽣データならではの味わい
•  違う名前の同じデータ
–  forksとforks_count
–  watchersとwatchers_countとstargazersと
stargazers_count
•  APIの資料には "ある"。なので、あるかと
思ってたら、データには "ない"
–  CommitCommentEventのrepository情報
など
•  なんだかよくわからない項⽬
•  ノイズ(よくわからない使い⽅をしている
ユーザの⾏動ログ)
20
PornHub
•  海外のアダルトサイトのデータ
•  クロールしたデータをMITライセンスで公開
– ML, NLP⽤に作ったらしい
– http://cdipaolo.github.io/hub-db/
– ドキュメントが揃ってて使いやすい
•  アダルトデータは、うまく使えば性差別・
LGBT差別・⼈種差別における現状把握・問
題発⾒にも使える(かもしれない)
21
PornHubのデータの⾒かた
d <- fromJSON(file='porn_hub/raw_data/149_page.json')
d$albums[[1]]$segment #カテゴリ
d$albums[[1]]$votes #評価回数
d$albums[[1]]$upvote_percent #ポジティブ評価の⽐率
d$albums[[1]]$views #閲覧回数
d$albums[[1]]$images[[1]]$tags #タグ
他にもタイトルやコメントとかも取れる
22
試しに検証: ⽇本⼈と低年齢
•  さっきの画像検索データ研究での仮説
「⽇本の性的対象の低年齢化」をこちらの
データを使って雑に検証してみる
– このデータでは特にそうでは無さそう?
タグ	 総頻度	 共起頻度	 共起率	
french	 33	 8	 24%	
german	 35	 7	 20%	
latina	 202	 33	 16%	
japanese	 78	 11	 14%	
asian	 327	 46	 14%	
white	 110	 13	 12%	
black	 307	 34	 11%	
brazilian	 21	 2	 10%	
russian	 35	 3	 9%	
indian	 76	 6	 8%	
chinese	 29	 2	 7%	
anime	 93	 2	 2%	
国・⼈種と "teen, teens" などの若年齢タグとの共起
23	
※ クローリングの対象は
  ランダムサンプリング
  ではないので参考値
試しに検証: ⽇本⼈と低年齢
•  回帰分析
–  若年齢タグ(teensとか)と⼈種・国の交絡
–  若年齢タグとの交絡が強ければ、
その⼈種・国の若年齢は性の対象になっていると⾔える?
–  ⽬的変数はポジティブ評価回数
glm(positive_eval~offset(log(view))+tag*teens, family=poisson) のL1正則化
24	
※ クローリングの対象は
  ランダムサンプリング
  ではないので参考値
試しに検証: ⽇本⼈と低年齢
25	
※ クローリングの対象は
  ランダムサンプリング
  ではないので参考値
異様に強い
アニメ:teensタグの交絡
glm(positive_eval~offset(log(view))+tag*teens, family=poisson) のL1正則化
•  回帰分析
–  若年齢タグ(teensとか)と⼈種・国の交絡
–  若年齢タグとの交絡が強ければ、
その⼈種・国の若年齢は性の対象になっていると⾔える?
–  ⽬的変数はポジティブ評価回数
動物のソーシャルネット
•  Dryad, figshareなどなど
–  主に論⽂の実験・観測データ公開に使われる
–  バイオ系の実験データ、動物のフィールドデータ
からTwitterのデータまでいろいろ
–  ⼤抵はその論⽂の実験が再現できるギリギリまで
削られたデータが多い(気がする)
–  たまーに掘り出し物がある。
–  http://datadryad.org/
–  https://figshare.com/
•  その中から動物のソーシャルネットワークの
データを分析
26
動物のソーシャルネット
+コミュニティ抽出
バブーン
http://datadryad.org/
resource/doi:10.5061/dryad.
8gp03.2
⿃
http://datadryad.org/
resource/doi:10.5061/dryad.
416sp
⿅
http://
moreno.ss.uci.edu/
data.html#reddeer
種によってトポロジがどう違うか?
⽐較するのも楽しいかも 27
動物のソーシャルネット
ネットワークの統計量⽐較
 	 ノード数	 クラスタ係数	次数相関	 最短経路長	
バブーン	 29	 0.52	 -0.09	 1.64	
鳥	 83	 0.61	 -0.13	 1.82	
鹿	 671	 0.56	 -0.20	 2.09	
28	
•  クラスタ係数
–  ⼤きいほど "友達の友達" が "友達" である傾向
–  最も社会性が⾼いと思われるバブーンが意外と低い
•  次数相関
–  "友達の多い⼈" の友達が多いと正、そうでなければ負
–  全体的に負。⿅が最も強い傾向
•  最短経路⻑
–  ノード間の距離の平均
とりあえずやってみたがよくわからない。要調査。
まとめ
野良ビッグデータを使っていろいろ調べると楽しい
•  BigQueryのオープンデータ
–  使いやすくて最⾼
–  いろいろあってうれしい
•  出会い系やアダルトサイトのデータ
–  普段は表に出ない差別や性的搾取に本⾳や無意識を探るの
に有⽤かも
–  本発表の分析はデモ⽤のかなり適当なものなので、
本当に知るにはもっとちゃんと分析する必要がある
–  センシティブなテーマなので慎重な妥当性の検討が必要
•  Dryad、figshare
–  研究者が何年も掛けて集めたデータが簡単に⼿に⼊る。
たいへん貴重。
29
付録: データが公開されている場所
とかリンク集とか
•  SNAP
–  ネットワークのデータ。ソーシャルネットワーク、P2P、
商品レビューなど。ドキュメントがそこそこある。
–  https://snap.stanford.edu/data/
•  AWS
–  https://aws.amazon.com/jp/public-datasets/
•  リンク集
–  https://github.com/caesar0301/awesome-public-
datasets
–  http://web.stanford.edu/class/cs224w/
resources.html
–  http://www.kdnuggets.com/datasets/index.html
–  https://www.quora.com/Where-can-I-find-large-
datasets-open-to-the-public
30

野良ビッグデータへのお誘い