Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

野良ビッグデータへのお誘い

18,810 views

Published on

2017/01/21 第58回 Tokyo.R 発表資料

Published in: Technology
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

野良ビッグデータへのお誘い

  1. 1. 野良ビッグデータ へのお誘い Takano Twitter: @mtknnktm 2017/01/21 第58回 Tokyo.R 1
  2. 2. ⾃⼰紹介 •  名前: takano •  Twitter: @mtknnktm •  仕事: Web系企業のデータ関連あれこれ •  興味: 計算社会科学・複雑系科学 •  もろもろ – Publications: https://sites.google.com/site/mtkn35699/ – Slide: http://www.slideshare.net/MasanoriTakano1 – Blog: http://mtkn.hatenablog.com/ 2
  3. 3. •  ふと回帰分析したくなった時 •  ふとMCMCしたくなった時 •  ふと前処理したくなった時 •  ふと機械学習したくなった時 •  ふと集計したくなった時 •  ふと社会科学したくなった時 でも iris はもう飽きた → そんなときのために、   誰でも使えるデータをご紹介 3
  4. 4. 公開データなんて調べつく されてるんじゃないの? 問題設定と⼯夫次第で 意外なデータから意外な ことが分かる(かも) 4
  5. 5. おもしろいと思ったデータの取り⽅と使い⽅ ⼥性の美醜ステレオタイプの⽂化差の研究 •  差別: 超重⼤な問題 –  どのように、どこで、性・⼈種差別が起きているか? の状況把握をしたい •  ⽅法 –  検索エンジンの検索結果を使う –  検索結果は間接的に⼈の⾏動を表す –  "beautiful woman", "ugly woman" を22ヶ国の⾔語に翻訳し、 GoogleとBingで画像検索しデータ収集 → 検索された画像の年齢・⼈種を推定(Face++を使⽤) → ⾔語(≒国・⽂化)ごとの⼥性の   ⾝体的なステレオタイプの傾向を分析 •  基本的な傾向: –  ⽩⼈・若い⼥性の⾼評価傾向が強い •  美醜ステレオタイプの⽂化差クラスタリングしたり Camila Souza Araújo, Wagner Meira Jr., Virgilio Almeida, "Iden;fying Stereotypes in the Online Percep;on of Physical AErac;veness", Proceedings of The 8th Interna3onal Conference on Social Informa3cs (SocInfo), pp. 419-437, 2016. preprint: hEps://arxiv.org/abs/1608.02499 5
  6. 6. 建前と本⾳、意識と無意識の乖離 •  ⽶出会い系サイトOkキューピットの例 –  アンケート結果 •  「差別主義者とデートするか?」→ No –  ⾏動ログ分析の結果 •  特定の⼈種に対する好み •  ⽇本における最近の乖離の例 (これは両⽅共アンケート) –  LGBTに関する意識調査 •  上司や同僚が同性愛者や両性愛者だったら「嫌だ」「どちらか といえば嫌だ」と感じる⼈が計35.0% •  職場での差別については81.0%が「なくすべきだ」 •  http://www.nikkei.com/article/DGXLASDG07H4N_X00C17A1CR8000/ 性や差別に関してはこういった不⼀致が⾒られやすい? 実態の把握には、本⾳・無意識が表れやすい⾏動ログ分析が キーになるかも ビッグデータの残酷な現実 https://www.amazon.co.jp/dp/B01JHNBK90 6
  7. 7. ⽇本の傾向 – ⼈種 7 ⽇本はアジア⼈に 偏っている 韓国・マレーシアも 似た傾向 アジア⼈はアジア⼈が 対象?(ビッグデータの残酷 な現実も同様の傾向) ⼥性の美醜ステレオタイプの⽂化差の研究
  8. 8. 検索ヒットした⼥性の画像が美醜ともに低年齢な傾向 •  単に⽇本⼈が若く判別されただけ? → 韓国よりも⽇本のほうが低いので、そうでも無さそう 仮説: ⽇本のアイドルなどの低年齢傾向を⽰す?   若年層の性的搾取も⼈類の深刻な問題の⼀つ 単にライブラリが⽇本⾵の撮り⽅を若く判別してるだけかも。年齢・⼈種の判別はFace++を利⽤。 8 ⽇本の傾向 – 年齢 ⼥性の美醜ステレオタイプの⽂化差の研究
  9. 9. ⽇本語と韓国語の年齢層⽐較 ⾒た感じはあまり変わらないような…? → 何とも⾔えない…? 要検証。 9 (キーワードは適当なので論⽂と異なるかも。韓国語はGoogle翻訳による)
  10. 10. というわけで、 公開ビッグデータ を使っていろんな ことを知ろう 10
  11. 11. 本⽇ご紹介するデータ •  BigQuery(Github) •  PornHub •  Dryad, figshare 11
  12. 12. BigQuery •  様々なビッグデータが公開されている。 –  Hacker newsの記事とコメント、オンラインゲームのロ グ、サッカーデータ、Reddit、Twitterとかも –  https://www.reddit.com/r/bigquery/wiki/datasets •  ⽣データが多いので中⾝を理解できればかなり楽しい •  BigQueryにSQLを投げればデータが取れるので とにかく⼿軽。 •  BigQueryなので⼤きなデータの前処理も楽勝 •  ちゃんとしたドキュメントはあまりないがスキーマが 分かるのでなんとなくわかる(こともある) 12
  13. 13. Githubのデータ •  BigQueryに⾏動ログが毎⽇⼊れられている –  新鮮な⽣データ! •  ⾏動ログ –  公開リポジトリについての、プルリク、マージ、コミッ ト、フォーク、Issueなどなど (各APIのレスポンス?) •  ドキュメント –  https://www.githubarchive.org/ –  https://developer.github.com/v3/activity/events/ types •  これとは別にある程度まとめたものもある –  リポジトリの利⽤⾔語とかがわかる –  https://cloud.google.com/bigquery/public-data/ github 13
  14. 14. データの詳細のさわり (詳しくはドキュメント参照) •  ⾏動のタイプ: かなりいろいろ取れる –  CommitCommentEvent, CreateEvent, DeleteEvent, ForkEvent, GollumEvent, IssueCommentEvent, IssuesEvent, LabelEvent, MemberEvent, PublicEvent, PullRequestEvent, PullRequestReviewEvent, PullRequestReviewCommentEvent, PushEvent, WatchEvent •  JSON形式でユーザやリポジトリの情報など 詳細な情報が格納されている 14
  15. 15. データの取得例 クエリ(BigQueryにこのまま書けばOK) 結果 クリスマス〜年末は プルリクが少ない 15
  16. 16. 幸せなコメントの多い プログラミング⾔語 at Stackoverflow 圧倒的 1位! Gigazine: どのプログラミング⾔語で幸せなコメントor怒りのコメントが多いのかランキング http://gigazine.net/news/20170116-programming-language-happiest-comment/ 16
  17. 17. Githubのissueコメントでも やってみた クエリ 17
  18. 18. 結果… 18
  19. 19. 結果… Rは51位…(61個中) やらなきゃよかった 19
  20. 20. ⽣データならではの味わい •  違う名前の同じデータ –  forksとforks_count –  watchersとwatchers_countとstargazersと stargazers_count •  APIの資料には "ある"。なので、あるかと 思ってたら、データには "ない" –  CommitCommentEventのrepository情報 など •  なんだかよくわからない項⽬ •  ノイズ(よくわからない使い⽅をしている ユーザの⾏動ログ) 20
  21. 21. PornHub •  海外のアダルトサイトのデータ •  クロールしたデータをMITライセンスで公開 – ML, NLP⽤に作ったらしい – http://cdipaolo.github.io/hub-db/ – ドキュメントが揃ってて使いやすい •  アダルトデータは、うまく使えば性差別・ LGBT差別・⼈種差別における現状把握・問 題発⾒にも使える(かもしれない) 21
  22. 22. PornHubのデータの⾒かた d <- fromJSON(file='porn_hub/raw_data/149_page.json') d$albums[[1]]$segment #カテゴリ d$albums[[1]]$votes #評価回数 d$albums[[1]]$upvote_percent #ポジティブ評価の⽐率 d$albums[[1]]$views #閲覧回数 d$albums[[1]]$images[[1]]$tags #タグ 他にもタイトルやコメントとかも取れる 22
  23. 23. 試しに検証: ⽇本⼈と低年齢 •  さっきの画像検索データ研究での仮説 「⽇本の性的対象の低年齢化」をこちらの データを使って雑に検証してみる – このデータでは特にそうでは無さそう? タグ 総頻度 共起頻度 共起率 french 33 8 24% german 35 7 20% latina 202 33 16% japanese 78 11 14% asian 327 46 14% white 110 13 12% black 307 34 11% brazilian 21 2 10% russian 35 3 9% indian 76 6 8% chinese 29 2 7% anime 93 2 2% 国・⼈種と "teen, teens" などの若年齢タグとの共起 23 ※ クローリングの対象は   ランダムサンプリング   ではないので参考値
  24. 24. 試しに検証: ⽇本⼈と低年齢 •  回帰分析 –  若年齢タグ(teensとか)と⼈種・国の交絡 –  若年齢タグとの交絡が強ければ、 その⼈種・国の若年齢は性の対象になっていると⾔える? –  ⽬的変数はポジティブ評価回数 glm(positive_eval~offset(log(view))+tag*teens, family=poisson) のL1正則化 24 ※ クローリングの対象は   ランダムサンプリング   ではないので参考値
  25. 25. 試しに検証: ⽇本⼈と低年齢 25 ※ クローリングの対象は   ランダムサンプリング   ではないので参考値 異様に強い アニメ:teensタグの交絡 glm(positive_eval~offset(log(view))+tag*teens, family=poisson) のL1正則化 •  回帰分析 –  若年齢タグ(teensとか)と⼈種・国の交絡 –  若年齢タグとの交絡が強ければ、 その⼈種・国の若年齢は性の対象になっていると⾔える? –  ⽬的変数はポジティブ評価回数
  26. 26. 動物のソーシャルネット •  Dryad, figshareなどなど –  主に論⽂の実験・観測データ公開に使われる –  バイオ系の実験データ、動物のフィールドデータ からTwitterのデータまでいろいろ –  ⼤抵はその論⽂の実験が再現できるギリギリまで 削られたデータが多い(気がする) –  たまーに掘り出し物がある。 –  http://datadryad.org/ –  https://figshare.com/ •  その中から動物のソーシャルネットワークの データを分析 26
  27. 27. 動物のソーシャルネット +コミュニティ抽出 バブーン http://datadryad.org/ resource/doi:10.5061/dryad. 8gp03.2 ⿃ http://datadryad.org/ resource/doi:10.5061/dryad. 416sp ⿅ http:// moreno.ss.uci.edu/ data.html#reddeer 種によってトポロジがどう違うか? ⽐較するのも楽しいかも 27
  28. 28. 動物のソーシャルネット ネットワークの統計量⽐較   ノード数 クラスタ係数 次数相関 最短経路長 バブーン 29 0.52 -0.09 1.64 鳥 83 0.61 -0.13 1.82 鹿 671 0.56 -0.20 2.09 28 •  クラスタ係数 –  ⼤きいほど "友達の友達" が "友達" である傾向 –  最も社会性が⾼いと思われるバブーンが意外と低い •  次数相関 –  "友達の多い⼈" の友達が多いと正、そうでなければ負 –  全体的に負。⿅が最も強い傾向 •  最短経路⻑ –  ノード間の距離の平均 とりあえずやってみたがよくわからない。要調査。
  29. 29. まとめ 野良ビッグデータを使っていろいろ調べると楽しい •  BigQueryのオープンデータ –  使いやすくて最⾼ –  いろいろあってうれしい •  出会い系やアダルトサイトのデータ –  普段は表に出ない差別や性的搾取に本⾳や無意識を探るの に有⽤かも –  本発表の分析はデモ⽤のかなり適当なものなので、 本当に知るにはもっとちゃんと分析する必要がある –  センシティブなテーマなので慎重な妥当性の検討が必要 •  Dryad、figshare –  研究者が何年も掛けて集めたデータが簡単に⼿に⼊る。 たいへん貴重。 29
  30. 30. 付録: データが公開されている場所 とかリンク集とか •  SNAP –  ネットワークのデータ。ソーシャルネットワーク、P2P、 商品レビューなど。ドキュメントがそこそこある。 –  https://snap.stanford.edu/data/ •  AWS –  https://aws.amazon.com/jp/public-datasets/ •  リンク集 –  https://github.com/caesar0301/awesome-public- datasets –  http://web.stanford.edu/class/cs224w/ resources.html –  http://www.kdnuggets.com/datasets/index.html –  https://www.quora.com/Where-can-I-find-large- datasets-open-to-the-public 30

×