Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Masanori Takano
21,604 views
野良ビッグデータへのお誘い
2017/01/21 第58回 Tokyo.R 発表資料
Technology
◦
Read more
71
Save
Share
Embed
Embed presentation
Download
Downloaded 54 times
1
/ 30
2
/ 30
3
/ 30
4
/ 30
5
/ 30
6
/ 30
7
/ 30
8
/ 30
9
/ 30
10
/ 30
11
/ 30
12
/ 30
13
/ 30
14
/ 30
15
/ 30
16
/ 30
17
/ 30
18
/ 30
19
/ 30
20
/ 30
21
/ 30
22
/ 30
23
/ 30
24
/ 30
25
/ 30
26
/ 30
27
/ 30
28
/ 30
29
/ 30
30
/ 30
More Related Content
PDF
SIer出身者を採用したい非SI経験+採用責任者の叫び
by
真一 藤川
PPTX
5分でわかるベイズ確率
by
hoxo_m
PDF
XGBoost: the algorithm that wins every competition
by
Jaroslaw Szymczak
PPTX
Introduction of "the alternate features search" using R
by
Satoshi Kato
PDF
論文紹介 Explaining the prevalence, scaling and variance of urban phenomena
by
Masanori Takano
PPTX
Oracle property and_hdm_pkg_rigorouslasso
by
Satoshi Kato
PDF
Lightweight Interactions for Reciprocal Cooperation in a Social Network Game
by
Masanori Takano
PDF
サラリーマンのための計算社会科学
by
Masanori Takano
SIer出身者を採用したい非SI経験+採用責任者の叫び
by
真一 藤川
5分でわかるベイズ確率
by
hoxo_m
XGBoost: the algorithm that wins every competition
by
Jaroslaw Szymczak
Introduction of "the alternate features search" using R
by
Satoshi Kato
論文紹介 Explaining the prevalence, scaling and variance of urban phenomena
by
Masanori Takano
Oracle property and_hdm_pkg_rigorouslasso
by
Satoshi Kato
Lightweight Interactions for Reciprocal Cooperation in a Social Network Game
by
Masanori Takano
サラリーマンのための計算社会科学
by
Masanori Takano
Viewers also liked
PDF
文字認識はCNNで終わるのか?
by
Seiichi Uchida
PDF
ヒトと社会を理解するための計算社会科学(社会情報システム学シンポジウム 基調講演資料)
by
Masanori Takano
PDF
社会関係の数と親密さのトレードオフが社会構造に与える影響
by
Masanori Takano
PPTX
OpenFlow OAM ツール - OKINAWA Open Days 2014 Day1
by
Satoshi KOBAYASHI
PDF
MySQLアンチパターン
by
yoku0825
PDF
Shiny-Serverあれこれ
by
Kazuya Wada
PDF
社会関係の強さに基づく社会的グルーミング戦略の適応性
by
Masanori Takano
PDF
2017年3月版データマエショリスト入門
by
Yuya Matsumura
PDF
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
by
Shuyo Nakatani
PDF
NETCONFとYANGの話
by
Masakazu Asama
PDF
Deep learningの概要とドメインモデルの変遷
by
Taiga Nomi
PDF
ネットワークでなぜ遅延が生じるのか
by
Jun Kato
PDF
Docker勉強会2017 実践編 スライド
by
Shiojiri Ohhara
PDF
Mmi winter2017
by
Michael Kleven
PDF
Time for Functions
by
simontcousins
PDF
GreatLife KC Golf Courses
by
Doug Albers
PDF
How Gugin can help develop a corporate culture
by
Gugin - www.gugin.com
文字認識はCNNで終わるのか?
by
Seiichi Uchida
ヒトと社会を理解するための計算社会科学(社会情報システム学シンポジウム 基調講演資料)
by
Masanori Takano
社会関係の数と親密さのトレードオフが社会構造に与える影響
by
Masanori Takano
OpenFlow OAM ツール - OKINAWA Open Days 2014 Day1
by
Satoshi KOBAYASHI
MySQLアンチパターン
by
yoku0825
Shiny-Serverあれこれ
by
Kazuya Wada
社会関係の強さに基づく社会的グルーミング戦略の適応性
by
Masanori Takano
2017年3月版データマエショリスト入門
by
Yuya Matsumura
RとStanでクラウドセットアップ時間を分析してみたら #TokyoR
by
Shuyo Nakatani
NETCONFとYANGの話
by
Masakazu Asama
Deep learningの概要とドメインモデルの変遷
by
Taiga Nomi
ネットワークでなぜ遅延が生じるのか
by
Jun Kato
Docker勉強会2017 実践編 スライド
by
Shiojiri Ohhara
Mmi winter2017
by
Michael Kleven
Time for Functions
by
simontcousins
GreatLife KC Golf Courses
by
Doug Albers
How Gugin can help develop a corporate culture
by
Gugin - www.gugin.com
More from Masanori Takano
PDF
書籍「計算社会科学入門」第9章 統計モデリング
by
Masanori Takano
PDF
WWWにおける社会科学
by
Masanori Takano
PDF
サイバーエージェントにおける計算社会科学研究
by
Masanori Takano
PDF
Webとメディアと社会的分断 @ WWW論文読み会
by
Masanori Takano
PDF
Analysis of the Changes in Listening Trends of a Music Streaming Service
by
Masanori Takano
PDF
WWW論文読み会 発表資料: Computational Health セッション
by
Masanori Takano
PDF
ソーシャルビッグデータ・オープンデータによる社会構造変化の発見
by
Masanori Takano
PDF
仮想社会におけるソーシャルサポート効果の検証: ピグパーティにおけるいじめ相談
by
Masanori Takano
PDF
論文紹介: Tweetment effects on the tweeted experimentally reducing racist harass...
by
Masanori Takano
PDF
サイバーエージェントにおける計算社会科学
by
Masanori Takano
PDF
ソーシャル系Webサービスのデータを用いた社会科学 資料
by
Masanori Takano
PDF
論文紹介: What’s in a like- attitudes and behaviors around receiving likes on fac...
by
Masanori Takano
PDF
データにまつわるWeb業界の仕事について
by
Masanori Takano
PDF
How Do Newcomers Blend into a Group?: Study on a Social Network Game
by
Masanori Takano
PDF
新参者は如何にして新たなグループになじむのか? ソーシャルゲームにおける分析事例 | WEBDB Forum 2015
by
Masanori Takano
PDF
萌え要素の効果について分析してみた@第8回ニコニコ学会βシンポジウム
by
Masanori Takano
PDF
萌え要素のシナジー効果を探る
by
Masanori Takano
PPTX
論文紹介 - EARS (Earthquake Alert and Report System): a Real Time Decision Suppo...
by
Masanori Takano
PDF
pixivのデータを使って萌え要素の人気について分析してみた
by
Masanori Takano
PDF
ソーシャルゲームにおける互恵的利他主義に基づく協調行動(予稿)
by
Masanori Takano
書籍「計算社会科学入門」第9章 統計モデリング
by
Masanori Takano
WWWにおける社会科学
by
Masanori Takano
サイバーエージェントにおける計算社会科学研究
by
Masanori Takano
Webとメディアと社会的分断 @ WWW論文読み会
by
Masanori Takano
Analysis of the Changes in Listening Trends of a Music Streaming Service
by
Masanori Takano
WWW論文読み会 発表資料: Computational Health セッション
by
Masanori Takano
ソーシャルビッグデータ・オープンデータによる社会構造変化の発見
by
Masanori Takano
仮想社会におけるソーシャルサポート効果の検証: ピグパーティにおけるいじめ相談
by
Masanori Takano
論文紹介: Tweetment effects on the tweeted experimentally reducing racist harass...
by
Masanori Takano
サイバーエージェントにおける計算社会科学
by
Masanori Takano
ソーシャル系Webサービスのデータを用いた社会科学 資料
by
Masanori Takano
論文紹介: What’s in a like- attitudes and behaviors around receiving likes on fac...
by
Masanori Takano
データにまつわるWeb業界の仕事について
by
Masanori Takano
How Do Newcomers Blend into a Group?: Study on a Social Network Game
by
Masanori Takano
新参者は如何にして新たなグループになじむのか? ソーシャルゲームにおける分析事例 | WEBDB Forum 2015
by
Masanori Takano
萌え要素の効果について分析してみた@第8回ニコニコ学会βシンポジウム
by
Masanori Takano
萌え要素のシナジー効果を探る
by
Masanori Takano
論文紹介 - EARS (Earthquake Alert and Report System): a Real Time Decision Suppo...
by
Masanori Takano
pixivのデータを使って萌え要素の人気について分析してみた
by
Masanori Takano
ソーシャルゲームにおける互恵的利他主義に基づく協調行動(予稿)
by
Masanori Takano
Recently uploaded
PDF
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
PDF
PMBOK 7th Edition Project Management Process Scrum
by
akipii ogaoga
PDF
PMBOK 7th Edition_Project Management Context Diagram
by
akipii ogaoga
PDF
自転車ユーザ参加型路面画像センシングによる点字ブロック検出における性能向上方法の模索 (20260123 SeMI研)
by
Yuto Matsuda
PDF
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
PDF
PMBOK 7th Edition_Project Management Process_WF Type Development
by
akipii ogaoga
PDF
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
PDF
2025→2026宙畑ゆく年くる年レポート_100社を超える企業アンケート総まとめ!!_企業まとめ_1229_3版
by
sorabatake
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
PDF
FY2025 IT Strategist Afternoon I Question-1 Balanced Scorecard
by
akipii ogaoga
PDF
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
PDF
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
PMBOK 7th Edition Project Management Process Scrum
by
akipii ogaoga
PMBOK 7th Edition_Project Management Context Diagram
by
akipii ogaoga
自転車ユーザ参加型路面画像センシングによる点字ブロック検出における性能向上方法の模索 (20260123 SeMI研)
by
Yuto Matsuda
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
PMBOK 7th Edition_Project Management Process_WF Type Development
by
akipii ogaoga
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
2025→2026宙畑ゆく年くる年レポート_100社を超える企業アンケート総まとめ!!_企業まとめ_1229_3版
by
sorabatake
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
FY2025 IT Strategist Afternoon I Question-1 Balanced Scorecard
by
akipii ogaoga
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
野良ビッグデータへのお誘い
1.
野良ビッグデータ へのお誘い Takano Twitter: @mtknnktm 2017/01/21 第58回
Tokyo.R 1
2.
⾃⼰紹介 • 名前: takano •
Twitter: @mtknnktm • 仕事: Web系企業のデータ関連あれこれ • 興味: 計算社会科学・複雑系科学 • もろもろ – Publications: https://sites.google.com/site/mtkn35699/ – Slide: http://www.slideshare.net/MasanoriTakano1 – Blog: http://mtkn.hatenablog.com/ 2
3.
• ふと回帰分析したくなった時 • ふとMCMCしたくなった時 •
ふと前処理したくなった時 • ふと機械学習したくなった時 • ふと集計したくなった時 • ふと社会科学したくなった時 でも iris はもう飽きた → そんなときのために、 誰でも使えるデータをご紹介 3
4.
公開データなんて調べつく されてるんじゃないの? 問題設定と⼯夫次第で 意外なデータから意外な ことが分かる(かも) 4
5.
おもしろいと思ったデータの取り⽅と使い⽅ ⼥性の美醜ステレオタイプの⽂化差の研究 • 差別: 超重⼤な問題 –
どのように、どこで、性・⼈種差別が起きているか? の状況把握をしたい • ⽅法 – 検索エンジンの検索結果を使う – 検索結果は間接的に⼈の⾏動を表す – "beautiful woman", "ugly woman" を22ヶ国の⾔語に翻訳し、 GoogleとBingで画像検索しデータ収集 → 検索された画像の年齢・⼈種を推定(Face++を使⽤) → ⾔語(≒国・⽂化)ごとの⼥性の ⾝体的なステレオタイプの傾向を分析 • 基本的な傾向: – ⽩⼈・若い⼥性の⾼評価傾向が強い • 美醜ステレオタイプの⽂化差クラスタリングしたり Camila Souza Araújo, Wagner Meira Jr., Virgilio Almeida, "Iden;fying Stereotypes in the Online Percep;on of Physical AErac;veness", Proceedings of The 8th Interna3onal Conference on Social Informa3cs (SocInfo), pp. 419-437, 2016. preprint: hEps://arxiv.org/abs/1608.02499 5
6.
建前と本⾳、意識と無意識の乖離 • ⽶出会い系サイトOkキューピットの例 – アンケート結果 •
「差別主義者とデートするか?」→ No – ⾏動ログ分析の結果 • 特定の⼈種に対する好み • ⽇本における最近の乖離の例 (これは両⽅共アンケート) – LGBTに関する意識調査 • 上司や同僚が同性愛者や両性愛者だったら「嫌だ」「どちらか といえば嫌だ」と感じる⼈が計35.0% • 職場での差別については81.0%が「なくすべきだ」 • http://www.nikkei.com/article/DGXLASDG07H4N_X00C17A1CR8000/ 性や差別に関してはこういった不⼀致が⾒られやすい? 実態の把握には、本⾳・無意識が表れやすい⾏動ログ分析が キーになるかも ビッグデータの残酷な現実 https://www.amazon.co.jp/dp/B01JHNBK90 6
7.
⽇本の傾向 – ⼈種 7 ⽇本はアジア⼈に 偏っている 韓国・マレーシアも 似た傾向 アジア⼈はアジア⼈が 対象?(ビッグデータの残酷 な現実も同様の傾向) ⼥性の美醜ステレオタイプの⽂化差の研究
8.
検索ヒットした⼥性の画像が美醜ともに低年齢な傾向 • 単に⽇本⼈が若く判別されただけ? → 韓国よりも⽇本のほうが低いので、そうでも無さそう 仮説:
⽇本のアイドルなどの低年齢傾向を⽰す? 若年層の性的搾取も⼈類の深刻な問題の⼀つ 単にライブラリが⽇本⾵の撮り⽅を若く判別してるだけかも。年齢・⼈種の判別はFace++を利⽤。 8 ⽇本の傾向 – 年齢 ⼥性の美醜ステレオタイプの⽂化差の研究
9.
⽇本語と韓国語の年齢層⽐較 ⾒た感じはあまり変わらないような…? → 何とも⾔えない…? 要検証。 9 (キーワードは適当なので論⽂と異なるかも。韓国語はGoogle翻訳による)
10.
というわけで、 公開ビッグデータ を使っていろんな ことを知ろう 10
11.
本⽇ご紹介するデータ • BigQuery(Github) • PornHub •
Dryad, figshare 11
12.
BigQuery • 様々なビッグデータが公開されている。 – Hacker
newsの記事とコメント、オンラインゲームのロ グ、サッカーデータ、Reddit、Twitterとかも – https://www.reddit.com/r/bigquery/wiki/datasets • ⽣データが多いので中⾝を理解できればかなり楽しい • BigQueryにSQLを投げればデータが取れるので とにかく⼿軽。 • BigQueryなので⼤きなデータの前処理も楽勝 • ちゃんとしたドキュメントはあまりないがスキーマが 分かるのでなんとなくわかる(こともある) 12
13.
Githubのデータ • BigQueryに⾏動ログが毎⽇⼊れられている – 新鮮な⽣データ! •
⾏動ログ – 公開リポジトリについての、プルリク、マージ、コミッ ト、フォーク、Issueなどなど (各APIのレスポンス?) • ドキュメント – https://www.githubarchive.org/ – https://developer.github.com/v3/activity/events/ types • これとは別にある程度まとめたものもある – リポジトリの利⽤⾔語とかがわかる – https://cloud.google.com/bigquery/public-data/ github 13
14.
データの詳細のさわり (詳しくはドキュメント参照) • ⾏動のタイプ: かなりいろいろ取れる –
CommitCommentEvent, CreateEvent, DeleteEvent, ForkEvent, GollumEvent, IssueCommentEvent, IssuesEvent, LabelEvent, MemberEvent, PublicEvent, PullRequestEvent, PullRequestReviewEvent, PullRequestReviewCommentEvent, PushEvent, WatchEvent • JSON形式でユーザやリポジトリの情報など 詳細な情報が格納されている 14
15.
データの取得例 クエリ(BigQueryにこのまま書けばOK) 結果 クリスマス〜年末は プルリクが少ない 15
16.
幸せなコメントの多い プログラミング⾔語 at Stackoverflow 圧倒的 1位! Gigazine:
どのプログラミング⾔語で幸せなコメントor怒りのコメントが多いのかランキング http://gigazine.net/news/20170116-programming-language-happiest-comment/ 16
17.
Githubのissueコメントでも やってみた クエリ 17
18.
結果… 18
19.
結果… Rは51位…(61個中) やらなきゃよかった 19
20.
⽣データならではの味わい • 違う名前の同じデータ – forksとforks_count –
watchersとwatchers_countとstargazersと stargazers_count • APIの資料には "ある"。なので、あるかと 思ってたら、データには "ない" – CommitCommentEventのrepository情報 など • なんだかよくわからない項⽬ • ノイズ(よくわからない使い⽅をしている ユーザの⾏動ログ) 20
21.
PornHub • 海外のアダルトサイトのデータ • クロールしたデータをMITライセンスで公開 – ML,
NLP⽤に作ったらしい – http://cdipaolo.github.io/hub-db/ – ドキュメントが揃ってて使いやすい • アダルトデータは、うまく使えば性差別・ LGBT差別・⼈種差別における現状把握・問 題発⾒にも使える(かもしれない) 21
22.
PornHubのデータの⾒かた d <- fromJSON(file='porn_hub/raw_data/149_page.json') d$albums[[1]]$segment
#カテゴリ d$albums[[1]]$votes #評価回数 d$albums[[1]]$upvote_percent #ポジティブ評価の⽐率 d$albums[[1]]$views #閲覧回数 d$albums[[1]]$images[[1]]$tags #タグ 他にもタイトルやコメントとかも取れる 22
23.
試しに検証: ⽇本⼈と低年齢 • さっきの画像検索データ研究での仮説 「⽇本の性的対象の低年齢化」をこちらの データを使って雑に検証してみる – このデータでは特にそうでは無さそう? タグ
総頻度 共起頻度 共起率 french 33 8 24% german 35 7 20% latina 202 33 16% japanese 78 11 14% asian 327 46 14% white 110 13 12% black 307 34 11% brazilian 21 2 10% russian 35 3 9% indian 76 6 8% chinese 29 2 7% anime 93 2 2% 国・⼈種と "teen, teens" などの若年齢タグとの共起 23 ※ クローリングの対象は ランダムサンプリング ではないので参考値
24.
試しに検証: ⽇本⼈と低年齢 • 回帰分析 –
若年齢タグ(teensとか)と⼈種・国の交絡 – 若年齢タグとの交絡が強ければ、 その⼈種・国の若年齢は性の対象になっていると⾔える? – ⽬的変数はポジティブ評価回数 glm(positive_eval~offset(log(view))+tag*teens, family=poisson) のL1正則化 24 ※ クローリングの対象は ランダムサンプリング ではないので参考値
25.
試しに検証: ⽇本⼈と低年齢 25 ※ クローリングの対象は
ランダムサンプリング ではないので参考値 異様に強い アニメ:teensタグの交絡 glm(positive_eval~offset(log(view))+tag*teens, family=poisson) のL1正則化 • 回帰分析 – 若年齢タグ(teensとか)と⼈種・国の交絡 – 若年齢タグとの交絡が強ければ、 その⼈種・国の若年齢は性の対象になっていると⾔える? – ⽬的変数はポジティブ評価回数
26.
動物のソーシャルネット • Dryad, figshareなどなど –
主に論⽂の実験・観測データ公開に使われる – バイオ系の実験データ、動物のフィールドデータ からTwitterのデータまでいろいろ – ⼤抵はその論⽂の実験が再現できるギリギリまで 削られたデータが多い(気がする) – たまーに掘り出し物がある。 – http://datadryad.org/ – https://figshare.com/ • その中から動物のソーシャルネットワークの データを分析 26
27.
動物のソーシャルネット +コミュニティ抽出 バブーン http://datadryad.org/ resource/doi:10.5061/dryad. 8gp03.2 ⿃ http://datadryad.org/ resource/doi:10.5061/dryad. 416sp ⿅ http:// moreno.ss.uci.edu/ data.html#reddeer 種によってトポロジがどう違うか? ⽐較するのも楽しいかも 27
28.
動物のソーシャルネット ネットワークの統計量⽐較 ノード数 クラスタ係数 次数相関
最短経路長 バブーン 29 0.52 -0.09 1.64 鳥 83 0.61 -0.13 1.82 鹿 671 0.56 -0.20 2.09 28 • クラスタ係数 – ⼤きいほど "友達の友達" が "友達" である傾向 – 最も社会性が⾼いと思われるバブーンが意外と低い • 次数相関 – "友達の多い⼈" の友達が多いと正、そうでなければ負 – 全体的に負。⿅が最も強い傾向 • 最短経路⻑ – ノード間の距離の平均 とりあえずやってみたがよくわからない。要調査。
29.
まとめ 野良ビッグデータを使っていろいろ調べると楽しい • BigQueryのオープンデータ – 使いやすくて最⾼ –
いろいろあってうれしい • 出会い系やアダルトサイトのデータ – 普段は表に出ない差別や性的搾取に本⾳や無意識を探るの に有⽤かも – 本発表の分析はデモ⽤のかなり適当なものなので、 本当に知るにはもっとちゃんと分析する必要がある – センシティブなテーマなので慎重な妥当性の検討が必要 • Dryad、figshare – 研究者が何年も掛けて集めたデータが簡単に⼿に⼊る。 たいへん貴重。 29
30.
付録: データが公開されている場所 とかリンク集とか • SNAP –
ネットワークのデータ。ソーシャルネットワーク、P2P、 商品レビューなど。ドキュメントがそこそこある。 – https://snap.stanford.edu/data/ • AWS – https://aws.amazon.com/jp/public-datasets/ • リンク集 – https://github.com/caesar0301/awesome-public- datasets – http://web.stanford.edu/class/cs224w/ resources.html – http://www.kdnuggets.com/datasets/index.html – https://www.quora.com/Where-can-I-find-large- datasets-open-to-the-public 30
Download