Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
計算社会科学における
Webマイニング
東京大学大学院工学系研究科
鳥海不二夫
2018年06月06日
第32回人工知能学会全国大会@鹿児島
チュートリアル講演
自己紹介
• 鳥海不二夫
– 東京大学大学院工学系研究科システム創成学専攻・准教授
– 情報法制研究所理事
• 主な研究テーマ
– 計算社会科学・人工知能技術の社会応用
• データ分析・エージェントシミュレーション
• 複雑系ネットワーク・ソー...
今日のお話
• 計算社会科学とは
• Webマイニングとは
• データ収集と分析
– データリポジトリ
– 企業からのデータ提供
– データ収集
• APIによる収集
• スクレイピングによる収集
計算社会科学
• Computational social science refers to the
academic sub-disciplines concerned with
computational approaches to th...
計算社会科学
• 人間・社会と計算の組み合わせが可能になっ
たことで実現した新しい学際科学
– 現実世界を映し出すビッグデータ
– 観察・実験の場としてのウェブ
– 複雑な社会を扱う数理と情報技術
計算社
会科学
社会
科学
数理
手法
情報
...
Twitterにおける気分の時間変化
• Twitterを分析することで人間の「気分」を計測
Golder and Macy. Science, 2011
SupperとDinnerの違い
• よく言われる違い
– dinnerは「1日のメインの食事」のこと
• 昼がメインの食事なら昼がDinner
– supperは「軽い夕食」のこと
Dinner Supper
どっちがDinner?
Supper vs Dinner
• Supperの時間
– Dinnerより1時間ほど早い(17時くらいにピーク)
– 深夜近くにもSupperが多い
ブログ・SNSに見える
イデオロギーの分断
• 政治的イデオロギーの変更と社会的分離
• エコーチェンバー
計算社会科学の主な3つの技術
• Big Data Mining
–社会データ分析
–ソーシャルセンサ
• Social Simulation
–社会のモデル化
–エージェントベースシミュレーション
• Virtual Lab
–Webを用いた...
WEBマイニングとは何か
• Webマイニングとは
– データマイニング技術のWEBへの応用
– WEBデータからの新しい知識の抽出
• Webデータとは
– コンテキスト:テキスト,画像,関係性等・・・
– 構造:ハイパーリンク構造,タグなど...
今日のお話
• 計算社会科学とは
• Webマイニングとは
• データ収集と分析
– データリポジトリ
– 企業からのデータ提供
– データ収集
• APIによる収集
• スクレイピングによる収集
WEBデータの取得方法
• 公開データセット
• 企業からのデータ提供
• 自分でデータ収集
公開データセット
• WEB上に存在するデータセット
– 情報学研究データリポジトリ(NII)
• http://www.nii.ac.jp/dsc/idr/
– Stanford Network Analysis Project(SNAP)
...
サービス事業者との良好な関係
• クックパッドのデータを研究者に公開します
– http://techlife.cookpad.com/entry/2015/02/24/1
61915
– 「残念ながら、研究者の中には、クックパッドの
データを...
公開データセット
• 利点
– 大量のデータを利用可能
• もっとも効率的なデータ取得
– 誰でも利用可能
• 多数の人と同一データを使うことで比較が容易
• 欠点
– データの独自性はない
– 欲しいデータがあるとは限らない
– データによっ...
公開データセット
• 取得方法
– 公開サイトによって異なる
• 自由にダウンロード可能な場合
– Ex SNAP
• 申請が必要な場合
– 情報学研究データリポジトリ(NII)
• 注意点
– 商用利用は出来ないことが多い
– 研究利用が出来...
公開データの分析の例
• クックパッドデータを分析
– From 情報学研究データリポジトリ(NII)
• http://www.nii.ac.jp/dsc/idr/
– データ概要
• クックパッドに掲載されたデータ
• 172万品のレシピや...
クックパッドデータ分析
• データ期間
– 1998-04-23~2014-09-30
• レシピ
– レシピ数:1,715,595
– 投稿者数:158,398
• ツクレポ
– ツクレポ数:9,449,479
– 投稿者数:463,921
レシピ・ツクレポ/Day
料理から見る社会
• 仮説:料理という日常行動には社会の動きが
現れる
恵方巻とはなんなのか
• 節分に食べる太巻き
– 恵方を向きながら無言で一気食いをする
• 関東の人間には比較的謎の儀式
– 節分は豆まきじゃないの?
– 「コンビニの戦略説」
• いつ頃から恵方巻きは定着したのか?
– レシピ投稿サイトから分析
恵方巻き(太巻き)の出現回数
恵方巻きの初出
• 太巻きの初出は2003年1月
– 2003年2月「節分なので太巻きを作りました。」
– 節分=太巻きは2003年以前から存在
• 恵方巻きの初出も2003年
– 「切らずに節分の恵方巻きにしてかぶりついても
◎」という説明あ...
恵方巻きの躍進
• 2006年恵方巻きの投稿が増加
– 恵方巻の認知度全国平均[1]
• 2002年:53%
• 2005年:88%
• 2000年代から恵方巻き戦略
• 2006年には一般家庭で作るレベルで浸透
[1]ミツカングループ (20...
食と季節性
• 仮説:最近は食の季節性が失われている
– 旬の食べ物がなくなってきている
• 秋の食べ物で検証してみる
– 季節性はなくなったのか?
• 秋刀魚,松茸,栗
– 漢字,ひらがな,カタカナで検索
秋の味覚
栗は12月の食べ物
• なぜ栗が12月にピークを迎えるのか?
– 栗きんとん?
– そんなにメジャーか?
– 「クリ」が原因
• 雑すぎる分析は良くない
• 漢字のみで再チャレンジ
秋の味覚・改
栗は12月の食べ物
• なぜ栗が12月にピークを迎えるのか?
– 栗きんとん?
– そんなにメジャーか?
• メジャーだった!
– よりシャープに年末にピーク
分析はやってみないと
分からない
食の多様性
• 最近国際会議登録時に必ず聞かれる質問
– Special Requests
• Vegan
• Vegetalian
• gluten free
• 食の多様性
– 日本ではいつから,どのくらい浸透しているの
か?
• ヴィーガ...
食の多様性
食の多様性の増加
• 2000年代初頭まではベジタリアン料理が掲載
されるくらい
• 2000年代後半からヴィーガンが増加
– 認知率の増加?
• 2010年以降グルテンフリーが増加
– 糖質ダイエット効果の可能性
– 2014年でベジタリアン...
レシピから見る日本経済
• 日本経済は落ち込んでいるのか?
• 経済指標の一つ:エンゲル係数
– 1世帯ごとの家計の消費支出に占める飲食費の
割合
– 食生活は経済を表す重要な要素
• レシピに含まれる単語から経済を評価
レシピから見る日本経済
レシピから見る日本経済
• 2000年代初頭は贅沢>節約
• 2005年以降節約レシピが増大
– 贅沢の二倍程度の節約レシピ
– 差は広がるばかり
• 贅沢よりも節約
経済の回復は
節約料理が
減った時?
料理から見る社会
• 仮説:料理という日常行動には社会の動きが
現れる
• 結論:現れる
– 食の流行
– 旬の存在
– 食の多様性
– 食から見る経済
データセットの見方を変えると
社会を見られる
国立情報学研究所
情報学研究データリポジトリ
• Yahoo!データセット
– Yahoo!知恵袋データ
• 楽天データセット
– 楽天市場の全商品データ,レビューデータ
– 楽天トラベルの施設データ,レビューデータ
– 楽天GORAのゴルフ場...
国立情報学研究所
情報学研究データリポジトリ
• ニコニコデータセット
– ニコニコ動画コメント等データ
– ニコニコ大百科データ
• リクルートデータセット
– ホットペッパービューティーデータ
• クックパッドデータセット
– レシピデータ...
国立情報学研究所
情報学研究データリポジトリ
• 不満調査データセット
– 投稿された不満データ,ユーザ情報
– カテゴリ別不満特徴語辞書
• Sansanデータセット
– サンプル名刺データ
• その他
– 音声コーパス,会話コーパスなど
今日のお話
• 計算社会科学とは
• Webマイニングとは
• データ収集と分析
– データリポジトリ
– 企業からのデータ提供
– データ収集
• APIによる収集
• スクレイピングによる収集
企業からのデータ提供
• 企業のWEBサービスデータの提供
– ニュース記事
– ソーシャルゲームのユーザ行動
– フリマサイトの売買記録
– ソーシャルメディアのコミュニケーションログ
etc…
企業からのデータ提供
• 直接大量データを利用可能
– 場合によってはほぼDBそのものの提供も
– もっとも効率的なデータ取得
• 取得方法
– 企業からの相談・マッチング
– 企業へお願い
企業からのデータ提供・注意点
• 契約問題のクリアが必要
– データをもらうまでの契約が大変
– 数ヶ月かかることもざらにある
• 個人情報保護・権利関係
– 個人情報の削除は大きな手間
• 企業にも多大な負荷がかかる
– 研究室の管理体制
•...
(鳥海的)データのもらい方
1. 学会等でデータを持っていそうな企業の人を
探す(企業ブースマジおすすめ)
2. お近づきになる
3.
4. 企業内の調整を待つ
5. 断られる(1へ戻る)
データの偏在性
• データを持っているところにデータは集まる
– つまり,データがないとデータが集まらない
– データをもらうデータがない
• 成果を出すとデータが集まる
– まずは自前でデータをそろえる
• データリポジトリ
• データ収集
...
今日のお話
• 計算社会科学とは
• Webマイニングとは
• データ収集と分析
– データリポジトリ
– 企業からのデータ提供
– データ収集
• APIによる収集
• スクレイピングによる収集
自分でデータ収集
• 自前でのデータ収集が必要な場合
– データセットが公開されていない
– データセット利用の条件が厳しい
• 対象者の制限、発表の制限、商用利用等の制限
• APIによるクローリング
• ウェブスクレイピング
APIによるクローリング
• Twitter
– TwitterAPI
• ツイートやフォローなど多彩な情報
• https://help.twitter.com/ja/rules-and-policies/twitter-api
• Face...
Twitterデータの収集
• TwitterAPIを利用
– Twitter社が提供するデータアクセス用API
– 主にTwitterアプリ作成のため
• TwitterAPIの制限
– OAuthによる認証
– 1時間あたりのアクセス制限
...
TwitterAPIによるデータ収集
• 多くのデータにアクセス可能
– ユーザのTweet
– ユーザのProfile
– ソーシャルグラフ関係(Follower,Friend)
– ユーザのツイート
• 自分へのリツイート
• Favori...
網羅的ツイートデータの収集
• 収集手順
1. 日本語でツイートしているユーザをピックアップ
2. 各ユーザのツイートを200件ずつ収集
• ソーシャルグラフならばFollower,Friend情報を収集
3. すべてのユーザのデータを収集後1...
関連ツイートの収集
• 関連キーワードを決定
– 「アメフト OR 日大 OR タックル」
• キーワード検索による検索
– 一回に取得できるツイート数:200
– さかのぼれる最大ページ:15
– 一回で取得できるツイート:3000=200x...
関連ツイートの収集
• より長い期間の取得
– 期間指定
• 指定した期間だけの取得
– ID指定
• 指定したTweetID以前のTweetを取得可能
– Tweetを3000以上取得可能
Tweet
3/15 18:00 3/18 06:00
ツイートデータ収集の制限
• そもそもTwitterAPIはアプリ作成用
– データ収集用ではない
• TwitterAPIには取得データ量に制限
– 過去のツイート制限
• 通常のAPIの場合
– 15分制限
• 180リクエスト/15分
簡単ツイート収集アプリ
• Tiny Tweet Crawler
– 検索キーワードを含むTweets を収集するフリー
ウェア
http://mtmr.jp/ttc/
• Web Tweet Crawler
– 検索キーワードを含むTweet...
Web Tweet Crawler
• http://torix.sakura.ne.jp/twitter/
にアクセス
Twitterアカウントでログイン
Web Tweet Crawler
リツイートを含むかどうか
できる限り過去に
さかのぼるか
収集言語
ShiftJISで
保存.Excelで読み込む場合
WTCで収集可能なデータ
列名 説明
id Tweet ID
screen_name ツイートユーザのScreenName
name ツイートユーザの名前
created_at ツイート作成日
text ツイート本文
retweeted_id ...
ジオタグ付きTweetデータ
• データ
– 毎日、日本で30万件以上
– リアルタイムで収集可能
– 精緻な位置情報(緯度経度)
• 使い方
– 普段の何気ないつぶやき(家・職場)
– 特別なイベント(旅行など)
位置情報付きツイート(1/3)
• Twitter Streaming API
– POST statuses/filter
• 緯度経度による矩形を指定可能
– locations
• 全データを取得するには
– 収集範囲を分割する
• サン...
位置情報付きツイート(2/3)
1匹目
2匹目
3匹目
位置情報付きツイート(3/3)
都内のツイート
大量のTwitterデータを集めたい場合
• 通常では困難
– 大量アカウントの用意など,規約的に微妙
• 大学のIPからならセーフという噂も
• 購入する
– NTTデータ等ツイートデータを売るところもある
– 高い
• 収集家に頼む
– ツ...
ウェブスクレイピング
• WWWから自動的に情報を収集する処理
• 主な処理
– HTMLの収集
• URL解析
• リンク移動
– HTMLの解析
• HTMLパーサ
• 構文解析
ウェブスクレイピング
• 利点
– 提供されていないデータを収集可能
– 複数サービスの横断的比較が可能
• 欠点
– パーサなどの自作
– データ量によっては取得に時間がかかる
– 対象企業サーバへの負荷
• 一度に大量のアクセスはアクセスブ...
ウェブスクレイピング
• ACCS不正アクセス事件(2003年11月)
– 管理者が意図しないアクセスを認めるか?
– 不正アクセス禁止法違反 →懲役8カ月、執行猶
予3年
• 岡崎市立中央図書館事件(LibraHack事
件)(2010年3月...
Webスクレイピングの具体例
• JSAI2018のページをスクレイピング
– 講演データを取得
– 講演者ネットワーク分析
講演データの取得
• 検索ページを利用
– 空白で検索
– すべての講演情報を取得
– ソースを解析
– 講演データを取得
詳細検索
発表情報
ソースコード
<div class="sbjtitle">
<h1>
<span class="headicon"></span>
<a href="/guide/event/jsai2018/subject/3O1-OS-1a-03/adva...
HTMLパース
• 記事の獲得
<article class=¥"sbject-box¥">(.+?)<¥¥/article>
• タイトル箇所の取得
<h1>(.+?)<¥¥/h1>"
• リンクと発表タイトルの取得
<a href=¥"(....
取得したデータ
• タイトル,URL,アブストラクト,著者
せっかくだから分析
• 自然言語処理
– 今話題のキーワードは何か?
• ネットワーク分析
– 研究者コミュニティを探る
• 発表者ネットワークを構築
• 講演者をノード
• 共著論文がある関係にリンクを張る
今年のキーワード
• タイトルを形態素解析
– Janomeを利用
• Pure Python辞書内包形態素解析器
– 本当はMecab-ipadic-neologdがおすすめ
• 出現回数が上位の単語
– 今回は名詞に注目
順位 単語 回数
1学習 121
2データ 66
3モデル 58
4分析 58
5システム 55
6手法 54
7生成 49
8検討 45
9推定 44
10画像 43
11評価 40
12予測 37
13表現 37
14情報 36
15深層 ...
共著者ネットワーク
• 研究者コミュニティを探る
– 発表者ネットワークを構築
– 講演者をノード
– 共著論文がある関係にリンクを張る
• 研究者同士の関係性
– どのような関係性が存在するのか
誰が中心的人物か?
• 今年の人工知能学会で注目すべき人物は誰
か?
• 中心性による評価
– 次数中心性
• 次数そのもの
– 媒介中心性
• 他のノードにたどり着くために当該ノードを通らなけれ
ばいけない割合
– ページランク
• 重要なノ...
次数中心性
• ノードが持つ次数(リンク数)
– たくさんの共著者がいれば高い
– あまりいなければ低い
次数中心性ベスト20
名前 次数中心性 次数
1小澤 順 0.020243 35
2小林 一郎 0.016194 28
3長井 隆行 0.014459 24
4中村 友昭 0.014459 24
5川村 秀憲 0.013302 23
6大森 隆...
媒介中心性
• そのノードがいなければバラバラになる度合い
– 複数のグループをつないでいると高い
媒介中心性ベスト20
名前 媒介中心性
1小林 一郎 0.003298
2森田 武史 0.002468
3小澤 順 0.002212
4松尾 豊 0.001895
5古崎 晃司 0.001884
6溝口 理一郎 0.001789
7鳥海 不二夫...
ページランク
• ウェブページの重要度を決定するためのアル
ゴリズム
– 重要なノードからリンクされているほど重要
– 重要な研究者と研究している人ほど高い
ページランクベスト20
名前 PageRank
1小澤 順 0.00285
2鷲尾 隆 0.00263
3小林 一郎 0.00243
4松尾 豊 0.00239
5鳥海 不二夫 0.00195
6本村 陽一 0.00187
7高間 康史 0.0...
コミュニティ抽出
• 複数の構造にネットワークを分離
様々なコミュニティ
• 接続性による定義
– コンポーネント
• コミュニティ内外接続性による定義
– Newman法
コンポーネント
• 接続性から定義されたコミュニティ
– 連結成分=コンポーネント
– 連結成分
• 有限ステップで到達可能なノード群
– 非連結成分
• リンクでつながっていないノード群
1
2 3
4 6
7
8
5
最大コンポーネント
第二コンポーネント
モジュラリティ
• よりよいコミュニティ分割
– 理想的なコミュニティとは何か?
• コミュニティ内部は密に
• コミュニティ外部は疎に
Moduralityによるコミュニティ抽出
• Modularity
– ネットワークをもっとも「よく」分割するための指標
– 内部リンクが多く,外部リンクが少ないと値が高く
なるような指標
𝑔𝑖 𝑔𝑗
最大コンポーネントのコミュニティ抽出
Louvain法を利用
まつおぐみ
第二コンポーネントのコミュニティ抽出
Louvain法を利用
大澤一族
人狼軍団
坂田家の
人々計算社会
科学
おまけ
• 過去10年の人工知能学会における共著関係
ネットワークの分析
– 2009年~2018年のデータを取得
– 一度でも共著論文があればリンク作成
最大コンポーネント
第2コンポーネント
誰が中心的人物だったか?
• この10年人工知能学会全国大会で中心的
だった人物は誰か
• 中心性による評価
– 次数中心性
– 媒介中心性
– ページランク
次数中心性ベスト20
名前 次数中心性 次数
1鳥海不二夫 0.0147 108
2松尾豊 0.013747 101
3栗原聡 0.011433 84
4長井隆行 0.011297 83
5本村陽一 0.011161 82
6山口高平 0.01...
媒介中心性ベスト20
名前 PageRank
1鳥海不二夫 0.074074
2松尾豊 0.040170
3西村拓一 0.029100
4小林一郎 0.028182
5片上大輔 0.026087
6大森隆司 0.025381
7大澤博隆 0.0...
ページランクベスト20
名前 PageRank
1鳥海不二夫 0.00206
2松尾豊 0.00200
3鷲尾隆 0.00162
4山口高平 0.00162
5小林一郎 0.00159
6伊藤孝行 0.00149
7高間康史 0.00145
8...
今注目すべき人は?
• 過去10年は研究の歴史
• 過去10年に出ていないが今年出ている人
• 注目すべき人ではないか?
• 今年新たにトップ20に入った研究者は誰?
10年ランクにはいないが
今年のランクに入った研究者
名前 PageRank
1小澤 順 0.00285
2鷲尾 隆 0.00263
3小林 一郎 0.00243
4松尾 豊 0.00239
5鳥海 不二夫 0.00195
6本村 陽一 0.0...
今日のお話
• 計算社会科学とは
• Webマイニングとは
• データ収集と分析
– データリポジトリ
– 企業からのデータ提供
– データ収集
• APIによる収集
• スクレイピングによる収集
関連学会等
• 計算社会科学+WEB
– The Web Conference
– ICWSM
– SocInfo
– WI
– IC2S2
– IWABCSS
– 計算社会科学研究会
The Web Conference
• WEB系のトップカンファレンス
– 採択率15~20%
– 2018年はフランス・リヨン
– 2019年はサンフランシスコ
ICWSM
• International Conference on Web and Social
Media
– ソーシャルメディア系のトップカンファレンス
• 採択率20%程度
– 2018年はスタンフォード
• 毎年マレーシアで開かれる...
SocInfo
• Social Informatics
– 情報系寄りの計算社会科学の会議
• 採択率20~30%
– 2018年はサンクトペテルブルグ
Web Intelligence
• Web Intelligence
– Web系の会議
• 採択率30~50%
– 2018年はチリ
IC2S2
• International Conference on Computational Social
Science
– 計算社会科学学会メインカンファレンス
• 採択率80%程度
• 計算社会科学の最新情報に触れるには最適
– 同...
IWABCSS
• International Workshop on Application of Big Data for
Computational Social Science
– IEEE BigDataの併設ワークショップ
• 採択...
計算社会科学研究会
• 日本の計算社会科学の研究会
– 社会学,情報工学,物理学などの研究者によっ
て構成される研究会
– 毎年3月にワークショップ
• 採択率100%
– 日本における最大の計算社会科学コミュニティ
計算社会科学・WEBマイニング
• 6月5日(火) 15:20 〜 17:00
– Webマイニング-情報推薦
• 6月5日(火) 17:20 〜 19:00
– Webマイニング-情報抽出・分析
• 6月6日(水) 13:20 〜 14:40...
計算社会科学
• 人間・社会と計算の組み合わせが可能になっ
たことで実現した新しい学際科学
– 現実世界を映し出すビッグデータ
– 観察・実験の場としてのウェブ
– 複雑な社会を扱う数理と情報技術
計算社
会科学
社会
科学
数理
手法
情報
...
今日のお話
• 計算社会科学とは
• Webマイニングとは
• データ収集と分析
– データリポジトリ
– 企業からのデータ提供
– データ収集
• APIによる収集
• スクレイピングによる収集
計算社会科学におけるWebマイニング
Upcoming SlideShare
Loading in …5
×

計算社会科学におけるWebマイニング

11,522 views

Published on

人工知能学会全国大会2018チュートリアル講演資料

Published in: Data & Analytics
  • Be the first to comment

計算社会科学におけるWebマイニング

  1. 1. 計算社会科学における Webマイニング 東京大学大学院工学系研究科 鳥海不二夫 2018年06月06日 第32回人工知能学会全国大会@鹿児島 チュートリアル講演
  2. 2. 自己紹介 • 鳥海不二夫 – 東京大学大学院工学系研究科システム創成学専攻・准教授 – 情報法制研究所理事 • 主な研究テーマ – 計算社会科学・人工知能技術の社会応用 • データ分析・エージェントシミュレーション • 複雑系ネットワーク・ソーシャルメディア分析 • その他 – 計算社会科学研究会幹事 – データ指向構成マイニングとシミュレーション研究会幹事 – 人狼知能プロジェクト代表 – 人工知能学会編集委員
  3. 3. 今日のお話 • 計算社会科学とは • Webマイニングとは • データ収集と分析 – データリポジトリ – 企業からのデータ提供 – データ収集 • APIによる収集 • スクレイピングによる収集
  4. 4. 計算社会科学 • Computational social science refers to the academic sub-disciplines concerned with computational approaches to the social sciences. • This means that computers are used to model, simulate, and analyze social phenomena. • Fields include computational economics and computational sociology. • It focuses on investigating social and behavioral relationships and interactions through social simulation, modeling, network analysis, and media analysis. From wikipedia.org
  5. 5. 計算社会科学 • 人間・社会と計算の組み合わせが可能になっ たことで実現した新しい学際科学 – 現実世界を映し出すビッグデータ – 観察・実験の場としてのウェブ – 複雑な社会を扱う数理と情報技術 計算社 会科学 社会 科学 数理 手法 情報 技術 統計数理 経済物理学,社会物理学 ネットワーク科学 ゲーム理論・ABS 計算機科学 ビッグデータ 人工知能 機械学習 自然言語処理 社会心理学・社会学 社会情報学・政治学
  6. 6. Twitterにおける気分の時間変化 • Twitterを分析することで人間の「気分」を計測 Golder and Macy. Science, 2011
  7. 7. SupperとDinnerの違い • よく言われる違い – dinnerは「1日のメインの食事」のこと • 昼がメインの食事なら昼がDinner – supperは「軽い夕食」のこと Dinner Supper どっちがDinner?
  8. 8. Supper vs Dinner • Supperの時間 – Dinnerより1時間ほど早い(17時くらいにピーク) – 深夜近くにもSupperが多い
  9. 9. ブログ・SNSに見える イデオロギーの分断 • 政治的イデオロギーの変更と社会的分離 • エコーチェンバー
  10. 10. 計算社会科学の主な3つの技術 • Big Data Mining –社会データ分析 –ソーシャルセンサ • Social Simulation –社会のモデル化 –エージェントベースシミュレーション • Virtual Lab –Webを用いた社会実験
  11. 11. WEBマイニングとは何か • Webマイニングとは – データマイニング技術のWEBへの応用 – WEBデータからの新しい知識の抽出 • Webデータとは – コンテキスト:テキスト,画像,関係性等・・・ – 構造:ハイパーリンク構造,タグなど – 利用履歴:HTTPログ,アクセスログ,アプリケー ションログ等
  12. 12. 今日のお話 • 計算社会科学とは • Webマイニングとは • データ収集と分析 – データリポジトリ – 企業からのデータ提供 – データ収集 • APIによる収集 • スクレイピングによる収集
  13. 13. WEBデータの取得方法 • 公開データセット • 企業からのデータ提供 • 自分でデータ収集
  14. 14. 公開データセット • WEB上に存在するデータセット – 情報学研究データリポジトリ(NII) • http://www.nii.ac.jp/dsc/idr/ – Stanford Network Analysis Project(SNAP) • http://snap.stanford.edu/ – ICWSM DATASET SHARING SERVICE • http://www.icwsm.org/2018/datasets/datasets/
  15. 15. サービス事業者との良好な関係 • クックパッドのデータを研究者に公開します – http://techlife.cookpad.com/entry/2015/02/24/1 61915 – 「残念ながら、研究者の中には、クックパッドの データを使用するため、悪質なクロールを行う方 がいます。」(2015年2月24日 クックパッド)
  16. 16. 公開データセット • 利点 – 大量のデータを利用可能 • もっとも効率的なデータ取得 – 誰でも利用可能 • 多数の人と同一データを使うことで比較が容易 • 欠点 – データの独自性はない – 欲しいデータがあるとは限らない – データによっては利用に制限が存在
  17. 17. 公開データセット • 取得方法 – 公開サイトによって異なる • 自由にダウンロード可能な場合 – Ex SNAP • 申請が必要な場合 – 情報学研究データリポジトリ(NII) • 注意点 – 商用利用は出来ないことが多い – 研究利用が出来ないデータも • コンテスト用データセットなど – 論文発表前に報告が必要 • 30日前(!!)に報告など
  18. 18. 公開データの分析の例 • クックパッドデータを分析 – From 情報学研究データリポジトリ(NII) • http://www.nii.ac.jp/dsc/idr/ – データ概要 • クックパッドに掲載されたデータ • 172万品のレシピやそれらからなる献立に関するデー タ
  19. 19. クックパッドデータ分析 • データ期間 – 1998-04-23~2014-09-30 • レシピ – レシピ数:1,715,595 – 投稿者数:158,398 • ツクレポ – ツクレポ数:9,449,479 – 投稿者数:463,921
  20. 20. レシピ・ツクレポ/Day
  21. 21. 料理から見る社会 • 仮説:料理という日常行動には社会の動きが 現れる
  22. 22. 恵方巻とはなんなのか • 節分に食べる太巻き – 恵方を向きながら無言で一気食いをする • 関東の人間には比較的謎の儀式 – 節分は豆まきじゃないの? – 「コンビニの戦略説」 • いつ頃から恵方巻きは定着したのか? – レシピ投稿サイトから分析
  23. 23. 恵方巻き(太巻き)の出現回数
  24. 24. 恵方巻きの初出 • 太巻きの初出は2003年1月 – 2003年2月「節分なので太巻きを作りました。」 – 節分=太巻きは2003年以前から存在 • 恵方巻きの初出も2003年 – 「切らずに節分の恵方巻きにしてかぶりついても ◎」という説明あり • それ以前には見つからず
  25. 25. 恵方巻きの躍進 • 2006年恵方巻きの投稿が増加 – 恵方巻の認知度全国平均[1] • 2002年:53% • 2005年:88% • 2000年代から恵方巻き戦略 • 2006年には一般家庭で作るレベルで浸透 [1]ミツカングループ (2006年1月13日). “「節分には“恵方巻”」全国に定着”
  26. 26. 食と季節性 • 仮説:最近は食の季節性が失われている – 旬の食べ物がなくなってきている • 秋の食べ物で検証してみる – 季節性はなくなったのか? • 秋刀魚,松茸,栗 – 漢字,ひらがな,カタカナで検索
  27. 27. 秋の味覚
  28. 28. 栗は12月の食べ物 • なぜ栗が12月にピークを迎えるのか? – 栗きんとん? – そんなにメジャーか? – 「クリ」が原因 • 雑すぎる分析は良くない • 漢字のみで再チャレンジ
  29. 29. 秋の味覚・改
  30. 30. 栗は12月の食べ物 • なぜ栗が12月にピークを迎えるのか? – 栗きんとん? – そんなにメジャーか? • メジャーだった! – よりシャープに年末にピーク 分析はやってみないと 分からない
  31. 31. 食の多様性 • 最近国際会議登録時に必ず聞かれる質問 – Special Requests • Vegan • Vegetalian • gluten free • 食の多様性 – 日本ではいつから,どのくらい浸透しているの か? • ヴィーガン,ベジタリアン,グルテンフリー
  32. 32. 食の多様性
  33. 33. 食の多様性の増加 • 2000年代初頭まではベジタリアン料理が掲載 されるくらい • 2000年代後半からヴィーガンが増加 – 認知率の増加? • 2010年以降グルテンフリーが増加 – 糖質ダイエット効果の可能性 – 2014年でベジタリアンと 同レベルのレシピ数
  34. 34. レシピから見る日本経済 • 日本経済は落ち込んでいるのか? • 経済指標の一つ:エンゲル係数 – 1世帯ごとの家計の消費支出に占める飲食費の 割合 – 食生活は経済を表す重要な要素 • レシピに含まれる単語から経済を評価
  35. 35. レシピから見る日本経済
  36. 36. レシピから見る日本経済 • 2000年代初頭は贅沢>節約 • 2005年以降節約レシピが増大 – 贅沢の二倍程度の節約レシピ – 差は広がるばかり • 贅沢よりも節約 経済の回復は 節約料理が 減った時?
  37. 37. 料理から見る社会 • 仮説:料理という日常行動には社会の動きが 現れる • 結論:現れる – 食の流行 – 旬の存在 – 食の多様性 – 食から見る経済 データセットの見方を変えると 社会を見られる
  38. 38. 国立情報学研究所 情報学研究データリポジトリ • Yahoo!データセット – Yahoo!知恵袋データ • 楽天データセット – 楽天市場の全商品データ,レビューデータ – 楽天トラベルの施設データ,レビューデータ – 楽天GORAのゴルフ場データ,レビューデータ – 楽天レシピのレシピ情報,レシピ画像 – PriceMinisterのユーザレビュー,レビュー有効性情報 – アノテーション付きデータ
  39. 39. 国立情報学研究所 情報学研究データリポジトリ • ニコニコデータセット – ニコニコ動画コメント等データ – ニコニコ大百科データ • リクルートデータセット – ホットペッパービューティーデータ • クックパッドデータセット – レシピデータ,献立データ • LIFULL HOME'Sデータセット – 賃貸物件データ,画像データ,高精細度間取り図画 像データ
  40. 40. 国立情報学研究所 情報学研究データリポジトリ • 不満調査データセット – 投稿された不満データ,ユーザ情報 – カテゴリ別不満特徴語辞書 • Sansanデータセット – サンプル名刺データ • その他 – 音声コーパス,会話コーパスなど
  41. 41. 今日のお話 • 計算社会科学とは • Webマイニングとは • データ収集と分析 – データリポジトリ – 企業からのデータ提供 – データ収集 • APIによる収集 • スクレイピングによる収集
  42. 42. 企業からのデータ提供 • 企業のWEBサービスデータの提供 – ニュース記事 – ソーシャルゲームのユーザ行動 – フリマサイトの売買記録 – ソーシャルメディアのコミュニケーションログ etc…
  43. 43. 企業からのデータ提供 • 直接大量データを利用可能 – 場合によってはほぼDBそのものの提供も – もっとも効率的なデータ取得 • 取得方法 – 企業からの相談・マッチング – 企業へお願い
  44. 44. 企業からのデータ提供・注意点 • 契約問題のクリアが必要 – データをもらうまでの契約が大変 – 数ヶ月かかることもざらにある • 個人情報保護・権利関係 – 個人情報の削除は大きな手間 • 企業にも多大な負荷がかかる – 研究室の管理体制 • 情報漏洩は企業にも研究者にも致命的 • データの権限 – 現場の人はデータを出したい – 経営陣はリスクを考えデータを出したくない
  45. 45. (鳥海的)データのもらい方 1. 学会等でデータを持っていそうな企業の人を 探す(企業ブースマジおすすめ) 2. お近づきになる 3. 4. 企業内の調整を待つ 5. 断られる(1へ戻る)
  46. 46. データの偏在性 • データを持っているところにデータは集まる – つまり,データがないとデータが集まらない – データをもらうデータがない • 成果を出すとデータが集まる – まずは自前でデータをそろえる • データリポジトリ • データ収集 – 既存のデータで 面白いネタを出すことが先決
  47. 47. 今日のお話 • 計算社会科学とは • Webマイニングとは • データ収集と分析 – データリポジトリ – 企業からのデータ提供 – データ収集 • APIによる収集 • スクレイピングによる収集
  48. 48. 自分でデータ収集 • 自前でのデータ収集が必要な場合 – データセットが公開されていない – データセット利用の条件が厳しい • 対象者の制限、発表の制限、商用利用等の制限 • APIによるクローリング • ウェブスクレイピング
  49. 49. APIによるクローリング • Twitter – TwitterAPI • ツイートやフォローなど多彩な情報 • https://help.twitter.com/ja/rules-and-policies/twitter-api • Facebook – GraphAPI • Social Graphの情報 • https://developers.facebook.com/docs/graph- api?locale=ja_JP – Public Feed API • 「公開」ステータスの近況アップデータ • https://developers.facebook.com/docs/public_feed/
  50. 50. Twitterデータの収集 • TwitterAPIを利用 – Twitter社が提供するデータアクセス用API – 主にTwitterアプリ作成のため • TwitterAPIの制限 – OAuthによる認証 – 1時間あたりのアクセス制限 – 収集データの利用規約 – 頻繁に発生する仕様の変更
  51. 51. TwitterAPIによるデータ収集 • 多くのデータにアクセス可能 – ユーザのTweet – ユーザのProfile – ソーシャルグラフ関係(Follower,Friend) – ユーザのツイート • 自分へのリツイート • Favorite情報 – リスト – 自分のDM
  52. 52. 網羅的ツイートデータの収集 • 収集手順 1. 日本語でツイートしているユーザをピックアップ 2. 各ユーザのツイートを200件ずつ収集 • ソーシャルグラフならばFollower,Friend情報を収集 3. すべてのユーザのデータを収集後1.に戻る
  53. 53. 関連ツイートの収集 • 関連キーワードを決定 – 「アメフト OR 日大 OR タックル」 • キーワード検索による検索 – 一回に取得できるツイート数:200 – さかのぼれる最大ページ:15 – 一回で取得できるツイート:3000=200x15 200 ツイート 200 ツイート 200 ツイート 200 ツイート 200 ツイート 200 ツイート ・・・
  54. 54. 関連ツイートの収集 • より長い期間の取得 – 期間指定 • 指定した期間だけの取得 – ID指定 • 指定したTweetID以前のTweetを取得可能 – Tweetを3000以上取得可能 Tweet 3/15 18:00 3/18 06:00
  55. 55. ツイートデータ収集の制限 • そもそもTwitterAPIはアプリ作成用 – データ収集用ではない • TwitterAPIには取得データ量に制限 – 過去のツイート制限 • 通常のAPIの場合 – 15分制限 • 180リクエスト/15分
  56. 56. 簡単ツイート収集アプリ • Tiny Tweet Crawler – 検索キーワードを含むTweets を収集するフリー ウェア http://mtmr.jp/ttc/ • Web Tweet Crawler – 検索キーワードを含むTweets を収集するWEBア プリ http://torix.sakura.ne.jp/twitter/
  57. 57. Web Tweet Crawler • http://torix.sakura.ne.jp/twitter/ にアクセス Twitterアカウントでログイン
  58. 58. Web Tweet Crawler リツイートを含むかどうか できる限り過去に さかのぼるか 収集言語 ShiftJISで 保存.Excelで読み込む場合
  59. 59. WTCで収集可能なデータ 列名 説明 id Tweet ID screen_name ツイートユーザのScreenName name ツイートユーザの名前 created_at ツイート作成日 text ツイート本文 retweeted_id リツイート元のID retweeted_user リツイート元のツイートを投稿したユーザ retweeted_create_at リツイート元の投稿時間 in_reply_to_screen_name リプライ先のScreenName in_reply_to_status_id リプライ先のTweetID in_reply_to_user_id リプライ先のUserID source ツイートを投稿したアプリ retweet_count リツイートされた回数 favorite_count Favられた回数 user_id ツイートユーザのユーザID statuses_count ツイートユーザの総ツイート数 followers_count ツイートしたユーザのフォロワー数 friends_count ツイートしたユーザがフォローしている数 favourites_count ツイートしたユーザの総ふぁぼり数 keyword 検索に使ったワード
  60. 60. ジオタグ付きTweetデータ • データ – 毎日、日本で30万件以上 – リアルタイムで収集可能 – 精緻な位置情報(緯度経度) • 使い方 – 普段の何気ないつぶやき(家・職場) – 特別なイベント(旅行など)
  61. 61. 位置情報付きツイート(1/3) • Twitter Streaming API – POST statuses/filter • 緯度経度による矩形を指定可能 – locations • 全データを取得するには – 収集範囲を分割する • サンプリング回避 – 複数体のクローラ • locations をマージすると全範囲になるように
  62. 62. 位置情報付きツイート(2/3) 1匹目 2匹目 3匹目
  63. 63. 位置情報付きツイート(3/3)
  64. 64. 都内のツイート
  65. 65. 大量のTwitterデータを集めたい場合 • 通常では困難 – 大量アカウントの用意など,規約的に微妙 • 大学のIPからならセーフという噂も • 購入する – NTTデータ等ツイートデータを売るところもある – 高い • 収集家に頼む – ツイートデータ収集が趣味の研究者 • Ex. 吉田先生@豊橋技術科学大学 – 収集したツイートデータは譲渡禁止 • 共同研究で集めましょう
  66. 66. ウェブスクレイピング • WWWから自動的に情報を収集する処理 • 主な処理 – HTMLの収集 • URL解析 • リンク移動 – HTMLの解析 • HTMLパーサ • 構文解析
  67. 67. ウェブスクレイピング • 利点 – 提供されていないデータを収集可能 – 複数サービスの横断的比較が可能 • 欠点 – パーサなどの自作 – データ量によっては取得に時間がかかる – 対象企業サーバへの負荷 • 一度に大量のアクセスはアクセスブロックの要因 – 法的な問題
  68. 68. ウェブスクレイピング • ACCS不正アクセス事件(2003年11月) – 管理者が意図しないアクセスを認めるか? – 不正アクセス禁止法違反 →懲役8カ月、執行猶 予3年 • 岡崎市立中央図書館事件(LibraHack事 件)(2010年3月) – 蔵書検索システムにアクセス障害が発生 • 大量アクセスを理由に利用者の一人が逮捕 • 根本的な原因が図書館側のシステムの不具合 – 起訴猶予処分
  69. 69. Webスクレイピングの具体例 • JSAI2018のページをスクレイピング – 講演データを取得 – 講演者ネットワーク分析
  70. 70. 講演データの取得 • 検索ページを利用 – 空白で検索 – すべての講演情報を取得 – ソースを解析 – 講演データを取得 詳細検索
  71. 71. 発表情報
  72. 72. ソースコード <div class="sbjtitle"> <h1> <span class="headicon"></span> <a href="/guide/event/jsai2018/subject/3O1-OS-1a-03/advanced"> [3O1-OS-1a-03] ネットワーク構造に基づく新聞記事の分類による読者の行動分析</a> </h1> </div> <div class="sbjcontent"> <p class="personals"> <span title="発表者">〇園田 亜斗夢<sup>1</sup>、鳥海 不二夫<sup>1</sup>、中島 寛人<sup>2</sup>、郷治 雅 <sup>2</sup></span> <span title="所属">(1. 東京大学、2. 日本経済新聞社)</span> </p> </div>
  73. 73. HTMLパース • 記事の獲得 <article class=¥"sbject-box¥">(.+?)<¥¥/article> • タイトル箇所の取得 <h1>(.+?)<¥¥/h1>" • リンクと発表タイトルの取得 <a href=¥"(.+?)¥">(.+?)<¥¥/a> リンク 発表タイトル
  74. 74. 取得したデータ • タイトル,URL,アブストラクト,著者
  75. 75. せっかくだから分析 • 自然言語処理 – 今話題のキーワードは何か? • ネットワーク分析 – 研究者コミュニティを探る • 発表者ネットワークを構築 • 講演者をノード • 共著論文がある関係にリンクを張る
  76. 76. 今年のキーワード • タイトルを形態素解析 – Janomeを利用 • Pure Python辞書内包形態素解析器 – 本当はMecab-ipadic-neologdがおすすめ • 出現回数が上位の単語 – 今回は名詞に注目
  77. 77. 順位 単語 回数 1学習 121 2データ 66 3モデル 58 4分析 58 5システム 55 6手法 54 7生成 49 8検討 45 9推定 44 10画像 43 11評価 40 12予測 37 13表現 37 14情報 36 15深層 35 16提案 34 16ロボット 34 18自動 32 18支援 32 20行動 30 21抽出 29 21対話 29 順位 単語 回数 23知能 28 23構築 28 25構造 27 26解析 26 26利用 26 28AI 25 28社会 25 28特徴 25 28分類 25 32技術 24 32開発 24 32研究 24 35人工 23 35ニューラルネットワーク 23 35問題 23 35機械 23 39考慮 22 40最適 21 40検出 21 40知識 21 43動作 20
  78. 78. 共著者ネットワーク • 研究者コミュニティを探る – 発表者ネットワークを構築 – 講演者をノード – 共著論文がある関係にリンクを張る • 研究者同士の関係性 – どのような関係性が存在するのか
  79. 79. 誰が中心的人物か? • 今年の人工知能学会で注目すべき人物は誰 か? • 中心性による評価 – 次数中心性 • 次数そのもの – 媒介中心性 • 他のノードにたどり着くために当該ノードを通らなけれ ばいけない割合 – ページランク • 重要なノードからリンクされているほど重要
  80. 80. 次数中心性 • ノードが持つ次数(リンク数) – たくさんの共著者がいれば高い – あまりいなければ低い
  81. 81. 次数中心性ベスト20 名前 次数中心性 次数 1小澤 順 0.020243 35 2小林 一郎 0.016194 28 3長井 隆行 0.014459 24 4中村 友昭 0.014459 24 5川村 秀憲 0.013302 23 6大森 隆司 0.012724 21 6松尾 豊 0.012724 21 6東中 竜一郎 0.012724 21 9坂地 泰紀 0.012146 20 9成田 雅彦 0.012146 20 名前 次数中心性 次数 9鳥海 不二夫 0.011567 20 12本村 陽一 0.010989 19 12大澤 博隆 0.010989 19 12鈴木 恵二 0.010989 19 15小林 一樹 0.010411 17 15石川 翔吾 0.010411 17 15西村 拓一 0.010411 17 15横山 想一郎 0.009832 17 15山下 倫央 0.009832 17 15加納 政芳 0.009832 17
  82. 82. 媒介中心性 • そのノードがいなければバラバラになる度合い – 複数のグループをつないでいると高い
  83. 83. 媒介中心性ベスト20 名前 媒介中心性 1小林 一郎 0.003298 2森田 武史 0.002468 3小澤 順 0.002212 4松尾 豊 0.001895 5古崎 晃司 0.001884 6溝口 理一郎 0.001789 7鳥海 不二夫 0.001031 8長井 隆行 0.000629 9中村 友昭 0.000629 10大澤 博隆 0.000584 名前 媒介中心性 11坂田 一郎 0.000546 12大向 一輝 0.000482 13岩澤 有祐 0.000408 14田中 和哉 0.000374 15鈴木 恵二 0.000343 16本村 陽一 0.000305 17狩野 芳伸 0.000253 18中野 有紀子 0.000247 19武田 英明 0.000247 20川村 秀憲 0.000224
  84. 84. ページランク • ウェブページの重要度を決定するためのアル ゴリズム – 重要なノードからリンクされているほど重要 – 重要な研究者と研究している人ほど高い
  85. 85. ページランクベスト20 名前 PageRank 1小澤 順 0.00285 2鷲尾 隆 0.00263 3小林 一郎 0.00243 4松尾 豊 0.00239 5鳥海 不二夫 0.00195 6本村 陽一 0.00187 7高間 康史 0.00185 8田中 文英 0.00185 9川村 秀憲 0.00180 10大森 隆司 0.00173 名前 PageRank 11坂地 泰紀 0.00173 12長井 隆行 0.00172 13中村 友昭 0.00172 14成田 雅彦 0.00159 15池上 高志 0.00149 16山崎 俊彦 0.00147 17伊藤 孝行 0.00147 18東中 竜一郎 0.00147 19加納 政芳 0.00147 20栗原 聡 0.00143
  86. 86. コミュニティ抽出 • 複数の構造にネットワークを分離
  87. 87. 様々なコミュニティ • 接続性による定義 – コンポーネント • コミュニティ内外接続性による定義 – Newman法
  88. 88. コンポーネント • 接続性から定義されたコミュニティ – 連結成分=コンポーネント – 連結成分 • 有限ステップで到達可能なノード群 – 非連結成分 • リンクでつながっていないノード群 1 2 3 4 6 7 8 5
  89. 89. 最大コンポーネント
  90. 90. 第二コンポーネント
  91. 91. モジュラリティ • よりよいコミュニティ分割 – 理想的なコミュニティとは何か? • コミュニティ内部は密に • コミュニティ外部は疎に
  92. 92. Moduralityによるコミュニティ抽出 • Modularity – ネットワークをもっとも「よく」分割するための指標 – 内部リンクが多く,外部リンクが少ないと値が高く なるような指標 𝑔𝑖 𝑔𝑗
  93. 93. 最大コンポーネントのコミュニティ抽出 Louvain法を利用 まつおぐみ
  94. 94. 第二コンポーネントのコミュニティ抽出 Louvain法を利用 大澤一族 人狼軍団 坂田家の 人々計算社会 科学
  95. 95. おまけ • 過去10年の人工知能学会における共著関係 ネットワークの分析 – 2009年~2018年のデータを取得 – 一度でも共著論文があればリンク作成
  96. 96. 最大コンポーネント
  97. 97. 第2コンポーネント
  98. 98. 誰が中心的人物だったか? • この10年人工知能学会全国大会で中心的 だった人物は誰か • 中心性による評価 – 次数中心性 – 媒介中心性 – ページランク
  99. 99. 次数中心性ベスト20 名前 次数中心性 次数 1鳥海不二夫 0.0147 108 2松尾豊 0.013747 101 3栗原聡 0.011433 84 4長井隆行 0.011297 83 5本村陽一 0.011161 82 6山口高平 0.011025 81 7福井健一 0.01048 77 8小林一郎 0.010072 74 9中村友昭 0.0098 72 9沼尾正行 0.0098 72 名前 次数中心性 次数 9鷲尾隆 0.0098 72 12岡夏樹 0.009392 69 13乾健太郎 0.008983 66 14西村拓一 0.008847 65 15伊藤孝行 0.008575 63 16平嶋宗 0.008439 61 16白松俊 0.008303 61 18大武美保子 0.008167 60 18竹林洋一 0.008167 60 20溝口理一郎 0.00803 59
  100. 100. 媒介中心性ベスト20 名前 PageRank 1鳥海不二夫 0.074074 2松尾豊 0.040170 3西村拓一 0.029100 4小林一郎 0.028182 5片上大輔 0.026087 6大森隆司 0.025381 7大澤博隆 0.024382 8栗原聡 0.023167 9野田五十樹 0.022461 10橋田浩一 0.021762 名前 PageRank 11本村陽一 0.021487 12武田英明 0.021357 13長井隆行 0.020123 14岡田将吾 0.019629 15中村友昭 0.018675 16鹿島久嗣 0.018081 17和泉潔 0.017819 18山田誠二 0.017669 19相澤彰子 0.017638 20諏訪正樹 0.017517
  101. 101. ページランクベスト20 名前 PageRank 1鳥海不二夫 0.00206 2松尾豊 0.00200 3鷲尾隆 0.00162 4山口高平 0.00162 5小林一郎 0.00159 6伊藤孝行 0.00149 7高間康史 0.00145 8栗原聡 0.00143 9本村陽一 0.00142 10長井隆行 0.00131 名前 PageRank 11荒井幸代 0.00131 12平嶋宗 0.00129 13河原吉伸 0.00127 14白松俊 0.00124 15廣安知之 0.00124 16鹿島久嗣 0.00123 17福井健一 0.00121 18岡夏樹 0.00121 19沼尾正行 0.00119 20乾健太郎 0.00116
  102. 102. 今注目すべき人は? • 過去10年は研究の歴史 • 過去10年に出ていないが今年出ている人 • 注目すべき人ではないか? • 今年新たにトップ20に入った研究者は誰?
  103. 103. 10年ランクにはいないが 今年のランクに入った研究者 名前 PageRank 1小澤 順 0.00285 2鷲尾 隆 0.00263 3小林 一郎 0.00243 4松尾 豊 0.00239 5鳥海 不二夫 0.00195 6本村 陽一 0.00187 7高間 康史 0.00185 8田中 文英 0.00185 9川村 秀憲 0.00180 10大森 隆司 0.00173 名前 PageRank 11坂地 泰紀 0.00173 12長井 隆行 0.00172 13中村 友昭 0.00172 14成田 雅彦 0.00159 15池上 高志 0.00149 16山崎 俊彦 0.00147 17伊藤 孝行 0.00147 18東中 竜一郎 0.00147 19加納 政芳 0.00147 20栗原 聡 0.00143 電気通信大学 助教 東京大学 講師 産業技術大学 院大学教授 東京大学 教授 東京大学 准教授 名古屋工業大 学教授 実行委員 長 中京大学 教授 筑波大学 准教授 北海道大学 教授 玉川大学 教授 パナソニック-産総研 先 進型AI連携研究ラボ長
  104. 104. 今日のお話 • 計算社会科学とは • Webマイニングとは • データ収集と分析 – データリポジトリ – 企業からのデータ提供 – データ収集 • APIによる収集 • スクレイピングによる収集
  105. 105. 関連学会等 • 計算社会科学+WEB – The Web Conference – ICWSM – SocInfo – WI – IC2S2 – IWABCSS – 計算社会科学研究会
  106. 106. The Web Conference • WEB系のトップカンファレンス – 採択率15~20% – 2018年はフランス・リヨン – 2019年はサンフランシスコ
  107. 107. ICWSM • International Conference on Web and Social Media – ソーシャルメディア系のトップカンファレンス • 採択率20%程度 – 2018年はスタンフォード • 毎年マレーシアで開かれる同名の別会議有り
  108. 108. SocInfo • Social Informatics – 情報系寄りの計算社会科学の会議 • 採択率20~30% – 2018年はサンクトペテルブルグ
  109. 109. Web Intelligence • Web Intelligence – Web系の会議 • 採択率30~50% – 2018年はチリ
  110. 110. IC2S2 • International Conference on Computational Social Science – 計算社会科学学会メインカンファレンス • 採択率80%程度 • 計算社会科学の最新情報に触れるには最適 – 同名の偽会議に注意
  111. 111. IWABCSS • International Workshop on Application of Big Data for Computational Social Science – IEEE BigDataの併設ワークショップ • 採択率80% – 2018年はシアトル
  112. 112. 計算社会科学研究会 • 日本の計算社会科学の研究会 – 社会学,情報工学,物理学などの研究者によっ て構成される研究会 – 毎年3月にワークショップ • 採択率100% – 日本における最大の計算社会科学コミュニティ
  113. 113. 計算社会科学・WEBマイニング • 6月5日(火) 15:20 〜 17:00 – Webマイニング-情報推薦 • 6月5日(火) 17:20 〜 19:00 – Webマイニング-情報抽出・分析 • 6月6日(水) 13:20 〜 14:40 – WEBマイニング - ソーシャルネットワーク応用 • 6月7日(木) 13:50~17:30 – OS-1 計算社会科学
  114. 114. 計算社会科学 • 人間・社会と計算の組み合わせが可能になっ たことで実現した新しい学際科学 – 現実世界を映し出すビッグデータ – 観察・実験の場としてのウェブ – 複雑な社会を扱う数理と情報技術 計算社 会科学 社会 科学 数理 手法 情報 技術 統計数理 経済物理学,社会物理学 ネットワーク科学 ゲーム理論・ABS 計算機科学 ビッグデータ 人工知能 機械学習 自然言語処理 社会心理学・社会学 社会情報学・政治学
  115. 115. 今日のお話 • 計算社会科学とは • Webマイニングとは • データ収集と分析 – データリポジトリ – 企業からのデータ提供 – データ収集 • APIによる収集 • スクレイピングによる収集

×