Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

いかにしてデータを手に入れるか

949 views

Published on

データ・ジャーナリズム・ハンドブック日本語版リリース記念イベント講演 http://datajournalismjp.github.io/releases/20161118.html

Published in: News & Politics
  • Be the first to comment

いかにしてデータを手に入れるか

  1. 1. いかにして データを手に入れるか
  2. 2. Slideshare 掲載用あらすじ • データの入手から前処理までの上流部分について話します • 入手の部分は既存のジャーナリズムがやってきたことと重複も大き いです。それなりの量のデータを入手することが生む違いは、個々 のストーリーをもう少しマクロな視点でみることが可能になること です。 • 検索テクニック、公開請求テクニック、オープンデータのリスト (日本バージョン含む)を紹介します • スクレイピングについては情報が古いので、今使えそうなサービス を紹介します • 事例をもとに前処理の実際と使えるツールを紹介します (「データを取得する」の前半5節、「データを理解する」の「データを扱うための基礎的な手順」、「ケーススタディ」の 「ニュースにおけるデータ: ウィキリークス」を基に作成しています)
  3. 3. 講演者プロフィール 亀田 尭宙(KAMEDA Akihiro) 京都大学 地域研究統合情報センター 助教 専門: • Linked Open Data • 自然言語処理 • (最近は人文社会科学を中心とした) 各ドメインへの応用 オープンな教科書の共訳は2つめ
  4. 4. いかにして データを手に入れるか
  5. 5. http://spotlight-scoop.com/
  6. 6. https://www.bostonglobe.com/metro/2015/11/06/least-clergy-have-been-accused-child- sex-abuse-boston-archdiocese/5cKpjVOPhEh7IYnCwRqIJI/story.html
  7. 7. 全神父の年鑑が出てる。教会の年鑑、マサチューセッツの全神父。 見ろ 1983年。ジョン・ゲーガン、ドーチェスターの教区。 年代と教区が。 こっちの彼は… 何だ? 1980年 JPを外れた。病気休暇で。 理由まで?1991年は? リアム・バレット… 読めんな。 虐待で教区を外れた。 リアム・バレット? そうだ。 病気休暇。 公式の本なのに。 1つ1つの事件から システム全体の問題へ
  8. 8. 検索、公開請求、 オープンデータ
  9. 9. ウェブ上の情報を見つける • 検索を効率化する • データ形式を指定(例: filetype:XLS, filetype:CSV) • ドメインの限定(例: site:go.jp) • “Directory Listing”
  10. 10. 請求 • データの請求権 • 情報公開法 を使い倒せ!
  11. 11. 情報源に直接アクセス • 情報公開法による請求 • 広報担当者への連絡 • データ保持者へのコンタクト 直接ミーティングする機会を設けるのが最善である、 と私は知っている。さらに私は、彼らが断りにくい方 法でその機会を設けることができる。「彼らに負担を かけたくないんです」「無駄に負担になったり、過剰 に広い請求をしたくありません。ミーティングをする ことで、どんなデータがあるかを理解し、欲しいもの をどのようにリクエストすべきか、私の理解が助けら れるのです」
  12. 12. http://okfn.jp/2013/08/28/foia-shibuya-vs-california/
  13. 13. データポータル • 世界、各国 • http://dataportals.org/ • https://www.data.gov/ • https://data.gov.uk/ • https://datahub.io/ などなど
  14. 14. 日本だと • http://www.data.go.jp/ • http://datameti.go.jp/ • http://udct-data.aigid.jp/ (Urban Data Challenge) • 他メタリスト • https://goo.gl/qbF2oZ (CKAN採用リスト) • From @_shimizu http://bit.ly/2fE98tn • http://iden- tity.biz/archives/1475 データポータル
  15. 15. スクレイピング
  16. 16. 賞味期限切れ:ScraperWiki
  17. 17. 賞味期限切れ:ScraperWiki
  18. 18. 賞味期限切れ:ScraperWiki
  19. 19. 賞味期限切れ:ScraperWiki
  20. 20. 賞味期限切れ:ScraperWiki • From @AKU_T https://www.import.io/
  21. 21. 「使える」データに
  22. 22. いかにして「使える」データを手に入れるか From 「データを扱うための基礎的な手順」 • データを求める際に、あなたが答えようとしている質問のリス トから始めるべきだ。 • データはたいてい汚い状態なので、奇麗にする必要がある。 • データには明示的になっていない特徴があるかもしれない。
  23. 23. Miami Herald の例 酔っ払い運転の量刑データ
  24. 24. データ解釈の大事さ • 裁判官ごとに異なる酔っ払い運転の逮捕者への判決の重さを分 析していた時のことだ。レポーターは有罪判決の記録を裁判所 のシステムから引き出し、データ辞書に含まれる3つの要素の 数値を分析した。 • 拘留期間 • 懲役期間 • 罰金の量 である。
  25. 25. データ解釈の大事さ • 本筋と外れたもめごと • 判決の約1〜2%で、拘留期間も懲役期間も罰金の量も示していないも のがあった結果として"罪に問われない"というケースが少量ながら含 まれていた。 • この記事と図が出版された時、裁判官達は抗議の声を上げた。Miami Herald 紙は、裁判官達が酔っ払い運転で有罪の判決を受けた者は罰を 受けなくてはならないという州法を破っていると批判している、とし て。
  26. 26. データ解釈の大事さ • レポーターはデータファイルを作った裁判所書記官のオフィスに戻 り、そのエラーの原因について尋ねた。 • そして、問題のケースは、初めて逮捕された際の被告の貧困が関 わっていると告げられた。通常、被告には罰金が課せられるはずの 場合において、彼らにはお金がなかったということだ。そのため裁 判官は、道路に沿ってゴミを清掃するといった、社会奉仕を彼らに 命じた。後で分かったことだが、データベースの構造が作られた後 に、社会奉仕を要求する法が通過していた。 • たがって、すべての裁判所書記官は、データの中で、拘留・懲役・ 罰金の各変数がゼロになっているものは社会奉仕を意味することを 知っていた。しかし、これは、データ辞書に記載 されておらず 、そ のため Herald 紙は訂正記事を出すこととなった。
  27. 27. Guardianの例 ウィキリークスのデータ
  28. 28. データ処理に手を付ける • 始まったばかりのころに取り組んだ重要なことは、データベー ス全体を公開しないようにすることだった。ウィキリークスは 既にそうしようとしていたが、私たちは情報提供者の名前を明 かさないことやNATOの部隊を不必要に危険にさらしたりしな いことを保障したかった。同時に、David LeighやNick Davies (Julian Assangeと交渉してデータを公開させたのは彼らだ) 率いる我々の調査報道チームがデータを使いやすいようにする 必要があった。また、鍵となる情報へのアクセスをよりシンプ ルにし、できる限り明瞭でオープンな形で白日の下にさらした かった。
  29. 29. データ処理に手を付ける • 私たちのチームはシンプルな内部用のデータベースをSQLを 使って構築した。ジャーナリストはそれによってイベントやで きごとを手掛かりにストーリーを探索できるようになった。突 如として、データセットはアクセス可能なものとなり、ストー リーを生み出すことが容易になったのである。 • データはきちんと構造化された。それぞれのできごとには、時 間、日時、説明、犠牲者数、―そしてこれがとても重要なもの であるが―緯度経度といった鍵となるデータが付された。
  30. 30. HuTime • http://www.hutime.org/basicdata/calendar/form.html
  31. 31. HuTime • http://www.hutime.org/basicdata/calendar/form.html
  32. 32. Google Fusion Tables
  33. 33. Google Fusion Tables
  34. 34. Google Fusion Tables
  35. 35. まとめ • データを手に入れる • デジタル化 • 検索 • 公開請求 • オープンデータ • スクレイピング • クラウドソーシング • それを使えるものに • 時間情報や地理情報のフォーマッティング • 秘匿すべきものは秘匿する • データ辞書

×