Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Opendata@tokyowebmining

6,342 views

Published on

オープンデータの現状と未来

Published in: Technology
  • Be the first to comment

Opendata@tokyowebmining

  1. 1. オープンデータの現状と未来 1 Saturday, April 18, 15
  2. 2. 目次 • オープンデータの概要 • 日本のオープンデータの現状 • オープンデータの模範的あり方 • 日本はどうすれば… 2 Saturday, April 18, 15
  3. 3. 作品の一部ではなく全てが、複製のための適正な価 格あるいはインターネットによる無償ダウンロード により提供されてなければなりません。また、作品 は、変更可能で便利な形式で提供されなければいけ ません。 http://opendefinition.org/od/1.1/ja/ オープンの定義 3 Saturday, April 18, 15
  4. 4. http://5stardata.info/ja/ OL: Open Licence RE: machine REadable OF: Open Format URI: RDF Standard (Indentifeied Resource) LD: Linked RDF オープンデータの形式 4 Saturday, April 18, 15
  5. 5. データライフサイクル 5 Saturday, April 18, 15
  6. 6. データライフサイクル 未集計 5 Saturday, April 18, 15
  7. 7. データライフサイクル 未集計 集計済 5 Saturday, April 18, 15
  8. 8. データライフサイクル 未集計 集計済 インサイト 5 Saturday, April 18, 15
  9. 9. データライフサイクル 未集計 集計済 インサイト 5 Saturday, April 18, 15
  10. 10. データライフサイクル 未集計 集計済 インサイト - POS - サービスログ * サーバーログ * アドログ * 検索ログ - センサデータ * 気象 * 震度 * GIS… - マーケットデータ * 証券取引所,FX… 5 Saturday, April 18, 15
  11. 11. データライフサイクル 未集計 集計済 インサイト - POS - サービスログ * サーバーログ * アドログ * 検索ログ - センサデータ * 気象 * 震度 * GIS… - マーケットデータ * 証券取引所,FX… ETL 5 Saturday, April 18, 15
  12. 12. データライフサイクル 未集計 集計済 インサイト ETL 5 Saturday, April 18, 15
  13. 13. データライフサイクル 未集計 集計済 インサイト Extract/Transform/Load ETL 5 Saturday, April 18, 15
  14. 14. データライフサイクル 未集計 集計済 インサイト Extract/Transform/Load - Hadoop (HDFS+YARN) - tez - spark - prestdb - impala - MPPDB - teradata - netiza - vertica - paraccel - redshift - ETLサービス - TresureData - BigQuery ETL 5 Saturday, April 18, 15
  15. 15. データライフサイクル 未集計 集計済 インサイト Extract/Transform/Load ETL 5 Saturday, April 18, 15
  16. 16. データライフサイクル 未集計 集計済 インサイト Extract/Transform/Load ETL 5 Saturday, April 18, 15
  17. 17. データライフサイクル 未集計 集計済 インサイト Extract/Transform/Load MLETL 5 Saturday, April 18, 15
  18. 18. データライフサイクル 未集計 集計済 インサイト Extract/Transform/Load MLETL 統計 5 Saturday, April 18, 15
  19. 19. データライフサイクル 未集計 集計済 インサイト Extract/Transform/Load MLETL 統計 可視化 5 Saturday, April 18, 15
  20. 20. データライフサイクル 未集計 集計済 インサイト Extract/Transform/Load MLETL 統計 可視化 レポート 5 Saturday, April 18, 15
  21. 21. データライフサイクル 未集計 集計済 インサイト Extract/Transform/Load MLETL 統計 可視化 レポート 5 Saturday, April 18, 15
  22. 22. データライフサイクル 未集計 集計済 インサイト Extract/Transform/Load MLETL 統計 可視化 レポート オープンデータ 5 Saturday, April 18, 15
  23. 23. open closed 官公 国 官公 地方 民間 営利 民間 非営利 時系列 GIS 分布 主要 その他 今回の対象データ 6 Saturday, April 18, 15
  24. 24. ゆきゆきてオープンデータ的な http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdf G8オープンデータ憲章 電子行政オープンデータ戦略 http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf 世界最先端 IT 国家創造宣言 http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf 7 Saturday, April 18, 15
  25. 25. ゆきゆきてオープンデータ的な http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdf G8オープンデータ憲章 電子行政オープンデータ戦略 http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf 世界最先端 IT 国家創造宣言 http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf 政府自ら積極的に公共データを公開すること 機械判読可能な形式で公開すること 営利目的、非営利目的を問わず活用を促進すること 取組可能な公共データから速やかに公開等の具体的な取組に着手 し、成果を確実に蓄積していくこと 7 Saturday, April 18, 15
  26. 26. ゆきゆきてオープンデータ的な http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdf G8オープンデータ憲章 電子行政オープンデータ戦略 http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf 世界最先端 IT 国家創造宣言 http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf 7 Saturday, April 18, 15
  27. 27. ゆきゆきてオープンデータ的な http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdf G8オープンデータ憲章 電子行政オープンデータ戦略 http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf 世界最先端 IT 国家創造宣言 http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf2014 年度及び 2015 年度の2年間を集中取組期間と位置づけ、 2015 年度末には、 他の先進国と同水準の公開内容を実現する。 7 Saturday, April 18, 15
  28. 28. ゆきゆきてオープンデータ的な http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdf G8オープンデータ憲章 電子行政オープンデータ戦略 http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf 世界最先端 IT 国家創造宣言 http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf 7 Saturday, April 18, 15
  29. 29. Global Open Data Index http://index.okfn.org/place/ 8 Saturday, April 18, 15
  30. 30. 例:月例経済報告 9 Saturday, April 18, 15
  31. 31. 例:月例経済報告 GDP, 消費総合指数,家計調 査,毎月勤労統計,消費者物価 指数,労働力調査,日銀短観, 鉱工業指数,貿易統計… 9 Saturday, April 18, 15
  32. 32. 例:月例経済報告 国の施策決定の第一位の根拠 GDP, 消費総合指数,家計調 査,毎月勤労統計,消費者物価 指数,労働力調査,日銀短観, 鉱工業指数,貿易統計… 9 Saturday, April 18, 15
  33. 33. 例:月例経済報告 国の施策決定の第一位の根拠 消費者物価指数 → 年金,家賃,賃金,日銀金融政策.... GDP, 消費総合指数,家計調 査,毎月勤労統計,消費者物価 指数,労働力調査,日銀短観, 鉱工業指数,貿易統計… 9 Saturday, April 18, 15
  34. 34. e-Stat 総務省系 データカタログ 経産省系 行政機関各自独自 オープンデータの公開先 10 Saturday, April 18, 15
  35. 35. 帝京大学 藤谷道夫 訳 11 OPENDATA INFERNO Saturday, April 18, 15
  36. 36. 憂いの国にいかんとするものはわれをくぐれ 永劫の呵責に遭わんとするものはわれをくぐれ 破滅の人に伍せんとするものはわれをくぐれ 正義は高き主を動かし,神意は,最上智は, 最初の愛は,われを作る わが前に創られしものは無し,ただ無窮あり,われは 無窮に続くものなり われを過ぎんとするものは一切の望みを捨てよ 12 地獄の門 Saturday, April 18, 15
  37. 37. 師よ、私の理解を絶するこのサイ トは何ですか? 苦しみにかくも打ちのめされてい るように見えるこのデータはどん なデータなのですか? 13 打ちのめされたデータ Saturday, April 18, 15
  38. 38. 14 E-STAT INFERNO Saturday, April 18, 15
  39. 39. 15 検索… Saturday, April 18, 15
  40. 40. 15 検索… Saturday, April 18, 15
  41. 41. 検索が激遅い… 15 検索… Saturday, April 18, 15
  42. 42. 16 ブラウズ… Saturday, April 18, 15
  43. 43. 16 ブラウズ… Saturday, April 18, 15
  44. 44. ブラウズがおかしい… 16 ブラウズ… Saturday, April 18, 15
  45. 45. • Java Strutsによるイニシエの実装 • ブラウズがおかしいのは,アクションサーブレットに よるページの動的生成のため • 検索が遅いのは,まともな検索エンジンを使ってない から E-STATの実装 Saturday, April 18, 15
  46. 46. 18 E-STAT API Saturday, April 18, 15
  47. 47. E-STAT APIの謎コード 19 Saturday, April 18, 15
  48. 48. E-STAT APIの謎コード 19 Saturday, April 18, 15
  49. 49. E-STAT APIの謎コード 19 Saturday, April 18, 15
  50. 50. E-STAT APIの謎コード 19 Saturday, April 18, 15
  51. 51. E-STAT APIの謎コード 19 Saturday, April 18, 15
  52. 52. E-STAT APIは… 20 Saturday, April 18, 15
  53. 53. E-STAT APIは… 20 Saturday, April 18, 15
  54. 54. E-STAT APIは… 20 Saturday, April 18, 15
  55. 55. E-STAT APIは… 20 e-Stat APIは RDBダンプダウンローダー Saturday, April 18, 15
  56. 56. E-STAT APIの致命的欠点 Saturday, April 18, 15
  57. 57. E-STAT APIの致命的欠点 • e-StatにあるほとんどのデータがAPIからとれない Saturday, April 18, 15
  58. 58. E-STATの致命的欠点 22 Saturday, April 18, 15
  59. 59. E-STATの致命的欠点 22 Saturday, April 18, 15
  60. 60. E-STATの致命的欠点 22 Saturday, April 18, 15
  61. 61. E-STATの致命的欠点 22 Saturday, April 18, 15
  62. 62. そもそも,e-Statにない 重要経済統計がありすぎ E-STATの致命的欠点 22 Saturday, April 18, 15
  63. 63. DATACATALOG INFERNO Saturday, April 18, 15
  64. 64. DC: 登録されているデータが… Saturday, April 18, 15
  65. 65. DC: 本質 Saturday, April 18, 15
  66. 66. DC: 本質 • データカタログサイトの基本はファイルリポジトリ • 乱雑なものを乱雑なまま Saturday, April 18, 15
  67. 67. DC: 実装 • PythonのDMSであるCKANを利用 • data.gov/data.gov.ukのコピー • CKANというよりG-CAN(Garbge Can)に… Saturday, April 18, 15
  68. 68. 27 EXCEL INFERNO Saturday, April 18, 15
  69. 69. 27 EXCEL INFERNO Saturday, April 18, 15
  70. 70. EXCEL INFERNO-1 28 Saturday, April 18, 15
  71. 71. EXCEL INFERNO-1 28 Saturday, April 18, 15
  72. 72. EXCEL INFERNO-2 29 Saturday, April 18, 15
  73. 73. EXCEL INFERNO-2 29 Saturday, April 18, 15
  74. 74. EXCEL INFERNO-2 29 Saturday, April 18, 15
  75. 75. EXCEL INFERNO-2 29 Saturday, April 18, 15
  76. 76. EXCEL INFERNO-2 29 Saturday, April 18, 15
  77. 77. • オープンデータを配布する仕組みがまずい • すぐに使えるデータを公開しない • 統計の観測のやり方にいろいろ問題 J-OPENDATA INFERNO Saturday, April 18, 15
  78. 78. WORLD BANK DATA Saturday, April 18, 15
  79. 79. • Indicators - Countries の時系列 • GDP, 失業率, 起業率, 死亡率, 有病率, 教育参加率 • 大陸別,国別 WORLD BANK DATAの属性 Saturday, April 18, 15
  80. 80. WORLDBANK • 強力なデータブラウザ • 合理的なREST API • API Query Explorer • 数多くの3rd Party SDK / アプリケーション Saturday, April 18, 15
  81. 81. QUANDLE Saturday, April 18, 15
  82. 82. オープンデータの正しい出し方 • API • API First • GET/POST/PUT/DELETEが合理的 • キレイなURL • API Query Explorer / SDK • 網羅的にデータを探索できるデータブラウザ 35 Saturday, April 18, 15
  83. 83. じゃあ,具体的に… どうすれば… 36 Saturday, April 18, 15

×