よいオープンデータとは?
株式会社MIERUNE
井口 奏大
〜北海道版サイトの事例から考える〜
自己紹介
• 北海道士別市出身
• 2020年3月まで士別市役所職員、4月から現職
• 北海道版サイトではデータ周りに関与
本日の話題
• 北海道版サイトとオープンデータ
• よいデータとはなにか?
北海道版サイトとオープンデータ (1)
• 公開時点(右図V0)でのデータ周りの問題点
• オープンデータは公開されていなかったの
で、道ウェブサイトを解析して可視化用の
データを生成していた
➡データ利用のライセンスが不明瞭だった
➡データ生成のしくみがウェブサイトの構造
の変化に対し脆弱で自動化にはリスクが大
きかった
ところがその後、すぐに状況が変化
北海道版サイトとオープンデータ (2)
• 北海道はCOVID19発生状況CSVをオープンデータとして公開
• 札幌市はCOVID19相談件数CSVをオープンデータとして公開
• ライセンス問題が解決、データ取得・サイト更新の自動化が実現
• これらのデータを集計・整形した、ウェブ上で誰でも使える
WebAPIを、オープンデータとして再公開
https://codeforsapporo.github.io/covid19hokkaido_webapi/
北海道版サイトとオープンデータ (3)
• 各自治体により、価値あるデータがオープンデータとして、使いやすいCSV形式
で公開されたことで、データ更新の自動化とWebAPIの再公開につながった
➡データの一次公開→データ加工・活用→加工後データの再配布という、これぞ
オープンデータ!という流れが実現した
➡各自治体にも、オープンデータを公開すると良い事がある、と認識してもらう
きっかけになったのでは
一方で、公開されたが十分に活用出来なかったデータも存在していた
北海道版サイトとオープンデータ (4)
• 市民が時差通勤などを判断できるよう、札幌市交通局が公開している市営
地下鉄混雑度データの可視化を検討していた
➡典型的「餅から米問題」として一部の界隈で話題に
よいデータとはなにか?(1)
• 地下鉄混雑度データは右図のようなPDF形式、こ
のままでは分析用のデータとしては使えない
➡PDFの一括ダウンロード、データ解析、CSV
出力までの自動化には一応成功
• しかし、PDFに変換する前のエクセルファイルや
、混雑度を示す生の数値データ自体が公開されて
いれば、この手順は必要なかったはず
➡これを「餅から米問題」と呼びます
※生データ(米)とPDF(餅)の関係
よいデータとはなにか?(2)
• 価値あるデータがPDFなどの餅形式で公開さ
れるケースは依然として多い
➡PDFはパソコンでいじりにくいけど活用の
ためにがんばって解析
➡界隈の諸氏はこの問題とずっと戦っている
ではなぜPDFでデータが公開されがちなのか?
よいデータとはなにか?(3)
• 官公庁がデータを公開するターゲットは不特定多数の国民・県民・市民
• 情報公開にあってはリテラシーが低い方に合わせざるを得ない
• CSVを公開してもPDFに比べて読める人は限られる
➡誰でも同じように見られるPDFに固めておくのは自然
「二次利用を想定しない」データの公開にあっては、PDFもよいデータ
よいデータとはなにか?(4)
• データが餅形式で公開されると、活用したい側で多かれ少なかれ指摘が
• 公開側にとっては誰でも同じように見られるデータが「よいデータ」
• 活用側にとってはパソコンでいじりやすいデータが「よいデータ」
➡公開側と活用側で「よいデータ」の認識が違う
よりよいオープンデータのためにはこれらの認識を一致させることが必要
よいデータとはなにか?(5)
• 公開側と活用側が両者の認識のズレを埋めるためにすべきこと
• 活用側:公開された価値あるデータを実際に活用する
• 公開側:保有データの価値と活用可能性の理解
一手間くわえ「よいデータ」公開を
(=生データもセットで公開しませんか?という提案)
(些細なデータも公開すれば、実は価値があって活用されるかも)
(二次利用想定なら必ずしもPDFだけが「よいデータ」じゃない)
「よいデータ」公開事例を紹介・宣伝する
• 官公庁には価値あるデータがたくさんあり、一見些細なデータにも活用可能
性があります(なのでどんどん公開しましょう)
• いかなるデータも公開の際には二次利用を想定し「よいデータ」公開を!
• 北海道と札幌市のCOVID19オープンデータは「よいデータ」の好例!
まとめ

よいオープンデータとは?〜北海道版サイトの事例から考える〜