アーキテクチャ
全てはアーキテクチャベースで検討される
1
GDC : GOVERNMENT DATA COLLEGE
アーキテクチャとはなにか
 アーキテクチャとは、設計や様式も含めた全体を表す考え方であり、機能など
目的に応じて分割したものの組み合わせで表される。
2
アーキテクチャのない世界
私たちは、ルール
を作り、データも整
備しました
私たちは、プラット
フォーム整備を軸
にサンプルデータ
で検証中です
私たちは、ユース
ケースを軸に検証
をしています。
どのチームがどこまでできているのかの把握が困難
GDC : GOVERNMENT DATA COLLEGE
GDC : GOVERNMENT DATA COLLEGE
3
政府のシステムの中核となるアーキテクチャ
戦略・政策
ルール
組織
ビジネス
利活用機能
データ
データ連携
アセット
センサー、アクチュエーター
ハードウェア、ネットワーク
データ収集、データ統合
データクレンジング、デバイス管理
データ項目定義、データセット定義
コード
カタログ、検索、AI、解析
業務プロセス
業務ルール
組織間調整
体制
法律
規則
ビジョン
重点分野
セ
キ
ュ
リ
テ
ィ
・
認
証
ライフサイクル 3
ツール群 行政データ連携標準
コア語彙
テンプレート群
文字情報基盤」
コード
カナ、ローマ字、英字
センサーデータ
データ項目
(データ定義)
情報
(データモデル)
データ形式
検索・配信 プライバシー管理 コミュニティ
カタログ管理 共通語彙・コード管理 統計解析・シミュレーション
評価・品質 原本性保証
認証・認可/匿名・秘匿 データ接続/データ統合 データ変換
サービス
ポータル
共通
機能
連携
機能
データ
Society 5.0
コネクテッド・インダストリ
スマート・シティ
データ流通市場
IT基本法
官民データ法
デジタル手続法
政府標準利用規約
オープンデータ推進方針
標準ガイドライン群 等
ルール
ツール
データ
Society5.0
参照アーキテクチャ
アーキテクチャは分野別にカスタマイズできる
 Society5.0 参照アーキテクチャ
を基に、スマートシティのアーキテク
チャを応用編として整備している。
https://www8.cao.go.jp/cstp/stmain/a-guidebook1_200331.pdf
スマートシティリファレンスアーキテクチャ導入ガイドブック
GDC : GOVERNMENT
DATA COLLEGE
4
アーキテクチャがあると横比較が容易
 各国の取り組みを機能ごとにトレースしやすい。
5
認
証
・
セ
キ
ュ
リ
テ
ィ
IMAPS
Core Vocabulary、schema.org
Service Catalogue
Context Broker等、CEF
eTranslation
Contro
lled
Vocabu
lary
Context Broker等
Digital single market
DCAT、CPSV等
GDPR
BLIS、TOOP
eIDAS
EIF
CEF、SEMIC
人材が豊富で、蓄積もあるので、普
及フェーズになっている。
syncronicity
認
証
・
セ
キ
ュ
リ
テ
ィ
データ品質ガイダンス
データ標準やデータリポジトリ
プラットフォーム
データ収集ツール
Federal Data Strategy
ルール作成
法人デジタルプラットフォーム
ツール
青:完了 黃:取組中 赤:5-10年で解決
CDO CDO council、専門委員会
戦略を強力に推進し、2020年度中
に環境整備。人材が揃っている。
認
証
・
セ
キ
ュ
リ
テ
ィ
データ品質フレームワーク
共通語彙基盤
行政データ連携標準
サービス・カタログ
分野間データ連携基盤
文字情報基盤、文字ガイド
コード
一覧
データクレンジングツール
Society5.0、グランドデザイン
推奨データセット、行政
サービスデータ連携標準
創造宣言、DG実行計画
法人デジタルプラットフォーム
g
BizID
Society5.0リファレンスアーキテクチャ
ベースラインは作ったが人材と体
制がない。ベースレジストリがない。
戦略・政策
ルール
組織
ビジネス
利活用機能
データ
データ連携
アセット
認
証
・
セ
キ
ュ
リ
テ
ィ
Base
Registries
優先データの定義
ベース・レジストリ
戦略の比較や展開計画も検討が容易になる
 連携部分や抜け漏れが明確になる。
※左図はArchimate®記述
6
データ戦略TF
マイナWG DG実行計画
戦
略
制
度
組
織
業
務
・
基
盤
デ
ー
タ
ア
セ
ッ
ト
GDC : GOVERNMENT DATA COLLEGE
アーキテクチャ記述言語
 アーキテクチャ推進団体のTOGAFが開発したArchimate®がアーキテク
チャ記述には多く使われる。
 ビジネスやサービス、リソース等を簡単に整理できるモデリングを提供している。
- 無料ツールのArchiも提供されている
 欧州のEIRA(European Interoperability Reference
Architecture)では、 Archimate®を全面採用している。
- 記述できなくても、読める必要はある
7
GDC : GOVERNMENT DATA COLLEGE
アーキテクチャで実現するインタオペラビリティ
連携が容易でサステイナブルな基盤作り
8
GDC : GOVERNMENT DATA COLLEGE
INTEROPERABILITY(相互運用性)
GDC : GOVERNMENT DATA COLLEGE 9
組織、業務プロセス
• 「データ→プリント→紙→入力→データ」の防止
ルール
• データ:政府統一利用規約
データ
• データ定義(意味)、データ構造、活用ツール
技 術
• XML、CSV、JSON - USB、DVD - wifi
 技術的な接続性ではなく、運用まで含んだ広い概念
- アーキテクチャの各層の調整が必要
相互運用性のイメージ
 言葉が通じても、慣習、ルールが違うと、円滑にコミュニケーションできない場
合がある。
 トータルで自然につながれるのがインタオペラビリティ
10
「Include Tax(税込み)」って何ですか?
GDC : GOVERNMENT DATA COLLEGE
インタオペラビリティを確保する仕組み
 全てを標準に合わせて作り直すのではなく、参照モデル(RM:Reference
Model)でつなぐ。
11
Standard Reference
Model
Standard
R
M
交換用の標準
GDC : GOVERNMENT DATA COLLEGE
インタオペラビリティは時には冗長である
 正確にデータを表すために抽象的なデータ項目名になることがある
- 住所(これだけでは、本社住所か事業所住所かわからない)
- ラベルを付けて運用する
12
GDC : GOVERNMENT DATA COLLEGE
住所 東京都千代田区*****
本社住所 東京都千代田区*****
種類 対象 住所
住所 本社 東京都千代田区*****
住所 事業所 東京都港区*****
住所 工場 神奈川県秦野市***
これだけだと、何の住所かわからない
何の住所かわかるけど、データ項目が増えていく
工場住所 神奈川県秦野市***
事業所住所 東京都千代田区*****
住所情報と明確にした上で、対象と住所を示す
インタオペラビリティは時には複雑すぎる
 データの記述が複雑なことがある。
- 世界標準の日時表記:2020-04-01T12:00+09:00
‣ 計測器では、高速処理をするためデータを最小化し、分や秒だけしかデータとして持たない場合がある。
13
既存のシステムを活かし、生産性を高めるためには、
データ交換するときにだけ標準化すればよい
GDC : GOVERNMENT DATA COLLEGE
インターオペラビリティ確保によるメリット
 企業自身をアジャイルに
- 企業内のスピードアップ
- 事業再編、M&Aが容易に
 企業の負担の減少
- 標準手続きの作成
- 手続きの迅速化・簡略化
- データの供給
 コンプライアンスの向上
- プロセス可視化とモニター
14
GDC : GOVERNMENT DATA COLLEGE
 関係企業の強化、協業
- 外部取引先も同じ可視化手法を活用
- グローバルな連携
 人材の供給と流動化の促進
- 標準手法を身に着けた人材
- 個人を強化するのではなく組織で知識
やプロセスを蓄積
- 社内外の異動の容易化
インターオペラビリティ確保のためのルール、ツール、データ
 3つの領域が密接に連携し
ながら推進していく
GDC : GOVERNMENT DATA COLLEGE
ルール
• トラスト
• データ標準・品質
ツール
• 分野共通
カタログ
ディクショナリ
連携基盤
• 分野個別
データ
• ベースレジストリ
• その他データ
• オープンデータ
• データマネジメント
サービス
2
15
アジャイルな組織の実現
 インタオペラビリティの高いフレームワークを整備しておくことで、最先端のノウハ
ウを世界中に瞬時に展開することが可能になる。
16
他省等
データ
項目
業務の
流れ
業務担当者が、
標準的なデータ項目を使って、
拡張性の優れた業務プロセスを、
迅速に構築し、広く展開可能
標準記法(BPMN)
事前に用意した
項目リストから選択
現場
システム
後援名義BPMN.igx
経済産業省
大臣官房
総務課
関係課室
担当課室
主催者等
相談を受ける
申請書類を作
成する
事前審査をする
申請資料を修
正、追加する
起案する 通知する
承認後の指導
及び監督をする
変更等に対す
る報告を行う
開催概要
収支予算
団体の概要
その他資料
開催期日の少
なくとも一ヶ
月前
大臣
賞か?
挨拶
文が
必要か
相談をする
合議を確認する
課室長が決裁
する
後援事業の準
備をする
終了の報告を
行う
事業報告書
収支報告者
最終確認を行う
No
Yes
No
Yes
事業の実施を
する
相談する
後援の条件が変更された時
別手続で実施
後援基準
世界最大の組織内ネットワーク[米陸軍知識ネット(AKO)]の事例
選択 グアムで作ったモデルが、登録し
た瞬間に全世界の業務になる
製薬会社で行っている、eLearningコンテンツの配信などを組み合わせるともっと効果が上がる
GDC : GOVERNMENT
DATA COLLEGE
インタオペラビリティを支えるルール管理
既存のルールを本質的に見直す必要がある
17
GDC : GOVERNMENT DATA COLLEGE
ルールは守るものではない、社会に適応させていくものである
 技術の変化は四半期単位に起こっている。ルール管理が年単位で良い訳が
ない。
 データを軸に既存ルールを見ると以下の課題がある。
- 紙で提出させる書類がある
- 紙を原本とする書類がある
- 紙の様式が指定されていて、データという観点で項目が整理されていない
- データで処理すれば、現在の法律にある手続き、業務は不要になるものがある
- 紙での提出では、データの曖昧性が許容されてきた
- 法律等で整合性の取れないデータ定義をしている 18
GDC : GOVERNMENT DATA COLLEGE
ルールのベースラインが変わってきている
 縦割りのルールメイキングから、オブジェクト(対象物)を中心としたルール作
りへ。
GDC : GOVERNMENT DATA COLLEGE
制度 制度 制度 制度 制度 制度
制度の数だけ人物像があった 1つの人物像に制度が乗っかってくる
19
制度はビューに過ぎない
実態は一つしかない
業務見直しがされていない例
 調達システムでは、古いコード体系を
直していない。
- 販売と購入で品目コードを分けている等
 右表のように、最新システムでは古い
コードを標準的なコードに変換をする
等で対応している。
20
GDC : GOVERNMENT DATA COLLEGE
様式指定の例
 法律等における様式(書式)の指定が
あるものがある。
 データ項目として指定することで、各項目
を明確にすることができる。
21
GDC : GOVERNMENT DATA COLLEGE
業務改革できる例
 商業登記の全部事項証明書は、そもそも存在確認だけであれば法人番号公表サイトで
WebやAPIを使って確認できる。さらに、行政機関では手続きで添付しなくても公用請求
で確認、照合が可能になる。
 マイナンバーカードにヨミガナを登録することで、データとして活用の幅が広がる。
 住民票の除票は、データ項目を適正に見直しすることで簡易に実現が可能。
 これらの事例は、データという観点から業務を見直すことで改善できる。 22
従来
• 登記簿の全部事項証明書を求める
• 取り寄せに時間、労力、500円がかかる
• 窓口かネットでも8-20時しかサービスしていない
法人の存在確認したいとき
既にできること
• 法人番号公表サイトで確認できる
• 瞬時に無料で情報入手可能
• 24時間サービス
広報していないから
誰も知らない
GDC : GOVERNMENT DATA COLLEGE
FAXは害悪でしかない
 送信した人はすっきりするが、全体効率を著しく落とす
- 機器の準備(送受信双方)
- 回線帯域の使用
- 再入力(受信)
- 読めない場合がある
‣ 確認の電話が発生
23
FAX FAX
受信側で手入力と化するので対応に
時間がかかる
送信 受信
GDC : GOVERNMENT DATA COLLEGE
制度間の不整合がある例
 世帯とは、「実際に同一の住居で起居し、生計を同じくする者の集団」を、法律上一つの
単位として取り扱う場合にいう。
- 世帯は、基本的には複数の親族によって構成される。しかし、親族以外の者であっても、実際に同一の
住居で起居し、生計を同じくしている限り、同一の世帯に属する。
‣ 近年では、女性の社会進出に伴い、女性が仕事上の理由などで姓を変更を避けるために事実婚をしている場合でも
「夫(未届け)」「妻(未届け)」という記載によって同一世帯とすることができる。また、一人暮らしであっても独立した
住居で独立した生計を営んでいる場合には、世帯として扱われる(独居世帯)。なお、同じ住居で共同生活していて
も生計を別にしている場合はそれだけで別世帯として扱われる(二世帯住宅など)。
 国勢調査などの社会調査の際に、同じ「世帯」「世帯主」という言葉が、別定義の下に使
われている事も多い(総務省統計局の国勢調査令、厚生労働省の「世帯動態調査」
の「用語の解説」)。
- 世帯および世帯主の定義は、世帯全体の生計、国民健康保険税や国民年金保険税や介護保険税
の納税義務者としての世帯主あるいは「家族手当」等の受給者としての世帯主に重点を置いた法律上
の定義と、住所に重点を置いている住民票や統計上での定義とがしばしば矛盾し質問・苦情・裁判が
発生している。
 Wikipediaより抜粋(https://ja.wikipedia.org/wiki/%E4%B8%96%E5%B8%AF)
24
GDC : GOVERNMENT DATA COLLEGE
曖昧性を許容している例
 ルールの曖昧運用が高ホスピタリティという日本の強みであった
- 法人の商業登記の住所の相違
‣ 本社所在地が間違っていても、手続きを通している
 法人登記は、本社移転をした場合は登記変更が必要で、住所表記が変更になった場合は職権修正されるべきで
あるが、登記の全部事項証明書があれば手続きを通している場合が多い
- 各種手続きでの氏名漢字の簡易化(外字の代替表記)
‣ 氏名の簡易表記でも手続きを通してしまう。
 法律で氏名を記入となっているところは、厳密には戸籍氏名を書かなければならないが、代替文字で済ませている
 自動審査などでコンピュータ処理する場合は、エラーとして処理される。どう処理す
るか検討が必要。
- 「書類不備で落とす」「審査は仮合格にして、執行時までに変更手続きをしてくる」「慣習に従
い目をつぶる」等の処理が考えられる。 25
GDC : GOVERNMENT DATA COLLEGE
複数データを使うときに、異なる複数ルールに直面する
 データには、著作権などの知的財産権、また、利用するための利用規約等の様々なルールが存
在している。
 複数のデータをマッシュアップするデータにおいては、これらのルールが複雑に関係する。
 また、サービス運用中に原データの利用ルールが変わる場合もあるので注意が必要である。
 第一歩は、DCAT、ダブリンコア等のカタログ情報に著作権やライセンス情報を付加すること。
- 紙ではなくメタデータなので管理が容易(メカニズムは必要) 26
文書への著作権、
ライセンス
画像への著作権、
ライセンス
マッシュアップした情報
への著作権、ライセンス
GDC : GOVERNMENT DATA COLLEGE
ルール連鎖を考えてルールを作る
 データのルールは、どのような出典なのかProvenance情報が重要で、トレーサブルでなけ
ればならない。
 標準ルールがある場合には、規約本文を修正して適応するのではなく、加筆や削除を補
足情報で対応することが望ましい。
- 標準ルール本文を変更せずに修正に関する補足条項だけを確認することでルール管理が容易になる。
27
ひな形 適用ルール ひな形 適用ルール
原文を修正すると、変更箇所の管理が困難 条項の非適用や修正、追加を最後に加筆
コンテンツIDのような考え方も重要になる
GDC : GOVERNMENT DATA COLLEGE
デジタル手続法(1/2)
情報通信技術を活用し、行政手続等行政手続の利便性の向上や行政運営の簡素化・
効率化を図るため、 ①行政のデジタル化に関する基本原則及び行政手続の原則オンライ
ン化のために必要な事項を定めるとともに、 ②行政のデジタル化を推進するための個別分
野における各種施策を講ずる
 情報通信技術を活用した行政の推進の基本
- デジタルファースト:個々の手続・サービスが一貫してデジタルで完結する
- ワンスオンリー:一度提出した情報は、二度提出することを不要とする
- ワンストップ:民間サービスを含め、複数の手続・サービスをワンストップで実現する
 行政手続の原則オンライン化のために必要な事項
- 行政手続のオンライン原則(本人確認(印の見直し)、納付、問合)
- 添付書類の撤廃 (マスターデータ)
- デジタル化を実現するための情報システム整備計画(データ標準化、API)
- デジタル・デバイドの是正(デジタル支援技術の活用)
- 民間手続における情報通信技術の活用の促進(民間サービス活用) 28
GDC : GOVERNMENT DATA COLLEGE
デジタル手続法(2/2)
行政のデジタル化を推進するための個別施策(住民基本台帳法、公的個人認証法、マイナンバー法)
- 本人確認情報の保存及び提供の範囲の拡大(住民基本台帳法)
‣ 国外転出者の本人確認情報の公証(戸籍の附票の記載事項の追加・記載された本人確認情報の保存・提供)
‣ 本人確認情報の長期かつ確実な保存及び公証(住民票等の除票を除票簿として保存・安全確保措置等)
→情報通信技術を活用した個人の識別・認証を将来にわたり、国内外問わず実現 (オンライン手続・本人確認の実現、添付書
類の省略の前提)
- 公的個人認証(電子証明書)・個人番号カードの利用者・利用方法の拡大(公的個人認証法、マイナンバー法)
‣ 国外転出者による公的個人認証(電子証明書)・個人番号カードの利用 →国外転出者による公的個人認証(電子
証明書)・個人番号カードを活用したオンライン手続・本人確認の実現
‣ 利用者証明用電子証明書の利用方法の拡大(暗証番号入力を要しない方式)
‣ 個人番号カードへの移行拡大(通知カードの廃⽌)
- 個人番号利用事務及び情報連携対象の拡大(マイナンバー法)
‣ 罹災証明書の交付事務等の個人番号利用事務への追加
‣ 社会保障分野の事務の処理のために、情報連携の対象の事務や情報を追加
→行政手続における関係書類の提出の省略、行政事務の効率化 29
GDC : GOVERNMENT DATA COLLEGE
これまではデジタルデータによる改善に思いが至らなかった
 デジタル手続法によってワンスオン
リー、ワンストップ処理が求められ
ている。
 その実現には、データの標準化と、
ベース・レジストリの整備が必要。
 添付削減ではなく自動審査がポ
イント
 ただし現場にはノウハウもなく、改
善が進まずにいる。
30
○○資格証明書
3級
△△太郎殿
********
期限2020年3月31日
2019年2月1日
**市
領収書
△△太郎殿
¥30,000
2019年2月1日
**市
送付
60秒
開封
30秒
目視確認
評価
30秒
ファイル
60秒
証明データ
<証明種類>領収金額
<宛先> △△太郎
<数値> 30,000
<単位> 円
<発行日> 2019-02-01
<発行者> **市
送付
1秒
開封
0秒
自動確認
評価
3秒
ファイル
0秒
証明データ
<証明種類>○○資格
<クラス> 3
<宛先> △△太郎
<発行日> 2019-02-01
<発行日> 2019-02-01
<発行者> **市
API照合
入力補助
(1分以上節約)
法人番号
<法人名>〇〇商事
<本社住所>□□市
<代表者> △△太郎
ベース
レジストリ
入力
ベース
レジストリ
GDC : GOVERNMENT DATA COLLEGE
個人情報とパーソナルデータ
 多くのデータが個人情報さらにはパーソナルデータを含んでいる。
- 個人情報
‣ 氏名、生年月日などにより特定の個人を識別することができるもの。
- パーソナルデータ
‣ 個人情報に加え、個人情報との境界が曖昧なものを含む、個人と関係性が見出される広範囲の情
報を指すものとする。個人の属性情報、移動・行動・購買履歴、ウェアラブル機器から収集された個
人情報を含む。
 個人情報保護法だけでなく世論への配慮も必要となる。
31
GDC : GOVERNMENT DATA COLLEGE
効果とリスクのバランスが重要
 グレーゾーンに委縮して、イノベーションを阻害している。
 「プライバシー原理主義」、「やらないリスクへの無関心(先送り)」は避けな
ければならない。
 コロナ対策で、公益性とプライバシーのバランスが注目されるが、結局は守り
の方向へ。
32
セキュリティ
利便性
GDC : GOVERNMENT DATA COLLEGE
データの所有権の議論
 申請を受け付けたりするサービサーが、データの目的外利用を禁⽌することが多い。
 しかし、データの所有権はデータを登録した側にあるという議論がある。自分が提出
したデータは、元の登録者が再利用を希望すれば再利用を可能にするべきである
という考え方。
33
米国の医療情報に関してはBlue Buttonにより、
本人がダウンロードして再利用することができる。
GDC : GOVERNMENT DATA COLLEGE
欧州のGDPR(GENERAL DATA PROTECTION REGULATION)
 GDPRがEUデータ保護指令に比べて厳格化された点は、主に4点ある。
まず、法の域外適用が行われるという点である。すなわち、EU域外から
の行為であっても、域内の個人に対して商品・サービスを提供し、個人
データの収集等を行う場合等には適用される。2点目として、高額の制
裁金を科すことが可能という点がある。GDPRに違反した場合、最大で
違反事業者の全世界での年間売上高の4%(2,000万ユーロを下
回る場合には、2,000万ユーロ)の制裁金が科される可能性がある。
3点目として、個人データの収集・利用に際してその個人の明確な同意
を必要とした点がある。そして4点目として、個人のデータポータビリティに
関する権利を明記した点がある。
 GDPRにおけるデータポータビリティの権利とは、①事業者等に自ら提供
した個人データを本人が再利用しやすい形式で受け取る権利、②技術
的に実行可能な場合には別の事業者等に対して直接個人データを移
行させる権利とされている。このような権利を設定することで、個人デー
タの保護を図るとともに、個人データの囲い込みの防⽌による競争の促
進、個人データを活用したイノベーションの創出、ユーザーのコントロール
下での個人データの共有の促進によるユーザーの利便性向上といったメ
リットが期待されている。すなわち、データポータビリティには、個人の権利
の確立・保障という側面と、競争政策的な側面の両面がある。
(令和元年版情報通信白書
https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r01/html/
nd113130.html) 34
GDC : GOVERNMENT DATA COLLEGE
知的財産
 データは、知的財産を持つ場合が多いことを常に考える必要がある
 さらに、AIに作成された成果物など、様々な側面からデータの知的財産を検討。
- AI・データの利用に関する 契約ガイドライン 1.1 (経済産業省)
‣ https://www.meti.go.jp/press/2019/12/20191209001/20191209001-1.pdf
 政府のコンテンツについては政府統一利用規約が提供されており、基本的に自由
に使える
- 政府のwebサイトやオープンデータに関する統一的利用規約
‣ https://cio.go.jp/sites/default/files/uploads/documents/opendata_nijiriyou_betten1
.pdf
35
GDC : GOVERNMENT DATA COLLEGE
DFFT(DATA FREE FLOW WITH TRUST)
 2019年1月23日「ダボス会議」で「成長のエンジンはもはやガソリン
ではなくデジタルデータで回っている。・・・(中略)・・・。新し
い経済活動には、DFFT=Data Free Flow with Trustが最重要課題で
ある」と提言。
 2019年6月29日G20で、「データや情報等の越境流通は、生産性の向
上、イノベーションの増大をもたらす一方で、プライバシー、データ
保護、知的財産権及びセキュリティに関する課題を提起、これらに対
処することにより、データの自由な流通を促進し、消費者及びビジネ
スの信頼を強化する。DFFTはデジタル経済の機会を活かすものであ
る。」と首脳宣言で言及。
36
GDC : GOVERNMENT DATA COLLEGE
TRUSTとは何か
 Trustを定義する要素は目的によって異なる。以下の要素が使われることが
多い。
 一般に取引などを考える場合の信頼というと「品質」「運用(ガバナンス)」
「ブランド」が重視される。その補助手段で認証が行われる。
- ぶっきらぼうだけど信頼できる等、「ふるまい」は信頼性と関係が薄い
37
Positive Relationships
Good
Judgement/Expertise
Consistency
Reliability
Openness
Transparency
Acceptance
Congruence
Integrity
Capability
Result
Commitment
Sincerity
GDC : GOVERNMENT DATA COLLEGE
データ倫理の必要性
 データは何でも活用すればよいというものではなく、発信者や管理者に高い
倫理性が求められる。
- 過去のデータをどこまで公開してよいのか
‣ 問題になって例
 検索サイトでの犯罪歴等の表示削除
 破産者情報等の蓄積公開
- 背景情報やプライバシー情報はどこまで考える必要があるのか
 AI倫理をどのように考えるのか
38
GDC : GOVERNMENT DATA COLLEGE
米国政府のデータ倫理フレームワーク
 単にルールを守るだけでなく、倫理観を持ってデータを扱うことが重要である。
1. Uphold applicable statutes, regulations, professional practices, and ethical standards.
‣ 適用される法令、規制、職業上の慣行、倫理基準を守る。
2. Respect the public, individuals, and communities.
‣ 一般市民、個人、地域社会を尊重する。
3. Respect privacy and confidentiality.
‣ プライバシーと機密性を尊重する。
4. Act with honesty, integrity, and humility.
‣ 正直さ、誠実さ、謙虚さを持って行動する。
5. Hold oneself and others accountable.
‣ 自分と他の人に説明責任を持たせる。
6. Promote transparency.
‣ 透明性を促進する。
7. Stay informed of developments in the fields of data management and data science.
‣ データ管理とデータ サイエンスの分野について、常に情報を得る。 39
https://resources.data.gov/assets/documents/fds-data-ethics-framework.pdf
GDC : GOVERNMENT DATA COLLEGE
インタオペラビリティを支えるデータ標準化
データ標準がすべての基盤
GDC : GOVERNMENT DATA COLLEGE 40
データだけでなく体系的な仕組みでインターオペラビリティを支える
 Society5.0 参照アーキテクチャは、データ標準群が中核を支えている。
GDC :
GOVERNMENT
DATA COLLEGE
41
戦略・政策
ルール
組織
ビジネス
利活用機能
データ
データ連携
アセット
センサー、アクチュエーター
ハードウェア、ネットワーク
データ収集、データ統合
データクレンジング、デバイス管理
データ項目定義、データセット定義
コード
カタログ、検索、AI、解析
業務プロセス
業務ルール
組織間調整
体制
法律
規則
ビジョン
重点分野
セ
キ
ュ
リ
テ
ィ
・
認
証
ライフサイクル 41
ツール群 行政データ連携標準
コア語彙
テンプレート群
文字情報基盤」
コード
カナ、ローマ字、英字
センサーデータ
データ項目
(データ定義)
情報
(データモデル)
データ形式
検索・配信 プライバシー管理 コミュニティ
カタログ管理 共通語彙・コード管理 統計解析・シミュレーション
評価・品質 原本性保証
認証・認可/匿名・秘匿 データ接続/データ統合 データ変換
サービス
ポータル
共通
機能
連携
機能
データ
Society 5.0
コネクテッド・インダストリ
スマート・シティ
データ流通市場
IT基本法
官民データ法
デジタル手続法
政府標準利用規約
オープンデータ推進方針
標準ガイドライン群 等
ルール
ツール
データ
Society5.0
参照モデル
そもそもデータの標準化とは何か
 データ項目
- 意味も含めて、データ項目をどの粒度で定義するか
 形式
- データをどのように表記するか
 データモデル
- 対象物をどのようなデータ項目の組み合わせで表現するか
 その他
- 記述文字数
42
GDC : GOVERNMENT DATA COLLEGE
IT総合戦略室が推進するデータ体系
 社会全体でデータ利活用するためには、基本データから積み上げた体系の中で相互運用性を確保していく
必要がある。
 データ体系は機動性の高い社会システムを作るための必須の基盤である。
43
行政データ連携標準
コア語彙
テンプレート群
文字情報基盤」
コー
ド
サービス
データ
体系
観光
カナ、ローマ字、英字
日付・時刻、住所、地理座標、電話番号等
例:2018/01/29と2018-01-29が混在し、データ処理が困難
センサーデータ
データ項目
(データ定義)
情報
(データモデル)
データ設計(スピード向上) 組織内活用 データマーケット
※1 は、デジタルガバメントで推進している共通語彙基盤の略称。国際連携も実施中。
※2 データを扱うためのツール体系、データ品質は確保するための品質体系も整備していく必要がある
農業 健康 移動 行政 防災
イン
フラ
製造
データ形式
標準的なデータ項目を組み合わせ
ることで、標準的なデータモデルが
できる
分野横断で活用することで
データ連携が容易になる
※ 全体でコスト削減も実現
GDC : GOVERNMENT DATA COLLEGE
文字情報基盤
 漢字やフリガナは、申請等の全ての情報に含まれる。行政サービスの100%デジタル化を実現するうえで先送りでき
ない喫緊の課題である。
44
• 2017年12月に戸籍、住基等で使用する6万文字の
文字コードの国際標準化が完了。(スマートフォン
や市販のPC等の一般の機器で特別な設定なしに
使える1万文字は、既に国際標準化済。)
• 行政機関、銀行等の各種手続きでは、一般の機器
で扱える1万文字による代替文字での本人確認が
日常的にされている。また、6万文字と1万文字を相
互に使い分ける技術的な仕組みは整備されている。
• 公的個人認証の代替文字は本人確認の手段とし
て使用できるとされている。通知カードで本人に通
知されており、マイナンバーカードの券面入力アプ
リに含まれている。
• グローバルに伴いヨミガナやローマ字使用が増え
ているが、ヨミガナの統一が図られていないし、
ローマ字表記も多様である。
• 法人や地名はヨミガナ対策を実施中。
• 文字環境導入ガイドブックで導入の考え方を提示。
漢字 :手続きは代替文字を活用
フリガナ等:デファクト化含め検討
現状
取組
文字情報基盤:IPAmj明朝フォント(漢字58,814文字)
戸籍統一文字(漢字55,270文字)
住民基本台帳ネットワークシステム統一文字(漢字19,563文字)
JIS X 0213(10,050文字)
常用漢字(2,136文字)
法令、公用文書、新聞、雑誌、放
送等、一般の社会生活において、
現代の国語を書き表す場合の漢
字使用の目安を示す。
実用上の情報交換の必要
性から、出現頻度等を元
に文字を選定
(JISX2013:2004)
戸籍のオンライン手続に使用することを目的
として整理した文字(辞書をベースに整理)
多くの住民が氏名に使う
文字を整理
スマートフォン
漢字のみ
40%
フリガナ又は
ローマ字
(漢字なし)
30%
漢字とフリガナ
併記
30%
_山
先頭文字が外字だと、名前が
呼べない
困る事例1:
名札の3割は既に漢字なし
長村
困る事例2:
窓口や電話でナガムラと
オサムラのどちらかわからない
漢字
ヨミガナ
GDC :
GOVERNMENT
DATA COLLEGE
行政データ連携標準
 日付、住所、電話番号等の基本情報に関するデータの標準がないため、膨大な
データクレンジング作業が発生している。
- データ(日付・時刻、住所、郵便番号、座標、電話番号等)
- コード(PoI(公共施設等)、町字等)
 データ・サイエンティストが不足する上、膨大な無駄な作業をしている。
45
千代田区霞が関2丁目1-2
千代田区霞が関2-1-2
千代田区霞が関2-1-2
統一ルールが必要
以下もコンピュータでは同じではない
データ項目を定めても表記が揺らぐ
デジタル化を図る上で喫緊の課題であり、所管府省を超えて標準化を推進
GDC :
GOVERNMENT
DATA COLLEGE
コア
語彙
ドメイン固有語彙
各分野での利用に特化した語彙。
例)病床数、時刻表 など
避難所
住所
病院
駅
災害
復旧費
ドメイン共通語彙
分野固有の語彙の内、他の分野
でも参照する主要な語彙。
例)病院、駅名、避難所 など
コア語彙
どの分野でも利用される普遍的な語彙。
例)人、物、場所、日付 など
地理空間
・施設
移動
・交通
防災
財務
ドメイン
固有語彙
ドメイン共
通語彙
IMIの特徴
• 分野横断
 社会基盤のコアな情報を重点推進
• グローバル連携
 EU、米国との情報交換
• IoTへの配慮
 連携を視野に入れて設計
• オープンデータでの活用
 社会全体のデータ利活用を促進
• 検索性向上への配慮
 検索サービス標準の参照
• 既存システムへの配慮
 既存データを活かしデータ連携時に活用
共通語彙基盤(IMI:INFRASTRUCTURE FOR MULTI-LAYER INTEROPERABILITY)
 分野横断でのデータ交換を目的としたフレームワーク
- 社会の中核になるコア語彙と分野別の専門分野(ドメイン)語彙を体系的に整理
GDC : GOVERNMENT DATA COLLEGE 46
データモデルのイメージ
 施設の情報は、コアのボキャブラリとドメインのボキャブラリの組み合わせで表せる。
47
病院
建物
診療科
所在(住所)
施設情報
建築物情報
状況
ベッド数
小学校
建物
生徒数
所在(住所)
施設情報
建築物情報
避難所情報
コア
ボキャブラリ
ドメイン
ボキャブラリ
イベント
建物
スケジュール
所在(住所)
連絡先
GDC : GOVERNMENT DATA COLLEGE
データ構造の標準(テンプレート)
 申請書等、殆どの項目が同じだが、今までは担当課が自由に様式を集めるの
で、データの活用が難しかった。
48
申請A 申請B 申請C 申請D
商号又は名称 商号又は名称 名称 名称 名称
法人番号 法人番号 法人番号 法人番号 法人番号
法人代表者役職 役職名 役職 役職 役職名
法人代表者名 代表者 氏名 代表者氏名 代表者名
郵便番号 郵便番号 郵便番号 〒 〒
本社所在地 本社所在地他 本社住所
事務所所在地 事務所所在地 所在地
本補助事業の主な実
施場所 住所
事業所名 事業所名
電話番号 電話番号 電話番号
FAX番号 FAX番号
メールアドレス
webページ ホームページ
担当者部署
担当者役職
担当者名
フリガナ
連絡担当者部署
連絡担当者役職 役職名 役職 役職名
連絡担当者名 連絡者名 担当者名 氏名 担当者名
フリガナ
電話番号 電話番号 電話 電話番号
FAX番号 FAX番号 FAX FAX番号
メールアドレス メールアドレス e-mail E-mail メールアドレスURL
資本金・出資金 資本金・出資金:千円 資本金(出資金):千円
資本の額又は出資の
総額
資本金(出資金):万円
従業員数 従業員 職員数 組合員数 従業員
主たる業種 主たる業種 業種 主たる業種
主たる業種(日本標準
産業分類、中分類)
設立年月日 設立年月日 設立年月日
主な株主 主な株主又は出資者 株主等一覧表
企業名もしくは出資者 株主名又は出資者名
住所 所在地
構造化が必要
データ項目の階層化
とブロック化をする
各申請書は取得するデータ項目もデータ名も違った
申請書
基本情報
商号又は名称
法人番号
代表者
法人代表者役職
法人代表者名
所在地
郵便番号
本社所在地
事務所所在地
事業所名
PoC
電話番号
FAX番号
メールアドレス
webページ
担当者
担当者部署
担当
担当者役職
担当者名
フリガナ
連絡先
連絡担当者部署
担当
連絡担当者役職
連絡担当者名
フリガナ
POC
電話番号
FAX番号
メールアドレス
事業情報
資本金・出資金
従業員数
主たる業種
設立年月日
主な株主
GDC : GOVERNMENT
DATA COLLEGE
共通語彙基盤の具体的なイメージ
 モジュールにして効率化するとともに、目的に合わせて部分利用することで
データ連携が容易にできる。
49
今まで データ連携基盤(共通語彙基盤)
・モジュール化することで設計を効率化
・インタオペラビリティを確保
GDC : GOVERNMENT DATA COLLEGE
様々な応用
 イベント情報と施設情報を一体として管理したり、翻訳なども容易になる。
50
施設データとの融合 英語情報の作成
Title
Description (自動翻訳)
Web
Date
Start Time
End Time
Address
Contact Tel
Contact email
このパーツを追加するだけ
で、外国人に概略情報を伝
えることができる。
※名称は固有名詞が多く、翻訳が
困難なため、別パーツが必要
イベント情報
イベントと施設情報はほぼ同
じ情報項目であり、一体的に
管理できる。
観光において、施設情報とイ
ベント情報の一体化は重要
GDC :
GOVERNMENT
DATA COLLEGE
デジタルガバメントを支えるガイドライン群
 基盤となるガイドライン等を面で用意。
GDC :
GOVERNMENT DATA
COLLEGE
51
デジタルファースト
• 紙からデータへ
ワンス・オンリー
• データ項目を再利用
ワンストップ
• APIによるサービス連携
前提条件
・サービスデザイン思考で考えること
・サービスが見つけられること
・きちんと作られること
行政手続・民間取引IT化の3原則
基盤
・クラウドの活用
マスターデータ等基本データ導入実践ガイドブック
Webサイト等ドメイン管理ガイドライン
コード導入 実践ガイドブック
クラウドサービス利用方針
API テクニカルガイドブック
API導入実践ガイドブック
行政基本情報データ連携モデル
行政サービス・データ連携モデル
本人確認ガイドライン
文字環境導入実践ガイドブック
標準ガイドライン解説書
標準ガイドライン実践ガイドブック
デジタル・ガバメント推進標準ガイドライン
Webサイトガイドブック
Webサイトガイドライン
サービスデザイン実践ガイドブック(β版)
デジタル時代の本人確認手段
スマートフォンで扱える
文字体系
RPAやAIに対応容易な
データ標準
再利用や連携が容易な
基本データ群
サービス間連携を
するためのAPI
※推奨データセットや法人関連データ群とも連携を強化
※その他:技術レポート、リスト
デジタル・ガバメント
押印見直しガイドライン(H9策定済み)
サービス・カタログガイドブック
キャッシュレス決済入門
データ品質ガイドブック 正確性や最新性の評価
金融データの交換
https://cio.go.jp/guides
データをつなぐ・活用するためには
 マイナンバーのようにデータ間をつなぐID、コードが重要になる
 一方で、IDとセキュリティに注目が行き過ぎて、全体のバランスが悪い。
52
ID、コード
データ
活用
ツール
識別子コード(ID)
・体系ができていないところが多い
分類コード(Taxonomy)
・独自分類コードが氾濫
・「001 海岸」と「023 砂浜 024 岬」
データ構造
・申請や証明の書式がバラバラ
データ表記
・「二丁目」と「2丁目」が混在
・「1百万」と「1,000,000」が混在
AI
データサイエンス
データ連携ツール
100年先を
考えて
体系化する
必要がある
GDC : GOVERNMENT DATA COLLEGE
ID、コード
 識別子、識別コード、ユニークID
- マイナンバー
- 法人番号
- 製品シリアル番号
 分類コード
- 標準産業分類
- ベジブルコード
 CIOポータルサイトにあるコード一覧やコード設計実践ガイドを活用する。 53
対象物に一意に番号などが振られ、
個体管理やマッチングに使用される
情報を分類するタグに使われる
GDC : GOVERNMENT DATA COLLEGE
コントロールド・ボキャブラリ
 コード化されるほどではないが分類をしたいときや、自由記述で把握ある程度の選
択肢から回答を選択させたい時に使用する。
例
- 施設やイベントの状況
‣ 「準備中」、「受付中」、「開催中」、「中⽌」、「休⽌中」、「復旧中」、「延期」
‣ ※「復旧中」は、故障、事故や災害時に使用される。
- 混雑の状況
‣ 「空あり」、「混雑」、「空なし」
- 予約の状況
‣ 「予約可」、「要問合せ」、「予約不可」、「当日可」、「キャンセル待可」、「予約不要」、「先着順」 54
GDC : GOVERNMENT DATA COLLEGE
政府内にデータ標準がたくさんある
 JIS
 行政データ連係標準
 (行政サービスデータ連係標準)策定中
 共通語彙基盤
 オープンデータ 推奨データセット
 各省の標準
 全体としての再体系化が必要になっている
GDC : GOVERNMENT DATA COLLEGE 55
データ流通を支えるプラットフォーム
誰もがデータを使える環境を実現するにはプラットフォームが必要
GDC : GOVERNMENT DATA COLLEGE 56
データは分野間データ連携基盤で連携される
57
「分野間データ連携基盤の整備に向けた方針」 総合科学技術・イノベーション会議(CSTI)重要課題専門調査会(第14回)https://www8.cao.go.jp/cstp/tyousakai/juyoukadai/14kai/siryo2-1.pdf
データ
利用者
アプリ開発
・サービス
提供者
データ
配信者
データ
提供者
農業 衛星
作物生産 日照時間
自動車 3次元空間
カーナビ
スマホ
ダイナミック
マップ
路面 橋梁
舗装状況
ひずみ
亀裂
被災地 気象
被害状況
地震・台風
ゲリラ豪雨
健康・医療 工場
レセプト
処方箋
図面
材料
分野間データ連携基盤
サービスポータル(検索、プライバシ保護等)
共通機能(カタログ、語彙変換、分析等)
データ連携機能(データ変換、クレンジング等)
インフラデータ
交通データ
健康・医療データ
都市データ
農業データ
製造データ
行政データ
環境データ
生産性向上・高機能化 交通・物流ナビサービス 防災・災害対応 生産性向上・カスタマイズ性
産
流通サービス・市場
協調領域データ
独自データ
協調領域データ
独自データ
協調領域データ
独自データ
協調領域データ
独自データ
協調領域データ
独自データ
物流
企業
IT
企業
警備
企業
センサ
企業
小売
企業
スマート農業 自動運転 スマートシティ
スマート工場
高度レスキュー
データ標準 データ品質確保の仕組み
GDC : GOVERNMENT
DATA COLLEGE
具体的なプラットフォームの機能
 カタログ、検索
 変換
- 時間軸
- 場所
- データ項目名
- データ形式
 アクセス制御
- アクセスコントロール(ID)
- ログ
- タイムスタンプ
- 契約
GDC : GOVERNMENT DATA COLLEGE 58
プラットフォームは多くのツールで構成される
 ビルディングブロックを組み合わせる。
- カスタマイズは最小限
- データやインタフェースがきれいな移行が
容易なものを選ぶ。
- 10年後など職員がいなくなってもメンテ
できるか考える。
 大量のデータ処理にツールは欠かせ
ない
59
検索・配信 プライバシー管理 コミュニティ
カタログ管理 共通語彙・コード管理 統計解析・シミュレーション
評価・品質 原本性保証
認証・認可/匿名・秘匿 データ接続/データ統合 データ変換
サービス
ポータル
共通
機能
連携
機能
データ
マーケットプレイス
GDC : GOVERNMENT DATA COLLEGE
X-ROAD
 エストニアのプラット
フォームである。
 機能群で構成される。
 データが整備されてい
るうえにこの基盤があ
ることで、便利な社会
を実現
60
GDC : GOVERNMENT DATA COLLEGE
61
eInvoicing
• Send and receive electronic invoices
CEF:Connecting Europe Facility
Big Data Test Infrastructure
• Experiment with big data in a safe environment
Context Broker
• Collect & share real- time data from multiple sources
eArchiving
• Store and preserve digital information
eID
• Securely identify European citizens
eDelivery
• Exchange data and documents securely
eSignature
• Create and verify legally recognised electronic signatures
Data Economy
eIDAS enablers
eInvoicing Directive
eTranslation
• Provide a multi-lingual public service
デジタルデータを連携する共通機能を
欧州全体で整備
GDC : GOVERNMENT DATA COLLEGE
FIWARE
 欧州の研究開発プロ
ジェクトのFIWAREは、
Smatr CityのOSとし
て注目されており、機
能部分のアーキテク
チャを示している。
GDC : GOVERNMENT DATA COLLEGE 62
63
基本アーキテクチャを各分野でモディファイするので連携も可能
ENERGY
INDUSTRY
FARM
SMART CITY
GDC :
GOVERNMENT
DATA COLLEGE
64
コネクタを使った分散を目指す仕組み
IDS
DATAEX
GDC :
GOVERNMENT
DATA COLLEGE
65
データ提供者 データ利用者
CDR:Charging data request
IDSコネクタは、変換を担うコンテキストブローカー、
流通を制御するProxy,アプリケーションとのインタ
フェースを制御するCygnusで構成。
それを認証機能で固めている。
IDS
DATAEX
GDC : GOVERNMENT DATA COLLEGE
DATAEXの構造
66
コネクタとは別の
利活用アプリ
GDC :
GOVERNMENT
DATA COLLEGE
IDSコネクタ
67
コネクタとは別の
利活用アプリ
GDC :
GOVERNMENT
DATA COLLEGE
データを連携する技術(データの自動変換)
 異なるシステム間のデータ交換を自動で実現
68
自データを交換用データにマッピング さらに、他システムと連携
資料:Crossflo CDX ExchangeBuilder
融資 貸付 貸付 貸与
初回に設定することで、自動でデータを連携
Aシステム Bシステム
GDC :
GOVERNMENT
DATA COLLEGE
GAIA-X PROJECT(2019年開始)
 GAIA-X Projectの目的
- 欧州エコシステムの成長の源泉となる、使いやすく、競争力のある、安全で信頼できる連合
データインフラを整備する。
 GAIA-X Projectの背景と目標
- 様々なIoT機器から収集したデータを組織横断で活用することが重要になる。
- 主な目標は以下の4つである。
‣ データ主権と選択の自由
 Data sovereignty
‣ 特定サービスへの依存の低減
 Reduce dependencies
‣ より幅広い層に対するクラウドサービスの魅力増進
 Make cloud services attractive on a broad basis
‣ イノベーションのためのエコシステムの創出
 Creating an ecosystem for innovation 出展:GAIA-X (Driver of digital innovation in Europe)
GDC : GOVERNMENT DATA COLLEGE 69
GAIA-X PROJECT2
 GAIA-X Projectにおける原則とルール項目
- 7原則
‣ 1欧州のデータ保護、2開放性と透明性、3真正性と信頼、4デジタル主権と自己決定、5自由
な市場アクセスと欧州の価値創造 、6モジュール性と相互運用性、7使いやすさ
- ルール項目
‣ GDPR, eIDASなど、EUで法制度化された規則やそれに準じた事業者間の行動規範などを集約し
一覧化。技術標準やツールなどのArchitecture of Standards (AoS)とサービスを整備中。
方針、契約
・GAIA-Xのポリシールールの
実装を内部監査手順で定
期的に確認するものとする。
・顧客から特別に許可されて
いない限りプロバイダーが顧
客データへのアクセスは不
可能。
セキュリティ、報告義務
・欧州のクラウドセキュリティ認
定については一部第3者認
証が必要。
・プロバイダーは適切な措置
を講じて個人で他の侵害と
その範囲をユーザーに通知す
る義務がある。
データ保護
・ユーザーが個人データを処
理する場合のプロバイダー
の適用方法(GDPR準拠)
・データ保護要件への準拠の
定期的制御のための第3
者認証義務
透明性
・EU以外でのデータ活用の
規制
・契約期間中のデータのエク
スポート/インポートに関連
する料金の指定
互換性、移植性
・データの移植、互換に関す
る必要手続き。
・データ移植、互換に関する
クラウドサービス契約の必要
要件
GDC : GOVERNMENT DATA COLLEGE 70
GAIA-X PROJECT2
 ルールと技術の関係
71
出展:Gaia-x Policy rules and architecture of standards
GDC :
GOVERNMENT
DATA COLLEGE
データモデリング
モデリングは全ての基本
72
GDC : GOVERNMENT DATA COLLEGE
モデリングはAI等を活用するデジタル時代の基盤
 様々な世界にモデラ―がある。最先端ユーザーが使用しながら磨いている。
- 文書 ワープロ
- 図面 CAD
- アニメ レンダリング
- ソフトウェア開発
 日本は最先端ユーザーがいるのにモデリングを産業にできなかった。
- モデリングは、大量生産や分業に向いている
- 日本の職人はきめ細かさがないと言ってモデリングに否定的だった
 自動化の時代に、モデリング+AIに職人が太刀打ちするのは難しい。 73
GDC : GOVERNMENT DATA COLLEGE
データの明確化・構造化
 データは表形式ではなく、繰り返し構造の持てるクラス図が基本。
- とはいえ現実には表で記載。
74
GDC : GOVERNMENT DATA COLLEGE
大項目 中項目
基本情報 施設名
概要
Webサイト
日時情報 開館時間
閉館時間
開館日
連絡先 連絡先名
連絡先
メール
表によるデータモデル
データモデリングはなにを使ってますか?
 この質問に答えられる人は国内ではほとんどいない。
 海外はスムースに答えが返ってくる。
 データ設計はエクセルでやってますと言ったら世界で笑われる。
75
GDC : GOVERNMENT DATA COLLEGE
日本の典型的なデータ設計
1. 現場で使っている画面、帳票などを集め、さらにヒアリングを行う。
2. それをエクセル表にまとめる。
 データの全体像が俯瞰できないので、業務改革ができない
 データの抜け漏れ、重複が発生する。システムが大きくなるとデータ項目名等
の修正間違いでエラーが発生する。
76
GDC : GOVERNMENT DATA COLLEGE
モデリングすればよいというものではない
 モデリングはきちんと適用しないと、正しい設計はできない。
 発注者、設計者、レビュアーに、充分なモデリングの知識がなく、このような事
例が頻発している。 77
「住民記録システム標準仕様書」自治体システム等標準化検討会
プロセスモデリングを最初にしているが機能モ
デルを作るのであれば、機能モデルが先になる
機能モデリングをメモ取り手法で設計している データは今では使われない古典的手法で設計して
いる(また、データ項目設計書がない)
GDC :
GOVERNMENT
DATA COLLEGE
データモデリングの基本形
 今では古典的手法になっているが、1990年代に米国政府の調達標準で
あったIDEFは、モデリングの勉強の基礎になる
 データモデリングは、単体では存在しない。他のモデリングとの連携が重要。 78
IDEF3:プロセスモデル
IDEF1X:データモデル
IDEF0:機能モデル
機能に着目し、左からInputが入り右から
Outputが出る。上から制約条件である
Controlが入り、下からメカニズムが支える。
時計回りに頭文字をとりICOMと呼ばれる。
機能を軸にリソースの洗い出しができ、書類
作成にも使われる分析手法。
データを対象物と関係性で表す、ER
モデル(Entity-Relation model)の
基本形。
今でも多くの組織で使われている。
IDEF0で洗い出されたデータをモデル
化する。
IDEF0で洗い出された機能をプロセ
スモデル化する。
GDC : GOVERNMENT DATA COLLEGE
最新のモデルリングの考え方
 業務アーキテクチャの最先端モデルである米国国防総省のBEA(Business Enterprise
Architecture)では、「End-to-End (E2E) Processes 」「Data Interoperability 」を重要視。
能力の
獲得
必要とされる
能力
BEAの
Phased approach
DoDAF2.0(国防総省全体の技術アーキテクチャ)
DoDAF2.0の
アーキテクチャに
基づくBEA
Capability viewpoint
Services viewpoint
Systems viewpoint
Project
viewpoint
Standards
viewpoint
All
viewpoint
OV-1 – High level graphical and textual description of operational concept
(ハイレベル業務概念記述)
OV-2 – Operational Resource Flow Description (運用リソース・フロー記述)
OV-3 – Operational Resource Flow Matrix (運用リソース・フロー・マトリックス)
OV-4 – Organizational Relationships Chart (組織関係チャート)
OV-5a – Operational Activity Decomposition Tree (運用活動分解ツリー)
OV-5b – Operational Activity Model (運用活動モデル)
OV-6a – Operational Rules Model (運用ルールモデル)
OV-6c – Event Trace Description (事象トレース記述)
OV-7 – Logical Data Model(論理データモデル)
システム設計
記述
BPR、
機能クエリ記述
業務ルール、
現状プロセス、
システム記述
機能要求と
目標プロセス
記述
現状ポートフォ
リオに対する能
力ギャップ分析
ポリシー
コンプライアンス
分析
能力/代替案
分析
相互運用性
分析
Data
and
Information
viewpoint
Operational viewpoint
プログラムを円滑に進める
組織全体の枠組みでの検討
79
GDC :
GOVERNMENT
DATA COLLEGE
DODAF, BEAで定義されたアーキテクチャ記法の関連性
LRP:Laws, Regulations
and Policies
IE:Information Exchange
BEA Architecture Product Guide(March 15, 2012)
法律、規制、政策
ルール
モデル
リソース・
フロー記述
リソース・フロー
マトリックス
活動分解ツリー
活動モデル
AV-2
統合辞書 80
GDC :
GOVERNMENT
DATA COLLEGE
データモデル
 クラス図(実態はER図)
 欧米では、これが理解でき
ないと話にならない
 少なくとも読めることは必要。
81
エンティティ、リレーション、キー、(カーディナリティ)
クラス、リレーション、キー
クラス、属性、メソッド
データタイプ
データ形式
データ制約
リスト型、範囲型、ルールベース型
GDC : GOVERNMENT DATA COLLEGE
ツールを使うのが常識
 データ設計の一貫性を保つため、データ設計にはツールを活用しなければな
らない。
 ワープロの時代に、手書きで勝負する人はいない 82
https://www.sparxsystems.jp/products/EA/ea.htm
見た目のモデル図を書いてくれるのではなく、
内部辞書を持ち、検証もしてくれるモデリング
ツールを使う。
GDC : GOVERNMENT DATA COLLEGE
ツールのメリット、デメリット
 メリット
- 生産性が上がる
- コミュニケーションが正確になる
- 生産物の品質が上がる
 デメリット
- 自由な記述が制約される
‣ 日本のソフトウェア業界は、このデメリットを重視してツールの導入をしないできた。すべてが裏目に出ている
 きめ細かい表現ができない→独自の記述をするので他者に伝えられない。エラーの原因になる。
 お客様にわかる形で説明する必要がある→発注者の成長機会がなくなった
- 性能が出ない
‣ 今や、CPUやインタフェースの高性能化が進み、モデリングによる冗長性などは問題にならない
83
GDC : GOVERNMENT DATA COLLEGE
具体的な開発方法例1
 政府が作った共通化対象のデータのテンプレー
トが用意されているので、そのテンプレートをベー
スにデータ構造を作れる。
 その結果、互換性の高いシステムを迅速に作る
ことができる
①作りたいデータの基本形を選択
②データ構造から、使うデータを選択するとと
もに、必要に応じて追加
③データベースや交換用データモデル、関連文書を自動生成
NIEM-UML
資料:
MagicDrow CAMEO NIEM
84
NIEM:米国政府のデータ標準
GDC : GOVERNMENT DATA COLLEGE
具体的な開発方法例2
 ツールからNIEMのデータセットを呼び出す
ことで、簡単にデータ設計ができる。
85
可視化された開発環境
テストも実施
簡単にアプリ開発
GDC : GOVERNMENT DATA COLLEGE
システムやサービス設計が抜本的に変わる
 独自設計をする手作りモデル(人月モデル)から、データ項目やモジュール選
択して組み合わせることで価値を生み出す組立モデルへ変化。
86
他省等
データ
項目
業務の
流れ
業務担当者が、
標準的なデータ項目を使って、
拡張性の優れた業務プロセスを、
迅速に構築し、広く展開可能
標準記法(BPMN)
事前に用意した
項目リストから選択
現場
システム
後援名義BPMN.igx
経済産業省
大臣官房
総務課
関係課室
担当課室
主催者等
相談を受ける
申請書類を作
成する
事前審査をする
申請資料を修
正、追加する
起案する 通知する
承認後の指導
及び監督をする
変更等に対す
る報告を行う
開催概要
収支予算
団体の概要
その他資料
開催期日の少
なくとも一ヶ
月前
大臣
賞か?
挨拶
文が
必要か
相談をする
合議を確認する
課室長が決裁
する
後援事業の準
備をする
終了の報告を
行う
事業報告書
収支報告者
最終確認を行う
No
Yes
No
Yes
事業の実施を
する
相談する
後援の条件が変更された時
別手続で実施
後援基準
世界最大の組織内ネットワーク[米陸軍知識ネット(AKO)]の事例
選択 グアムで作ったモデルが、登録し
た瞬間に全世界の業務になる
GDC : GOVERNMENT DATA
COLLEGE
海外業務パッケージでのモデリング
 海外の業務パッケージには、モデラ―が標準搭載されている場合が多い。そ
のため、海外業務パッケージを軸にシステム構築していた人は、モデリングは
わかっていることが多い。
- ただし、既存モデリングのモディファイが中心なので、ゼロベースで抽象化したデータ設計
ができるかは別問題である。
87
GDC : GOVERNMENT DATA COLLEGE
データ設計
ライフサイクルを考えた設計が必要
88
GDC : GOVERNMENT DATA COLLEGE
データ設計の手順
1. 概念設計
- 要件を明確にする
‣ 「○○記録システムを作りたい」のではなく、 「○○の記録を管理したい」ということを明確にする
‣ 過去の画面や帳票は重要な参考資料だが、要件ではない。制度があるならそちらを変える。
- エンティティを抽出する
‣ ステークフォルダやエンティティを洗い出す
- 概念データモデルを作成する
‣ エンティティとエンティティ間の関係をモデルとして記述する
2. 論理設計
- ER図(クラス図)を作成する
‣ データ項目を明確にしていく
‣ 正規化や抽象化を行う
 データの繰り返し項目を外部化する
 類似の項目は抽象化する
- 仕様として整理する
89
3. 物理設計
- データベースに実装する仕様を作成する
GDC : GOVERNMENT DATA COLLEGE
クラス図(実態はER図)
 エンティティと関係性でデー
タが示される。
90
エンティティ、リレーション、キー、(カーディナリティ)
クラス、リレーション、キー
クラス、属性、メソッド
データタイプ
データ形式
データ制約
リスト型、範囲型、ルールベース型
GDC : GOVERNMENT DATA COLLEGE
正規化を行う
 データを使いやすい形に整理する
91
法人番号 法人名 事業所番号 事業所名 住所 事業所番号 事業所名 住所 事業所番号 事業所名 住所
1234567890123 ○○商店 0001 本店 0002 ○○支店 0003 ○○工場
法人番号 法人名
1234567890123 ○○商店
法人番号 事業所番号 事業所名 住所
1234567890123 0001 本店
1234567890123 0002 ○○支店
1234567890123 0003 ○○工場
第1正規化
繰り返しをなくす
法人番号 法人名
1234567890123 ○○商店
法人番号 事業所番号
1234567890123 0001
1234567890123 0002
1234567890123 0003
事業所番号 事業所名 住所
0001 本店
0002 ○○支店
0003 ○○工場
第2正規化
最小構成のキーにする
GDC : GOVERNMENT DATA COLLEGE
抽象化することが重要
 似たようなものをまとめる
- 設計が効率的にできる
- 横ぐしでのデータ活用が容易になる
92
施設
学校 病院 ホテル
人
生徒 教師 保護者
GDC : GOVERNMENT DATA COLLEGE
サプライヤーズロジックからの脱却が重要
データを出してもらうた
めには、できるだけ
データ項目を少なくして
あげなければいけない
データを活用するには、で
きるだけ詳細なデータがほ
しい
GDC : GOVERNMENT DATA COLLEGE 93
データを使うのは一回であるが、使用するのは複数回であることが多い
Create once, Use many times
社会全体でのトータルコストを考える必要がある
欧州も「Self discription」といっている
今まではこちらが主流
→結局使われない
データを構造化しても現場の負荷は増えない
 「住所(建物名まで記述)」→「住所」「建物名」とデータを分割しても記入
者の負荷は変わらない。
 「内容」→「目的」「挑戦したこと」「成果」「今後」と分けると、むしろ記述しや
すくなる。
 負荷を減らしたくないのでデータ項目を分割しないというのは、ほとんどが担当
者の知識不足か、これまでの方法を変えたくない担当者の身勝手。
GDC : GOVERNMENT DATA COLLEGE 94
マスターデータ
 システムやサービスから繰り返し参照される基本データをマスターデータという。
 多くの処理から参照されることから、効率的で標準化されたデータであること
が望まれる。
 「マスターデータ等基本データ導入実践ガイドブック」を参照して設計する。
- https://cio.go.jp/guides
95
GDC : GOVERNMENT DATA COLLEGE
コード設計
 データを効率的に利用や管理をするためにはコードが重要になる。
- 重複の排除、再附番ルール、チェックディジットの仕様等をきちんと検討する必要がある。
- 既存コードを最大限活用する。
 コード(分類体系)導入実践ガイドブックを参照して設計する。
- https://cio.go.jp/guides
96
GDC : GOVERNMENT DATA COLLEGE
CRUDの活用
 データは、Create(生成)、Read(読み取り)、Update(更新)、Delete(削
除)の操作が行われる。これらの実装を整理する表としてCRUDが良く使われる。
97
組織マスタ 調達マスタ 予算マスタ
組織登録 C
組織検索 R
組織情報更新 RU
組織情報削除 R D
調達実績 R C U
GDC : GOVERNMENT DATA COLLEGE
データ作成
 データモデルを作り、実装していくうえで、以下の配慮も必要である
- できるだけ外から引用する
‣ データモデルは標準を使うなど外部との連携を考慮した設計にする
‣ また、標準を参照するだけでなく外部データの活用も考える
- フォーム入力でチェックする
‣ データの品質を確保するには、入力チェックが可能なフォーム入力を考える
- バリデーションツールの活用
‣ 外部データをファイルやAPI連携で導入するときには、システムに入れる前にデータをチェックするバリデータを
使用する
- データのライフサイクルで考える
‣ 入力時の負荷のみを考えるのではなく、データのライフサイクルを通じた最適化を図る。
 場合によっては代行入力やOCRを活用する
98
GDC : GOVERNMENT DATA COLLEGE
分散か集中かでデータ設計も変わってくる
 データベースを分散的に持ち統合的に運用するのか、集中的に持つのかで
データの安全性や利用の効率性が変わってくる。
 また、データを効率的に扱うために、データをキャッシュして持つ場合もある。
99
GDC : GOVERNMENT DATA COLLEGE
データ設計の最大の敵
 データ設計の基本を知らないバーバリアン
- 「このサービスは特別なんだよ」
- 「このやり方は気にくわない」
- 「今までのやり方変えたら大変だろ」
 特に、自称イケているという人に多い
- 利用者本位といいながら一面しか見えてない
GDC : GOVERNMENT DATA COLLEGE 100
ベース・レジストリ
ベース・レジストリ・ロードマップからその先に
101
GDC : GOVERNMENT DATA COLLEGE
公的機関等
ベース・レジストリとはなにか
 「ベース・レジストリとは、公的機関等で登録・公開され、様々な場面で参照
される、人、法人、土地、建物、資格等の社会の基本データ」であり、正確
性や最新性が確保された社会の基幹となるデータベース。日本では台帳等
が相当する場合が多い。(クローズデータとオープンデータがある)
- 全ての社会活動の土台であり、デジタル社会における必須の環境。
- ベース・レジストリの有無が、国の競争力を左右する。
102
土地
データ
建物
データ
インフラ
データ
法人
データ
ベース・レジストリ
人
データ
交通
データ
気象
データ
自然
データ
許認可
データ
資格
データ
活動しやすい社会
GDC :
GOVERNMENT
DATA COLLEGE
ベース・レジストリによる効果
 市民にとっての効果:行政機関とのスムースなインタラクションが可能になる
- 手続き処理を迅速にするとともにとエラーを減少し、行政サービスレベルを向上
- 行政機関へ報告する事案の減少(提出物へのエラー修正も減少)
- 最新状況にアップデートされたベース・レジストリデータを使った自動入力等、セルフサービスにおける情報再入力の防⽌
 企業にとっての効果:規制が減り、成長する機会が増える
- 規制の減少、報告や登録の減少
- デジタル化の加速、エラーの減少、効率的かつ効果的な手続き
- 公共データの入手費用の低下
- 既存データを使った行政機関との協調
- 新しいデータを使ったサービスの創出
 行政機関にとっての効果:もっと効率的で効果的な行政を提供できる
- データベースの冗長性がないためため、効率的で効果的なメンテナンスが可能
- ITシステムやデータアップデートに係る運用コストの削減
- ベース・レジストリによりデータが一元化され、ITシステム開発コストが低価格化
- マニュアルでのワークフローが殆どなくなり、エラーが減るとともに、手続き処理時間が短くなる
- データのコントロールができ、データを活用した詐欺などが防げる
103
GDC :
GOVERNMENT
DATA COLLEGE
ベース・レジストリへの意気込み
 現在の日本の社会システムは、登記や印鑑等、明治期の紙での管理を前提に作られたものを踏襲してい
ることが多い。要するに過去100年のデータやそれを使った業務をデジタルで見直すタイミングに来ている。
 また、システムは6-8年程度で更改されていくが、データは今後100年以上も維持管理されていくこと
を考える必要がある。
- 戸籍は除籍から150年保存なので、今生まれた人の情報は100歳まで生きたとして250年程度の維持管理が
必要になる。建物の寿命はもっと長いものもある。
 ベース・レジストリは、350年以上を考えた壮大な取り組みである。
 高速道路や鉄道等の交通網整備、工業団地・住宅整備等のインフラ整備があり、その活動しやすい環境
に企業や優秀な人材が集まり日本の高度成長を実現した。デジタル時代のインフラは、ネットワークであり、
企業や人が活動しやすいデータ環境である。このインフラが世界中から優秀な企業や人材を集め、豊かな
生活を作るとともに様々な産業を創出していく。
 高度成長期の全国総合開発計画のように、デジタル社会の起爆剤として考えていく必要があるのではない
か。 104
GDC : GOVERNMENT DATA COLLEGE
なぜそれほど重要なのか
 先進技術でで使われるデータが安価に安定的に供給される持続可能なエコシステムが重要。社会の基本データは、デ
ジタル時代のインフラであり、地力(ポテンシャル)である。
 デジタル先進国は、ワンスオンリーとスマートシティに欠かせないものとして、ベース・レジストリ(台帳類)を重視している。
 サービス等は外部のものを導入することができるが、各組織のデータは自力で整備するしかない。
- 50年後、100年後のデジタル社会を展望したデジタル社会の基盤として、エストニアは20年、デンマーク、オランダは10年以上かけて整備
している。
105
ベース・レジストリが整備済みの国・都市 ベース・レジストリの整備が遅れている国・都市
サービス、技術が経済のエコシステムを回すエンジンであり、データが燃料。ベース・レジストリはその中核。
土地
データ
インフラ
データ
交通
データ
土地
データ
インフラ
データ
交通
データ
すぐに新ビジネスを開始できる
暮らしやすい 新ビジネスのスタートアップコストが大きい
サービスレベルが向上しない
人や企業、投資は、
より魅力的な場所
へ移動
データが、低品質であったり、利用制限されている場合がある。
データ収集で
コストと時間を浪費
法人
データ
法人
データ
データは最新かつ正確で自由に使える。また、連携している。
実証できても
持続できない
オープン
データ
ベース・レジストリ
+民間データ
プラットフォーム
GDC :
GOVERNMENT
DATA COLLEGE
先進各国のベース・レジストリの対象
 個人、法人(事業場含む)、土地、不動産を、ベースレジストリにしている国が多い。
106
個
人
外
国
人
法
人
事
業
場
土
地
不
動
産
住
所
地
図
等
地
下
道
路
水
と
気
候
自
動
車
運
転
免
許
資
格
免
許
法
律
判
例
収
入
・
税
施
設
政
府
機
関
学
校
病
院
刑
務
所
学
生
労
働
者
公
文
書
年
金
犯
罪
歴
物
品
医
薬
品
有
害
危
険
物
営
業
許
可
EC ○ ○ ○
デンマーク ○ ○ ○ ○ ○ ○ ○ ○
オランダ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
チェコ ○ ○ ○ ○ ○ ○
スロバキア ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
エストニア ○ ○ ○ ○ ○
英国 ○ ○ ○ ○ ○ ○ ○ ○ ○
米国 ※ ○ ○ ※ ○ ○ ○ ○ ○ ○ ○
韓国 ○ ○ ○ ○ ○
中国 ○ ○ ○ ○ ○
シンガポール ○ ○ ○ ○ ○ ○ ○
インド ○ ○ ○ ○ ○ ○ ○ ○ ○
※:米国はSSN ※:米国はNAD
GDC :
GOVERNMENT
DATA COLLEGE
ベース・レジストリは連携させることが重要
 ベース・レジストリは単体でも効果はあるが、複数のベース・レジストリを相互参照すること
で、その効果を飛躍的に増大させることができる。
 そのため、政府横断で方針を決定し、その方針に従い、各データの担当府省が責任を持
ち推進する必要がある。
107
個人
不動産
住所、道路、
地区
地図、地理情
報
法人
保有する
雇用される
属する
生活する 活動する
場所を示す
保有する 保有する
氏名
性別
住所
所有不動産
所属組織
名称
法人種別
住所
所有不動産
社員名
市町村合併、法人代表者の
変更などがあると、全ベー
ス・レジストリの情報が連動
して更新される必要がある
相互にエラーレポートを報
告することも重要。
GDC : GOVERNMENT DATA COLLEGE
ワンスオンリー等の手続きの基盤としても重要
 行政手続きワンスオンリー、ベース・レジストリ、オープンデータを一連の流れの中核。
- 現場に負担をかけないということが重要。
 ベースレジストリがあれば、新型コロナ感染症対策の給付金等の支援策の執行が
早くできたのではないか。
- AIによる自動審査も可能になる
108
申請
(ワンスオンリー等)
ベース・レジストリ
活用
(オープンデータ)
データ再利用 登録
・変更
データ活用
社会活動
データ
標準
アクセス・コントロール
GDC :
GOVERNMENT
DATA COLLEGE
ベース・レジストリの経済効果
 直接的な業務効率化などの効果があるのはもちろんのこと、他部門に与える間接効果や経済インパクトが
大きい。
- デンマークの事例
- 改革しないと業務実施に10,236milDKK(1,664億円)かかる (シナリオ0)
- 605.6milDKK(98億円)の投資で、業務実施が2,740.6milDKK(445億円)になる(シナリオ1)
- 結果として、15年間で7,522.4milDKK(1,223億円)の効果が得られる見込み(1DKK=16.26円)
- 投資は、1年強で回収し、15年間で12.5倍の投資対効果(行政コスト)
109
データ管理コスト、修正コストなどで内部削減を計
算。
住所データベースでは、2003年から2010年までの
初期投資に€2.8m、経済効果€77mであり、民間も
含め27.5倍の投資対効果(利用の70%が民間)
GDC : GOVERNMENT DATA
COLLEGE
経済効果分析投資(ベースレジストリ(住所データ)による効果例(デンマーク))
 1つのデータベースの整備により、1000のアプリケーションが開発され、5百万人のユーザが利用している。
- 利用は、自治体が30%、民間が70%
- APIで活用が可能
110
初期投資
システム投資 €5mil
データクレンジング 85人分の仕事
運用コスト
システム投資 €1mil
アドレスの確認登録 40人分の仕事
 初期開発フェーズ (2003-2010)の投資対効果は、整備運用費3.5億円(€2.8m)に対して、経済効果が96
億円(€77m)と試算されている。2015年以降の経済効果は、初期投資15億円、運用投資5億円に対し、
年間40億円の経済効果と試算されている。(€1=125、常勤職員1名のコストを1000万円で計算)
住所確認・修正コストの削減
住所間違いによる再配送コストの削減
各種サービスへの基本情報の提供
GDC :
GOVERNMENT
DATA COLLEGE
そもそも大きな重複投資をなくすべき
 目的によってデータの違いはあるものの共通化できるようにすれば、更新も楽
になるし、常に最新の情報が使えるようになる。
 その上、投資を減らすことができる
- 法人データ、事業所データ、住所データ
‣ 各組織でデータベースを作っている
111
GDC : GOVERNMENT DATA COLLEGE
範囲と詳細度
 既存データの整備状況等により、先進各国でもベースレジストリの対象範囲や詳細度が異なる。
- 対象
‣ 「ワンスオンリーデータ」「スマートシティ」関連データ、経済的インパクトの大きいデータである「住所」「法人」を重点としている国が
多い。
- 情報の連携範囲
‣ オープンデータ、行政機関の連携、データ保有者による再利用等、データ再利用や連携する範囲をデータ毎に定義している。
- 項目の詳細度
‣ 法人名、住所のような基本項目、役員情報等、項目毎に連携範囲を決める必要がある。
112
ベースレジストリ(コア)
氏名、住所、生年月日、性別等
ベースレジストリ(拡張)
収入情報等
ベースレジストリ(拡張)
世帯情報等
業務独自データ
損害額、給付額(担当府省)等
1階
2階
3階
過去に登録した情報を再利用
するための情報(ワンスオンリー)
自動審査を可能にする情報
個別の業務で管理される情報
(ベースレジストリではない)
府省 自治体
国
各種の行政手続きに必須となる主要なデータ
をコアと連携し整備
GDC :
GOVERNMENT
DATA COLLEGE
113
ベースレジストリの実現ポイント
データ標準
ルール
品質 評価イメージ
• データ本体の評価(ISO25012)
〇〇データ:最新性■ 正確性■ 網羅性■
• データの流れの評価(ISO25024)
☆☆データ:入力■ 蓄積■ 出力■
• データがバネンスの評価(ISO8000)
△△データ:計画■ 体制■
先進各国の主な重要ルール
• ベースレジストリのデータが紙と同等と定義
• 部門横断でのデータ共有原則を正式に定義
• ベースレジストリの有無を法律策定時に確認
• 相互連携の共通インフラでベースレジストリのデータ
を使うと定義
主なデータ標準
• 様式等のテンプレートレベルの標準(申請書等)
• 様式内のデータ項目レベルの標準(日付等)
• 項目レベルの表記(2020-10-23等)
• ヨミガナ、ローマ字を含む文字の扱い
• センサーデータ等の数値データの扱い
データ収集から蓄積データの内部活
用、データ連携、オープンデータまで、
一貫した標準を使うことで、現場の負
荷、コストを下げ、品質を向上させる。
データ管理に関する理念を法律等で
明確化し、個別制度との調整コストを
なくすとともに、迅速に社会へ定着さ
せる。
可視化する等、データの正確性や最
新性の確保することで、社会活動を支
え、データ活用場面でのエラーや事故
を防ぐ。
GDC :
GOVERNMENT
DATA COLLEGE
推進方法
 範囲と詳細度
- 既存データの整備状況等により、先進各国でもベースレジストリの対象範囲や詳細度が異なる。
‣ 対象
 「ワンスオンリーデータ」「スマートシティ」関連データ、経済的インパクトの大きいデータである「住所」「法人」を重点としている国が多
い。
‣ 情報の連携範囲
 オープンデータ、行政機関の連携、データ保有者による再利用等、データ再利用や連携する範囲をデータ毎に定義している。
‣ 項目の詳細度
 法人名、住所のような基本項目、役員情報等、情報項目毎に情報の連携範囲を決める場合もある。
 体制
- 先進各国では、分野横断かつ国の基本データを見直すためリーダーシップを重視してプロジェクトを推進
している。
‣ 強力な実力とリーダーシップを持つCDO(Chief Data Officer)を設置しはじめている。
‣ CDOを支えるため諮問委員会等を設置し、取組状況の管理や推進のための府省間の調整を行っている。
‣ アーキテクト、エンジニア、サイエンティスト等、体系に人材を揃えている。
114
GDC : GOVERNMENT DATA COLLEGE
ベース・レジストリは品質が高くなければならない
 日本の高度成長を支えたのは製品の品質。「Japan Quality」として世界から尊
敬されてきた。しかし、・・・。
 デジタル社会の成長を支えるのはデータの品質。
- 最新で正確で抜け漏れのないデータを作ることが重要
- 欧米では、ISO8000等、入力からデータ蓄積・更改まで一貫した品質モデルを推進
- 品質の高いデータがあるから正確で迅速な意思決定、機器の動作ができる。
115
高品質な
データ
処理
的確なサービ
ス
低品質な
データ
処理
質の悪いサー
ビス
エラー サービス不可
GDC : GOVERNMENT DATA COLLEGE
やらないと世界に取り残される
 よくあるコメント
116
今までも問題なかったし、これからも大丈夫
難しいからできない
素人に何がわかるのか
複雑な経緯がある
法的根拠がないからできない
他の組織の役に立つことをやる根拠がない
APIで提供するのは、当方の業務には不要の機能
目的外利用である
既存法令との整理が必要
お金がない
うちのデータは全体の一部であり、これだけではできない
なんでうちのデータなんだ
あいつのデータを使えば良い
データの品質が低いと言われるのは看過できない
重要性は解ったが、そんな大きなことを言われても困る
データ利活用で事故が起こったら誰が責任取るのか
できない理由を考えるのではなく、どうしたら
解決するかを考えることが重要
GDC : GOVERNMENT DATA COLLEGE
参考:
ベース・レジストリのある世界とない世界
117
GDC : GOVERNMENT DATA COLLEGE
行政手続き
 ベース・レジストリがあるから、申請におけるワンスオンリーや自動審査が実現
できる。
118
何回も同じことを書かせる
条件が合えば自動で申請・審査される
前回の申請内容が自動入力される
ベース・レジストリが整備済みの国・都市 ベース・レジストリの整備が遅れている国・都市
住民票
確定申告
建築確認
地図
住所
氏名
電話番号
・・・
“あなたは補助金対象です。振り込みが
行われましたので口座を確認ください”
“修正がある場合には修正してください。
問題がなければ情報を追記してください”
データの変更は全体が連動して変更される
“住所の変更内容は全てのデータにされます
がよろしいですか。よろしければ住所変更の
手続きにお進みください”
変更は個別に行う必要がある
“この前の手続きで変更したのに、
こっちもか”
住民票
確定申告
建築確認
地図
GDC : GOVERNMENT DATA COLLEGE
事業計画
 ベース・レジストリがあるから、事業環境の分析が容易で、意思決定が素早く
正確にできる。
119
いろいろな情報が簡単に手に入るので、事業計
画が精度よく、しかもすぐに作れる。
情報がどこにあるかわからない。
ルールが厳しくて使えない。
信頼できる取引先を探せる。
ベース・レジストリが整備済みの国・都市 ベース・レジストリの整備が遅れている国・都市
時間をかけて見つけても、情報が古かっ
たりして使えない。
“データベースが見つからない”
“紙のスキャンだ”し、再利用禁止と
書いてある“
“東京府東京市麹町区ってどこ”
“この情報抜け漏れがないか”
法人登記
税申告
地図
法人活動
民間デー
タ
統計
法人登記
税申告
地図
法人活動
民間デー
タ
統計
“現在の市内の店舗情報と昼間人口
が地図上で見られるのは便利だね”
“地域の景況が厳しい。行政機関と
の取引実績が沢山あるこの企業と
組んでみたいな。
GDC : GOVERNMENT DATA COLLEGE
都市計画
 ベース・レジストリがあるから、計画策定が高度になるし、仮説検証ができる。
120
ベース・レジストリが整備済みの国・都市 ベース・レジストリの整備が遅れている国・都市
地図
橋梁台帳
道路台帳
建築物
民間デー
タ
統計
様々なシミュレーションを臨機応変に実施できる
“地図と道路台帳のデータに人の流
れを重ねてみられない”
所有者不明土地や空き家対策が効率的に
できる。
新しい都市計画による影響がわからない
メンテナンスのタイミングや対象の詳細情
報がわからない
地図
橋梁台帳
道路台帳
建築物
民間デー
タ
統計
“橋のそばの地盤の歪データと橋の
データを重ねると何か見えるかな”
“市外居住者が管理する空き家は
どのくらいあるのだろう”
“地下埋設物の台帳は紙だし、掘っ
てみると違うこと多いんだよな”
“次の角に車を止めて、シェアバイ
クで行こう”
固定資産 固定資産
分野横断のサービスが作れる。
GDC : GOVERNMENT DATA COLLEGE
災害対策
 ベース・レジストリがあるから、分野横断で必要な情報を迅速に集めることが
できる。
121
ベース・レジストリが整備済みの国・都市 ベース・レジストリの整備が遅れている国・都市
被災地の状況がわからない
“国、県、市のデータがバラバラで、
全ての状況が把握できない。”
地図
避難所
道路台帳
病院
民間デー
タ
統計
固定資産
地図
避難所
道路台帳
病院
民間デー
タ
統計
固定資産
復興させたいが、土地情報が複雑すぎる。
総合的な緊急対策ができる。
迅速な復旧・復興ができる。
“原本情報が古すぎて、どこから手
を付けてよいかわからない。”
“各地の被災状況がわかったから、
重点地域を中心に配置をしよう。”
“3Dモデルで将来像を住民に示して
合意を図ろう。”
GDC : GOVERNMENT DATA COLLEGE
データマネジメント
持続可能なエコシステムを作る
122
GDC : GOVERNMENT DATA COLLEGE
データを持続的に管理するにはデータマネジメントが重要
 DAMAデータマネジメント・フレームワーク
- DAMAがDMBOK(Data Management Body
of Knowledge)としてデータマネジメントを体系
的に整備している。
123
GDC : GOVERNMENT DATA COLLEGE
目指すべきデータ・エコシステム
 業務の流れの中で、安価に安定的に収集・活用できる仕組みが必要となる。
 データ生成から活用まで、関係者の負担を増やさず持続できるエコシステムが必要。
活用
収集
蓄積
公開
申請
センサーデータ収集
ベースレジストリ
オープンデータ
Webサイト
データカタログ
APIカタログ
データ標準
・推奨データセット
・共通語彙基盤
・行政データ連携標準
データ品質
ルール
EBPM
設計
品質管理
API連携
プラットフォーム
(AI)
(BC)
行政
外部
GDC : GOVERNMENT DATA COLLEGE 124
GDC : GOVERNMENT
DATA COLLEGE
125
ライフサイクルで考える
作成・収集 入力 蓄積 活用 提供 廃棄
オープンデータを推進す
るがクレンジングが必要
データサイエンティスト
やAIに注目
手書き、FAX等が
使われる
再入力、多重入力
が行われる
サービス毎に独自形式
で蓄積
サービス提供者の
都合で破棄される
入力フォームによる補助
ベース・レジストリからか登録情報の読込
センサーデータの自動収集
作成・収集 入力 蓄積 活用 提供 廃棄
作成・収集・入力
構造化したデータ
として蓄積
設計
設計
構造化したデータ
を活用
APIで連携
オープンデータ化
体系的に管理
マスターデータ(組織内で参照)
マスターデータ(組織内で参照)
ベース・レジストリ(社会全体で参照)
従来はシステム毎にデータが断絶していた。
あらゆる活動でコストや時間がかかる。
ムリ、ムダの無いデータの流れを実現
元から改善しないと不効率
デジタル手続法が具体的な第一歩
 ワンスオンリー、ベース・レジストリ、オープンデータを一連の流れで捉え、データ
標準を軸につないでいく。
ワンスオンリーで呼び出すデータはベースレジストリから供給される。
ワンストップ及びワンスオンリーで使われるデータはデータ標準を使う。
税金で収集されたデータは基本的にオー
プンデータをとする
目的外利用の禁止やオープンデータにし
ないデータは、個人や事業者の不利益に
なる情報に限定し、公益性を優先する。
(世界のイノベーションはデータの目的外
利用により潜在価値を引き起こすことで発
生している)
GDC : GOVERNMENT DATA COLLEGE
申請
(ワンスオンリー等)
ベース・レジストリ
活用
(オープンデータ)
再利用 登録
・変更
データ活用
社会活動
(様々な分野)
データ標準
センシング
プラットフォーム(各種ツール)
ルール
126
参考:ワンスオンリーとは
 利用者が、一度、行政機関に申請した情報を、行政機関は利用者に要求してはいけない。
- ネットショップでログインすると、配送先や支払い情報を提示してくれるのと同じ。
127
〇〇申請書 0000年00月00日
法人番号 1231234567890
法人名 椀子株式会社
代表者役職 代表取締役
代表者名 田中一郎
本社住所 東京都・・・
法人番号 1231234567890
法人名 椀子株式会社
代表者役職 代表取締役
代表者名 田中一郎
本社住所 東京都・・・
〇〇申請書 0000年00月00日
法人番号 1231234567890
法人名
代表者役職
代表者名
本社住所
資格証明名 グリーン認定
証明番号 0987654321
一回目の申請 二回目以降の申請
椀子株式会社
代表取締役
田中一郎
東京都・・・
〇〇申請システムまたはベースレジストリ等
データ標準
※データが古いときには、
元データを修正する必要がある
→申請画面で修正し元データに反映
→元データを修正してから2回めの申請を行う
グリーン認定システム
またはベースレジストリ等
椀子株式会社
代表取締役
田中一郎
0987654321・
自動照合
GDC :
GOVERNMENT
DATA COLLEGE
データや情報管理に使われる様々な仕組み
 Record Management
- ファイル・システム、コンテンツ管理システム、Eメール・アーカイブなど、情報記録の
管理
 Information Management
- メール、関連書類、経緯などを一元的に管理
 Contents Management
- Webのコンテンツ管理によく使われる。
 Document Management
- 組織内のデジタルおよび紙ベースの文書やレポートの管理
 Knowledge Management
- 知識レベルの情報を管理
 Configuration management
- ドキュメントやソフトウェアの構成やバージョンを管理
128
GDC : GOVERNMENT DATA COLLEGE
THE SEDONA GUIDELINES(データ管理の基本理念)
 Best Practice Guidelines & Commentary for Managing
Information & Records in the Electronic Age 2007
1. An organization should have reasonable policies and procedures for managing its
information and records.
2. An organization’s information and records management policies and procedures
should be realistic, practical and tailored to the circumstances of the organization.
3. An organization need not retain all electronic information ever generated or received.
4. An organization adopting an information and records management policy should also
develop procedures that address the creation, identification, retention, retrieval and
ultimate disposition or destruction of information and records.
5. An organization’s policies and procedures must mandate the suspension of ordinary
destruction practices and procedures as necessary to comply with preservation
obligations related to actual or reasonably anticipated litigation, government
investigation or audit.
129
GDC : GOVERNMENT DATA COLLEGE
データ品質
品質が悪ければ、ただのゴミである
130
GDC : GOVERNMENT DATA COLLEGE
部門をまたぐと意外に情報は揃っていない
 データ項目の有無、定義、名称等を揃えていく必要がある
131
申請A 申請B 申請C 申請D 申請E 申請F 申請G 申請H 申請I
商号又は名称 商号又は名称 名称 名称 名称 名称 申請者(法人)名 所属研究機関 研究者所属機関 提案者名
法人番号 法人番号 法人番号 法人番号 法人番号 法人番号
法人代表者役職 役職名 役職 役職 役職名 役職名
法人代表者名 代表者 氏名 代表者氏名 代表者名 代表者名 代表者氏名
郵便番号 郵便番号 郵便番号 〒 〒 〒 〒 〒 郵便番号
本社所在地 本社所在地他 本社住所 住所 住所 住所 住所
事務所所在地 事務所所在地 所在地
本補助事業の主な実
施場所 住所
住所
事業所名 事業所名
電話番号 電話番号 電話番号
電話番号(代表電話も
しくは連絡先)
TEL
FAX番号 FAX番号 FAX
メールアドレス E-mail
webページ ホームページ
担当者部署 部署 部署
担当者役職 職名 職名
担当者名 研究代表者氏名 研究者氏名
フリガナ フリガナ フリガナ
連絡担当者部署 部署
連絡担当者役職 役職名 役職 役職名 役職名 担当者役職 役職 連絡先担当者役職
連絡担当者名 連絡者名 担当者名 氏名 担当者名 担当者名 担当者氏名 氏名 連絡先担当者氏名
フリガナ
電話番号 電話番号 電話 電話番号 電話番号 電話番号 TEL 連絡先電話番号
FAX番号 FAX番号 FAX FAX番号 FAX番号 FAX 連絡先FAX番号
メールアドレス メールアドレス e-mail E-mail メールアドレスURL メールアドレス メールアドレス E-mail 連絡先Eメールアドレス
資本金・出資金 資本金・出資金:千円 資本金(出資金):千円
資本の額又は出資の
総額
資本金(出資金):万円 資本金(出資金):万円 資本金:千円 資本金
従業員数 従業員 職員数 組合員数 従業員 従業員数 従業員数(含経営者)
主たる業種 主たる業種 業種 主たる業種
主たる業種(日本標準
産業分類、中分類)
主たる業種(日本標準
産業分類、中分類)
主たる業種
設立年月日 設立年月日 設立年月日 設立年(西暦) 設立日
従業員の定義は、
含む範囲は同じか?
基準日は一緒か?
GDC : GOVERNMENT DATA COLLEGE
分類項目も違っている
 目的により区分を変える場合もあるが、検討不足の可能性もある。
132
 就業者  有業者  就業者  就業者  有業者  有業者  有職  仕事あり(の者)
 雇用者  雇用者  雇用者
 勤め(常勤)、
 勤め(パート・
 アルバイト)
 雇用者
 (役員を除く)
 雇用者
 (役員を除く)
 雇用者
 雇用されて
 いる人
 雇用されて
 いる人
 雇用されて
 いる人
 役員以外の
 雇用者
 正規の職員・
 従業員、
 パート・
 アルバイト、
 労働者派遣
 事業所の
 派遣社員、
 契約社員・
 嘱託
 正規の職員・
 従業員
 (正規)、
 非正規
 正規職員
 パート・
 アルバイト、
 派遣・嘱託・
 契約社員
 自営業等
 役員
 会社などの
 役員
 役員  会社などの役員  会社などの役員  会社などの役員
 会社・団体等の
 役員
 会社などの役
 員・自営業主
 会社などの役員
 自営業主  自営業主  自営業主  自営業主
 自営業主・
 その他
 自営業主  自営業主  自営業主  自営業主  自営業・家業
 家庭内職者  内職
 家庭内の
 賃仕事(内職)
 内職  内職
 自宅での
 賃仕事(内職)
 家族従業者  家族従業者  家族従業者  家族従業者  家族従業者  家族従業者  家族従業者  自営業・家業
 自家営業の
 手伝い
全国消費
実態調査
労働力調査
就業構造
基本調査
国勢調査
住宅・土地
統計調査
家計消費
状況調査
社会生活
基本調査
国民生活
基礎調査
中高年者
縦断調査
21世紀出生児
縦断調査
21世紀成年者
縦断調査
 仕事をしている
 (者)
 会社・団体等の
 役員
 自営・家族
 従業者・内職
 家庭での
 内職など
人口移動調査
GDC : GOVERNMENT DATA COLLEGE
データ取引を考えるとデータ品質は必須の要件
 データの品質がデータの価値を左右する。品質指標が求められている。
 データの品質はわかりにくい
133
鮮度が悪く
種類が少ない
鮮度が良く
種類が多い
GDC : GOVERNMENT DATA COLLEGE
JAPAN QUALITYという幻想
 日本は製造業が強かっただけはなく、「品質が強い」と言われてきた。
 データの世紀に入って日本は品質後進国になっていることを自覚していない。
- もちろん、交通、気象、地図、衛星など世界最先端の品質を持つデータもたくさんある
基盤データの欠落
• 氏名フリガナ
• 住所一覧
• 事業所一覧
品質に課題のある
基盤データ
• 登記データに東
京市がある
• カニトロム-のよ
うな漢字類似カナ
文字の混在
データ品質課題へ
の気づき
• 氏名に、戸籍氏
名と代替文字氏
名があることに気
が付いていない
データマネジメント
の不在
• 住所、所在、所在
地などの同意語
が多数
• 性別コードが山
のようにある
人材の不足
• データ品質に関し
て体系的に考え
られる人がいな
い
GDC : GOVERNMENT DATA COLLEGE 134
135
企業におけるデータ活用の今後の課題
 データに関連したの取り組みに向けては、「データの質」に関する課題がどの
業界においても最も関心がもたれている。
総務省「デジタルデータの経済的価値の計測と 活用の現状に関する調査研究 報告書」
https://www.soumu.go.jp/johotsusintokei/linkdata/r02_05_houkoku.pdf
GDC : GOVERNMENT DATA COLLEGE
データ自身やサービスの品質を考える
 AI、スマートシティやデータ取引市場ではデータ品質が重要となる。効果的に必要なデー
タ品質を実現するための体系を実現。
正確性
完全性
一貫性
信憑性
最新性
標準適合性
アクセシビリティ
機密性
効率性
精度
追跡可能性
理解性
可用性
移植性
回復性
以下を参照し作成
ISO/IEC 25024:2015 Systems and software engineering -- SQuaRE
-- Measurement of data quality
ISO/IEC 25012:2008 Software engineering -- SQuaRE
-- Data quality model
低品質なデータを手作業で収集し、クレンジングしているのは、
中世の作業場と基本構造は同じ
データ設計 データ収集
データ統合
外部データ
連携
データ
処理
Webサイト
API
データ蓄積
廃棄
法人番号公
表サイト
統一資格情
報
EDINET
商業登記
各府省
調達物品
コード
法人インフォメーション
クレンジング
クレンジング
136
GDC :
GOVERNMENT
DATA COLLEGE
データ品質を確保するためのガバナンス
 データドリブンな社会には、高い品質のデータを安定的に供給する仕組みが必要となる。
137
データ関連サポート
リソース規定
導入
データ品質計画
要求管理
品質戦略の管理
品質ポリシー/標準/調達管理
品質導入プラン
データ品質改善
本質課題の分析と
ソリューション開発
データクレンジング
データのルール非準拠を防止
するためのプロセス改善
データ品質管理
データ仕様や作業の規定
データ処理
品質のモニタリング
とコントロール
データ品質保証
データ品質のレビュー
測定規定
データ品質と
プロセスパフォーマンスの測定
測定結果の評価
データアーキテクチャ管理
データ転送管理
データ運用管理
データセキュリティ管理
データ品質管理組織の管理
人材管理
Detailed structure of data
quality management
(ISO8000-61)
GDC : GOVERNMENT DATA COLLEGE
データのPROVENANCE
 データがどこから取得され、現状になるまでにどのような処理をされてきたかの情報が
求められている。
- 途中過程で、どのようなクレンジングが行われて
いるのかなど。
- PROV-DM: The PROV Data Model
‣ W3C Recommendation 30 April 2013
‣ https://www.w3.org/TR/prov-dm/
- PROV-O: The PROV Ontology
‣ W3C Recommendation 30 April 2013
‣ https://www.w3.org/TR/prov-o/
138
Simplified diagram of provenance
modelled in W3C PROV-O
GDC : GOVERNMENT DATA COLLEGE
データセキュリティ
データは価値があるから狙われる
139
GDC : GOVERNMENT DATA COLLEGE
リスク
 セキュリティーを考えるうえで、まず考えるべきはリスクである 。
- 軽減
‣ 発生可能性があるリスクを事前に評価して対策することで発生確率を下げる
 リスクが顕在化しても局所化する等の対策をとる(ファイル分割など)
- 回避
‣ リスク発生を避けたり、リスクの発生原因を除去する
 リスクがあるデータは扱わない
- 転嫁
‣ リスクを他人に転嫁する
 保険等でカバーする
- 受容
‣ リスクの存在は認識するが、リスクが発生した段階で対策を考える
 リスクが発生しても致命的にならない場合に検討する
 セキュリティだけ考えると、何もできなくなる。
140
GDC : GOVERNMENT DATA COLLEGE
データに対する脅威と対策
 漏洩
- データが外部に流出する
 改ざん
- データの内容が書き換えられる
 破壊
- データが破壊される
 ランサムウェア
- データがロックされ身代金を要求される
141
 最新アップデートの適用
- 最新アップデートをし邸内で事故を起こすケースが多い
 バックアップ
- 事故があっても復旧可能にする
 教育
- セキュリティは関係者の教育が一番重要
 アクセス制御
- システムの境界ではなくアクセスの挙動や記録を重視
 暗号化
- 必要なデータは暗号化する
 ウイルスなどの対策
- ウイルスを入らせないためには教育が重要
 ゼロトラスト
- 「信頼しないことを前提とし、全てのトラフィックを検査、ロ
グ取得を行う」という性悪説のアプローチ
GDC : GOVERNMENT DATA COLLEGE
情報を扱う上で重要な格付け
 セキュリティの要素
- 機密性
‣ 情報が漏れないこと
- 完全性
‣ 情報が正しいこと
- 可用性
‣ いつでも使えること
 バックアップ
- 上記区分とコストとのバランスを勘案して
決定
格付けの区分 分類の基準
機密性3情報 行政事務で取り扱う情報のうち、秘密文書に相当する機密性を要す
る情報
機密性2情報 行政事務で取り扱う情報のうち、秘密文書に相当する機密性は要し
ないが、漏えいにより、国民の権利が侵害され又は行政事務の遂行
に支障を及ぼすおそれがある情報
機密性1情報 機密性2情報又は機密性3情報以外の情報
格付けの区分 分類の基準
完全性2情報 行政事務で取り扱う情報(書面を除く。)のうち、改ざん、誤
びゅう又は破損により、国民の権利が侵害され又は行政事務の
適確な遂行に支障(軽微なものを除く。)を及ぼすおそれがあ
る情報
完全性1情報 完全性2情報以外の情報(書面を除く。)
格付けの区分 分類の基準
可用性2情報 行政事務で取り扱う情報(書面を除く。)のうち、その滅失、
紛失又は当該情報が利用不可能であることにより、国民の権利
が侵害され又は行政事務の安定的な遂行に支障(軽微なものを
除く。)を及ぼすおそれがある情報をいう。
可用性1情報 可用性2情報以外の情報(書面を除く。)
政府機関の情報セキュリティ対策のための統一基準(第4版)
GDC : GOVERNMENT DATA COLLEGE 142
効果とリスクのバランスが重要
 「セキュリティ原理主義」、「やらないリスクへの無関心(先送り)」「既得権
益への配慮」が日本の3大ブレーキ。
 ミクロのセキュリティの世界で戦っているが、マクロのリスクの世界での戦いが求
められている。
143
セキュリティ
利便性
GDC : GOVERNMENT DATA COLLEGE
認証と証明
 データのセキュリティは、境界型セキュリティから、認証によるアクセス管理や挙
動によるセキュリティが重視されてきている。
 電子証明付きのデータを送らなくても、APIで確認することで情報の確認がで
きるようになってきている。
 多くのデータがあるデジタル社会においては、アクセス権の管理や本人確認が
重要になる。
 印章による確認は、コピーが容易なデジタル時代には意味をなさない 144
GDC : GOVERNMENT DATA COLLEGE
ブロックチェーン
 ブロックチェーンは分散型台帳と言われ、ネットワーク内で発生した全ての情
報を記録する。
 ネットワークに参加している全てのユーザーが同一の「台帳」を共有することで、
情報の信ぴょう性を確保している。
145
×
×
前のブロックの
ハッシュ
情報 情報 情報 ・・・
Nonce
前のブロックの
ハッシュ
情報 情報 情報 ・・・
Nonce
拡大
※Nonceはハッシュ計算で求められるパラメータ
ハッシュと記録が異なる
GDC : GOVERNMENT DATA COLLEGE
GDC :
GOVERNMENT
DATA COLLEGE
データ整備、データ移行
146
GDC : GOVERNMENT DATA COLLEGE
多様な入力手段
 タッチパネル、音声入力や手書き入力
- UI技術が進歩しており、キーボードで入力する必要はなくなってきている。
- チャットボットと組み合わせることで、高齢者でも容易に入力できるようになってきている。
 フォーム入力
- 利用者が入力しやすい
- 登録内容の一覧表が作れる
- エラー処理ができる
- ウイルスなどのリスクを減らせる
 ワンスオンリーの活用
- 参照できる過去登録データを活用する(最初はオプトインでスタート) 147
GDC : GOVERNMENT DATA COLLEGE
既存の紙資料
 AI-OCRを使えば負荷が軽減できる。
- 複数種類のOCRを使い認識差異の分析をすれば確認も自動化できる。
‣ アポロの制御コンピュータのように検証を行う
 画像や図面などは、索引情報であるメタデータをつけるだけでも管理が容易
になる。
 PDFデータも、コピー不可などでテキスト抽出できない時にはスキャンで処理
する。
148
GDC : GOVERNMENT DATA COLLEGE
スキャンによりバリューチェーンを構築した米国政府の事例
 米国では電子政府の基盤として1990年代に盛んに実施され、現在の電子政府の基盤
を作り上げている
 米国連邦政府では、情報の入り口をスタートラインに徐々にバリューチェーンを構築して
いった。
旧来の紙情報を電子的
に扱えるように電子化
新規の情報は電子
データで受け取り
大量の電子データを
リフレッシュ管理
※注意:コストがかかる
データマイニング等、
行政内で情報を利活
用
検索しやすくxmlで情報を公開
1990 2000 2005
1995
紙情報の電子化 データ交換 アーカイブ管理 利活用 サーチ
日本の電子政府が現
在注力しているオンラ
イン申請部分
米国政府の資料電子化の取組の流れ
米国連邦政府では、情報の入り口をスタートラインに徐々にバリューチェーンを構築していった。
GDC : GOVERNMENT DATA COLLEGE 149
 全体を見た提案ができていない。行政も知識がないので導入してしまう。
- 日本のベンダーの提案(技術を使うことに注力)
- 世界の行政機関や民間での手続きの流れ(利便性向上に注力)
専門家の提案が最適とは限らない
GDC : GOVERNMENT DATA COLLEGE
申請書を
PCで作成
プリント
アウト
郵送or提出 スキャンしてOCR
or 手入力
RPAで
他システム連携
フォームでワンスオンリーで申請 APIで連携
150
スクレイピング
 Web上のデータをテキストデータとして取り込む。
151
GDC : GOVERNMENT DATA COLLEGE
UNDERSTANDABILITYを考える
 データの中身の日本語が分からなければ、データの価値を毀損する。
- データタイトルはわかりやすく書く
- 平易でシンプルな日本語にする(翻訳がかけられることを意識する)
- 文書は短くする。
‣ 英国の政府統一サイトは25単語以内が推奨されている。
- 生命保険協会の以下の文書はわかりやすい
- 「見やすく・読みやすく・わかりやすい募集文書作成のためのメルクマール【報告書】」
‣ https://www.seiho.or.jp/activity/guideline/pdf/merkmal.pdf?fbclid=IwAR3YWlcrewe
DumdiVTZgVp_pgHJf5PWTAZ9Z6HZWYXk38rGgs4EuIDAbkcA
152
GDC : GOVERNMENT DATA COLLEGE
データクレンジング
データを加工しやすいように整形、変換する
153
GDC : GOVERNMENT DATA COLLEGE
データクレンジングから脱却することが重要
 データ・サイエンティストが不足と言われるが、データがきれいでないために、その貴重な人材
を活用できていない。
- データクレンジングで、データサイエンティストや関連スタッフの作業時間の8割程度を使うと言われている。(データ検索にも多くの時間を費やす)
 元の汚いデータの発生源を改善を図ることが重要。
154
各分野の独自デー
タ
データ連携を意識し
て作られたデータ
データクレンジング 分析・活用
分析・活用
データクレンジングが不要な組織や国や
企業は圧倒的に早い
• 分析・活用に注力するので、成果が出やすい
• 分析時には既に疲弊しており、分析・活用に十分な時間が取れない
• 結果として成果が出にくい
• カスタマイズ文化が続いたため、日本はデータを扱う技術者がもともと少ない
現状
目指す姿
標準を使わない
データ
GDC : GOVERNMENT DATA COLLEGE
名前の揺らぎを修正
 大量データの中から類似している名前を一括してデータの揺らぎを処理。
- データクレンジングツールOpenRefine
155
いくつかの項目をまとめ
て「大学キャンパス」等
に変換することが可能
途中にスペース区切りがある
「早稲田大学 文学部」
も一括して処理可能
データ項目が定義
されているから処理
が可能 http://openrefine.org/
GDC :
GOVERNMENT
DATA COLLEGE
センサデータのマッシュアップ
 様々なセンサーデータの集計を自動で実行。
156
2.31
3.22
3.09
2.98
3.10
・・・
13:01 3.44
13:08 3.25
13:09 3.59
13:27 2.87
13:29 2.80
13:34 2.59
・・・ ・・・
20180209T13:03:29+09:00 3.21
計測日 2018-02-09
計測場所 東京都千代田区霞が関1-2-1
単位 mm
計測タイミング 5分周期
蓄積期間 24h
転送 24:00
計測日 2018-02-09
計測場所 東京都新宿区大久保1-*-*
単位 Mm
計測タイミング 機器作動時
蓄積期間 1h
転送 毎正時
計測日 2018-02-09
計測場所 東京都三鷹市牟礼2-*-*
単位 mm
計測タイミング 機器作動時
蓄積期間 0s
転送 リアルタイム
20180209T13:38:43+09:00 2.91
計測日 時刻 計測値 住所
2018-02-09 13:00:00 2.31 東京都千代田区霞が関1-2-1
2018-02-09 13:01:00 3.44 東京都新宿区大久保1-*-*
2018-02-09 13:03:29 3.21 東京都三鷹市牟礼2-*-*
2018-02-09 13:05:00 3.22 東京都千代田区霞が関1-2-1
2018-02-09 13:08:00 3.25 東京都新宿区大久保1-*-*
2018-02-09 ・・・ ・・・ ・・・
集計ツールが、あらかじめ設定した規則に
従い、それぞれのデータを自動的に集計
現在は、灰色部分の基本情報
が独自の記法であり、自動集
計できない
様々な視点から分析が可能になる
GDC : GOVERNMENT DATA COLLEGE
データ検証
 事業所名と法人番号をプログラムで照合して、異常なデータを発見。
157
法人名称で、検索するとエラーに
なることで、法人名が間違ってい
ることを発見。
(データを確認するプログラムを
データサイエンティストが作成)
国税庁
法人番号公表サイト
データ項目が定義
されているから処理
が可能
厚生労働省
介護サービス情報公表システム
GDC :
GOVERNMENT
DATA COLLEGE
データ分割処理
158
 データが使いやすく設計されていない場合、手作業でデータ変換が必要。
機
関
タイトル
内容
日程
集合
場所
対象 募集人数
事前
登録
申込
締切
申込み・問合せ先
※リンク先に移行しない場合は、URLをコピー&ペーストして御利用ください。
内
閣
官
房
「遊んで・学んで・君もITマスター!」
~ ITの友達たくさん作っちゃおう!~
「ITの力」ってこんなにすごいんだよ!
みんなも知ろう、最先端のITの力を!!
親子で楽しめる展示・体験イベントをやってるから、みんな
来てね!!!
7月27日(水)
・28日(木)
11時00分~
16時
中央合同
庁舎8号館
5階共用A
会議室
小・中
学生
不要
内閣官房情報通信技術(IT)総合戦略室
郵便番号:〒100-0013
住所:東京都千代田区霞が関3-3-1尚友会館2階
電話:03-5253-2111
https://www.facebook.com/itkodomoday
内
閣
官
房
「竹島、尖閣諸島って知ってる?」
・日本の地図を書いてみよう!
・尖閣諸島ってどんな形をしているの?ジオラマで確かめ
よう!
・尖閣諸島にはかつお節工場があったんだよ。かつお節
を削ってみよう!
・竹島にはアシカがいたんだよ。竹島のアシカの絵本の読
み聞かせをやってるよ!
7月27日(水)
・28日(木)
10時30分~
16時
合同庁舎8
号館1階講
堂
小・中
学生
不要
担当部署:内閣官房 領土・主権対策企画調整室
郵便番号:100-0014
住所:東京都千代田区永田町1-6-1
代表番号:03-5253-2111
ホームページ:http://www.cas.go.jp/jp/ryodo/index.html
主催者 共催・協力 タイトル サブタイトル 内容 サブイベント 集合
場所
建物 住所 開催日 所要時間 開始時間 終了時間 その他 開催日 開始時間 終了時間 その他
内
閣
官
房
遊んで・学んで・君もIT
マスター!
ITの友達たくさん作っ
ちゃおう!
「ITの力」ってこんなにすごいんだ
よ!
みんなも知ろう、最先端のITの力
を!!
親子で楽しめる展示・体験イベントを
やってるから、みんな来てね!!!
中央合同
庁舎8号
館5階共
用A会議
室
中央合同
庁舎8号
館
東京都千
代田区永
田町 1-6
-1
7月27日 11:00 16:00 7月28日 11:00 16:00
元データ
変換後データ
データを標準的なデータ項目にクレンジングしたため、民間のイベント情報と一体で情報提供することが可能
こども霞が関見学デー
GDC :
GOVERNMENT
DATA COLLEGE
係数の変換
 複数データを一体化するとき、複数のデータ表現の混在を変換処理。
159
表計算で%表示していたものが、コピーする
と数字になる
元の数字が%で入っ
ている
一緒に処理すると
分かりにくい
98.4 71.7 52.5 59.6 95.5
GDC :
GOVERNMENT
DATA COLLEGE
会社名のマッチング
 法人関係情報のマッチングは、マッチングしたい情報に法人番号を付与し、
法人番号が同じものをマッチング
160
【法人番号付与対象ファイル(CSV形式)】
法人名
カラムNo
所在地
カラムNo
付加情報1
カラム名称
付加情報1
カラムNo
付加情報2
カラム名称
付加情報2
カラムNo
付加情報3
カラム名称
付加情報3
カラムNo
付加情報4
カラム名称
付加情報4
カラムNo
ヘッダ有無 ヘッダ行数
【突合せ種類】 90 ←※候補リスト出力基準値
補正後一致 補正後不一致
法人名 有効 - -1
有効 -1 -1
所在地 有効 - -1
有効 - -1
有効 -1 -1
※「補正後一致」のスコアは、「表記のゆれ補正した項目数」×「スコア」の値を算出します。
【文字列変換項目】
≪表記の統一≫ ※本文字列変換後に一致した場合は、完全一致とみなします。
項番 法人名 所在地
1 有効 有効
2 有効 有効
3 有効 有効
4 - 有効
5 - 有効
6 - -
7 - -
8 - -
9 - -
10 - -
≪表記のゆれ補正≫ ※本文字列変換後に一致した場合は、完全一致とせずスコア値に応じて候補リストまたは閾値未満リストへ出力します。
項番 法人名 所在地
1 有効 有効
2 有効 有効
3 有効 有効
4 有効 有効
5 - 有効
6 - -
7 - -
8 - -
9 - -
10 - -
【リスト出力設定】
項番 出力有無
1 出力
2 出力
3 出力
候補リスト
閾値未満(法人種別有)リスト
閾値未満(法人種別無)リスト
-
-
-
-
-
文字列変換項目
「大字」「字」を削除
条/丁目/番地を算用数字表記
-
-
-
-
-
文字列変換項目
コメント情報(カッコ内に記載)を削除
かなのゆれ補正(カタカナ化、全角化、濁点/半濁点削除)
記号表記のゆれ補正(「-」、「ゝ」等)
旧字体を新字体に補正
丁目/番地を「-」表記
法人番号付与ツール
スコア
法人種別
法人名(法人種別を除く)
都道府県コード
市区町村コード
大字以降
文字列変換項目
区切り文字(空白、・、‐)削除
英数字の半角文字を全角化
英数字の小文字を大文字化
名寄せ実行
法人関連情報
ファイル取込
国税庁法人情報
ファイル取込
法人関連情報
ファイル出力
候補/閾値未満リスト
ファイル出力
名寄せ作業による
付与データ取込
愛川町 神奈川県愛甲郡愛川町角田251番地1
株式会社ラッシュジャパン 神奈川県愛甲郡愛川町中津4027番3
株式会社シーエフ本社 〒243-0303 神奈川県愛甲郡愛川町中津4017-2
株式会社愛電社
〒243-0308
神奈川県愛甲郡愛川町三増1293−1
株式会社山善 本社 243-0112神奈川県愛甲郡清川村煤ヶ谷3041
有限会社オート企画野田 神奈川県愛甲郡愛川町中津2122-7
神奈川中央養鶏農業協同組合 〒243-0308 神奈川県愛甲郡愛川町三増1000
中津神社 愛甲郡愛川町田代332
龍福園 神奈川県愛甲郡愛川町中津3417−1 仲村ビル
宮ヶ瀬地区公共施設等管理組合 神奈川県愛甲郡清川村宮ヶ瀬940−5
津久井郡農業協同組合 神奈川県相模原市緑区中野550
大正寺 津久井郡城山町谷ヶ原1-3-1
日相園(コテージ) 神奈川県相模原市緑区日連754
原宿デンタルクリニック 神奈川県津久井郡城山町久保沢1丁目5-1
相模湖プレジャーフォレスト 神奈川県相模原市緑区若柳1634番地
スーパーレジン工業株式会社津久井工場 〒220-0204 神奈川県津久井郡津久井町長竹境沢3512
城山工業株式会社 神奈川県津久井郡城山町広田5-8
ハタノ木材株式会社[旧住所] 神奈川県津久井郡津久井町長竹2587番地
ハタノ木材株式会社 神奈川県相模原市緑区長竹2587番地
津久井せんべい本舗 神奈川県津久井郡津久井町太井121
津久井町商工会 津久井郡津久井町中野1029
中華レストランはつみ 津久井町中野1772
国税庁
法人番号公表サイト 1.法人名をクレンジング
・(株)の有無などを統一
2.住所をクレンジング
・郵便番号やビル名の削除
3.法人名と住所が一致するデータに法人番号を付与
4.住所の一部が違うなど一致度が高いものをリスト化
5.目視で確認
GDC : GOVERNMENT DATA COLLEGE
同一データの判定
 複数情報源から同一対象に対する情報が入ってきたときにどうするか?
161
テキスト情報でも、同じ対象物についた複数ソースからの異なる説明文をどう見せるかは課題
・中小企業支援策を中小企業庁が1つ発信すると、47都道府県の商工会などが再送する場合等
航空機のレーダーでは、Correlationが行われる。
・エリア内の対象物の数、大きさ、ベクトル等で判断
GDC : GOVERNMENT DATA COLLEGE
データの秘匿処理
 データはきれいなのだが、プライバシーに配慮して事前処理する場合がある
- 統計での少数データ等ではデータの秘匿処理が必要
‣ ○○町○○地区の平均年収は218万円
‣ 地区内の人口が少ないと、各家庭の年収が類推されてしまう。
‣ 統計によっては、このような場合、非公表処理としている
- 非識別加工情報としての処理
‣ 特定の個人を識別することができないように個人情報を加工 した情報であって、当該個人情報を復
元することができないようにしたもの。
 個人情報の削除等
162
GDC : GOVERNMENT DATA COLLEGE
データ項目の自動連係
 異なるシステム間のデータ交換を自動で実現
163
自データを交換用データにマッピング さらに、他システムと連携
資料:Crossflo CDX ExchangeBuilder
融資 貸付 貸付 貸与
初回に設定することで、自動でデータを連携
Aシステム Bシステム
GDC : GOVERNMENT DATA COLLEGE
データコンバータの活用
 データをクレンジングするときには、外部のデータコンバータを使用したり、データコン
バータを作成する場合がある。
- 全角文字を半角文字にするなどの文字変換
- 電話番号の表記をそろえるなどの形式変換
 ライブラリ化が必要
 影響範囲を考えると、データ送出側がデータコンバータを使ってきれいなデータを送
出するべきである。
- 受信側で変換するように求めるのは、社会的に大きなコストになる場合が多い
164
GDC : GOVERNMENT DATA COLLEGE
フェークニュース、ミスインフォメーション
 基本は複数情報源による裏をとる。
- フェークニュースは、情報源が1つしかないことが多い
‣ 本当に暴動が起こっているときには、情報源は複数になる
‣ 愉快犯やテロのように組織的にフェークニュースが流れた時には防ぎにくい
 信頼できる情報源を確認することが重要。
 自組織に関連してフェークニュースやミスインフォメーションが出ている場合には、
事実情報を広報することが重要。
- 東日本大震災後に、東京湾岸のコンビナートが有害物資を出しているというデマが出
回って拡散したが、当該企業がWebサイトトップで誤報であることを発表
165
GDC : GOVERNMENT DATA COLLEGE
APIの設計と利用
APIは作ればよいというわけではない
166
GDC : GOVERNMENT DATA COLLEGE
API(APPLICATION PROGRAMMING INTERFACE)の種類
 サービスを利用したりデータを取得するために提供するインタフェース
- SOAP:XMLを利用したWebサービス連携プロトコル(旧型の仕組み)
- RESTful API: 操作をHTTPメソッド、リソースをURLパス名で表現
 利点
- 自分のサービスを多様なサービスから活用してもらえる
- 様々な外部サービスやデータを、自分のサービスの中に組み込むことができる
- 外部サービスを使うことで、自サービの開発に集中できる
167
GDC : GOVERNMENT DATA COLLEGE
API設計の基礎
 担当者向けの「API導入実践ガイドブック」と請負のベンダ向けの「APIテク
ニカルガイドブック」がCIOポータルで公開されている。
- https://cio.go.jp/guides
 上記を参照せずに2020年に起こった設計ミス
- 送出データに外字を含んでいた
- APIのサービス提供時間が8-20時であった
- 数字のパラメータが、漢数字であった
168
GDC : GOVERNMENT DATA COLLEGE
オープンデータ
サブタイトルをここに入力
GDC : GOVERNMENT DATA COLLEGE 169
オープンデータとは何か
 オープンデータとは、行政機関などが保有するデータを、誰でも使えるように
オープンにすることにより、行政の透明性を高めるとともに、新たなサービス創
出を促進する取り組み。
 行政が社会全体での最大のデータ保有者であり、基盤的データを保有して
いることから2010年位から世界中で取り組まれている。
GDC : GOVERNMENT DATA COLLEGE 170
オープンデータ憲章(G8:2013)
 原則1:原則としてのオープンデータ
- データによっては,公表出来ないという合理的な理由があることを認識しつつ,この憲章で示されているように,政府のデータすべてが,原則として公表されると
いう期待を醸成する。
 原則2:質と量
- 時宜を得た,包括的且つ正確な質の高いオープンデータを公表する。
- データの情報は,多言語に訳される必要はないが,平易且つ明確な言語で記述されることを確保する。
- データが,強みや弱みや分析の限界など,その特性がわかるように説明されることを確保する。
- 可能な限り早急に公表する。
 原則3:すべての者が利用できる
- 幅広い用途のために,誰もが入手可能なオープンな形式でデータを公表する。
- 可能な限り多くのデータを公表する。
 原則4:ガバナンス改善のためのデータの公表
- オープンデータの恩恵を世界中の誰もが享受出来るように,技術的専門性や経験を共有する。
- データの収集,基準及び公表プロセスに関して透明性を確保する。
 原則5:イノベーションのためのデータの公表
- オープンデータ・リテラシ-を高め,オープンデータに携わる人々を育成する。
- 将来世代のデータイノベーターの能力を強化する。
GDC : GOVERNMENT DATA COLLEGE
171
オープンデータの効果
 外部効果
- 透明性の向上
‣ 予算や申請情報等の統計情報の公開で行政の透明性が向上する
- 新産業の創出
‣ オープンデータを使った新産業を創出、サービス向上を実現する
- 社会全体での重複投資の削減
‣ 行政の保有情報を使うことで、情報作成コストが削減できる
 内部効果
- 問合せの減少
‣ 行政情報を公開することで、問い合わせが減少する
- EBPMの実現
‣ 地域ごとの補助金申請数と効果の比較による政策評価などができる
- 職員へのデータ意識の向上
‣ 職員がデータを公開するときに、データについて考えることができる
GDC : GOVERNMENT DATA COLLEGE 172
オープンデータの現状
 国内
- 多くの自治体がオープンデータを公表しているが、そのデータ種類、形式、時期などが自
治体ごとにばらばらであり、活用が進んでいない。
- 国は、推奨データセットとして、有効性の高いデータを推奨しているところ。
- また、PDFで公表する機械判読性の低いデータが多く、改善が求められている。
 国際
- 世界では、オープンデータは当たり前の概念であり、特別な政策として扱われていない。
- 国際ベンチマークは、オープンデータの取り組みの評価から、重要なデータが公開されて
いるかなどのデータ環境の評価に意味合いを変えてきている。
GDC : GOVERNMENT DATA COLLEGE 173
推奨データセット
 自治体などがオープンデータに取り組みやすいように、主要データについて最
低限公開すべきデータの推奨モデルを公開している。
- 公共施設
- AED 等
 各自治体がこのモデルに従ってデータを公開することで、広域サービスを実現
しやすくなる。
174
GDC : GOVERNMENT DATA COLLEGE
改善点
 ベースレジストリ、データ取引市場、データ流通、パーソナルデータも視野に入
れた、全体戦略の中でデータ標準の採用、品質確保に取り組んでいく必要
がある。
 成功事例の整理。(これから取り組む組織への啓発教材)
GDC : GOVERNMENT DATA COLLEGE 175
データ活用
様々な場面で、様々な方法で活用される。そのための環境整備も必要。
176
GDC : GOVERNMENT DATA COLLEGE
AI・ビッグデータ
177
GDC : GOVERNMENT DATA COLLEGE
人間と機械では好みの情報は違う
 人はあいまい情報を扱える
 機械はきれいな情報が好き
- 一方で、冗長なデータでも、高速に処理できる 178
5万円、 5万円、 五万円、 五萬円、 50000円、 50,000円
霞が関一丁目三番一号、 霞が関1丁目3番1号、 霞が関1-3-1
ジャガイモ、 じゃがいも、 馬鈴薯
GDC : GOVERNMENT DATA COLLEGE
AIも、人のように学習する
 汚いデータより、きれいなデータの方が、早く正確に学習できる
179
CPUパワーで強引に学習もできるが、
リソースの無駄である
GDC : GOVERNMENT DATA COLLEGE
AIの特徴
 人にはないAIの特徴
- AIは既存の概念にとらわれない
‣ AIはデータに基づき新しい方法論等を生み出す
‣ AIは常識的な判断ができない
- AIは全く新しいものを生み出せない(データがない場合)
‣ AIは枠組みのデザインができない
‣ AIにはひらめきがない
- AIには意思や感情がない
‣ AIは問いを生み出せない
‣ 恐怖心がない
‣ AIには鬱がない
‣ 判断に感情が入らない
- AIは疲れない 180
 AIの弱み
- AIには人を動かす力リーダーシップがない
- AIは人間のように知覚できない
- AIは事例(データ)が少ないと十分力を発
揮できない
GDC :
GOVERNMENT
DATA COLLEGE
機械的学習を通じたAIの用途の広がり
識別 情報の判別・仕分け・検索 Web検索
情報の仕分け
音声、画像、動画の意味理解 感情把握
対話
異常検知・予知 がん診断
機械診断
予測 数値予測 需要予測
保険リスク予測
ニーズ、意図予測 消費者の関心把握
自動発注
マッチング コンテンツマッチ広告
商品リコメンド
実行 表現生成 要約
翻訳
デザイン ロゴなど自動デザイン
レシピ
行動の最適化 経路探索
出店計画
作業の自動化 自動運転
工場
181
安宅和人氏
資料より作成
GDC :
GOVERNMENT
DATA COLLEGE
PREDICTIVE分析
 これまでのデータの傾向、過去の情報分析から、今後発生しそうな事象を予
測する
- 犯罪予想マップ
- 衝突予防ブレーキ
- 病気発生予測
‣ 遺伝子や病歴情報から推定
182
資料:京都府警
GDC : GOVERNMENT DATA COLLEGE
非構造化データの分析
183
GDC : GOVERNMENT DATA COLLEGE
これまでの情報分析
 定量データはそれなりに分析
 定性データは担当者が情報に目を通し情報を整理
 どうしても担当者の主観が入りやすい
- 情報に漏れがある
- 特定情報をピックアップしやすい
- 埋もれている情報を見落としやすい
- 0が1になった瞬間の情報を落としやすい
 マインドマップ
- ある程度の主観を元に可視化(ディスカッション可能に)
 テキストマイニング
- 客観的に分析 184
GDC :
GOVERNMENT
DATA COLLEGE
テキスト・マイニング
 大量のデータから傾向を分析する技術
- 入浴剤を買っている人はお風呂テレビを買っている人と相関が高い等、売り上げデータ間の相関を見る
- 住民の傾向分析など様々な分野で分析が可能
 テキストマイニングは、これから導入が進む技術である。自由発言、記述の自動分析を可
能にする。
185
GDC :
GOVERNMENT
DATA COLLEGE
マインドマップ
 定性情報を分類し検討するのに有意義な手法である
- ただし、分析者の主観が入る
熟字カケアイ
懇談会
現場もマクロでよく考えて
いる
現場の深みがある意見
186
GDC :
GOVERNMENT
DATA COLLEGE
テキストマイニングやマインドマップの評価
 テキストマイニングは「マスな課題」を把握するのに有効
- 多くの参加者が指摘や議論する内容が顕在化する
- 「早急に対処が必要な課題、重要な課題」を把握
- 潜在的なニーズの発掘にも有効
 マインドマップは、「0が1になった瞬間」を捕捉するのに有効
- 網羅的に情報を見ることにより、担当者が光るものを見つけやすい
- 「政策としての検討・取り組みが必要になった瞬間」を捕捉
- また、マイナーな意見も見つけやすい
187
GDC : GOVERNMENT DATA COLLEGE
画像データ、音データの分析
 AI等を使って年々進歩している。
- 画像認識
‣ 類似画像の収集
- 音声認識
‣ 演奏中の音楽の分析
188
GDC : GOVERNMENT DATA COLLEGE
データ活用環境
189
GDC : GOVERNMENT DATA COLLEGE
PDS(PERSONAL DATA STORE)
 多くの分野で、個人が自らの意思で自らのデータを蓄積・管
理する仕組みとしてのPDSを検討している。
- 学習PDS
- Lifelog
- PHR(Personal Health Record)
 データの所有権は、事業者ではなく自分にあるという考え方。
- ワンスオンリーサービスができないときの保管サービスとしての役割も期
待される
 さらに、そのデータを匿名加工するなど契約条件の下で活用
可能にする情報銀行も検討されている。
GDC : GOVERNMENT DATA COLLEGE 190
データ取引市場
 データを売買する仕組みとしてのデータ取引市場が検討されている。
- 妥当な価格を決定するマーケットメカニズムが必要
- データの品質等の取引条件等が必要
191
GDC :
GOVERNMENT
DATA COLLEGE
デンマークの
City data exchangeでの実証
データの可視化
コンテンツをここに入力
192
GDC : GOVERNMENT DATA COLLEGE
データにはビジュアライゼーションが必要
 人が直感的にわかりやすくする
193
https://www.tableau.com/
GDC :
GOVERNMENT
DATA COLLEGE
情報は見せ方で大きく変わってくる
 比較の仕方で大きく異なる
 組み合わせの仕方で大きく変わっ
てくる
 集めた情報と公表する情報を変え
ることができる
 情報には一貫性が求められるが、
一貫性があるとは限らない
25
29
0% 100%
25
29
20% 30%
25
29
0% 100%
89
ベースラインの情報も必要
・Nがいくつか
・属性は何か
- インターネット利用者などは世論か?
- 昼間電話に出られる人は世論か?
GDC : GOVERNMENT DATA COLLEGE 194
ダッシュボード
 必要な情報を統合して見せるダッシュボードが良く使われる。
195
GDC : GOVERNMENT DATA COLLEGE
道路モニタリングの例
 モニタリング車が走行
しながら振動データを
収集し、そのデータを
分析している。
196
加速度
サンプリン
グタイム
評価
評価軸
モニタリング車
スマートフォン
マップ画面
・職員がメンテナンス
計画を作る
・市民への計画の説
明にも活用
GDC : GOVERNMENT DATA COLLEGE
交通情報の例
 急ブレーキ情報と事
故情報を公開
 埼玉県では、実地検
証を通じて都市計画
に反映
197
急ブレーキ
事故多発地点
レポート
GDC : GOVERNMENT DATA COLLEGE
データサイエンス
体系的に学ぶために
198
データサイエンス・スクール 統計力向上サイト (stat.go.jp)
https://www.stat.go.jp/dss/index.html
こちらを
参照
GDC : GOVERNMENT DATA COLLEGE
投資対効果
データは地味な政策だが、投資に対する効果が大きい
199
GDC : GOVERNMENT DATA COLLEGE
ベース・レジストリの経済効果
 直接的な業務効率化などの効果があるのはもちろんのこと、他部門に与える間接効果や経済インパクトが
大きい。
- デンマークの事例
- 改革しないと業務実施に10,236milDKK(1,664億円)かかる (シナリオ0)
- 605.6milDKK(98億円)の投資で、業務実施が2,740.6milDKK(445億円)になる(シナリオ1)
- 結果として、15年間で7,522.4milDKK(1,223億円)の効果が得られる見込み(1DKK=16.26円)
- 投資は、1年強で回収し、15年間で12.5倍の投資対効果(行政コスト)
200
データ管理コスト、修正コストなどで内部削減を計
算。
住所データベースでは、2003年から2010年までの
初期投資に€2.8m、経済効果€77mであり、民間も
含め27.5倍の投資対効果(利用の70%が民間)
GDC : GOVERNMENT DATA
COLLEGE
経済効果分析投資(ベースレジストリ(住所データ)による効果例(デンマーク))
 1つのデータベースの整備により、1000のアプリケーションが開発され、5百万人のユーザが利用している。
- 利用は、自治体が30%、民間が70%
- APIで活用が可能
201
初期投資
システム投資 €5mil
データクレンジング 85人分の仕事
運用コスト
システム投資 €1mil
アドレスの確認登録 40人分の仕事
 初期開発フェーズ (2003-2010)の投資対効果は、整備運用費3.5億円(€2.8m)に対して、経済効果が96
億円(€77m)と試算されている。2015年以降の経済効果は、初期投資15億円、運用投資5億円に対し、
年間40億円の経済効果と試算されている。(€1=125、常勤職員1名のコストを1000万円で計算)
住所確認・修正コストの削減
住所間違いによる再配送コストの削減
各種サービスへの基本情報の提供
GDC :
GOVERNMENT
DATA COLLEGE
英国の住所データ整備における投資対効果
 効果モデルを元に効果を算出し、整備費と比較している。2020年までに4
倍の投資対効果と計算している。
202
レポート:https://s3.eu-west-1.amazonaws.com/static.geoplace.co.uk/downloads/Cost-Benefit-Analysis-full-report.pdf
サマリー:https://s3.eu-west-1.amazonaws.com/static.geoplace.co.uk/downloads/cost-benefit-analysis-of-address-and-street-data-for-local-authorities-and-emergency-
services-in-england-and-wales.pdf
GDC : GOVERNMENT DATA COLLEGE
FORRESTER TOTAL ECONOMIC IMPACT™
 Forrester社はIT投資に対するインパクト分析を定量評価とヒアリングなどを合わ
せて体系的に行っている。
- 利益の分析
‣ 評価と意思決定の迅速化
‣ 事業運営効率の向上
‣ 回避できた代替ソフトウェア製品のコスト
‣ 非定量化利益
‣ 柔軟性
- コスト分析
‣ ライセンスおよびサポート費用
‣ クラウドコンピューティングリソース費用
‣ 環境を管理するスタッフのコスト
‣ 実装および設定費用 203
GDC : GOVERNMENT DATA COLLEGE
文字データ標準化
2010-2020年までで実施した文字データ標準化によるコスト試算
 投資:7億円
- 初期投資:1億円
- 運営:初期投資20%/年=2億円(10年間)
- 人件費:平均2名×10年×2000万=4億円
 効果:120億円
- 外字対応人件費:38万時間×3000円=1億円/年
- 削減可能な自治体外字システム:600万円*1741=100億円/10年
- 削減可能な政府・独法外字システム:政府2.5億+独法3億=5.5億/5年
※2010年当時の試算を基に再計算
 投資対効果:17.1(10年間)
民間コストの削減などの間接効果も大きい 204
GDC : GOVERNMENT DATA COLLEGE
法人番号公表サイト
 国税庁がデータ入手時にデータをクレンジングシているので、利用者である各府省、自治
体、民間企業はクレンジング機能に投資しないできれいなデータを使用可能。
 上場企業4000社が、データクレンジングで年間100万円コスト削減できたなら、年間40
億円のコスト削減効果。 205
法務省
商業登記シス
テム
国税庁
法人番号
公表サイト
各府省
自治体
民間企業
外字のクレンジング
旧住所のクレンジング
英語名の付加
24時間サービス
ISO25012のデータ品質の
観点から、データ品質に
課題がある
8-20時の運用
3情報
GDC : GOVERNMENT DATA COLLEGE
某サービスAPI
 情報提供するAPIが特殊形式かつ運用時間が8-20時で計画された。
 データ送出元の費用300万円を節約することが、結果として行政機関全体で20億円のコスト増と不効
率を生み出すこととなる。
206
某システム
各府省
400システム
自治体
1741
民間企業
送出部分のAPIにクレンジング
機能をつけたら300万円
特殊なAPI対応のため、各システムで追加コスト100万円発生す
ると仮定すると、行政機関だけで20億円の費用が発生。
(エラー処理などの人的処理は含まない。)
原因
担当府省
プラットフォーマーとしての意識がなかった
・データ品質
・サービス運用時間
APIを理解していなかった
・APIは自動処理する事が前提
支援府省
デジタル時代の証明の新しい概念が理解できていなかった
GDC :
GOVERNMENT
DATA COLLEGE
組織と人材
全てに影響するベースライン
207
GDC : GOVERNMENT DATA COLLEGE
日本の不幸な状況
 日本にデータの専門家はほとんどいない。
208
大規模パッケージベンダーが少なく、データの最適化の議論がされてこなかった。
職人芸でデータ設計をすることが多く、システム・エンジニアリングが軽視されてきた。
カスタマイズが重視され、最適化よりも現場の意見が重視されてきた。
人月でビジネスをしてきたので、開発の効率化も望まれていなかった。
社会に出ても使わないので大学教育でも重視されてこなかった。
使う人がいないのでツール市場が伸びない。
GDC : GOVERNMENT DATA COLLEGE
自称データ専門家が多い
データの設計手順やアウトプットイメージを聞かないと自称専門家は見破れない。
「どうやって設計していますか?」
- ヒアリングしてエクセルでつくってます。
- パッケージのテンプレートとのフィットギャップの経験があります。
- ER図、クラス図はよくわかりません。
- サイエンティストだから設計はよくわかりません。
「どんなイメージのアウトプットになるんですか?」 209
大手IT企業や外資ITコンサルであっても、
・データ標準を知らない
・コード設計を知らない
・マスターデータの設計をしたことがない
・ツール使ったことない
頑張った人で、
・座学で学んだ
・海外のマスターデータテンプレートをカスタマイズした
GDC : GOVERNMENT
DATA COLLEGE
リーダーシップとガバナンスボード
• CDO(Chief Data Officer)
• 国内外の先進組織の多くがトップ直属のCxOとしてCDOを設置。
• データは組織横断の事項が多く、各組織の根幹にかかわることが多いこと
から強いリーダーシップをもって推進。
• ガバナンスボード
• 主要組織の長、もしくは、そこに強い影響を与えられる人により構成されるガバナンス
ボードを設置し、データ戦略を強力に推進する組織が多い。
210
GDC : GOVERNMENT DATA COLLEGE
CDOの要件
 リーダーシップ
 戦略的思考力
 ロジカルシンキング
 コミュニケーション力
 アーキテクチャ知識
 データ設計力
 データ理解力
 データマネジメント知識
211
 戦略を作り
 業務改革を先導し
 組織間の調整をして
 データ関連プロジェクトを率い
 ルールや基盤の整備をし
 データの評価を行い
 人材育成を行う
GDC : GOVERNMENT DATA COLLEGE
データ関連人材
 データアーキテクト
- 組織内もしくは組織を超えてデータのあるべき姿や体系が設計できる
 データエンジニア(データアナリスト)
- ヒアリングや現在の仕様や業務からデータ仕様を作成でき、データに関する提案書を見極められる
 データエンジニア(データベースエンジニア)
- データベースへの実装やチューニングを行う
 データサイエンティスト
- データの分析をして課題を明確にしたり、理解しやすいようにデータを加工する
 AIスペシャリスト
- 各種AI技術を使って問題解決できる
 地理空間スペシャリスト
- 地理空間に関する専門知識を持ちデータの収集、運用、活用ができる
 一般職(基礎リテラシー)
- データの戦略性などを理解し、何事を見るときにもデータというビューで物事を見ることができる
212
GDC : GOVERNMENT DATA COLLEGE
データ人材に関するフレームワーク
GDC : GOVERNMENT DATA COLLEGE 213
GDSの職種
 Content design
- content designers
‣ design information to meet user needs
- content strategists
‣ design taxonomies to help users find what they need
- technical writers
‣ make complicated technical concepts easier to understand
 Delivery management
 Design
- interaction designers
‣ designing how things should work
- service designers
‣ designing what the things should be
- graphic designers
‣ explaining what the thing does
 Product management ※DDaTより細分化
- frontend developers
‣ building webpages using accessible HTML, CSS, Javascript and related stuff
- backend developers
‣ putting information into databases and then taking it back out again, using
Ruby, Python, Java, Node and others
- site reliability engineers
‣ building digital infrastructure and tooling
- technical architects
 Software engineering ※DDaTでは細分化されている
 Technical architecture
 User research
214
 Data job family
 Data analyst
 Data engineer
 Data scientist
 Performance analyst
 IT operations job family
 Application operations engineer
 Business relationship manager
 Change and release manager
 Command and control centre manager
 End user computing engineer
 Infrastructure operations engineer
 Incident manager
 IT service manager
 Problem manager
 Service desk manager
 Service transition manager
 Product and delivery job family
 Business analyst
 Delivery manager
 Product manager
 Programme delivery manager
 Service owner
 Quality assurance testing (QAT) job family
 Quality Assurance Testing (QAT) analyst
 Test engineer
 Test manager
 Technical job family
 Data architect
 Development operations (DevOps) engineer
 Infrastructure engineer
 Network architect
 Security architect
 Software developer
 Specialist infrastructure engineer
 Technical architect
 Technical specialist architect
 User-centred design job family
 Content designer
 Content strategist
 Graphic designer
 Interaction designer
 Service designer
 Technical writer
 User researcher
DDaT
capability
framework
政府の人材モデルを
ベースにGDS用に活用
SFIA
スキルレベル
 DDaTのフレームワークでは以下の4段階で人材を評価
- Awareness.
‣ You know about the skill and have an appreciation of how it is applied in the environment.
- Working.
‣ You can apply your knowledge and experience of the skill, including tools and techniques. You can
adopt those most appropriate for the environment.
- Practitioner.
‣ You know how to share your knowledge and experience of this skill with others, including tools and
techniques. You can define those most appropriate for the environment.
- Expert.
‣ You have both knowledge and experience in the application of this skill. You are a recognised
specialist and adviser in this skill including user needs, generation of ideas, methods and tools. You
can lead or guide others in best-practice use.
215
216
SFIAスキルセット( DIGITAL TRANSFORMATION VIEW)
Category Skill Levels
Digital
strategy,
innovation
and
investment
s
Strategic planning ITSP 567
Innovation INOV 567
Emerging technology monitoring EMRG 456
User research URCH 3456
User experience design HCEV 3456
Business process improvement BPRE 567
Demand management DEMM 56
Portfolio management POMG 567
Enterprise and business architecture STPL 567
Product management PROD 3456
Marketing MKTG 23456
Digital
culture,
skills and
capabilities
Organisational capability development OCDV 567
Sourcing SORC 234567
Organisation design and implementation ORDI 567
Competency assessment LEDA 3456
Learning design and development TMCR 345
Knowledge management KNOW 234567
Change implementation planning and
management CIPM
56
Performance management PEMT 456
Resourcing RESC 456
Professional development PDSV 456
Category Skill Levels
Digital & data
transformatio
n, change and
governance
Enterprise IT governance GOVN 5 6 7
Information governance IRMG 4 5 6 7
Information security SCTY 3 4 5 6 7
Information assurance INAS 5 6 7
Financial management FMIT 4 5 6
Data management DATM 2 3 4 5 6
Programme management PGMG 6 7
Project management PRMG 4 5 6 7
Portfolio, programme and project support PROF 2 3 4 5 6
Systems development management DLMG 5 6 7
Change implementation planning and management CIPM 5 6
Benefits management BENM 5 6
Relationship management RLMT 4 5 6 7
Business modelling BSMO 2 3 4 5 6
Emerging technology monitoring EMRG 4 5 6
Digital
technology
enablers
Requirements definition and management REQM 2 3 4 5 6
User experience analysis UNAN 3 4 5
User experience design HCEV 3 4 5 6
Analytics INAN 3 4 5 6 7
Data visualisation VISL 4 5
Methods and tools METL 3 4 5 6
Solution architecture ARCH 4 5 6
Business analysis BUAN 3 4 5 6
Business modelling BSMO 2 3 4 5 6
Systems design DESN 4 5 6
Customer service support CSMG 1 2 3 4 5 6
Supplier management SUPP 2 3 4 5 6 7
User experience evaluation USEV 2 3 4 5 6
GDC : GOVERNMENT DATA COLLEGE
217
SFIAスキルセット(BIG DATA/DATA SCIENCE VIEW)
Category Skill Levels
Data
governance
skills
Information governance IRMG 4567
Strategic planning ITSP 567
Enterprise IT governance GOVN 567
Information systems coordination ISCO 67
Data management DATM 23456
Information assurance INAS 567
Enterprise and business architecture STPL 567
Relationship management RLMT 4567
Data
culture and
capability
skills
Business process improvement BPRE 567
Innovation INOV 567
Organisational capability development OCDV 567
Organisation design and implementation ORDI 567
Methods and tools METL 3456
Knowledge management KNOW 234567
Measurement MEAS 3456
Change implementation planning and
management CIPM
56
Competency assessment LEDA 3456
Learning delivery ETDL 345
Performance management PEMT 456
Category Skill Levels
Data lifecycle
management
skills
Systems development management DLMG 567
Solution architecture ARCH 456
Requirements definition and management REQM 23456
Data modelling and design DTAN 2345
Database design DBDS 345
Business analysis BUAN 3456
Systems design DESN 456
Programming/software development PROG 23456
Business process testing BPTS 456
Testing TEST 123456
Analytics INAN 34567
Data visualisation VISL 45
Information content authoring INCA 123456
Information content publishing ICPM 123456
Database administration DBAD 2345
Availability management AVMT 456
Storage management STMG 3456
Capacity management CPMG 456
Data security
and quality
skills
Quality management QUMG 34567
Conformance review CORE 3456
Quality assurance QUAS 3456
Information security SCTY 34567
Security administration SCAD 123456
Business risk management BURM 4567
Continuity management COPL 45
GDC : GOVERNMENT DATA COLLEGE
データ人材フレームワークの考え方
1. SFIAおよびDDaTを基本にしつつGDSの実践的な人材像を基本とする。
2. 米国USDS、18Fおよび連邦政府データ人材スキルカタログを参照する。
3. IPAのicompetencyディクショナリ、ITSS+、情報処理技術者試験
(データベース)を参照する。
4. AI教育に関しては、既存の
学校教育体制とも協力する。
GDC : GOVERNMENT DATA COLLEGE 218
GDC : GOVERNMENT DATA COLLEGE 219
データ人材フレームワーク
スキルセット
ロール定義
人材モデル
コースウェア
評価体系
コース
評価
実務
人材定義
フィードバック
SFIA
DDaT
IPA等
1)データ・アーキテクト
2)データ・エンジニア[設計](データ・アナリスト)
3)データ・エンジニア[開発](データベース・エンジニア)
4)データ・サイエンティスト
5)AIスペシャリスト
6)地理空間データ・スペシャリスト
GDC : GOVERNMENT DATA COLLEGE 220
分野 スキル スキル説明
行政 行政に関する知識 行政業務に関する知識や経験がある。
ビジネス基礎 文書読解力 文書の意図を正確に読み取れる。
ビジネス基礎 コミュニケーション
技術や業務の関係者とコミュニケーションをして信頼関係を構築していける。ユーザーなど関係者のヒアリングを計画から実施までできる。コ
ミュニケーションを通じて要望や課題を明確にできる。
ビジネス基礎 説明力 わかりやすい説明用資料を作り、説明することができる。
ビジネス基礎 ロジカルシンキング、クリエイティブシンキング ロジカルシンキングやクリエイティブシンキングに基づき、議論や資料の作成ができる。
ビジネス基礎 人材の育成・確保 人材モデルを定義し、人材育成・採用・評価をすることができる。人材育成コースの設計や実施ができる。
ビジネス基礎 国際調整 業務の国際調整ができる。
戦略 戦略立案と管理
サービスに関する話題、イベント、各種活動等、アウトカム視点で長期的にその戦略を考える。標準化、ロードマップやビジョンを考える。こ
れらの意思決定をする。
戦略 データによるイノベーション データを使った業務へのインパクトなどを説明し、業務改革やイノベーションを生み出す。
アーキテクチャ アーキテクチャ アーキテクチャを設計し、アーキテクチャに基づき、業務に関する話題、イベント、各種活動等、アウトカム視点で長期的にその戦略を考える。
チーム運営 リーダーシップ 目標を示し、協働できる環境を作り、課題を解決し、意思決定をする。チームをガイドし、関係者との調整をおこなう。
チーム運営 チーム運営 チームのモチベーションを高め最高の成果を出していくスキル。オープンで協調的な環境整備もおこなう。
チーム運営 チーム内の知識管理 チーム内での経験や知識を効果的に共有する仕組みを整備する。
チーム運営 ツールやソフトウェア 現在の役割を実現するため、技術・ツールを適切に導入・活用する。
プロジェクト管理 プログラム管理
ユーザーニーズにあったサービスを開発するため、様々な専門性を持ったチームをまとめ上げる。
課題を明確にし、プロジェクト間の優先順位をつけるとともに解決を図る。
プロダクトのライフサイクルを通じたプロセス管理をする。また、事故対応をする。
プロジェクト管理 プロジェクト管理、計画管理 プロジェクトの計画、予測、見積もり、不確実性の管理、測定、緊急対応プラン、ロードマップを作成し、プロジェクトを管理する。
プロジェクト管理 プログラム評価 プログラム全体を可視化して評価することができる。
ガバナンス データ・ガバナンスルールの整備と実行
組織全体で、データの整合性が取れて品質良い成果を出すためのガバナンスルールの作成と実行をする。関連するガバナンスルールとの
整合性を取り、その体系を持続的に発展させる。データモデリング手法を使い、組織内のデータ標準を作る。メタデータ管理やカタログサイト
の知識があり、データのリポジトリを設計・管理する。
ガバナンス データ品質管理、評価 正確性や網羅性などのデータの品質を管理し評価する。
業務改革 業務全体の理解と要件定義
業務分野に関するトレンドや外部事例を把握し、外部関連業務や過去業務やデータとの整合性を整理する。そのうえで要求と要件を定義す
る。
業務改革 業務改革
業務課題に対して、課題を明確化して適切な解決策の提示をする。従来の制約にとらわれず、業務目的に対して抜本的な改革・改善を行う。
業務をモデリングして、検討を可視化する。また、業務変更時の移行プロセスの検討を行うこ。
設計 コンテンツ設計・管理 Webサービスなどのコンテンツをデザインし、公開などの管理をする。
設計 データ設計
複数のデータモデリング手法で書かれたデータを理解し、既存情報を基にデータモデルが作る。データに関する問題点を分析しデータ間の
マッピング、変換等でデータの統合や分離を行う等の解決を図る。統一したデータモデリング手法で、組織全体のデータモデル、ディクショナ
リと整合性のあるデータ設計をする。APIやリンクなどを使用し、目的に適合し、レジリエントで、拡張性があるデータ統合を実現する。
実装 プログラミングとビルド サービス実現のためのプログラミングを行う。自動化等の最新手法を適用する。
実装 移行計画 旧業務から新業務・サービスへの移行を行う。
実装 データ整備 紙のデジタル化、データクレンジングや標準化を行う。
データベース実装 データベースを実装し、データベースやインタフェースの性能の調整を行う。
実装 アベイラビリティ、キャパシティ管理 サービス継続に必要なリソースの可用性などを計画、管理する。
実装 運用・サービス支援 サービスの維持管理を行う。また、その中で課題を明確化し、企画や開発に反映する。
活用 データ分析と可視化
データを分析し価値ある事実を導き出したり、そのために複数データを合成する。統計的な手法を活用する等、データを可視化し、メッセー
ジを作成することができる。
セキュリティ 情報セキュリティ・緊急対応 セキュリティを実装し、規則等に対する準拠状況を管理する。非常時の可用性確保の方策を作成する。
GDC : GOVERNMENT DATA COLLEGE 221
ツールによる客観的な定量評価
基準年 2021
分野 スキル スキル説明 SFIA SKILL Data 経験期間 関与 最終経験年 経験点 知識点 総合点 経験・学習履歴等エビデンス
行政 行政に関する知識 行政業務に関する知識や経験がある。 ○ 12 4 2021 4 5 9
ビジネス基礎 文書読解力 文書の意図を正確に読み取れる。 ○ 25 5 2021 5 5 10
ビジネス基礎 コミュニケーション
技術や業務の関係者とコミュニケーションをして信頼関係を構築し
ていける。
ユーザーなど関係者のヒアリングを計画から実施までできる
コミュニケーションを通じて要望や課題を明確にできる。
Consultancy CNSL
Relationship management RLMT
Contract management ITCM
Customer service support CSMG
○ 25 5 2021 5 5 10
ビジネス基礎 説明力 わかりやすい説明用資料を作り、説明することができる。 Consultancy CNSL ○ 25 5 2021 5 5 10
ビジネス基礎 ロジカルシンキング、クリエイティブシンキング
ロジカルシンキングやクリエイティブシンキングに基づき、議論や
資料の作成ができる。
Consultancy CNSL ○ 25 5 2021 5 5 10
ビジネス基礎 人材の育成・確保
人材モデルを定義し、人材育成・採用・評価をすることができる。
人材育成コースの設計や実施ができる。
Professional development PDSV
Competency assessment LEDA
Learning design and development TMCR
Performance management PEMT
○ 12 4 2021 4 5 9
デジタル時代の行政の講義(東京大学2008-2021)
CIO育成コース(経産省等2003-2018)
データ人材フレームワークの整備(内閣官房2020-2021)
・上記のコース以外にデジタルガバメント等の講師を実施
ビジネス基礎 国際調整 業務の国際調整ができる。 ○ 8 4 2021 4 4 8
米国、EC、国連、OECD等との調整(内閣官房2014-2021)
・実質的な日本政府のCDOと認識されている
戦略 戦略立案と管理
サービスに関する話題、イベント、各種活動等、アウトカム視点で
長期的にその戦略を考える。標準化、ロードマップやビジョンを考
える。これらの意思決定をする。
Strategic planning ITSP ○ 12 5 2020 5 5 10
戦略 データによるイノベーション
データを使った業務へのインパクトなどを説明し、業務改革やイノ
ベーションを生み出す。
Innovation INOV ○ 8 5 2021 5 5 10
アーキテクチャ アーキテクチャ
アーキテクチャを設計し、アーキテクチャに基づき、業務に関する
話題、イベント、各種活動等、アウトカム視点で長期的にその戦略
を考える。
Enterprise and business architecture
STPL
Solution architecture ARCH
○ 3 5 2021 5 5 10
政府の基本アーキテクチャの作成(内閣官房2018-2020)
・Society5.0参照アーキテクチャの作成
・各分野へのアークテクチャ展開支援
[行政]
CIO補佐官(内閣官房、経産省2008-2021)
・システムだけではなく制度改正を含む業務改革を推進
[コンサルティング等]
政策立案(内閣官房、経産省2008-2021)
・政策ニーズを分析し政策として取りまとめ推進
コンサルティング(民間コンサル会社1994-2007)
・製造・物流・教育・医療等の業務改革コンサルティング
・行政改革コンサルティング
デジタルガバメント等戦略立案(内閣官房2008-2021)
・デジタルガバメントグランドデザインを策定
・データ戦略を策定
・スマートシティなど関連の戦略策定に参加
トレーニングの実施
 基礎トレーニング
- 本コース
 専門性が高いトレーニング
- MOOC
‣ Edix
‣ Cousera
 最新トレンド
- データ専門カンファレンス
 実務
- OJT
GDC : GOVERNMENT DATA COLLEGE 222
まとめ
現場での実践が重要
223
GDC : GOVERNMENT DATA COLLEGE
組織全体のデータを整理しろと言われたらどうしますか
 データの棚卸、品質評価
 業務改善点の洗い出し
 アーキテクチャ設計
 コアデータモデルの作成
 コード設計
 セキュリティレベルの設定
 移行計画の作成
 人材育成計画の作成
224
GDC : GOVERNMENT DATA COLLEGE
プロジェクトのデータ設計をしろと言われたらどうしますか
 組織全体のフレームワークやルールを調査する
 ステークフォルダを洗い出す
 既存の画面や帳票を洗い出す
 機能を洗い出す
 業務改革を行えないか検討する
 ICOMからデータを洗い出す
 オブジェクト(エンティティ)を整理する
 クラス図を作成
 プロセスモデルを作成
 データベース設計に引き継ぎ
225
GDC : GOVERNMENT DATA COLLEGE
保有するデータでなにか新しいことをしろと言われたらどうしますか
 組織で持っているデータを整理する
 類似の活用事例を探す
 内部活用の可能性を探る
- 振動データを改善に使えないのかなど
 外部ニーズの可能性を探る
- 自社センサー情報を買いたい人がいないかなど
 ニーズに合ったデータ品質特性を整理する
 投資対コストの分析をする
226
GDC : GOVERNMENT DATA COLLEGE
データチームを作れと言われたらどうしますか
 組織の目的を整理する
 チーム案を作成する
 ジョブディスクリプションとスキルセットを定義する
 配置転換もしくは採用する
 不足しているスキルをトレーニングする
227
GDC : GOVERNMENT DATA COLLEGE

210413 data101day23

Editor's Notes

  • #15 成長戦略に立ち戻ってみると 企業にとって、様々な支援領域がある