Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

共通語彙基盤 コア語彙2(Ver 2.2)の紹介

2,158 views

Published on

第3回自治体オープンデータ推進協議会(関西会議) 2015年6月22日で行ったIMI共通語彙基盤の説明です。

Published in: Technology

共通語彙基盤 コア語彙2(Ver 2.2)の紹介

  1. 1. 共通語彙基盤 コア語彙2(Ver 2.2)の紹介 武田英明 国立情報学研究所・教授 情報処理推進機構・専門員 リンクト・オープン・データ・イニシアティブ 理事長 ODI Osaka, Advisory Board 一般社団法人オープンコーポレイツジャパン 理事 第3回自治体オープンデータ推進協議会(関西会議) 2015年6月22日
  2. 2. 本日のお話 • IMI共通語彙とは • コア語彙2 (バージョン2.2)リリース • IMI共通語彙の利用に向けて • 世界に向けて
  3. 3. IMI共通語彙とは
  4. 4. IMI共通語彙とは • 構造化概念辞書 – 概念辞書 • 概念の表記としての用語 – 各項目は概念であって用語でない。 • クラス概念と関係概念 • 上位下位関係(上位にある概念とはより一般的概念) – 構造化辞書 • 概念は相互につながっていて、その組み合わせ(構造) で表現されている • クラス概念は属性を示す関係概念と上位下位を示すク ラス概念 • 関係概念は結びつくクラス概念と上位下位の関係概念
  5. 5. IMI共通語彙の構造 人型 氏名 性別 性別コード 生年月日 住所 … 氏名型 種別 姓名 姓 名 性別 … 住所型 種別 表記 郵便番号 都道府県 市区町村 … 文字列 文字列 文字列 コード型 文字列 文字列 文字列 文字列 文字列 文字列 コード型 種別 値 氏名型 住所型 コードリスト型 文字列 コード型 事象型 クラス概念 属性(関係概念) クラス概念の構造 クラス概念の表記 属性の値の範囲
  6. 6. 用語と構造のマッピング ○×会議参加登録 氏名: 住所: 性別: 勤務先: 勤務先住所: 参加日: 年 月 日 男/女 人型 氏名 性別 性別コード 生年月日 住所 … 氏名型 種別 姓名 姓 名 性別 … 住所型 種別 表記 郵便番号 都道府県 市区町村 … 文字列 文字列 文字列 コード型 文字列 文字列 文字列 文字列 文字列 文字列 コード型 種別 値 氏名型 住所型 コードリスト型 文字列 コード型 事象型 IMI共通語彙 特定のデータ構造
  7. 7. スキーマのテンプレートとしての共通語彙 ○×会議参加登録 氏名: 住所: 性別: 勤務先: 勤務先住所: 参加日: 年 月 日 男/女 人型 氏名 性別 性別コード 生年月日 住所 … 氏名型 種別 姓名 姓 名 性別 … 住所型 種別 表記 郵便番号 都道府県 市区町村 … 文字列 文字列 文字列 コード型 文字列 文字列 文字列 文字列 文字列 文字列 コード型 種別 値 氏名型 住所型 コードリスト型 文字列 コード型 事象型 IMI共通語彙 特定のデータ構造 人型 氏名 性別 住所 勤務先 氏名型 姓名 住所型 表記 郵便番号 文字列 文字列 文字列 文字列 氏名型 住所型 組織型 人 型 日時型 イベント参加型 参加者 参加日 特定のスキーマ いらないものを取る 必要なものを加える
  8. 8. IMI共通語彙とは • 構造化概念辞書 – 概念辞書 • 概念の表記としての用語 – 各項目は概念であって用語でない。 • クラス概念と関係概念 • 上位下位関係(上位にある概念とはより一般的概念) – 構造化辞書 • 概念は相互につながっていて、その組み合わせ(構造)で表現さ れている • クラス概念は属性を示す関係概念と上位下位を示すクラス概念 • 関係概念は結びつくクラス概念と上位下位の関係概念 • スキーマのテンプレート – 自分のスキーマをここから取捨択一、追加をして構成する
  9. 9. IMI共通語彙基盤の構造 • 情報交換のための用語連携インタフェースは、社会全体で使われる 用語であるコア語彙、共通語彙及びドメイン固有語彙から構成される。 コア 語彙 ドメイン固有語彙 各分野での利用に特化した語彙。 例)農作業、品種 など 市場 住所 病院 駅 災害 復旧費 ドメイン共通語彙 分野固有の語彙の内、他の分野で も参照する主要な語彙。 例)商店、病院、食品名 など コア語彙 どの分野でも利用される普遍的な語彙。 例)人、物、場所、施設、日付 など 地理空間 ・施設 移動 ・交通 農業 財務 ドメイン 固有語彙 ドメイン 共通語彙 既存の業界・企業内語彙 対応表で用語の置き換えをすることを基本とするので、各 組織は既存の用語体系を変更する必要が無い
  10. 10. IMI共通語彙基盤の利用の仕組み • 概念モデルとして定義 • それを必要な物理形式に変換(シリアライゼー ション) • 用途に合った物理形式を選択して利用 IMI概念モデル RDF形式 XML形式 日本語形式 オープンデータ用スキーマ データ交換用スキーマ スプレットシート用スキーマ、言語用 • 緩い定義 • 他のオープンデータとの親 • 和性 • 厳密な定義 • データベーススキーマと の親和性 • 緩い定義、単純な構造 • 人間可読性
  11. 11. コア語彙2 (バージョン2.2)リリー ス  コア語彙(HTML) http://imi.ipa.go.jp/ns/core/2/  コア語彙 XML スキーマ 名前空間: http://imi.ipa.go.jp/ns/core/2/  コア語彙 RDF スキーマ 名前空間: http://imi.ipa.go.jp/ns/core/rdf#  IEPD(情報交換パッケージドキュメント) IEPDは、コア語彙を使って情報を交換するためのテンプレート  住所  地物  施設  避難施設  イベント  医療機関  氏名  設備  組織  共通語彙基盤およびコア語彙に関するドキュメント  共通語彙基盤概要 http://imi.ipa.go.jp/doc/IMI_Overview_v2.pdf  コア語彙テクニカルガイドライン http://imi.ipa.go.jp/doc/IMI_Core2_TechGuide_v2.pdf
  12. 12. 語彙の設計方針  日本語の語彙とする  意味や構造は明確になるようにする  業界を越えての情報交換を可能にする  用途に応じて適した物理形式によるデータ交換・共有が可能 とするため、特定の物理形式に依存しないようにする  一部の項目を利用することや、項目を追加すること、他の語 彙との併用が可能となるようにする  継承などにより、コア語彙など基本的な語彙を最大限活用で きるようにする  既存システムの変更をすることなしに、データ交換の際に利 用できるようにする  順次導入が可能なようにする
  13. 13. 共通語彙基盤の語彙  共通語彙基盤の「語彙」は、一般的な「語彙」とは異なり、単純な言葉の集合では なく、ファイルやインターネットなどを介して行われるコンピュータ間のデータ通信 を円滑かつ確実に行うことを目的とした、意味や構造、言葉と言葉の関係などを 明確にした言葉の集合である。共通語彙基盤では、それぞれの言葉を「用語」と 呼ぶ。  「用語」は、ある特定の意味あるいは概念を示すものであり、構造をもっています。 「用語」は、文字を組み合わせた表記である項目名(用語名)により参照される。 また、用語は、その意味あるいは概念を、用語や文字列などを型とするプロパ ティの集合として表現する。  たとえば、「期間」という用語を「開始日時」、「終了日時」、「説明」という下位の用 語から構成すると定義することができる。 • 期間 開始日時 終了日時 説明
  14. 14. 用語の種類  「クラス用語」と呼ばれる用語と「プロパティ用語」と呼ばれる用語 の2種類の用語。どちらも言葉として意味をもっているので「用語」 と呼ぶが、その構造は大きく異なる。  クラス用語 用語の内、後述のプロパティ用語を子要素としてもつ構造を持っ た用語。他のクラス用語を拡張することで、自身がもつプロパティ 用語と拡張元のクラス用語がもつプロパティ用語の両方をもつク ラス用語を定義することも可能  プロパティ用語 用語の内、クラス用語と他のクラス用語や値とを関連付けるもの。 コア語彙においては、どのプロパティ用語もそれぞれ一つ以上の クラス用語から参照される。
  15. 15. クラス用語  項目名、説明、継承、及び、プロパティ用語の集合で構成される  各プロパティに対して、カーディナリティ(出現数)とクラス用語における意味の説 明をもつ ※ 「クラス用語」とは、項目名のことではないことに注意
  16. 16. クラス用語の継承  他のクラス用語を継承して新たなクラス用語を作成することができる  継承したクラス用語は、継承元のすべてのプロパティをもつ  継承したクラス用語は継承元にないプロパティを追加することができる  継承したクラス用語は継承元のクラス用語としても使用できる。例えば、 データ型が「組織」となっているプロパティには、「業務組織」の値を指定 することができる。 継承 追加
  17. 17. プロパティ用語  クラス用語を説明するためのクラス用語や値を表すための用語  項目名、データ型、及び説明から構成される  データ型はクラス用語の型かXMLスキーマで定義される基本型をとる  クラス用語の子要素として使用される
  18. 18. 用語の構造 人 氏名 ic:氏名型 連絡先 ic:連絡先型 : : 氏名 姓名 xsd:string 姓名カナ表記 xsd:string : : 連絡先 電話番号 ic:電話番号型 住所 ic:住所型 : : 電話番号 : : 住所 国 xsd:string 都道府県 xsd:string : :  プロパティ用語のデータ型としてクラス用語を指定することができる。そ の場合、データ型であるクラス用語がまたプロパティ用語をもつので、 図のような概念的な構造をもつ
  19. 19. データの作成とシリアライズ  「用語」は概念を定義するものであるため、実際に使用する際には、XMLやRDFなど目的に合った物理的 なデータ表現形式を利用。  共通語彙基盤では、このように物理的なデータ表現形式で表すことを「シリアライズ」と呼ぶ。  コア語彙2.2では、3種類のデータ表現形式をサポートする。 ※ 同じ概念を表現する場合であっても物理形式毎にその表現方法が異なるため、異なる物理形式間での完全な変換を 保障するものではない。  XML Schema形式:共通語彙基盤では、主にファイルによるデータ交換やデータ転送、及び集約型のマッ シュアップなどに用いられることを想定  RDF Schema形式:共通語彙基盤では、主にネットワークを通したデータ間の関係性記述や、オープン データの公開・活用に用いられることを想定  自然言語形式:XMLやRDF等の構造化仕様を用いずに、各用語の構造を自然言語に近い形式で表現す る形式。CSVデータのヘッダ等として利用される。主に、既存データからの変換やデータ作成の用途に用 いられることを想定 コア語彙 XML Schema RDF Schema 自然言語 XMLデータ RDFデータ CSVデータ等 シリアライズ 物理形式の語彙を用いて データを表現 (インスタンス化) (1)論理形式 (2)物理形式 利用者B 利用者C利用者A 利用者が目的に合わせて 語彙のデータを利用 データ
  20. 20. コア語彙  様々な分野のデータの中で共通に使用される用語で構成  48個のクラス語彙と206個のプロパティ語彙 物や事象を表す用語 物や事象の説明を行う用語 値に関する用語 クラス語彙  人  施設  駐車場  建物  組織  法人  業務組織  イベント  製品  製品個品  地物  設備  氏名  住所  場所  座標  ID  ID体系  コード  コードリスト  名称  連絡先  アクセス  アクセス区間  スケジュール  イベントスケジュール  定期スケジュール  詳細スケジュール  詳細スケジュール規則  構成員  施設関連  事物  実体  状況  組織関連  重量  価格  期間  時間  人数  数量  長さ  面積  容量  電話番号  日時  日付  金額  測定値
  21. 21. イベント (分野に特化した イベント) (分野に特化 した用語) (追加情報1) (文字列など)(追加情報2) 分野別語彙 基本語彙 場所場所 イベント スケジュール スケジュール 時刻開始時間 住所住所 座標地理座標 時刻終了時間 拡張 コア語彙の利用イメージ
  22. 22. 消費者 小売店 再販業者 業界団体 製造者 行政 流通  業界毎に言葉やデータ形式が異なっていても業界を超えてデータを共有可能  既存のシステムの大きな改変をせずにデータの共有ができる  必要な部分から順次導入が可能  項目の意味が明確になる 製品名 コード 製造者 出荷先 製造者した 組織の名称 製造者 製品 名前 住所 名称 コード 商品名 商品コード 価格 入荷日 製造者 製造者の氏名 製造者の組織 の名称 製造者の住所 製品の名称 製品の名称 製品の名称 製品のコード 製品のコード 製品のコード コア語彙の使用イメージ 出荷先の組織 の名称
  23. 23. IMI共通語彙の利用に向けて
  24. 24. どうやって活用するか • 様々なドキュメントが提供されているが、どう使えば良いのか。 コア語彙 情報連携 パッケージ (IEP) ツール 情報交換に使用すべき語彙 が定義されている。社会で共 通的に使う語彙についてグ ループ化されている 情報交換するための具体的な 使用方法を提供している。 実際に組み込んだ事例を示す。 システム等を整備する時に、使える データ項目がないか確認する。 基本的な項目のデータ構造を元に、 自サービスで導入するためのカスタマ イズを行う。 データ項目の追加・削除や、使用する コードの指定なども行われる。 データ変換に活用する。 事例 実際に組み込んだ事例を示す。 導入の参考にする。 内容 使い方
  25. 25. アプリ開発で活用 25 AEDにはどんなデータが 必要なんだろう? こんなところにIEP があった 活用するデータ項目は、これとこれ。 そうだ、IEPにはないけど、 この項目を追加しよう みんなが使えるように、 新しいIEPを登録しておこう。 企画や設計のデータ検討時間を短縮 企画の高度化に注力 IEPを活用 コア語彙も活用 1. やりたいことを決定 2. 関連IEPやコア語彙を抜粋 3. 利用するデータ項目を抜粋 4. 不足するデータを追加 5. 実装 6. (IEPを登録)
  26. 26. 行政情報へのIMI適用事例:AED Search • AEDの情報は、自治体や企業から公表されていたが、記述内容がバラバラで有り、 広域アプリケーションができなかった。また、実用には情報項目が不足していた。  IMIのデータ構造に合わせることにより、設計時間の短縮、広域でのサービス構築 が可能になった。 47都道府県の200市町村区以上のデータ 必須項目 LocationName NVARCHAR(MAX), -- 名称 Perfecture NVARCHAR(MAX), -- 都道府県 City NVARCHAR(MAX), -- 市区町村 AddressArea NVARCHAR(MAX), -- 町名以降 Source NVARCHAR(MAX), -- 情報源(URLなど) オプション Latitude -- 緯度経度座標系_緯度 Longitude -- 緯度経度座標系_経度 ScheduleDayType -- 利用可能時間 ScheduleDayStartTime -- 開始時間 ScheduleDayEndTime -- 終了時間 FacilityPlace -- 設置場所(※受付横と か) FacilityNote -- 補足 Id LocationName -- 場所_地名【名称】 Perfecture -- 構造化住所_都道府県 City -- 構造化住所_市区町村 AddressArea -- 構造化住所_町名 Latitude -- 緯度経度座標系_緯度 Longitude -- 緯度経度座標系_経度 FacilityId -- 公共設備_ID FacilityName -- 公共設備_名称 Facilitytdlace -- 公共設備_設置場所【設置場所】 ScheduleDayTytde -- 公共設備_利用可能時間【利用可能時 間】 ScheduleDayStartTime -- 開始時間 ScheduleDayEndTime -- 終了時間 AccessAvailabilityOfPad -- 公共設備_建物内外【建物内外】 FacilityUser -- 公共設備_利用者【利用制限】 DayOfInstallation -- 公共設備_設置日 PhotoOfAedUrl -- 公共設備_写真URL【写真】 Url -- 公共設備_ホームページ【ホームページ】 FacilityOwner -- 公共設備_設置者【設置者】 FacilityOperater -- 公共設備_管理者 ContactPoint -- 公共設備_連絡先【連絡先】 ContactTelephone -- 連絡先_電話番号 ContactExtension -- 連絡先_内線番号 FacilityNote -- 公共設備_補足【補足】 TypeOfPad -- AED_パッド種類 ExpiryDate -- AED_有効期限 ExpiryDateOfPads -- AED_パッド有効期限 ExpiryDateOfBatteries -- AED_バッテリ有効期限 TypeOfDefibrillator -- AED_タイプ ModelNumber -- AED_モデルナンバー SerialNumber -- AED_シリアルナンバー Source -- メタデータ_情報源 DateOfUpdatingInformation -- 更新日時 共通語彙基盤 IODD2014 公共設備APPS 開発支援キット (データ項目・構造) ハッカソン、 開発者等 に提供 データ構造に基づくアプリ開発 JSON Data - AED位置情報 のフォーマット 広域でのアプリ開発、デー タ共有が効率的に可能 http://hatsunejournal.jp/w8/aedSearch/
  27. 27. 語彙利用の現実的アプローチ 〜段階的データ構造化〜 • 各行政機関は、できる範囲でレベル感を選択 • データ項目を定義することで、自動解析を容易化。 • 蓄積した情報はレベルAで蓄積 • レベル指定の無い情報はレベルDのまま。 • ビューとしては、レベルAとDを用意 [日時] [場所] [期限] [日時] [場所] レベルA ・詳細レベルまで細分化 レベルB ・本文の中項目レベルで細分 化 ・[]タグで下位の項目を明記す ることを推奨 レベルB ・本文の大項目レベルで細分 化 ・[]タグで下位の項目を明記 することを推奨 レベルC ・本文は自由記述 ・[]タグで下位の項目を明 記することを推奨 記述内容にルールをはめることで、分割可能 逆に表示する時には、合成して作成
  28. 28. 世界に向けて
  29. 29. 世界に向けて NIEM ISA JoinUp UN CEFACT IMI • 日・米・欧の関係機関が 「Community of Practice on Core Data Models 」 の設立 • 目的 – Good Practiceの共有 – 各国の基本語彙間のマッピング • 初期メンバー – 欧州委員会DG Informatics – 欧州各国(12カ国)の担当組織 – 米国NIEM – 日本IMI
  30. 30. 世界に向けて • SEMIC 2015 - Semantic Interoperability Conference – 招待講演:和田氏(経産省)、田代氏(IPA) • Workshop: Community of Practice on Core Data Models – 各コアモデル間のマッピング
  31. 31. 今後の予定 • 語彙データベースの整備 – 語彙を検索したり、データテンプレートなどの共有を行う語彙データベースを 整備する。 • ツールの整備 – データの作成や変換を支援するツールなど、共通語彙基盤の語彙を容易に 利用できる環境を整備する。 • ID体系、コードリストの整備 – 性別や地理座標フォーマットなど汎用的に使用されるコードリストを整備する。 • ドメイン語彙の整備
  32. 32. ありがとうございました。

×