統計データのLOD化とデータ間の関係の表現

  • 961 views
Uploaded on

経済産業省のデータポータル、Open Data METIにおいて公開された工業統計調査のLOD化について述べる。統計表をどのようにLOD化するのかが適切かを議論し、現在W3Cで策定中の標準Data Cube語彙に基づいて工業統計調査データの一部をLOD化した結果とLOD化したデータの使い方を説明する。

経済産業省のデータポータル、Open Data METIにおいて公開された工業統計調査のLOD化について述べる。統計表をどのようにLOD化するのかが適切かを議論し、現在W3Cで策定中の標準Data Cube語彙に基づいて工業統計調査データの一部をLOD化した結果とLOD化したデータの使い方を説明する。

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
961
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
0
Comments
0
Likes
7

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 統計データのLOD化とデータ間の関係の表現武田 英明*1*2*3 加藤 文彦*3*4 小出 誠二*3*4松村 冬子*3*5 大向 一輝*1*2*3 小林 巌生*3*6岩山 真*7 浅野 優*7 濱崎 雅弘*8*1 国立情報学研究所 *2総合研究大学院大学*3リンクト・オープン・データ・イニシアティブ *4情報・システム研究機構*5青山学院大学 *6Open Community Data Initiative*7日立製作所 中央研究所 *8産業技術総合研究所2013年度人工知能学会全国大会、富山、2013年6月4日
  • 2. Open Data METI
  • 3. 統計の表のLOD化図1 工業統計調査の結果の表の例
  • 4. 統計データのLOD化図1 工業統計調査の結果の表の例
  • 5. RDF Data Cube Vocabulary• W3C Working Draft– W3C e-government Interest Groupで議論• 統計データの(メタ)スキーマ– 各統計表の定義をするための語彙を提供– 統計の語彙はSDMXから• LOD化の基本的考え方– データ中心主義
  • 6. RDF Data Cube Vocabularyのメリット• 個々の観測値や観測値のグループが、(ウェブ)アドレス可能になる。それにより公開者と第三者がこのデータを注釈づけし(annotate)、リンク付けすることが可能となる。たとえば、ある報告書が詳細な出典のトレースバックを考慮した特定の図を参照することが可能となる。• データをデータセット横断的に、あるいは統計セットと非統計セットをフレキシブルに組み合わせることが可能になる(たとえば、宗教的寛容さに関連した国民的指標の高い値の国勢調査の領域で、すべての宗教的学校を発見するなど )。統計データはリンクトデータのより広範なウェブの不可欠な一部となる。• リンクトデータとして公開することで、現在静的なファイルのみを提供しているような公開者には、フレキシブルな、かつ非プロプライエタリな機械可読可能な公開の手段を提供することになり、プログラムからアクセス可能なすぐに使えるウェブ API をサポートすることになる。• 標準化されたツールやコンポーネントの再利用が可能となる。
  • 7. RDF Data Cube Vocabularyの基礎• 一つのデータ構造(表)はいくつかのコンポーネント(component)によって定義される• 次元コンポーネント(dimension Component)は観測値を同定するもの– 次元コンポーネントの値の集合は一個の観測を同定する。たとえば一つの観測値には観測された時間や観測がカバーする地理学上の領域が含まれる。• 測度コンポーネント(measure component)は計測された値であり観察された現象を表現• 属性コンポーネント(attribute component)は観測された値を限定し、解釈することを可能にする。– 測度の単位やスケーリングファクタを指定することを可能にし、どんなスケーリングファクタや観測値の状態(推測値あるいは暫定値)のようなメタデータも指定することもできる。
  • 8. ktsh:refSangyoChuBunrui a qb:DimensionProperty ;rdfs:label "日本標準産業分類(中分類)"@ja ;rdfs:range jsic:JsicConcept .sac:refPrefecture a qb:DimensionProperty ;rdfs:label "reference area (prefecture)"@en ;rdfs:label "都道府県"@ja ;rdfs:subPropertyOf sdmx-dimension:refArea ;rdfs:range sac:Prefecture ;qb:concept sdmx-concept:refArea .ktsh:numberOfEmployees a qb:MeasureProperty ;rdfs:label "従業者数(人)"@ja ;rdfs:subPropertyOf sdmx-measure:obsValue ;sdmx-attribute:unitMeasure ktsh:UnitOfPerson ;
  • 9. kougyo:k6-data-j-2000t a qb:DataStructureDefinition ;rdfs:label "工業統計表「市区町村編」データ (経済産業省大臣官房調査統計グループ)2.市区町村別、産業中分類別統計表(スキーマ)"@ja ;# dimensionqb:component [qb:dimension ktsh:refMunicipality; qb:order 1] ;qb:component [qb:dimension ktsh:refSangyoChuBunrui; qb:order 2] ;qb:component [qb:dimension ktsh:refYear; qb:order 3] ;# measureqb:component [qb:measure ktsh:numberOfEstablishments] ;qb:component [qb:measurektsh:numberOfEstablishments_withBetween30To299Employees] ;qb:component [qb:measure ktsh:numberOfEstablishments_with300OrMoreEmployees] ;qb:component [qb:measure ktsh:numberOfEmployees] ;qb:component [qb:measure ktsh:valueOfTotalCashWagesAndSalaries_by10ThousandYen] ;qb:component [qb:measure ktsh:valueOfRawMaterials_by10ThousandYen] ;qb:component [qb:measurektsh:valueOfManufacturedGoodsShipments_by10ThousandYen] ;qb:component [qb:measurektsh:valueOfManufacturedGoodsShipments_otherRevenues_by10ThousandYen] ;qb:component [qb:measure ktsh:grossValueAddedForEstablishments_by10ThousandYen] ;qb:component [qb:measurektsh:valueOfTangibleFixedAssets_atYearEnd_by10ThousandYen] ;# attributesqb:component [qb:attribute sdmx-attribute:unitMeasure; qb:componentAttachmentqb:DataSet] ;
  • 10. kougyo:h22-k6-data-j-2000 a qb:DataSet ;qb:structure kougyo:k6-data-j-2000t ;rdfs:label "平成22年工業統計表「市区町村編」データ (経済産業省大臣官房調査統計グループ) 「平成24年4月13日公表」 2.市区町村別、産業中分類別統計表"@ja ;.kougyo:h22-k6-data-j-2000-00000001 a qb:Observation ;qb:dataSet kougyo:h22-k6-data-j-2000 ;ktsh:refMunicipality sac:C01 ;ktsh:refSangyoChuBunrui jsic:C00 ;ktsh:refYear 2010 ;qb:measureType ktsh:numberOfEstablishments ;ktsh:numberOfEstablishments 5931 ;.kougyo:h22-k6-data-j-2000-00000002 a qb:Observation ;qb:dataSet kougyo:h22-k6-data-j-2000 ;ktsh:refMunicipality sac:C01 ;ktsh:refSangyoChuBunrui jsic:C00 ;ktsh:refYear 2010 ;qb:measureType ktsh:numberOfEstablishments_withBetween30To299Employees ;ktsh:numberOfEstablishments_withBetween30To299Employees 1121 ;.kougyo:h22-k6-data-j-2000-00000003 a qb:Observation ;qb:dataSet kougyo:h22-k6-data-j-2000 ;ktsh:refMunicipality sac:C01 ;ktsh:refSangyoChuBunrui jsic:C00 ;ktsh:refYear 2010 ;qb:measureType ktsh:numberOfEstablishments_with300OrMoreEmployees ;ktsh:numberOfEstablishments_with300OrMoreEmployees 55 ;.kougyo:h22-k6-data-j-2000-00000004 a qb:Observation ;qb:dataSet kougyo:h22-k6-data-j-2000 ;ktsh:refMunicipality sac:C01 ;
  • 11. コード体系のLOD化• 統計の中に定義されたコード体系が存在– 日本標準産業分類– 都道府県コード– 標準エリアコード(市区町村コード)– 工業地区コード• Data Cubeでの参照– Dimensionとして参照• これらのLOD化→SKOSの利用• 課題:変遷するコード体系間をどう扱うか– 時々、改訂される– 方策:• 実効期間つきノードのつながりで表現– 標準エリアコード、生物分類
  • 12. LOD Datasetの利用• RDFデータの利用方法– RDF Datasetのdownload [Open Data METI]– SPARQL Query [Open Data METI]– Applicationからの利用• CODE Project: Linked Data Query Wizard
  • 13. SPARQL Query例北海道の産業中分類別、有形固定資産土地(百万円)と従業員数PREFIX ktsh:<http://datameti.go.jp/scheme/kougyou-toukei-schema/>PREFIX kougyo: <http://datameti.go.jp/lod/kougyou-toukei/>PREFIX qb: <http://purl.org/linked-data/cube#>select distinct ?sanchu_label ?total_jugyoin ?landpricewhere {{select distinct ?sanchu (SUM(?jugyoin) AS ?total_jugyoin)where {?cell1 qb:dataSet kougyo:h22-k8-data-j-1003 .?cell1 ktsh:refSangyoSaiBunrui ?sansai .?sansho skos:narrower ?sansai .?sanchu skos:narrower ?sansho .?cell1 ktsh:refPrefecture<http://datameti.go.jp/scheme/standard-area-code/C01> .?cell1 ktsh:numberOfEmployees ?jugyoin .} Group by ?sanchu }?cell2 qb:dataSet kougyo:h22-k3-data-j-3220 .?cell2 ktsh:refSangyoChuBunrui ?sanchu .?cell2 ktsh:refPrefecture<http://datameti.go.jp/scheme/standard-area-code/C01> .?cell2ktsh:valueOfTangibleFixedAssets_purchase_lands_byMillionYen ?landprice .?sanchu rdfs:label ?sanchu_label .}
  • 14. CODE: Commercially Empowered Linked OpenData Ecosystems in Research• RDF Dataの様々な操作ツールを提供する– 抽出、統合、格納、収集、可視化、解析• ツール– CODE PDF Extractor (CoPE)– CODE Data Extractor and Triplifier (CoDeT)– CODE Query Wizard (CoQuWi)– CODE Visual Analytics Wizard (CoVA)http://www.code-project.eu/
  • 15. CODE Query Wizard (CoQuWi)http://code.know-center.tugraz.at/search
  • 16. phttp://bit.ly/17kILiiDataset-> http://bit.ly/17kJgJf例:
  • 17. CODE Visual Analytics Wizard (CoVA)
  • 18. LOD化のメリット、デメリット• メリット– データ記述の標準化(URI付与とRDF化)• 統計以外のデータとの統合• 個別データの外部参照• 標準ツールの利用– データの意味づけ(Data Cubeによる記述)• 個別的、部分的データが利用可能• 異なる表間でのデータの統合が容易• 標準ツールの利用– 意味づけの共有による知識の共有• デメリット– 変換のコスト• Data Cubeによる記述の作成• データ変換– データ量の増大、計算量の増大• 例:CSV: 1.7MB -> ttl: 61.9MB– 意味づけの共有のコスト(理解、再利用)
  • 19. おわりに• できたこと– 統計データのLOD化の実践• データの記述• データの利用• 今後の方向、課題– データ量の増大– “非統計的”利用ケース• “北海道”の“靴”に関するデータを見たい– 他の統計等の相互利用• 国内、国外
  • 20. http://bit.ly/15t99mS