Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

2017Rユーザ会用

80 views

Published on

2017/11/25

Published in: Education
  • Be the first to comment

  • Be the first to like this

2017Rユーザ会用

  1. 1. 国内外の政府統計コミュニティ におけるRの活用について 独立行政法人 統計センター 和田 かず美 椿 広 計 2017年度統計数理研究所共同研究集会「データ解析環境Rの整備と利用」 2017年11月25日(土)統計数理研究所 セミナー室5 本発表の内容は、全て発表者個人に属し、所属組織の公式な見解を示すものではありません
  2. 2. 目次 I. 身近な動きからみる国内の動向 II. EBPMについて • EBPMのエビデンス • 国際機関 • 英米EU III. 公的統計部門の動向 • 各国とEUの統計作成事情 • 公的統計部門におけるRの利用事例 IV. 公的統計部門におけるRの普及 UNIDO・ オーストラリア統計局・ニュージーラン ド統計局・ノルウェー統計局・ルーマニア統計局
  3. 3. I. 身近な動きからみる 国内の動向
  4. 4. 身近な動向 総務省統計研究研修所  統計技術に関する研究  国家公務員及び地方公務員に対する統計の基礎理論、 分析等の統計に関する専門的な研修の企画及び実施 他府省や地方公共団体からの要望によるR研修ニーズの増大  平成27年度から、本科(各種行政施策の企画・立案・ 評価に必要な統計を教える三ヶ月の講座)で教えるRを、 メニュー形式のR Commander利用から、より本格的な 処理が可能な通常のRに転換  平成28年度にRの1日初心者講座を新規開設  平成29年度から 1日講座を年2回に 4
  5. 5. なぜR研修ニーズが増えているのか? • EBPM: Evidence-Based Policy Making の要請に よる、政策立案のための分析ニーズの高まり • フリーの統計ソフトの普及とPCの性能向上 • 外注できないセンシティブな内部データも活用 したいというニーズ 統計関係の部局の所属ではなく、これまで分析やデータ処理の 経験がない職員の受講も増えている 5
  6. 6. 国内のEBPMに関連する大きな動き  2009年新統計法全面施行 60年ぶりの統計法改正により、公的統計の位置付け を「行政のための統計」から「社会の情報基盤として の統計」に転換  高度情報通信ネットワーク社会推進戦略本部(IT 総合戦略本部) 官民データ活用推進基本法の制定 ⇒ 基本計画の策定  経済財政諮問会議 統計改革の基本方針 ⇒統計改革推進会議 6
  7. 7. IT総合戦略本部 • 「世界最先端IT国家創造宣言」 H25.06.14閣議決定、その後H29.05.30に世界最先端IT国家 創造宣言・官民データ活用推進基本計画に伴う廃止まで、毎年 全文変更 ビッグデータの活用とオープンデータ推進 • 「官民データ活用推進基本法」[平成28 年法律第103 号]と、「世界最先端IT国家創造宣言・官民データ 活用推進基本計画」[H29.05.30閣議決定] EBPMの環境整備として、分野横断的なサービスプラットホー ムの整備(データ標準化、API、マイナンバー制度活用等) EBPMの推進: 各府省にEBPM推進統括官をおき、各府省の取り 組みを総括するとともに、政府横断的なEBPMの推進に取り組む ため、EBPM推進委員会を設置する データ活用のための専門知識・技術を持つ人材の育成 小・中・高等学校でのプログラミング教育の充実 7
  8. 8. 経済財政諮問会議 ① 経済財政運営と改革の基本方針2015[H27.06.30閣議 決定] 公共サービスに関する情報の「見える化」とエビデンスに基づくP DCAの重視 ② 統計改革の基本方針[H28.12.21] エピソード・ベースの政策形成から、エビデンス・ベースへ 「エビデンス / 証拠」となる統計等の整備・改善や、 ユーザーニー ズを反映した統計の重要性への認識 • 統計委員会・統計行政部門の強化等 • 統計改革推進会議の設置 ← 次のスライド ③ 経済財政運営と改革の基本方針2017[H29.06.09閣議 決定] 重点課題6: 統計改革の推進 証拠に基づく政策立案(EBPM)と統計の改革を一体的に推進する 8
  9. 9. 統計改革推進会議 政府全体における証拠に基づく政策立案(EBPM)の定着、 国民のニーズへの対応等の観点から、抜本的な統計改革及び 一体的な統計システムの整備等を政府が一体となって強力に 推進するために必要な検討を行う 最終取りまとめ[H29.05.19]  EBPMの推進体制の構築  公的統計の改革  国・地方の職員一般のデータ・リテラシーの確保  社会全体のデータ・リテラシー向上のため、大学の統計 教育との連携・協力 9
  10. 10. 国・地方公共団体の職員に求められる データ・リテラシーとは データに基づく合理的な思考により課題を解決す る能力(情報処理技術の発展に伴うデータ処理・分 析能力の高度化に伴い世界的に求められている、統 計的な計算力にとどまらない行政課題の解決に向け た統計的な思考力など) EBPM ⇒ エビデンスに基づく問題解決 問題の発見、要因の分析と効果の確認 • 因果関係を考える • 擬似相関やバイアスに留意する 10
  11. 11. Ⅱ. EBPMについて • EBPMのエビデンス • 国際機関 • 英米EU
  12. 12. 「エビデンスに基づく政策」に 関するエビデンス [森川, 2017] • EBPの必要性への認識は極めて高いが、政策実務者はそれがあ まり実行されていないと認識、政策研究者・国民一般の見方は さらに厳しい • EBPの障害は、統計データの解析や学術論文を理解するスキル の欠如で、エビデンスと無関係に政策決定が行われ、政策現場 にEBPの慣行・組織風土が乏しい • 高学歴者、特に理系出身者はEBPの必要性への意識が高い • 定量的に、日本政府の白書における学術研究に基づくエビデン スの活用度は、国際標準に比べて十分ではない 政府の政策実務者、RIETIの政策研究者、国民一般を対象と した意識調査を行い、意識の違いについて分析した 12
  13. 13. • OECD - 2004年 ”Statistics, Knowledge and Policy: Key Indictors to Inform Decision Making”第1回国際フォーラム(Palermo) 経済・社会・環境政策の質評価指標の設定に基づくパフォーマンスの定量的評価(KPI) - EBPの定義: 政策形成や政策オプションの選択において、既存の最も良いエ ビデンスの誠実で明示的な活用[OECD, 2007] • 2015年第3回IMF統計フォーラム(ドイツ連邦銀行共催) "Official Statistics to Support Evidence-Based Economic Policymaking" - the relevance of micro data for evidence-based policymaking; - big data and micro-data hubs; statistics on a from-whom-to-whom basis; - macroeconomic impacts of natural resources; and measuring material conditions • 世界銀行 開発インパクト評価 Development Impact Evaluation: DIME 国際機関 [山名, 2017] 13 政策形成への統計情報の活用
  14. 14. 英国 1997年以降、ブレア政権が本格導入(田中, 2017) 1999年の白書「政府のモダニゼーション」以降 (UK Cabinet Office 1999: 15-16)、政策形成に際 し最良の情報あるいは客観的なエビデンス)を用 いるべきという主張が,OECD 諸国の行政に広 がった。 (原田, 2013 ) 現在、官民出資のWhat Works Centre (WWC)とい う組織が、エビデンスを創出・伝達・適用する機 関として内閣府から認定を受けて活動している。 (田中, 2017 ) 14
  15. 15. 米国 • EBPMについては1960年代から議論が進んでい る(田中, 2017) • Commission on Evidence Based Policy Making エビデンスに基づく政策立案のための評議会 Evidence-Based Policymaking Commission Act of 2016が2016年3月に成立し設置された。 評議会は、連邦政府に関するデータ、統計プロ トコル等について包括的な議論を行い、政策立 案のためのエビデンスを生み出すためのデータ インフラ整備・拡張への提言を行う。 参考資料: http://www.mext.go.jp/b_menu/shingi/chousa/gijyutu/025/shiryo/__icsFiles/af ieldfile/2017/03/14/1383033_03.pdf 15
  16. 16. EU 欧州2020(Europe2020 / EU2020) 2010年からの10年間のEUの経済・社会政策。 成長を促進する三つの要因を、smart growth, sustainable growth及びinclusive growthとし て、雇用、研究開発・技術革新、気候変動・エ ネルギー、教育、貧困・社会的疎外という5つの 政策目標を掲げる。 EU2020の各項目には、各国が目標とする統計 指標の数値が設定されている。 16
  17. 17. EU2020 / InGRID Inclusive Growth Research Infrastructure Diffusion の略で、EU2020 の5つの目標うち最後の「貧困・社会的疎外」のためのプロジェクト。 EU域内の17の研究機関が参加し、2013年2月から2017年1月までに、 主に以下の3つの活動を行った。 • 公開されるデータインフラへの国を超えたアクセスを提供する • 相互の知識交換活動を組織する • 比較研究のためのツールや方法論の改善について、共同研究活動 を組織する このプロジェクトは、これらの活動により、”evidence-based European policies”の発展に主要な役割を果たすことを目標としてい る。 2017年2月からは、次期プロジェクトInGRID2に移行。 Inclusive Growthの直訳は「包括的成長」で、経済成長やグローバ ル化の恩恵を、広く平等に社会全体に行き渡らせることを指す。 NTTS2017 17
  18. 18. EBPM関係の参考文献 家子・小林・松岡・西尾(2016)「エビデンスに基づく政策形成:イギリスにお ける『エビデンスに基づく政策』の動向、ランダム化比較実験による実証、 及び日本への示唆」, 三菱UFJリサーチ&コンサルティング政策研究レポート. 田中(2017) 「新たなICTを活用したエビデンス・ベースの政策運営~国や地方 公共団体政策部門における官民データ活用~」NTTデータ経営研究所 原田(2013)「エビデンスに基づかない政策形成? : 食品安全行政を素材にし て」, 立教法学第87号, pp.224-205. 森川(2017)「『エビデンスに基づく政策』に関するエビデンス」RIETI Policy Discussion Paper Series 17-P-008, (独)経済産業研究所(RIETI). 山名(2017)「『エビデンスに基づく政策形成』とは何か」, シリーズ日本経済 を考える68, 財務総合政策研究所 European Commission (2013), Scientific Evidence for Policy-Making, EUR 25765, Directorate-General for Research, Socio-economic Sciences and Humanities, Luxembourg: Publications Office of the European Union. OECD (2007) Evidence in Education : Linking Research and Policy, OECD, Paris. 18
  19. 19. Ⅲ. 公的統計部門の動向 • 各国の統計作成事情 • EU諸国の事情 • 公的統計部門におけるRの利用事例 NTTS2017とuRos2017を中心に
  20. 20. 各国の統計作成事情 • 人員・コストの削減 • 統計調査環境の悪化に伴う欠測の増大 • 調査負担軽減 • 行政データの活用 • ビッグデータ活用 • 推定技術の活用 「デザインベースからモデルベース、モデル アシステッドへ」 20
  21. 21. EU域内諸国の状況  European Statistical System (ESS) ヨーロッパ統計システム 加盟国間の統計の比較性を確保する 統計調査の実施時期、カバレッジ、統計分類、集計 項目や公表時期など、定められた基準に沿う統計デー タを提出するのは、加盟国の統計部局の仕事 既存統計の時系列的な継続性に問題が起こることも 時系列の断層を埋めるために推定技術を活用 21
  22. 22. NTTS2017 NTTS: New Techniques and Technologies for Statistics 2017.03.13-17にベルギーのブリュッセルでEurostatが開催した、 公的統計のための新技術や手法と、統計の収集・作成と公表シス テムへの新技術の影響についての国際学会。 uRos2017 uRos: New Challenges for Statistical Software –The Use of R in Official Statistics- 2017.11.06-07にブカレストでルーマニア統計局が主催した、公的 統計におけるRの利用に関する国際学会。統計局内の研究会的に スタートし、今年が第5回。Rコンソーシアムが後援、 ICMS2017 がアジア太平洋地域版会合としてマレーシアでパラレル開催。今 後EU加盟国とルーマニアで交互に開催予定。 https://ec.europa.eu/eurostat/cros/NTTS2017_en https://ec.europa.eu/eurostat/cros/ntts2017programme/day_1.html http://www.r-project.ro/conference2017/ 22
  23. 23. NTTS2017 セッション19A 23
  24. 24. 公的統計部門におけるRの利用事例 A) Linked Open Data (LOD) B) 小地域推定(SAE: Small Area Estimation) C) 地図情報の活用 D) Shiny E) データエディティングや補完(imputation) F) 秘匿 G) 報告書作成 開発ツールの共有は、従来からコスト削減のために広く行われている。Rパッ ケージ以外にも、NTTS2017では、インフォグラフィックについてもEU内で 共有する取り組みについて紹介された。 24
  25. 25. A) EU-US オープンデータプロジェクト Eurostat (EU統計局) と BEA (U.S. Bureau of Economic Analysis: 米国商務省経済分析局) との間のLODについて の協力プロジェクト 元々両者ともデータ入手のためのAPI機能を個別に 持っているが、このパッケージにより比較可能なデータ を一度に入手できるようになった 2016年7月 BEAがEurostatに打診 2016年8~9月 比較可能なデータセットの特定 2016年9~10月 Rパッケージ開発 2016年11月 Rパッケージ、アルファ版をGithub公開 NTTS2017 Luca Gramaglia and Denis Grofils (Eurostat) https://www.bea.gov/developers/r-index.htm https://www.youtube.com/watch?v=-fGGsYE0wQM 25
  26. 26. B) Rによる小地域推定の メキシコ収入データへの適用 emdiパッケージの開発者による、 CRANのタスクビュー "Official Statistics & Survey Methodology" で紹介されている小地 域推定(SAE)のための以下のようなRのパッケージの紹介。 • nlme, lme4: 混合効果モデル • rase: ロバストな平均値予測 • hbsae: 調査単位・地域レベルのモデル推定(最尤法か階層ベイズ) • JoSAE: 一般化線形回帰モデル対応 • emdi: ユーザーフレンドリーで特にお勧め メキシコINEGIが2年に一度実施している家計調査への適用事例 メキシコ統計局が2年に一度実施している家計調査へのemdi パッケージの適用事例あり。 NTTS2017 Ann-Kristin Kreutzmann (Freie Universität Berlin), Sören Pannier (Freie Universität Berlin), Natalia Rojas-Perilla (Freie Universität Berlin), Timo Schmid (Freie Universität Berlin), Matthias Templ (Zürcher Hochschule für Angewandte Wissenschaften), Nikos Tzavidis (University of Southampton) 26
  27. 27. Official Statistics & Survey Methodology • Complex Survey Design: General Comments • Complex Survey Design: Details • Complex Survey Design: Point and Variance Estimation and Model Fitting • Complex Survey Design: Calibration • Editing and Visual Inspection of Microdata • Imputation • Statistical Disclosure Control • Seasonal Adjustment and Forecasting • Statistical Matching and Record Linkage • Small Area Estimation • Indices and Indicators and Visualisation of Indicators • Microsimulation • Additional Packages and Functionalities CRAN Task View: Maintainer: Matthias Templ 27
  28. 28. C) オランダ統計局のドットマップ ドットマップは、人口を人種で色分けしたドットで表示した インタラクティブな統計地図 http://research.cbs.nl/colordotmap/NL/index.html ※ ドットはランダムに近隣に霍乱させ個人特定を防止 地図のタイルサーバー • Google Mapなどで使われている共通技術 • 130万の256×256 pngイメージ (3GB) • Rにより作成(tmap, png, raster 及び doParallel パッケージ) インタラクティブな地図 • ドラフト版はRの短いコード (tmap 及び leaflet パッケージ) • 最終版は、HTMLとJavaScript (leafletライブラリ) NTTS2017 Martijn Tennekes and Edwin de Jonge (Statistics Netherlands) 28
  29. 29. D) Shinyによる sdcMicro のための新たなGUI オーストリア統計局関係者が開発したsdcMicroパッケージに、 shinyにより非RユーザーのためのGUIインタフェースが組み込まれた。 sdcMicroは、ミクロデータを秘匿化する機能を持つ。過去に同じ 目的でsdcMicroGUI がリリースされたが、技術上の問題が生じた。 その後、世銀とイギリス政府の支援によりshinyベースの新しいGUI インタフェースを開発。 shiny とは、Rstudio. Incが開発したRのパッケージの一つ。インタラクティブなRのWeb アプリケーションを簡単に作成することができる。詳細は http://shiny.rstudio.com/ へ。 NTTS2017 Bernhard Meindl (Statistics Austria), Alexander Kowarik (Statistics Austria), Matthias Templ (Zurich University of Applied Sciences (ZHAW)) sdcMicroの機能  世帯の下に数の決まっていない複数の個人が属するような、構造化データ にも対応  数量変数の場合、トップ/ボトムコーディングやミクロアグリゲーション、 ランクスワッピングや、ノイズの付加もできる 29
  30. 30. E) Statistical data cleaning with R Mark van der Loo (Statistics Netherlands) [パッケージ] uRos2017 validate: クリーニングルールの記述・適用・結果の可視化 validatetools: ルール管理 dcmodify: ルールを適用して実際にデータを修正する errorlocate: データの修正状況を表示し、原因究明を助ける deductive : deductive imputation* を行う VIM: 欠測値の可視化と補完 simputation: 様々な補完手法の提供 rspa: 補完済みデータへのルール適用 lumberjack: データの変更ログの管理 * deductive imputation : 同一調査単 位内で調査項目間の論理的な根拠 により行う欠測補完 発表スライドとデモコード http://github.com/markvanderloo/ uRos2017 30
  31. 31. F) ミクロデータと統計表のための 秘匿ツール オーストラリア統計局関係者により開発された二つのパッ ケージの紹介 • sdcMicro: ミクロデータを秘匿 初版から10年。ShinyによるGUIインタフェースにより、非 Rユーザーが利用できるようにするのが目標。μ-Argusの機能 も使えるようにする予定。 • sdcTable: 統計表を秘匿 τ-Argusとのインタフェースを開発中。また、ABS(オースト ラリア統計局)のcell key法や、アドオンとしてShinyのGUI機能 を持つノルウェー統計局開発のeasySdcTableも準備している。 uRos2017 Bernhard Meindl (Statistics Austria) EUのSDC(Statistical Data Confidentiality)ツール開発のSGA(Specific Grant Agreenemts)プロジェクト https://github.com/sdcTools/ sdcMicroはバグ報告歓迎、貢献したい方はプルリクエストをとのこと 31
  32. 32. G) knitr による刊行物作成の自動化 • knitr の可能性について 作業の効率化と費用削減 ソフトコーディングによる誤りの最小化 内容とデザインの一貫性と比較可能性の向上 • 事例紹介: Statistical country profiles 英・独二か国語表示で、多くの異なるデータソースか ら193か国について、PDFとインタラクティブなHTMLを 作成し、定期的に更新する uRos2017 Guido Schuultz (Federal Statistical Office of Germany) 32
  33. 33. Ⅳ. 公的統計部門における Rの普及 • UNIDO • オーストリア統計局 • オランダ統計局 • ニュージーランド統計局 • ノルウェー統計局 • ルーマニア統計局
  34. 34. Rの利用が進んでいる組織 国の統計部局 カナダ オーストリア オランダ イタリア アメリカ イギリスなど 国際機関 世銀 UNIDO FAO OECD など • ほとんどの組織が、Rの 利用は新規業務から • 従来ソフトの最大勢力は SAS 学会参加のUNIDO, ノルウェー、ド イツ、ルーマニアの統計部局関係者 に直接聞いてみたところ、少なくと もヨーロッパ諸国はほぼSASとのこ とでした 34
  35. 35. UNIDO(工業開発機関) 2008年、メインフレームからクライアントサー バへの切替に伴い、Rを導入。それまでの主流はSAS と.Net。 データ収集・交換から、欠測補完、報告書刊行に 至るまで、幅広くRを使用し、開発・公開パッケー ジも複数存在、Rに関する刊行物も二冊作成。 NTTS2017 uRos2017 yearbook: 報告書作成 rrcov : 外れ値検出 indstat : Industrial performance indicators算出のための データセットと事例集 35
  36. 36. Rの導入 非公式利用で、個人インストールの様々なバージョンが散在した、 現在インストールは標準化され、部署によりRの利用が公認 サポートと職場の方針 • Jiraによる職場のサポートと、方法論の担当部局 • サーバー上とデスクトップにRstudio • Rの各種プロジェクトについてのプレゼンを年二回 現在の状況 • 現在100インストールで、ユーザーは毎週40人前後 • Windowsデスクトップに、R, Rstudio, Latex, SVNとRtoolsを含むパッ ケージのインストール • 16コア、128GBメモリのUbuntuサーバー上にRstudio サーバー 今後の予定 • デスクトップのRの廃止 • Linux機上のRstudioサーバープロを全員に オーストリア統計局 uRos2017 Alexander Kowarik (Statistics Austria) and Mark van der Loo (Statistics Netherlands) 36
  37. 37. オランダ統計局 2010年のFOSS*のインストールが最初のハードル。今 では誰もがコードを書いている。 • アプローチ 熱心なリーダーを据えたプロジェクト ユーザーの類型別に3種類のインストールを準備 コードとドキュメンテーションを標準化 • 現状 200ユーザー、うちアクティブなのが100ユーザー程度 職場内のユーザーグループ kennR! uRos2017 *FOSS(Free and Open Source Software)とは、フリーソフトウェアやオープン ソースソフトウェアなど、利用者に自由が認められているソフトウェアの総称 Alexander Kowarik (Statistics Austria) and Mark van der Loo (Statistics Netherlands) 37
  38. 38. ニュージーランド統計局 RstudioとShinyの内部サーバーを設置し、組織内のRの利用を支援 • 小地域推定 Stanによるモデル選択 (rsStanパッケージ) と、Rmarkdownによる文書 化、Shinyを使い公表 • データ収集のモニタリング 2018年国勢調査のインタラクティブな日々のモニタリングを、Rと Shinyで行っており、自動化と利用の容易さという利点がある • 生命表の作成 地域・年齢・人種別の寿命の推定、 Rパッケージを内製し公開 https://github.com/statisticsnz/R Reproducible Research の重視 透明性確保や省力化、作成した統計への理解促進に役立つ DSSV2017 Chris Hansen, Tracey Savage and Gareth Minshall (Statistics New Zealand) 38
  39. 39. ノルウェー統計局 • 内部のRプログラミングガイドは、GoogleのRスタイルガイド が出発点 • OSフリーなコードを推奨 => data.table や dplyrパッケージの利用は必要最低限 • 外部パッケージや関数などは、内部用にカスタマイズし標準化 ただし標準は絶対的なものではなく、必要に応じて標準外の関数も 作成するが、標準化された関数から呼び出す形にして内部公開する 外部パッケージの関数も、標準化された内製関数から呼び出す。 • 地方からのデータ収集システムであるKOSTRAの近代化プロ ジェクトで、方法論のRライブラリを組み込む報告 Øyvind Langsrud (Statistics Norway) 39 uRos2017
  40. 40. ルーマニア統計局 uRosを毎年主催し今回5回目。各国のRに特化した知見を集め、内部 利用することが目的。国内企業を対象に高度な有料研修も提供している。 統計調査の集計には、従来SASを使用。まだ現場でRユーザーが最大勢 力というわけではないが、組織内にRサーバーを持つ。 • アプローチ 導入は新規業務あるいは大規模変更があるものが対象 無理強いはせず、作業が効率化できることを納得してもらう 職員はRに限らず週4時間を研修にあてるので、継続的なフォローアップを行う • 現在の取り組み CPI作成のためのwebスクレイピング(公表は少なくとも2年先) knitrやsweaveパッケージを用いた審査リストの作成は実用化済み RとPythonについて 開発はPythonの方が保守性が高いのでは、と質問したところ、我々はITの専門家ではな くStatisticianなのでRが良いし、コードの可読性など保守面についても特段の問題は生じ ていないとのこと。ただし、Pythonを全く使っていないわけではない。 40
  41. 41. 得られた知見 • インストールは標準化し、進んだところはサーバーを設 置している • ITセキュリティの観点から内部にCRANミラーを立てて いるところもある • 継続的な研修コースが必要で、それによりコードの可読 性も向上する • ユーザーが増えればサポートが必要 • ユーザーコミュニティが重要 • ユーザーを増やすには、Rを使いこなす学生の採用が最 も早道 41

×