Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜

7,827 views

Published on

このスライドは、Dava Visualization Japan Meetup #2にて大野圭一朗が利用したもののPDF版です。内容は、CC BY 4.0にて自由に再利用可能です。


http://data-visualization-japan.doorkeeper.jp/events/18551

Published in: Data & Analytics
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

「数字を見せろ」から「コードを見せろ」へ 〜過程の透明性を確保したデータ可視化を目指す〜

  1. 1. 「数字を見せろ」から 「コードを見せろ」へ Show me your code, in addition to the numbers! Keiichiro Ono (Twitter: @c_z) UC, San Diego Department of Medicine 過程の透明性を確保したデータ可視化を目指す
  2. 2. Agenda 今日お話すること
  3. 3. 自己紹介: 生物学と可視化 可視化実践者の目指すべきゴール 分野の壁を超える 結果の共有からプロセスの共有へ
  4. 4. Keiichiro Ono Background Bioinformatics Computer Science Work Research Bioinformatics workflow Visualization pipeline Data Visualization Networks Other Biological Data Integration Molecular Interactions Pathways Annotations Software Development Cytoscape NeXO Cyberinfrastructure All kinds of small tools Like Art Kandinsky Mondrian Music Electronica Techno Minimal Detroit Jazz Sci-fi Movie Novel Life US San Diego San Francisco Bay Area Los Angeles Orange County Japan Gifu Tokyo
  5. 5. Keiichiro Ono Background Bioinformatics Computer Science Work Art Kandinsky Mondrian Electronica
  6. 6. Keiic Work Research Bioinformatics workflow Visualization pipeline Data Visualization Networks Other Biological Data Integration Molecular Interactions Pathways Annotations Software Development Cytoscape NeXO Cyberinfrastructure All kinds of small tools
  7. 7. Keiichiro Ono Background Bioinformatics Computer Science Work Research Bioinformatics workflow Visualization pipeline Data Visualization Networks Other Biological Data Integration Molecular Interactions Pathways Annotations Software Development Cytoscape NeXO Cyberinfrastructure All kinds of small tools Like Art Kandinsky Mondrian Music Electronica Techno Minimal Detroit Jazz Sci-fi Movie Novel Life US San Diego San Francisco Bay Area Los Angeles Orange County Japan Gifu Tokyo
  8. 8. Cytoscape: Open Source Platform for Network Analysis and Visualization
  9. 9. 計算機科学 生物学
  10. 10. 生物学
  11. 11. Bioinformatics
  12. 12. Bioinformatics?
  13. 13. ゲノムワイド関連解析 一塩基多型 エピジェネティクス DNAマイクロアレイ 遺伝子オントロジー BALST eQTL パスウェイ解析 次世代シーケンサー メタボローム トランスクリプトーム
  14. 14. ?
  15. 15. Bioinformatics
  16. 16. https://flic.kr/p/5fJ4U4
  17. 17. >gi|10313991|ref|NC_002549.1| Zaire ebolavirus isolate Ebola virus/ H.sapiens-tc/COD/1976/Yambuku-Mayinga, complete genome CGGACACACAAAAAGAAAGAAGAATTTTTAGGATCTTTTGTGTGCGAATAACTATGAGGAAGATTAATAA TTTTCCTCTCATTGAAATTTATATCGGAATTTAAATTGAAATTGTTACTGTAATCACACCTGGTTTGTTT CAGAGCCACATCACAAAGATAGAGAACAACCTAGGTCTCCGAAGGGAGCAAGGGCATCAGTGTGCTCAGT TGAAAATCCCTTGTCAACACCTAGGTCTTATCACATCACAAGTTCCACCTCAGACTCTGCAGGGTGATCC AACAACCTTAATAGAAACATTATTGTTAAAGGACAGCATTAGTTCACAGTCAAACAAGCAAGATTGAGAA TTAACCTTGGTTTTGAACTTGAACACTTAGGGGATTGAAGATTCAACAACCCTAAAGCTTGGGGTAAAAC ATTGGAAATAGTTAAAAGACAAATTGCTCGGAATCACAAAATTCCGAGTATGGATTCTCGTCCTCAGAAA ATCTGGATGGCGCCGAGTCTCACTGAATCTGACATGGATTACCACAAGATCTTGACAGCAGGTCTGTCCG TTCAACAGGGGATTGTTCGGCAAAGAGTCATCCCAGTGTATCAAGTAAACAATCTTGAAGAAATTTGCCA ACTTATCATACAGGCCTTTGAAGCAGGTGTTGATTTTCAAGAGAGTGCGGACAGTTTCCTTCTCATGCTT TGTCTTCATCATGCGTACCAGGGAGATTACAAACTTTTCTTGGAAAGTGGCGCAGTCAAGTATTTGGAAG GGCACGGGTTCCGTTTTGAAGTCAAGAAGCGTGATGGAGTGAAGCGCCTTGAGGAATTGCTGCCAGCAGT ATCTAGTGGAAAAAACATTAAGAGAACACTTGCTGCCATGCCGGAAGAGGAGACAACTGAAGCTAATGCC GGTCAGTTTCTCTCCTTTGCAAGTCTATTCCTTCCGAAATTGGTAGTAGGAGAAAAGGCTTGCCTTGAGA AGGTTCAAAGGCAAATTCAAGTACATGCAGAGCAAGGACTGATACAATATCCAACAGCTTGGCAATCAGT AGGACACATGATGGTGATTTTCCGTTTGATGCGAACAAATTTTCTGATCAAATTTCTCCTAATACACCAA GGGATGCACATGGTTGCCGGGCATGATGCCAACGATGCTGTGATTTCAAATTCAGTGGCTCAAGCTCGTT TTTCAGGCTTATTGATTGTCAAAACAGTACTTGATCATATCCTACAAAAGACAGAACGAGGAGTTCGTCT CCATCCTCTTGCAAGGACCGCCAAGGTAAAAAATGAGGTGAACTCCTTTAAGGCTGCACTCAGCTCCCTG GCCAAGCATGGAGAGTATGCTCCTTTCGCCCGACTTTTGAACCTTTCTGGAGTAAATAATCTTGAGCATG GTCTTTTCCCTCAACTATCGGCAATTGCACTCGGAGTCGCCACAGCACACGGGAGTACCCTCGCAGGAGT AAATGTTGGAGAACAGTATCAACAACTCAGAGAGGCTGCCACTGAGGCTGAGAAGCAACTCCAACAATAT GCAGAGTCTCGCGAACTTGACCATCTTGGACTTGATGATCAGGAAAAGAAAATTCTTATGAACTTCCATC AGAAAAAGAACGAAATCAGCTTCCAGCAAACAAACGCTATGGTAACTCTAAGAAAAGAGCGCCTGGCCAA
  18. 18. Raw Data = Text
  19. 19. ISBN:978-0-596-00492-7
  20. 20. Data Visualization Biology
  21. 21. Biology
  22. 22. Molecular Biology in 1 Min.
  23. 23. 生命 = 精巧な分子機械
  24. 24. DNA mRNA Protein Central Dogma
  25. 25. DNA Source Code Protein Instance
  26. 26. DNA Source Code Protein Instance
  27. 27. DNA 配列の類似 Sequence Similarity Protein 機能の類似 Functional Similarity
  28. 28. http://www.plosgenetics.org/article/info%3Adoi%2F10.1371%2Fjournal.pgen.1000128
  29. 29. Model Organism
  30. 30. openworm.org
  31. 31. 実験手法の革新 Illumina HiSeqX (http://systems.illumina.com/content/dam/illumina-marketing/documents/products/datasheets/datasheet-hiseq-x-ten.pdf)
  32. 32. データ量の爆発 配列: DNA / アミノ酸 タンパク質の三次元構造 分子間相互作用 SNPs (一塩基多型) 文献
  33. 33. 解析と可視化への需要 膨大なデータ
  34. 34. http://www.ebi.ac.uk/fgpt/gwas/#
  35. 35. Costanzo et al. Science. 2010 Jan 22;327(5964):425-31
  36. 36. dx.doi.org/10.2210/rcsb_pdb/mom_2014_10
  37. 37. Biology
  38. 38. Data Visualization Biology
  39. 39. Data Visualization
  40. 40. 計算機を使った 可視化が目指すもの
  41. 41. What 可視化とは? もしくは「見る」ということ
  42. 42. 世界
  43. 43. 極大極小 世界
  44. 44. Powers of Ten by Charles and Ray Eames
  45. 45. Powers of Ten http://youtu.be/0fKBhvDjuy0
  46. 46. http://www.nikon.co.jp/channel/universcale/
  47. 47. http://learn.genetics.utah.edu/content/cells/scale/
  48. 48. 極大極小 世界
  49. 49. 極小
  50. 50. https://flic.kr/p/bk4yHS
  51. 51. https://flic.kr/p/iRtA9F
  52. 52. 極小
  53. 53. 極大
  54. 54. Hubble eXtreme Deep Field https://flic.kr/p/nyXrEr
  55. 55. https://flic.kr/p/5Sh9qb
  56. 56. Human Interactome (Source: irefindex)
  57. 57. データ可視化 = 光だけでは見えないものを見る
  58. 58. –Katy Börner “Decision making in science, industry, and politics, as well as in daily life, requires that we make sense of data sets representing the structure and dynamics of complex systems. Analysis, navigation, and management of these continuously evolving data sets require a new kind of data-analysis and visualization tool we call a macroscope” Communications of the ACM, Vol. 54 No. 3, Pages 60-69 10.1145/1897852.1897871
  59. 59. –Katy Börner “Decision making in science, industry, and politics, as well as in daily life, requires that we make sense of data sets representing the structure and dynamics of complex systems. Analysis, navigation, and management of these continuously evolving data sets require a new kind of data-analysis and visualization tool we call a macroscope” Communications of the ACM, Vol. 54 No. 3, Pages 60-69 10.1145/1897852.1897871 科学や産業、政治、更には日常生活における意思決定でも、複雑なシステムの構造やダイナミ クスを表すデータセットを理解する必要がある。このような絶え間なく発展するデータセット を解析、ナビゲーション、そして管理するためには、我々が「マクロスコープ」と呼ぶ新たな 可視化と解析のためのツールが必要である。
  60. 60. Macroscope?
  61. 61. Microscope 顕微鏡 Telescope 望遠鏡 極大極小
  62. 62. MacroscopeMicroscope 顕微鏡 Telescope 望遠鏡 極大極小
  63. 63. Microscope TelescopeMacroscope
  64. 64. 「全体」を見渡す道具 =マクロスコープ =計算機ベースの可視 化が目指すべき方向性
  65. 65. Why? なぜ可視化するのか?
  66. 66. –Tamara Munzner Visualization is suitable when there is a need to augment human capabilities rather than replace people with computational decision-making methods. Visualization Analysis and Design. A K Peters/CRC Press, 10/2014. 可視化の利用は、(機械学習などの)計算機的手法で人を置き換える場合ではなく、 ヒトの能力を拡張して意思決定を行う必要がある時にこそ適切である。
  67. 67. 意思決定のための ヒトの認知能力の拡張
  68. 68. 可視化は機械で置き換えられな い人による意思決定のために
  69. 69. How? ここまでの概念を念頭に置い た可視化を実際に作るには?
  70. 70. 必要な知識
  71. 71. 必要な知識 • Human Computer Interaction • Design • Computer Science • Domain Knowledge • Software Engineering • Cognitive Science • Statistics
  72. 72. 分野の壁 https://flic.kr/p/2SqQe
  73. 73. 文化の違い • サイエンス • ジャーナリズム • ビジネス • 教育
  74. 74. Science / Journalism 例:サイエンスとジャーナリズム
  75. 75. Similarity 公共性の高さ 透明性の重要度 可視化への需要 オープンデータセットの増加 Differences プロトコール共有の文化 データとコードの公開 厳密さに対する考え方 Exploratory / Presentation
  76. 76. サイエンスでの可視化 • Exploratory • 科学者が新たな知見を得るための可視化 • Presentation • 論文で発表するための可視化 • 学会発表のための可視化
  77. 77. ジャーナリズムでの可視化 • Presentation • 一般読者向けにデータを分かりやすく伝える • Exploratory • 有権者が意思決定(=投票等)するのを助ける
  78. 78. Is It Better to Rent or Buy? By MIKE BOSTOCK, SHAN CARTER and ARCHIE TSE http://www.nytimes.com/interactive/2014/upshot/buy-rent-calculator.html
  79. 79. https://flic.kr/p/6rUPaH 分野を超える協力
  80. 80. 分野の壁を超える
  81. 81. Openness
  82. 82. 自分の専門知識/経験 をシェアする • 文献 • ドメインに関する知識 • 実例 • 技術 - コード/ライブラリ/ツール • ベストプラクティス
  83. 83. 良き質問者になれ
  84. 84. 結果の共有 😐
  85. 85. 結果とプロセスの共有 😃
  86. 86. 結果とプロセスの透明性
  87. 87. 生成 解析 可視化
  88. 88. 生成
  89. 89. 生成 • データの収集 • 実験 • 調査 • 取材
  90. 90. 生成 解析 可視化
  91. 91. 解析
  92. 92. 解析 • データの前処理 • クレンジング • 機械可読性 • 統計解析
  93. 93. 生成 解析 可視化
  94. 94. 可視化
  95. 95. 可視化 • デザイン • メディアの決定 • ツールの選定 • コーディング
  96. 96. 生成 解析 可視化
  97. 97. 生成 解析 可視化
  98. 98. 生成 ? 可視化
  99. 99. Openness for Every Step
  100. 100. 「数字を見せる」 だけでは不十分
  101. 101. 生成 解析 可視化 プロセス全体をオープンにする
  102. 102. How to Implement Openness? どのようにプロセスの オープン性を実現するのか?
  103. 103. テクノロジーと文化の 両面から解決する
  104. 104. テクノロジーからの アプローチ
  105. 105. 可視化技術のレイヤ Source Code Environment Data
  106. 106. 可視化技術のレイヤData
  107. 107. Source Code Environment Data
  108. 108. Source Code
  109. 109. The Need for Openness in Data Journalism http://bit.ly/1ipxwXP Brian Keegan, Ph.D.
  110. 110. Source Code Environment Data
  111. 111. Environment
  112. 112. Software Distribution Problem - “It-worked-on-my-machine” syndrome - 設定の複雑さとそれによる再現性の低下は 透明性の敵
  113. 113. What is Docker? - Container to run applications in an isolated environment - Application = Layer of images - Sharable Environments - Environments as code
  114. 114. https://www.docker.com/whatisdocker/
  115. 115. Docker Hub - Sharing environments as code! - Dockerfile - Definition of your container
  116. 116. How Docker-nized World Works? Container 1: IPython + SciPy Stack Your Machine Container 2: R + Bioconductor Container 3: Neo4j
  117. 117. Your Machine Container 1: IPython + SciPy Stack Container 2: R + Bioconductor Container 3: Neo4j
  118. 118. Your Machine Container 1: IPython + SciPy Stack Container 2: R + Bioconductor Container 3: Neo4j
  119. 119. Source Code Environment Data
  120. 120. テクノロジーは いつつある • データの管理 • ソースの履歴管理 • 解析環境の抽象化 • 柔軟性のある計算機リソース
  121. 121. 分野を超えた知識の共有
  122. 122. Affordance aesthetics Design Pattern
  123. 123. Design Pattern 例:デザインパターン
  124. 124. 暗黙知の文書化
  125. 125. Summary まとめと提言
  126. 126. 再現可能なプロセスの ために今すぐできること
  127. 127. –Mike Bostock Make your process reproducible.
  128. 128. 技術的に過程を再現可能にする • Scaffolding • テンプレート化 • Source Code Management • 機械による履歴管理 • Build Automation • 自動化
  129. 129. Prepare Data for Machines データは機械のために準備し Write Code for Human コードは人間のために書く
  130. 130. 競争すべきところは競争し 必要のない部分はオープンに
  131. 131. –Someone in my lab Human is lazy by nature
  132. 132. –クレイグ・ベンター 偉大なアイデアとは実行されたアイデアだ
  133. 133. Thank you!
  134. 134. 2014 Keiichiro Ono kono@ucsd.edu
  135. 135. • このスライドでは一部WikipediaのPD画像を利用し ています。 • リンクの無い画像は大野圭一朗によるもので、全て CC BY 4.0ライセンスにて自由に再利用可能です • リンク付きの画像は全てCCの元配布されています が、再利用にはリンク先のライセンスをご確認下さ い。

×