Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状

1,395 views

Published on

SDJBFでの発表スライド。科学者一般に向けて、近年のデータ解析、可視化ツールの一般的な話題を。

Published in: Science
  • Be the first to comment

San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状

  1. 1. ライフサイエンス向けデータ可視化技術の現状 Keiichiro Ono 大野圭一朗 UC, San Diego, Department of Medicine SDJBF 4/24/2015
  2. 2. 
 スライドはこの後すぐに公開します …ので細かいリンク等はメモしなくても大丈夫です. ちょっと詰め込みすぎましたので
  3. 3. Q. 
 プログラミング経験の ある方はいらっしゃいますか?
  4. 4. Agenda 今日お話すること
  5. 5. 実務者向け可視化技術の現状 実際の可視化技術の紹介 実践するには? Agenda 今日お話すること
  6. 6. 実務者向け可視化技術の現状 実際の可視化技術の紹介 実践するには? Agenda 今日お話すること
  7. 7. Keiichiro Ono
  8. 8. Keiichiro Ono Background Bioinformatics Computer Science Work Research Bioinformatics workflow Visualization pipeline Data Visualization Networks Other Biological Data Integration Molecular Interactions Pathways Annotations Software Development Cytoscape NeXO Cyberinfrastructure All kinds of small tools Like Art Kandinsky Mondrian Music Electronica Techno Minimal Detroit Jazz Sci-fi Movie Novel Life US San Diego San Francisco Bay Area Los Angeles Orange County Japan Gifu Tokyo
  9. 9. Background Bioinformatics Computer Science
  10. 10. 計算機科学 生物学
  11. 11. https://flic.kr/p/5fJ4U4
  12. 12. >gi|10313991|ref|NC_002549.1| Zaire ebolavirus isolate Ebola virus/ H.sapiens-tc/COD/1976/Yambuku-Mayinga, complete genome CGGACACACAAAAAGAAAGAAGAATTTTTAGGATCTTTTGTGTGCGAATAACTATGAGGAAGATTAATAA TTTTCCTCTCATTGAAATTTATATCGGAATTTAAATTGAAATTGTTACTGTAATCACACCTGGTTTGTTT CAGAGCCACATCACAAAGATAGAGAACAACCTAGGTCTCCGAAGGGAGCAAGGGCATCAGTGTGCTCAGT TGAAAATCCCTTGTCAACACCTAGGTCTTATCACATCACAAGTTCCACCTCAGACTCTGCAGGGTGATCC AACAACCTTAATAGAAACATTATTGTTAAAGGACAGCATTAGTTCACAGTCAAACAAGCAAGATTGAGAA TTAACCTTGGTTTTGAACTTGAACACTTAGGGGATTGAAGATTCAACAACCCTAAAGCTTGGGGTAAAAC ATTGGAAATAGTTAAAAGACAAATTGCTCGGAATCACAAAATTCCGAGTATGGATTCTCGTCCTCAGAAA ATCTGGATGGCGCCGAGTCTCACTGAATCTGACATGGATTACCACAAGATCTTGACAGCAGGTCTGTCCG TTCAACAGGGGATTGTTCGGCAAAGAGTCATCCCAGTGTATCAAGTAAACAATCTTGAAGAAATTTGCCA ACTTATCATACAGGCCTTTGAAGCAGGTGTTGATTTTCAAGAGAGTGCGGACAGTTTCCTTCTCATGCTT TGTCTTCATCATGCGTACCAGGGAGATTACAAACTTTTCTTGGAAAGTGGCGCAGTCAAGTATTTGGAAG GGCACGGGTTCCGTTTTGAAGTCAAGAAGCGTGATGGAGTGAAGCGCCTTGAGGAATTGCTGCCAGCAGT ATCTAGTGGAAAAAACATTAAGAGAACACTTGCTGCCATGCCGGAAGAGGAGACAACTGAAGCTAATGCC GGTCAGTTTCTCTCCTTTGCAAGTCTATTCCTTCCGAAATTGGTAGTAGGAGAAAAGGCTTGCCTTGAGA AGGTTCAAAGGCAAATTCAAGTACATGCAGAGCAAGGACTGATACAATATCCAACAGCTTGGCAATCAGT AGGACACATGATGGTGATTTTCCGTTTGATGCGAACAAATTTTCTGATCAAATTTCTCCTAATACACCAA GGGATGCACATGGTTGCCGGGCATGATGCCAACGATGCTGTGATTTCAAATTCAGTGGCTCAAGCTCGTT TTTCAGGCTTATTGATTGTCAAAACAGTACTTGATCATATCCTACAAAAGACAGAACGAGGAGTTCGTCT CCATCCTCTTGCAAGGACCGCCAAGGTAAAAAATGAGGTGAACTCCTTTAAGGCTGCACTCAGCTCCCTG GCCAAGCATGGAGAGTATGCTCCTTTCGCCCGACTTTTGAACCTTTCTGGAGTAAATAATCTTGAGCATG GTCTTTTCCCTCAACTATCGGCAATTGCACTCGGAGTCGCCACAGCACACGGGAGTACCCTCGCAGGAGT AAATGTTGGAGAACAGTATCAACAACTCAGAGAGGCTGCCACTGAGGCTGAGAAGCAACTCCAACAATAT GCAGAGTCTCGCGAACTTGACCATCTTGGACTTGATGATCAGGAAAAGAAAATTCTTATGAACTTCCATC AGAAAAAGAACGAAATCAGCTTCCAGCAAACAAACGCTATGGTAACTCTAAGAAAAGAGCGCCTGGCCAA
  13. 13. Software Development >> Research
  14. 14. Keiichiro Ono Background Bioinformatics Computer Science Work Research Bioinformatics workflow Visualization pipeline Data Visualization Networks Other Biological Data Integration Molecular Interactions Pathways Annotations Software Development Cytoscape NeXO Cyberinfrastructure All kinds of small tools Like Art Kandinsky Mondrian Music Electronica Techno Minimal Detroit Jazz Sci-fi Movie Novel Life US San Diego San Francisco Bay Area Los Angeles Orange County Japan Gifu Tokyo
  15. 15. Keiic Work Research Bioinformatics workflow Visualization pipeline Data Visualization Networks Other Biological Data Integration Molecular Interactions Pathways Annotations Software Development Cytoscape NeXO Cyberinfrastructure All kinds of small tools
  16. 16. Cytoscape Open Source Platform for Network Analysis and Visualization
  17. 17. Human Interactome (Source: irefindex)
  18. 18. http://nrnb.org/
  19. 19. http://home.ndexbio.org/
  20. 20. 実践者向け可視化技術の現状
  21. 21. 実践者向け可視化技術の現状
  22. 22. 実践者
  23. 23. 実践者 - 科学者 - 研究者  - Data Scientist 実際にデータを処理 / 可視化し、論文やレポートを書く人々
  24. 24. 実践者 可視化技術の研究者 私自身コンピュータグラフィックスのバックグラウンドはありません
  25. 25. Data Visualization Biology
  26. 26. Biology
  27. 27. 実験手法の革新 Illumina HiSeqX (http://systems.illumina.com/content/dam/illumina-marketing/documents/products/datasheets/datasheet-hiseq-x-ten.pdf)
  28. 28. データ量の爆発 配列: DNA / アミノ酸 タンパク質の三次元構造 分子間相互作用 キュレートされたパスウェイ SNPs(一塩基多型) 文献
  29. 29. Data and Services at EBI www.ebi.ac.uk/services
  30. 30. 解析と可視化への需要 膨大なデータ
  31. 31. Why? なぜ可視化するのか?
  32. 32. –Tamara Munzner Visualization is suitable when there is a need to augment human capabilities rather than replace people with computational decision-making methods. Visualization Analysis and Design. A K Peters/CRC Press, 10/2014. 可視化の利用は、(機械学習などの)計算機的手法で人を置き換える場合ではなく、 ヒトの能力を拡張して意思決定を行う必要がある時にこそ適切である。
  33. 33. 意思決定のための ヒトの認知能力の拡張
  34. 34. 新世代の実験手法により生み出される膨大なデータ を整理して理解するために人の認知能力を拡張する
  35. 35. Biology
  36. 36. Data Visualization Biology
  37. 37. Data Visualization
  38. 38. dx.doi.org/10.2210/rcsb_pdb/mom_2014_10
  39. 39. Costanzo et al. Science. 2010 Jan 22;327(5964):425-31
  40. 40. www.ebi.ac.uk/gwas/
  41. 41. http://www.ebi.ac.uk/fgpt/gwas/#
  42. 42. openworm.org
  43. 43. 問題点
  44. 44. 紙や静止画で見てもよくわからない…
  45. 45. 原因 • そもそもデータセットが大きい • インタラクティブな操作の必要性 • ズームイン・アウト • パン • 検索 • これらは紙では不可能
  46. 46. Web-Based Data Visualization
  47. 47. データ発表の場としてのウェブ • 非常に多元的で多岐にわたる生物学的データセット を紙のみで分かりやすく表現するのは限界がある • 論文ではスタティックな図で • サプリメントとしてウェブを使ってインタラクティ ブな表現としてデータを公開
  48. 48. データ収集 解析 可視化 論文としての発表 Web App としての公開 データベース への登録 論文としての発表
  49. 49. データ収集 解析 可視化 論文としての発表 Web App としての公開 データベース への登録 論文としての発表
  50. 50. NeXOa gene ontology inferred from molecular networks
  51. 51. Dutkowski, Janusz, et al. "A gene ontology inferred from molecular networks." Nature biotechnology 31.1 (2013): 38-45.
  52. 52. Dutkowski, Janusz, et al. "NeXO Web: the NeXO ontology database and visualization platform." Nucleic acids research 42.D1 (2014): D1269-D1274.
  53. 53. 紙を超える
  54. 54. • 紙は偉大な発明 • 電気もいらない • 高い保存性 • 数百年保つ • 手にとって読める • PDFも印刷する人が未だに多い
  55. 55. • アーカイブ • データ・コードの保存 • 技術トレンドの変化 • 例: Adobe Flashの死 • アクセス性 • ウェブが多くを解決したがまだ不完全 デジタルデータの問題
  56. 56. それでもなお挑戦する価値があるアドバンテージ 双方向性
  57. 57. ELSEVIER www.elsevier.com/about/content-innovation
  58. 58. ここまでのまとめ - 現代の生物学はData-Drivenなサイエンス - 大量のデータを解析/可視化するには計算機の力が必要 - 大手ジャーナルも新しい科学出版を模索する中で様々 なデータ可視化に関する取り組みを始めている
  59. 59. 実際に触れてみる
  60. 60. 現代的なデータ可視化環境に触れる • 難しく考える必要はない • ポイント: • 計算機で加工することを念頭に置いたデータ集取
  61. 61. 可視化のツール
  62. 62. selection.datavisualization.ch
  63. 63. ???
  64. 64. ツールの用途を整理する
  65. 65. 可視化技術のレイヤ データ可視化用ライブラリ D3.js, p5.js, Cytoscape.js 低レベルな描画ライブラリ OpenGL, WebGL, HTML5 Canvas, Java2D アプリケーション ゲノムブラウザ / パスウェイビューア / チャート生成
  66. 66. 可視化技術のレイヤ データ可視化用ライブラリ D3.js, p5.js, Cytoscape.js アプリケーション ゲノムブラウザ / パスウェイビューア / チャート生成
  67. 67. 可視化技術のレイヤ アプリケーション ゲノムブラウザ / パスウェイビューア / チャート生成
  68. 68. 低 中 高 難易度
  69. 69. 低 中 高
  70. 70. 必要とされるプログラミングのスキル
  71. 71. カスタマイズ性
  72. 72. Microsoft Excel
  73. 73. Microsoft Excel 多くの生物学者にとって基 本的なデータ解析・可視化 環境 現在のバージョンではかな り複雑な可視化が可能 プログラマブル - 拡張可能
  74. 74. Microsoft Excel しかしそこから作られる可 視化結果は今ひとつな場合 も多い… 何故?
  75. 75. 可視化に関する基礎知識の欠如
  76. 76. Diagram of the causes of mortality in the army in the East by Florence Nightingale
  77. 77. mbostock.github.io/protovis/ex/crimea-rose-full.html
  78. 78. bl.ocks.org/kgryte/raw/5926740
  79. 79. データセットに対して正しい手法を使い分ける
  80. 80. 基本的な技法に関する知識はツールが変わっても使える
  81. 81. 例: チャートジャンクを避ける
  82. 82. Tufte 1983, 2001. p. 111
  83. 83. 例: data/ink 比を最大化する
  84. 84. grammar of graphics: a general scheme for data visualization which breaks up graphs into semantic components such as scales and layers en.wikipedia.org/wiki/Ggplot2
  85. 85. tableau www.tableau.com
  86. 86. D3: Data Driven Document
  87. 87. D3: Data Driven Document 基本的にはプログラマ向けのツール とても低レベル (機械寄りという意味です) 複雑なデータに対して新しい可視化手法を実装するのに便利 勤務先に計算機部隊の居る方向け プログラマでない方がイチから作るのはなかなか厳しいです…
  88. 88. d3js.org/
  89. 89. Lab Notebookとしての計算機
  90. 90. Jupyterとは何か? 「コンピュータを使った解析と可視化のためのラボノート」 かつてはIPython Notebookと呼ばれていた → その名の通りPython専用だった 現在は様々な言語をサポート オープンソースで無償のソフトウェア
  91. 91. Shen, Helen. "Interactive notebooks: Sharing the code." Nature 515.7525 (2014): 151-152.
  92. 92. Demo (時間があれば…)
  93. 93. 科学における再現性向上のために
  94. 94. 生物学のためのプログラミング
  95. 95. A community for developers and users of Python data tools pydata.org
  96. 96. by Peter Wang @PyData 2014
  97. 97. 未来のツールの方向性
  98. 98. plot.ly
  99. 99. 複雑な可視化をプログラミングなしで
  100. 100. 実践のためにすぐできること …もしくは計算機分野の人々とうまく付き合う方法
  101. 101. 生物学・計算機科学・統計学・医学
  102. 102. 分野の壁 https://flic.kr/p/2SqQe
  103. 103. https://flic.kr/p/6rUPaH 分野を超える努力
  104. 104. 1. データとレイアウトを分ける
  105. 105. nkbp.jp/1PjP09u データ解析/可視化の人々に嫌がらせをする方法
  106. 106. 可視化技術のレイヤ マッピング データ 描画
  107. 107. 可視化技術のレイヤ マッピング データ 描画 ✔
  108. 108. Prepare Data for Machines! データは機械のために準備する
  109. 109. 2. データの履歴を管理する
  110. 110. 3. 文房具としてのプログラミング
  111. 111. 4. 出来ればオープンな技術を使う
  112. 112. Summary まとめ
  113. 113. • 複雑な生物学分野のデータを、計算機を使って可視化する需要は今後 も高まる • 大手ジャーナルの出版社は新しいウェブでの論文の形を模索している • そういった表現に適したものを作るための、データ加工と可視化をす るツールは現在も多数存在する • 高度な可視化を作成するには計算機の力が必須であり、科学者とソフ トウェア技術者の協業が重要
  114. 114. コラボレーションも受け付けています! http://nrnb.org/
  115. 115. 参考:プログラマーが効果的な可視化を作成する http://qiita.com/keiono/items/ 9042bf58224ca54bdb45
  116. 116. Thank you!
  117. 117. References • Tufte, Edward R., and P. R. Graves-Morris. The visual display of quantitative information. Vol. 2. Cheshire, CT: Graphics press, 1983. • Wilkinson, Leland, et al. The grammar of graphics. Springer Science & Business Media, 2006. • Shen, Helen. "Interactive notebooks: Sharing the code." Nature 515.7525 (2014): 151-152. • Tamara Munzner. Visualization Analysis and Design. A K Peters Visualization Series, CRC Press, 2014.
  118. 118. Data Analysis / Visualization Tools • Cytoscape: http://www.cytoscape.org/ • Cytoscape Tutorial: http://opentutorials.cgl.ucsf.edu/index.php/Portal:Cytoscape3 • Bioconductor: http://www.bioconductor.org/ • Jupyter: http://jupyter.org/ • Content Innovation: http://www.elsevier.com/about/content-innovation
  119. 119. 2015 Keiichiro Ono kono@ucsd.edu Twitter ID: c_z
  120. 120. https://www.flickr.com/photos/zeissmicro/6779276516/in/photolist-bk4yHS-9ArtYT-8LReTd-8LQXrY-8NyBEs-enYpjq-enoJtz-o9oymN-8Q1YMC-7vnfkT-hhEdRg-9As3BV-7CgoAa- gaHyDs-hhErzb-sGZEi-om1U6i-enoJ6r-enoJc2-enoJyk-enoHVV-enYoHJ-9AuXJL-9As31z-bDWpAi-9As2VT-9AuXBC-9As3yF-9AuXFq-9As3ua-9As3qR-9AuXmQ-8qPd5a-brC9Xu- e6hrBg-8UAa79-4Zh8ea-tCkcU-fxM4Sc-6RXXo5-7Cgdng-2DwDVp-7CgdmK-dPpCu-k9QxQ-bnHQJ2-mE13n-35K3bp-dCJ5Ub-e6o6aA https://www.flickr.com/photos/nasamarshall/11717956263/in/photolist-iRtA9F-oWv5Tp-ehGe21-n7vna-nVUnJ-8zAW7F-dyM2sc-yyMZn-9VwETJ-Ev9gL-7WZ431-o1ahRu-opV1fV- daHxyK-de124v-9yomNh-9yQ9sq-qgKD5W-5f9hWF-9y5sEm-pJ1ktE-8BFiRP-hKWj3n-dQR1SZ-hjMKwC-buGXJx-iipHgu-hSu56B-dxjECS-7WNoPz-dgFzxW-aZF8SV-cXNxJE- ig39ti-iDRphG-8nSRdr-pdjbjq-9ENznU-7RkW9g-amX7AG-p15fVq-8DtkKe-onHHNF-4naLdV-eWD9Az-8SbHxL-aUhuvk-8BFiQe-76JJhW-paXCw1 https://www.flickr.com/photos/europeanspaceagency/14156437489/in/photolist-nyXrEr-nRaCfF-np8DEj-nEAWct-nyxcx8-nT7mN4-oaajYV-o6Ufjf-nPrwMk-nFbeTr-nF7NpE-nEUFtu- nCWtNw-nCWnhe-nCVKUU-nV7FWN-nUdrcF-nBDkjh-nRip4m-nygdvS-nygLBc-nSx3gB-nyfMsp-nQFD8N-nyfExb-nwe5DL-nK28q9-nFJeTN-nmypBs-nk1DG9-ndAaTu-nt31wU- ndzXx4-ndAdnf-ndzXvv-ndzXtg-ndzXsK-nuNVJ7-nuMVJt-nv7yVj-nv5GuT-ndAaGs-ndAdej-ndAaFf-ndzXkk-ndAdds-ndAaDS-ndAaDG-ndzXji-ndzXir https://www.flickr.com/photos/zeissmicro/8570860619/in/photolist-9vbCYe-63DZir-9ywXj6-9r6UuY-9ksqzw-4cCZYT-xXxXi-61ZXVV-p6emAt-e4nSpc- p6eG9s-9EY425-9vbmhi-9vbmoR-86tyCW-88oNSA-99dmNQ-9TDHo-9nDeK-e4nUfX-dPpjY-iLniN8-95Hcj8-9tUm3H-e4tvyq-9c69Hi-9c9egy-9ma3xL- e6sRCo-95Leb5-7mCiLg-7pGHGp-99aeQV-e4nUhv-y2x1d-4Ez7Po-dN8ZCa-e4nUiP-4Pyr1T-e4tvBC-e4nUjH-5QZbY9- e6ndN2-92NqxA-92Nqxw-92Nqxy-72Fzyv-83Qzsq-7y5WmL-4dKNBb https://flic.kr/p/51Veqw https://flic.kr/p/6A5bjK Photo Credits

×