rcast_20140411

18,292 views

Published on

Published in: Technology

rcast_20140411

  1. 1. ⼤大規模・多種多様なデータを扱う為の 検索索・機械学習技術 株式会社 Preferred Infrastructure エッジヘビーコンピューティング事業部 ⼤大野健太 oono@preferred.jp / @delta2323_ 2014/04/09 @東京⼤大学先端科学技術研究センター
  2. 2. Preferred  Infrastructure,  Inc.  (PFI) 設⽴立立: 2006年年3⽉月 場所: 東京都⽂文京区本郷 従業員数: 30(含役員)、うち26⼈人が研究者/エンジニア ミッション: PFIの強み:⽇日本屈指の研究者・エンジニア集団 •  ⾃自然⾔言語処理理 / 機械学習 / 計算量量理理論論 / ⽂文字列列アルゴリズム  博⼠士 •  TopCoder世界上位⼊入賞者、ICPCプログラミングコンテスト⽇日本代表、 未踏プロジェクト採択者 最先端の技術を最短路路で実現する 2 最先端の研究を リードする研究者 最先端の研究を 実⽤用化する技術者
  3. 3. 複雑なデータを解析する技術深くデータを解析する技術 ⼤大規模データを扱う技術 PFI保有技術 ⼤大規模・複雑なデータの解析技術が得意分野 機械学習 ⾃自然⾔言語処理理 画像解析技術 簡潔データ構造 ⽂文字列列解析技術 分散システム 3
  4. 4. 4
  5. 5. 5
  6. 6. SedueとJubatusによるリアルタイム検索索と機械学習の統合 Data Source Jubatusによる リアルタイム分散機械学習 分散軽量量ストリーミング ログ収集ツール Sedueによる リアルタイム検索索
  7. 7. アジェンダ •  要素技術の概要:⾃自然⾔言語処理理・全⽂文検索索技術・機械学習 •  データを深く解析するための技術:PheWAS •  データ統合による将来のライフサイエンス •  エッジヘビー環境と分散インテリジェンス
  8. 8. ライフサイエンス分野でも複雑で⼤大量量のデータの 解析する技術が望まれる •  現在の分⼦子⽣生物学での”ビッグデータ”は種類が限られている •  マイクロアレイデータ(DNAチップ, タンパク質チップ) •  シーケンスデータ(WGS/EGS・RNA-seq, ChIP-seq) •  近い将来、様々な場⾯面でデータ量量の爆発的増加が起こるだろう •  画像データ(細胞画像・イメージング) •  センサーデータ(⼼心電図・脳波) •  時系列列データ(体重・⾎血圧などヘルスケアデータ) •  医療療情報(レセプト・電⼦子カルテ) → ⼤大量量の⾮非構造化データを深く解析する技術の必要性
  9. 9. 深い分析 速い分析 データを利利⽤用した研究/企業活動の段階 Collection Reporting Analytics Action 収集 報告 分析 ⾏行行動 9
  10. 10. 深い分析 速い分析 ⾼高度度な処理理を⾏行行うソフトウェアが データを活⽤用した研究を促進する Collection Reporting Analytics Action 既存解析基盤の 領領域領領域 収集 報告 分析 ⾏行行動 データを利利⽤用した 分⼦子⽣生物学研究 10 機械学習・情報検索索 ソフトウェア データを蓄積する ハードウェアの向上
  11. 11. データ活⽤用ツールの発展 Fluentd Flume Kinesis (Amazon) MachineHuman 収 集 蓄 積 分 析 可 視 化 Hadoop S3 (Amazon) Splunk (Splunk) OpenXC (Ford) Mahout Bazil (PFI) AWS (Amazon) Jubatus (NTT, PFI) SAMOA (Yahoo) Qlikview (QlikTech), Tableau (Tableau Software) Bazil (PFI) N. A.
  12. 12. ライフサイエンス分野における これまでの取り組み
  13. 13. プロジェクト例例 機械学習による創薬候補化合物選定 •  動機:⼈人体機能に関わる物質に対する 活性度度はリード化合物候補の重要指標 •  CYP3A4/hERG などとの相互作⽤用 •  解決法:化合物活性の機械学習による 予測 •  特徴:弊社開発の機械学習エンジン によりデータ解析を迅速に実⾏行行可能 •  応⽤用 : 創薬におけるハイスループッ トスクリーニング(HTS)の精度度向上 CYP3A4[1] [1] hERG potassium channels and cardiac arrhythmia, Michael C. Sanguinetti & Martin Tristani-Firouzi, Nature 440, 463-469(23 March 2006) (doi:10.1038/nature04710) Fig. 5 13
  14. 14. プロジェクト例例 遺伝⼦子・転写物検索索: GGRNA 「Google-like full text search engine」 •  ライフサイエンス統合データベースセンター(DBCLS)・ 内藤雄樹助教との共同研究 •  NCBIのRefSeqデータの全⽂文検索索が可能 •  ヒト、マウス、酵⺟母菌など13種を横断検索索(“Zoo”) •  曖昧検索索、メタデータの検索索にも対応 [1] GGRNA: an ultrafast, transcript-oriented search engine for genes and transcripts, Yuki Naito and Hidemasa Bono, Nucl. Acids Res. (2012) 40(W1):W592-W596 •  弊社全⽂文検索索エンジン「Sedue」 をバックエンドとして採⽤用 •  Nucl.AcidsRes.2012にて論論⽂文発表 [1] 14
  15. 15. GGRNA/GGGenome稼働実績 [マシンスペック] 2Uサーバー1台(CPU 6コア×2 3.46GHz/メモリ192GB) GGGenome バージョン 塩基配列列 インデックス RefSeq 61 8.6GB 52.4GB DDBJ 92.0 150.8GB 932.2GB ヒトゲノム hg19 3.1GB 19.0GB GGRNA バージョン 全⽂文書 インデックス RefSeq 61 32.4GB 210.3GB DDBJ(未公開) 92.0 559.2GB 3192.8GB [データサイズ]
  16. 16. これまでの取り組み ゲノムデータ 医療療情報 タンパク質・低分⼦子化合物画像・センサーデータ 次次世代 シーケンサー開発 活性予測による候補 化合物選定 iPS細胞 品質評価 細胞画像の 組織検出 プロテアーゼ 解析 レセプトデータ マイニング 医療療情報の 匿匿名化 NCBI全データの 曖昧検索索 ⽣生活習慣アンケートとメタ ゲノムデータの関連解析 機械学習技術 ⾃自然⾔言語処理理 画像解析技術 要素技術 ドメイン知識識 遺伝⼦子発現 データ解析 細胞画像の がん判定 16
  17. 17. データを深く解析するための技術 PheWAS
  18. 18. “X-WAS”の流流⾏行行 参考URL •  http://www.plosone.org/article/fetchObject.action?uri=info%3Adoi %2F10.1371%2Fjournal.pone.0072737&representation=PDF •  http://hmg.oxfordjournals.org/content/early/2013/09/06/ hmg.ddt430.abstract •  http://www.genomics.cn/en/news/show_news?nid=99231 •  http://psb.stanford.edu/psb-online/proceedings/psb14/hall.pdf •  http://www.unboundmedicine.com/medline/citation/19048631/
  19. 19. フェノムワイド関連解析 Phenome-Wide Association Study : PheWAS •  遺伝型(特にSNPs)と表現型との関連調査する1⼿手法 •  “Reverse GWAS”:遺伝型  vs 表現型 → 1対Nの関係 •  ある遺伝型がどのような症例例に影響するかを網羅羅的に調査する⼿手法 •  歴史 •  2000年年代後半頃にVanderbilt⼤大のJoshua C Denny教授が提唱 •  2010年年のNature Biotechnologyで今後のTrendとして紹介される •  医⽤用情報(EMR/PHR)を活⽤用する⼿手段として期待されている 表現型 遺伝型 GWAS PheWAS
  20. 20. PheWASの実績 既知関連 P値 未知関連 P値 [1] 4/7 2.8×10-6 〜~0.011 19 < 0.01 [2] 51/77 63 < 4.6×10-6 [1] PheWAS: demonstrating the feasibility of a phenome-wide scan to discover gene-disease associations Fig. 1 [2] Systematic comparison of phenome-wide association study of electronic medical record data and genome-wide association study data. Fig. 1
  21. 21. PheWASの利利点と課題 利利点 •  GWASに⽐比べ費⽤用対効果に優れる •  Phenotype(数千種類) << Genotype(数百万種類) •  → 統計的主張の為に必要なサンプル 数がGWASに⽐比べて少ない •  治験(特に第III相試験)でのリスク低減 •  モデル⽣生物(マウスなど)ではなく ヒトのデータを利利⽤用可能だから •  多⾯面的関連(Pleiotropy)の発⾒見見が可能 課題 •  多重検定による困難はGWASと同様に⽣生 じる(だろう) •  ⼩小さいP値・false positiveなど •  注⽬目するSNPsの選定⽅方法 •  症例例判断は現状⾃自動化できていない •  表現型同定のコスト >> 遺伝系同定のコスト •  説明⼒力力については今後調査されるだろう
  22. 22. データ統合による 将来のライフサイエンス
  23. 23. 疾患解析には関連データの包括的解析が必要 ゲノム・エピゲノム・遺伝⼦子発現 医療療情報 タンパク質・低分⼦子化合物画像・センサーデータ
  24. 24. 疾患解析には関連データの包括的解析が必要 ゲノム・エピゲノム・遺伝⼦子発現 医療療情報 タンパク質・低分⼦子化合物画像・センサーデータ
  25. 25. ライフサイエンスにおけるデータ統合の必要性 •  疾患解析には異異なる種類のデータ間の関連・相関を調べる必要がある •  バイオマーカーの探索索、遺伝⼦子診断 •  ⽣生命現象の複雑性:単⼀一のデータソースを⾒見見ても現象の全容を把握できな いことがある •  遺伝要因(ゲノム、インプリンティング、エピゲノム、遺伝⼦子発現) •  ⾝身体的要因(⾝身⻑⾧長、体重、年年齢) •  ⽣生活習慣要因(飲酒・喫煙の有無、運動の有無) •  環境要因(出⾝身地・幼少の⽣生活環境・居住環境) 先天的・遺伝性 後天的・⽣生活習慣 II型糖尿尿病など出⽣生前診断 予防医療療 25
  26. 26. ⼈人体や周辺環境からデータ統合による 健康リスクのより深い把握 26 環境要因周辺環境の微粒粒⼦子 呼気からのウイルス・ バクテリア検出 バイタルサイン ヒトゲノム 様々なデータ間の関係を⾃自動的に発⾒見見・解釈
  27. 27. ⼈人体や周辺環境からデータ統合による 健康リスクのより深い把握 それぞれの⼈人物固有の情報や周辺環境の情報を統合し、現在の状態・環境での 個々⼈人の健康リスクを推定する ⼈人物固有の情報 l  遺伝情報:ゲノム情報に基づいたリスク要因 l  ⾝身体的特徴:年年齢、性別、体重、バイタルサイン l  位置・動作:  位置情報と⾏行行動(監視カメラ、GPS、加速度度計などで追 跡) 周辺環境の情報 l  天気:気温、降降⽔水量量、湿度度、⾵風速 l  環境要因:  空気質指数(AQI)、UV指数、  騒⾳音 l  病原体:周辺環境での病原体の発⾒見見 27
  28. 28. 医療療をどこまで個別化するか? •  画⼀一的医療療 •  遺伝的要因・環境要因・⽣生活要因を考慮していない •  遺伝⼦子情報に基づく個別化医療療 •  病気によっては遺伝情報の影響は限定的 •  モデル精緻化のパラドックス •  モデルを精緻化するほど、そのモデルは多くの変数に依存する •  細分化するほど⾃自分以外の⼈人物のデータを利利⽤用できない → この間を取ることはできないか?
  29. 29. 個々⼈人の特性や周辺環境の類似性を考慮した 学習モデルの構築 29
  30. 30. ライフサイエンス分野でのデータ活⽤用の問題 まだまだ⼭山積み データ流流通の未整備 •  「データの⽣生成者」≠「解析による受益者」→  利利害の不不⼀一致 データ収集の壁 •  「実験データ解析コスト」<「実験データ作成コスト」 •  難病疾患の治験での症例例/基礎研究の実験データ •  1カ所に集められない(技術的・法律律的) •  病院内の電⼦子カルテ情報/製薬会社の化合物ライブラリ •  最近はデータをオープン・共有する動きもある 擬陽性が許されない •  1件でもエラーがでたら損害賠償  →  機械学習には不不向き30
  31. 31. エッジヘビーコンピューティングと 分散インテリジェンス
  32. 32. データを集約するアプローチは、 近い将来うまくいかなくなる 32 丸⼭山宏, 岡野原⼤大輔 Edge-Heavy Data: CPS・ビッグデータ・クラウド・スマホがもたらす次世代アーキテクチャ GICTF総会  特別講演 2012, http://www.gictf.jp/doc/20120709GICTF.pdf
  33. 33. エッジヘビーコンピューティング 33 1000 Petabytes/Year > 200 Petabytes In Edge Devices (Surveillance Cameras and Smartphones   in Japan) In Huge Computing Cloud (300,000 nodes, each node has 2TB HDD, redundancy is 3) データを「貯めない」、「⼀一カ所に集めない」。 その前提のもとで、 深い分析を実現するコンピューティングを 実現する。
  34. 34. 分散インテリジェンスの必要性 34 •  多数のデバイスが分散しているIoTアプリケーションでは、処理理の為にデー タを中央に集約できない → 機械学習ベースのインテリジェンスをエッジデバイス  (スマートフォン/ ハンドセット)、ネットワークデバイス、クラウドサーバーに組み込み、 データを動かさずにその場で解析する スマートフォン インテリジェントカー ヘルスケア モニタリング バイオメディカル インテリジェントカメラ
  35. 35. 分散インテリジェンスに関する経済予測 CiscoとGEの試算 Cisco : Internet of Everything(IoE) IoEは⺠民間セクターにおいて今後10年年間で14 兆4000億ドルの機会の創出をもたらす l  試算の活⽤用/社員の⽣生産性向上/サ プライチェーン、ロジスティクスの 改善/カスタマーエクスペリエンス の向上/市場への投⼊入の時間短縮 l  ⽇日本での創出は7610億円(約5%) l  医療療・ライフサイエンス分野では 2013年年において990億ドルの価値 が最終的に創出される 35 - White Paper Embracing the Internet of Everything To Capture Your Share of $14.4 Trillion - Industrial Internet: Pushing the Boundaries of Minds and Machines - The Industrial Internet@Work GE : Industrial Internet Industrial Internetにより、世界のGDPは今 後20年年で100兆から150兆ドル成⻑⾧長する •  インテリジェントな機器/⾼高度度な分析/ つながった⼈人々 •  輸送/⽯石油・ガス/発電プラント/産業 施設/医療療機器 •  医療療での例例:CT、MRIメンテナンスコス トは400万時間/年年、2億5000万ドルの ⼈人件費に相当
  36. 36. まとめ •  データを深く解析する技術として、検索索・⾃自然⾔言語処理理・機械学習技 術が研究レベルだけでなく、産業レベルでも注⽬目されています •  研究でも、PheWASなどの新しい技術が⽣生まれ、応⽤用に期待が持たれ ています •  疾患解析を⾏行行うには個々⼈人から得られる様々なデータや環境情報を統 合的に解析する必要があります •  爆発的に増加するデータに対処する新しい⽅方法として、エッジヘビー コンピューティングとその上での分散インテリジェンスの考え⽅方があ ります
  37. 37. Copyright © 2006-2014 Preferred Infrastructure All Right Reserved.
  38. 38. ⼤大野健太(@delta2323_) https://preferred.jp/career/member/oono/ •  数学科修⼠士課程(微分幾何) → PFI •  エッジヘビーコンピューティング事業部所属 •  過去の取り組み •  お客様への製品導⼊入・質問・サポート対応 •  Jubatus関連:近傍探索索・グラフアルゴリズムデザイン •  バイオ関連:曖昧検索索・Epigeneticな情報を⽤用いた細胞評価 •  近似照合検索索・レセプトデータのマイニング・関連解析 38
  39. 39. 弊社要素技術紹介 補⾜足資料料1
  40. 40. ⾃自然⾔言語処理理の概要 ⾔言語情報(⽇日本語/英語/中国語)を機械で解析する技術 •  ⽂文章全体のフォーマットがあるとは限らない •  誤り・省省略略を含む •  ⽂文法が崩れている箇所がある ライフサイエンスでの応⽤用分野 •  医療療情報解析(EMR/PHR, 電⼦子カルテ、レセプト) •  論論⽂文からの情報抽出 40 twitter 電⼦子カルテ
  41. 41. 全⽂文検索索技術概要 •  ⽂文書データから特定の⽂文字列列の出現 位置を列列挙する技術 •  検索索技術の分類 •  索索引(付加データ)なし •  Knuth-Morris-Pratt法 / Aho- Corasick法  / Boyer-Moore 法  / 正規表現 •  索索引あり •  q-gram / 転置インデックス / Suffix Array •  応⽤用 •  Genbankデータの全⽂文検索索 東京都庁に今⽇日… 東京都 京都庁 都庁に 庁に今 0 1 2 3 102 150 出現位置を記録
  42. 42. 機械学習の概要 機械学習研究の定義 •  経験(データ)によって賢くなるアルゴリ ズムの研究 要素技術 •  分類/回帰 •  外れ値検出 •  クラスタリング 応⽤用 •  異異常所⾒見見の発⾒見見 •  セカンドオピニオンとしての診断⽀支援 Dimensionality Reduction by Learning an Invariant Mapping Raia Hadsell, Sumit Chopra, Yann LeCun, CVPR, 2006 学習データ 分類モデル 42
  43. 43. ルールベースの処理理と⼀一般的な機械学習の⽐比較 ⻑⾧長所 短所 ルールベース •  訓練データが多くルール が単純な場合が得意 •  容易易に実装可能 •  容易易にスケール可能 •  実⾏行行可能な仮説を容易易に 組込み可能 •  低レイテンシー •  ⾼高スループット •  解釈が容易易 •  変化への適⽤用が困難 •  予期しない状況では適切切に機 能しない •  ドメイン知識識を表現するのが 困難 •  ⼈人間が把握できる限界にバウ ンドされる •  全ての可能性を列列挙できない 機械学習 •  訓練データが少なくルー ル化すると複雑な場合が 得意 •  変化に適⽤用可能 •  多くのアルゴリズムから 選択可能 •  ⼈人間の把握できる範囲を 越えて動作する •  アルゴリズムの実装、メンテ ナンスが困難 •  ⼤大規模ストリームデータにま でスケールするのは困難 •  良良いモデルを構築するには⼗十 分なデータが必要 43
  44. 44. PheWAS詳細 補⾜足資料料2
  45. 45. GWASの問題点 •  時間的・⾦金金銭的コストが莫⼤大 •  コホート研究(千⼈人単位を数年年追跡調査) •  綿密な実験計画が必要 •  連鎖不不平衡(Linkage Disequilibrium : LD)の存在 •  候補SNPsが⼤大量量に出てしまう •  多重検定の罠 •  ⼩小さすぎるP値の解決法として、例例えばLAMP等がある •  in vitro/in vivoの追加実験が必要 •  アプローチが普遍的すぎる
  46. 46. GWAS流流⾏行行の背景 •  次世代シーケンサーの発達 → ゲノム解析のコスト低下 •  1000genome project/HapMap Project •  バイオデータ/医⽤用情報から知⾒見見を得ようと⾔言う機運 •  分⼦子⽣生物学会・DBCLSセッション •  「データベースを使い倒した新しい研究スタイルによる分⼦子⽣生物学」 •  遺伝統計学の成熟 •  Common Diseaseの解析への期待 TA Manolio et al. Nature 461, 747-753 (2009) doi: 10.1038/nature08494 ← HapMap Project HPより
  47. 47. PheWASの⼿手法:GWASの「逆」 •  ⼿手法は単純 1.  医⽤用情報(電⼦子カルテなど)から表現型を同定 2.  注⽬目したSNPsを個々⼈人で同定 3.  表現型のうち、その有無でSNPsの型に有意差があるものを探す •  必要な技術 •  ⾃自然⾔言語処理理(電⼦子カルテの解析のため) •  Joshua研でも種々のNLPツールを公開している •  “Ninety-nine percent of the work is not in software engineering or coding” •  ICD9(症例例コード)桁丸めなど
  48. 48. PheWASが注⽬目される理理由: 医療療情報有効活⽤用による医療療コスト削減への期待 •  ⽶米国の医療療費は諸外国に⽐比べて⾼高額 •  Medicare, Medicaid •  HIPAA Act:患者の個⼈人情報管理理の厳格化  → 病院側のコスト増 •  政府による電⼦子カルテ(EHR)導⼊入奨励 •  HITECH Act:EHRの有効活⽤用 (meaningful use)が明記 →医療療費削減⼿手段としてのPheWASに期待

×