Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

医療データ解析界隈から見たICLR2017

22,719 views

Published on

2017/6/17に行われたDeNA主催のICLR2017読み会でお話させて頂きました。
https://connpass.com/event/57631/?utm_campaign=event_reminder&utm_source=notifications&utm_medium=email&utm_content=detail_btn

Published in: Health & Medicine

医療データ解析界隈から見たICLR2017

  1. 1. 理化学研究所 医科学イノベーションハブ推進プログラム 上級研究員 川上 英良
  2. 2.  2007 東京大学医学部医学科卒業  2007-2013 東大医科研(河岡義裕先生)  インフルエンザウイルスの実験研究  2013- 理研IMS(北野宏明先生)  システム生物学  バイオインフォマティクス  2016/7- 理研MIH(桜田一洋先生・古関明彦先生)  マルチオミクスデータ解析(RNAseq, ChIPseq, マイクロバイオームな ど)  医療データの多変量解析  画像データ解析  時系列データ解析  機械学習を使った疾患の層別化・バイオマーカー探索
  3. 3. 1. 測定が簡単な項目から、直接測定が難しい分類を予測 例1)血液検査データからガンの進行期を予測 例2)治療前の検査データから抗がん剤の治療効果を予測 2. 現在のデータから、未来の状態を予測 例)一ヶ月後の血糖値を予測
  4. 4.  次元の割にサンプルが少ない(p >> n 問題)  問題に対してデータが不完全  そもそもデータがない(データの取得・構築からやる必要性)  多様性、個別性が大きい ⇨取得しやすくてサンプル数が大きいデータ(遺伝 子、画像、カルテ)を使う事例が多い
  5. 5. The Effectiveness of Transfer Learning in Electronic Health Records Data Sebastien Dubois, Nathanael Romano, Kenneth Jung, Nigam Shah, and David C. Kale Memory Matching Networks for Genomic Sequence Classification Jack Lanchantin, Ritambhara Singh, Yanjun Qi Predicting Medications from Diagnostic Codes with Recurrent Neural Networks Jacek M. Bajor, Thomas A. Lasko 応用先としてはまだまだ少ない
  6. 6. Researcher at the Centre for Computational Biology (CBIO) of Mines ParisTech, Institut Curie and INSERM. Chloé-Agathe Azencott
  7. 7.  Genome-Wide Association Study  疾患と関連するSNP(遺伝子変異)を見つける  DNAチップや次世代シーケンサーで網羅的に疾患 患者のゲノム変異解析  日本もHapMapプロジェクトで多大な貢献をした 中村祐輔 シカゴ大学教授
  8. 8. Split brain auto encoderによる特徴の学習 少数の ラベルあり データ 多数の ラベルなし データ classifier Label 1 Label 2 Label 3 … Label n
  9. 9. 微妙…
  10. 10. 本質的に正解率が上がらない問題 情報が不完全である可能性(ミスラベルなど) 医学論文、医療データの自然言語処理は危険 医療データ解析をやるときは、臨床のお医者さんと用 法・用量をよく相談の上、適切な課題と適切なデータを 決めてからやりましょう

×