Successfully reported this slideshow.
Your SlideShare is downloading. ×

[2016-07-06] DDBJデータ解析チャレンジ概要

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 17 Ad

[2016-07-06] DDBJデータ解析チャレンジ概要

Download to read offline

*キックオフ講習会版よりも, 課題データの説明を増やしました。
*page9,5条件目の出力1peak図ずれを修正しました(2016/7/8 20:51)。
*page9の配列やpeak図は説明用で、実データではない事に御注意ください。

*キックオフ講習会版よりも, 課題データの説明を増やしました。
*page9,5条件目の出力1peak図ずれを修正しました(2016/7/8 20:51)。
*page9の配列やpeak図は説明用で、実データではない事に御注意ください。

Advertisement
Advertisement

More Related Content

Slideshows for you (15)

Advertisement

Similar to [2016-07-06] DDBJデータ解析チャレンジ概要 (20)

Recently uploaded (20)

Advertisement

[2016-07-06] DDBJデータ解析チャレンジ概要

  1. 1. DDBJデータ解析チャレンジ概要 DDBJ Data Analysis Challenge Eli Kaminuma Center for Information Biology/DDBJ Center, National Institute of Genetics チャレンジキックオフ講習会 日時:2016年7月6日(水)10:30~10:50 場所:国立研究開発法人 科学技術振興機構(JST) 東京本部別館(K's 五番町)
  2. 2. 日本DNAデータバンク(DDBJ)は、欧州・米国と共同で 国際塩基配列データベースを運営する機関 スタッフ 6名 アノテータ 14名 運用SE(スパコン・DB) 15名 広報・秘書 5名 研究者が発表する塩基配列・アミノ酸配列をデータベース化。 日・韓・欧・米の特許出願配列も含む。 国立遺伝学研究所(静岡県三島市)に設置。 遺伝研スパコン
  3. 3. (Kaminuma et al., NAR 2010) 1. NGS Annotation Pipeline Crowdsourcing 2. DNA Polymorphism Annotation Database 4. Citrus SNP Genotyping Array Design for GWAS 6. CrowdScience Infrastructure 3. SNP-Trait Heritability Curation Database (Mochizuki et al., submitted) (Shimizu et al., submitted)(Kaminuma et al., NAR 2013) OpenData OpenData OpenData Curation Curation OpenData Crowdsourcing 5. Urban Subway DNA Monitoring Project Curation http://p.ddbj.nig.ac.jp/ http://tga.nig.ac.jp/dnapod/ http://tga.nig.ac.jp/h2db/ A Portal Website for Participatory Science (Kaminuma et al., JSAI meeting 2016) http://tga.nig.ac.jp/pathomapj/ チャレンジ開催の背景① 参加型研究↓ 神沼研究背景:生命情報データ自動注釈とクラウドソーシング http://crowdrnd.jp/
  4. 4. DNA配列ビッグデータ ↓ データ素材として 未だ認知度低い 遺伝研スパコン ↓ ビッグデータ解析環境を 今後整備 チャレンジ開催の背景② DDBJ年度目標:ビッグデータ素材・解析環境整備へ 京大鹿島研ビッグデータ大学上でコンペ開催へ - データ解析チャレンジで素材提供。 - スパコンのビッグデータ解析環境も同時整備
  5. 5. チャレンジ開催までのハードル① 研究倫理審査委員会で要承認 ■参加型研究でクラウド(群衆)の個人情報を扱う場合には、IRB(Institutional Review Board) による研究倫理承認が必要 ■研究倫理審査の要件に、クラウドの研究同意書(Informed Consent:IC)取得がある。 IC項目 1) 研究目的・協力方法・実施体制・研究期間について 2) 本研究が国立遺伝学所の倫理審査委員会で承認された上、開始されること 3) 本研究成果の公表について 4) 利益・不利益について 5) 本研究のデータの個人情報保護および匿名化について 6) 本研究のデータの保管と廃棄について 今チャレンジでは、システム投稿ボタン操作を同意書ボタンとして 扱いますので御注意をお願い致します。 ■同意撤回の御意思の方は、チャレンジ窓口まで御一報ください。 チャレンジ終了後の最終評価対象者に含めない様に対処致します。 2016年3月30日発行→ 開催へ!!
  6. 6. チャレンジ開催までのハードル② コンペティション課題の設計問題 ■非公開データという厳しい条件有 (公開データは正解が探せてしまう) →実験研究では論文化前の データ公開は基本無 →未公開データを独自作成で対処 ■分野外参加者への配慮 専門知識を使わなくても参加可能な課題 疾患・病害リスクとなるGWAS-SNP, cis-eQTL 等DNA多型予測タスクを画策するも、、 →DNA多型予測精度に関連する、 しかし理解し易いDNA配列からの クロマチン特徴予測に絞る事に。 Schaub MA et al., Genome Res22:1748,2012.
  7. 7. DDBJデータ解析チャレンジ課題 DNA配列からの高精度クロマチン特徴予測モデル構築を目指す。 DDBJチャレンジHPにも課題説明有 ビッグデータ大学に課題説明 植物シロイヌナズナのDNA配列から 条件毎にクロマチン特徴領域を含むかを予測して下さい。 ------------------------------------------------------ 入力訓練データ :60,000 DNA配列 入力テストデータ:10,000 DNA配列 出力訓練データ :8条件の正解(真偽) ------------------------------------------------------- ■入力 1配列は、対象生物のゲノム上の200塩基 1配列は、01コードで保存しており1行800データです。 ■出力 出力訓練データ(正解データ)は01コードです。 1が真で、DNA配列はクロマチン特徴領域を含む。 0が偽でクロマチン特徴領域を含まない、に相当します。 ■課題 入力テストデータの予測結果として、1万行8列で 真の予測確率をビッグデータ大学に投稿して下さい。 (列間区切はスペース)
  8. 8. クロマチン特徴情報を、DDBJ SRAデータベースの 再解析で取得可能 (Bernstein et al., Nat Biotechnol,28:1045, 2010) クロマチン特徴情報とは オープンクロマチン領域情報、ヒス トン修飾情報、転写因子結合部位 情報などに分類され、 遺伝子発現のオンオフに関係する。 DDBJ SRA (DNase-seq,ChIP-seq条件) クロマチン情報注釈データベースChIP-Atlas(九大沖博士) ChIP-Atlasの詳細は「 10:50-11:20 DDBJデータ解析事例ChIP-Atlasデータ ベースの紹介」講演(沖発表)を御参照ください。
  9. 9. 課題データ①入力はDNA配列、 出力はクロマチン特徴の有無 ※上図条件は課題8条件と異なる可能性があります。また実際の条件は、より細分化されています。 ※植物シロイヌナズナの課題データは、ChIP-Atlas同条件で解析した未掲載生物種です。 (ChIP-Atlasはシロイヌナズナを含まないので御注意ください) 全体のモデル GGGGAATCTTGAATCAAATGTCGATTCAT 入力: DNA配列はゲノム上のある領域配列 条件毎の モデル →予測へ TCAGTAGAAGGTCACCTACATGGATATTAAGGCTATAAGCCGCAGGTAAGATATAGTTCATCGAAGGGGAATCTTGAATCAAATGTCGATTCATCTTAATTGTACGTCAATTCTAATTCAATTTGTTCTAAACTTCCTCGGGGCTAAAGCCTCGTGATTCAATTATGGCTCTTTGCTGCTATTAAGGTGATAGTATCTGCTTAGCCCATAGTAATAAGA 1 1 0 0 1 出力 ゲノム上のピーク領域 (SRA再解析) DNase, Flower HistonMark1, Leaf HistonMark1, Root HistonMark2, Flower TF1, Flower 条件 出力: クロマチン特徴領域がDNA配列領域に 含まれるか否か
  10. 10. 課題データ②置場所、ファイル形式、データ形式 [1]データ置場は2箇所 [2]ファイル形式 1) ビッグデータ大学ウェブサイト内 2) 遺伝研スパコン内 /home/challenge/data/DDBJ-challenge.mat challengeグループのみアクセス可能 DDBJ-challenge.matはMATLAB バイナリファイル形式 → Rで読込 R.matlabのreadMat() →Pythonで読込 scipy.io.loadmat() [3]データ形式 データは論理値(1,0)で格納しています。 計算時には倍精度数値に変換してお使い下さい (Matlabの場合double)。 変換はハンズオン資料を参考にしてください。
  11. 11. ??? 課題データ③DDBJ-challenge.matの形式 *訓練データ(out_tr,seq_tr)を予測モデルの学習に使う。 *テストデータ(seq_te)を学習済モデルで予測した結果をビッグデータ大学に投稿する。 >> tmp=load('DDBJ-challenge.mat') tmp = out_tr: [60000x8 logical] seq_te: [10000x800 logical] seq_tr: [60000x800 logical] 変数 入出分類 説明 用途 out_tr 出力 8条件の正解セット (クロマチン特徴を入力配列 領域に含むor含まない) モデル訓練 seq_te 入力 配列 テスト (課題投稿用) seq_tr 入力 配列 モデル訓練 訓練入力 8条件正解セット 訓練出力 800列 8列 60,000行 seq_tr out_tr ①モデル学習 テスト入力 800列 10,000行 seq_te テスト出力 8列 ②学習済モデルで予測 ③予測確率を ビッグデータ 大学へ投稿
  12. 12. 課題データ④DNA配列データは特殊2進数で記述 DNA配列データの表現 塩基 アルファベット表現 数字表現 課題表現 Adenosine A 1 1000 Cytidine C 2 0100 Guanine G 3 0010 Thymidine T 4 0001 Unknown その他 0 0000 例: ACCGT=10000100010000100001 注意: 入力データDNA配列の長さは200。しかしDDBJ-challenge.matに 格納されている長さは800になる。 200bp 800 アルファベット表現 課題表現
  13. 13. 講習会ハンズオンで、モデル構築から投稿まで DDBJデータ解析チャレンジHPにハンズオン資料へのリンクを掲載。 遺伝研スパコンへのジョブ投入 ビッグデータ大学で結果投稿
  14. 14. 予測結果の投稿条件 ビッグデータ大学(データサイエンス・コンペティション基盤:京大鹿島 )の投稿条件 ビッグデータ大学の詳細は「 14:05-14:30 機械学習コンペティション基盤 の紹介」講演(鹿島発表)を御参照ください。 ・予測結果は1日3回まで提出可能。 ・予測結果提出時の提示スコアは中間スコア。 (中間スコアは、テストデータの50%を対象に算出) ・コンペティション終了時に最終スコアを算出。 (最終スコアは、残り50%のテストデータを対象に算出) ・チャレンジ終了後の順位は、最後に提出したモデルの最終スコアで決定。
  15. 15. チャレンジ投稿受付期間と参考資料 ■投稿受付期間 2016/7/6—2016/8/31 JST23:59 結果発表9月30日予定 *学生が参加しやすい夏休みに実施 キックオフ講習会 プログラム 1 データ解析チャレンジ概要(NIG神沼) 2 DDBJ SRA解析事例(九大沖) 3 ビッグデータ大学の紹介(京大鹿島) 4 機械学習予測モデル紹介(京大馬場) 5 遺伝研スパコン紹介(NIG石川) 6 スパコン機械学習ハンズオン(NIG神沼) ■参考資料 → オンライン参考資料として YouTube, Slideshareにて公開 (チャレンジHPにLINK掲載予定)
  16. 16. チャレンジの計算には遺伝研スパコン利用可 利用申請〆切に注意 http://sc.ddbj.nig.ac.jp/ *6/27~8/21: チャレンジ用アカウント申請、 OSSインストール受付 *7/6~8/31: Challenge投稿期間 *9/1:アカウント閉鎖⇒年度末報告義務なし ■チャレンジ用スケジュール■遺伝研スパコン利用申請 遺伝研スパコンの詳細は、「 14:05-14:30 遺伝研スーパーコンピュータの ビッグデータ解析環境」 講演(石川発表)を御参照ください。 ■GPUノードをChallenge参加者に提供。 → GPU利用Deep Learning解析が実施可
  17. 17. チャレンジ開催 <全体、スパコン準備、講習会> ・Toshihisa Takagi (NIG) ・Osamu Ogasawara (NIG) ・Masanori Arita (NIG) ・Yasukazu Nakamura (NIG) ・DDBJスパコンチーム ・DDBJ 情報チーム ・Yasuhiro Tanizawa (NIG) ・Takako Mochizuki (NIG) ・Takeru Nakazato (DBCLS) ・Mathworks Japan <倫理審査> ・Kousaku Okubo (NIG) ・Isao Katsura (NIG) ・NIG Ethical IRB committee 謝辞 課題関係 ・Hisashi Kashima (Kyoto Univ) ・Yukino Baba (Kyoto Univ) ・Shinya Oki (Kyushu Univ) ・Tarzo Ohta (DBCLS) ・ Ayako Oka (NIG) 特に遺伝研スパコンのチャレンジ開催には、 DDBJ運営スタッフの小笠原理博士、DDBJス パコンチームの皆様に多大の御協力を頂き ました事を感謝致します。

×