Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads and optical mapping data

734 views

Published on

ISMB/ECCB2015読み会の発表スライドです。

Published in: Science
  • Be the first to comment

ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads and optical mapping data

  1. 1. ISMB/ECCB  2015読み会 2015年8月10日   於:東京大学
  2. 2. 本会の開催趣旨 •  バイオインフォマティクス分野のトップカンファ レンスであるISMB/ECCBに採択された論文に ついて、その概要をなるべく多く知ることに よってこの分野全体の流行を把握する。   •  トップのレベルを感じることで、どうすれば世 界と戦えるかを考える。  
  3. 3. ISMB/ECCB  2015 •  Joint  conference   – 23rd  annual  mee=ng  of  Intelligent  Systems  for   Molecular  Biology  (ISMB)   – 14th  European  Conference  on  Computa=onal   Biology  (ECCB)   •  開催地: ダブリン(アイルランド)   •  日程:  7月10〜14日   •  プロシーディング:  Bioinforma=cs誌の特別号  
  4. 4. ISMB/ECCB  2015 •  採択率:  42  /  241  ≒  17.4%   and students in the field. The 42 papers in this volume were selected from 241 original submissions divided into 13 research areas, col- lectively led by 25 Area Chairs. For each area, the Area Chairs se- lected an expert program committee for their subdiscipline and oversaw the reviewing process for that area. By design, the Area Chairs included a mix of experienced individuals reappointed from previous years and experts newly recruited to ensure broad tech- nical expertise and to promote inclusivity of various elements of the research community. In total, the review process involved the 25 Area Chairs, 378 program committee members, and an additional 27 papers that were resubmitted, 15 were judged to have addressed the concerns of the reviewers and were accepted for the conference proceedings, resulting in a total of 42 acceptances and an overall acceptance rate of 42/241 ¼ 17.4%. We believe that this two-tier system, which is more reflective of typical multi-round journal re- view procedures, provided a means of ensuring that only the high- est quality original work was accepted within the tight timing constraints imposed by the conference scheduling. We thank all authors for submitting their work. These proceedings would sim- ply not be possible without the scientific ingenuity of the Table 1. ISMB/ECCB 2015 review summary by area. Topic area Chairs Submissions Accepted round 1 Invited for round 2 Accepted in round 2 Approved for proceedings Applied Bioinformatics Thomas Lengauer and Christophe Dessimoz 30 1 6 3 4 Bioimaging and Data Visualization Robert Murphy 12 1 2 1 2 Databases, Ontologies and Text Mining Hagit Shatkay and Helen Parkinson 11 1 1 1 2 Disease Models and Epidemiology Simon Kasif and Alice McHardy 21 3 3 3 6 Evolution and Comparative Genomics Bernard Moret and Louxin Zhang 12 2 0 0 2 Gene Regulation and Transcriptomics Uwe Ohler and Zohar Yakhini 30 2 4 2 4 Mass Spectrometry and Proteomics Olga Vitek and Knut Reinert 11 2 0 0 2 Metabolic Networks Bonnie Berger and Hidde de Jong 5 2 0 0 2 Population Genomics Russell Schwartz and Jennifer Listgarten 22 3 2 1 4 Protein Interactions and Molecular Networks Natasa Przulj and Igor Jurisica 29 2 5 3 5 Protein Structure and Function Torsten Schwede and Anna Tramontano 22 3 2 1 4 RNA Bioinformatics Jerome Waldispuhl and Hanah Margalit 6 0 1 0 0 Sequence Analysis Michael Brudno and Siu-Ming Yiu 30 5 3 0 5 241 27 29 15 42
  5. 5. 来年は? •  ISMB  2016   –  開催地:オーランド(アメリカ)   –  日程:  7月8〜12日   –  投稿締切:  1月??日(正月休めない!)   •  ECCB  2016   –  開催地:ハーグ(オランダ)   –  日程:  9月3〜7日   –  投稿締切: 3月??日   •  再来年以降は?   –  ISMB/ECCB  2017: プラハ(チェコ)   –  ISMB  2018: シカゴ(アメリカ)   –  ISMB  2020: 日本?
  6. 6. 注意事項 •  発表時間は質疑を含めて15分です。発表12分、 質疑3分ぐらいを目安でお願いします。   •  発表時間が短いので、可能な限り詳細は省き、 エッセンスのみを発表するようにしてください。例 えば、この論文のどこがすごいのか、なぜISMB に採択されたのか、などに絞って説明していただ けるとわかりやすいです。   •  詳細については、発表を聞いて興味をもった聴 講者が自身で論文を読んでください、というスタ ンスで結構です。
  7. 7. 慶應義塾大学理工学部   佐藤健吾   satoken@bio.keio.ac.jp Misassembly detection using paired-end sequence reads and optical mapping data Martin D. Muggli1, *, Simon J. Puglisi2 , Roy Ronen3 and Christina Boucher1 1 Department of Computer Science, Colorado State University, Fort Collins, CO 80526, USA, 2 Department of Computer Science, University of Helsinki, Finland and 3 Bioinformatics Graduate Program, University of California, San Diego, La Jolla, CA 92093, USA *To whom correspondence should be addressed. Abstract Motivation: A crucial problem in genome assembly is the discovery and correction of misassembly errors in draft genomes. We develop a method called MISSEQUEL that enhances the quality of draft genomes by identifying misassembly errors and their breakpoints using paired-end sequence reads and optical mapping data. Our method also fulfills the critical need for open source computa- tional methods for analyzing optical mapping data. We apply our method to various assemblies of the loblolly pine, Francisella tularensis, rice and budgerigar genomes. We generated and used stimulated optical mapping data for loblolly pine and F.tularensis and used real optical mapping data for rice and budgerigar. Results: Our results demonstrate that we detect more than 54% of extensively misassembled con- tigs and more than 60% of locally misassembled contigs in assemblies of F.tularensis and between 31% and 100% of extensively misassembled contigs and between 57% and 73% of locally misas- Bioinformatics, 31, 2015, i80–i88 doi: 10.1093/bioinformatics/btv262 ISMB/ECCB 2015 ISMB/ECCB  2015読み会@東大
  8. 8. 目的 •  アセンブラに依存しない方法でミスアセンブリ を検出したい。   •  ペアエンドリードのみではなく、op=cal   mappingデータを用いて、検出精度向上を目 指す。
  9. 9. Op=cal  mapping [Wikipedia]
  10. 10. Recruitment  of  reads •  ペアエンドリードをコンティグに貼り付ける。   •  張り付いた順番、向き、カバレッジから、ミス アセンブリの候補を検出する。 Correct assembly A R CR A R CR Inversion A R CR mate-pair 1 mate-pair 2 mate-pair 3 mate-pair 1 mate-pair 2 mate-pair 3 mate-pair 1 mate-pair 2 mate-pair 3 Rearrangment A R CR v Correct assembly (read depth) A R C v Collapsed repeat Expanded repeat: A R CRR v (a) (b) (c) (d) (e) (f) Fig. 1. An illustration about the systematic alterations that occur with rearrangements, inversions, collapsed repeats and expanded repeats. (a) Proper read align- ment where mate-pair reads have the correct orientation and distance from each other. A rearrangement or inversion will present itself by the orientation of the reads being incorrect and/or the distance of the mate-pairs being significantly smaller or significantly larger than the expected insert size. This is shown in (b) and i82 M.D.Muggli et al.
  11. 11. Red-­‐black  posi=onal  de  Bruijn  graph •  コンティグ上の位置情報を持ったde  Bruijn  graph   •  カバレッジが近傍の平均と比べて極端に外れている 場合、ペアエンドの整合性が取れない場合⇒赤、そ うでない場合⇒黒   •  赤が50個以上続いたらミスアセンブリ候補 Misassembly detection using paired-end sequence reads and optical mapping data i83
  12. 12. Misassembly  verifica=on •  Twin  [Muggli  et  al,  2014]  を使ってコンティグを Op=cal  mappingデータにアラインメントする。   – コンティグを制限酵素の認識部位でin  silicoで切 断し、得られた配列の長さとOp=cal  mappingデー タを比べる。  
  13. 13. 実験データ •  Simulated  op=cal  mapping  data   – F.  tularensis  (野兎病菌)   – Pinus  taeda  (テーダマツ)   ⇒  3種類の制限酵素を使ってシミュレーション   •  Real  op=cal  mapping  data   – rice  (稲)   – budgerigar  (セキセイインコ)   ⇒  公開データを使う
  14. 14. ミスアセンブリ •  QUAST  [Gurevish  et  al,  2013]  では以下のよう に定義されている。
  15. 15. 結果(F.  tularensis) •  SOAPdenovo   •  Velvet,  ABySS,  SPAdes,  IDBA-­‐UDでも同様の傾 向を示した。   MA  TPR local  MA  TPR FPR misSQuel  (PE  only) 100%  (10/10)   100%  (35/35)   63%  (165/263)   misSQuel  (OM  only) 80%  (8/10)   63%  (22/35)   29%  (77/263)   misSQuel  (both) 80%  (8/10)   84%  (21/35)   20%  (53/263)   REAPR 20%  (2/10)   14%  (5/35)   2%  (6/263)   Pilon 10%  (1/10)   9%  (3/35)   2%  (5/263)  
  16. 16. 結果(Pinus  taeda) •  SPAdes MA  TPR local  MA  TPR FPR misSQuel 100%  (7/7)   73%  (8/11)   <1%  (135/20653)   REAPR 14%  (1/7)   27%  (3/11)   6%  (1323/20653)   Pilon 14%  (1/7)   18%  (2/11)   4%  (923/20653)  
  17. 17. 結果(rice) •  SOAPdenovo MA  TPR local  MA  TPR FPR misSQuel 75%  (374/499)   100%  (3/3)   <1%  (821/10941)   REAPR 6%  (30/499)   0%  (0/3)   6%  (800/10941)   Pilon 5%  (25/499)   0%  (0/3)   4%  (522/10941)  
  18. 18. 結果(budgerigar) •  SOAPdenovo MA  TPR local  MA  TPR FPR misSQuel 77%   (10777/13996)   80%    (2350/2937)   10%   (4023/39394)  
  19. 19. 考察 •  Op=cal  mappingデータは、ミスアセンブリの検 出に役に立つことが示された。   •  一方、ミスアセンブリとstructural  variantの違 いを検出することはできない。偽陽性の大部 分は、実はstructural  variantに違いない。   •  どの制限酵素を選べばいいかは今後の課題 である。
  20. 20. この論文のすごいところ •  手法の新規性   –  Op=cal  mappingデータをちゃんと利用するツールが 今のところあまりない。   •  ツールの実用性   –  なかなかの高精度でミスアセンブリを検出できる。   –  アセンブラを選ばない。   •  論文の完成度   –  さまざまな生物種について、いろいろなゲノムアセン ブラのアセンブリにおける網羅的な実験を行っている。  

×