バイオインフォマティクス(2013年度以降用改訂版)

2,572 views
2,486 views

Published on

最新版(2016年度以降用改訂版)が http://dx.doi.org/10.6084/m9.figshare.2057958 より公開されています。
Bioinformatics primer lecture for oncologists who want to make full use of available database resources in the world.

バイオインフォマティクス(2013年度以降用改訂版)

  1. 1. バイオインフォマティクス 大学共同利用機関法人 情報・システム研究機構 (ROIS) ライフサイエンス統合データベースセンター (DBCLS) 坊農 秀雅 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  2. 2. 本講義の内容 • 「道具」と「部品」を扱うための知識 1.バイオインフォマティクスとは 2.基本的なコンピュータリテラシー • それらの道具を用いて「生物情報」を 実際 の研究に役立てていくアプローチ 3.文献情報検索 4.塩基配列データベースとゲノムブラウザー 5.遺伝子発現情報データベース2 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  3. 3. 1. バイオインフォマティクスとは • 生命現象を「情報」の立場で解明していこうと する研究 • バイオテクノロジーと生命の情報処理を意味す るインフォマティクスを連携させた技術 • コンピュータを実験デバイスとして使って、生 物学的に有意な結論を引き出そうとする学問 –坊農秀雅「バイオインフォマティクス入門」 羊土社 20023 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  4. 4. バイオインフォマティクスの歴史 • ツール ‒配列解析:ドットマトリックス        (ハープロット)→ 動的計画法 •RNA二次構造予測 ‒配列類似(相同)性検索 •FASTA, BLAST, BLAT etc. • データベース(DB) ‒最初のDB: タンパク質 (アミノ酸)配列 ‒塩基配列DB:1980年代初頭4 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  5. 5. 日米での標準的なバイオインフォ マティクスのテキスト5 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  6. 6. バイオインフォマティクスの範疇 イメージ解析 遺伝子発現解析 アミノ酸配列解析 塩基配列解析 パスウェイ解析 シミュレーション さらに、臨床データ解析も6 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  7. 7. (かつての)バイオインフォマ ティクス研究者の職種別分類 • アルゴリズム屋 数学的 –方法を考える人 抽象的 –「NP完全」がキーワード • 実装屋 –プログラムやツールを書く人 生物的 Biologistの範疇 • 解析屋 –プログラムを使って実際に生データを相手に手を 具体的 動かす人7 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  8. 8. 2. 基本的なコンピュータリテラシー • インターネット検索 –Google検索(ググる) • ライフサイエンス分野に特化した検索 –データベースを探す • integbioデータベースカタログ –データベースを検索する • 生命科学データベース横断検索 –使い方を動画で知る9 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  9. 9. http://integbio.jp/dbcatalog/10 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  10. 10. http://integbio.jp/dbcatalog/11 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  11. 11. 高血圧12 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  12. 12. 13 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  13. 13. 14 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  14. 14. 15 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  15. 15. ライフサイエンスデータの統合DBとは? ロジスティクス(流通業)•NBDC/DBCLS/DDBJ を中心に 日本中のさまざまな大学・研究機関が協力• 安心してすぐに利用できるデータを提供 ‒ 「ぐるなび」、「食べログ」、「クックパッド」• 公共DBとして外に出す際にデータを綺麗に ‒「分別回収→リサイクル」 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  16. 16. 統合TV (togoTV) •動画によるDBやツールのチュートリアル ‒ 各DBやツール名、 で検索 •統合データベース講演会AJACSの動画も •YouTubeからも •Videocastでも •約650のコンテンツ (アップデート含む)17 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  17. 17. 統合TV(togoTV)18 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  18. 18. 医学研究で多用するウェブツール 3.文献情報検索 –PubMed とそれを利用した各サービス –日本語文献検索(ライフサイエンス新着論文レビュー他) 4.塩基配列データベースとゲノムブラウザー –RefSeq –SRA –UCSC Genome Browser 5.遺伝子発現解析 –NCBI GEO(Gene Expression Omnibus)とGEO目次 –BioGPS –RefEx20 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  19. 19. 3. 文献情報検索 • 英文: PubMed –inMeXes: 逐次PubMed/MEDLINE表現検索 –Allie: 略語検索 • 日本語: cinii –ライフサイエンス新着論文レビュー –ライフサイエンス領域融合レビュー –蛋白質核酸酵素 全文検索21 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  20. 20. PubMed • http://pubmed.gov/ • 米国立医学図書館(NLM: National Library of Medicine)が編纂する医学文献DB –件数: (20121223 16:00現在) –NLMの下部組織NCBI(National Center for Biotechnology Information)のEntrezから検索可能 「PubMedで論文を検索する」 http://togotv.dbcls.jp/20120830.html22 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  21. 21. PubMed 検索例: ‘cancer’23 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  22. 22. inMeXes • http://docman.dbcls.jp/im/ • ライフサイエンス統合DBセンター(DBCLS) が提供する逐次PubMed/MEDLINE表現検索 「inMeXesを使い倒す」 http://togotv.dbcls.jp/20091216.html24 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  23. 23. 25 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  24. 24. Life Science Dictionary のサイトにリンク26 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  25. 25. Allie • http://allie.dbcls.jp/ • Allie(アリー)は生命科学分野において利用され ている略語とその展開形を検索するサービス 「Allieを使って略語の正式名称を検索する2010」 http://togotv.dbcls.jp/20100831.html27 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  26. 26. Allie検索例: ‘SPF’28 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  27. 27. CiNii • http://ci.nii.ac.jp/ • 国立情報学研究所(NII: National Institute of Informatics) が提供する日本語文献検索シス テム。「さいにー」と発音 作成中…‘CiNii’で以下のフォームから検索 http://togotv-curated.dbcls.jp/29 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  28. 28. cinii 検索例: 「がん 低酸素」30 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  29. 29. ライフサイエンス新着論文レビュー http://first.lifesciencedb.jp/ Nature, Science, Cell などのトップジャーナル に掲載された日本人を著者とする生命科学分野 の論文について論文の著者自身の執筆による専 門分野の異なる生命科学研究者にむけた日本語 によるレビューを、自由に閲覧・利用できるよ うウェブ上にていち早く無料で公開するサイト 「ライフサイエンス新着論文レビュー FirstAuthors を使い倒す」 http://togotv.dbcls.jp/20110301.html © 2012 DBCLS Licensed under CC 表示 2.1 日本31
  30. 30. クリエイティブ・ コモンズ 表示 2.132 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  31. 31. ライフサイエンス領域融合レビュー http://leading.lifesciencedb.jp/ 生命科学において注目される分野・学問 領域における最新の研究成果について、 第一線の研究者の執筆による日本語の レ ビューを、だれでも自由に閲覧・利用で きるよう、無料で公開します。 「ライフサイエンス領域融合レビュー LeadingAuthorsを使い倒す」 http://togotv.dbcls.jp/20121113.html33 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  32. 32. 34 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  33. 33. 蛋白質核酸酵素 全文検索 • http://lifesciencedb.jp/pne/ • 生化学・分子生物学の日本語総説誌 –Since 1953, しかし2010年1月休刊 • 1985年∼2008年の通常号の総説、計2,216論文 が対象 –2009,2010年分の全文検索結果については共立出版 のサイトに掲載されている抄録へのリンクのみ 「蛋白質核酸酵素全文検索を使い倒す」 http://togotv.dbcls.jp/20080911.html35 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  34. 34. 36 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  35. 35. 4. 塩基配列データベースと ゲノムブラウザー • RefSeq –GGRNA • Sequence Read Archive(SRA) • UCSC Genome Browser –遺伝子名から検索 –ゲノムアノテーションをカスタマイズする • 例: 転写因子結合サイト38 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  36. 36. RefSeqとは • Reference Sequenceの略 • NCBIが提供する配列解析に使うための文字通り "reference"(リファレンス)となるべき配列データベース のこと • その配列の多くは核酸配列データベースのDDBJや EMBL、GenBank由来であり、それらの中からもっと も代表としてふさわしい(参照の基準となる)ものが、 目で見て選ばれている 「遺伝子のRefSeq IDを調べる 2011」 http://togotv.dbcls.jp/20110218.html39 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  37. 37. GGRNA • http://ggrna.dbcls.jp/ • ライフサイエンス統合DBセンター(DBCLS) が提供する遺伝子(RefSeq)をGoogleのよう に検索できるサイト 「GGRNAで遺伝子をGoogleのよう に検索する」 http://togotv.dbcls.jp/20120124.html © 2012 DBCLS Licensed under CC 表示 2.1 日本40
  38. 38. GGRNA検索例41 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  39. 39. 核酸配列DB INSDC NCBI DDBJ/EMBL/GenBank RefSeq nr/nt Title:Nucleotide collection (nt) Description:The nucleotide collection consists of GenBank+EMBL+DDBJ+PDB+RefSeq sequences, but excludes EST, STS, GSS, WGS, TSA, patent Sequence sequences as well as phase 0, 1, and 2 HTGS sequences. The database is partially non-redundant. Read Archive TraceArchive (SRA)42 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  40. 40. SRA(Sequence Read Archive) • いわゆる次世代シーケンサー(NGS)から得ら れる塩基配列のアーカイブ データ取得元: DBCLS SRA http://sra.dbcls.jp/43 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  41. 41. 文献情報からNGSデータを検索 DBCLS SRA http://sra.dbcls.jp/44 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  42. 42. 疾患別NGSデータ登録数 2012/12/25現在。 データ取得元:DBCLS SRA http://sra.dbcls.jp/cgi-bin/diseasetree.cgi45 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  43. 43. Genome Browserとは? • アノテーションが付加された遺伝子のゲノム 上の位置やその周辺を表示できるツール –UCSC Genome Browser http://genome.ucsc.edu/ –Ensembl Genome Browser http://ensembl.org/46 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  44. 44. 遺伝子名から検索47 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  45. 45. 48 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  46. 46. 49 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  47. 47. 50 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  48. 48. 使い方いろいろ。 詳しくは統合TVで • ゲノムアノテーションをカスタマイズする 「UCSC Genome Browserの使い方∼ 表示+ENCODE編∼ 2012」 http://togotv.dbcls.jp/20120528.html • BLATを使って塩基・アミノ酸配列断片から 検索 「ウイルスの持ち出した宿主の遺伝子配列が コードされている領域をアミノ酸配列レベル でゲノム中から探し当てる 2012」 http://togotv.dbcls.jp/20121030.html51 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  49. 49. 5. 遺伝子発現解析 • NCBI GEO(Gene Expression Omnibus) –GEO目次 • BioGPS • RefEx • Human Protein Atlas53 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  50. 50. NCBI GEO • Gene Expression Omnibus(GEO) • NCBIによる遺伝子発現情報のアーカイブ –現状、主にマイクロアレイ実験による発現データ –今後、RNA-seqなど次世代シーケンサーによる データが増えてくると見込まれる 「NCBI GEOの使い方1∼マイクロアレイデー タの検索・取得∼ 2011」 http://togotv.dbcls.jp/20110711.html 「NCBI GEOの使い方2∼遺伝子プロファイル の検索・処理済みデータの取得∼」 http://togotv.dbcls.jp/20111020.html54 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  51. 51. GEO目次 • http://lifesciencedb.jp/geo/ • NCBI GEO を快適に使い、データの全容を 俯瞰するための仕組み • ライフサイエンス統合DBセンター(DBCLS) が提供。週一回更新。 「遺伝子発現バンク(GEO)目次を使い倒す 2010」 http://togotv.dbcls.jp/20100326.html55 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  52. 52. GEO 目次56 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  53. 53. BioGPS • http://biogps.org/ • GeneChipを用いたヒト、マウス、ラットの さまざまな組織や細胞(株)における遺伝子発 現プロファイルのデータベース • 英語版Wikipedia(Gene Wiki)等、様々な外部 データベースへのリンクが充実 「遺伝子発現プロファイルデータベース BioGPSを使い倒す 2012」 http://togotv.dbcls.jp/20120911.html57 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  54. 54. BioGPS検索例: ‘pparg’58 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  55. 55. 59 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  56. 56. RefEx (Reference Expression dataset) •http://refex.dbcls.jp/ 4つの異なる実験手法(EST、GeneChip、 CAGE、RNA-seq)によって得られた40種類 の正常組織における遺伝子発現データを統合 し並列に表現することで、手法間の比較とと もに各遺伝子の発現量を直感的に比較するこ とが可能なリファレンス(参照)データセット 作成中…‘RefEx’で以下のフォームから検索 http://togotv-curated.dbcls.jp/60 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  57. 57. RefEx61 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  58. 58. RefEx liver specific genes62 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  59. 59. RefEx: Specific gene63 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  60. 60. Human Protein Atlas • http://www.proteinatlas.org/ • 14,079 genes with protein expression profiles based on 17,298 antibodies. ESR1 「Human Protein Atlasでタンパク質の発現状 況を調べる2011」 http://togotv.dbcls.jp/20110113.html64 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  61. 61. Human Protein Atlas 検索例: ‘ESR1’65 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  62. 62. 66 © 2012 DBCLS Licensed under CC 表示 2.1 日本
  63. 63. まとめ • バイオインフォマティクスは –「道具」として21世紀の医学生物学に必須 –「道具」「部品」ともに勃興が著しい • 最新の「部品」情報をインターネット検索 を駆使して把握し、「道具」の原理をある程 度理解して、使い倒しましょう! • 復習はこのアイコンを目印に! 統合TVによる統合TV(統合TV Curated)の使い方 http://togotv.dbcls.jp/20110406.html67 © 2012 DBCLS Licensed under CC 表示 2.1 日本

×