Ohp Seijoen H20 00 Intro1. データ解析の基礎
導入
2008年8月,データ解析の基礎,加藤,瀬々,金子. 1
3. 生命情報学で扱うデータ
生物学的配列 タンパク質立体構造
遺伝子発現データ 遺伝子のネットワーク
など様々
本講義では,生物学的配列を扱う
Molecular Biology of the Cell 4版
2008年8月,データ解析の基礎,加藤,瀬々,金子. 3
4. 生物学的配列
• DNA配列
– アデニン(A),グアニン(G),シトシン(T),チミン(C)
からなる4種類の塩基の鎖
• RNA配列
– アデニン(A),グアニン(G),シトシン(T),ウラシル(U)
からなる4種類の塩基の鎖
• アミノ酸配列
– 20種類のアミノ酸の鎖
2008年8月,データ解析の基礎,加藤,瀬々,金子. 4
5. DNA配列
Molecular Biology of the Cell 4版
2008年8月,データ解析の基礎,加藤,瀬々,金子. 5
6. アミノ酸配列
20種類のアミノ酸
Molecular Biology of the Cell 4版
2008年8月,データ解析の基礎,加藤,瀬々,金子. 6
10. DNA配列の逆相補鎖 塩基 相補塩基
A T
T A
G C
C G
たとえば
5’ ATGGCGAACG 3’
の相補鎖は
3’ TACCGCTTGC 5’
となり,5’末端を左にすると
5’ CGTTCGCCAT 3’
となる
Molecular Biology of the Cell 4版,p.194
2008年8月,データ解析の基礎,加藤,瀬々,金子. 10
11. 長いDNA配列の逆相補鎖を求めたい
CAAAAATTGATGGGGAGTCATCATGTGACTGTGCATATTACACGGCAAACACCTTGGCATTTTGACAGCT
TCACAAGGGCCATGTGCTTGGTTTCTAGGGCAAGGATTTTAGAGTAAAAAAGTGAAAGCTGCTTTATTAA
TACAATAGAGATACTGTATCCTACAGAGTAGATTCTAGTAAAGAGACTCCAAATAATTTTGCAAACATTT
ATACTTCTGAGTTCAAATAAAGAATTTGAGCATTAATGGGATTCTAGGTTCATAATACAAAACTCAAGAC
TCTAGTACCATACAGTCTAGATGTGTCATGATCAAAACTCCCCTGTGCACCCCTTTACAGATAACCACTT
CCCCTCCTCAAACACCTGGAAACCATTCTTCTGTTTTCCATGCCCACAGATGTGCCTTTTCCAGAACATG
AGACAAATGAAATTATACAAAGTGTAGCCTTTTCAACTGTCTTCTTTCATTTAGCAATATACATTCAAGA
TTCATTCTTGTTGTTGCATGGATTAATAGCTCTTTCTTTGTTATATGGAATAGTATCCCATTGTAGTTCC
ACCACAGTTGGTGTATCCATTTGTATATTGAAGGACTTCTTGGTTGCTTTTTCTCTGTTTTTGGTGATTA
TGAATAAAACTGCTATAAACATTTTTTGTAGGTTTTTATGTTTATGTTATTTTTCAAGTCAGGTGGAGGA
TTTGATTTGATAAGAAATATTTGATTCTATCTCTTTTAAACTCTGAAATTAGGTGCAAACAGATTAGGAT
TGGTGTGTCTTCATGATTGATTAAGCCCCTTATCATATGACATGCTTCTCTTTACTTTTGATTATATTTT
TTCTTCTGAAATCTACAGAGTAAGATATTGATGTGACTGCTTTAGCTCCTTTATAATTACTATTTGCATT
GTATTGTATATCTTTGTTCATCTTTTTATGTTTTAAGTAGTCTGTGTCTTTATATTTAAAGTGGATTCAA
GGTAGGCAGCAAATAGTTGGC
これくらい長い配列の逆相補鎖を手で求めるのは大変
→計算機にやらせよう
2008年8月,データ解析の基礎,加藤,瀬々,金子. 11
22. 長い配列の場合
この2本から相同な領域を見つけたい
ATAATTATAAAATATTATATTGAAATTAAAGTATATCCAATCAAAAGCATAAAACAGCTGGTTTTAGTAA CAAAAATTGATGGGGAGTCATCATGTGACTGTGCATATTACACGGCAAACACCTTGGCATTTTGACAGCT
AGTGATGGCAGCAGTCACTCTTCAGAGTTAGGTATTGGGACAACGGTAAATAGGTAAAATGGGCATAGAA TCACAAGGGCCATGTGCTTGGTTTCTAGGGCAAGGATTTTAGAGTAAAAAAGTGAAAGCTGCTTTATTAA
TATTCAAAGATTAATTTAAAACAATACGGAGGAGAATTGACTGTCTCTGGTCTCTGTTCTGTTCTGACTC TACAATAGAGATACTGTATCCTACAGAGTAGATTCTAGTAAAGAGACTCCAAATAATTTTGCAAACATTT
AATCTCTGTCCCTGGCCTTAAAATATCAGCACCTACCCAGGAAAACAATATTCACCAGGAGCCATTGGAT ATACTTCTGAGTTCAAATAAAGAATTTGAGCATTAATGGGATTCTAGGTTCATAATACAAAACTCAAGAC
GAGGGACAAAGATAGAGAACCCATGTCTTTTCCAGACTTCAGTCTTCACCTTTTACACTCTGCAGTATCA TCTAGTACCATACAGTCTAGATGTGTCATGATCAAAACTCCCCTGTGCACCCCTTTACAGATAACCACTT
GTATACTCAGCACACTGATATAAGAAAAGCCATCACGATTATTACAAGCTAATTAGGAATTTGACGTCAC CCCCTCCTCAAACACCTGGAAACCATTCTTCTGTTTTCCATGCCCACAGATGTGCCTTTTCCAGAACATG
TGGACGGTAGTGACCAAGAGACCCAGAGGAGAGTTGTGATAGCAGAAATACCTTAATCAGGGATAATTAC AGACAAATGAAATTATACAAAGTGTAGCCTTTTCAACTGTCTTCTTTCATTTAGCAATATACATTCAAGA
GTGAGACAATTTGTTTGCCCACAATAATTATGGTGCATCACCTTGAGGATTTCACAAATGGAAGAAGCAG TTCATTCTTGTTGTTGCATGGATTAATAGCTCTTTCTTTGTTATATGGAATAGTATCCCATTGTAGTTCC
CAGGCCTAATGGAAATGCTTTGTTCTGTAAGAGATGTAACACTTTTTTTAAAAAGCAATGAGTAATTTTG ACCACAGTTGGTGTATCCATTTGTATATTGAAGGACTTCTTGGTTGCTTTTTCTCTGTTTTTGGTGATTA
TTAGCTAATTCTTTATGTTTCCGAAGAGCTTTAGAAAAGCACTATTGGGAGTGTCAAAAATTGATGGGGA TGAATAAAACTGCTATAAACATTTTTTGTAGGTTTTTATGTTTATGTTATTTTTCAAGTCAGGTGGAGGA
GTCATCATGTGACTGTGCATATTACACGGCAAACACCTTGGCATTTTGACAGCTTCACAAAAGCCATGTG TTTGATTTGATAAGAAATATTTGATTCTATCTCTTTTAAACTCTGAAATTAGGTGCAAACAGATTAGGAT
CTTGGTTTCTAGGGCAAGGATTTTAGAGTAAAAAAGTGAAAGCTGCTTTATTAATACAATAGAGATACTG TGGTGTGTCTTCATGATTGATTAAGCCCCTTATCATATGACATGCTTCTCTTTACTTTTGATTATATTTT
TATCCTACAGAGTAGATTCTAGTAAAGAGACTCCAAATAATTTTGCAAACATTTATACTTCTGAGTTCAA TTCTTCTGAAATCTACAGAGTAAGATATTGATGTGACTGCTTTAGCTCCTTTATAATTACTATTTGCATT
ATAAAGAATTTGAGCATTAATGGGACTCTAGGTTCATAATACAAAACTCAAGACTCTAGTACCATACAGT GTATTGTATATCTTTGTTCATCTTTTTATGTTTTAAGTAGTCTGTGTCTTTATATTTAAAGTGGATTCAA
CTAGATGTGTCATGATCAAAACTCCCCTGTGCACCCCTTTACAGATAACCTCTTCCCCTCCTCAAACACC GGTAGGCAGCAAATAGTTGGC
TGGAAACCATTCTTCTGTTTTCCATGCCTACAGATGTGTGTTTTCCAGAACATGAGACAAATGAAATTGT
ACAATGTGTAGCCTTTTCAACTGTCTTCTTTCATTTAGCAATATACATTCAAGATTCATTCTTGTTGTTG
CATGGATTAATAGCTCTTTCTTTGTTACATGGAATAGTATCCCACTGTATTTCTACCACAGTTTGTGTAT
CCATTTGTATATTGAAGGACTTCTTGGTTGCTTTTTCTCTGTTTTTGGTGATTATGAATAAAACTGCTAT
AAACATTTTTTGTAAGTTTTTATGTTTATGTTATTTTTCAAGTCAGGTGGAGGATTTGATTTGATAAGAA
GAAATATTTGATTCTATTTTAAACTCTGAAATTAGGTGCAAACAGATTAGGATTGGTATGTCTTCATGAT
TGATTAAGCCCCTTATATGACATGCTTCTCTTTACTTTTGATTATATTTTTTCTTCTGAAATCTACAGAG
TCAGATATTGATGTGACTGCTTTAGCTCCTTTATAATTACTATTTGCATTGTATTGTATATCTTTGTTCA
TCTTTTTATGTTTAAGTAGTCTGTGTCTTTATATTTAAAGTGGATTCAAGGTAGGCAGCAAATAGTTGGC
TTTTGCTTGTATTGTTCATTCTAGCAATGCCTGCCTTTTAGTAGACTTCTTATACTATTTACATATAATG
TAAATGATATGTTGGGTTTATATCTACTACCTTGCTACTTTTTTTTAATTTGGGACTTCCTTTACTTTCC
GTTTTTGTGGTAGAATTATATCAACCATGATATGTCTTGCTTTTGTTTGACTTACAAAGTCTTCATTTCA
CTTTCATTTTGAAGGATATTTTACATACTTAAATGATTGTGTTGACTGTTGTTTTCATTCTGTTTTTTTA
ACAATTCTAATCCTGTTTTATAATAAGTATTCAGTTATTCA
2008年8月,データ解析の基礎,加藤,瀬々,金子. 22
25. 塩基配列から進化系統樹を描こう
塩基配列の集合 距離行列
1 2 3 4
GGCTCAGCTA
AGCTGAGCTC 1
GGCTCAGCCC 2 0.3
AGATCGGTTC 3 0.2 0.3
4 0.5 0.4 0.5
進化系統樹
2008年8月,データ解析の基礎,加藤,瀬々,金子. 25
26. 塩基配列間の距離
• p-distance
– 2つの同じ長さの塩基配列の間の距離
– 異なる塩基数 / 長さ
例1 例2
GGCTCAGCTC GGCTCAGCTC
AGCTGAGCTC GGCTCAGCCC
*** ***** ******** *
p-distance=2/10=0.2 p-distance=1/10=0.1
例3 例4
GGCTCAGCTC AGCTGAGCTC
AGATCGGTTC GGCTCAGCCC
* ** * ** *** *** *
p-distance=4/10=0.4 p-distance=3/10=0.3
2008年8月,データ解析の基礎,加藤,瀬々,金子. 26
27. 塩基配列から進化系統樹を描こう
塩基配列の集合 距離行列
1 2 3 4
GGCTCAGCTA
AGCTGAGCTC 1
GGCTCAGCCC 2 0.3
AGATCGGTTC 3 0.2 0.3
4 0.5 0.4 0.5
進化系統樹
2008年8月,データ解析の基礎,加藤,瀬々,金子. 27
29. 目標
• Java 言語の文法を習得する
– プログラミングへの最初の壁を突破する
• 講義後もっと学べばより高度なことができる
– オブジェクト指向を覚えれば,使いやすいプログラムが書ける
– システムコールを覚えれば,さまざまな既存のツールを自動的
に呼び出して使える
• ツールを手動で何回も動かさなくても良くなる
– インターネット上のデータベースの使用も自動化できる
– アルゴリズムを勉強すれば,高速に大規模に計算できる
– 統計を勉強すれば,大量データの検定も自動的にできる
– パターン認識を勉強すれば,さまざまな予測ができるようになる
– 多くの場合,他の言語にもjavaと同様な概念がある
2008年8月,データ解析の基礎,加藤,瀬々,金子. 29
31. プログラミング経験者への課題
距離行列
進化系統樹
1 2 3 4
1
2 0.3
3 0.2 0.3
4 0.5 0.4 0.5
距離行列から進化系統樹を描くプログラムを java で作成せよ
期限 8月21日18:00 までにメールで提出
課題の詳細はウェブページ参照
2008年8月,データ解析の基礎,加藤,瀬々,金子. 31
32. 参考文献
• B. Albert et al., Molecular Biology of the Cell,
fifth edition, Garland Science
• 林,改訂新Java言語入門ビギナーズ編,ソフトバンクク
リエイティブ
• T. Lindholm & F. Yellin, The Java Virtual
Machine Specification, 2nd edition, Addison-
Wesley Pub
• 丸山&阿久津,バイオインフォマティクス—配列データ
解析と構造解析,朝倉書店
• 松尾,バイオプログラミング,オーム社
2008年8月,データ解析の基礎,加藤,瀬々,金子. 32