SlideShare a Scribd company logo
1 of 32
データ解析の基礎
           導入




2008年8月,データ解析の基礎,加藤,瀬々,金子.   1
生命情報学とは




2008年8月,データ解析の基礎,加藤,瀬々,金子.   2
生命情報学で扱うデータ

生物学的配列                       タンパク質立体構造




遺伝子発現データ                     遺伝子のネットワーク




                                            など様々

            本講義では,生物学的配列を扱う
                                    Molecular Biology of the Cell 4版

2008年8月,データ解析の基礎,加藤,瀬々,金子.                                 3
生物学的配列

• DNA配列
  – アデニン(A),グアニン(G),シトシン(T),チミン(C)
    からなる4種類の塩基の鎖


• RNA配列
  – アデニン(A),グアニン(G),シトシン(T),ウラシル(U)
    からなる4種類の塩基の鎖


• アミノ酸配列
  – 20種類のアミノ酸の鎖




 2008年8月,データ解析の基礎,加藤,瀬々,金子.           4
DNA配列




                             Molecular Biology of the Cell 4版

2008年8月,データ解析の基礎,加藤,瀬々,金子.                                      5
アミノ酸配列




20種類のアミノ酸




                             Molecular Biology of the Cell 4版

2008年8月,データ解析の基礎,加藤,瀬々,金子.                                      6
本講義のねらい
生命情報学における問題を題材にした実践練習を通して
プログラミングの技術を習得しよう




計算機の動作を正確に理解する
• なんとなく動いて満足していると
  バグの温床になりやすい                 バグとは,
                              プログラムのミス
                              を指す
 2008年8月,データ解析の基礎,加藤,瀬々,金子.        7
本講義のねらい
生命情報学における問題を題材にした実践練習を通して
プログラミングの技術を習得しよう
•   計算機を使って逆相補鎖を求めよう
•   計算機を使って共通パターンを見つけよう
•   計算機を使って相同性領域を見つけよう
•   計算機を使って進化系統樹を描こう


計算機の動作を正確に理解する
• なんとなく動いて満足していると
  バグの温床になりやすい                    バグとは,
                                 プログラムのミス
                                 を指す
    2008年8月,データ解析の基礎,加藤,瀬々,金子.        8
本講義のねらい
生命情報学における問題を題材にした実践練習を通して
プログラミングの技術を習得しよう
•   計算機を使って逆相補鎖を求めよう
•   計算機を使って共通パターンを見つけよう
•   計算機を使って相同性領域を見つけよう
•   計算機を使って進化系統樹を描こう


計算機の動作を正確に理解する
• なんとなく動いて満足していると
  バグの温床になりやすい                    バグとは,
                                 プログラムのミス
                                 を指す
    2008年8月,データ解析の基礎,加藤,瀬々,金子.        9
DNA配列の逆相補鎖                                                塩基     相補塩基
                                                          A      T
                                                          T      A
                                                          G      C
                                                          C      G

                                                          たとえば

                                                          5’ ATGGCGAACG 3’
                                                          の相補鎖は
                                                          3’ TACCGCTTGC 5’
                                                          となり,5’末端を左にすると

                                                          5’ CGTTCGCCAT 3’
                                                          となる
                 Molecular Biology of the Cell 4版,p.194

2008年8月,データ解析の基礎,加藤,瀬々,金子.                                               10
長いDNA配列の逆相補鎖を求めたい

      CAAAAATTGATGGGGAGTCATCATGTGACTGTGCATATTACACGGCAAACACCTTGGCATTTTGACAGCT
      TCACAAGGGCCATGTGCTTGGTTTCTAGGGCAAGGATTTTAGAGTAAAAAAGTGAAAGCTGCTTTATTAA
      TACAATAGAGATACTGTATCCTACAGAGTAGATTCTAGTAAAGAGACTCCAAATAATTTTGCAAACATTT
      ATACTTCTGAGTTCAAATAAAGAATTTGAGCATTAATGGGATTCTAGGTTCATAATACAAAACTCAAGAC
      TCTAGTACCATACAGTCTAGATGTGTCATGATCAAAACTCCCCTGTGCACCCCTTTACAGATAACCACTT
      CCCCTCCTCAAACACCTGGAAACCATTCTTCTGTTTTCCATGCCCACAGATGTGCCTTTTCCAGAACATG
      AGACAAATGAAATTATACAAAGTGTAGCCTTTTCAACTGTCTTCTTTCATTTAGCAATATACATTCAAGA
      TTCATTCTTGTTGTTGCATGGATTAATAGCTCTTTCTTTGTTATATGGAATAGTATCCCATTGTAGTTCC
      ACCACAGTTGGTGTATCCATTTGTATATTGAAGGACTTCTTGGTTGCTTTTTCTCTGTTTTTGGTGATTA
      TGAATAAAACTGCTATAAACATTTTTTGTAGGTTTTTATGTTTATGTTATTTTTCAAGTCAGGTGGAGGA
      TTTGATTTGATAAGAAATATTTGATTCTATCTCTTTTAAACTCTGAAATTAGGTGCAAACAGATTAGGAT
      TGGTGTGTCTTCATGATTGATTAAGCCCCTTATCATATGACATGCTTCTCTTTACTTTTGATTATATTTT
      TTCTTCTGAAATCTACAGAGTAAGATATTGATGTGACTGCTTTAGCTCCTTTATAATTACTATTTGCATT
      GTATTGTATATCTTTGTTCATCTTTTTATGTTTTAAGTAGTCTGTGTCTTTATATTTAAAGTGGATTCAA
      GGTAGGCAGCAAATAGTTGGC




これくらい長い配列の逆相補鎖を手で求めるのは大変

→計算機にやらせよう




2008年8月,データ解析の基礎,加藤,瀬々,金子.                                                     11
本講義のねらい
生命情報学における問題を題材にした実践練習を通して
プログラミングの技術を習得しよう
•   計算機を使って逆相補鎖を求めよう
•   計算機を使って共通パターンを見つけよう
•   計算機を使って相同性領域を見つけよう
•   計算機を使って進化系統樹を描こう


計算機の動作を正確に理解する
• なんとなく動いて満足していると
  バグの温床になりやすい                    バグとは,
                                 プログラムのミス
                                 を指す
    2008年8月,データ解析の基礎,加藤,瀬々,金子.        12
転写因子reb1に結合する配列



                     アラインメント済み




                                 丸山&阿久津,2007

2008年8月,データ解析の基礎,加藤,瀬々,金子.                     13
転写因子reb1に結合する配列

配列




                                  丸山&阿久津,2007

     2008年8月,データ解析の基礎,加藤,瀬々,金子.                 14
計算機で各位置の頻度を計算させる

配列




頻度




                                  頻度の割合を視覚化すると
                                  見やすい丸山&阿久津,2007

     2008年8月,データ解析の基礎,加藤,瀬々,金子.                     15
本講義のねらい
生命情報学における問題を題材にした実践練習を通して
プログラミングの技術を習得しよう
•   計算機を使って逆相補鎖を求めよう
•   計算機を使って共通パターンを見つけよう
•   計算機を使って相同性領域を見つけよう
•   計算機を使って進化系統樹を描こう


計算機の動作を正確に理解する
• なんとなく動いて満足していると
  バグの温床になりやすい                    バグとは,
                                 プログラムのミス
                                 を指す
    2008年8月,データ解析の基礎,加藤,瀬々,金子.        16
相同性検索とドットマトリックス




2008年8月,データ解析の基礎,加藤,瀬々,金子.   17
相同性検索とドットマトリックス




2008年8月,データ解析の基礎,加藤,瀬々,金子.   18
相同性検索とドットマトリックス




2008年8月,データ解析の基礎,加藤,瀬々,金子.   19
相同性検索とドットマトリックス




2008年8月,データ解析の基礎,加藤,瀬々,金子.   20
相同性検索とドットマトリックス




2008年8月,データ解析の基礎,加藤,瀬々,金子.   21
長い配列の場合

     この2本から相同な領域を見つけたい
ATAATTATAAAATATTATATTGAAATTAAAGTATATCCAATCAAAAGCATAAAACAGCTGGTTTTAGTAA   CAAAAATTGATGGGGAGTCATCATGTGACTGTGCATATTACACGGCAAACACCTTGGCATTTTGACAGCT
AGTGATGGCAGCAGTCACTCTTCAGAGTTAGGTATTGGGACAACGGTAAATAGGTAAAATGGGCATAGAA   TCACAAGGGCCATGTGCTTGGTTTCTAGGGCAAGGATTTTAGAGTAAAAAAGTGAAAGCTGCTTTATTAA
TATTCAAAGATTAATTTAAAACAATACGGAGGAGAATTGACTGTCTCTGGTCTCTGTTCTGTTCTGACTC   TACAATAGAGATACTGTATCCTACAGAGTAGATTCTAGTAAAGAGACTCCAAATAATTTTGCAAACATTT
AATCTCTGTCCCTGGCCTTAAAATATCAGCACCTACCCAGGAAAACAATATTCACCAGGAGCCATTGGAT   ATACTTCTGAGTTCAAATAAAGAATTTGAGCATTAATGGGATTCTAGGTTCATAATACAAAACTCAAGAC
GAGGGACAAAGATAGAGAACCCATGTCTTTTCCAGACTTCAGTCTTCACCTTTTACACTCTGCAGTATCA   TCTAGTACCATACAGTCTAGATGTGTCATGATCAAAACTCCCCTGTGCACCCCTTTACAGATAACCACTT
GTATACTCAGCACACTGATATAAGAAAAGCCATCACGATTATTACAAGCTAATTAGGAATTTGACGTCAC   CCCCTCCTCAAACACCTGGAAACCATTCTTCTGTTTTCCATGCCCACAGATGTGCCTTTTCCAGAACATG
TGGACGGTAGTGACCAAGAGACCCAGAGGAGAGTTGTGATAGCAGAAATACCTTAATCAGGGATAATTAC   AGACAAATGAAATTATACAAAGTGTAGCCTTTTCAACTGTCTTCTTTCATTTAGCAATATACATTCAAGA
GTGAGACAATTTGTTTGCCCACAATAATTATGGTGCATCACCTTGAGGATTTCACAAATGGAAGAAGCAG   TTCATTCTTGTTGTTGCATGGATTAATAGCTCTTTCTTTGTTATATGGAATAGTATCCCATTGTAGTTCC
CAGGCCTAATGGAAATGCTTTGTTCTGTAAGAGATGTAACACTTTTTTTAAAAAGCAATGAGTAATTTTG   ACCACAGTTGGTGTATCCATTTGTATATTGAAGGACTTCTTGGTTGCTTTTTCTCTGTTTTTGGTGATTA
TTAGCTAATTCTTTATGTTTCCGAAGAGCTTTAGAAAAGCACTATTGGGAGTGTCAAAAATTGATGGGGA   TGAATAAAACTGCTATAAACATTTTTTGTAGGTTTTTATGTTTATGTTATTTTTCAAGTCAGGTGGAGGA
GTCATCATGTGACTGTGCATATTACACGGCAAACACCTTGGCATTTTGACAGCTTCACAAAAGCCATGTG   TTTGATTTGATAAGAAATATTTGATTCTATCTCTTTTAAACTCTGAAATTAGGTGCAAACAGATTAGGAT
CTTGGTTTCTAGGGCAAGGATTTTAGAGTAAAAAAGTGAAAGCTGCTTTATTAATACAATAGAGATACTG   TGGTGTGTCTTCATGATTGATTAAGCCCCTTATCATATGACATGCTTCTCTTTACTTTTGATTATATTTT
TATCCTACAGAGTAGATTCTAGTAAAGAGACTCCAAATAATTTTGCAAACATTTATACTTCTGAGTTCAA   TTCTTCTGAAATCTACAGAGTAAGATATTGATGTGACTGCTTTAGCTCCTTTATAATTACTATTTGCATT
ATAAAGAATTTGAGCATTAATGGGACTCTAGGTTCATAATACAAAACTCAAGACTCTAGTACCATACAGT   GTATTGTATATCTTTGTTCATCTTTTTATGTTTTAAGTAGTCTGTGTCTTTATATTTAAAGTGGATTCAA
CTAGATGTGTCATGATCAAAACTCCCCTGTGCACCCCTTTACAGATAACCTCTTCCCCTCCTCAAACACC   GGTAGGCAGCAAATAGTTGGC
TGGAAACCATTCTTCTGTTTTCCATGCCTACAGATGTGTGTTTTCCAGAACATGAGACAAATGAAATTGT
ACAATGTGTAGCCTTTTCAACTGTCTTCTTTCATTTAGCAATATACATTCAAGATTCATTCTTGTTGTTG
CATGGATTAATAGCTCTTTCTTTGTTACATGGAATAGTATCCCACTGTATTTCTACCACAGTTTGTGTAT
CCATTTGTATATTGAAGGACTTCTTGGTTGCTTTTTCTCTGTTTTTGGTGATTATGAATAAAACTGCTAT
AAACATTTTTTGTAAGTTTTTATGTTTATGTTATTTTTCAAGTCAGGTGGAGGATTTGATTTGATAAGAA
GAAATATTTGATTCTATTTTAAACTCTGAAATTAGGTGCAAACAGATTAGGATTGGTATGTCTTCATGAT
TGATTAAGCCCCTTATATGACATGCTTCTCTTTACTTTTGATTATATTTTTTCTTCTGAAATCTACAGAG
TCAGATATTGATGTGACTGCTTTAGCTCCTTTATAATTACTATTTGCATTGTATTGTATATCTTTGTTCA
TCTTTTTATGTTTAAGTAGTCTGTGTCTTTATATTTAAAGTGGATTCAAGGTAGGCAGCAAATAGTTGGC
TTTTGCTTGTATTGTTCATTCTAGCAATGCCTGCCTTTTAGTAGACTTCTTATACTATTTACATATAATG
TAAATGATATGTTGGGTTTATATCTACTACCTTGCTACTTTTTTTTAATTTGGGACTTCCTTTACTTTCC
GTTTTTGTGGTAGAATTATATCAACCATGATATGTCTTGCTTTTGTTTGACTTACAAAGTCTTCATTTCA
CTTTCATTTTGAAGGATATTTTACATACTTAAATGATTGTGTTGACTGTTGTTTTCATTCTGTTTTTTTA
ACAATTCTAATCCTGTTTTATAATAAGTATTCAGTTATTCA




            2008年8月,データ解析の基礎,加藤,瀬々,金子.                                                                                               22
相同性領域の探索

似ている部分を視覚化すると




 2008年8月,データ解析の基礎,加藤,瀬々,金子.   23
本講義のねらい
生命情報学における問題を題材にした実践練習を通して
プログラミングの技術を習得しよう
•   計算機を使って逆相補鎖を求めよう
•   計算機を使って共通パターンを見つけよう
•   計算機を使って相同性領域を見つけよう
•   計算機を使って進化系統樹を描こう


計算機の動作を正確に理解する
• なんとなく動いて満足していると
  バグの温床になりやすい                    バグとは,
                                 プログラムのミス
                                 を指す
    2008年8月,データ解析の基礎,加藤,瀬々,金子.        24
塩基配列から進化系統樹を描こう
塩基配列の集合              距離行列
                               1     2     3     4
 GGCTCAGCTA
 AGCTGAGCTC            1
 GGCTCAGCCC            2       0.3
 AGATCGGTTC            3       0.2   0.3
                       4       0.5   0.4   0.5

          進化系統樹




  2008年8月,データ解析の基礎,加藤,瀬々,金子.                         25
塩基配列間の距離

•    p-distance
     – 2つの同じ長さの塩基配列の間の距離
     – 異なる塩基数 / 長さ
例1                         例2
  GGCTCAGCTC                GGCTCAGCTC
  AGCTGAGCTC                GGCTCAGCCC
   *** *****                ******** *
  p-distance=2/10=0.2       p-distance=1/10=0.1

例3                         例4
 GGCTCAGCTC                 AGCTGAGCTC
 AGATCGGTTC                 GGCTCAGCCC
   * ** * **                  *** *** *
 p-distance=4/10=0.4        p-distance=3/10=0.3

    2008年8月,データ解析の基礎,加藤,瀬々,金子.                    26
塩基配列から進化系統樹を描こう
塩基配列の集合              距離行列
                               1     2     3     4
 GGCTCAGCTA
 AGCTGAGCTC            1
 GGCTCAGCCC            2       0.3
 AGATCGGTTC            3       0.2   0.3
                       4       0.5   0.4   0.5

          進化系統樹




  2008年8月,データ解析の基礎,加藤,瀬々,金子.                         27
本講義のねらい
生命情報学における問題を題材にした実践練習を通して
プログラミングの技術を習得しよう
•   計算機を使って逆相補鎖を求めよう
•   計算機を使って共通パターンを見つけよう
•   計算機を使って相同性領域を見つけよう
•   計算機を使って進化系統樹を描こう


計算機の動作を正確に理解する
• なんとなく動いて満足していると
  バグの温床になりやすい
                            参照を理解する!
    2008年8月,データ解析の基礎,加藤,瀬々,金子.     28
目標

• Java 言語の文法を習得する
  – プログラミングへの最初の壁を突破する


• 講義後もっと学べばより高度なことができる
  – オブジェクト指向を覚えれば,使いやすいプログラムが書ける
  – システムコールを覚えれば,さまざまな既存のツールを自動的
    に呼び出して使える
     • ツールを手動で何回も動かさなくても良くなる
  – インターネット上のデータベースの使用も自動化できる
  – アルゴリズムを勉強すれば,高速に大規模に計算できる
  – 統計を勉強すれば,大量データの検定も自動的にできる
  – パターン認識を勉強すれば,さまざまな予測ができるようになる
  – 多くの場合,他の言語にもjavaと同様な概念がある

 2008年8月,データ解析の基礎,加藤,瀬々,金子.     29
本講義で使うデータ


スライドやデータの多くはここからとってこれます

   http://www.net-machine.net/~kato/seijoen-h20/




スライドには小さい字が多く含まれているので
便宜スライドをダウンロードして参照してください




2008年8月,データ解析の基礎,加藤,瀬々,金子.                         30
プログラミング経験者への課題

距離行列
                                  進化系統樹
        1     2     3     4
 1
 2      0.3
 3      0.2   0.3
 4      0.5   0.4   0.5




距離行列から進化系統樹を描くプログラムを java で作成せよ

期限     8月21日18:00 までにメールで提出

課題の詳細はウェブページ参照


     2008年8月,データ解析の基礎,加藤,瀬々,金子.           31
参考文献

• B. Albert et al., Molecular Biology of the Cell,
  fifth edition, Garland Science
• 林,改訂新Java言語入門ビギナーズ編,ソフトバンクク
  リエイティブ
• T. Lindholm & F. Yellin, The Java Virtual
  Machine Specification, 2nd edition, Addison-
  Wesley Pub
• 丸山&阿久津,バイオインフォマティクス—配列データ
  解析と構造解析,朝倉書店
• 松尾,バイオプログラミング,オーム社


 2008年8月,データ解析の基礎,加藤,瀬々,金子.                      32

More Related Content

What's hot

Using morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic researchUsing morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic researchYoichiro Hasebe
 
ENC Times-August 20,2017
ENC Times-August 20,2017ENC Times-August 20,2017
ENC Times-August 20,2017ENC
 
ENC Times-August 06,2017
ENC Times-August 06,2017ENC Times-August 06,2017
ENC Times-August 06,2017ENC
 
ENC Times-March 11, 2018
ENC Times-March 11, 2018ENC Times-March 11, 2018
ENC Times-March 11, 2018ENC
 
Wes 20080613 Ver1
Wes 20080613 Ver1Wes 20080613 Ver1
Wes 20080613 Ver1guest1f476a
 
ENC Times-June 20,2017
ENC Times-June 20,2017ENC Times-June 20,2017
ENC Times-June 20,2017ENC
 
データ工学研究専門委員会ニュースレター 創刊
データ工学研究専門委員会ニュースレター 創刊データ工学研究専門委員会ニュースレター 創刊
データ工学研究専門委員会ニュースレター 創刊Hiroshi Ono
 
Jagruk janta 15-21 july 2020
Jagruk janta 15-21 july 2020Jagruk janta 15-21 july 2020
Jagruk janta 15-21 july 2020JagrukJanta
 
ENC TIMES-May 31,2017
ENC TIMES-May 31,2017ENC TIMES-May 31,2017
ENC TIMES-May 31,2017ENC
 
ENC Times-January 15,2018
ENC Times-January 15,2018ENC Times-January 15,2018
ENC Times-January 15,2018ENC
 
ENC Times-January 11,2018
ENC Times-January 11,2018ENC Times-January 11,2018
ENC Times-January 11,2018ENC
 
ENC Times-December 07,2017
ENC Times-December 07,2017ENC Times-December 07,2017
ENC Times-December 07,2017ENC
 
ENC Times-June 25, 2018
ENC Times-June 25, 2018ENC Times-June 25, 2018
ENC Times-June 25, 2018ENC
 
ENC Times-April 08, 2018
ENC Times-April 08, 2018ENC Times-April 08, 2018
ENC Times-April 08, 2018ENC
 
【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心devsumi2009
 
ENC Times-October 6,2017
ENC Times-October 6,2017ENC Times-October 6,2017
ENC Times-October 6,2017ENC
 
ENC Times-August 17, 2018
ENC Times-August 17, 2018ENC Times-August 17, 2018
ENC Times-August 17, 2018ENC
 
ENC Times-August 31, 2018
ENC Times-August 31, 2018ENC Times-August 31, 2018
ENC Times-August 31, 2018ENC
 
ENC Times-January 20,2018
ENC Times-January 20,2018ENC Times-January 20,2018
ENC Times-January 20,2018ENC
 

What's hot (20)

Using morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic researchUsing morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic research
 
ENC Times-August 20,2017
ENC Times-August 20,2017ENC Times-August 20,2017
ENC Times-August 20,2017
 
ENC Times-August 06,2017
ENC Times-August 06,2017ENC Times-August 06,2017
ENC Times-August 06,2017
 
ENC Times-March 11, 2018
ENC Times-March 11, 2018ENC Times-March 11, 2018
ENC Times-March 11, 2018
 
Wes 20080613 Ver1
Wes 20080613 Ver1Wes 20080613 Ver1
Wes 20080613 Ver1
 
ENC Times-June 20,2017
ENC Times-June 20,2017ENC Times-June 20,2017
ENC Times-June 20,2017
 
データ工学研究専門委員会ニュースレター 創刊
データ工学研究専門委員会ニュースレター 創刊データ工学研究専門委員会ニュースレター 創刊
データ工学研究専門委員会ニュースレター 創刊
 
Jagruk janta 15-21 july 2020
Jagruk janta 15-21 july 2020Jagruk janta 15-21 july 2020
Jagruk janta 15-21 july 2020
 
ENC TIMES-May 31,2017
ENC TIMES-May 31,2017ENC TIMES-May 31,2017
ENC TIMES-May 31,2017
 
ENC Times-January 15,2018
ENC Times-January 15,2018ENC Times-January 15,2018
ENC Times-January 15,2018
 
ENC Times-January 11,2018
ENC Times-January 11,2018ENC Times-January 11,2018
ENC Times-January 11,2018
 
ENC Times-December 07,2017
ENC Times-December 07,2017ENC Times-December 07,2017
ENC Times-December 07,2017
 
ENC Times-June 25, 2018
ENC Times-June 25, 2018ENC Times-June 25, 2018
ENC Times-June 25, 2018
 
ENC Times-April 08, 2018
ENC Times-April 08, 2018ENC Times-April 08, 2018
ENC Times-April 08, 2018
 
【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心【12-A-1】 開発プロセスの心
【12-A-1】 開発プロセスの心
 
ENC Times-October 6,2017
ENC Times-October 6,2017ENC Times-October 6,2017
ENC Times-October 6,2017
 
ENC Times-August 17, 2018
ENC Times-August 17, 2018ENC Times-August 17, 2018
ENC Times-August 17, 2018
 
ENC Times-August 31, 2018
ENC Times-August 31, 2018ENC Times-August 31, 2018
ENC Times-August 31, 2018
 
ENC Times-January 20,2018
ENC Times-January 20,2018ENC Times-January 20,2018
ENC Times-January 20,2018
 
Vol. 01 Iss. 19
Vol. 01 Iss. 19Vol. 01 Iss. 19
Vol. 01 Iss. 19
 

Viewers also liked

Datamining 9th association_rule.key
Datamining 9th association_rule.keyDatamining 9th association_rule.key
Datamining 9th association_rule.keysesejun
 
bioinfolec_3rd_20070629
bioinfolec_3rd_20070629bioinfolec_3rd_20070629
bioinfolec_3rd_20070629sesejun
 
Datamining 8th hclustering
Datamining 8th hclusteringDatamining 8th hclustering
Datamining 8th hclusteringsesejun
 
Ohp Seijoen H20 06 Mojiretsu
Ohp Seijoen H20 06 MojiretsuOhp Seijoen H20 06 Mojiretsu
Ohp Seijoen H20 06 Mojiretsusesejun
 
Datamining 4th Adaboost
Datamining 4th AdaboostDatamining 4th Adaboost
Datamining 4th Adaboostsesejun
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pubsesejun
 
Datamining r 4th
Datamining r 4thDatamining r 4th
Datamining r 4thsesejun
 
Ohp Seijoen H20 08 Jfreechart
Ohp Seijoen H20 08 JfreechartOhp Seijoen H20 08 Jfreechart
Ohp Seijoen H20 08 Jfreechartsesejun
 
20110214nips2010 read
20110214nips2010 read20110214nips2010 read
20110214nips2010 readsesejun
 
Datamining 3rd naivebayes
Datamining 3rd naivebayesDatamining 3rd naivebayes
Datamining 3rd naivebayessesejun
 
Datamining R 4th
Datamining R 4thDatamining R 4th
Datamining R 4thsesejun
 
bioinfolec_9th_20071019
bioinfolec_9th_20071019bioinfolec_9th_20071019
bioinfolec_9th_20071019sesejun
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeanssesejun
 
Ohp Seijoen H20 01 Programming No Nagare
Ohp Seijoen H20 01 Programming No NagareOhp Seijoen H20 01 Programming No Nagare
Ohp Seijoen H20 01 Programming No Nagaresesejun
 
Datamining R 1st
Datamining R 1stDatamining R 1st
Datamining R 1stsesejun
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclusteringsesejun
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料Genaris Omics, Inc.
 

Viewers also liked (19)

Prosym53
Prosym53Prosym53
Prosym53
 
080811
080811080811
080811
 
Datamining 9th association_rule.key
Datamining 9th association_rule.keyDatamining 9th association_rule.key
Datamining 9th association_rule.key
 
bioinfolec_3rd_20070629
bioinfolec_3rd_20070629bioinfolec_3rd_20070629
bioinfolec_3rd_20070629
 
Datamining 8th hclustering
Datamining 8th hclusteringDatamining 8th hclustering
Datamining 8th hclustering
 
Ohp Seijoen H20 06 Mojiretsu
Ohp Seijoen H20 06 MojiretsuOhp Seijoen H20 06 Mojiretsu
Ohp Seijoen H20 06 Mojiretsu
 
Datamining 4th Adaboost
Datamining 4th AdaboostDatamining 4th Adaboost
Datamining 4th Adaboost
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pub
 
Datamining r 4th
Datamining r 4thDatamining r 4th
Datamining r 4th
 
Ohp Seijoen H20 08 Jfreechart
Ohp Seijoen H20 08 JfreechartOhp Seijoen H20 08 Jfreechart
Ohp Seijoen H20 08 Jfreechart
 
20110214nips2010 read
20110214nips2010 read20110214nips2010 read
20110214nips2010 read
 
Datamining 3rd naivebayes
Datamining 3rd naivebayesDatamining 3rd naivebayes
Datamining 3rd naivebayes
 
Datamining R 4th
Datamining R 4thDatamining R 4th
Datamining R 4th
 
bioinfolec_9th_20071019
bioinfolec_9th_20071019bioinfolec_9th_20071019
bioinfolec_9th_20071019
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeans
 
Ohp Seijoen H20 01 Programming No Nagare
Ohp Seijoen H20 01 Programming No NagareOhp Seijoen H20 01 Programming No Nagare
Ohp Seijoen H20 01 Programming No Nagare
 
Datamining R 1st
Datamining R 1stDatamining R 1st
Datamining R 1st
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclustering
 
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
CBI学会2013チュートリアル NGSデータ解析入門 (解析編)配布資料
 

More from sesejun

RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Reviewsesejun
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析sesejun
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習sesejun
 
20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pubsesejun
 
20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pubsesejun
 
Datamining r 3rd
Datamining r 3rdDatamining r 3rd
Datamining r 3rdsesejun
 
Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2ndsesejun
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1stsesejun
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svmsesejun
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knnsesejun
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboostsesejun
 
Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontreesesejun
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfrasesejun
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclusteringsesejun
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rulesesejun
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rulesesejun
 
Datamining 7th Kmeans
Datamining 7th KmeansDatamining 7th Kmeans
Datamining 7th Kmeanssesejun
 
Datamining 6th Svm
Datamining 6th SvmDatamining 6th Svm
Datamining 6th Svmsesejun
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knnsesejun
 
Datamining 4th Adaboost
Datamining 4th AdaboostDatamining 4th Adaboost
Datamining 4th Adaboostsesejun
 

More from sesejun (20)

RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pub
 
20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pub
 
Datamining r 3rd
Datamining r 3rdDatamining r 3rd
Datamining r 3rd
 
Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2nd
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1st
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svm
 
Datamining 5th knn
Datamining 5th knnDatamining 5th knn
Datamining 5th knn
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboost
 
Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontree
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfra
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclustering
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rule
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rule
 
Datamining 7th Kmeans
Datamining 7th KmeansDatamining 7th Kmeans
Datamining 7th Kmeans
 
Datamining 6th Svm
Datamining 6th SvmDatamining 6th Svm
Datamining 6th Svm
 
Datamining 5th Knn
Datamining 5th KnnDatamining 5th Knn
Datamining 5th Knn
 
Datamining 4th Adaboost
Datamining 4th AdaboostDatamining 4th Adaboost
Datamining 4th Adaboost
 

Ohp Seijoen H20 00 Intro

  • 1. データ解析の基礎 導入 2008年8月,データ解析の基礎,加藤,瀬々,金子. 1
  • 3. 生命情報学で扱うデータ 生物学的配列 タンパク質立体構造 遺伝子発現データ 遺伝子のネットワーク など様々 本講義では,生物学的配列を扱う Molecular Biology of the Cell 4版 2008年8月,データ解析の基礎,加藤,瀬々,金子. 3
  • 4. 生物学的配列 • DNA配列 – アデニン(A),グアニン(G),シトシン(T),チミン(C) からなる4種類の塩基の鎖 • RNA配列 – アデニン(A),グアニン(G),シトシン(T),ウラシル(U) からなる4種類の塩基の鎖 • アミノ酸配列 – 20種類のアミノ酸の鎖 2008年8月,データ解析の基礎,加藤,瀬々,金子. 4
  • 5. DNA配列 Molecular Biology of the Cell 4版 2008年8月,データ解析の基礎,加藤,瀬々,金子. 5
  • 6. アミノ酸配列 20種類のアミノ酸 Molecular Biology of the Cell 4版 2008年8月,データ解析の基礎,加藤,瀬々,金子. 6
  • 7. 本講義のねらい 生命情報学における問題を題材にした実践練習を通して プログラミングの技術を習得しよう 計算機の動作を正確に理解する • なんとなく動いて満足していると バグの温床になりやすい バグとは, プログラムのミス を指す 2008年8月,データ解析の基礎,加藤,瀬々,金子. 7
  • 8. 本講義のねらい 生命情報学における問題を題材にした実践練習を通して プログラミングの技術を習得しよう • 計算機を使って逆相補鎖を求めよう • 計算機を使って共通パターンを見つけよう • 計算機を使って相同性領域を見つけよう • 計算機を使って進化系統樹を描こう 計算機の動作を正確に理解する • なんとなく動いて満足していると バグの温床になりやすい バグとは, プログラムのミス を指す 2008年8月,データ解析の基礎,加藤,瀬々,金子. 8
  • 9. 本講義のねらい 生命情報学における問題を題材にした実践練習を通して プログラミングの技術を習得しよう • 計算機を使って逆相補鎖を求めよう • 計算機を使って共通パターンを見つけよう • 計算機を使って相同性領域を見つけよう • 計算機を使って進化系統樹を描こう 計算機の動作を正確に理解する • なんとなく動いて満足していると バグの温床になりやすい バグとは, プログラムのミス を指す 2008年8月,データ解析の基礎,加藤,瀬々,金子. 9
  • 10. DNA配列の逆相補鎖 塩基 相補塩基 A T T A G C C G たとえば 5’ ATGGCGAACG 3’ の相補鎖は 3’ TACCGCTTGC 5’ となり,5’末端を左にすると 5’ CGTTCGCCAT 3’ となる Molecular Biology of the Cell 4版,p.194 2008年8月,データ解析の基礎,加藤,瀬々,金子. 10
  • 11. 長いDNA配列の逆相補鎖を求めたい CAAAAATTGATGGGGAGTCATCATGTGACTGTGCATATTACACGGCAAACACCTTGGCATTTTGACAGCT TCACAAGGGCCATGTGCTTGGTTTCTAGGGCAAGGATTTTAGAGTAAAAAAGTGAAAGCTGCTTTATTAA TACAATAGAGATACTGTATCCTACAGAGTAGATTCTAGTAAAGAGACTCCAAATAATTTTGCAAACATTT ATACTTCTGAGTTCAAATAAAGAATTTGAGCATTAATGGGATTCTAGGTTCATAATACAAAACTCAAGAC TCTAGTACCATACAGTCTAGATGTGTCATGATCAAAACTCCCCTGTGCACCCCTTTACAGATAACCACTT CCCCTCCTCAAACACCTGGAAACCATTCTTCTGTTTTCCATGCCCACAGATGTGCCTTTTCCAGAACATG AGACAAATGAAATTATACAAAGTGTAGCCTTTTCAACTGTCTTCTTTCATTTAGCAATATACATTCAAGA TTCATTCTTGTTGTTGCATGGATTAATAGCTCTTTCTTTGTTATATGGAATAGTATCCCATTGTAGTTCC ACCACAGTTGGTGTATCCATTTGTATATTGAAGGACTTCTTGGTTGCTTTTTCTCTGTTTTTGGTGATTA TGAATAAAACTGCTATAAACATTTTTTGTAGGTTTTTATGTTTATGTTATTTTTCAAGTCAGGTGGAGGA TTTGATTTGATAAGAAATATTTGATTCTATCTCTTTTAAACTCTGAAATTAGGTGCAAACAGATTAGGAT TGGTGTGTCTTCATGATTGATTAAGCCCCTTATCATATGACATGCTTCTCTTTACTTTTGATTATATTTT TTCTTCTGAAATCTACAGAGTAAGATATTGATGTGACTGCTTTAGCTCCTTTATAATTACTATTTGCATT GTATTGTATATCTTTGTTCATCTTTTTATGTTTTAAGTAGTCTGTGTCTTTATATTTAAAGTGGATTCAA GGTAGGCAGCAAATAGTTGGC これくらい長い配列の逆相補鎖を手で求めるのは大変 →計算機にやらせよう 2008年8月,データ解析の基礎,加藤,瀬々,金子. 11
  • 12. 本講義のねらい 生命情報学における問題を題材にした実践練習を通して プログラミングの技術を習得しよう • 計算機を使って逆相補鎖を求めよう • 計算機を使って共通パターンを見つけよう • 計算機を使って相同性領域を見つけよう • 計算機を使って進化系統樹を描こう 計算機の動作を正確に理解する • なんとなく動いて満足していると バグの温床になりやすい バグとは, プログラムのミス を指す 2008年8月,データ解析の基礎,加藤,瀬々,金子. 12
  • 13. 転写因子reb1に結合する配列 アラインメント済み 丸山&阿久津,2007 2008年8月,データ解析の基礎,加藤,瀬々,金子. 13
  • 14. 転写因子reb1に結合する配列 配列 丸山&阿久津,2007 2008年8月,データ解析の基礎,加藤,瀬々,金子. 14
  • 15. 計算機で各位置の頻度を計算させる 配列 頻度 頻度の割合を視覚化すると 見やすい丸山&阿久津,2007 2008年8月,データ解析の基礎,加藤,瀬々,金子. 15
  • 16. 本講義のねらい 生命情報学における問題を題材にした実践練習を通して プログラミングの技術を習得しよう • 計算機を使って逆相補鎖を求めよう • 計算機を使って共通パターンを見つけよう • 計算機を使って相同性領域を見つけよう • 計算機を使って進化系統樹を描こう 計算機の動作を正確に理解する • なんとなく動いて満足していると バグの温床になりやすい バグとは, プログラムのミス を指す 2008年8月,データ解析の基礎,加藤,瀬々,金子. 16
  • 22. 長い配列の場合 この2本から相同な領域を見つけたい ATAATTATAAAATATTATATTGAAATTAAAGTATATCCAATCAAAAGCATAAAACAGCTGGTTTTAGTAA CAAAAATTGATGGGGAGTCATCATGTGACTGTGCATATTACACGGCAAACACCTTGGCATTTTGACAGCT AGTGATGGCAGCAGTCACTCTTCAGAGTTAGGTATTGGGACAACGGTAAATAGGTAAAATGGGCATAGAA TCACAAGGGCCATGTGCTTGGTTTCTAGGGCAAGGATTTTAGAGTAAAAAAGTGAAAGCTGCTTTATTAA TATTCAAAGATTAATTTAAAACAATACGGAGGAGAATTGACTGTCTCTGGTCTCTGTTCTGTTCTGACTC TACAATAGAGATACTGTATCCTACAGAGTAGATTCTAGTAAAGAGACTCCAAATAATTTTGCAAACATTT AATCTCTGTCCCTGGCCTTAAAATATCAGCACCTACCCAGGAAAACAATATTCACCAGGAGCCATTGGAT ATACTTCTGAGTTCAAATAAAGAATTTGAGCATTAATGGGATTCTAGGTTCATAATACAAAACTCAAGAC GAGGGACAAAGATAGAGAACCCATGTCTTTTCCAGACTTCAGTCTTCACCTTTTACACTCTGCAGTATCA TCTAGTACCATACAGTCTAGATGTGTCATGATCAAAACTCCCCTGTGCACCCCTTTACAGATAACCACTT GTATACTCAGCACACTGATATAAGAAAAGCCATCACGATTATTACAAGCTAATTAGGAATTTGACGTCAC CCCCTCCTCAAACACCTGGAAACCATTCTTCTGTTTTCCATGCCCACAGATGTGCCTTTTCCAGAACATG TGGACGGTAGTGACCAAGAGACCCAGAGGAGAGTTGTGATAGCAGAAATACCTTAATCAGGGATAATTAC AGACAAATGAAATTATACAAAGTGTAGCCTTTTCAACTGTCTTCTTTCATTTAGCAATATACATTCAAGA GTGAGACAATTTGTTTGCCCACAATAATTATGGTGCATCACCTTGAGGATTTCACAAATGGAAGAAGCAG TTCATTCTTGTTGTTGCATGGATTAATAGCTCTTTCTTTGTTATATGGAATAGTATCCCATTGTAGTTCC CAGGCCTAATGGAAATGCTTTGTTCTGTAAGAGATGTAACACTTTTTTTAAAAAGCAATGAGTAATTTTG ACCACAGTTGGTGTATCCATTTGTATATTGAAGGACTTCTTGGTTGCTTTTTCTCTGTTTTTGGTGATTA TTAGCTAATTCTTTATGTTTCCGAAGAGCTTTAGAAAAGCACTATTGGGAGTGTCAAAAATTGATGGGGA TGAATAAAACTGCTATAAACATTTTTTGTAGGTTTTTATGTTTATGTTATTTTTCAAGTCAGGTGGAGGA GTCATCATGTGACTGTGCATATTACACGGCAAACACCTTGGCATTTTGACAGCTTCACAAAAGCCATGTG TTTGATTTGATAAGAAATATTTGATTCTATCTCTTTTAAACTCTGAAATTAGGTGCAAACAGATTAGGAT CTTGGTTTCTAGGGCAAGGATTTTAGAGTAAAAAAGTGAAAGCTGCTTTATTAATACAATAGAGATACTG TGGTGTGTCTTCATGATTGATTAAGCCCCTTATCATATGACATGCTTCTCTTTACTTTTGATTATATTTT TATCCTACAGAGTAGATTCTAGTAAAGAGACTCCAAATAATTTTGCAAACATTTATACTTCTGAGTTCAA TTCTTCTGAAATCTACAGAGTAAGATATTGATGTGACTGCTTTAGCTCCTTTATAATTACTATTTGCATT ATAAAGAATTTGAGCATTAATGGGACTCTAGGTTCATAATACAAAACTCAAGACTCTAGTACCATACAGT GTATTGTATATCTTTGTTCATCTTTTTATGTTTTAAGTAGTCTGTGTCTTTATATTTAAAGTGGATTCAA CTAGATGTGTCATGATCAAAACTCCCCTGTGCACCCCTTTACAGATAACCTCTTCCCCTCCTCAAACACC GGTAGGCAGCAAATAGTTGGC TGGAAACCATTCTTCTGTTTTCCATGCCTACAGATGTGTGTTTTCCAGAACATGAGACAAATGAAATTGT ACAATGTGTAGCCTTTTCAACTGTCTTCTTTCATTTAGCAATATACATTCAAGATTCATTCTTGTTGTTG CATGGATTAATAGCTCTTTCTTTGTTACATGGAATAGTATCCCACTGTATTTCTACCACAGTTTGTGTAT CCATTTGTATATTGAAGGACTTCTTGGTTGCTTTTTCTCTGTTTTTGGTGATTATGAATAAAACTGCTAT AAACATTTTTTGTAAGTTTTTATGTTTATGTTATTTTTCAAGTCAGGTGGAGGATTTGATTTGATAAGAA GAAATATTTGATTCTATTTTAAACTCTGAAATTAGGTGCAAACAGATTAGGATTGGTATGTCTTCATGAT TGATTAAGCCCCTTATATGACATGCTTCTCTTTACTTTTGATTATATTTTTTCTTCTGAAATCTACAGAG TCAGATATTGATGTGACTGCTTTAGCTCCTTTATAATTACTATTTGCATTGTATTGTATATCTTTGTTCA TCTTTTTATGTTTAAGTAGTCTGTGTCTTTATATTTAAAGTGGATTCAAGGTAGGCAGCAAATAGTTGGC TTTTGCTTGTATTGTTCATTCTAGCAATGCCTGCCTTTTAGTAGACTTCTTATACTATTTACATATAATG TAAATGATATGTTGGGTTTATATCTACTACCTTGCTACTTTTTTTTAATTTGGGACTTCCTTTACTTTCC GTTTTTGTGGTAGAATTATATCAACCATGATATGTCTTGCTTTTGTTTGACTTACAAAGTCTTCATTTCA CTTTCATTTTGAAGGATATTTTACATACTTAAATGATTGTGTTGACTGTTGTTTTCATTCTGTTTTTTTA ACAATTCTAATCCTGTTTTATAATAAGTATTCAGTTATTCA 2008年8月,データ解析の基礎,加藤,瀬々,金子. 22
  • 24. 本講義のねらい 生命情報学における問題を題材にした実践練習を通して プログラミングの技術を習得しよう • 計算機を使って逆相補鎖を求めよう • 計算機を使って共通パターンを見つけよう • 計算機を使って相同性領域を見つけよう • 計算機を使って進化系統樹を描こう 計算機の動作を正確に理解する • なんとなく動いて満足していると バグの温床になりやすい バグとは, プログラムのミス を指す 2008年8月,データ解析の基礎,加藤,瀬々,金子. 24
  • 25. 塩基配列から進化系統樹を描こう 塩基配列の集合 距離行列 1 2 3 4 GGCTCAGCTA AGCTGAGCTC 1 GGCTCAGCCC 2 0.3 AGATCGGTTC 3 0.2 0.3 4 0.5 0.4 0.5 進化系統樹 2008年8月,データ解析の基礎,加藤,瀬々,金子. 25
  • 26. 塩基配列間の距離 • p-distance – 2つの同じ長さの塩基配列の間の距離 – 異なる塩基数 / 長さ 例1 例2 GGCTCAGCTC GGCTCAGCTC AGCTGAGCTC GGCTCAGCCC *** ***** ******** * p-distance=2/10=0.2 p-distance=1/10=0.1 例3 例4 GGCTCAGCTC AGCTGAGCTC AGATCGGTTC GGCTCAGCCC * ** * ** *** *** * p-distance=4/10=0.4 p-distance=3/10=0.3 2008年8月,データ解析の基礎,加藤,瀬々,金子. 26
  • 27. 塩基配列から進化系統樹を描こう 塩基配列の集合 距離行列 1 2 3 4 GGCTCAGCTA AGCTGAGCTC 1 GGCTCAGCCC 2 0.3 AGATCGGTTC 3 0.2 0.3 4 0.5 0.4 0.5 進化系統樹 2008年8月,データ解析の基礎,加藤,瀬々,金子. 27
  • 28. 本講義のねらい 生命情報学における問題を題材にした実践練習を通して プログラミングの技術を習得しよう • 計算機を使って逆相補鎖を求めよう • 計算機を使って共通パターンを見つけよう • 計算機を使って相同性領域を見つけよう • 計算機を使って進化系統樹を描こう 計算機の動作を正確に理解する • なんとなく動いて満足していると バグの温床になりやすい 参照を理解する! 2008年8月,データ解析の基礎,加藤,瀬々,金子. 28
  • 29. 目標 • Java 言語の文法を習得する – プログラミングへの最初の壁を突破する • 講義後もっと学べばより高度なことができる – オブジェクト指向を覚えれば,使いやすいプログラムが書ける – システムコールを覚えれば,さまざまな既存のツールを自動的 に呼び出して使える • ツールを手動で何回も動かさなくても良くなる – インターネット上のデータベースの使用も自動化できる – アルゴリズムを勉強すれば,高速に大規模に計算できる – 統計を勉強すれば,大量データの検定も自動的にできる – パターン認識を勉強すれば,さまざまな予測ができるようになる – 多くの場合,他の言語にもjavaと同様な概念がある 2008年8月,データ解析の基礎,加藤,瀬々,金子. 29
  • 30. 本講義で使うデータ スライドやデータの多くはここからとってこれます http://www.net-machine.net/~kato/seijoen-h20/ スライドには小さい字が多く含まれているので 便宜スライドをダウンロードして参照してください 2008年8月,データ解析の基礎,加藤,瀬々,金子. 30
  • 31. プログラミング経験者への課題 距離行列 進化系統樹 1 2 3 4 1 2 0.3 3 0.2 0.3 4 0.5 0.4 0.5 距離行列から進化系統樹を描くプログラムを java で作成せよ 期限 8月21日18:00 までにメールで提出 課題の詳細はウェブページ参照 2008年8月,データ解析の基礎,加藤,瀬々,金子. 31
  • 32. 参考文献 • B. Albert et al., Molecular Biology of the Cell, fifth edition, Garland Science • 林,改訂新Java言語入門ビギナーズ編,ソフトバンクク リエイティブ • T. Lindholm & F. Yellin, The Java Virtual Machine Specification, 2nd edition, Addison- Wesley Pub • 丸山&阿久津,バイオインフォマティクス—配列データ 解析と構造解析,朝倉書店 • 松尾,バイオプログラミング,オーム社 2008年8月,データ解析の基礎,加藤,瀬々,金子. 32