SlideShare a Scribd company logo
様々なパスウェイデータベースと、	
遺伝子発現データのマッピング	
•  BioCycデータベース
•  Reactomeデータベース
•  KEGGデータベース	
(担当:小寺正明)	
1
低分子化合物の表現方法と、	
検索・解析手法	
Φ(C) = ( 0, 1, 0, 1, 1, 0, 1, 0, 0, … )	
+1(活性あり)	
-1(活性なし)	
•  化学構造の表現・保存
•  構造検索・構造比較
•  代謝パスウェイ解析
•  統計解析
•  機械学習	
(担当:小寺正明)	
2
前回までの復習	
3
化合物X	
課題2(解答例)	
4	
KEGGデータベース中でこれと同じ化合物は存在しな
い。最も類似している化合物は C16746	であり、青丸と
赤丸で示した部位が異なる。化合物Xがその最も類似
している化合物から生合成されると仮定したとき、赤
丸の変化に相当するラクトンの水素化と、青丸の変化
に相当する脱アセチル化が起こると推定される。
課題2についていただいた感想(一部抜粋)	
•  情報系の勉強は個人的にとても苦手なので、資料をより事前にOCW-iに上げてくださるか、授業中に配布資料として配っていただけると非常に嬉しく思います。	
•  酵素反応についていまいちうまい解答の仕方が思いつかなかったので、類似の反応のKEGG	IDをそのまま解答することにした。	
•  課題の解答例のようなもの(特に課題1について)がほしいと思った。	
•  構造式をパソコンで描くのはやっていて楽しかった。実験のレポートで構造式を載せる際にこのサイトを使おうかなと考えた。	
•  講義で授業に関する実践の時間を設けてもらい、実際に手を動かし考え、また自ら検索した ことによって、今回の講義における検索ツールの有用性に気付いた。	
•  これからの講義でも、 実践の時間を多くとってほしい。	
•  サイトに打ち込むだけだから簡単だろうと思って始めたのですが、出てきた結果をどう理解するかという点がなかなか難しかったです。	
•  KEGGなどの結果にわからない単語が出てきたりして調べると、かなりの確率で京大関係のページに行きつくのですが、京大がこの分野に強かったりするのでしょうか?	
•  SIMCOMP、E-zyme2は初めて使いましたが、使い方が丁寧に講義資料にのっていたため、課題に取り組みやすかったです。	
•  課題があることで、実際に手を動かしながら学べるので理解しやすかったです。	
•  少し、講義直後にやる課題の量が多くて大変でした。	
•  本年もよろしくお願いします。	
•  化合物データベースについての内容といったコンピュータを用いる必要のある内容が講義資料の多くを占めていたため、講義中にはあまり内容を理解していなかった部分もあり、本課
題を取り組む際は予想以上に検索に手間取ってしまった。しかし時間がかかりつつも自身で疑問を解決させたことで講義で説明される以上に理解が深まったため、講義中はコン
ピュータを用いずに後日余裕をもって課題に取り組む今回のような方法が個人的には合っていると感じた。	
•  サイトが英語であったり専門用語が並んでたりで、いざ自分で課題をやろうと使おうとしてみるとレジュメだけではあまり理解できません。授業のときに実演など通して詳しく説明しても
らえると理解も深まっていいかと思いました。	
•  課題の回答はなるべく早くアップしてくださると幸いです。	
•  この課題ではじめてKEGG	COMPOUNDやChEBIを使ってみたので、こんな便利なサイトがあるのかと驚きました。特にChEBIではさまざまな化合物の構造式を描画することができ、実際
にやってみて楽しかったです。これからの講義でもこのような新鮮で便利な手段を学べることを楽しみにしています。	
•  Enzyme-2のシステムは面白いと思った。生体内で知らない化合物が見つかった時、どの酵素のはたらきで出来たのか、どこからこの化合物が運ばれたのか知るために利用できるの
かなと思った。知識を共有するためのシステム構築が生物系の研究において必要なことだと改めて感じた。②の反応はRではなくNで特異的に存在しそうな予感がしていたが見つから
なくて(自分の検索の仕方がダメだったかも)残念だった。	
•  ユーモアもあって面白いので好きです。	
•  それらしい結果は出たものの、それが何を意味するかがあまりよくわかりませんでした。	
•  Molfileを実際に化合物を描いて作成する方法を知ることができてよかった。課題で手を動かすことによって、授業よりもより身につくことがたくさんあったと思います。よかったです。	
•  スライドが見やすく、課題もなんとか取り組むことができた。もう少し個々の説明にボリュームをもたせても良いと思いました。	
•  お正月に入り、昨年の授業内容の復習をする部分からになってしまったため大変でしたが、より前々回の内容を実践的に理解できたと感じました。	
•  明日のことではありまずが、お誕生日おめでとうございます。	
•  ホームページのアドレスがわからなくなると、課題をするときに色々不便になる気がします。(自己責任の感もありますが) どこかに貼ってもらえるとより良いなあと思いました。	
•  授業の感想ですが、一スライドの説明量をもう少し増やしていただけると、個人的には理解度が向上すると思いました。	
•  ChEBIが最初は手惑いましたが,使い慣れていくととても良いものだと感じました.	
•  課題を解くという実践形式で行うのでその方が理解が深まり良いと思いました。	
•  立体異性をどう扱うかが分からなかったです。違う化合物として考えるのかどうかに迷いました。	
•  RDMパターンを理解できなかったのでどのように反応が進行するのかが分からなかったです。	
•  多少難しい課題でした。生命情報学は個人的には難しいと思いますが同時にとても面白いと感じています。	
•  今のところ授業は楽しいですが2回目の授業では課題が最後までできなかったのでだんだんとついていけなくなるんじゃないかと不安になっています。	
•  C16746から化合物Xに生合成するときの酵素反応はscoreか0.299が最も高くて3つあったが沢山あって、また英語ということもあってどの酵素のことを書けばいいかわからなかった。	
•  非常にわかりやすい授業、ありがとうございます。数学的・化学的共通部分を理解するのに少しばかり手間取ってしまいました。他の例を2,3個挙げていただけると助かります。	
•  構造式から検索をかけれて、類似する化合物を探すことができるのは新鮮で面白かったです。	
•  今回の課題では実際にパソコンでいろいろなサイトを用いて化合物を描いて検索したり類似した化合物や反応を検索したりして、コンピューターはすごいなと思った。特に、類似	
•  性を値として計算するために授業で用いた谷本係数が使われているということが調べていてわかり、とても興味が持てて良かった。	
•  今回の課題では原子対マッピングに基づく谷本係数を計算しようとしたところ、共通構造について化学的な最大共通部分とは少し違うような気がしたのでよくわからなかった。	
•  E-zyme2についてもサイトが英語で理解が大変だった。	
5
課題3	
(A)(B)の両化合物に対し、	
①  それぞれMorgan法による頂点分割を行いなさい。	
②  それぞれMorgan法によるノード(原子)の番号付け
を行いなさい。	
③  それぞれMorgan法により標準化されたSMILESを
書きなさい。	
④  それぞれAtom-type fingerprintを書きなさい。	
⑤  Atom-type fingerprintに基づいた谷本係数を算出
しなさい。	
⑥  原子対マッピングに基づいた谷本係数を算出しな
さい。	
また、この講義の感想なども書いてもらえると嬉しいで
す。今後の講義の改善につながるかもしれません。	
6	
(A)	
(B)
課題3	
(A)(B)の両化合物に対し、	
①  それぞれMorgan法による頂点分割を行いなさい。	
7	
(A)	
(B)	
1	
1	
3	3	
2	
2	
2	
2	 3	
3	
5	7	
5	
5	
4	
4	
9	
9	
11	
11	
15	 13	
5	
5	
K	=	3	 K	=	4	 K	=	5	
20	
20	
24	
24	
35	25	
13	
13	
K	=	5	
(採用)	
1	
1	
3	3	
2	
2	
2	
3	
1	
3	
3	
5	
5	
4	
8	
5	
6	
3	
10	
10	
12	
16	
6	
16	 14	
5	
5	
K	=	3	 K	=	5	 K	=	6	
22	
26	
26	
32	
42	26	
16	
14	
14	
K	=	6	
(採用)
課題3	
(A)(B)の両化合物に対し、	
②  それぞれMorgan法によるノード(原子)の番号付けを行いなさい。	
8	
(A)	
(B)	
20	
20	
24	
24	
35	25	
13	
K	=	5	
22	
26	
26	
32	
42	26	
16	
14	
14	
K	=	6	
1	
3	
4	
2	
13	
5	
6	
7	
8	 1	
4	
3	
2	
5	
6	
8	
7	
1	
3	
4	
2	
6	
5	
7	
8	 1	
4	
3	
2	
6	
5	
8	
7	
1	
2	
3	
4	
5	
6	
7	
8	
9	
1	
2	
3	
4	
5	
6	
7	
9	
8	
どれでも正解	
どちらでも正解
課題3	
(A)(B)の両化合物に対し、	
③  それぞれMorgan法により標準化されたSMILESを書きなさい。	
9	
(A)	
(B)	
1	
3	
4	
2	
5	
6	
7	
8	
1	
4	
3	
2	
5	
6	
8	
7	
1	
2	
3	
4	
5	
6	
7	
8	
9	
CN(C)c1nccc1	 CN(C)c1cccn1	
CN(C)c1nccc1O
(A)(B)の両化合物に対し、	
④  それぞれAtom-type fingerprintを書きなさい。	
課題3	
10	
(A)	 (B)	
N_2_1	
C_2_1	
C_2_1	
C_2_1	
C_3_1	
N_3_0	
C_1_0	
C_1_0	
N_2_1	
C_2_1	
C_2_1	
C_3_1	
C_3_1	
N_3_0	
C_1_0	
C_1_0	
O_1_0	
C_1_0 	2	
C_2_1 	3	
C_3_1 	1	
N_2_1 	1	
N_3_0 	1	
C_1_0 	2	
C_2_1 	2	
C_3_1 	2	
N_2_1 	1	
N_3_0 	1	
O_1_0 	1
(A)(B)の両化合物に対し、	
⑤  Atom-type fingerprintに基づいた谷本係数を算出しなさい。	
課題3	
11	
(A)	 (B)	
N_2_1	
C_2_1	
C_2_1	
C_2_1	
C_3_1	
N_3_0	
C_1_0	
C_1_0	
N_2_1	
C_2_1	
C_2_1	
C_3_1	
C_3_1	
N_3_0	
C_1_0	
C_1_0	
O_1_0	
Tani	=	7	/	10	=	0.7	
	 	A 	B 	AND	 	OR 		
C_1_0 	2 	2 	2 	 	2	
C_2_1 	3 	2 	2 	 	3	
C_3_1 	1 	2 	1 	 	2	
N_2_1 	1 	1 	1 	 	1	
N_3_0 	1 	1 	1 	 	1	
O_1_0 	0 	1 	0 	 	1
(A)(B)の両化合物に対し、	
⑥  原子対マッピングに基づいた谷本係数を算出しなさい。	
課題3	
12	
(A)	 (B)	
共通構造の非水素原子数	
独自構造の非水素原子数	
8	
0	
8	
1	
非水素原子数	 8	 9	
Tani = 8 / (8 + 9 – 8) = 0.89
課題3についていただいた感想(一部抜粋)	
•  もんだい多いです...。	
•  内容はわかったが、難しかったです。	
•  原子対マッピングの探索方法がよく分からなかった。	
•  つらいです...。	
•  時間が足りない。	
•  時間は足りないという人が多かったかもしれませんが、講義(解説)の時間を考えると仕方ないか
なと思います。	
•  計算が大変でした。	
•  谷本係数が分からなかった。ANDとORが何を表しているかが分からなかった(特に Atom	type	
fingerprintのほう)。	
•  この課題は成績に反映されますか?	
•  各手法の手順が文字と図の双方で書いてあり、分かり易いスライドでした。前回よりも理解できた
ように思います。	
•  SMILESの標準化が、同じノードだと一応その隣とかも見つつ適当に決めてしまったけど、もうちょ
い厳密なやり方があるのでしょうか?	
•  知能テストみたいで楽しかったです。テストでは、こういった作業を覚えたほうがいいですか?	
•  顔文字かわいいです(・ω・)”	
•  パズルみたいで楽しかった。	
•  今日が今年最後ですね。良いお年を!!	
•  次の授業の日は誕生日ですね!	
•  すきなおかしはなんですか?	
13
君の名は。	
•  分子の命名	
–  系統名 (systemaXc	names);	IUPAC名	
•  分子中の最長炭素鎖を探し出し、その各位置に置換基を載せて
いくような命名法。	
–  慣用名	(trivial	names)	
•  命名ルールはほとんどないに等しい。	
–  準・系統名	(semi-systemaXc	names)	
•  基本骨格(部分構造)に名前をつけ、その各位置に置換置換基を
載せていくような命名法。	
•  反応の命名	
–  有機反応の系統的命名法は、たぶんない。	
•  いくつかの準・系統的命名と、人名反応	
–  酵素反応の系統的命名法は、あえて言うならEC
標準的命名法を決めている国際団体	
IUPAC	=	InternaXonal	Union	of	Pure	and	Applied	Chemistry	
–  国際純正・応用化学連合。化合物の体系名の命名法(IUPAC命名法)を決めている国
際団体。たとえば糖鎖など、まだ系統的命名法の整っていない化合物群は存在する。
新規化合物の報告数の増加に伴い、新しい命名法を追加することは、今後も起こりう
る。	
	
IUBMB	=	InternaXonal	Union	of	Biochemistry	and	Molecular	Biology	
–  国際生化学・分子生物学連合。生化学命名法や、酵素を含む種々の命名法を制定し
ている。IUBMB’s	Enzyme	List	(Enzyme	Commission	(EC)番号とも呼ばれる)で酵素を分
類・命名しており、現在も新規酵素は増加し続けている。	
	
JCBN	=	IUPAC-IUBMB	Joint	Commission	on	Biochemical	Nomenclature		
–  IUPAC	と IUBMB	との共同で、生化学分野のあらゆる国際標準命名法について議論し
ている団体。	
15
酵素の命名	
•  EC番号(酵素番号、Enzyme	Commission	numbers)は酵素を整理すべく反
応形式に従ってECに続く4組の数字で表したもの(1961年〜)。分類は階
層的でありECの接頭辞にピリオドで区切った続けた4個の番号 “EC	
X.X.X.X”(Xは数字)による表記がなされる。	
–  EC	1.X.X.X	—	オキシドレダクターゼ(酸化還元酵素)、酸化還元反応を触媒	
–  EC	2.X.X.X	—	トランスフェラーゼ(転移酵素)、原子団(官能基など)をある分
子から別の分子へ転移する	
–  EC	3.X.X.X	—	ヒドロラーゼ(加水分解酵素)、加水分解反応を触媒	
–  EC	4.X.X.X	—	リアーゼ(脱離酵素)、原子団を二重結合あるいは、結合の解離
の触媒	
–  EC	5.X.X.X	—	イソメラーゼ(異性化酵素)、分子の異性体を作る	
–  EC	6.X.X.X	—	リガーゼ(合成酵素)、ATPの加水分解エネルギーを利用して、2
つの分子を結合させる
遺伝子オーソログとパラログ	
•  分子生物学的な定義:	
–  オーソログとは、ホモログ(相同性の高い遺伝子)の一種であり、共通祖先種
の同一遺伝子に由来し、現存の複数種において同じ機能を有しているもの。	
–  パラログとは、ホモログの一種であり、祖先種の同一遺伝子に由来し、遺伝
子重複によって生じ、同一種内において複数存在するもの。異なる機能を持
つ例がよく知られている。	
•  生命情報学的な定義:	
–  オーソログ:双方向ベストヒット(bi-drecXonal	best	bit,	BBH)な遺伝子の組	
–  パラログ:同一種内で相同性の高い遺伝子の組	
17	
生物種1	 生物種2	
遺伝子A	
遺伝子B	
遺伝子C	
遺伝子D	
遺伝子E	
遺伝子A’	
遺伝子B’	
遺伝子C’	
遺伝子D’	
遺伝子E’	
矢印は、どの遺伝子から見てど
の遺伝子がベストヒットだったか
を示す。	
左のような場合、「AとA’」「CとC’」
がそれぞれオーソログである。	
「AとB」「A’とB’」「CとDとE」「C’と
D’とE’」はそれぞれ、おそらくパラ
ログである。
様々なパスウェイデータベースと、	
遺伝子発現データのマッピング	
•  BioCycデータベース
•  Reactomeデータベース
•  KEGGデータベース	
(担当:小寺正明)	
18
KEGG hep://www.kegg.jp/	
19	
KEGG	PATHWAY	をクリック	
Metabolismをクリック
KEGG hep://www.kegg.jp/	
20	
Metabolic	pathways	をクリック	
Global	map	と呼ばれる
マップのひとつ
KEGG hep://www.kegg.jp/	
21	
Carbon	metabolismをクリック	
Overview	map	と呼ばれ
るマップのひとつ
KEGG hep://www.kegg.jp/	
22	
Glycolysis	をクリック	
Pathway	map	と呼ばれ
るマップのひとつ	
プルダウンメニューから
生物種を選択できる
KEGG hep://www.kegg.jp/	
23	
Homo	sapiensを選択	
緑の箱は、その生物に
その遺伝子の存在が
示唆されることを示す。	
2.7.1.1をクリック。	
Homo	sapiens	の	2.7.1.1	の酵素
遺伝子の情報が得られる。アミ
ノ酸配列などを見てみましょう。
KEGG hep://www.kegg.jp/	
24	
Escherichia	coli	O157:H7	EDL933	
を選択	
2.7.1.1がない。代わりに
2.7.1.2をクリックする。	
Escherichia	coli	O157:H7	EDL933の	
2.7.1.2	の酵素遺伝子の情報が得られる。
アミノ酸配列などを見てみましょう。
ゲノム情報からのパスウェイ再構築	
緑の箱は、ゲノム配列解読結
果から、その生物種にその遺
伝子の存在が示唆されている
ことを示す。
白い箱:
•  本当にその遺伝子を持って
いない可能性。
•  本当は持っているけど検出
できていない可能性。
•  別の遺伝子がその機能を
担っている可能性。	
25
ゲノム情報からのパスウェイ再構築	
例: Homo sapiens の Terpenoid
backbone biosynthesis
緑の箱の配置から、Mevalonate
pathway の遺伝子は全て持って
いて、MEP/DOXP pathway の遺
伝子は持っていないことが分かる。
↓
Homo sapiens は、Geranyl-PP
や (E,E)-Farnesyl-PPなどの化合
物を、D-Glyceraldehyde 3-
phosphate からのMEP/DOXP
pathwayではなく、Acetyl-CoAか
らのMevalonate pathwayで合成
している。
26
遺伝子発現データのパスウェイへのマッピング(デモ)	
•  マイクロアレイやRNA-seqなどの遺伝子発現解析により、ある
特定の遺伝子オーソログの発現が高いことが分かったもの
とする。どのパスウェイの遺伝子か?	
•  例として、hep://maskot.cnocglas.org/bioinfo/data1.txt		
–  (redと書いてあるのは色付けのためなので気にしないでください)	
•  KEGG	Mapper	を用いてマッピング	
–  hep://www.kegg.jp/kegg/tool/map_pathway2.html	
27
機械学習	machine-learning	
•  教師なし学習	unsupervised	learning	
–  階層的クラスタリング	hierarchical	clustering	
•  最短距離法	Single-linkage	
•  最長距離法	Complete-linkage		
•  平均法	Average	method	
•  重心法	Centroid	method	
–  主成分分析	principal	component	analysis;	PCA	
•  教師あり学習	supervised	learning	
•  決定木	decision	tree	
•  ランダムフォレスト	random	forest	
•  サポートベクトルマシン	support	vector	machine	(SVM)	
•  ロジスティック回帰	logisXc	regression	
•  線形判別分析	linear	discriminant	analysis	(LDA)	
28
階層的クラスタリング hierarchical	clustering	
説明を簡単にするため、今、次のようなフィンガープリントで表現され
る8つの分子があると考えましょう。(分子→遺伝子、フィンガープリン
ト→遺伝子発現データと読み替えても構いません)	
•  分子0	=	(60,	34)	
•  分子1	=	(64,	61)		
•  分子2	=	(93,	33)	
•  分子3	=	(91,	45)	
•  分子4	=	(13,	94)	
•  分子5	=	(92,	97)	
•  分子6	=	(56,	5)	
•  分子7	=	(13,	53)	
これらの分子を2つや3つのグループ(クラスター)に分類したい。	
29
階層的クラスタリング hierarchical	clustering	
簡単のため、分子
を二次元ベクトル
とし、ユークリッド
距離を分子間の
「非類似性」とする。	
	
初期状態でのクラ
スターは[0][1][2]
[3][4][5][6][7]の8
つ。	
30
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
最も近い2点は
「2」と「3」(距離
約12.2)なので、
それを結ぶ。	
	
この時点でのクラ
スターは[0][1][23]
[4][5][6][7]の7つ。	
31
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
次に近い2点は
「0」と「1」(距離約
27.3)なので、そ
れを結ぶ。	
	
この時点でのクラ
スターは[01][23]
[4][5][6][7]の6つ。	
32
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
次に近い2点は
「0」と「6」(距離約
29.3)なので、そ
れを結ぶ。	
	
この時点でのクラ
スターは[016][23]
[4][5][7]の5つ。	
33
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
次に近い2点は
「1」と「3」(距離約
31.4)なので、そ
れを結ぶ。	
	
この時点でのクラ
スターは[01236]
[4][5][7]の4つ。	
34
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
次に近い2点は
「4」と「7」(距離約
41.0)なので、そ
れを結ぶ。	
	
この時点でのクラ
スターは[01236]
[47][5]の3つ。	
35
最短距離法 Single-linkage	
全てのクラスター
間で最も「最短距
離」の短い2つを
結合する。	
	
次に近い2点は
「1」と「5」(距離約
45.6)なので、そ
れを結ぶ。	
	
この時点でのクラ
スターは[012356]
[47]の2つ。	
36
最短距離法 Single-linkage	
全てのクラスター間
で最も「最短距離」
の短い2つを結合す
る。	
	
次に近い2点は「1」
と「5」(距離約45.6)
なので、それを結ぶ。	
	
これで全ての点がひ
とつのクラスターとし
てまとまった。	
37
樹形図 dendrogram	
•  以上の過程を樹形図で表す。閾値(Threshold)を変えること
で、適切な数のクラスターを得る。	
38
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
最も近い2点は「2」
と「3」(距離約12.2)
なので、それを結ぶ。	
	
この時点でのクラス
ターは[0][1][23][4]
[5][6][7]の7つ。	
39
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
次に近い2点は「0」
と「1」(距離約27.3)
なので、それを結ぶ。	
	
この時点でのクラス
ターは[01][23][4][5]
[6][7]の6つ。	
40
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
クラスタ[01][23]間の
距離が、[1][2]間に
相当する約40.3であ
り最短なので結合。	
	
この時点でのクラス
ターは[0123][4][5]
[6][7]の5つ。	
41
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
最も近い2点は「4」
と「7」(距離約41.0)
なので、それを結ぶ。	
	
この時点でのクラス
ターは[0123][47][5]
[6]の4つ。	
42
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
クラスタ[0123][6]間
の距離が、[1][6]間
に相当する約56.7で
あり最短なので結合。	
	
この時点でのクラス
ターは[01236][47][5]
の3つ。	
43
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間
の距離のうち最長の
もの」とし、それが閾
値以下なら結合する。	
	
クラスタ[47][5]間の
距離が、[7][5]間に
相当する約90.4であ
り最短なので結合。	
	
この時点でのクラス
ターは[01236][457]
の2つ。	
44
最長距離法 Complete-linkage	
クラスタ間の距離を
「それに属する点間の
距離のうち最長のも
の」とし、それが閾値
以下なら結合する。	
	
クラスタ[01236][457]
間の距離が、[6][4]間
に相当する約98.8であ
り最短なので結合。	
	
この時点でのクラス
ターはこれで全ての点
がひとつのクラスター
としてまとまった。	
45
樹形図の比較	
最短距離法による樹形図	 最長距離法による樹形図	
46
階層的クラスタリング手法の違い	
•  最短距離法	
–  2つのクラスターに属するそ
れぞれの点群間の距離を取
り、その最短距離が閾値以
下ならクラスターを結合する。	
•  平均法	
–  2つのクラスターに属するそ
れぞれの点群間の距離を取
り、その平均距離が閾値以
下ならクラスターを結合する。	
•  最長距離法	
–  2つのクラスターに属するそ
れぞれの点群間の距離を取
り、その最長距離が閾値以
下ならクラスターを結合する。	
•  重心法	
–  2つのクラスターの重心をそ
れぞれ求め、その重心間距
離が閾値以下ならクラスター
を結合する。	
47	
さらに「距離」の定義の違いも色々ある。	
ユークリッド距離、マンハッタン距離、コサイン距離、谷本距離など。
48	
最短距離法	 最長距離法	
平均法	 重心法
最短距離法と最長距離法	
49	
2つのクラスターを結合するかどうかの閾値	
最短距離法:	
クラスター間の最短距離が閾値
以下なら結合する。新しく得られ
たクラスター内の要素が互いに
近接している保証は全くない。	
最長距離法:	
クラスター間の最長距離が閾値
以下なら結合する。新しく得られ
たクラスター内の要素は必ず閾
値以下であるという保証がある。
平均法と重心法	
50	
2つのクラスターを結合するかどうかの閾値	
平均法:	
クラスター間の全ての要素間の距
離の平均が閾値以下なら結合する。
新しく得られたクラスター内の要素
は”ある程度”互いに近接している。	
重心法:	
クラスターの重心間距離が閾値
以下なら結合する。新しく得られ
たクラスター内の要素は”ある程
度”互いに近接している。
いろんな「距離」の定義	
51	
・ユークリッド距離	 ・マンハッタン距離(シティブロック距離)	
・チェビシェフ距離(チェスボード距離)	
・谷本距離	
 1	–	谷本係数。0〜1の値を取る(同一ならゼロ)。	
	
・コサイン距離	
 多次元ベクトルの角度が似ているかどうかを	1	-	
コサインで表す。0〜1の値を取る(同一ならゼロ)。
実際の高次元データ解析例:	
様々な味のアイスクリームの好みの分類	
52
実際の高次元データ解析例:	
様々な組織における様々な遺伝子の発現データ	
53	
hep://qiita.com/s-wakaba/items/a93f03f27137cff4a26c
主成分分析(PCA)	
54	
•  多数の変数で説明されるデータ(高次元データ)から、より少ない個数の
合成変数(=主成分)でデータを説明するための次元圧縮法のひとつ。	
•  高次元データから最も分散の大きい主成分(第一主成分)と、それに直
交する2番目に分散の大きい主成分(第二主成分)を得ることで、高次元
データを2次元上にプロットできる。	
•  (普通は手計算では行わず、ソフトを使って計算する)
実際の高次元データ解析例:	
様々な味のアイスクリームの好みの分類	
55
実際の高次元データ解析例:	
IVIG不応およびIVIG反応川崎病患者さんiPS細胞由来血管内皮
細胞の遺伝子発現プロファイルの比較	
56	
hep://www.cira.kyoto-u.ac.jp/j/research/finding/161122-180000.html
課題5(今日の授業終了時に提出)	
講義資料: hep://maskot.cnocglas.org/bioinfo/3.pdf	
①  次のベクトルで表される5つの分子がある。ユークリッド距離で最
短距離法を用いて階層的クラスタリングを行い、樹形図を描きな
さい。	
–  分子0	=	(25,	81)	
–  分子1	=	(29,	67)	
–  分子2	=	(77,	48)	
–  分子3	=	(68,	11)	
–  分子4	=	(13,	3)	
②  同様に、ユークリッド距離で最長距離法を用いて階層的クラスタ
リングを行い、樹形図を描きなさい。	
また、この講義の感想なども書いてもらえると嬉しいです。今後の講
義の改善につながるかもしれません。	
	
57
課題5は、いくらでも問題のバリエーションを作れます。	
次のベクトルで表される5つの分子がある。(ユークリッド距離・
マンハッタン距離・チェビシェフ距離・谷本距離・コサイン距離)
で(最短距離法・最長距離法・平均法・重心法)を用いて階層的
クラスタリングを行い、樹形図を描きなさい。	
–  分子0	=	(25,	81)	
–  分子1	=	(29,	67)	
–  分子2	=	(77,	48)	
–  分子3	=	(68,	11)	
–  分子4	=	(13,	3)	
(※これは今日の課題ではありません)	
58
課題6(後日メール提出)	
講義資料: hep://maskot.cnocglas.org/bioinfo/3.pdf	
1.  KEGG	の Porphyrin	and	chlorophyll	metabolism	マップを用いて、以下の生物が	
glycine	から	①	Vitamin	B12,	②	Heme	A,	③	D-Urobilinogen,	④	Chlorophyll	a	
を生合成できそうかどうか、それぞれ調べなさい。	
A.  Homo	sapiens	
B.  Arabidopsis	thaliana	
C.  Mesorhizobium	loX	
D.  上記以外の何か好きな生物種	
2.  マイクロアレイやRNA-seqなどの遺伝子発現解析により、
hep://maskot.cnocglas.org/bioinfo/data2.txt	に記述してある特定の遺伝子オー
ソログの発現が高いことが分かった。KEGG	Mapper	を用いてパスウェイへマッピ
ングし、結果を考察せよ。	
59

More Related Content

More from Mas Kot

バイオインフォ講義4
バイオインフォ講義4バイオインフォ講義4
バイオインフォ講義4
Mas Kot
 
バイオインフォ講義3
バイオインフォ講義3バイオインフォ講義3
バイオインフォ講義3
Mas Kot
 
バイオインフォ講義2
バイオインフォ講義2バイオインフォ講義2
バイオインフォ講義2
Mas Kot
 
バイオインフォ講義1
バイオインフォ講義1バイオインフォ講義1
バイオインフォ講義1
Mas Kot
 
ケモインフォマティクス
ケモインフォマティクスケモインフォマティクス
ケモインフォマティクス
Mas Kot
 
Metabolic network and cheminformatics
Metabolic network and cheminformaticsMetabolic network and cheminformatics
Metabolic network and cheminformatics
Mas Kot
 
Metabolic Network Analysis
Metabolic Network AnalysisMetabolic Network Analysis
Metabolic Network Analysis
Mas Kot
 
代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析
Mas Kot
 

More from Mas Kot (8)

バイオインフォ講義4
バイオインフォ講義4バイオインフォ講義4
バイオインフォ講義4
 
バイオインフォ講義3
バイオインフォ講義3バイオインフォ講義3
バイオインフォ講義3
 
バイオインフォ講義2
バイオインフォ講義2バイオインフォ講義2
バイオインフォ講義2
 
バイオインフォ講義1
バイオインフォ講義1バイオインフォ講義1
バイオインフォ講義1
 
ケモインフォマティクス
ケモインフォマティクスケモインフォマティクス
ケモインフォマティクス
 
Metabolic network and cheminformatics
Metabolic network and cheminformaticsMetabolic network and cheminformatics
Metabolic network and cheminformatics
 
Metabolic Network Analysis
Metabolic Network AnalysisMetabolic Network Analysis
Metabolic Network Analysis
 
代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析代謝(メタボリック)ネットワーク解析
代謝(メタボリック)ネットワーク解析
 

生命化学情報学3