メタバーコーディングが拓く新種探索の新時代

The
wild
mushroom
chase
2013
The
last
presentation

Presenter
発表者
水産総合研究センター
中央水産研究所
田辺晶史
Akifumi S. Tanabe
National Research Institute of Fisheries Science,
Fisheries Research Agency

メタバーコーディング
が拓く新種探索の新時代
Metabarcoding marks a new era
for exploring new taxa

未知の生物を
探す
Exploring new taxa

そんなときに
Metabarcoding is
able to solve this problem

メタバーコーディングって何？
What is “metabarcoding”?

土壌
海水
淡水
未消化物
糞
遺骸
生物体
など
soils
sea water
fresh water
undigested materials
feces
dead bodies
living bodies
etc.

土壌
海水
淡水
未消化物
糞
遺骸
生物体
など
メタゲノム
metagenomes
soils
sea water
fresh water
feces
dead bodies
living bodies
etc.

土壌
海水
淡水
未消化物
糞
遺骸
生物体
など
メタゲノム塩基配列
metagenomes nucleotide
soils
sea water
fresh water
feces
dead bodies
living bodies
etc.
sequences

土壌
海水
淡水
未消化物
糞
遺骸
生物体
など
メタゲノム塩基配列生物種名
soils
sea water
fresh water
feces
dead bodies
living bodies
etc.
sequences
biological
taxa

メタバーコーディングのポジティブスパイラル
A positive spiral of metabarcoding
未知生物発見
従来法による記載分類
improve
metabarcoding
能力向上
metabarcoding
DNA データベース充実
discover
a new taxon
describe the new taxon
by existing method
expand the DNA database

土壌
海水
淡水
未消化物
糞
遺骸
生物体
など
sequences
an old
method
ＰＣＲで特定の遺伝子座を増幅
サンガー法で塩基配列解読
biological
taxa
amplify a barcode locus
sequence by Sanger method

土壌
海水
淡水
未消化物
糞
遺骸
生物体
など
sequences
a new
method
ＰＣＲで特定の遺伝子座を増幅
同時にサンプル識別用タグ配列付加
多サンプルを混合してＮＧＳで解読
biological
taxa
amplify a barcode locus
add multiplex identifier sequence
mix and sequence by NGS

土壌
海水
淡水
未消化物
糞
遺骸
生物体
など
sequences
biological
an old
method
近縁既知配列と多重整列
分子系統樹推定
taxa
multiple alignment with known relatives
molecular phylogenetic inference

sequences
biological
taxa
土壌
海水
淡水
未消化物
糞
遺骸
生物体
など
a new
method
タグ配列に基いて由来サンプルを特定
　　　　　… demultiplexing
　　　……… quality-trimming
　…………… quality-filtering
　　　……… denoising
　　　……… chimera removal
　　　　…… clustering
　　　　　… barcoding
配列から低品質な部位を除去
低品質な配列を除去
ノイズの多そうな配列を除去
キメラと思われる配列を除去
類似度ｎ％以上の配列をまとめる
類似する既知配列からホスト生物を推定

sequences
biological
taxa
土壌
海水
淡水
未消化物
糞
遺骸
生物体
など
タグ配列に基いて由来サンプルを特定
　　　　　… demultiplexing
　　　……… quality-trimming
　…………… quality-filtering
　　　……… denoising
　　　……… chimera removal
　　　　…… clustering
　　　　　… barcoding
配列から低品質な部位を除去
低品質な配列を除去
ノイズの多そうな配列を除去
キメラと思われる配列を除去
類似度ｎ％以上の配列をまとめる
類似する既知配列からホスト生物を推定
Claident
http://www.claident.org/
a new
method

植物菌根のメタバーコーディング例
An example of metabarcoding
of mycorrhizae
(Toju et al. 2013)

生物の分類は階層的に体系化されている
Biological taxonomy is hierarchically systematized

界 kingdom

界 kingdom
門 phylum

界 kingdom
門 phylum
綱 class

界 kingdom
門 phylum
綱 class
目 order

界 kingdom
門 phylum
綱 class
目 order
科 family

界 kingdom
門 phylum
綱 class
目 order
科 family
属 genus

界 kingdom
門 phylum
綱 class
目 order
科 family
属 genus
種 species

生物の所属分類群を特定＝同定すると、様々なことがわかる
Taxonomic identification gives us
a lot of information

● 生態
Ecology

● 生態
Ecology
● 寿命，最大・平均・最小サイズ，生息環境，分布域， etc.
life history, body size, habitat, distribution, etc.

● 生態
● 近縁の分類群
Ecology
Closely related taxa

● 生態
Ecology
● 近縁の分類群
Closely related taxa
● ヒトであればチンパンジー，ライオンであればネコ， etc.
chimps for humans, lions for cats, etc.

より下位の階層まで同じ分類群は、より似ている
Organisms which belong same lower taxa
are more similar

are more similar
● 既知生物に似ているほど下位の階層まで同定可能
An organism which is more similar to known organisms
is identifiable to lower taxa

are more similar
● 既知生物に似ているほど下位の階層まで同定可能
An organism which is more similar to known organisms
is identifiable to lower taxa
● より下位の階層（種とか）まで同定できるとより詳細にわかる
Lower taxonomic information provides
more detailed ecological information

DNA
→分類情報
Translating DNA into
taxonomic information

新規準
A new criterion for molecular identification

新規準
問い合わせ配列と最近隣配列間の変異量
distance between query and nearest-neighbor

新規準
<
同定結果分類群内の最大変異量
maximum distance within resulting taxon

イメージ図
既知配列B
A schematic illustration
sequence space
既知配列A
配列空間
問い合わせ配列
known sequence A
known sequence B
query sequence

イメージ図
既知配列B
既知配列A
属genus Ω
種species α
属genus Ω
種species β
配列空間
sequence space
known sequence A
known sequence B
query sequence

配列空間
属Ω の変異の範囲
known sequence B
イメージ図
既知配列B
sequence space
既知配列A
known sequence A
query sequence
variable range of genus Ω

known sequence A
属Ω の変異の範囲
known sequence B
query sequence
イメージ図
既知配列B
既知配列A
属genus Ω
種species ?
配列空間
sequence space
variable range of genus Ω

NN-centric auto-k-NN method
配列空間sequence space
query sequence

1.最近隣配列(A) を探し出して変異量(DQA) を算出
Retrieve nearest-neighbor (A), and calculate distance from query (DQA)
A
DQA
query sequence

2.DAB>DQAを満たす配列のうち最もA に近い配列(B) を得る
Retrieve borderline (B),
which is nearest to A in the sequences farther from A than Q
DQA
A
配列空間
B
sequence space
query sequence

3.DAN≤DABを満たす全ての配列(N) を得る
Retrieve all sequences (Ns) filling DAN≤DAB
DAB
A
B
N
N
N
query sequence

4.A, B, N の全配列で共通する分類群を採用
Accept a taxon common to A, B, and Ns
DAB
A
B
N
N
N
query sequence

2.DAB>DQAを満たす配列のうち問最いも合わA せ配に列近とい最近配隣列配列(B) 間のを変得異る
量
＜ ≤ ＝
sequence space
DAB
A
B
N
N
N
配列空間
DQA
DAB
query sequence

Query-centric auto-k-NN method
query sequence

Retrieve nearest-neighbor (A), and calculate distance from query (DQA)
A
DQA
query sequence

Retrieve borderline (B),
which is nearest to A in the sequences farther from A than Q
DQA
A
配列空間
B
sequence space
query sequence

3.DQN≤DQBを満たすすべての配列(N) を得る
Retrieve all sequences (Ns) filling DQN≤DQB
A
DQB
N
N
N
配列空間
B
sequence space
query sequence

Accept a taxon common to A, B, and Ns
A
DQB
N
N
N
配列空間
B
sequence space
query sequence

1.最近隣配列distance (A) between を探しquery 出しand てnearest-変異neighbor
量(DQA) を算出
sequence space
＜ ≤ ＝
A
DQB
N
N
N
配列空間
B
DQA
DQB
query sequence

従来法との比較1
Comparing with existing methods 1
DNA database
human ACATAGC…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT…

DNA database
human ACATAGC…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT… 無作為に
pick
1 本抜く
a sequence
human ACATAGC…

DNA database
無作為に
1 本抜く
DNA database lacking 1 sequence
human ACATAGC…
human ACATAGC…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT…
pick
a sequence

DNA database
human ACATAGC…
human のDNA を
右のデータベースを使って
プログラムで同定して
正解かどうかを調べる
無作為に
1 本抜く
human ACATAGC…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT…
pick
a sequence
identify human DNA by programs
with DNA database lacking human DNA

DNA database
human ACATAGC…
human のDNA を
無作為に
1 本抜く
human ACATAGC…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT…
pick
a sequence
with DNA database lacking human DNA
抜き取ったDNA は
プログラムからは
未知のものになる
Picked DNA seems to be
“unknown sequence”
from programs

Results of leave-one-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

1NN はよく落ちるが
誤同定多数
Too many misidentifications
were produced by 1NN method

97%NN, 99%NN,
Barcoder, ConstrainedNJ
は、門レベルすら落とせない
ことが頻繁にある
97%NN, 99%NN, Barcoder, ConstrainedNJ were
not able to identify the sequences even at phylum-level

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified NNC, QC は門～科までは
よく落とせている
NNC and QC frequently produced correct identification
at phylum-, class-, order-, and family-level.

5NN はNNC, QC
とよく似た結果
5NN produced similar results to NNC and QC

DNA database
human ACATAGC…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT… 無作為に
pick
1 本抜く
a sequence
human ACATAGC…

DNA database
無作為に
1 本抜く
DNA database lacking all seqs of a order
human ACATAGC…
human ACATAGC…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT…
cow TACGTCT…
cat GCTGTGT…
pick
a sequence

DNA database
human ACATAGC…
human のDNA を
無作為に
1 本抜く
human ACATAGC…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT…
cow TACGTCT…
cat GCTGTGT…
pick
a sequence
with DNA database lacking all DNA of a order

DNA database
human ACATAGC…
human のDNA を
無作為に
1 本抜く
human ACATAGC…
chimp ACATTCT…
cow TACGTCT…
cat GCTGTGT…
cow TACGTCT…
cat GCTGTGT…
pick
a sequence
with DNA database lacking all DNA of a order
抜き取ったDNA の
「目」は
プログラムからは
未知のものになる
Picked DNA seems to be
“unknown order”
from programs

Results of leave-one-order-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-l phylum, class ではevel unidentified
5NN, NNC, QC
はよく似た結果

order の誤同定は
5NN > NNC > QC

family でも
5NN > NNC > QC

Results of leave-one-family-out cross-validation

Results of leave-one-genus-out cross-validation

まとめ
Conclusion
● QCauto method...
● 多重整列が不要
● 既知系統樹が不要
● どの遺伝子座でも適用可能
● どの分類群にも適用可能
● 前処理に時間がかからない
● 同定処理に時間がかからない
● 理論的背景がある
is multiple alignment free
is phylogenetic tree free
is locus independent
is taxon independent
is fast in preprocess
is fast in identification process
has theoretical background
● 「既知の綱の未知の目」といった答えを正しく出す
can find unknown order of existing class

QCauto 法はポジティブスパイラルを加速する
QCauto method accelerates positive spiral
未知生物発見
improve
metabarcoding
能力向上
metabarcoding
discover
a new taxon
by existing method

QCauto 法はポジティブスパイラルを加速する
QCauto method accelerates positive spiral
未知生物発見
improve
metabarcoding
能力向上
metabarcoding
discover
a new taxon
by existing method
Bottleneck

誤同定の要因
● 見かけ上の誤同定
● 問い合わせ配列の同定情報が間違っている
● 既知配列の同定情報が間違っている
● 分類体系が系統関係を反映していない
● 本当の誤同定
● バーコード領域がincomplete lineage sorting や浸透交雑・水平
伝播によって種の系統関係を反映していない
● 変異量の指標(BLAST raw score) が不適
● 規準が不適

全分類群全遺伝子座でのLOOCV 結果
属レベルが最も
誤同定が多い
correctly identified incorrectly identified cannot identified but incorrectly identified at higher-level cannot identified

属レベルで誤同定が多いのは何故か?
● 種を記載するとき、無理にでも属は指定する必要がある
● 系統関係と整合的でない分類群が属で設立されやすいのでは?
● 正しくない属に入れられてしまう種も多いのでは?

誤同定の要因
● 見かけ上の誤同定
● 問い合わせ配列の同定情報が間違っている
● 既知配列の同定情報が間違っている
● 分類体系が系統関係を反映していない
● 本当の誤同定
● バーコード領域がincomplete lineage sorting や浸透交雑・水平
伝播によって種の系統関係を反映していない
● 変異量の指標(BLAST raw score) が不適
● 規準が不適
「属レベルが最も誤同定が多い」
のは、これが多いことを示している?

複数の同定結果を優先順位を付けて統合する
● 複数の既知配列データベースでの同定結果
● 種以下まで情報がある既知配列のみのデータベースでの同定結果
● 科以下まで情報がある既知配列のみのデータベースでの同定結果
● 厳しい制約下の同定結果と制約を緩めた同定結果
● 類似配列の厳密一致分類群を採用した同定結果
● 類似配列の90% 多数決合意分類群を採用した同定結果
● 複数の遺伝子座での同定結果
● 遺伝子座A の配列での同定結果
● 遺伝子座B の配列での同定結果

優先度綱目科属種
高哺乳綱霊長目ヒト科
低哺乳綱霊長目ヒト科ヒト属ヒト
綱目科属種
統合結果哺乳綱霊長目ヒト科ヒト属ヒト

高哺乳綱霊長目ヒト科ゴリラ属ゴリラ
低哺乳綱霊長目ヒト科ヒト属ヒト
綱目科属種
統合結果哺乳綱霊長目ヒト科ゴリラ属ゴリラ

同哺乳綱霊長目ヒト科ゴリラ属ゴリラ
同哺乳綱霊長目ヒト科ヒト属ヒト
綱目科属種
統合結果哺乳綱霊長目ヒト科

同哺乳綱霊長目ヒト科ゴリラ属ゴリラ
同哺乳綱霊長目ヒト科ヒト属
綱目科属種
統合結果哺乳綱霊長目ヒト科ゴリラ属ゴリラ

動物COX1 でのno-LOOCV 結果

動物COX1 でのLOOCV 結果

細菌16S でのno-LOOCV 結果

細菌16S でのLOOCV 結果

真菌ITS でのno-LOOCV 結果

真菌ITS でのLOOCV 結果

植物matK でのno-LOOCV 結果

植物matK でのLOOCV 結果

植物rbcL でのno-LOOCV 結果

植物rbcL でのLOOCV 結果

植物trnH-psbA でのno-LOOCV 結果

植物trnH-psbA でのLOOCV 結果

メタバーコーディングが拓く新種探索の新時代

More Related Content

What's hot

Viewers also liked

Similar to メタバーコーディングが拓く新種探索の新時代

More from astanabe

メタバーコーディングが拓く新種探索の新時代