遺伝子解析と 
プランクトン 
研究 
日本プランクトン学会 
2014 年度春季シンポジウム
メタバーコーディングの 
フレームワークと 
アルゴリズム
田辺 晶史 
水産総合研究センター 
中央水産研究所
メタバーコーディングって何?
メタバーコーディングって何? 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など
メタバーコーディングって何? 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム
メタバーコーディングって何? 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列
メタバーコーディングって何? 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列生物種名
メタバーコーディングって何? 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列生物種名 
生物相の把握
メタバーコーディングって何? 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列生物種名 
生物相の把握 
海水に溶け出た魚類のDNA 
から、魚類相を把握できる 
(Thomsen et al. 2012)
メタバーコーディングって何? 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列生物種名 
生物相の把握 
植物の根に共生する真菌相 
を把握できる 
(Toju et al. 2013)
メタバーコーディングのポジティブスパイラル
メタバーコーディングのポジティブスパイラル 
メタバーコーディング
メタバーコーディングのポジティブスパイラル 
メタバーコーディング 
未知生物発見
メタバーコーディングのポジティブスパイラル 
メタバーコーディング 
未知生物発見 
従来法による記載分類
メタバーコーディングのポジティブスパイラル 
メタバーコーディング 
未知生物発見 
従来法による記載分類 
DNA データベース充実
メタバーコーディングのポジティブスパイラル 
メタバーコーディング 
未知生物発見 
従来法による記載分類 
新種探索 
生物相把握 
能力向上 
DNA データベース充実
メタバーコーディングのポジティブスパイラル 
メタバーコーディング 
容易にコピー・検索できるDNA 情報 
に基づいているため、未記知載生が物進発み見 
、 
データベースが充実するほど 
新種探索・生物相把握能力が向上する 
従来法による記載分類 
新種探索 
生物相把握 
能力向上 
DNA データベース充実
メタバーコーディングのプロセス 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列生物種名
メタバーコーディングのプロセス 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列生物種名 
ちょっと前 
PCRで特定の遺伝子座を増幅 
サンガー法で塩基配列解読
メタバーコーディングのプロセス 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列生物種名 
最近 
PCRで特定の遺伝子座を増幅 
同時にサンプル識別用タグ配列付加 
多サンプルを混合してNGSで解読
メタバーコーディングのプロセス 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列生物種名 
ちょっと前 
近縁既知配列と多重整列 
分子系統樹推定
メタバーコーディングのプロセス 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列生物種名 
最近 
タグ配列に基いて由来サンプルを特定 
     … demultiplexing 
   ……… quality-trimming 
 …………… quality-filtering 
   ……… denoising 
   ……… chimera removal 
    …… clustering 
     … barcoding 
配列から低品質な部位を除去 
低品質な配列を除去 
ノイズの多そうな配列を除去 
キメラと思われる配列を除去 
類似度n%以上の配列をまとめる 
類似する既知配列からホスト生物を推定
メタバーコーディングのプロセス 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列生物種名 
タグ配列に基いて由来サンプルを特定 
     … demultiplexing 
   ……… quality-trimming 
 …………… quality-filtering 
   ……… denoising 
   ……… chimera removal 
    …… clustering 
     … barcoding 
配列から低品質な部位を除去 
低品質な配列を除去 
ノイズの多そうな配列を除去 
キメラと思われる配列を除去 
類似度n%以上の配列をまとめる 
類似する既知配列からホスト生物を推定 
Claident 
http://www.claident.org/ 
最近 
mothur 
QIIME 
がよく使われている
メタバーコーディングのプロセス 
土壌 
海水 
淡水 
未消化物 
糞 
遺骸 
生物体 
など 
メタゲノム塩基配列生物種名 
タグ配列に基いて由来サンプルを特定 
     … demultiplexing 
   ……… quality-trimming 
 …………… quality-filtering 
   ……… denoising 
   ……… chimera removal 
    …… clustering 
     … barcoding 
配列から低品質な部位を除去 
低品質な配列を除去 
ノイズの多そうな配列を除去 
キメラと思われる配列を除去 
類似度n%以上の配列をまとめる 
類似する既知配列からホスト生物を推定 
Claident 
http://www.claident.org/ 
最近 
mothur 
QIIME 
がよく使われている
クラスタリング
single-linkage とcomplete-linkage
single-linkage とcomplete-linkage 
single-linkage clustering
single-linkage とcomplete-linkage 
single-linkage clustering 
閾値より類似度が高い配列の組 
が同じクラスタにまとまる
single-linkage とcomplete-linkage 
single-linkage clustering 
閾値より類似度が高い配列の組 
が同じクラスタにまとまる 
閾値より類似度が低い配列の組 
が含まれていても構わない
single-linkage とcomplete-linkage 
single-linkage clustering complete-linkage clustering
single-linkage とcomplete-linkage 
single-linkage clustering complete-linkage clustering 
閾値より類似度が高い配列の組 
が同じクラスタにまとまるが、 
閾値より類似度が低い配列の組 
が含まれないように分割される
95% の閾値では、90% 一致でもまとまることがある 
(complete-linkage の場合。single-linkage なら0% ですらあり得る)
95% の閾値では、90% 一致でもまとまることがある 
(complete-linkage の場合。single-linkage なら0% ですらあり得る)
95% の閾値では、90% 一致でもまとまることがある 
(complete-linkage の場合。single-linkage なら0% ですらあり得る) 
5% 
5%
95% の閾値では、90% 一致でもまとまることがある 
(complete-linkage の場合。single-linkage なら0% ですらあり得る) 
5% 
5% 
代表配列を中心とする 
半径5% 距離内の 
配列がまとめられる
読み間違い 
の除去
読み間違いのパターンは無数だが、完璧な読み取りは一通り
読み間違いのパターンは無数だが、完璧な読み取りは一通り 
真の配列 
読み間違いがない配列 
読み間違いがある配列1 
読み間違いがある配列2 
読み間違いがある配列3 
ATAGCTATCGGCTCTATATATATCGGCTA 
............................. 
..........-.................. 
...................T......... 
.........................-...
読み間違いのパターンは無数だが、完璧な読み取りは一通り 
読み間違いがない配列のリード数 
≫ 
読み間違いがある配列のうちの1 種類のリード数 
真の配列 
読み間違いがない配列 
読み間違いがある配列1 
読み間違いがある配列2 
読み間違いがある配列3 
ATAGCTATCGGCTCTATATATATCGGCTA 
............................. 
..........-.................. 
...................T......... 
.........................-...
読み間違いのパターンは無数だが、完璧な読み取りは一通り 
読み間違いがない配列のリード数配列は似ている 
読み間違いがある配列のうちの1 種類のリード数 
真の配列 
読み間違いがない配列 
読み間違いがある配列1 
読み間違いがある配列2 
読み間違いがある配列3 
≫ 
ATAGCTATCGGCTCTATATATATCGGCTA 
............................. 
..........-.................. 
...................T......... 
.........................-...
読み間違いのパターンは無数だが、完璧な読み取りは一通り 
読み間違いがない配列のリード数配列は似ている 
≫ 
読み間違いがある配列のうちの1 種類のリード数 
たくさんある配列に非常によく似たまれな配列 
を読み間違いがある配列とみなして除去(Li et al. 2012)
読み間違いのパターンは無数だが、完璧な読み取りは一通り 
読み間違いがない配列のリード数配列は似ている 
≫ 
読み間違いがある配列のうちの1 種類のリード数 
100% 除去できるわけではない 
たくさんある配列に非常によく似たまれな配列 
を読み間違いがある配列とみなして除去(Li et al. 2012)
キメラ除去
キメラはPCR の2 サイクル目以降に生成される
キメラはPCR の2 サイクル目以降に生成される 
1 サイクル目 
熱変性アニーリング伸長 
2 サイクル目以降 
熱変性アニーリング伸長
キメラはPCR の2 サイクル目以降に生成される 
1 サイクル目 
熱変性アニーリング伸長 
2 サイクル目以降 
非キメラのみ 
熱変性アニーリング伸長
キメラはPCR の2 サイクル目以降に生成される 
1 サイクル目 
熱変性アニーリング伸長 
2 サイクル目以降 
非キメラのみ 
熱変性アニーリング伸長 
キメラ生成
キメラはPCR の2 サイクル目以降に生成される 
キメラ配列の親配列のリード数 
> 
キメラ配列のうちの1 種類のリード数
キメラはPCR の2 サイクル目以降に生成される 
キメラ配列の親配列のリード数 
キメラ配列のうちの1 種類のリード数 
親配列1 
親配列2 
キメラ配列1 
> 
キメラは親配列の 
継ぎ接ぎ
キメラはPCR の2 サイクル目以降に生成される 
キメラ配列の親配列のリード数 
キメラ配列のうちの1 種類のリード数 
親配列1 
親配列2 
キメラ配列1 
> 
キメラは親配列の 
継ぎ接ぎ 
上の条件を満たす配列をキメラとみなして除去 
(Edgar et al. 2011)
キメラはPCR の2 サイクル目以降に生成される 
キメラ配列の親配列のリード数 
キメラ配列のうちの1 種類のリード数 
親配列1 
親配列2 
100% 除去できるわけではない 
キメラ配列1 
> 
キメラは親配列の 
継ぎ接ぎ 
おそらく読み間違いの除去より困難 
上の条件を満たす配列をキメラとみなして除去 
(Edgar et al. 2011)
DNA 
→分類情報
DNA バーコーディングの2 つのシチュエーション
DNA バーコーディングの2 つのシチュエーション 
● 候補の種は全種記載済
DNA バーコーディングの2 つのシチュエーション 
● 候補の種は全種記載済 
● 候補の種は全種バーコード配 
列をデータベースに登録済
DNA バーコーディングの2 つのシチュエーション 
● 候補の種は全種記載済 
● 候補の種は全種バーコード配 
列をデータベースに登録済 
● 候補の種に新種含む可能性
DNA バーコーディングの2 つのシチュエーション 
● 候補の種は全種記載済 
● 候補の種は全種バーコード配 
列をデータベースに登録済 
● 候補の種に新種含む可能性 
● 候補の種の一部でバーコード 
配列がデータベースに未登録
DNA バーコーディングの2 つのシチュエーション 
● 候補の種は全種記載済 
● 候補の種は全種バーコード配 
列をデータベースに登録済 
● 候補の種に新種含む可能性 
● 候補の種の一部でバーコード 
配列がデータベースに未登録 
必ず 
既知のいずれかの種 
と同定される
DNA バーコーディングの2 つのシチュエーション 
● 候補の種は全種記載済 
● 候補の種は全種バーコード配 
列をデータベースに登録済 
● 候補の種に新種含む可能性 
● 候補の種の一部でバーコード 
配列がデータベースに未登録 
必ず 
既知のいずれかの種 
と同定される 
既知のいずれでもない 
既知のいずれか不明 
があり得る
DNA バーコーディングの2 つのシチュエーション 
● 候補の種は全種記載済 
● 候補の種は全種バーコード配 
列をデータベースに登録済 
● 候補の種に新種含む可能性 
● 候補の種の一部でバーコード 
配列がデータベースに未登録 
必ず 
既知のいずれかの種 
と同定される 
既知のいずれでもない 
既知のいずれか不明 
があり得る 
データベース内の最も似ている配列 
の持ち主と同種と判定すればよい
DNA バーコーディングの2 つのシチュエーション 
● 候補の種は全種記載済 
● 候補の種は全種バーコード配 
列をデータベースに登録済 
● 候補の種に新種含む可能性 
● 候補の種の一部でバーコード 
配列がデータベースに未登録 
必ず 
既知のいずれかの種 
と同定される 
既知のいずれでもない 
既知のいずれか不明 
があり得る 
データベース内の最も似ている配列 
の持ち主と同種と判定すればよい
新規準(Tanabe and Toju 2013)
新規準 
(Tanabe and Toju 2013) 
問い合わせ配列と最近隣配列間の変異量
新規準 
(Tanabe and Toju 2013) 
問い合わせ配列と最近隣配列間の変異量 
< 
同定結果分類群内の最大変異量
イメージ図 
既知配列B 
既知配列A 
配列空間 
問い合わせ配列
イメージ図 
既知配列B 
既知配列A 
属genus Ω 
種species α 
問い合わせ配列 
属genus Ω 
種species β 
配列空間
イメージ図 
配列空間 
属Ω の変異の範囲 
既知配列B 
既知配列A 
問い合わせ配列
イメージ図 
属Ω の変異の範囲 
既知配列B 
既知配列A 
問い合わせ配列 
属genus Ω 
種species ? 
配列空間
Query-centric auto-k-NN (QCauto) method 
配列空間 
問い合わせ配列
Query-centric auto-k-NN (QCauto) method 
1.最近隣配列(A) を探し出して変異量(DQA) を算出 
配列空間 
問い合わせ配列 
A 
DQA
Query-centric auto-k-NN (QCauto) method 
1.最近隣配列(A) を探し出して変異量(DQA) を算出 
2.DAB>DQAを満たす配列のうち最もA に近い配列(B) を得る 
DQA 
A 
配列空間 
問い合わせ配列 
B
Query-centric auto-k-NN (QCauto) method 
1.最近隣配列(A) を探し出して変異量(DQA) を算出 
2.DAB>DQAを満たす配列のうち最もA に近い配列(B) を得る 
3.DQN≤DQBを満たすすべての配列(N) を得る 
A 
DQB 
N 
N 
問い合わせ配列 
N 
配列空間 
B
Query-centric auto-k-NN (QCauto) method 
1.最近隣配列(A) を探し出して変異量(DQA) を算出 
2.DAB>DQAを満たす配列のうち最もA に近い配列(B) を得る 
3.DQN≤DQBを満たすすべての配列(N) を得る 
4.A, B, N の全配列で共通する分類群を採用 
A 
DQB 
N 
N 
問い合わせ配列 
N 
配列空間 
B
Query-centric auto-k-NN (QCauto) method 
1.最近隣配列(A) を探し出して変異量(DQA) を算出 
問い合わせ配列と最近隣配列間の変異量 
2.DAB>DQAを満たす配列のうち最もA に近い配列(B) を得る 
3.DQN≤DQBを満たすすべての配列(N) を得る 
4.A, B, N の全配列で共通する分類群を採用 
< ≤ = 
A 
DQB 
N 
N 
問い合わせ配列 
N 
配列空間 
B 
DQA 
DQB 
同定結果分類群内の最大変異量
従来法との比較 Leave-One-Out Cross-Validation 
DNA データベース 
human ACATAGC… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT…
従来法との比較 Leave-One-Out Cross-Validation 
無作為に 
1 本抜く 
human ACATAGC… 
DNA データベース 
human ACATAGC… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT…
従来法との比較 Leave-One-Out Cross-Validation 
DNA データベース1 配列欠損したDNA データベース 
無作為に 
1 本抜く 
human ACATAGC… 
human ACATAGC… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT…
従来法との比較 Leave-One-Out Cross-Validation 
DNA データベース1 配列欠損したDNA データベース 
human ACATAGC… 
human のDNA を 
右のデータベースを使って 
プログラムで同定して 
正解かどうかを調べる 
無作為に 
1 本抜く 
human ACATAGC… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT…
従来法との比較 Leave-One-Out Cross-Validation 
DNA データベース1 配列欠損したDNA データベース 
human ACATAGC… 
human のDNA を 
右のデータベースを使って 
プログラムで同定して 
正解かどうかを調べる 
無作為に 
1 本抜く 
human ACATAGC… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT… 
抜き取ったDNA は 
プログラムからは 
未知のものになる
動物・植物・真菌・細菌でのLOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
動物・植物・真菌・細菌でのLOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified 
1NN は種レベルでも 
よく同定できるが 
誤同定多数
動物・植物・真菌・細菌でのLOOCV 結果 
NNC, QC は門~科までは 
1NN に次ぐ程度には同定可能 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
動物・植物・真菌・細菌でのLOOCV 結果 
我々はまだまだ属や種レベルの 
多様性は把握できていない 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
QCauto 法で種同定するには1 種当たり何個体のバーコード 
配列が必要か推定してみた
QCauto 法で種同定するには1 種当たり何個体のバーコード 
配列が必要か推定してみた 
● 50 個体以上のバーコード配列がある種を50 種抽出
QCauto 法で種同定するには1 種当たり何個体のバーコード 
配列が必要か推定してみた 
● 50 個体以上のバーコード配列がある種を50 種抽出 
● 選ばれた種で、以下を10 回試行し、種同定成功率を計算
QCauto 法で種同定するには1 種当たり何個体のバーコード 
配列が必要か推定してみた 
● 50 個体以上のバーコード配列がある種を50 種抽出 
● 選ばれた種で、以下を10 回試行し、種同定成功率を計算 
1.無作為に1 本配列を抽出( 重複なし)
QCauto 法で種同定するには1 種当たり何個体のバーコード 
配列が必要か推定してみた 
● 50 個体以上のバーコード配列がある種を50 種抽出 
● 選ばれた種で、以下を10 回試行し、種同定成功率を計算 
1.無作為に1 本配列を抽出( 重複なし) 
2.選ばれなかった配列からx 本を無作為抽出し、それ以外をデータ 
ベースから抹消
QCauto 法で種同定するには1 種当たり何個体のバーコード 
配列が必要か推定してみた 
● 50 個体以上のバーコード配列がある種を50 種抽出 
● 選ばれた種で、以下を10 回試行し、種同定成功率を計算 
1.無作為に1 本配列を抽出( 重複なし) 
2.選ばれなかった配列からx 本を無作為抽出し、それ以外をデータ 
ベースから抹消 
3. 1 の配列を2 のデータベースを用いてQCauto 法で同定
QCauto 法で種同定するには1 種当たり何個体のバーコード 
配列が必要か推定してみた 
x 個体のバーコード配列がデータベースにある状況をシミュレート 
● 50 個体以上のバーコード配列がある種を50 種抽出 
● 選ばれた種で、以下を10 回試行し、種同定成功率を計算 
1.無作為に1 本配列を抽出( 重複なし) 
2.選ばれなかった配列からx 本を無作為抽出し、それ以外をデータ 
ベースから抹消 
3. 1 の配列を2 のデータベースを用いてQCauto 法で同定
昆虫の種同定には1 種当たり15 個体の配列登録が必要
昆虫の種同定には1 種当たり15 個体の配列登録が必要 
昆虫の全種記載・全種登録は遠い 
ので、1 種当たり15 個体以上の 
登録が望ましい
脊椎動物の種同定には1 種当たり20 個体でも足りない?
脊椎動物の種同定には1 種当たり20 個体でも足りない? 
脊椎動物なら、 
全種記載・全種登録 
は昆虫よりずっと近い 
ので、1 種当たり1 個体で 
全種登録を目指す方がよい
まとめ 
● メタバーコーディングで水中の生物相把握が簡単になる…多分 
● メタバーコーディングで新種探索が迅速化できる 
● 配列クラスタリングのアルゴリズムに注意が必要 
● 読み間違いやキメラはプログラムでは完全には除去できない 
● 配列未登録種がある場合はQCauto 法で同定するのが安全 
● 分子同定用配列データベースは極めて不十分 
● 昆虫では1 種当たり15 個体の登録が必要 
● 脊椎動物は全種記載の上で全種各1 個体の登録がよい 
● 動植物プランクトンに関しては未検討
NN-centric auto-k-NN method 
配列空間 
問い合わせ配列
NN-centric auto-k-NN method 
1.最近隣配列(A) を探し出して変異量(DQA) を算出 
配列空間 
問い合わせ配列 
A 
DQA
NN-centric auto-k-NN method 
1.最近隣配列(A) を探し出して変異量(DQA) を算出 
2.DAB>DQAを満たす配列のうち最もA に近い配列(B) を得る 
DQA 
A 
配列空間 
問い合わせ配列 
B
NN-centric auto-k-NN method 
1.最近隣配列(A) を探し出して変異量(DQA) を算出 
2.DAB>DQAを満たす配列のうち最もA に近い配列(B) を得る 
3.DAN≤DABを満たす全ての配列(N) を得る 
DAB 
A 
B 
N 
N 
N 
配列空間 
問い合わせ配列
NN-centric auto-k-NN method 
1.最近隣配列(A) を探し出して変異量(DQA) を算出 
2.DAB>DQAを満たす配列のうち最もA に近い配列(B) を得る 
3.DAN≤DABを満たす全ての配列(N) を得る 
4.A, B, N の全配列で共通する分類群を採用 
DAB 
A 
B 
N 
N 
N 
配列空間 
問い合わせ配列
NN-centric auto-k-NN method 
1.最近隣配列(A) を探し出して変異量(DQA) を算出 
2.DAB>DQAを満たす配列のうち最もA に近い配列(B) を得る 
3.DAN≤DABを満たす全ての配列(N) を得る 
4.A, B, N の全配列で共通する分類群を採用 
DAB 
A 
B 
N 
N 
N 
問い合わせ配列と最近隣配列間の変異量 
配列空間 
問い合わせ配列 
= 
DQA 
< DAB 
≤ 同定結果分類群内の最大変異量
誤同定の要因 
● 見かけ上の誤同定 
● 問い合わせ配列の同定情報が間違っている 
● 既知配列の同定情報が間違っている 
● 分類体系が系統関係を反映していない 
● 本当の誤同定 
● バーコード領域がincomplete lineage sorting や浸透交雑・水 
平伝播によって種の系統関係を反映していない 
● 変異量の指標(BLAST raw score) が不適 
● 規準が不適
全分類群全遺伝子座でのLOOCV 結果 
属レベルが最も 
誤同定が多い 
correctly identified incorrectly identified cannot identified but incorrectly identified at higher-level cannot identified
属レベルで誤同定が多いのは何故か? 
● 種を記載するとき、無理にでも属は指定する必要がある 
● 系統関係と整合的でない分類群が属で設立されやすいのでは? 
● 正しくない属に入れられてしまう種も多いのでは?
誤同定の要因 
● 見かけ上の誤同定 
● 問い合わせ配列の同定情報が間違っている 
● 既知配列の同定情報が間違っている 
● 分類体系が系統関係を反映していない 
● 本当の誤同定 
● バーコード領域がincomplete lineage sorting や浸透交雑・水 
平伝播によって種の系統関係を反映していない 
● 変異量の指標(BLAST raw score) が不適 
● 規準が不適 
「属レベルが最も誤同定が多い」 
のは、これが多いことを示している?
複数の同定結果を優先順位を付けて統合する 
● 複数の既知配列データベースでの同定結果 
● 種以下まで情報がある既知配列のみのデータベースでの同定結果 
● 科以下まで情報がある既知配列のみのデータベースでの同定結果 
● 厳しい制約下の同定結果と制約を緩めた同定結果 
● 類似配列の厳密一致分類群を採用した同定結果 
● 類似配列の90% 多数決合意分類群を採用した同定結果 
● 複数の遺伝子座での同定結果 
● 遺伝子座A の配列での同定結果 
● 遺伝子座B の配列での同定結果
複数の同定結果を優先順位を付けて統合する 
優先度綱目科属種 
高哺乳綱霊長目ヒト科 
低哺乳綱霊長目ヒト科ヒト属ヒト 
綱目科属種 
統合結果哺乳綱霊長目ヒト科ヒト属ヒト
複数の同定結果を優先順位を付けて統合する 
優先度綱目科属種 
高哺乳綱霊長目ヒト科ゴリラ属ゴリラ 
低哺乳綱霊長目ヒト科ヒト属ヒト 
綱目科属種 
統合結果哺乳綱霊長目ヒト科ゴリラ属ゴリラ
複数の同定結果を優先順位を付けて統合する 
優先度綱目科属種 
同哺乳綱霊長目ヒト科ゴリラ属ゴリラ 
同哺乳綱霊長目ヒト科ヒト属ヒト 
綱目科属種 
統合結果哺乳綱霊長目ヒト科
複数の同定結果を優先順位を付けて統合する 
優先度綱目科属種 
同哺乳綱霊長目ヒト科ゴリラ属ゴリラ 
同哺乳綱霊長目ヒト科ヒト属 
綱目科属種 
統合結果哺乳綱霊長目ヒト科ゴリラ属ゴリラ
動物COX1 でのno-LOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
動物COX1 でのLOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
細菌16S でのno-LOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
細菌16S でのLOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
真菌ITS でのno-LOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
真菌ITS でのLOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物matK でのno-LOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物matK でのLOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物rbcL でのno-LOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物rbcL でのLOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物trnH-psbA でのno-LOOCV 結果
植物trnH-psbA でのLOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
従来法との比較2 Leave-One-Order-Out CV 
無作為に 
1 本抜く 
human ACATAGC… 
DNA データベース 
human ACATAGC… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT…
従来法との比較2 Leave-One-Order-Out CV 
DNA データベース1 目の全配列欠損したDNA データベース 
無作為に 
1 本抜く 
human ACATAGC… 
human ACATAGC… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT… 
cow TACGTCT… 
cat GCTGTGT…
従来法との比較2 Leave-One-Order-Out CV 
DNA データベース1 目の全配列欠損したDNA データベース 
human ACATAGC… 
human のDNA を 
右のデータベースを使って 
プログラムで同定して 
正解かどうかを調べる 
無作為に 
1 本抜く 
human ACATAGC… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT… 
cow TACGTCT… 
cat GCTGTGT…
従来法との比較2 Leave-One-Order-Out CV 
DNA データベース1 目の全配列欠損したDNA データベース 
human ACATAGC… 
human のDNA を 
右のデータベースを使って 
プログラムで同定して 
正解かどうかを調べる 
無作為に 
1 本抜く 
human ACATAGC… 
chimp ACATTCT… 
cow TACGTCT… 
cat GCTGTGT… 
cow TACGTCT… 
cat GCTGTGT… 
抜き取ったDNA の 
「目」は 
プログラムからは 
未知のものになる
動物・植物・真菌・細菌でのLOOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
動物・植物・真菌・細菌でのLOOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-l phylum, cleavesls ではunidentified 
5NN, NNC, QC 
はよく似た結果
動物・植物・真菌・細菌でのLOOOCV 結果 
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified 
「既知の綱の未知の目」 
と正しく判定できた件数は 
QC>>NNC>>5NN
QCauto 法の性質 
● 多重整列が不要 
● 既知系統樹が不要 
● どの遺伝子座でも適用可能 
● どの分類群にも適用可能 
● 前処理に時間がかからない 
● 同定処理に時間がかからない 
● 理論的背景がある 
● 「既知の綱の未知の目」といった答えを正しく出す

メタバーコーディングのフレームワークとアルゴリズム