Rのloadingsパッケージの紹介(2023年).pdf

Rのloadingsパッケージの紹介
ver. 0.4.1 (2023)

メタボロームデータ解析のワークフロー
メタボロミクスでは、ケモメトリックス (化学でのデータサイエンス)で
用いられる多変量解析(主成分分析、PLS)が用いられている

一方で、重要な代謝物を選ぶ際にローディング(負荷量)が有効活用されていない
→ 主成分負荷量、PLS負荷量を活用するためのRのloadingsパッケージをご紹介

絶食マウス肝臓のメタボロームデータに対する主成分分析
-15 -10 -5 0 5 10 15
-15
-10
-5
0
5
10
15
First PC score (40.5132%)
Second
PC
score
(15.4444%) 通常飼育
マウスで低値(-)
絶食12時間
マウスで高値(+)
PC1
 通常飼育
 12時間絶食
12時間絶食で
低値を示す代謝物
12時間絶食で
高値を示す代謝物
(+)
(-)
主成分スコアによるデータの可視化ローディングを用いて
代謝物を選ぶ
通常飼育
(n=5)
11 12 13 14 1
21 22 23 24 2
1 2 3 4
p
p
n n n n np
x x x x x
x x x x x
x x x x x
 
 
 
 
 
 
 
12時間絶食
(n=5)
CE-TOFMS
282代謝物
10サンプル
t x1 x2 xp
= w1 w2 wp
+ +
…
+
第1主成分
スコア
代謝物1 代謝物2 代謝物p
w
主成分スコアは、各代謝物データを重みwを係数として足し合わせたもの
wは
重み係数
主成分係数
などと呼ばれる

主成分負荷量を用いた代謝物の選び方
6
主成分分析の結果主成分負荷量
実際は主成分係数ではなく、主成分スコアと各代謝物の相関係数で定義される主成分負荷量を
用いて代謝物を選ぶ
Yamamoto, H. et al. BMC Bioinformatics 15, 51 (2014).
12時間絶食で
12時間絶食で
問題. 上位何個の代謝物を選べばよいのか？
主成分係数
主成分スコア
12時間絶食で
12時間絶食で
主成分負荷量により統計的な基準(例えば強い相関である0.7やp-value)により、
重要な代謝物を選択可能。一方、主成分負荷量を計算可能なフリーのソフトウェアが少ない。
(SIMCAやMetaboAnalystでは主成分負荷量が計算できない)

Rのloadingsパッケージ
• RとRstudioのインストール
• R : https://www.r-project.org/
• Rstudio : https://posit.co/download/rstudio-desktop/
• loadingsパッケージのインストール
• install.packags(“loadings”)
• 主成分分析の実行、主成分負荷量の計算
• library(loadings)
• data(fasting)
• pca <- prcomp(fasting$X, scale=TRUE)
• pca <- pca_loading(pca)
https://cran.r-project.org/web/packages/loadings

酵母の時系列メタボロームデータへの適用 (2009年)
キシロースからエタノールを生産する酵母のメタボローム解析
Hiroyuki Yamamoto, Hideki Yamaji, Yuichiro Abe, Kazuo Harada, Danang Waluyo, Eiichiro Fukusaki, Akihiko Kondo,
Hiromu Ohno, Hideki Fukuda, "Dimensionality reduction for metabolome data using PCA, PLS, OPLS, and RFDA with
differential penalties to latent variables", Chemom. Intell. Lab. Syst., 98 (2009) 136-142.
(約15年前の研究です)
第1主成分
第2主成分
0h
8h
16h
96h
36h
60h
主成分分析平滑化主成分分析
第2主成分第1主成分
(○) native strain
(▽) strain adapted
under aerobic conditions
(□) strain adapted
under anaerobic conditions
主成分分析では経時変化が確認出来ず、新たに提案した平滑化主成分分析を用いることで経時変
化が確認できた。さらに条件の違い(馴化させた時とさせなかった時の違い)も確認できた
0h
8h
16h
36h
60h 96h
一方で、平滑化主成分分析では主成分負荷量を定義することが出来ず、統計的な基準で関連する
代謝物を選ぶことが出来なかった。

サンプルに順序があるときの主成分分析 OS-PCA (2021年)
2種類の酵母(BY4742、X2180)を2つの条件(培地にアミノ酸を含むかどうか)で培養し、
経時的にサンプリングした時の代謝ターンオーバー解析(3条件)
主成分分析
OS-PCA
補助変数のスコア
培地にアミノ酸含む
アミノ酸含まない
library(loadings)
data(turnover)
ospca <- os_pca(X,D,0.999)
ospca <- ospca_loading(ospca)
loadingsパッケージを用いた
OS-PCA、OS-PC負荷量の計算
主成分分析では、0hとそれ以外の違い、
または経時変化の様子は確認できてい
るが、3群全てが同じ傾向を示している
サンプルの順序を考慮したOS-PCAでは、培養条件の違い
(培地にアミノ酸を含む/含まない)で異なる傾向を示す
Yamamoto, H. et al, Metabolites (2021), 11, 149.
0h
崇城大中山さん、東京農工大津川さんとの共同研究
OS-PC1
OS-PC2
説明変数のスコア

OS-PC2と統計的に関連のある代謝物
(中略)
OS-PCA
Histidineの誘導体化
条件の違いが確認された第2主成分の主成分負荷量より、4つの統計的に有意なピーク
(Lysine_3TMS_Minor、 Lysine_4TMS_Major、Histidine、Peak-63)が確認された
OS-PC1
OS-PC2

OS-PC2と統計的に関連のある代謝物
(中略)
OS-PCA
Histidineの誘導体化
OS-PC1
OS-PC2
Nakayama, Y. et al., Novel Strategy for Non-Targeted Isotope-
Assisted Metabolomics by Means of Metabolic Turnover and
Multivariate Analysis, Metabolites 2014, 4, 722-739.
BY4742 with A.A
X2180 with A.A
X2180 without A.A
Histidine
Lysine
Histidine
条件の違いが確認された第2主成分の主成分負荷量より、4つの統計的に有意なピーク
(Lysine_3TMS_Minor、 Lysine_4TMS_Major、Histidine、Peak-63)が確認された

ここまでのまとめ (主成分分析、平滑化主成分分析)
• 主成分分析
• ローディングとは。主成分係数と主成分負荷量の違い
• 主成分負荷量を用いて、主成分スコアと関連する代謝物を選ぶ
• Rのloadingsパッケージで簡単に計算可能
• 平滑化主成分分析、OS-PCA
• 主成分分析では経時変化が上手く捉えられない
• 平滑化主成分分析を用いることで経時変化がうまく捉えることが出来る
• OS-PCAを用いることで、主成分分析と同様に主成分負荷量を用いて主成分スコア
と関連する代謝物を選ぶことが出来る

メタボロミクスでは、ケモメトリックス (化学でのデータサイエンス)で良く用い
られる主成分分析、Partial least squares (PLS)が非常によく用いられている
一方で、重要な代謝物を選ぶ際にローディング(負荷量)が有効活用されていない
→ 主成分負荷量、PLS負荷量を活用するためのRのloadingsパッケージをご紹介

PLSの解析例主成分分析との比較
高脂血症ウサギの肝臓のメタボローム解析
3群比較 : Wild type、高脂血症ウサギ、薬剤投与後の高脂血症ウサギ
正常
薬投与あり
薬投与なし
PLS
主成分分析
主成分分析の結果、主成分スコアで群間の差が表れなかったとき、
PLSが用いられることが多い
PC1
正常
薬投与あり
薬投与なし
PC2
PLS1
PLS2
Ooga T, Sato H, Nagashima A, Sasaki K, Tomita M, Soga T, Ohashi Y.,“Metabolomic anatomy of an
animal model revealing homeostatic imbalances in dyslipidaemia.”, Mol Biosyst. 2011 Apr;7(4):1217-23.
15
通常
(n=3)
11 12 13 14 1
21 22 23 24 2
1 2 3 4
p
p
n n n n np
x x x x x
x x x x x
x x x x x
 
 
 
 
 
 
 
高脂血症
スタチン投与
CE-TOFMS
170代謝物
9サンプル
高脂血症
(n=3)
(n=3)

PLSの2つのスコア、PLS負荷量
メタボロームデータ
X
Y
群情報
スコア
(説明変数)
スコア
(目的変数)
共分散
最大化
PLS係数は目的変数のスコアと各代謝物の相関係数に比例
→ PLS負荷量は目的変数のPLSスコアと各代謝物の相関係数
1 0 0
1 0 0
1 0 0
0 1 0
0 1 0
0 1 0
0 0 1
0 0 1
0 0 1
サンプル
各群
サンプル
代謝物
それぞれ3点が
重なっている
wx
wy
library(loadings)
data(whhl)
pls <- pls_svd(whhl$X,
whhl$Y)
pls <- pls_loading(pls)
loadingsパッケージを
用いたPLS負荷量の計算
Yamamoto H., Journal of Chemometrics, 31(3) (2017) e2883.
PLS係数

PLS-DAとその負荷量
w
Xw
YY'
X 
=
−
'
)
1
(
1
2
n
Xw
t =
スコア
=
X't
p
t't
• PLS
• スコアの直交化繰り返し
PLSとスコアの直交化の操作を繰り返し計算して
得られるスコアを用いるのがPLS-DA
'
= −
X X tp
ただし
PLS-DA
ローディング
PLS-DA、負荷量の計算
PLS-DAスコア
PLSと非常によく似た結果
PLS-DAの負荷量は、wではなくp(を変換した
値)が用いられる
PLSスコア
plsda <- pls_da(X,Y,2)
plsda <- plsda_loading(plsda)
(PLSの負荷量はw)

群に順序があるときのPLS-ROG
PLS-ROG
s
2
正常
薬投与あり
薬投与なし
理想的なパターン
PLS
正常
薬投与あり
library(loadings)
data(whhl)
plsrog <- pls_rog(X,Y,D,kappa)
plsrog <- plsrog_loading(plsrog)
PLS-ROG、PLS-ROG負荷量の計算
PLSでは群間差は確認できるものの、明確な群の順序をスコアに確認出来なかった
⇒ PLS-ROGスコアでは、より明確な群の順序を確認することが出来る
薬投与なし
正常
正常
薬投与あり
薬投与なし薬投与なし
薬投与あり
説明変数のスコア目的変数のスコア
Yamamoto H., Journal of Chemometrics, 31(3) (2017) e2883.

PLS-ROGによる膝OA重症度と関連するバイオマーカーの探索
膝OAの重症度との関連を確認
Partial least squares(PLS) 群に順序があるときのPLS-ROG
説明変数のスコア目的変数のスコア(PLS1) 説明変数のスコア目的変数のスコア
(PLS-ROG1)
第1成分の
PLS-ROG負荷量
から重要な代謝物
を選ぶ
Cystine
変形性膝関節症(膝OA)
(弘前大学整形外科佐々木英嗣先生作成資料より)
Sasaki E. et al, Arthritis Research & Therapy, 24, 145 (2022)

マルチセットPLS-ROG
20
JBDZ3
JBDZ3
JBDZ6
JBDZ2
JBDZ2
JBDZ6
First score
First score
Second
score
Second
score
Second
score
Group
Proteome Metabolome
群間差
(群の順序)
群間差(群の順序)を得るためには、群と各データ
もしくはデータ同士の結合の強さの設定が重要
プロテオーム
メタボローム
目的変数
First score
COVID-19のヒト血液のマルチオミックスデータを
マルチセットPLS-ROGを用いて再解析
(〇健常、△COVID-19軽症、□重症)
Yamamoto, H. ,"Multiset partial least squares with rank order of
groups for integrating multi-omics data", bioRxiv (2022)
tau <- rbind(c(0, 0.04, 0.48),c(0.04,0, 0.48),c(0.48, 0.48,0))
mplsrog <- multipls_rog(X,Y,tau,D,kappa = 0.999)
mplsrog <- multiplsrog_loading(mplsrog)
loadingsパッケージを用いたマルチセットPLS-ROGとその負荷量の計算

菌叢解析とメタボロームデータの統合解析
21
Clea
Cr
Slc
抗生物質
投与後
Clea
Cr
Slc
通常飼育
菌叢解析(PCoA) メタボローム(PCA)
PCoA1
PCoA2
PC1
PC2
菌叢解析の結果より、
PCoA1で抗生物質投与の有無
に関する群間差が確認できる
メタボローム解析の結果より、
PC1で抗生物質投与の有無
に関する群間差が確認できる
各群の位置関係は一致しない？
BMC microbiology, 18:188 (2018)
統合解析の結果、菌叢解析とメタボロー
ム解析の両方について、第1成分で抗生
物質投与の有無による違いが確認された
群の位置関係についても概ね一致してい
ることが確認できた
菌叢解析データメタボロームデータ
統合
解析
山本博之、片側カーネル主成分分析、Jxiv (2023)
https://doi.org/10.51094/jxiv.262
別々に
解析

全体のまとめ
• 主成分分析
• 主成分負荷量を用いて重要な代謝物を選ぶ
• 平滑化主成分分析、OS-PCA
• 主成分分析では経時変化が上手く捉えられない
• 平滑化主成分分析により経時変化がうまく捉えられる
• OS-PCAにより主成分負荷量を用いて重要な代謝物を選ぶことが出来る
• Partial least squares (PLS)
• 群情報を利用した解析、群に順序がある時のPLS-ROG
• マルチオミックス解析のためのマルチセットPLS-ROG
• 菌叢解析とメタボロームデータの統合解析
loadingsパッケージ
https://cran.r-project.org/
web/packages/loadings

Rのloadingsパッケージの紹介(2023年).pdf

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Rのloadingsパッケージの紹介(2023年).pdf