SlideShare a Scribd company logo
Rのloadingsパッケージの紹介
ver. 0.4.1 (2023)
メタボロームデータ解析のワークフロー
メタボロミクスでは、ケモメトリックス (化学でのデータサイエンス)で
用いられる多変量解析(主成分分析、PLS)が用いられている
メタボロームデータ解析のワークフロー
一方で、重要な代謝物を選ぶ際にローディング(負荷量)が有効活用されていない
→ 主成分負荷量、PLS負荷量を活用するためのRのloadingsパッケージをご紹介
主成分分析
絶食マウス肝臓のメタボロームデータに対する主成分分析
-15 -10 -5 0 5 10 15
-15
-10
-5
0
5
10
15
First PC score (40.5132%)
Second
PC
score
(15.4444%) 通常飼育
マウスで低値(-)
絶食12時間
マウスで高値(+)
PC1
 通常飼育
 12時間絶食
12時間絶食で
低値を示す代謝物
12時間絶食で
高値を示す代謝物
(+)
(-)
主成分スコアによるデータの可視化 ローディングを用いて
代謝物を選ぶ
通常飼育
(n=5)
11 12 13 14 1
21 22 23 24 2
1 2 3 4
p
p
n n n n np
x x x x x
x x x x x
x x x x x
 
 
 
 
 
 
 
12時間絶食
(n=5)
CE-TOFMS
282代謝物
10サンプル
t x1 x2 xp
= w1 w2 wp
+ +
…
+
第1主成分
スコア
代謝物1 代謝物2 代謝物p
w
主成分スコアは、各代謝物データを重みwを係数として足し合わせたもの
wは
重み係数
主成分係数
などと呼ばれる
主成分負荷量を用いた代謝物の選び方
6
主成分分析の結果 主成分負荷量
実際は主成分係数ではなく、主成分スコアと各代謝物の相関係数で定義される主成分負荷量を
用いて代謝物を選ぶ
Yamamoto, H. et al. BMC Bioinformatics 15, 51 (2014).
12時間絶食で
低値を示す代謝物
12時間絶食で
高値を示す代謝物
問題. 上位何個の代謝物を選べばよいのか?
主成分係数
主成分スコア
12時間絶食で
低値を示す代謝物
12時間絶食で
高値を示す代謝物
主成分負荷量により統計的な基準(例えば強い相関である0.7やp-value)により、
重要な代謝物を選択可能。一方、主成分負荷量を計算可能なフリーのソフトウェアが少ない。
(SIMCAやMetaboAnalystでは主成分負荷量が計算できない)
Rのloadingsパッケージ
• RとRstudioのインストール
• R : https://www.r-project.org/
• Rstudio : https://posit.co/download/rstudio-desktop/
• loadingsパッケージのインストール
• install.packags(“loadings”)
• 主成分分析の実行、主成分負荷量の計算
• library(loadings)
• data(fasting)
• pca <- prcomp(fasting$X, scale=TRUE)
• pca <- pca_loading(pca)
https://cran.r-project.org/web/packages/loadings
酵母の時系列メタボロームデータへの適用 (2009年)
キシロースからエタノールを生産する酵母のメタボローム解析
Hiroyuki Yamamoto, Hideki Yamaji, Yuichiro Abe, Kazuo Harada, Danang Waluyo, Eiichiro Fukusaki, Akihiko Kondo,
Hiromu Ohno, Hideki Fukuda, "Dimensionality reduction for metabolome data using PCA, PLS, OPLS, and RFDA with
differential penalties to latent variables", Chemom. Intell. Lab. Syst., 98 (2009) 136-142.
(約15年前の研究です)
第1主成分
第2主成分
0h
8h
16h
96h
36h
60h
主成分分析 平滑化主成分分析
第2主成分 第1主成分
(○) native strain
(▽) strain adapted
under aerobic conditions
(□) strain adapted
under anaerobic conditions
主成分分析では経時変化が確認出来ず、新たに提案した平滑化主成分分析を用いることで経時変
化が確認できた。さらに条件の違い(馴化させた時とさせなかった時の違い)も確認できた
0h
8h
16h
36h
60h 96h
一方で、平滑化主成分分析では主成分負荷量を定義することが出来ず、統計的な基準で関連する
代謝物を選ぶことが出来なかった。
サンプルに順序があるときの主成分分析 OS-PCA (2021年)
2種類の酵母(BY4742、X2180)を2つの条件(培地にアミノ酸を含むかどうか)で培養し、
経時的にサンプリングした時の代謝ターンオーバー解析(3条件)
主成分分析
OS-PCA
補助変数のスコア
培地にアミノ酸含む
アミノ酸含まない
library(loadings)
data(turnover)
ospca <- os_pca(X,D,0.999)
ospca <- ospca_loading(ospca)
loadingsパッケージを用いた
OS-PCA、OS-PC負荷量の計算
主成分分析では、0hとそれ以外の違い、
または経時変化の様子は確認できてい
るが、3群全てが同じ傾向を示している
サンプルの順序を考慮したOS-PCAでは、培養条件の違い
(培地にアミノ酸を含む/含まない)で異なる傾向を示す
Yamamoto, H. et al, Metabolites (2021), 11, 149.
0h
崇城大中山さん、東京農工大津川さんとの共同研究
OS-PC1
OS-PC2
説明変数のスコア
OS-PC2と統計的に関連のある代謝物
(中略)
補助変数のスコア
培地にアミノ酸含む
アミノ酸含まない
OS-PCA
Histidineの誘導体化
条件の違いが確認された第2主成分の主成分負荷量より、4つの統計的に有意なピーク
(Lysine_3TMS_Minor、 Lysine_4TMS_Major、Histidine、Peak-63)が確認された
OS-PC1
OS-PC2
説明変数のスコア
OS-PC2と統計的に関連のある代謝物
(中略)
補助変数のスコア
培地にアミノ酸含む
アミノ酸含まない
OS-PCA
Histidineの誘導体化
OS-PC1
OS-PC2
説明変数のスコア
Nakayama, Y. et al., Novel Strategy for Non-Targeted Isotope-
Assisted Metabolomics by Means of Metabolic Turnover and
Multivariate Analysis, Metabolites 2014, 4, 722-739.
BY4742 with A.A
X2180 with A.A
X2180 without A.A
Histidine
Lysine
Histidine
条件の違いが確認された第2主成分の主成分負荷量より、4つの統計的に有意なピーク
(Lysine_3TMS_Minor、 Lysine_4TMS_Major、Histidine、Peak-63)が確認された
ここまでのまとめ (主成分分析、平滑化主成分分析)
• 主成分分析
• ローディングとは。主成分係数と主成分負荷量の違い
• 主成分負荷量を用いて、主成分スコアと関連する代謝物を選ぶ
• Rのloadingsパッケージで簡単に計算可能
• 平滑化主成分分析、OS-PCA
• 主成分分析では経時変化が上手く捉えられない
• 平滑化主成分分析を用いることで経時変化がうまく捉えることが出来る
• OS-PCAを用いることで、主成分分析と同様に主成分負荷量を用いて主成分スコア
と関連する代謝物を選ぶことが出来る
Partial least squares
メタボロームデータ解析のワークフロー
メタボロミクスでは、ケモメトリックス (化学でのデータサイエンス)で良く用い
られる主成分分析、Partial least squares (PLS)が非常によく用いられている
一方で、重要な代謝物を選ぶ際にローディング(負荷量)が有効活用されていない
→ 主成分負荷量、PLS負荷量を活用するためのRのloadingsパッケージをご紹介
PLSの解析例 主成分分析との比較
高脂血症ウサギの肝臓のメタボローム解析
3群比較 : Wild type、高脂血症ウサギ、薬剤投与後の高脂血症ウサギ
正常
薬投与あり
薬投与なし
PLS
主成分分析
主成分分析の結果、主成分スコアで群間の差が表れなかったとき、
PLSが用いられることが多い
PC1
正常
薬投与あり
薬投与なし
PC2
PLS1
PLS2
Ooga T, Sato H, Nagashima A, Sasaki K, Tomita M, Soga T, Ohashi Y.,“Metabolomic anatomy of an
animal model revealing homeostatic imbalances in dyslipidaemia.”, Mol Biosyst. 2011 Apr;7(4):1217-23.
15
通常
(n=3)
11 12 13 14 1
21 22 23 24 2
1 2 3 4
p
p
n n n n np
x x x x x
x x x x x
x x x x x
 
 
 
 
 
 
 
高脂血症
スタチン投与
CE-TOFMS
170代謝物
9サンプル
高脂血症
(n=3)
(n=3)
PLSの2つのスコア、PLS負荷量
メタボロームデータ
X
Y
群情報
スコア
(説明変数)
スコア
(目的変数)
共分散
最大化
PLS係数は目的変数のスコアと各代謝物の相関係数に比例
→ PLS負荷量は目的変数のPLSスコアと各代謝物の相関係数
1 0 0
1 0 0
1 0 0
0 1 0
0 1 0
0 1 0
0 0 1
0 0 1
0 0 1
サンプル
各群
サンプル
代謝物
それぞれ3点が
重なっている
wx
wy
library(loadings)
data(whhl)
pls <- pls_svd(whhl$X,
whhl$Y)
pls <- pls_loading(pls)
loadingsパッケージを
用いたPLS負荷量の計算
Yamamoto H., Journal of Chemometrics, 31(3) (2017) e2883.
PLS係数
PLS-DAとその負荷量
w
Xw
YY'
X 
=
−
'
)
1
(
1
2
n
Xw
t =
スコア
=
X't
p
t't
• PLS
• スコアの直交化 繰り返し
PLSとスコアの直交化の操作を繰り返し計算して
得られるスコアを用いるのがPLS-DA
'
= −
X X tp
ただし
PLS-DA
ローディング
loadingsパッケージを用いた
PLS-DA、負荷量の計算
PLS-DAスコア
PLSと非常によく似た結果
PLS-DAの負荷量は、wではなくp(を変換した
値)が用いられる
PLSスコア
plsda <- pls_da(X,Y,2)
plsda <- plsda_loading(plsda)
(PLSの負荷量はw)
群に順序があるときのPLS-ROG
PLS-ROG
s
2
正常
薬投与あり
薬投与なし
理想的なパターン
PLS
正常
薬投与あり
library(loadings)
data(whhl)
plsrog <- pls_rog(X,Y,D,kappa)
plsrog <- plsrog_loading(plsrog)
loadingsパッケージを用いた
PLS-ROG、PLS-ROG負荷量の計算
PLSでは群間差は確認できるものの、明確な群の順序をスコアに確認出来なかった
⇒ PLS-ROGスコアでは、より明確な群の順序を確認することが出来る
薬投与なし
正常
正常
薬投与あり
薬投与なし 薬投与なし
薬投与あり
説明変数のスコア 目的変数のスコア
Yamamoto H., Journal of Chemometrics, 31(3) (2017) e2883.
PLS-ROGによる膝OA重症度と関連するバイオマーカーの探索
膝OAの重症度との関連を確認
Partial least squares(PLS) 群に順序があるときのPLS-ROG
説明変数のスコア 目的変数のスコア(PLS1) 説明変数のスコア 目的変数のスコア
(PLS-ROG1)
第1成分の
PLS-ROG負荷量
から重要な代謝物
を選ぶ
Cystine
変形性膝関節症(膝OA)
(弘前大学整形外科 佐々木英嗣先生 作成資料より)
Sasaki E. et al, Arthritis Research & Therapy, 24, 145 (2022)
マルチセットPLS-ROG
20
JBDZ3
JBDZ3
JBDZ6
JBDZ2
JBDZ2
JBDZ6
First score
First score
Second
score
Second
score
Second
score
Group
Proteome Metabolome
群間差
(群の順序)
群間差(群の順序)を得るためには、群と各データ
もしくはデータ同士の結合の強さの設定が重要
プロテオーム
メタボローム
目的変数
First score
COVID-19のヒト血液のマルチオミックスデータを
マルチセットPLS-ROGを用いて再解析
(〇健常、△COVID-19軽症、□重症)
Yamamoto, H. ,"Multiset partial least squares with rank order of
groups for integrating multi-omics data", bioRxiv (2022)
tau <- rbind(c(0, 0.04, 0.48),c(0.04,0, 0.48),c(0.48, 0.48,0))
mplsrog <- multipls_rog(X,Y,tau,D,kappa = 0.999)
mplsrog <- multiplsrog_loading(mplsrog)
loadingsパッケージを用いたマルチセットPLS-ROGとその負荷量の計算
菌叢解析とメタボロームデータの統合解析
21
Clea
Cr
Slc
抗生物質
投与後
Clea
Cr
Slc
通常飼育
菌叢解析(PCoA) メタボローム(PCA)
PCoA1
PCoA2
PC1
PC2
菌叢解析の結果より、
PCoA1で抗生物質投与の有無
に関する群間差が確認できる
メタボローム解析の結果より、
PC1で抗生物質投与の有無
に関する群間差が確認できる
各群の位置関係は一致しない?
BMC microbiology, 18:188 (2018)
統合解析の結果、菌叢解析とメタボロー
ム解析の両方について、第1成分で抗生
物質投与の有無による違いが確認された
群の位置関係についても概ね一致してい
ることが確認できた
菌叢解析データ メタボロームデータ
統合
解析
山本博之、片側カーネル主成分分析、Jxiv (2023)
https://doi.org/10.51094/jxiv.262
別々に
解析
全体のまとめ
• 主成分分析
• 主成分負荷量を用いて重要な代謝物を選ぶ
• 平滑化主成分分析、OS-PCA
• 主成分分析では経時変化が上手く捉えられない
• 平滑化主成分分析により経時変化がうまく捉えられる
• OS-PCAにより主成分負荷量を用いて重要な代謝物を選ぶことが出来る
• Partial least squares (PLS)
• 群情報を利用した解析、群に順序がある時のPLS-ROG
• マルチオミックス解析のためのマルチセットPLS-ROG
• 菌叢解析とメタボロームデータの統合解析
loadingsパッケージ
https://cran.r-project.org/
web/packages/loadings

More Related Content

What's hot

5分で分かる自己組織化マップ
5分で分かる自己組織化マップ5分で分かる自己組織化マップ
5分で分かる自己組織化マップ
Daisuke Takai
 
{tidytext}と{RMeCab}によるモダンな日本語テキスト分析
{tidytext}と{RMeCab}によるモダンな日本語テキスト分析{tidytext}と{RMeCab}によるモダンな日本語テキスト分析
{tidytext}と{RMeCab}によるモダンな日本語テキスト分析
Takashi Kitano
 
フリーソフトウェアを通じた多変量解析講習
フリーソフトウェアを通じた多変量解析講習フリーソフトウェアを通じた多変量解析講習
フリーソフトウェアを通じた多変量解析講習
h_yama2396
 
「生存時間分析」の報告事例
「生存時間分析」の報告事例「生存時間分析」の報告事例
「生存時間分析」の報告事例yokomitsuken5
 
Stanとdlmによる状態空間モデル
Stanとdlmによる状態空間モデルStanとdlmによる状態空間モデル
Stanとdlmによる状態空間モデル
Hiroki Itô
 
論文紹介 Amortized bayesian meta learning
論文紹介 Amortized bayesian meta learning論文紹介 Amortized bayesian meta learning
論文紹介 Amortized bayesian meta learning
Xiangze
 
理解して使うRNA Velocity解析ツール-最近のツール編
理解して使うRNA Velocity解析ツール-最近のツール編理解して使うRNA Velocity解析ツール-最近のツール編
理解して使うRNA Velocity解析ツール-最近のツール編
Mika Yoshimura
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析
Takahiro Kubo
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
Hiroshi Shimizu
 
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)
TeranishiKeisuke
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
いいからベイズ推定してみる
いいからベイズ推定してみるいいからベイズ推定してみる
いいからベイズ推定してみる
Makoto Hirakawa
 
Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」
Nagi Teramo
 
Stand alone self attention in vision models
Stand alone self attention in vision modelsStand alone self attention in vision models
Stand alone self attention in vision models
harmonylab
 
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知
Ken'ichi Matsui
 
未出現事象の出現確率
未出現事象の出現確率未出現事象の出現確率
未出現事象の出現確率
Hiroshi Nakagawa
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
 
機械学習の応用例にみる認知症診断と将来の発症予測
機械学習の応用例にみる認知症診断と将来の発症予測機械学習の応用例にみる認知症診断と将来の発症予測
機械学習の応用例にみる認知症診断と将来の発症予測
Momoko Hayamizu
 

What's hot (20)

5分で分かる自己組織化マップ
5分で分かる自己組織化マップ5分で分かる自己組織化マップ
5分で分かる自己組織化マップ
 
{tidytext}と{RMeCab}によるモダンな日本語テキスト分析
{tidytext}と{RMeCab}によるモダンな日本語テキスト分析{tidytext}と{RMeCab}によるモダンな日本語テキスト分析
{tidytext}と{RMeCab}によるモダンな日本語テキスト分析
 
フリーソフトウェアを通じた多変量解析講習
フリーソフトウェアを通じた多変量解析講習フリーソフトウェアを通じた多変量解析講習
フリーソフトウェアを通じた多変量解析講習
 
「生存時間分析」の報告事例
「生存時間分析」の報告事例「生存時間分析」の報告事例
「生存時間分析」の報告事例
 
Stanとdlmによる状態空間モデル
Stanとdlmによる状態空間モデルStanとdlmによる状態空間モデル
Stanとdlmによる状態空間モデル
 
論文紹介 Amortized bayesian meta learning
論文紹介 Amortized bayesian meta learning論文紹介 Amortized bayesian meta learning
論文紹介 Amortized bayesian meta learning
 
理解して使うRNA Velocity解析ツール-最近のツール編
理解して使うRNA Velocity解析ツール-最近のツール編理解して使うRNA Velocity解析ツール-最近のツール編
理解して使うRNA Velocity解析ツール-最近のツール編
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
 
基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)基礎からのベイズ統計学 3章(3.1~3.3)
基礎からのベイズ統計学 3章(3.1~3.3)
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
いいからベイズ推定してみる
いいからベイズ推定してみるいいからベイズ推定してみる
いいからベイズ推定してみる
 
Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」Rによるデータサイエンス:12章「時系列」
Rによるデータサイエンス:12章「時系列」
 
Stand alone self attention in vision models
Stand alone self attention in vision modelsStand alone self attention in vision models
Stand alone self attention in vision models
 
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知
 
未出現事象の出現確率
未出現事象の出現確率未出現事象の出現確率
未出現事象の出現確率
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
機械学習の応用例にみる認知症診断と将来の発症予測
機械学習の応用例にみる認知症診断と将来の発症予測機械学習の応用例にみる認知症診断と将来の発症予測
機械学習の応用例にみる認知症診断と将来の発症予測
 

Rのloadingsパッケージの紹介(2023年).pdf