This document discusses analyzing text data from Japanese language transcripts of talks in R. It shows tokenizing the Japanese text into words using the MeCab library and creating bigram features by grouping the tokenized words into pairs. Some key steps include:
1. Tokenizing the Japanese transcripts into words and part-of-speech tags using RMeCabDF().
2. Creating a tokens dataframe with title, word, and POS columns.
3. Generating bigram features by grouping words by title and leading the next word.
This document discusses analyzing text data from Japanese language transcripts of talks in R. It shows tokenizing the Japanese text into words using the MeCab library and creating bigram features by grouping the tokenized words into pairs. Some key steps include:
1. Tokenizing the Japanese transcripts into words and part-of-speech tags using RMeCabDF().
2. Creating a tokens dataframe with title, word, and POS columns.
3. Generating bigram features by grouping words by title and leading the next word.
5. 絶食マウス肝臓のメタボロームデータに対する主成分分析
-15 -10 -5 0 5 10 15
-15
-10
-5
0
5
10
15
First PC score (40.5132%)
Second
PC
score
(15.4444%) 通常飼育
マウスで低値(-)
絶食12時間
マウスで高値(+)
PC1
通常飼育
12時間絶食
12時間絶食で
低値を示す代謝物
12時間絶食で
高値を示す代謝物
(+)
(-)
主成分スコアによるデータの可視化 ローディングを用いて
代謝物を選ぶ
通常飼育
(n=5)
11 12 13 14 1
21 22 23 24 2
1 2 3 4
p
p
n n n n np
x x x x x
x x x x x
x x x x x
12時間絶食
(n=5)
CE-TOFMS
282代謝物
10サンプル
t x1 x2 xp
= w1 w2 wp
+ +
…
+
第1主成分
スコア
代謝物1 代謝物2 代謝物p
w
主成分スコアは、各代謝物データを重みwを係数として足し合わせたもの
wは
重み係数
主成分係数
などと呼ばれる
15. PLSの解析例 主成分分析との比較
高脂血症ウサギの肝臓のメタボローム解析
3群比較 : Wild type、高脂血症ウサギ、薬剤投与後の高脂血症ウサギ
正常
薬投与あり
薬投与なし
PLS
主成分分析
主成分分析の結果、主成分スコアで群間の差が表れなかったとき、
PLSが用いられることが多い
PC1
正常
薬投与あり
薬投与なし
PC2
PLS1
PLS2
Ooga T, Sato H, Nagashima A, Sasaki K, Tomita M, Soga T, Ohashi Y.,“Metabolomic anatomy of an
animal model revealing homeostatic imbalances in dyslipidaemia.”, Mol Biosyst. 2011 Apr;7(4):1217-23.
15
通常
(n=3)
11 12 13 14 1
21 22 23 24 2
1 2 3 4
p
p
n n n n np
x x x x x
x x x x x
x x x x x
高脂血症
スタチン投与
CE-TOFMS
170代謝物
9サンプル
高脂血症
(n=3)
(n=3)
20. マルチセットPLS-ROG
20
JBDZ3
JBDZ3
JBDZ6
JBDZ2
JBDZ2
JBDZ6
First score
First score
Second
score
Second
score
Second
score
Group
Proteome Metabolome
群間差
(群の順序)
群間差(群の順序)を得るためには、群と各データ
もしくはデータ同士の結合の強さの設定が重要
プロテオーム
メタボローム
目的変数
First score
COVID-19のヒト血液のマルチオミックスデータを
マルチセットPLS-ROGを用いて再解析
(〇健常、△COVID-19軽症、□重症)
Yamamoto, H. ,"Multiset partial least squares with rank order of
groups for integrating multi-omics data", bioRxiv (2022)
tau <- rbind(c(0, 0.04, 0.48),c(0.04,0, 0.48),c(0.48, 0.48,0))
mplsrog <- multipls_rog(X,Y,tau,D,kappa = 0.999)
mplsrog <- multiplsrog_loading(mplsrog)
loadingsパッケージを用いたマルチセットPLS-ROGとその負荷量の計算