環境化学データ解析入門: 愛媛大講演資料 160728

環境化学のデータ解析
Twi$er: @siero5335
@Ehime_Univ. 20160728

注意
それなりにデータ解析について勉強はしましたが、独学
の上、解析の専門家ではないので背景、理論などには
間違いがある可能性があります。

使うときには鵜呑みにせず、自分でもある程度調べるよ
うにしてください。

目次
環境化学分野における多変量データ解析の必要性

R, Rstudio, EZRの紹介

データ読み込み, 編集: Rstudio

データ集計: summary

データの可視化: ggplot2, Plotly

検定: Welch’s t 検定, Brunner-Munzel 検定

統計モデル: 一般化線形モデル glm

機械学習: 主成分分析, caret

解析再現性, レポーティング: RMarkdown

背景
社会におけるデータ解析の重要性が上昇（ビッグデータ等）

意思決定の場における客観的な指標や、正確な将来予測
に基づいた行動を取らないと、解析結果を運用している組
織と戦えない

ちかごろでは大きいデータを持っている会社（検索、広告、
ソーシャルゲーム等）が活発に人材を収集

化学分析・機器メーカーなども少しづつ解析ができる人が必
要だと考えている空気を感じる

環境化学は総合的な学問
→ 色々なデータが得られる (濃度, 毒性, 時間, 場所...)

濃度1つをとっても多用な化学物質、異性体を対象にするた
め、データ量が増大

採取地域、個体情報、アウトカム、物性などが組み合わさる
ことで解析が複雑化

どこから手を付けたら良いのかよくわからない

謎の卒業生に謎のツッコミを受けるがよくわからない

　いきなり色々やるのは無理！
　ただでさえ測定やゼミで大変なのに厳しい

ある程度手順を作ればむしろ楽になるかも？

実験で忙しい学生のための
環境化学のデータ解析

Rを使う
ご存知R, 最新版はver 3.3.1
バージョンが古すぎると動かないパッケージがあったりす
るので、気がついたらたまに更新したほうが良い。
ここからダウンロード
h$ps://cran.r-project.org/
ベースになるプログラムなのでこれがないとこの後で
紹介するものも動いていくれない（EZRは動く？）

RstudioからRを使う
生のRはわりとそっけない
Rエディタを使えばコンソールに直打ちしなくて済むし、
解析結果も保存しておけるけどもうちょっと便利に使いたい
h$ps://www.rstudio.com/products/rstudio/
ここからダウンロード

RstudioからRを使う
さらに移動
OSに合ったバージョンをダウンロード

どう変わる？
・現在使用しているデータやパッケージの管理が容易

・作ったグラフのコピペが簡単

・コード補完が強力なのでミスタイプが減る

・作業記録を残しやすいので再現性が上がる

どう変わる？
・現在使用しているデータやパッケージの管理が容易

・作ったグラフのコピペが簡単

・コード補完が強力なのでミスタイプが減る

・作業記録を残しやすいので再現性が上がる
コマンド覚えるのは辛い場合は？

マウスで解析したい人のためのEZR
h$p://www.jichi.ac.jp/saitama-sct/SaitamaHP.ﬁles/statmed.html

これらを使えばある程度の解析ができる環境は整う

今回はRstudioをベースに解説
（マウス操作のEZRであれば見たらなんとなくわかると信じて）

データの読み込み
CSV, エクセルファイルいずれも読み込み可能
（Preview版: h3ps://www.rstudio.com/products/rstudio/download/preview/）
CSVファイルの読み込みが可能

道具は手に入ったけど何からすべき？
初手検定、統計モデリング、機械学習や！


データの分布・正規性は確認した？
なぜその因子を組み込んだ/組み込んでいないの？
欠損値・外れ値の影響はどう？
そもそもデータ解析で何を明らかにしたいの？


データの分布・正規性は確認した？
なぜその因子を組み込んだ/組み込んでいないの？
欠損値・外れ値の影響はどう？
そもそもデータ解析で何を明らかにしたいの？

目的をまず設定する必要がある
初めに集計・可視化してデータの特徴を見るべき

集計: summary() 関数
summary() 関数: () の中にデータセットの名前を入れて使う
今回のために作成したテストデータは下記にup済み
一部省略していることもありますがコード見ながら再現してもらえると幸いです。
h$ps://github.com/siero5335/test_data_PCB/blob/master/testdata.csv

最初に取り込んだ時には要素 (factor) で入っていて欲しいデータが
文字(character)で読み込まれているので下記コードでfactorにする

データセット名$要素名で各要素にアクセス可能

データセット名$要素名で各要素にアクセス可能
素早くTable用のデータを作ることができる

可視化: ggplot2 package
層になるデータを加えると図が更新
ggplot(データ名, aes(要素1, 要素2)) + geom_point()で散布図が書ける

可視化: ggplot2 package
思いつきで追加するのも簡単
さっきの図に + で加えるだけ

可視化: ggplot2 package, 散布図のメリット
外れ値・入力ミスの発見などにも向くの
で気になる要素についてはどんどん作
図する

→作図から仮説が得られることも

今回の場合は身長、体重が入れ替わっ
ている

そうでない部分では相関がありそうに見
える

一般的に男性の方が身長、体重高め

可視化: ggplot2 package, ヒストグラム
データの分布を可視化するならヒストグラム
層化も可能

可視化: corrplot package
相関解析の結果をまとめて確認したいという需要は多い

相関、相関係数を一気に表記

data_cor
<- testdata[, -c(1, 3, 7:9)]
#数値の列だけ抜き出す

M <- cor(data_cor,
method='spearman',
use='pairwise.complete.obs')
#methodの変更可能

corrplot.mixed(M,
order = 'hclust')
#近いクラスタを近くに
散布図行列を書くには: h$p://statmodeling.hatenablog.com/entry/sca$er-plot-matrix

正規性の検定
コルモゴロフ・スミルノフ検定: Kolmogorov-Smirnov test
ks.test(データ名,"pnorm",mean=mean(データ名),sd=sd(データ名))

シャピロ・ウィルク検定
shapiro.test(データ名)

どっちじゃないとだめと言われることはあんまりない。
コルモゴロフ・スミルノフ検定の場合、“pnorm”部分を
ppoisやpunifに変えるとポアソン分布や一様分布に変えて検定可
データセット名$要素名

正規性の検定
コルモゴロフ・スミルノフ検定: Kolmogorov-Smirnov test
ks.test(データ名,"pnorm",mean=mean(データ名),sd=sd(データ名))

シャピロ・ウィルク検定
shapiro.test(データ名)

サンプルサイズが大きい場合はシャピロ・ウィルク検定では違いがあ
まり出ず、逆の場合はコルモゴロフ・スミノルフ検定では違いが出ない
という感じ。
データセット名$要素名
StatsBeginner: 初学者の統計学習ノート: 正規性の検定の違い
h$p://statsbeginner.hatenablog.com/entry/2014/08/13/115744

手法正規性等分散性関数 Package
Student’s t 要要
t.test(group1, group2,
var.equal=T) 不要
Welch’s t 要不要
t.test(group1, group2,
var.equal=F) 不要
Mann-Whitney 不要要 wilcox.test(group1, group2) 不要
Brunner-Munzel 不要不要 brunner.munzel.test(x,y) library(lawstat)
検定: Welch’s t 検定, Brunner-Munzel 検定
ほくそ笑む:マイナーだけど最強の統計的検定 Brunner-Munzel 検定: h$p://d.hatena.ne.jp/hoxo_m/20150217/p1
Brunner-Munzel検定: h$p://oku.edu.mie-u.ac.jp/~okumura/stat/brunner-munzel.html
正規性のある場合の検定だとStudent’s t 検定, ない時だとMann-
Whitneyがしょっちゅう使われるが、等分散性が必要なことはあまり
知られてない。
Welch’s t 検定, Brunner-Munzel検定はあまり有名ではないが強力
な手法。使ってみてもいいかも？
理論の詳細は上記ブログに詳細。

相関と回帰は別のもの

相関: 2つの変数のバラつきを見る
スピアマン: cor(x, y, method="spearman")
ピアソン: cor.test(x, y, method="pearson")

単回帰: 一つの変数 xの値からyの値を予測
glm(Y~X1, data = データ名, family = 分布の名前(リンク関数))

重回帰: 複数の変数 xの値からyの値を予測
glm(Y~X1 + X2..., data = データ名, family =分布の名前(リンク関数))

とくにこれらを一般化線形モデルと呼ぶ
データ中の要素名



統計モデリング: 予測が目的ではあるが、従属変数が予測
にどのように関わっているのかというプロセスを解析するた
めにも使われる



なぜlmではなくglmなのか
正規性の確認でも見たように必ずしも目的変数が正規分布
に従うとは限らない

一般化線形モデルであれば正規分布に従わない目的変数
であっても、ある程度近似が可能になるためあてはまりがよ
くなる

久保拓弥: 講義のーと : データ解析のための統計モデリング
h3p://eprints.lib.hokudai.ac.jp/dspace/bitstream/2115/49477/4/kubostat2008c.pdf
目的変数（応答変数）の分布について気を使う

統計モデル: より発展的なモデリング
h3p://mc-stan.org/interfaces/rstan
ベイズモデルに入門するならRstanが熱い

h$p://www.slideshare.net/berobero11/glmglmm-36809949

マニュアル日本語翻訳プロジェクト進行中
h3ps://github.com/stan-ja/stan-ja

機械学習 (Machine Learning)
データ解析における研究課題の一つで、人間が自然に
行っている学習能力と同様の機能をコンピュータで実現
しようとする技術・手法


ある程度の数のサンプルデータ集合を対象に解析を行
い、そのデータから有用な規則、ルール、知識表現、判
断基準などを抽出する。なおデータ集合を解析するので
統計学との関連が深い。
　機械学習 (Machine Learning)


ある程度の数のサンプルデータ集合を対象に解析を行
い、そのデータから有用な規則、ルール、知識表現、判
断基準などを抽出する。なおデータ集合を解析するので
統計学との関連が深い。

例えば？
回帰分析・主成分分析・クラスター分析・ベイズ...
　機械学習 (Machine Learning)

教師あり・なし学習
教師なし学習
出力したいものが最初から決まっていない
主成分分析

教師あり学習
事前情報（教師の助言）にあわせてデータをフィッ
ティングする
回帰分析

主成分分析(Principle component analysis, PCA)
次元を縮小・データを可視化するための手法

形・色・重さ・模様・材質など様々な情報（次元）をもつ

形・色・重さ・模様・材質など様々な情報（次元）をもつ
影を見れば他の要素が消えて形だけの情報が残る

影しか見えないので何の影なのかは自分で考えないといけない

主成分分析の際には各変数の標準化が重要になる
標準化しない場合だと数値が大きく分散の絶対値が大きい因子の
寄与が大きくなってしまう

標準化なし
標準化あり
summaryの結果

標準化なし
標準化あり
上記黄色部分が各種成分の寄与率を表す
標準化あり、なしで結果が大きく変わっている
summaryの結果

標準化なし
標準化あり
上記黄色部分が各種成分の寄与率を表す
標準化あり、なしで結果が大きく変わっている

→図でも確認する
summaryの結果

(98.2%)
(1.04%)
(47.2%)
(15.7%)
標準化の有無でPlotの様子だけではなく、
寄与する因子のパターンも大きく異る

なしではPCB総濃度や濃度の高いPCB異性体しか目立たないが
ありでは第２主成分に身長, 体重, BMIが寄与していることが分かる

その他機械学習: caret package
重回帰分析 (MLR)

部分最小二乗法 (PLS)
→次元縮約により潜在変数を作成

Elastic net (Enet)
→正則化により不要なパラメータを削減

Support vector regression (SVR)
→非線形に対応: カーネル法（高次元に射影）

Gradient boosting Decision Tree (GBDT)
→非線形に対応: 多重更新重み付け決定木
線形回帰と
その応用



Elastic net (Enet)



目的変数を予測するのが目的
統計モデリングとの違いは？
線形回帰と
その応用



Elastic net (Enet)



従属変数の寄与よりも
予測の良さを良しとすることが多い
線形回帰と
その応用



Elastic net (Enet)



GCのリテンションタイム予測,
結合能・活性の予測等
線形回帰と
その応用

機械学習: caret package
データサイエンティスト養成読本R活用編 P45参照
データ全体を訓練データと検証データに分割して検証
することで、未知データに対応可能か確認
データ
訓練データ
検証データ
モデル構築
モデル検証
予測モデル
Cross validationで
訓練モデルの最適化

なんか難しいしめんどくさそう → 実際闇は深い
データ
訓練データ
検証データ
モデル構築
モデル検証
予測モデル
Cross validationで

データ
訓練データ
検証データ
モデル構築
モデル検証
予測モデル
Cross validationで
caret packageで多少改善？

h3p://topepo.github.io/caret/index.html
Kuhn M (2008) Building predic^ve models in R using the caret package. J
Stat So`w 28:1–26
さっきのフローを一括して行うためのpackage

機械学習: caret package, データ分割
createDataParggon() 関数
データの分割はランダムに行われるため、解析の再現性を重視
するのであればset.seed()関数で乱数を固定しておくこと

この後の解析においても乱数が絡むものであれば乱数を固定す
ることで再現性上がる
trainIndex <-
createDataParggon(
y, #目的変数, データセット$変数名で設定
gmes = 1, #何種類分割データを作るか
p = 0.5) #何対何で分割するか（0.5なら半分）

Train <- データ名[ trainIndex,] #分割データを入れる
Test <-データ名[-trainIndex,] #分けて残ったデータを入れる

機械学習: caret package, 学習の設定
trainControl 関数（とりあえずクロスバリデーションの設定のみ）

example_train <-
trainControl(method = "repeatedcv",
number = 5, #5-fold の場合, 1つ抜きならLOOCVと記述
repeats = 3, #分割の組をいくつ作るか, LOOCVなら不要
allowParallel = TRUE) #マルチコア計算, 早く計算が終る

後で説明するtrain関数内に上記条件を記述することも可能だが、
条件を変えて色々試したいことも多いので別に記述して保存してお
くのが吉

本当はもっと詳細な設定が可能、helpを参照のこと

機械学習: caret package, チューニング設定
学習の際に色々設定しないと思ったほど性能が出ない

例えば？
みんな大好きPLS -> 何次元目まで学習に使う？
Randomforest -> 木の深さをどのくらいにするか
最近流行りの深層学習 -> 死ぬほど設定するパラメータがある

（ある程度）効率良くパラメータを探索できる

Randomforestなら下記
test_grid <-
expand.grid(mtry = c(1:10)) #木の深さを1~10の間で探す

パラメータは手法ごとに違うのでcaretのHPで確認のこと
expand.grid 関数（caretにかぎらず使用可）

機械学習: caret package, 学習
train 関数

set.seed(71)
Fit <- train(Class ~ ., data = training,
method = ”rf“, #randomforestのとき
trControl = example_train, #trainControlで設定
tuneGrid = test_grid) #expand.gridで設定

上記を実行すると解析開始。誤差最小のmtryが入った結果
をFitに入れてくれる（正確には違うが…）

methodの中身を入れ替えると色々なモデルが学習可能

機械学習: caret package, 予測
testPred <- predict(Fit, tesgng)
新しいデータセットに対してさっき作ったモデルを当てはめ

実測値等と比較し、当てはまりの良さを確認する。

回帰分析なら
cor(testPred, tesgng$outcome)など

判別なら
confusionMatrix(testPred, tesgng$Class)など

他にもいろいろな指標はあるがまずはここから

ここを選んで.Rmdファイルを作る

#は目次、見出し
##のように増やすと章、節…み
たいな感じで文章を区切ること
ができる

```{r}

```
上記の括弧で囲んだ中身にR
のコードを書く

囲んだ外の部分には普通に日
本語を記入してメモや考察を
書くことも可能

解析用の実験ノートとして使う
と良い

ここを選ぶと.htmlファイルが出力される

出力されると右のような感じ

コードが灰色の、実行結果が白の枠の中に
出力される

{r pressure, echo=FALSE}でecho=FALSEと
しておくと、コードが出力されなくなる

データ・乱数が固定されていれば変わらない
結果がいつでも出力されるので、データ解析
の再現性を確保できる

Rの疑問に関する質問サイト
RおじさんがRの疑問に答えてくれる場
h3p://qiita.com/uri/items/5583e91bb5301ed5a4ba

下記サイトにメアドを登録すればO.K。登録者は他の参加者のアドレスを
見ることができるので気になるようなら捨てアドで良い
h3ps://r-wakalang.herokuapp.com

機械の体を手に入れるのよ、鉄郎!!!: h3p://www.slideshare.net/teramonagi/ss-52463319?
qid=c38069a7-51e0-425a-9a3d-945412d41e2b&v=&b=&from_search=3

おすすめ本（読んだもの）

もっと基礎から固めたいなら
線形代数と微積は簡単な本で良いので抑えておくと
統計や機械学習の理論についての本を読む時にとても楽
（楽というか抑えてないと読めない）

まとめ
Rstudioがおすすめ

まず集計、可視化していくところから始める

外れ値・誤入力などに注意

分布には気をつける

分布を気にし始めるとlm → glm → ベイズモデルになるか
も

機械学習は予測第一,
統計モデリングは従属変数の寄与も重視する

再現性・レポーティングにも気を使う

もっと色々な手法があるのでRで動かしてみると良い

おわりに
環境化学は総合的な学問

愛媛大の環境であれば化学分析・毒性についてはみんな卒
業時にはある程度の力量がついてくる

が、研究で生きていくなら本筋のテーマ以外にサブで個人的
に突き詰めていくテーマがないと、“総合的”の部分に対応し
にくくて苦しくなる可能性がある

今回は解析の話だったが、 bioinfo, 動物実験, 分析法開発
など、サブの武器は自分で好きな分野を選べば良い

今日は実験しんどいけど解析ならやる気分になる、とかであ
れば気分の切り替えにもなるしいいかも？

環境化学データ解析入門: 愛媛大講演資料 160728

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (14)

Similar to 環境化学データ解析入門: 愛媛大講演資料 160728

Similar to 環境化学データ解析入門: 愛媛大講演資料 160728 (12)

More from Akifumi Eguchi

More from Akifumi Eguchi (15)

環境化学データ解析入門: 愛媛大講演資料 160728