67. takemikamiʼs note ‒ http://takemikami.com/
環境構築⑤ Hiveの設定
• 以下のようにDBを作成
• 以下のようにmetastoreのDBを初期化
• hiveの起動を確認
Copyright (C) Takeshi Mikami. All rights reserved. 67
Hadoop/Sparkのシステム構成例・環境構築
Hadoop/Sparkの環境構成の流れを説明します
$ $HIVE_HOME/bin/schematool -dbType mysql -initSchema
$ mysql -u root
> create database (DB名) default character set 'latin1';
> create user '(ユーザ)'@'localhost' identified by '(パスワード)';
> grant select, insert, update, delete, drop, alter, create, index, references on (DB名).* to '(ユー
ザ)'@'localhost';
> grant create routine, alter routine on (DB名).* to '(ユーザ)'@'localhost';
$ $HIVE_HOME/bin/hive
68. takemikamiʼs note ‒ http://takemikami.com/
環境構築⑥ Anacondaのインスト−ル
• Anacondaをインストールします
Copyright (C) Takeshi Mikami. All rights reserved. 68
Hadoop/Sparkのシステム構成例・環境構築
Hadoop/Sparkの環境構成の流れを説明します
JOB
FILE
(HDFS)
NameNode
ResourceManager
DataNode
NodeManager
mariadb name data
hive
metastore
Hadoop Cluster
Python(Anaconda)
hive
pysparkjupyter
分析⽤マシン
メタ情報管理DB
Master node Slave node
job
meta
Anacondaをインストール
79. takemikamiʼs note ‒ http://takemikami.com/
基礎集計と可視化:度数分布表とヒストグラム
Copyright (C) Takeshi Mikami. All rights reserved. 79
モデル開発のためのツール
Pandasでのヒストグラムの出⼒⽅法を⽰します
※HDFS/Hiveに格納されたデータの
ヒストグラムを描画する場合は
SparkSQLでランダムサンプリングする
80. takemikamiʼs note ‒ http://takemikami.com/
基礎集計と可視化:要約統計量
• 要約統計量とはデータの特徴を代表して表す値(代表値)
• 平均値(mean) ※相加平均
全データを加算し、データ数で割った値
• 中央値(median)
データを順に並べて、ちょうど真ん中にある値
(データが偶数個の場合は真ん中にある2値の中間値)
• 最頻値(mode)
出現データ数が最も多い値(階級)
Copyright (C) Takeshi Mikami. All rights reserved. 80
モデル開発のためのツール
要約統計量について説明します
¯x =
1
n
nX
i=1
xi
81. takemikamiʼs note ‒ http://takemikami.com/
基礎集計と可視化:要約統計量
• 平均値(mean) ※相加平均
• 中央値(median)
• 最頻値(mode)
Copyright (C) Takeshi Mikami. All rights reserved. 81
モデル開発のためのツール
Hiveクエリによる要約統計量の求め⽅を⽰す
select avg(col) from tbl;
select percentile_approx(col, 0.5) from tbl;
select col, count(*) cnt from tbl group by col order by cnt desc limit 1;
82. takemikamiʼs note ‒ http://takemikami.com/
基礎集計と可視化:要約統計量
Copyright (C) Takeshi Mikami. All rights reserved. 82
モデル開発のためのツール
Pandasでの要約統計量の出⼒⽅法を⽰します
最⼤値・最⼩値
中央値・四分位点
平均値・標準偏差
83. takemikamiʼs note ‒ http://takemikami.com/
基礎集計と可視化:相関と散布図
• 2種類のデータの関係性把握のため「相関係数」「散布図」等を利⽤
• 相関係数 (Pearson coefficient of correlation)
2種類の値の共分散を、各標準偏差の積で割った値
2種類のデータの関係性の強さを⽰す指標
-1〜1の間の値をとり、以下の意味になる
「負の相関がある(=-1)〜相関がない(=0)〜正の相関がある(=1)」
• 散布図 (scatter plot)
2種類のデータをX・Y軸の値に対応させて点をプロットした図
Copyright (C) Takeshi Mikami. All rights reserved. 83
モデル開発のためのツール
相関と散布図について説明します
1
n
Pn
i=1(xi ¯x)(yi ¯y)
q
1
n
Pn
i=1(xi ¯x)
2
q
1
n
Pn
i=1(yi ¯y)
2
84. takemikamiʼs note ‒ http://takemikami.com/
基礎集計と可視化:相関と散布図
• 相関係数(pearson coefficient of correlation)
Copyright (C) Takeshi Mikami. All rights reserved. 84
モデル開発のためのツール
Hiveクエリによる相関係数の求め⽅を⽰す
select corr(col1, col2) from tbl;
85. takemikamiʼs note ‒ http://takemikami.com/
基礎集計と可視化:相関と散布図
Copyright (C) Takeshi Mikami. All rights reserved. 85
モデル開発のためのツール
Pandasでの散布図の出⼒⽅法を⽰します