東大生向けデータ解析講座第2回 2017/12/29

東大生向けデータ解析講座第2回
2017/12/29
3idea Inc. CEO 西岡賢一郎

スケジュール
● 12/27(水)：データ解析のための環境構築(Python3, jupyter notebook等)
● 12/29(金)：numpy, pandasの操作
○ numpyによる演算
○ pandasのSeries, DataFrame
○ pandasによるグラフ作成
○ matplotlibを使ったグラフ作成
○ seabornを使ったグラフ作成
● 1/4(木)：sklearnを使った機械学習による予測
● 1/5(金)：応用（選択テーマ、若しく持ち込みテーマ）

numpy, pandas, matplotlib, seaborn
● numpy: 数値計算ライブラリ。高速演算が可能。数値計算に必要な関数を
多数提供
● pandas: 分析に特化したライブラリ。統計値を出したり、簡単にグラフを
作成するような関数を提供
● matplotlib: グラフの描画ライブラリ。基本的なグラフを作成するのに使用
する
● seaborn: matplotlibの拡張ライブラリ。簡単にきれいなグラフを作成する

numpy
● arrayの作成
● 特別なarrayの作り方（np.zeros(), np.ones(), np.eye(), np.arange()等）
● arrayの演算 (基本演算, dot)
● np.sqrt, np.exp
● slice
● np.random
● reshape, transpose, swapaxes, flatten
● numpyの統計計算（max(), min(), sum(), mean(), std()等）
● 逆行列、固有値、特異値分解なども簡単

axisについて
集計関数の方向を決める。どっち方向か忘れることが多いが「集計の方向」を
意識すれば間違えない
［［０，１］,
［２，３］,
［４，５］］
axis=0
行方向に集計
axis=1
列方向に集計

pandas
● Series, DataFrameの作成
● index, column, value等の取得
● 基本的なattributes, method(note参照)
● 特定の列, 行の取得（indexやcolumn、条件による指定）
● 列や行の代入、削除（del, dropna）
● Series, DataFrameの演算
● 統計計算 (describe)
● multi index, multi column
● pivot_table
● concat, merge, join
● 重複の取扱い
● groupby

PandasのSeriesとDataFrame
簡単に言うと...
Series: 配列にラベルのようなindexがついたようなもの。配列っぽいがdictの
ような呼び出し方ができる
DataFrame: 行列にラベルのようなindexとカラムがついたようなもの
2, 3, 4
[10, 20, 30]
a, b, c
1 [[10, 20, 30],
2 [30, 40, 50],
4 [ 1 , 2, 3]]
index
index
column

解析におけるデータの種類
量的データなのか質的データなのかを気にする。グラフ描画のときもこの違い
に気をつけていればハマりにくい
● 量的データ：演算・比較などが可能
● 質的データ：演算・比較などが不可能
量的データ質的データ

merge, join, concat
DataFrame, Seriesなどを結合するためのメソッド。初心者で慣れないうちは
mergeだけに絞ってやっておいたほうがいいかもしれない。違いを知るにはこ
のページ(http://sinhrks.hatenablog.com/entry/2015/01/28/073327) がおすすめ。
d1 = pd.DataFrame({'itemId': ['a', 'b'], 'x': ['foo', 'bar']})
d2 = pd.DataFrame({'userId': [1, 1, 2], 'itemName': ['a', 'a', 'b'],
'rating': [3, 4, 1]})
d1
itemId itemName
0 a foo
1 b bar
d2
itemId rating userId
0 a 3 1
1 a 4 1
2 b 1 2
pd.merge(d1, d2)
d1.merge(d2)
d2.merge(d1)
itemId itemName rating userId
0 a foo 3 1
1 a foo 4 1
2 b bar 1 2
共通となるカラム共通となるカラム

matplotlib, seaborn
● Pyplot
○ pyplotの基本(figure, legend, show, savefig, title, x(y)label等)
○ hist
○ scatter
○ bar
● Seaborn
○ distplot: kde, rug, hist,
○ lmplot: hue, ci, order
○ regplot: ci, order
○ kdeplot（一次元、二次元）: shade
○ boxplot: hue
○ violinplot: hue
○ pairplot: hue, kind=’reg’

グラフ描画
データをどうやって与えればいいかは、基本的にドキュメントを参照しながら
やるのがいいが、何が各軸(x軸, y軸)に対応したものになるかを考えると覚え
やすい
data.plot.scatter(‘sepal_length’, ‘petal_length’)
x軸 y軸

データセット
● sklearn dataset: http://scikit-learn.org/stable/datasets/index.html
○ load_iris
○ load_wine
○ load_boston
● seaborn dataset: https://github.com/mwaskom/seaborn-data
○ sns.load_dataset(‘iris’)
○ sns.load_dataset(‘flights’)
○ sns.load_dataset(‘tips’)
○ sns.load_dataset(‘titanic’)
● csvファイル
○ pd.read_csv(‘iris.csv’)
○ pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/wine-
quality/winequality-red.csv', delimiter=';')

Series/DataFrame関連のAttributes, Method
Attributes
● T
● iloc
● loc
● values
Method
● argmax/idxmax
● agg
● any
● append
● apply
● astype
● describe
● drop
● drop_duplicates
● dropna
● duplicated
● fillna
● head
● isin
● isnull
Method
● nlargest
● nunique
● pivot_table
● plot
● pop
● quantile
● replace
● reset_index
● set_index
● shape
● sort
● sort_index
● sort_values
● tail

PandasのMethod
Method
● sum
● max
● min
● mean
● medeian
● describe
● quantile
Pandas Method
● pivot_table
● crosstab
● merge
● concat
● get_dummies
Method
● to_dict
● to_csv
● to_excel

課題 slice, merge, groupby
● MovieLens
(https://grouplens.org/datasets/movielens/ ) から
Latest Datasetをダウンロード
● pandasのread_csvを使い評価データ(ratings.csv)と
映画情報データ(movies.csv)を読み込む
● groupbyとsize, sort_values, headを用いて評価数が
TOP10のmovieIdを取得
● 評価数TOP5のmovieIdに限定したratingsを作成
● 評価数TOP5のratingsをgroupbyとdescribeで統計情
報をだしてみる
● moviesとratingsをmerge

次回講義までの課題
seabornからtipsというデータを取得し、下記課題を実施。tipsデータセットは、total_bill (支払額), tip (チップ代), sex (性
別), smoker (喫煙者かどうか), day (何曜日か), time (時間帯), size (人数)でできており、初期化の段階でrate (total_billに対
するtipの割合) を計算しておく。
# データの初期化
import seaborn as sns
tips = sns.load_dataset('tips')
tips['rate'] = tips.tip / tips.total_bill
● tipsのうち、total_billとtipのデータだけ取得
● tipsのうち、tipが3以上4以下かつtimeがDinnerとなっているtipsを取得
● 性別別、喫煙別のtipの統計情報(最大・最小・四分位点・平均値)を調査
● tipの支払い上位5位のtipsを取得
● tipsの分布の分布のhistogramを作成
● x軸がtotal_bill、y軸がtipの散布図を作成
● (sex, smoke) = (Male, Yes), (Male, No), (Female, Yes), (Female, Noe)でrateの平均値をそれぞれを比較するための棒グラフを作成
● smokerの割合のpie chartを作成
● crosstab( https://pandas.pydata.org/pandas-docs/stable/generated/pandas.crosstab.html )を使って、smoker, dayを利用して、クロス
集計
● pivot_table( https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pivot_table.html )を使って、smokerとdayの平
均tipを計算
● pivot_tableを使って、smoker, dayのtipの標準偏差を計算

追加課題
年末年始の課題が早く終わった人のための追加課題
● stock.csvをread_csvで読み込む。その際1列目(Date)がindexとなるように読み込む。AAPL,
AMZN, GOOGLはそれぞれアップル、アマゾン、グーグルの株価である
● 初期状態ではindexが日時順となっていないので、indexを日付順にsortする。
● AAPL, AMZN, GOOGLがそれぞれ1年間で最高価格となった日のデータを抽出する
● AAPL, AMZN, GOOGLの株価のピアソン相関係数を求める
● 株価のDataFrameから線グラフをプロットしてみる。このグラフでは、y軸をlogスケールに変
更しておく
● 直前のデータのある日からの株価の変動(前回が80、今回が100の場合20)を線グラフにする
● 直前のデータのある日からの株価の％((前回が80、今回が100の場合1.25))を線グラフにする
● 7日分の株価の移動平均の線グラフを作成する
● ピアソン相関をヒートマップで描画する。縦軸、横軸は法人。色の濃さで相関の強さを示す

東大生向けデータ解析講座第2回 2017/12/29

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 東大生向けデータ解析講座第2回 2017/12/29

Similar to 東大生向けデータ解析講座第2回 2017/12/29 (20)

More from 西岡賢一郎

More from 西岡賢一郎 (20)