「統計・データ分析」特集(第1回)
2022-04-27
西本卓也 @24motz / @nishimotz
すごい広島 with Python [61]
2
6月25日 オープンセミナー2022@広島
• テーマ★ Re: エンジニアのための統計・データ分析入門
• 登壇者情報を更新しました!
• 斎藤 友樹さん
• [エンジニアのための]データ分析基盤入門 データ活用を促進する!
プラットフォーム&データ品質の考え方
• 平河 直也さん
• 広島県商工労働局イノベーション推進チーム
• H.K@Hiroshimaさん
• データサイエンティスト
3
ひろしまQuest e-Learning (SIGNATE)
• 広島県在住、または広島県出身の学生
• 無料の会員登録(ひろしまサンドボックス)
• 課題で体験
• データ分析
• 予測モデル作成
• 評価
• 手元に参考書が欲しくなる
• 何を読めばいいのか?
4
Pythonによるデータ分析入門 第2版
• pandas の作者が書いた本
• 原著はこれから第3版が出る
• 入門書ではない
5
新しいデータ分析の教科書
• 2018年出版
• PythonED データ分析試験の出題範囲
• 公式 Python と venv で環境作成
• Python 3.6
• 補足で Anaconda
• 数学の基礎
• ギリシャ文字、三角関数、確率と統計
• SIGNATE e-Learning に役立つのでは
6
無料模擬試験サイト PRIME STUDY
• データ分析試験(1から3まで)
• 名前とメールアドレス入力
• 制限時間 60分
• 教科書の細かいところまで
• 知識と注意力を問われる
7
これから模擬試験をやる人!!
• 60分、集中してやるべき
• 感想をお聞かせいただけると嬉しいです
• 点数は言わなくていいです
• ちなみに西本は。。。
• 1をやってみた
• 45分で終了(疲れた)
• 微妙な点数(やり直したい)
• 感想を踏まえてお話をします
• 他に喋れる人は?
8
Pythonの基礎
• 環境構築:pip, venv
• コーディング規約 PEP8
• 対話モード
• 内包表記、ジェネレーター式
• ファイル入出力:with 文
• 文字列操作:format メソッドなど
• 標準ライブラリ:re, logging, datetime, pickle, pathlib
>>> g = (x*x for x in range(100))
>>> type(g)
<class 'generator'>
>>> next(g), next(g), next(g)
(0, 1, 4)
9
余談 PEP 686
• 環境変数 PYTHONUTF8=1
• Python 3.15 からデフォルト有効
• 2026年10月
# こう教科書で教えている
with open("a.txt", "w", encoding="utf-8") as f:
f.write("こんにちはn")
# こうなるはず
with open("a.txt", "w") as f:
f.write("こんにちはn")
10
Jupyter Notebook
• 公式 Python からの環境構築と起動
• マジックコマンド
• %timeit
• %%timeit
11
Jupyter Notebook
• イントロスペクション(オライリー本)
• b = [1, 2, 3]
• b?
• または ?b
• 関数名?? → ソースコードを表示
• np.*load*? → 名前空間探索
• help(b) は Python 自体の機能
12
NumPy
• ndarray オブジェクト
• インデックスとスライス、再代入
• 配列を1次元に変換
• ravel は参照を返す、flatten はコピーを返す
• 乱数、差分、連結、分割、次元追加、meshgrid
• ユニバーサルファンクション、ブロードキャスト
• ドット積、判定、論理値
• 関数 np.sum(a) とメソッド a.sum() は内部的に同じ
13
pandas
• Series, DataFrame
• インデックス名、カラム名、loc / iloc
• 読み込み・書き込み
• to_html とか to_pickle とか
• 抽出、欠損値処理、連結
• 時系列データ
• resample = Grouper / date_range(freq)
• データ連結、基本統計量、values 属性
14
雑なまとめ
• 数値化と可視化
• データ分析の目的
• 勉強の手段でもある
15
機械学習
• 機械学習図鑑
• 仕事ではじめる機械学習 第2版
• あたらしい人工知能技術の教科書

220427-pydata 統計・データ分析 特集

Editor's Notes

  • #5 https://wesmckinney.com/book/
  • #10 https://methane.hatenablog.jp/entry/2022/04/26/Python_3.15%E3%81%8B%E3%82%89%E3%83%87%E3%83%95%E3%82%A9%E3%83%AB%E3%83%88%E3%81%AE%E3%82%A8%E3%83%B3%E3%82%B3%E3%83%BC%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0%E3%81%8CUTF-8%E3%81%AB%E3%81%AA%E3%82%8A