20131123 tokyowebmining kenny

4,617 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,617
On SlideShare
0
From Embeds
0
Number of Embeds
3,315
Actions
Shares
0
Downloads
9
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

20131123 tokyowebmining kenny

  1. 1. 新人データサイエンティストの 成長途中日記 2013/11/23 Tokyowebmining #31 KennyISHIMURA 1
  2. 2. 目次 発表者自己紹介 今回の主人公Wさん 本発表の概要 成長日記Ⅰ ○月×日 Wさん、分析プロジェクトに参加! 成長日記ディスカッションⅠ 成長日記Ⅱ □月△日 Wさん統計学入門書をしばらく読む 成長日記ディスカッションⅡ 成長日記Ⅲ ◇月▽日 統計解析についての基礎知識 仮説検定についての理解 W氏、検定による分析ができるようになる 成長日記ディスカッションⅢ 仮説検定パターンについての理解 今回の主人公Wさんの成長っぷり 参考資料 2
  3. 3. 発表者自己紹介 某通信系グループ会社のSE 専門は通信サービスの検証・障害解析・管理手法の検討等 検証や障害解析では、確率統計や機械学習理論を使うので はなく専門知識(通信規格・RFC・ソフト/ハードウェア特 性)によるものが殆ど CCIE Routing and Switching No.25050 趣味はトライアスロン、ゴルフ等 学生時代は物理学科でしたが、 体育会系クラブに精を出し、 学業はぶっつりしておらず。。。 3
  4. 4. 今回の主人公Wさん 今回の成長日記の主人公は、私ではなく同僚のWさん 私と同じく通信サービスの検証・障害解析等が専門 土木系学部卒業 プログラミングはスクリプトやツール作成は一通り可能 (C,VBA,スクリプト言語,SQL…) 中学生のとき、個人電算クラブという名のパソコンクラブ を友人とやっていた 一緒にトライアスロン大会にリレーで参加(バイク担当) 写真:石垣島トライアスロン 身長165cm 体重90kg(ややメ○ボ) 4
  5. 5. 本発表の概要 W氏はふとしたことから現在私の行っているデータ分析の プロジェクトに配属された。(具体的な内容は、今回は個 人としての発表という立場からお話できません) W氏はデータ分析が専門でもなく、リーダーも経験不足で ある中、手探りでどのように成長していったのかを赤裸々 に発表!(他人事…) 既に完全成長されているTokyowebmining参加者の皆様とは、 初学者がデータサイエンティストとして順調に成長する為 に何が参考になるかを、ご自身の体験を思いだしながら ディスカッションして有意義な情報共有をしたい。 5
  6. 6. 成長日記Ⅰ ○月×日 Wさん、分析プロジェクトに参加! (ちょっとトライアスロンをしてみよう) 分析プロジェクト概要を説明され、統計解析や機械学習の技術を 使用するので勉強する必要があると知る! データ分析と聞いた時のW氏の反応 ①そういえば大学のときにちょっと授業でやりました。 ②研究室でSPSSを使って数量化理論をやる人がいました ⇒なんとなくいろいろなツールがあって、「数量化理論」 なる解析方法があるらしい。でも要するに大学の授業内容 はもう忘れました。 ○社会人になってその後実務で使わなければ、工学系 ○社会人になってその後実務で使わなければ、工学系 出身でも統計解析の知識は忘れていたりする。 出身でも統計解析の知識は忘れていたりする。 ○統計解析といってもどんなことをするのか全体像が 分からない。 ⇒大学の統計学の基礎単位用の教科書※を読んでもらいました! ※「統計学入門」東京大学教養学部統計学教室 編 http://www.utp.or.jp/bd/978-4-13-042065-5.html 内容「度数分布/確率変数/各種確率分布/標本/推定/検定/回帰分析」という統計学の基礎を数式つきでしっかり解説。 6
  7. 7. 成長日記ディスカッションⅠ 統計解析についての基礎知識 統計解析/データマイニングの最も重要なベースイメージは? ⇒とにかく対象とする値を確率変数とした確率密度関数(ヒスト グラム)を考える事が最も重要なベースイメージではないかと思 いました。(当たり前?) ①数式による定義(教科書的) ⇒厳密だが、数式からイメー ジを起こしにくい ②とにかくグラフ化 ⇒視覚化できて良いが、 何も考えずグラフを作ると 整理されず混乱する 確率密度関数(ヒストグラム) によるベースイメージ こ の 両 方 を 意 識 ⇒結局、その対象とする値はどのよ うな確率分布かを考えるという一般 形に落とせる。 対象とする値 ・基本統計量 ・検定統計量 ・作った変数 ・母集団パラメータ ・時系列 ⇒その後に何が独立事象で何が特徴 7 的な変数かを考える。 (トライアスロンのトレーニングの基本はLSD)
  8. 8. 成長日記ディスカッションⅠ 統計解析についての基礎知識 確率密度分布(ヒストグラム)をベースイメージとした解釈 仮説検定も要するに統計検定量を変数とした確率密度分布 難解な用語に騙されないで、 要は確率密度分布 検定統計量 時系列データも、確率密度分布か時系列に並べただけかを区別 して解釈 10 5 12 8 4 10 6 3 4 2 2 1 8 6 0 19:12 4 2 0 00:00 04:48 09:36 14:24 19:12 00:00 時系列に並べただけの散布図 ⇒整理されず混乱する可能性 0 0 2 4 6 8 10 12 14 16 18 20 22 0 1 2 4 時系列の発生数 単位期間別発生数 8 ⇒サンプル数同じで単 位時間あたり発生率が 一定なら均等分布 ⇒サンプル数同じで単 位時間あたり発生率が 一定ならポアソン分布
  9. 9. 成長日記ディスカッションⅠ 統計解析についての基礎知識 確率密度分布(ヒストグラム)をベースイメージとした解釈 ベイズ統計も要するに母集団のパラメータ自体が確率密度分布 を取るという考え方? μ 直接対象とする変数が確率密度分布を取り、 例:変数xは、正規分布N(μ,σ2) x その確率密度分布のパラメータ自体がまた確 率密度分布を取る μ 例:仮定した正規分布のパラメータμは、正規分布N(μ’,σ’2) 9
  10. 10. 成長日記ディスカッションⅠ 統計解析についての基礎知識 データ解析の仕事に最初に就いた時に知っていた統計解 析・データマイニングに関する知識は? 高校レベル知識 (場合の数・確率・二項/正規分布・相関・検定・推定・・・) 大学レベル以上の知識 (各種確率分布・Γ/Β関数・行列計算・最尤・多変量解析・分散共分 散・ベイズ統計・各種分析モデル・機械学習・・・) 実装知識 (R,Ruby,Python,Perl,Excel関数,VBA,SAS,SPSS,RDBMS,NoSQL,各種クラ ウドサービス,OSS・・・) 皆様、一番最初にデータ解析の仕事に就いたときに、学習 は何から始めましたか? 一番最初の基礎知識としてどのようなことが、どのように 役立ちましたか? 10
  11. 11. 成長日記Ⅱ □月△日 Wさん、統計学入門書をしばらく読む (LSDを始める) W氏はまずは統計学の入門書 大学の教科書 を一通り読みました。 氏はまずは統計学の入門書(大学の教科書 氏はまずは統計学の入門書 大学の教科書)を一通り読みました。 W氏コメント ①一通り読んで中身については大体分かりました。 ⇒検定については、ブラックボックス的理解に近い。 ○仮説検定は、重要概念なのでブラックボックス的理 ○仮説検定は、重要概念なのでブラックボックス的理 解だけではない方が良い。 解だけではない方が良い。 ⇒検定については、個別に作成したパワポで説明しました。 11
  12. 12. 成長日記ディスカッションⅡ 仮説検定についての理解 「有意水準5%にて帰無仮説H0を棄却することはできな い」等と、あまりに堅苦しく難しそうなのが仮説検定。初 心者として初めて学習する時にどのように理解するのが良 いのか。できればブラックボックス的理解は避けたいが。 ⇒統計検定量の確率密度分布グラフと共に、事実と検定結果 のクロス表を理解するのが良いのでは? 事実と検定結果のクロス表 ⇒検定の主テーマは、判断。 堅苦しい言い回しは置いておいて、判断(検定)結果に関して第一 に理解する。 事実 H0 H0 検定結果 確率 μ=1 正しい 1-α H1 第一種誤り α (有意水準) H1 μ≠1 第二種誤り β 正しい 1-β (検出力) 12 12
  13. 13. 成長日記ディスカッションⅡ 仮説検定についての理解 事実と検定結果のクロス表を少しカスタマイズして考える。事 実H1はいくつもの場合があると考える。 ⇒有意水準はあくまで事実がH0である時の検定結果が外れる率 に関して言っており、大事なのは事実がH1である時の検出力。 検出力は、あくまで事実がどのようかによって左右される。 ⇒検出力をコントロールできるのはサンプルサイズだが、キチ ンと理解して計算するのはちゃんと分かっていないと。 事実 H0 μ=1 H0 正しい 1-α 検定結果 確率 H1 第一種誤り α (有意水準) H11 μ=1.1 H12 μ=1.2 H13 μ=1.3 第二種誤り β1 第二種誤り β2 第二種誤り β3 正しい 1-β1 (検出力1) 正しい 1-β2(検出力2) 正しい 1-β3(検出力3) ・・・ 13 13
  14. 14. 成長日記ディスカッションⅡ 仮説検定についての理解 仮説検定について初心者が学習する時に気をつけたいポイ ントは? 皆様、仮説検定について何の理解が一番手こずりました か? 仮説検定について、どのようなことがどのように役立ちま したか? 14
  15. 15. 成長日記Ⅲ ◇月▽日 W氏、検定による分析ができるようになる (毎日3KMスイムを始める) Wさんは統計的検定について理解し、実データ分析に さんは統計的検定について理解し、実データ分析に さんは統計的検定について理解し、実データ分析 ついて検定を使えるようになりました。 Wさんコメント ①理屈は分かったけど、結局どういうときにどういう 検定をすればよいかはあまり良く分からない。 ⇒そりゃそうですね、式の変形による証明などは退屈。 ○検定対象は様々で、どんな時に何を使えばいいか、 分からない。 分からない。 15
  16. 16. 成長日記ディスカッションⅢ 仮説検定パターンについての理解 「パラメトリック検定」「ノンパラメトリック検定」「χ二 乗検定」「コルモゴロフ・スミルノフ検定」等といっぱい 検定手法があるらしい。どんな時に何の検定をやったらい いか混乱して分からない。 ⇒ずばり、「どんな時に何の検定をやったらいいか表」※を 用意しました。 あらゆるパターンでどんな時に何の検定をやったら良 いかわかる人は天才と割り切る ⇒各検定方法は、それぞれそれなりの工夫がある別物であり、 ゼロから導くことが普通の人にできるわけない。 実務で使いながら理屈を理解して応用できるようにしていくア プローチとする。 ※「44の例題で学ぶ統計的検定と推定の解き方」 内容「検定対象とする変数の統計量種類やサンプル数と検定する内容により、何という検定 を行えばよいかを表で整理して例つきで解説。 16 16
  17. 17. 成長日記ディスカッションⅢ 仮説検定パターンについての理解 どんな時に何の検定をやったらいいか大体分かる方、どの ように理解していますか? 自由度の概念は結構大事だと思うのですが、どのように理 解されていますか? 17
  18. 18. 今回の主人公Wさんの成長っぷり 統計解析の基本をマスターし、さらにR等を使用した機械 学習による分析もマスターしつつデータサイエンティスト として成長中! 写真:佐渡島トライアスロン スイムは全体6位! 身長165cm 体重55kg(体脂肪率一桁) ロングディスタンス(S:3.8km,B:180km,R:42km)年代別トライ アスロン日本代表として、北京での大会に出場予定! 前 後 18
  19. 19. 参考資料 1「統計学入門」 http://www.utp.or.jp/bd/978-4-13-042065-5.html 2「統計学のための数学入門30講」 http://www.asakura.co.jp/books/isbn/978-4-254-11633-5/ 3「44の例題で学ぶ統計的検定と推定の解き方」 http://ssl.ohmsha.co.jp/cgi-bin/menu.cgi?ISBN=978-4-274-06760-0 19

×