Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Slide

64 views

Published on

slide

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Slide

  1. 1. 機械学習スキル向上のため Kaggleにチャレンジしてみた
  2. 2. Kaggleとは ・企業等が課題解決に用いる機械学習等のモデルを公募しているホームペー ジ(モデルコンペサイト) ・Kaggleアカウントがあれば、誰でも無料で参加可能 ・参加者同士でモデルの精度を競い合い、順位が発表される ・優勝者には賞金が支払われるコンペもある ・サイト内には参加者同士で意見交換できる場も設けられている
  3. 3. 挑戦したコンペ ・初心者向けの入門コンペ。 ・1912年に起きた豪華客船タイタニック号沈没がテーマ。 ・乗客の属性、生死の結果等の訓練データが与えられる。 ・どのような人物が生き残る可能性が高いのかを分析し、 生死の結果を予測するモデルを作成する。 PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin 1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.25 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Thayer)female 38 1 0 PC 17599 71.2833 C85 3 1 3 Heikkinen, Miss. Laina female 26 0 0 STON/O2. 31012827.925 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel)female 35 1 0 113803 53.1 C123 5 0 3 Allen, Mr. William Henry male 35 0 0 373450 8.05 訓練データ(抜粋)
  4. 4. さぁ挑戦だ!① 訓練データの前処理(機械が読めるデータ、高精度モデルを作れるデータに変 換)が苦労した。。 訓練データ SVM (機械学習アルゴ リズム) 生死判定 モデル 生死判定 モデル テストデータ 生死判定結果 提出! Kaggleより提供 Kaggleより提供 Sklearn・Numpyを使用
  5. 5. さぁ挑戦だ!② <データ前処理>Pandas・seaborn・matplotlibを使用 ・カラム毎に欠損値の有無を確認 (欠損値をカラムの中央値で埋める、欠損値が大多数のカラムは削除) ・機械が読めるデータ形式に変換(文字列→数値) ・データ間の相関性の確認 ⇒相関が強いデータが複数個ある場合、説明変数を1種類に絞りこむ 当該データを全て説明変数にすると、モデルの精度低下を引き起こすため 等々、 訓練データの前処理⇒モデル作成⇒モデル精度確認のサイクルを繰り返した。 PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin 1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.25 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Thayer)female 38 1 0 PC 17599 71.2833 C85 3 1 3 Heikkinen, Miss. Laina female 26 0 0 STON/O2. 31012827.925 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel)female 35 1 0 113803 53.1 C123 5 0 3 Allen, Mr. William Henry male 35 0 0 373450 8.05 訓練データ(抜粋)
  6. 6. 成績は…13,000人中10,931位でした
  7. 7. 上位成績者のコメント 丁寧な前処理・試行錯誤(何度も傾向分析・モデル作成) を粘り強く行う ・無暗に列・行を捨てない(有効な特徴を消さない) ・空白を埋める際の方針決定(最頻値、条件分岐) ・カラムの統合(ParchとSibを足し算など) 等々
  8. 8. 再度挑戦!…593位に
  9. 9. まとめ ・機械学習スキル向上には、色々な人の意見を取り入れ、実戦することが大 切だと思った。 ・今後も経験を積み、知識を深めていきたいと思うこの頃。(もっと自分の 時間が欲しい。。)
  10. 10. ご清聴頂きありがとうございました!

×