Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

続・本当にあった怖い話 クローラ編

1,617 views

Published on

PyLadiesTokyo 2nd Anniversary party

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

続・本当にあった怖い話 クローラ編

  1. 1. 続・本当にあった怖い話 - クローラ編 - Yukino Ikegami 2016/10/22 PyLadies Tokyo 2nd anniversary
  2. 2. 自己紹介  名前: 池上有希乃  Python歴: 6年  IO株式会社で みんなの顔文字キーボード 作ってます!
  3. 3. 背景  機械学習でWebページのカテゴリを推定したい  まずは学習用のデータ集めから  某検索APIを使ってWebページをtxt形式で収集する クローラを作って動かした  Pythonで100行くらいの簡単な使い捨てクローラ  時間がかかるので回したまま退社
  4. 4. 翌日……
  5. 5. 出社したら  会社のMacにログインできない!?  パスワード忘れたのかと何回やってもだめ  どういうこと!?
  6. 6. なんとトロイが!  収集したサイトのうち1つにトロイの木馬が仕込ん であった!  アンチウイルスソフトが反応して情シス部門が アカウントをロックしたらしい  しかもアダルトサイトだったので二重につらい……
  7. 7. 反省点  クロールしたデータはそのままじゃなくてDBに保 存するべきだった  JavaScriptの部分を削るか本文抽出してから保 存するべきだった
  8. 8. まとめ  雑なクローラを回して迷惑をかけてしまった  使い捨てだからといって手を抜かない  検索APIを過信しすぎない

×