Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Lighter Project #2 @cougar

14 views

Published on

In the second presentation, I just do basic scraping.
For details of the project, please refer to the third presentation "Lighter Project 3 @ cougar".

  • Be the first to comment

  • Be the first to like this

Lighter Project #2 @cougar

  1. 1. チャッカマンPJ #2 LT大会支援システム スクレイピング学習編 #2
  2. 2. Not DataScientist Not Engineer • 商売 • マーケティング・リサーチの集計・分析・コンサル • バックオフィスの業務推進(金融・証券・会計) • ITインストラクター • 好き • シンセ/日本画とか • 流行りモノ/イベント • PC/ガジェット • 目標 • 自分が楽しくて、世界をちょっと便利にすることで食っていく Marketer & Bussiness Consultant
  3. 3. 前回のアンケートの結果 ~マーケティング・リサーチ風に~ • 発表について • 半数以上が、具体的に発表を検討中 • 興味の範囲 • 機械学習は約9割、データ分析・統計学は約7割と突出している • IoT・ゲーム/アニメ/オタクコンテンツには、ともに半数近くの人が興味を持っている • 経営学・数学・Web開発には、それぞれ3割程度の人が興味を持っている 結構、みんなネタ持ってんじゃん 発表の敷居が高い • 技術力 • 場にそぐうネタなのか • 遠慮
  4. 4. チャッカマンPJとはなんぞや • 勉強会のオープンなコミュニティと、ビジネスの両立 • 失敗できる、好きなことができる • 各々の利益(趣味の発展、金儲け)につなげられるチャンスを作る • LT会支援サイトの構築 • 発表者や参加者の主体性を高める(=インセンティブを与える) • システムの側から、発表の敷居を低くする プロジェクト立案・Windows環境構築編 #1
  5. 5. 実はconnpass APIがしょぼい • LT支援サイトを作るなら… • 他の勉強会サイトと競合しない・データを活用できることが前提 • 必須の機能 • LTの時間割作成 • 参加者・発表者へのポイント・バッジの付与 • 取得したい値 • 参加者一覧
  6. 6. Pythonでスクレイピングをしよう • 必要なもの • HTTPライブラリ • requests • urllib • httplib • http.client • html解析ライブラリ • Beautiful Soup • pyQuery • HTTPパーサ • lxml • html.parser XPATHの利用経験があれば、さほど難しい感じはない AnacondaにBeautiful Soupはプリインストールされている! • スクレイピング beautiful soup:12,600件 • スクレイピング pyquery:1,110件 • スクレイピング lxml:2,130件 • スクレイピング html.parser:5,590 件 • beautiful soup lxml:96,100件 • beautifulsoup html.parser:92,300件 →圧倒的に記事が多い →jQueryに慣れている人向け →柔軟・高速 →標準ライブラリ
  7. 7. Beautiful Soup + lxmlでやろう • 文字コードの考慮だけ必要かな?→chardet • 参考:http://orangain.hatenablog.com/entry/encoding-in-requests-and-beautiful-soup • すげえ簡単
  8. 8. 構造を調べよう • ソースをそのまま見てもいいけど… • Firebug便利ですよ
  9. 9. 参加者一覧を作ってみよう • 楽勝 • 1行目で指定クラス取得 • 2行目でテキスト取得
  10. 10. 企画中のMeetup • 第二火曜の勉強会 • 三題噺をモチーフとした、LTの練習会 • アカデミック・ITの趣味への応用 • デジタル/アナログゲームをテーマにしたハンズオン • 音楽/美術分野への応用事例 • 休日開催のMeetup • テーマ:統計/機械学習/マーケティング 2017年末~2018年始動!
  11. 11. アンケート回答状況 • 0 responses!

×