• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
スクリプト言語で重要な事はエロ画像集取で学んだ
 

スクリプト言語で重要な事はエロ画像集取で学んだ

on

  • 34,186 views

YAPC Asia2013 1日目夜の大人のYAPC LT資料

YAPC Asia2013 1日目夜の大人のYAPC LT資料

Statistics

Views

Total Views
34,186
Views on SlideShare
32,769
Embed Views
1,417

Actions

Likes
54
Downloads
47
Comments
0

17 Embeds 1,417

http://shokai.org 982
https://twitter.com 349
http://cloud.feedly.com 56
http://tweetedtimes.com 6
http://webinfocrawl.info 5
http://b.hatena.ne.jp 3
http://digg.com 3
http://inoreader.com 2
http://s.deeeki.com 2
https://www.chatwork.com 2
http://theoldreader.com 1
http://summary 1
http://www.inoreader.com 1
http://www.feedspot.com 1
https://web.tweetdeck.com 1
http://feedly.com 1
http://reader.aol.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    スクリプト言語で重要な事はエロ画像集取で学んだ スクリプト言語で重要な事はエロ画像集取で学んだ Presentation Transcript

    • スクリプト言語で 重要な事は エロ画像集取で学んだ @shokai 大人のYAPC2013
    • 私 •@shokai (しょうかい) •趣味:料理、glitch、Ruby •Perl書けないけど •LT応募したら通った…
    • Perl勉強した
    • Perl2.0の薄い本 簡潔でわかりやすい!
    • 正規表現とか配列だけ でもだいぶ色々できる
    • 今日のお話
    • 画像いっぱい集めたい という欲求で いつのまにかRuby書ける ようになってた話をします
    • ぜんぜんPerlでてこ ないけど
    • たぶんPerlでも だいたい同じ感じで プログラミング学習で きると思うから許して
    • 2008年ごろ
    • Yahoo Pipesで 画像掲示板から RSS作りまくった
    • Web系やったこと なかったけど欲望 のまま100個以上 Pipes作った
    • 正規表現 リファラ DOM を学んだ
    • 1年経過
    • Pixiv、Danbooru、 Tumblr との出会い ログインしないと見れない 大量のメタデータ
    • Danbooru •オープンソースな画像アップローダ •https://github.com/r888888888/danbooru •地球上に何個か設置されてる •Rails 3.2 •アカウント作ったり、点数つけたり •よくできてる
    • 人力 セマンティック に感動
    • PixivもDanbooruもRSS リーダーで見るのに適して いなかった ↓ Rubyでなんとかしよう
    • 画像収集はスクリ プト言語に重要な 事がだいたい入っ てると思う
    • cookie、文字コード、 DOM、配列やハッシュ、DB やファイルへの保存、 memcache、md5で重複防 げる、tumblrに流す、非同期 IO、crontab、エラー処理
    • HTTPヘッダを見る、exif で画像サイズ確認、 OpenCVで肌色画像だけ 通すGearman worker ・・など
    • 画像収集で よかったこと
    • どんどん動かなくなるか ら直さないとならない ↓ 強制リファクタリング
    • スクレイピングなので 変化に弱い ↓ ライブラリ整備せざるえない ↓ 非公開なRubygem作成
    • 公開できるクオリティじ ゃなくても、ローカル用 のRubygemにする ↓ 取り回しが良い
    • GemやCPANなどのフォ ーマットに従ってライブ ラリ作ってみると、理解 深まるのでは
    • 最近の動向
    • 肌色画像フィルタで 誤爆してくる奴ら どうにかしたい
    • あとグロ画像とかも なえるわ・・
    • 人力でどうにかする Amazon Mechanical Turkにエロ画像流すと BANされそう
    • 仲間内で使える クラウドソーシング 的なものがほしい
    • % gem install babascript コンピュータが得意な事はコンピュータが、 人間が得意な事は馬場くん  がやってくれる言語 https://github.com/masuilab/babascript @takumibaba
    • % baba -e 'この画像エロい?("http://example.com/hoge.jpg")' baba -e ’コード’ もしくは baba ファイル名
    • 結果
    • url_list.each do |url| if この画像エロい?(url) == "はい" ## 画像保存する else ## 画像捨てる end end 画像確認.bb % baba 画像確認.bb 実行 ぱっと見、Rubyに見えるけど メタプログラミングにより 日本語で書いた部分を馬場君が実行してくれる 返り値も取れる
    • module BabaScript class Baba def self.method_missing(name, *args) ## (略) AndroidにnameとargsをLindaで送信する end end end Rubyの関数名には日本語が使える → method_missingで全部取れる
    • Lindaで実装してるから 複数人で並列実行 もできる
    • 人間を関数のように扱える ようになるスマホアプリ + 人間に命令を送る構文を追 加したプログラム言語 → 人間とプログラム言語の 新しい関係
    • 画像収集は総合芸術 なので勉強の題材に いいと思います おわり