再生核Hilbert空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター
皆さん!ソーシャルしてますか!●   ニュースサイトとかブログとか巡って、     自発的に情報探し出すのとかだるいですね●     「自力で探すとか昭和かよ」●   Twitterとかfacebookとか、勝手に情報流れ    てくるのであま...
!!!だるいことはやめろ!!!●   1.だるいことは奴隷か計算機に投げろ!!●   2.奴隷制やめろ!!!!!●   →計算機に投げるしかない…●   自然言語処理とか機械学習とか、        なんか計算機が頑張る感じで生きましょう●  ...
誰や●   Twitter @AntiBayes●   あんちべ●   先月まで無職でした●   某ソーシャルゲームな会社でデータマイニ    ングとかしてたりしてなかったり●   専門:自然言語処理、テキストマイニング●   愛:C#、Clo...
どうすればだるくないか?●   理想「勝手に計算機が自分の好みを学習    し、それに合致した人を見つけてくる」     ●   だるくない!!     ●         でもやっぱり難しいし精度低い…●   現実(ルールベース)「自分の好み...
スパムフィルタの例●   昔:「どの単語がどの程度含まれていれば    スパムと判定する」というのを全て手作業    でやってた     ●   →だるい、人間が死ぬ●   現在:「どのメールがスパムか」を計算機    に投げれば、後は自動で計...
だるさと精度の凸最適●   人間のやるべきことは「どのツイートが面    白いと思ったか」を表明するだけ●   その程度ならだるさによる死はたぶん無い●   自然言語処理を用い、計算機に面白いと    思ったツイートの特徴を自動的に学習させ  ...
お薦めユーザーと何が違うの…●   ユーザーではなくツイートの抽出●   面白いことよく言うユーザーでも、       毎回の発言が面白いわけではない●   普通のユーザーもたまに面白いこと言う●   人間ではなくコンテンツだけに着目しま   ...
ではやりましょう(流れ1.面白いのと普通ののツイートを収集2.学習器にかけて面白さの特徴を学習3.全ツイートを分類器にかけて、面白い特徴  を持っているものだけ抽出4.面白ツイートだけ見られる5.引きこもり度アップ6.人間が死ぬ
1.ツイート収集●   面白いの:ふぁぼれ●   普通の:さくさくツイートマイニング●●●●●   Useage => http://d.hatena.ne.jp/AntiBayesian/20110702/●   32bit => http:...
2,3 学習、分類●   さくさくSVMを使おう●   サポートベクターマシン●●●●●   Useage => http://d.hatena.ne.jp/AntiBayesian/20110716/●   DL => http://www2...
SVM    (サポートベクターマシン)●   よく使われる高性能な分類器●   全学習データを用いるのではなく、サポー    トベクター(超平面を支持するベクトル、    超平面に一番近い点)のみを用いて分類す    るので比較的高速●   ...
引用:http://www-kairo.csce.kyushu-u.ac.jp/~norikazu/research.ja.html
再生核Hilbert空間とは●   Hilbert空間      ●          完備性と可分性をもち、内積が定義された ベク           トル空間      ●          再生核を持つ関数空間●   再生核(再生性)  ...
やってみた●   面白つい~と(例     ●   「他人の人生=コンテンツ」     ●   「皆さんはもうだめです。好きに生きましょう」●   抽出つい~と(例     ●   「Yahoo!の技術力とクックパッドの福利厚生とドワンゴの  ...
まとめ●   Streaming API叩いて学習器に食わせたら、    それなりに自分好みのツイートだけ抽出し    てくれるようになった。もっと精度あげた    いけどだるい●   昔C#とPHPで各ツール作ってて、Clojureで    ...
Upcoming SlideShare
Loading in...5
×

チームラボ忘年会

5,430

Published on

人間が死ぬ

Published in: Technology

チームラボ忘年会

  1. 1. 再生核Hilbert空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター
  2. 2. 皆さん!ソーシャルしてますか!● ニュースサイトとかブログとか巡って、  自発的に情報探し出すのとかだるいですね●   「自力で探すとか昭和かよ」● Twitterとかfacebookとか、勝手に情報流れ てくるのであまりだるくないですね● でもいちいち面白い人を探し出してフォ ローするのとかだるくないですか…
  3. 3. !!!だるいことはやめろ!!!● 1.だるいことは奴隷か計算機に投げろ!!● 2.奴隷制やめろ!!!!!● →計算機に投げるしかない…● 自然言語処理とか機械学習とか、     なんか計算機が頑張る感じで生きましょう● 頑張れ計算機!!!!!!!!!!!
  4. 4. 誰や● Twitter @AntiBayes● あんちべ● 先月まで無職でした● 某ソーシャルゲームな会社でデータマイニ ングとかしてたりしてなかったり● 専門:自然言語処理、テキストマイニング● 愛:C#、Clojure、滅び行く少数民族の言語
  5. 5. どうすればだるくないか?● 理想「勝手に計算機が自分の好みを学習 し、それに合致した人を見つけてくる」 ● だるくない!! ● でもやっぱり難しいし精度低い…● 現実(ルールベース)「自分の好みは○○で あると全て定義して計算機に渡す」 ● 明らかにだるい… <昭和かよ ● 結構精度高い
  6. 6. スパムフィルタの例● 昔:「どの単語がどの程度含まれていれば スパムと判定する」というのを全て手作業 でやってた ● →だるい、人間が死ぬ● 現在:「どのメールがスパムか」を計算機 に投げれば、後は自動で計算機がスパムの 特徴を抽出し、今後やってくるメールがス 特徴を抽出 パムの特徴を持っているかどうかで、自動 的にスパム判定してくれる
  7. 7. だるさと精度の凸最適● 人間のやるべきことは「どのツイートが面 白いと思ったか」を表明するだけ● その程度ならだるさによる死はたぶん無い● 自然言語処理を用い、計算機に面白いと 思ったツイートの特徴を自動的に学習させ て、面白いツイートだけ垂れ流そう
  8. 8. お薦めユーザーと何が違うの…● ユーザーではなくツイートの抽出● 面白いことよく言うユーザーでも、    毎回の発言が面白いわけではない● 普通のユーザーもたまに面白いこと言う● 人間ではなくコンテンツだけに着目しま しょう● 他人の人生=コンテンツ
  9. 9. ではやりましょう(流れ1.面白いのと普通ののツイートを収集2.学習器にかけて面白さの特徴を学習3.全ツイートを分類器にかけて、面白い特徴 を持っているものだけ抽出4.面白ツイートだけ見られる5.引きこもり度アップ6.人間が死ぬ
  10. 10. 1.ツイート収集● 面白いの:ふぁぼれ● 普通の:さくさくツイートマイニング●●●●● Useage => http://d.hatena.ne.jp/AntiBayesian/20110702/● 32bit => http://www24.atpages.jp/antibayesian/app/stm32.zip● 64bit => http://www24.atpages.jp/antibayesian/app/stm64.zip
  11. 11. 2,3 学習、分類● さくさくSVMを使おう● サポートベクターマシン●●●●● Useage => http://d.hatena.ne.jp/AntiBayesian/20110716/● DL => http://www24.atpages.jp/antibayesian/app/SSSVM.zip
  12. 12. SVM (サポートベクターマシン)● よく使われる高性能な分類器● 全学習データを用いるのではなく、サポー トベクター(超平面を支持するベクトル、 超平面に一番近い点)のみを用いて分類す るので比較的高速● 非線形分類問題も対応できる(すごい 非線形分類問題も対応できる
  13. 13. 引用:http://www-kairo.csce.kyushu-u.ac.jp/~norikazu/research.ja.html
  14. 14. 再生核Hilbert空間とは● Hilbert空間 ● 完備性と可分性をもち、内積が定義された ベク トル空間 ● 再生核を持つ関数空間● 再生核(再生性) ● 写像前後で「距離の関係」保存されること ● 写像すれば一般的に距離は変わる ● ||A-B||>||A-C||→||f(A)-f(B)||>||f(A)-f(C)||
  15. 15. やってみた● 面白つい~と(例 ● 「他人の人生=コンテンツ」 ● 「皆さんはもうだめです。好きに生きましょう」● 抽出つい~と(例 ● 「Yahoo!の技術力とクックパッドの福利厚生とドワンゴの 自由さとチームラボの御洒落感を組み合わせた全く新 しい企業、誰でも入社したいですし、ドワンゴの福利厚 生とチームラボの給料とYahoo!の自由さを組み合わ せた全くよくあるWebベンチャー、珍しくも何ともありま せんね」
  16. 16. まとめ● Streaming API叩いて学習器に食わせたら、 それなりに自分好みのツイートだけ抽出し てくれるようになった。もっと精度あげた いけどだるい● 昔C#とPHPで各ツール作ってて、Clojureで 実装し直そうとしたら、時間が足りません でした…出来たら後で適当に公開します● お聞き下さりありがとうございました!● LT枠下さったチームラボの皆様に感謝!
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×