Your SlideShare is downloading. ×
チームラボ忘年会
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

チームラボ忘年会

4,992
views

Published on

人間が死ぬ

人間が死ぬ

Published in: Technology

0 Comments
10 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
4,992
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
11
Comments
0
Likes
10
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 再生核Hilbert空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター
  • 2. 皆さん!ソーシャルしてますか!● ニュースサイトとかブログとか巡って、  自発的に情報探し出すのとかだるいですね●   「自力で探すとか昭和かよ」● Twitterとかfacebookとか、勝手に情報流れ てくるのであまりだるくないですね● でもいちいち面白い人を探し出してフォ ローするのとかだるくないですか…
  • 3. !!!だるいことはやめろ!!!● 1.だるいことは奴隷か計算機に投げろ!!● 2.奴隷制やめろ!!!!!● →計算機に投げるしかない…● 自然言語処理とか機械学習とか、     なんか計算機が頑張る感じで生きましょう● 頑張れ計算機!!!!!!!!!!!
  • 4. 誰や● Twitter @AntiBayes● あんちべ● 先月まで無職でした● 某ソーシャルゲームな会社でデータマイニ ングとかしてたりしてなかったり● 専門:自然言語処理、テキストマイニング● 愛:C#、Clojure、滅び行く少数民族の言語
  • 5. どうすればだるくないか?● 理想「勝手に計算機が自分の好みを学習 し、それに合致した人を見つけてくる」 ● だるくない!! ● でもやっぱり難しいし精度低い…● 現実(ルールベース)「自分の好みは○○で あると全て定義して計算機に渡す」 ● 明らかにだるい… <昭和かよ ● 結構精度高い
  • 6. スパムフィルタの例● 昔:「どの単語がどの程度含まれていれば スパムと判定する」というのを全て手作業 でやってた ● →だるい、人間が死ぬ● 現在:「どのメールがスパムか」を計算機 に投げれば、後は自動で計算機がスパムの 特徴を抽出し、今後やってくるメールがス 特徴を抽出 パムの特徴を持っているかどうかで、自動 的にスパム判定してくれる
  • 7. だるさと精度の凸最適● 人間のやるべきことは「どのツイートが面 白いと思ったか」を表明するだけ● その程度ならだるさによる死はたぶん無い● 自然言語処理を用い、計算機に面白いと 思ったツイートの特徴を自動的に学習させ て、面白いツイートだけ垂れ流そう
  • 8. お薦めユーザーと何が違うの…● ユーザーではなくツイートの抽出● 面白いことよく言うユーザーでも、    毎回の発言が面白いわけではない● 普通のユーザーもたまに面白いこと言う● 人間ではなくコンテンツだけに着目しま しょう● 他人の人生=コンテンツ
  • 9. ではやりましょう(流れ1.面白いのと普通ののツイートを収集2.学習器にかけて面白さの特徴を学習3.全ツイートを分類器にかけて、面白い特徴 を持っているものだけ抽出4.面白ツイートだけ見られる5.引きこもり度アップ6.人間が死ぬ
  • 10. 1.ツイート収集● 面白いの:ふぁぼれ● 普通の:さくさくツイートマイニング●●●●● Useage => http://d.hatena.ne.jp/AntiBayesian/20110702/● 32bit => http://www24.atpages.jp/antibayesian/app/stm32.zip● 64bit => http://www24.atpages.jp/antibayesian/app/stm64.zip
  • 11. 2,3 学習、分類● さくさくSVMを使おう● サポートベクターマシン●●●●● Useage => http://d.hatena.ne.jp/AntiBayesian/20110716/● DL => http://www24.atpages.jp/antibayesian/app/SSSVM.zip
  • 12. SVM (サポートベクターマシン)● よく使われる高性能な分類器● 全学習データを用いるのではなく、サポー トベクター(超平面を支持するベクトル、 超平面に一番近い点)のみを用いて分類す るので比較的高速● 非線形分類問題も対応できる(すごい 非線形分類問題も対応できる
  • 13. 引用:http://www-kairo.csce.kyushu-u.ac.jp/~norikazu/research.ja.html
  • 14. 再生核Hilbert空間とは● Hilbert空間 ● 完備性と可分性をもち、内積が定義された ベク トル空間 ● 再生核を持つ関数空間● 再生核(再生性) ● 写像前後で「距離の関係」保存されること ● 写像すれば一般的に距離は変わる ● ||A-B||>||A-C||→||f(A)-f(B)||>||f(A)-f(C)||
  • 15. やってみた● 面白つい~と(例 ● 「他人の人生=コンテンツ」 ● 「皆さんはもうだめです。好きに生きましょう」● 抽出つい~と(例 ● 「Yahoo!の技術力とクックパッドの福利厚生とドワンゴの 自由さとチームラボの御洒落感を組み合わせた全く新 しい企業、誰でも入社したいですし、ドワンゴの福利厚 生とチームラボの給料とYahoo!の自由さを組み合わ せた全くよくあるWebベンチャー、珍しくも何ともありま せんね」
  • 16. まとめ● Streaming API叩いて学習器に食わせたら、 それなりに自分好みのツイートだけ抽出し てくれるようになった。もっと精度あげた いけどだるい● 昔C#とPHPで各ツール作ってて、Clojureで 実装し直そうとしたら、時間が足りません でした…出来たら後で適当に公開します● お聞き下さりありがとうございました!● LT枠下さったチームラボの皆様に感謝!