Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
財布にやさしい
Rを使ったデータマイニング
~「安い、早い、上手い」の工夫~
      簗島 亮次
     (ヤナシマ リョウジ)
   Twitter ID:yanashi
   はてなID:yanashi
自己紹介
• 名前:簗島 亮次
• 所属:4月より大きなSNSの会社
• お仕事:
 – ディレクター
 – 業務上で発生するデータ解析も少々。
来歴(Rを使った経歴)
• RSCTC Discovery Challenge2010 (Random
  Forest、gmodels, Revolution R)
  – 遺伝子発現データの解析コンテスト
  – 順位:3位
• リコメンデ...
本日お話しする話。

      • データマイニングを行う環境を
安い      安価で構築する。



早い    • すばやく結果を提示できる。



上手い   • 結果をよさそうに見せる工夫。
昔あった経験
(結構あるあるだと思っているのですが)

              上司の要求

1. 会社のデータを分析して無駄を減らしたいんだよ
   ねぇ。
  •   高いソフト・機材を使いたくない
2. 実際効果があるかわからないから...
そして、与えられたPC
•   前の所有者:人事兼経理の人のPC
•   メモリ: 512MB
•   CPU: Core 2 Duo 1.80G
•   OS: Windows XP
•   管理者権限なし



    今後もこういうケース...
こんな場面に出くわしてしまった
    データマイナーへ

           どんな場面に直面しても



 ある程度の結果を残せる             ある程度の速度で解析できる




  安い              早い   ...
目標


 データマイニングのコンテストに
このノートPC一台で戦いを挑む!


      スペック詳細
      ハード:ThinkPad X60
      OS:Ubuntu 9.10
      CPU:Inter Core 2 D...
RSCTC Discovery Challenge2010の例
• RSCTC Discovery Challenge2010とは?
  – 去年の12月から今年の2月まで行われていた
    データマイニングのコンテスト
  – マイクロアレ...
工夫①:安さ
今回用意した環境              データ解析環境の一例

 OS                   OS
   Ubuntu9.10           Windows 7 Professional
   0...
工夫②:早い
    • Revolution R:
        – マルチコア対応Rパッケージ:
            • Intel MKLでコンパイルされているなど最適化
        – 最近各所でベンチマークテストが行われてる...
工夫②:早い
• Rpy2
  – PythonからRを操作するためのモジュール
  – 面倒なRの処理を自動化して、夜に働かせる。




         とても働いてる感じを演出!
工夫③:上手い

可視化部分     その他
実際の解析フロー

マイクロアレイデータ



                          RandomForest
             ランダムサンプリング
                            gmodels...
というわけで。。。
コンテストに出た結果です



       0円
ご清聴ありがとうございました!
Upcoming SlideShare
Loading in …5
×

財布にやさしいRを使ったデータマイニング

3,645 views

Published on

Published in: Technology
  • Be the first to comment

財布にやさしいRを使ったデータマイニング

  1. 1. 財布にやさしい Rを使ったデータマイニング ~「安い、早い、上手い」の工夫~ 簗島 亮次 (ヤナシマ リョウジ) Twitter ID:yanashi はてなID:yanashi
  2. 2. 自己紹介 • 名前:簗島 亮次 • 所属:4月より大きなSNSの会社 • お仕事: – ディレクター – 業務上で発生するデータ解析も少々。
  3. 3. 来歴(Rを使った経歴) • RSCTC Discovery Challenge2010 (Random Forest、gmodels, Revolution R) – 遺伝子発現データの解析コンテスト – 順位:3位 • リコメンデーションコンテスト2009 (kernlab, igraph, lda) – チームラボという会社が主催しているサグールテレビ のデータを用いたマイニングのコンテスト – 順位:1位 • 国際論文 (Bioconductor内のパッケージ) – Frontiers in Neuroinformatics誌
  4. 4. 本日お話しする話。 • データマイニングを行う環境を 安い 安価で構築する。 早い • すばやく結果を提示できる。 上手い • 結果をよさそうに見せる工夫。
  5. 5. 昔あった経験 (結構あるあるだと思っているのですが) 上司の要求 1. 会社のデータを分析して無駄を減らしたいんだよ ねぇ。 • 高いソフト・機材を使いたくない 2. 実際効果があるかわからないから効果測定をし てから導入を検討したい。 • 自腹もしくはありものでどうにかしろ 3. うちはベンチャーだからスピード感が重要だよ。 • とにかくすばやく結果を出せ 4. 社員全員役割を持っているから人を裂くことがで きない。 • 解析から結果の提案まで自分でやれ 5. 期待してるから。 • 1~4までを遂行しろ
  6. 6. そして、与えられたPC • 前の所有者:人事兼経理の人のPC • メモリ: 512MB • CPU: Core 2 Duo 1.80G • OS: Windows XP • 管理者権限なし 今後もこういうケースに出会うかもしれない。。。
  7. 7. こんな場面に出くわしてしまった データマイナーへ どんな場面に直面しても ある程度の結果を残せる ある程度の速度で解析できる 安い 早い 上手い Revolutin RとRpyで Rを使って安価に その他の工夫 高速+自動化
  8. 8. 目標 データマイニングのコンテストに このノートPC一台で戦いを挑む! スペック詳細 ハード:ThinkPad X60 OS:Ubuntu 9.10 CPU:Inter Core 2 Duo 2.00Ghz メモリ:3G
  9. 9. RSCTC Discovery Challenge2010の例 • RSCTC Discovery Challenge2010とは? – 去年の12月から今年の2月まで行われていた データマイニングのコンテスト – マイクロアレイという遺伝子のデータを判別し、精 度を競い合うというコンテスト – 1位には賞金がでます。2位までは国際会議に呼 ばれます。3位までは名前が公開されます。
  10. 10. 工夫①:安さ 今回用意した環境 データ解析環境の一例  OS  OS  Ubuntu9.10  Windows 7 Professional  0円  39,690円  解析ソフト  解析ソフト  Revolution R  SPSS  0円  189,000円 -228,690円!安さが違う!
  11. 11. 工夫②:早い • Revolution R: – マルチコア対応Rパッケージ: • Intel MKLでコンパイルされているなど最適化 – 最近各所でベンチマークテストが行われてる。 – 自分のブログでも… 参考資料:http://www.revolution-computing.com/products/benchmarks.php
  12. 12. 工夫②:早い • Rpy2 – PythonからRを操作するためのモジュール – 面倒なRの処理を自動化して、夜に働かせる。 とても働いてる感じを演出!
  13. 13. 工夫③:上手い 可視化部分 その他
  14. 14. 実際の解析フロー マイクロアレイデータ RandomForest ランダムサンプリング gmodels 線形計画法 kernlab データ出力 可視化 結果の出力
  15. 15. というわけで。。。
  16. 16. コンテストに出た結果です 0円
  17. 17. ご清聴ありがとうございました!

×