SlideShare a Scribd company logo
財布にやさしい
Rを使ったデータマイニング
~「安い、早い、上手い」の工夫~
      簗島 亮次
     (ヤナシマ リョウジ)
   Twitter ID:yanashi
   はてなID:yanashi
自己紹介
• 名前:簗島 亮次
• 所属:4月より大きなSNSの会社
• お仕事:
 – ディレクター
 – 業務上で発生するデータ解析も少々。
来歴(Rを使った経歴)
• RSCTC Discovery Challenge2010 (Random
  Forest、gmodels, Revolution R)
  – 遺伝子発現データの解析コンテスト
  – 順位:3位
• リコメンデーションコンテスト2009 (kernlab, igraph,
  lda)
  – チームラボという会社が主催しているサグールテレビ
    のデータを用いたマイニングのコンテスト
  – 順位:1位
• 国際論文 (Bioconductor内のパッケージ)
  – Frontiers in Neuroinformatics誌
本日お話しする話。

      • データマイニングを行う環境を
安い      安価で構築する。



早い    • すばやく結果を提示できる。



上手い   • 結果をよさそうに見せる工夫。
昔あった経験
(結構あるあるだと思っているのですが)

              上司の要求

1. 会社のデータを分析して無駄を減らしたいんだよ
   ねぇ。
  •   高いソフト・機材を使いたくない
2. 実際効果があるかわからないから効果測定をし
   てから導入を検討したい。
  •   自腹もしくはありものでどうにかしろ
3. うちはベンチャーだからスピード感が重要だよ。
  •   とにかくすばやく結果を出せ
4. 社員全員役割を持っているから人を裂くことがで
   きない。
  •   解析から結果の提案まで自分でやれ
5. 期待してるから。
  •   1~4までを遂行しろ
そして、与えられたPC
•   前の所有者:人事兼経理の人のPC
•   メモリ: 512MB
•   CPU: Core 2 Duo 1.80G
•   OS: Windows XP
•   管理者権限なし



    今後もこういうケースに出会うかもしれない。。。
こんな場面に出くわしてしまった
    データマイナーへ

           どんな場面に直面しても



 ある程度の結果を残せる             ある程度の速度で解析できる




  安い              早い            上手い
             Revolutin RとRpyで
Rを使って安価に                        その他の工夫
               高速+自動化
目標


 データマイニングのコンテストに
このノートPC一台で戦いを挑む!


      スペック詳細
      ハード:ThinkPad X60
      OS:Ubuntu 9.10
      CPU:Inter Core 2 Duo 2.00Ghz
      メモリ:3G
RSCTC Discovery Challenge2010の例
• RSCTC Discovery Challenge2010とは?
  – 去年の12月から今年の2月まで行われていた
    データマイニングのコンテスト
  – マイクロアレイという遺伝子のデータを判別し、精
    度を競い合うというコンテスト
  – 1位には賞金がでます。2位までは国際会議に呼
    ばれます。3位までは名前が公開されます。
工夫①:安さ
今回用意した環境              データ解析環境の一例

 OS                   OS
   Ubuntu9.10           Windows 7 Professional
   0円                   39,690円
 解析ソフト                解析ソフト
   Revolution R         SPSS
   0円                   189,000円




            -228,690円!安さが違う!
工夫②:早い
    • Revolution R:
        – マルチコア対応Rパッケージ:
            • Intel MKLでコンパイルされているなど最適化
        – 最近各所でベンチマークテストが行われてる。
        – 自分のブログでも…




参考資料:http://www.revolution-computing.com/products/benchmarks.php
工夫②:早い
• Rpy2
  – PythonからRを操作するためのモジュール
  – 面倒なRの処理を自動化して、夜に働かせる。




         とても働いてる感じを演出!
工夫③:上手い

可視化部分     その他
実際の解析フロー

マイクロアレイデータ



                          RandomForest
             ランダムサンプリング
                            gmodels
               線形計画法
                            kernlab
               データ出力

                可視化




             結果の出力
というわけで。。。
コンテストに出た結果です



       0円
ご清聴ありがとうございました!

More Related Content

Similar to 財布にやさしいRを使ったデータマイニング

MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知るMapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
日本ヒューレット・パッカード株式会社
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
Katsuhiro Morishita
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
Hitoshi Sato
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
koji ochiai
 
20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用
Preferred Networks
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
 
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
Tokoroten Nakayama
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
Kimikazu Kato
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
陽平 山口
 
GTC Japan 2017
GTC Japan 2017GTC Japan 2017
GTC Japan 2017
Hitoshi Sato
 
Cytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructureCytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructure
Keiichiro Ono
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
 
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション
Shohei Hido
 
色々なOSSで競技プログラミング
色々なOSSで競技プログラミング色々なOSSで競技プログラミング
色々なOSSで競技プログラミング
nhirokinet
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
Megagon Labs
 
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NVIDIA Japan
 
PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費
Tatsumi Akinori
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
Katsuhiro Morishita
 

Similar to 財布にやさしいRを使ったデータマイニング (20)

MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知るMapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
 
Pred net使ってみた
Pred net使ってみたPred net使ってみた
Pred net使ってみた
 
20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用20170419PFNオープンハウス リサーチャーの仕事_公開用
20170419PFNオープンハウス リサーチャーの仕事_公開用
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
GTC Japan 2017
GTC Japan 2017GTC Japan 2017
GTC Japan 2017
 
Cytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructureCytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructure
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション111015 tokyo scipy2_ディスカッション
111015 tokyo scipy2_ディスカッション
 
色々なOSSで競技プログラミング
色々なOSSで競技プログラミング色々なOSSで競技プログラミング
色々なOSSで競技プログラミング
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
 
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニングNGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
 
PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費PGXのレスポンスとリソース消費
PGXのレスポンスとリソース消費
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
 

More from Ryoji Yanashima

オンライン行動データを使ったオフラインチャネルの最適化
オンライン行動データを使ったオフラインチャネルの最適化オンライン行動データを使ったオフラインチャネルの最適化
オンライン行動データを使ったオフラインチャネルの最適化
Ryoji Yanashima
 
代理店向けセミナー
代理店向けセミナー代理店向けセミナー
代理店向けセミナー
Ryoji Yanashima
 
DMPを使いこなすためには。
DMPを使いこなすためには。DMPを使いこなすためには。
DMPを使いこなすためには。
Ryoji Yanashima
 
アドテク業界七不思議
アドテク業界七不思議アドテク業界七不思議
アドテク業界七不思議
Ryoji Yanashima
 
Adtech2013 audiencemerger
Adtech2013 audiencemergerAdtech2013 audiencemerger
Adtech2013 audiencemerger
Ryoji Yanashima
 

More from Ryoji Yanashima (8)

Finc勉強会
Finc勉強会Finc勉強会
Finc勉強会
 
オンライン行動データを使ったオフラインチャネルの最適化
オンライン行動データを使ったオフラインチャネルの最適化オンライン行動データを使ったオフラインチャネルの最適化
オンライン行動データを使ったオフラインチャネルの最適化
 
代理店向けセミナー
代理店向けセミナー代理店向けセミナー
代理店向けセミナー
 
DMPを使いこなすためには。
DMPを使いこなすためには。DMPを使いこなすためには。
DMPを使いこなすためには。
 
アドテク業界七不思議
アドテク業界七不思議アドテク業界七不思議
アドテク業界七不思議
 
Adtech2013 audiencemerger
Adtech2013 audiencemergerAdtech2013 audiencemerger
Adtech2013 audiencemerger
 
TokyoWebming
TokyoWebmingTokyoWebming
TokyoWebming
 
TokyoWebmining
TokyoWebminingTokyoWebmining
TokyoWebmining
 

Recently uploaded

【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
ARISE analytics
 
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
chisatotakane
 
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit IntroductionMatsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo Lab
 
Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
Takayuki Nakayama
 
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
Toru Tamaki
 
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
Toru Tamaki
 
20240717_IoTLT_vol113_kitazaki_v1___.pdf
20240717_IoTLT_vol113_kitazaki_v1___.pdf20240717_IoTLT_vol113_kitazaki_v1___.pdf
20240717_IoTLT_vol113_kitazaki_v1___.pdf
Ayachika Kitazaki
 
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
Sony - Neural Network Libraries
 
Developer IO 2024 Odyssey SAMを応用したコンピュータビジョンの話
Developer IO 2024 Odyssey  SAMを応用したコンピュータビジョンの話Developer IO 2024 Odyssey  SAMを応用したコンピュータビジョンの話
Developer IO 2024 Odyssey SAMを応用したコンピュータビジョンの話
Shinichi Hirauchi
 
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit IntroductionMatsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo Lab
 
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit IntroductionMatsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo Lab
 
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
Sony - Neural Network Libraries
 
Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)
Natsutani Minoru
 
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ..."ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
たけおか しょうぞう
 
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログLoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
CRI Japan, Inc.
 

Recently uploaded (15)

【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
【JSAI2024】J-NER大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット.pdf
 
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
最速の組織を目指して全社で大規模スクラムを導入してみた話 #dxd2024 #medicalforce
 
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit IntroductionMatsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit Introduction
 
Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
 
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
論文紹介:BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sen...
 
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
論文紹介:Task-aligned Part-aware Panoptic Segmentation through Joint Object-Part ...
 
20240717_IoTLT_vol113_kitazaki_v1___.pdf
20240717_IoTLT_vol113_kitazaki_v1___.pdf20240717_IoTLT_vol113_kitazaki_v1___.pdf
20240717_IoTLT_vol113_kitazaki_v1___.pdf
 
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
 
Developer IO 2024 Odyssey SAMを応用したコンピュータビジョンの話
Developer IO 2024 Odyssey  SAMを応用したコンピュータビジョンの話Developer IO 2024 Odyssey  SAMを応用したコンピュータビジョンの話
Developer IO 2024 Odyssey SAMを応用したコンピュータビジョンの話
 
Matsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit IntroductionMatsuo-Iwasawa Lab. | Research unit Introduction
Matsuo-Iwasawa Lab. | Research unit Introduction
 
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit IntroductionMatsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit Introduction
 
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
【AI論文解説】クラスタリングベースアプローチによる大規模データセット自動キュレーション
 
Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)Imitation learning for robotics 勉強会資料(20240701)
Imitation learning for robotics 勉強会資料(20240701)
 
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ..."ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
"ros2rapper", Hardware implimentation of ROS2 communication Protocol without ...
 
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログLoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
LoRaWAN AI Image Sensorエンドデバイス AIG01カタログ
 

財布にやさしいRを使ったデータマイニング

  • 1. 財布にやさしい Rを使ったデータマイニング ~「安い、早い、上手い」の工夫~ 簗島 亮次 (ヤナシマ リョウジ) Twitter ID:yanashi はてなID:yanashi
  • 2. 自己紹介 • 名前:簗島 亮次 • 所属:4月より大きなSNSの会社 • お仕事: – ディレクター – 業務上で発生するデータ解析も少々。
  • 3. 来歴(Rを使った経歴) • RSCTC Discovery Challenge2010 (Random Forest、gmodels, Revolution R) – 遺伝子発現データの解析コンテスト – 順位:3位 • リコメンデーションコンテスト2009 (kernlab, igraph, lda) – チームラボという会社が主催しているサグールテレビ のデータを用いたマイニングのコンテスト – 順位:1位 • 国際論文 (Bioconductor内のパッケージ) – Frontiers in Neuroinformatics誌
  • 4. 本日お話しする話。 • データマイニングを行う環境を 安い 安価で構築する。 早い • すばやく結果を提示できる。 上手い • 結果をよさそうに見せる工夫。
  • 5. 昔あった経験 (結構あるあるだと思っているのですが) 上司の要求 1. 会社のデータを分析して無駄を減らしたいんだよ ねぇ。 • 高いソフト・機材を使いたくない 2. 実際効果があるかわからないから効果測定をし てから導入を検討したい。 • 自腹もしくはありものでどうにかしろ 3. うちはベンチャーだからスピード感が重要だよ。 • とにかくすばやく結果を出せ 4. 社員全員役割を持っているから人を裂くことがで きない。 • 解析から結果の提案まで自分でやれ 5. 期待してるから。 • 1~4までを遂行しろ
  • 6. そして、与えられたPC • 前の所有者:人事兼経理の人のPC • メモリ: 512MB • CPU: Core 2 Duo 1.80G • OS: Windows XP • 管理者権限なし 今後もこういうケースに出会うかもしれない。。。
  • 7. こんな場面に出くわしてしまった データマイナーへ どんな場面に直面しても ある程度の結果を残せる ある程度の速度で解析できる 安い 早い 上手い Revolutin RとRpyで Rを使って安価に その他の工夫 高速+自動化
  • 8. 目標 データマイニングのコンテストに このノートPC一台で戦いを挑む! スペック詳細 ハード:ThinkPad X60 OS:Ubuntu 9.10 CPU:Inter Core 2 Duo 2.00Ghz メモリ:3G
  • 9. RSCTC Discovery Challenge2010の例 • RSCTC Discovery Challenge2010とは? – 去年の12月から今年の2月まで行われていた データマイニングのコンテスト – マイクロアレイという遺伝子のデータを判別し、精 度を競い合うというコンテスト – 1位には賞金がでます。2位までは国際会議に呼 ばれます。3位までは名前が公開されます。
  • 10. 工夫①:安さ 今回用意した環境 データ解析環境の一例  OS  OS  Ubuntu9.10  Windows 7 Professional  0円  39,690円  解析ソフト  解析ソフト  Revolution R  SPSS  0円  189,000円 -228,690円!安さが違う!
  • 11. 工夫②:早い • Revolution R: – マルチコア対応Rパッケージ: • Intel MKLでコンパイルされているなど最適化 – 最近各所でベンチマークテストが行われてる。 – 自分のブログでも… 参考資料:http://www.revolution-computing.com/products/benchmarks.php
  • 12. 工夫②:早い • Rpy2 – PythonからRを操作するためのモジュール – 面倒なRの処理を自動化して、夜に働かせる。 とても働いてる感じを演出!
  • 14. 実際の解析フロー マイクロアレイデータ RandomForest ランダムサンプリング gmodels 線形計画法 kernlab データ出力 可視化 結果の出力