Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
SF
Uploaded by
Shintaro Fukushima
1,588 views
mmapパッケージを使ってお手軽オブジェクト管理
Read more
1
Save
Share
Embed
Embed presentation
Download
Downloaded 10 times
1
/ 17
2
/ 17
3
/ 17
4
/ 17
5
/ 17
6
/ 17
7
/ 17
8
/ 17
9
/ 17
10
/ 17
11
/ 17
12
/ 17
13
/ 17
14
/ 17
15
/ 17
16
/ 17
17
/ 17
More Related Content
PDF
統計解析言語Rにおける大規模データ管理のためのboost.interprocessの活用
by
Shintaro Fukushima
PDF
Rユーザのためのspark入門
by
Shintaro Fukushima
PDF
R-hpc-1 TokyoR#11
by
Shintaro Fukushima
PDF
Rの高速化
by
弘毅 露崎
PDF
Why dont you_create_new_spark_jl
by
Shintaro Fukushima
PDF
Rのデータ構造とメモリ管理
by
Takeshi Arabiki
PDF
RのffとbigmemoryとRevoScaleRとを比較してみた
by
Kazuya Wada
PDF
Rにおける大規模データ解析(第10回TokyoWebMining)
by
Shintaro Fukushima
統計解析言語Rにおける大規模データ管理のためのboost.interprocessの活用
by
Shintaro Fukushima
Rユーザのためのspark入門
by
Shintaro Fukushima
R-hpc-1 TokyoR#11
by
Shintaro Fukushima
Rの高速化
by
弘毅 露崎
Why dont you_create_new_spark_jl
by
Shintaro Fukushima
Rのデータ構造とメモリ管理
by
Takeshi Arabiki
RのffとbigmemoryとRevoScaleRとを比較してみた
by
Kazuya Wada
Rにおける大規模データ解析(第10回TokyoWebMining)
by
Shintaro Fukushima
What's hot
PDF
Rあんなときこんなとき(tokyo r#12)
by
Shintaro Fukushima
PPTX
巨大な表を高速に扱うData.table について
by
Haruka Ozaki
PDF
機械学習を用いた予測モデル構築・評価
by
Shintaro Fukushima
PDF
RのffでGLMしてみたけど...
by
Kazuya Wada
PPTX
R高速化
by
Monta Yashi
PDF
2013.07.15 はじパタlt scikit-learnで始める機械学習
by
Motoya Wakiyama
PDF
Juliaで並列計算
by
Shintaro Fukushima
PPTX
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
by
Miki Shimogai
PDF
20150329 tokyo r47
by
Takashi Kitano
PPTX
Feature Selection with R / in JP
by
Sercan Ahi
PPT
20090107 Postgre Sqlチューニング(Sql編)
by
Hiromu Shioya
PDF
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
by
Koichi Hamada
PDF
最近のRのランダムフォレストパッケージ -ranger/Rborist-
by
Shintaro Fukushima
PDF
20140531 JPUGしくみ+アプリケーション分科会 勉強会資料
by
kasaharatt
PDF
Pg14_sql_standard_function_body
by
kasaharatt
PDF
「plyrパッケージで君も前処理スタ☆」改め「plyrパッケージ徹底入門」
by
Nagi Teramo
PDF
Pgunconf 20121212-postgeres fdw
by
Toshi Harada
PDF
R3.0.0 is relased
by
Shintaro Fukushima
PDF
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
by
Takashi J OZAKI
Rあんなときこんなとき(tokyo r#12)
by
Shintaro Fukushima
巨大な表を高速に扱うData.table について
by
Haruka Ozaki
機械学習を用いた予測モデル構築・評価
by
Shintaro Fukushima
RのffでGLMしてみたけど...
by
Kazuya Wada
R高速化
by
Monta Yashi
2013.07.15 はじパタlt scikit-learnで始める機械学習
by
Motoya Wakiyama
Juliaで並列計算
by
Shintaro Fukushima
PostgreSQLクエリ実行の基礎知識 ~Explainを読み解こう~
by
Miki Shimogai
20150329 tokyo r47
by
Takashi Kitano
Feature Selection with R / in JP
by
Sercan Ahi
20090107 Postgre Sqlチューニング(Sql編)
by
Hiromu Shioya
[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門
by
Koichi Hamada
最近のRのランダムフォレストパッケージ -ranger/Rborist-
by
Shintaro Fukushima
20140531 JPUGしくみ+アプリケーション分科会 勉強会資料
by
kasaharatt
Pg14_sql_standard_function_body
by
kasaharatt
「plyrパッケージで君も前処理スタ☆」改め「plyrパッケージ徹底入門」
by
Nagi Teramo
Pgunconf 20121212-postgeres fdw
by
Toshi Harada
R3.0.0 is relased
by
Shintaro Fukushima
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
by
Takashi J OZAKI
Viewers also liked
PPTX
Webエンジニアが初めて機械学習に触れてみた話
by
Shohei Tai
PPTX
Python 機械学習入門
by
孝之 鈴木
PPTX
Python&機械学習にHelloWorldして旦那候補を探す
by
Kiriko Yano
PDF
データサイエンスワールドからC++を眺めてみる
by
Shintaro Fukushima
PDF
Pythonによる機械学習
by
Kimikazu Kato
KEY
OpenCVの基礎
by
領一 和泉田
PDF
OpenCVをAndroidで動かしてみた
by
徹 上野山
PPTX
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
by
Shunsuke Nakamura
PDF
OpenCV 3.0 on iOS
by
Shuichi Tsutsumi
PDF
機械学習チュートリアル@Jubatus Casual Talks
by
Yuya Unno
Webエンジニアが初めて機械学習に触れてみた話
by
Shohei Tai
Python 機械学習入門
by
孝之 鈴木
Python&機械学習にHelloWorldして旦那候補を探す
by
Kiriko Yano
データサイエンスワールドからC++を眺めてみる
by
Shintaro Fukushima
Pythonによる機械学習
by
Kimikazu Kato
OpenCVの基礎
by
領一 和泉田
OpenCVをAndroidで動かしてみた
by
徹 上野山
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
by
Shunsuke Nakamura
OpenCV 3.0 on iOS
by
Shuichi Tsutsumi
機械学習チュートリアル@Jubatus Casual Talks
by
Yuya Unno
Similar to mmapパッケージを使ってお手軽オブジェクト管理
PDF
あまぁいRcpp生活
by
Masaki Tsuda
PDF
Rのオブジェクト
by
Itoshi Nikaido
PDF
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
by
MapR Technologies Japan
PDF
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
by
Takeshi Yamamuro
PPTX
Map
by
kikairoya
PPTX
T69 c++cli ネイティブライブラリラッピング入門
by
伸男 伊藤
PDF
Boost tour 1_40_0
by
Akira Takahashi
PDF
R's anti sparseness
by
ybenjo
PDF
C++0x 言語の未来を語る
by
Akira Takahashi
PDF
boost tour 1.48.0 all
by
Akira Takahashi
PDF
Boost.Flyweight
by
gintenlabo
PPT
Rpscala2011 0601
by
Hajime Yanagawa
PDF
hscj2019_ishizaki_public
by
Kazuaki Ishizaki
PDF
Data-Intensive Text Processing with MapReduce ch4
by
Sho Shimauchi
PDF
Tsukuba.R #7 5/9
by
Yo Ehara
PDF
あなたのScalaを爆速にする7つの方法(日本語版)
by
x1 ichi
PDF
社会ネットワーク分析第7回
by
Satoru Mikami
PDF
研究動向から考えるx86/x64最適化手法
by
Takeshi Yamamuro
PDF
An Experimental Study of Bitmap Compression vs. Inverted List Compression
by
Takeshi Yamamuro
PDF
Move semantics
by
mitsutaka_takeda
あまぁいRcpp生活
by
Masaki Tsuda
Rのオブジェクト
by
Itoshi Nikaido
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
by
MapR Technologies Japan
LLVMで遊ぶ(整数圧縮とか、x86向けの自動ベクトル化とか)
by
Takeshi Yamamuro
Map
by
kikairoya
T69 c++cli ネイティブライブラリラッピング入門
by
伸男 伊藤
Boost tour 1_40_0
by
Akira Takahashi
R's anti sparseness
by
ybenjo
C++0x 言語の未来を語る
by
Akira Takahashi
boost tour 1.48.0 all
by
Akira Takahashi
Boost.Flyweight
by
gintenlabo
Rpscala2011 0601
by
Hajime Yanagawa
hscj2019_ishizaki_public
by
Kazuaki Ishizaki
Data-Intensive Text Processing with MapReduce ch4
by
Sho Shimauchi
Tsukuba.R #7 5/9
by
Yo Ehara
あなたのScalaを爆速にする7つの方法(日本語版)
by
x1 ichi
社会ネットワーク分析第7回
by
Satoru Mikami
研究動向から考えるx86/x64最適化手法
by
Takeshi Yamamuro
An Experimental Study of Bitmap Compression vs. Inverted List Compression
by
Takeshi Yamamuro
Move semantics
by
mitsutaka_takeda
More from Shintaro Fukushima
PDF
20230216_Python機械学習プログラミング.pdf
by
Shintaro Fukushima
PDF
機械学習品質管理・保証の動向と取り組み
by
Shintaro Fukushima
PDF
Materials Informatics and Python
by
Shintaro Fukushima
PDF
BPstudy sklearn 20180925
by
Shintaro Fukushima
PDF
Juliaによる予測モデル構築・評価
by
Shintaro Fukushima
PDF
data.tableパッケージで大規模データをサクッと処理する
by
Shintaro Fukushima
PDF
アクションマイニングを用いた最適なアクションの導出
by
Shintaro Fukushima
PDF
外れ値
by
Shintaro Fukushima
PDF
Rでreproducible research
by
Shintaro Fukushima
PDF
不均衡データのクラス分類
by
Shintaro Fukushima
PDF
Numpy scipyで独立成分分析
by
Shintaro Fukushima
PDF
Rで学ぶロバスト推定
by
Shintaro Fukushima
PDF
Tokyo.R(#07)
by
Shintaro Fukushima
20230216_Python機械学習プログラミング.pdf
by
Shintaro Fukushima
機械学習品質管理・保証の動向と取り組み
by
Shintaro Fukushima
Materials Informatics and Python
by
Shintaro Fukushima
BPstudy sklearn 20180925
by
Shintaro Fukushima
Juliaによる予測モデル構築・評価
by
Shintaro Fukushima
data.tableパッケージで大規模データをサクッと処理する
by
Shintaro Fukushima
アクションマイニングを用いた最適なアクションの導出
by
Shintaro Fukushima
外れ値
by
Shintaro Fukushima
Rでreproducible research
by
Shintaro Fukushima
不均衡データのクラス分類
by
Shintaro Fukushima
Numpy scipyで独立成分分析
by
Shintaro Fukushima
Rで学ぶロバスト推定
by
Shintaro Fukushima
Tokyo.R(#07)
by
Shintaro Fukushima
mmapパッケージを使ってお手軽オブジェクト管理
1.
mmapパッケージを使って お手軽オブジェクト管理 2011年11月26日
Japan.R LT @sfchaos
2.
自己紹介 � データ分析コンサルタント � 一昔前はRやC++で金融工学 �
最近はヘルスケア関連の分析 2
3.
Rの問題点としてよく聞く話 「Rはオンメモリだから
大規模データは無理・・・」 3
4.
確かに1オブジェクトが 数10GB~TBクラスの
データをRで扱うのは難しい ※ Revolution Analytics, bigmemory, ffなどを 使う手はあるが,機能が限定的 4
5.
だが,手元で分析する場合は, 複数のオブジェクトが積み重なり メモリを逼迫することも少なくない
(体験談) 5
6.
それなら,必要なときに read.csv(or read.table/scan)
で読み込もう! 6
7.
遅っ・・・!
(CPU: Intel Core i7) > # Data Expo 2009のデータを読み込む(2008年度分) > system.time(x <- read.csv("../data/2008.csv")) ユーザ システム 経過 70.790 6.730 78.874 7
8.
あるいはsave/load関数で バイナリ形式で保存・読み込む
8
9.
この方法は データ全体を読み込むので オブジェクトが不要になったら 人力で削除しなければならない
9
10.
そんなとき役立つかもしれないのが
mmapパッケージ! 10
11.
> # Data
Expo 2009のデータ(2008年度分,657MB) > system.time(x <- read.csv("../data/2008.csv")) ユーザ システム 経過 70.790 6.730 78.874 > object.size(x) 813470376 bytes > gc() used (Mb) gc trigger (Mb) max used (Mb) Ncells 181957 9.8 407500 21.8 350000 18.7 Vcells 101932893 777.7 310681082 2370.4 310100488 2365.9 11
12.
確かに最初はmmap形式にデータを
変換するのに時間はかかるが 一旦生成すればメモリへの負担は軽い > system.time(y <- as.mmap(x, file="2008.mmap")) ユーザ システム 経過 26.340 75.590 352.476 > object.size(y) 264 bytes > rm(x) 12
13.
データフレームで読みこんだ後に mmapに変換するのではなく, フラットファイルから直接mmapに
変換したい 13
14.
mmap.csvという関数があるが,
うまくいかず・・・ 14
15.
とは言うものの, やはり巨大なデータも扱いたい!
15
16.
bigmemoryパッケージ周辺の機能を
拡張したい! 16
17.
class BigDataFrame :
boost::noncopyable { public: enum DataType {CHAR=1, SHORT=2, INT=3, DOUBLE=4, COMPLEX=5}; public: BigDataFrame(index_type nrow, index_type ncol) : nrow_(nrow), ncol_(ncol) { // initializing shared pointer p = std::shared_ptr<Monitor>(new Monitor[ncol], std::default_delete<Monitor[]>()); まずはbigmemoryのデータフレーム 版を目指して開発していきたい 期待せずに待っていてください・・・ template <typename T> struct RecordValueVisitor : boost::static_visitor<> { RecordValueVisitor(T const& v) : val_(v) { } void operator ()(std::vector<T>& vec) const { vec.push_back(this->val_); } private: T val_; }; 17
Download