Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Masafumi Yokoyama
PDF, PPTX
918 views
百万件くらいのデータの扱い方
件数が多いデータの扱い方について。 キーワードは『荷物運び』です。 ※いわゆるビッグデータの話ではありません(Hadoopなどは千兆単位のデータを扱う)
Read more
1
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 25
2
/ 25
3
/ 25
4
/ 25
5
/ 25
6
/ 25
7
/ 25
8
/ 25
9
/ 25
10
/ 25
11
/ 25
12
/ 25
13
/ 25
14
/ 25
15
/ 25
16
/ 25
17
/ 25
18
/ 25
19
/ 25
20
/ 25
21
/ 25
22
/ 25
23
/ 25
24
/ 25
25
/ 25
More Related Content
PDF
One - Common Lispでもワンライナーしたい
by
t-sin
PDF
pecoを使おう
by
Hideaki Miyake
PDF
菩薩でもわかる!Rで動かすExcelアドインの作り方
by
Nagi Teramo
PDF
Inquisitor -Common Lispに文字コード判定を-
by
t-sin
PDF
MongoDBの使い方
by
Tatsuto Maetsu
KEY
詳解UNIXプログラミング 第4章 ファイルとディレクトリ
by
Takaya Kotohata
PDF
Redis Intro Osc2010 Tokyo Spring
by
Makoto Ohnami
PDF
C83 λカ娘の販促にやってきました
by
Kiwamu Okabe
One - Common Lispでもワンライナーしたい
by
t-sin
pecoを使おう
by
Hideaki Miyake
菩薩でもわかる!Rで動かすExcelアドインの作り方
by
Nagi Teramo
Inquisitor -Common Lispに文字コード判定を-
by
t-sin
MongoDBの使い方
by
Tatsuto Maetsu
詳解UNIXプログラミング 第4章 ファイルとディレクトリ
by
Takaya Kotohata
Redis Intro Osc2010 Tokyo Spring
by
Makoto Ohnami
C83 λカ娘の販促にやってきました
by
Kiwamu Okabe
Viewers also liked
PDF
PFI Seminar 2010/02/18
by
Preferred Networks
PDF
理系女子の恋愛と結婚 「東大で理系の恋愛を語ろう」
by
Marika UCHIDA
PDF
Unix 基礎
by
Sho A
PDF
Boost.SIMD
by
Akira Takahashi
PPTX
SIMDで整数除算
by
shobomaru
PDF
【幕張読書会】Unixカーネルの設計 3(バッファキャッシュ)
by
ktateish
PDF
Unixカーネルの設計 7 プロセスの制御
by
Norito Agetsuma
PPTX
GPUによる多倍長整数乗算の高速化手法の提案
by
Koji Kitano
PDF
Software Foundation:形式的証明と非形式的証明
by
T T
PDF
UNIXことはじめ
by
Tomoya Miwa
PPTX
Unixコマンド入門
by
Satosi Sakai
PDF
Xeonphiハッカソンでexpを作ってみた
by
MITSUNARI Shigeo
PPTX
エンジニアにMacを薦める理由
by
Hiroyuki Kusu
KEY
Unix2
by
Takaya Kotohata
PDF
私がお世話になった技術書たち
by
法林浩之
PDF
ふり返りハック ~ ライフをハッキングするために
by
虹 父
PPTX
IGDA_Sig-BoardGame_ワークショップ用資料
by
Ryosuke Sugawara
PPT
関西ライフハック研究会×アイデアプラント
by
Rikie Ishii
PDF
Editor縮小のススメ
by
Nobukazu Hanada
PDF
GTD 残業を減らす方法
by
Gaddict
PFI Seminar 2010/02/18
by
Preferred Networks
理系女子の恋愛と結婚 「東大で理系の恋愛を語ろう」
by
Marika UCHIDA
Unix 基礎
by
Sho A
Boost.SIMD
by
Akira Takahashi
SIMDで整数除算
by
shobomaru
【幕張読書会】Unixカーネルの設計 3(バッファキャッシュ)
by
ktateish
Unixカーネルの設計 7 プロセスの制御
by
Norito Agetsuma
GPUによる多倍長整数乗算の高速化手法の提案
by
Koji Kitano
Software Foundation:形式的証明と非形式的証明
by
T T
UNIXことはじめ
by
Tomoya Miwa
Unixコマンド入門
by
Satosi Sakai
Xeonphiハッカソンでexpを作ってみた
by
MITSUNARI Shigeo
エンジニアにMacを薦める理由
by
Hiroyuki Kusu
Unix2
by
Takaya Kotohata
私がお世話になった技術書たち
by
法林浩之
ふり返りハック ~ ライフをハッキングするために
by
虹 父
IGDA_Sig-BoardGame_ワークショップ用資料
by
Ryosuke Sugawara
関西ライフハック研究会×アイデアプラント
by
Rikie Ishii
Editor縮小のススメ
by
Nobukazu Hanada
GTD 残業を減らす方法
by
Gaddict
More from Masafumi Yokoyama
PDF
日本語フォント・メイリオ
by
Masafumi Yokoyama
PDF
文字コード略歴
by
Masafumi Yokoyama
PDF
コマンドプロンプト Tips
by
Masafumi Yokoyama
PDF
Rabbit on Sinatra
by
Masafumi Yokoyama
PDF
GitHubで学ぶバージョン管理
by
Masafumi Yokoyama
PDF
My add Git
by
Masafumi Yokoyama
PDF
文字コード略歴
by
Masafumi Yokoyama
PDF
Rabbit2.0!!
by
Masafumi Yokoyama
PDF
バージョン管理入門
by
Masafumi Yokoyama
日本語フォント・メイリオ
by
Masafumi Yokoyama
文字コード略歴
by
Masafumi Yokoyama
コマンドプロンプト Tips
by
Masafumi Yokoyama
Rabbit on Sinatra
by
Masafumi Yokoyama
GitHubで学ぶバージョン管理
by
Masafumi Yokoyama
My add Git
by
Masafumi Yokoyama
文字コード略歴
by
Masafumi Yokoyama
Rabbit2.0!!
by
Masafumi Yokoyama
バージョン管理入門
by
Masafumi Yokoyama
百万件くらいのデータの扱い方
1.
百万件くらいの データの扱い方 Unix大量ゴミファイル事件簿
Masafumi Yokoyama 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
2.
Rabbitについて
プレゼンテーションツール 実装: Ruby/GTK+ 動作: PC-UNIX/Win/Mac 文章とデザインの分離 バージョン管理しやすい 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
3.
テーマ
件数が多いデータの扱い方 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
4.
キーワードは『荷物運び』 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿
Powered by Rabbit 2.0.7
5.
一度に運ぶ量
大量 持てない 少量 夜になっても終わらない 適量 明るいうちに終わる 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
6.
考え方
件数が多いデータは、適量に分け て処理する まずは適量を見極める 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
7.
具体例
大量ファイルの削除 Unixサーバー GUIが使えない 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
8.
問題
ディレクトリ内の.gomiファイルを 全て削除したい 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
9.
状況分析
ls(dir)コマンドの末端 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
10.
分析結果
名前が長いファイルが大量にある ファイル名: 210バイト ファイル数: 10,000 # テストデータの作り方 $ cd /tmp ; mkdir gomi ; cd gomi $ ruby -e '0.upto((10 ** 4) - 1) {|i| `touch #{"gomi" * 50}_#{"%04d" % i}.gomi` }' $ (cd .. ; tar czf gomi.tar.gz gomi) #バックアップ $ (cd .. ; tar xzf gomi.tar.gz) #復元 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
11.
(1) 普通に削除
$ ls | wc -l #ファイル数を数える 10000 $ rm *.gomi /bin/rm: cannot execute [引数リストが長すぎます] $ ls | wc -l 10000 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
12.
消せな
い! 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
13.
原因
一度にrmコマンドに渡せる引数 には上限がある 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
14.
NG 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿
Powered by Rabbit 2.0.7
15.
(2) 1ファイルずつ削除
$ rm gomi...gomi_0000.gomi $ rm gomi...gomi_0001.gomi $ rm gomi...gomi_0002.gomi $ rm gomi...gomi_0003.gomi $ rm gomi...gomi_0004.gomi $ rm gomi...gomi_0005.gomi $ rm gomi...gomi_0006.gomi $ rm gomi...gomi_0007.gomi $ rm gomi...gomi_0008.gomi $ rm gomi...gomi_0009.gomi $ rm gomi...gomi_0010.gomi $ rm gomi...gomi_0011.gomi $ rm gomi...gomi_0012.gomi $ rm gomi...gomi_0013.gomi $ rm gomi...gomi_0014.gomi $ rm gomi...gomi_0015.gomi $ rm gomi...gomi_0016.gomi $ rm gomi...gomi_0017.gomi $ rm gomi...gomi_0018.gomi $ rm gomi...gomi_0019.gomi $ rm gomi...gomi_0020 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
16.
徹夜 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿
Powered by Rabbit 2.0.7
17.
NG 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿
Powered by Rabbit 2.0.7
18.
(3) 適量ずつ削除
$ ls | wc -l 10000 $ rm *0.gomi $ rm *1.gomi $ rm *2.gomi $ rm *3.gomi $ rm *4.gomi $ rm *5.gomi $ rm *6.gomi $ rm *7.gomi $ rm *8.gomi $ rm *9.gomi $ ls | wc -l 0 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
19.
(3) 適量ずつ削除
$ find . -name "*.gomi" | wc -l 10000 $ find . -name "*.gomi" | xargs rm $ find . -name "*.gomi" | wc -l 0 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
20.
OK! 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿
Powered by Rabbit 2.0.7
21.
落とし穴
以下のやり方だと、rmコマンドが一 万回呼ばれる $ find . -name "*.gomi" | xargs -i rm '{}' $ find . -name "*.gomi" -exec rm '{}' ; 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
22.
遅い
コマンドを呼ぶ回数が多いと遅くな る $ find . -name "*.gomi" | xargs rm #=> 0.147秒 $ find . -name "*.gomi" | xargs -i rm '{}' #=> 14.120秒 $ find . -name "*.gomi" -exec rm '{}' ; #=> 18.512秒 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
23.
徹夜の恐れ 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿
Powered by Rabbit 2.0.7
24.
適量ずつ
大量 持てない 少量 夜になっても終わらない 適量 明るいうちに終わる 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
25.
その他の例
DBMSのトランザクション処理 DB2では100件くらいずつコミットする IMPORTのcommitcountオプション プロセス数やスレッド数 メモリやCPUが100%で固定されない 程度に増やすと速い おわり 百万件くらいのデータの扱い方 - Unix大量ゴミファイル事件簿 Powered by Rabbit 2.0.7
Download