Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Satoshi Kitajima
22,611 views
#TokyoR 39 高速に前処理するNYSOL
高速に前処理するNYSOLについて、#TokyoR 39で発表しました。 主にMコマンド(MCMD)をご紹介しています。
Data & Analytics
◦
Read more
29
Save
Share
Embed
Embed presentation
Download
Downloaded 56 times
1
/ 28
2
/ 28
3
/ 28
4
/ 28
5
/ 28
6
/ 28
7
/ 28
8
/ 28
9
/ 28
10
/ 28
11
/ 28
12
/ 28
13
/ 28
14
/ 28
15
/ 28
16
/ 28
17
/ 28
18
/ 28
19
/ 28
20
/ 28
21
/ 28
22
/ 28
23
/ 28
24
/ 28
25
/ 28
26
/ 28
27
/ 28
28
/ 28
More Related Content
PPTX
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
by
Satoshi Kitajima
PDF
【KSKアナリティクス】 NYSOL 使い方 データ準備編
by
KSK Analytics Inc.
PDF
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
by
KSK Analytics Inc.
PDF
【KSKアナリティクス】 NYSOL 使い方 顧客数の確認編
by
KSK Analytics Inc.
PDF
【KSKアナリティクス】 NYSOL 使い方 【後編】 オープンデータ 分析 - 頻出パターン の作成・可視化 -
by
KSK Analytics Inc.
PPTX
SASより高速なRevolution R Enterprise
by
Satoshi Kitajima
PDF
【KSKアナリティクス】 【前編】 オープンデータ 分析 - XML ファイルからデータ抽出・整形 -
by
KSK Analytics Inc.
PDF
【KSKアナリティクス】 NYSOL 使い方 顧客の年齢を計算編
by
KSK Analytics Inc.
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
by
Satoshi Kitajima
【KSKアナリティクス】 NYSOL 使い方 データ準備編
by
KSK Analytics Inc.
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
by
KSK Analytics Inc.
【KSKアナリティクス】 NYSOL 使い方 顧客数の確認編
by
KSK Analytics Inc.
【KSKアナリティクス】 NYSOL 使い方 【後編】 オープンデータ 分析 - 頻出パターン の作成・可視化 -
by
KSK Analytics Inc.
SASより高速なRevolution R Enterprise
by
Satoshi Kitajima
【KSKアナリティクス】 【前編】 オープンデータ 分析 - XML ファイルからデータ抽出・整形 -
by
KSK Analytics Inc.
【KSKアナリティクス】 NYSOL 使い方 顧客の年齢を計算編
by
KSK Analytics Inc.
What's hot
PPTX
OSSのクラウド基盤 OpenStack / CloudStack
by
VirtualTech Japan Inc.
PDF
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
by
Insight Technology, Inc.
PDF
RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月
by
ossanalytics
PDF
ビッグデータ分析基盤を支えるOSSたち
by
Toru Takahashi
PDF
Google Cloud のネットワークとロードバランサ
by
Google Cloud Platform - Japan
PDF
あらゆる検索を叶えるElastic Workplace Search
by
Elasticsearch
PDF
バッチを Akka Streams で再実装したら100倍速くなった話 #ScalaMatsuri
by
Kazuki Negoro
PDF
Spark on sql server?
by
Oda Shinsuke
PDF
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する
by
Google Cloud Platform - Japan
PDF
Cassandra Meetup Tokyo, 2016 Spring
by
Shigeru Harasawa
PDF
[Cloud OnAir] Google Cloud の考える次世代ハイブリッドクラウドとは? 2019年8月22日 放送
by
Google Cloud Platform - Japan
PDF
レボリューションR(RRE)のご紹介
by
Satoshi Kitajima
PPTX
OSSのクラウド基盤 OpenStack / CloudStack
by
Nobuyuki Tamaoki
PDF
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
by
Google Cloud Platform - Japan
PPTX
build2017のazure関連情報まとめ
by
裕之 木下
PPTX
OpenStack Summit Sydney OpenStackの運用や安定性に関する動向
by
kimura50
PPTX
Nutanix Advent Calendar 2021年12月22日分
by
itnews2
PDF
Cassandra Meetup Tokyo, 2016 Spring Part 2
by
Shigeru Harasawa
PPTX
Jawsfesta2018 oosaka sponsor
by
安隆 沖
OSSのクラウド基盤 OpenStack / CloudStack
by
VirtualTech Japan Inc.
[data analytics showcase] B11: ビッグデータを高速に検索・分析する「Elasticsearch」~新プラグイン「Graph」...
by
Insight Technology, Inc.
RapidMinerのご紹介(ラピッドマイナーの5つの重要ポイント)2013年12月
by
ossanalytics
ビッグデータ分析基盤を支えるOSSたち
by
Toru Takahashi
Google Cloud のネットワークとロードバランサ
by
Google Cloud Platform - Japan
あらゆる検索を叶えるElastic Workplace Search
by
Elasticsearch
バッチを Akka Streams で再実装したら100倍速くなった話 #ScalaMatsuri
by
Kazuki Negoro
Spark on sql server?
by
Oda Shinsuke
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する
by
Google Cloud Platform - Japan
Cassandra Meetup Tokyo, 2016 Spring
by
Shigeru Harasawa
[Cloud OnAir] Google Cloud の考える次世代ハイブリッドクラウドとは? 2019年8月22日 放送
by
Google Cloud Platform - Japan
レボリューションR(RRE)のご紹介
by
Satoshi Kitajima
OSSのクラウド基盤 OpenStack / CloudStack
by
Nobuyuki Tamaoki
[Cloud OnAir] ビジネスを変革する!クラウドを活用したデータ分析基盤の第一歩 (LIVE) 2018年4月12日 放送
by
Google Cloud Platform - Japan
build2017のazure関連情報まとめ
by
裕之 木下
OpenStack Summit Sydney OpenStackの運用や安定性に関する動向
by
kimura50
Nutanix Advent Calendar 2021年12月22日分
by
itnews2
Cassandra Meetup Tokyo, 2016 Spring Part 2
by
Shigeru Harasawa
Jawsfesta2018 oosaka sponsor
by
安隆 沖
Similar to #TokyoR 39 高速に前処理するNYSOL
PDF
おしゃスタ@リクルート
by
Issei Kurahashi
PPTX
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
by
__john_smith__
PDF
JupyterNotebookとMySQLでゼロからはじめるデータサイエンス
by
infinite_loop
PDF
TECHTALK 20200715 分析データをセルフサービスで準備ーデータマネージャーでもっとできる
by
QlikPresalesJapan
PDF
【KSKアナリティクス】会社案内・事例紹介
by
KSK Analytics Inc.
PDF
【KSKアナリティクス】製品・サービス案内
by
KSK Analytics Inc.
PDF
10分で分かるr言語入門ver2.10 14 1101
by
Nobuaki Oshiro
PDF
Mコマンド入門
by
weda654
PDF
ログ解析入門withR InnovationEggNo3
by
hiroki84
PPTX
【NYSOL】ビッグデータをシンプル・高速に!日本発の大規模データ解析用OSS
by
NYSOL
PDF
初心者のためのRとRStudio入門 vol.2
by
OWL.learn
PDF
Japan.r 2データベース
by
sleipnir002
PPTX
企業等に蓄積されたデータを分析するための処理機能の提案
by
Toshiyuki Shimono
PPTX
Data-driven Design: 4つの技法InfoPathを用いたスケーラブルSharePointソリューション
by
JamesLRishe
PDF
Tokyor60 r data_science_part1
by
Yohei Sato
PDF
2012年4月22日 カーネル/VM探検隊
by
Ryuichi Ueda
PDF
第87回PHP勉強会 LT 知って得するかもしれないテキスト処理コマンドのお話
by
Ryo Shibayama
PDF
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料
by
Shintaro Nomura
PDF
Rデータ処理入門
by
Hiroki K
PDF
20120326 zansa勉強会発表資料 (公開用) 02 04-38
by
tetsuro ito
おしゃスタ@リクルート
by
Issei Kurahashi
全部Excelだけで実現しようとして後悔するデータ分析 2nd Edition
by
__john_smith__
JupyterNotebookとMySQLでゼロからはじめるデータサイエンス
by
infinite_loop
TECHTALK 20200715 分析データをセルフサービスで準備ーデータマネージャーでもっとできる
by
QlikPresalesJapan
【KSKアナリティクス】会社案内・事例紹介
by
KSK Analytics Inc.
【KSKアナリティクス】製品・サービス案内
by
KSK Analytics Inc.
10分で分かるr言語入門ver2.10 14 1101
by
Nobuaki Oshiro
Mコマンド入門
by
weda654
ログ解析入門withR InnovationEggNo3
by
hiroki84
【NYSOL】ビッグデータをシンプル・高速に!日本発の大規模データ解析用OSS
by
NYSOL
初心者のためのRとRStudio入門 vol.2
by
OWL.learn
Japan.r 2データベース
by
sleipnir002
企業等に蓄積されたデータを分析するための処理機能の提案
by
Toshiyuki Shimono
Data-driven Design: 4つの技法InfoPathを用いたスケーラブルSharePointソリューション
by
JamesLRishe
Tokyor60 r data_science_part1
by
Yohei Sato
2012年4月22日 カーネル/VM探検隊
by
Ryuichi Ueda
第87回PHP勉強会 LT 知って得するかもしれないテキスト処理コマンドのお話
by
Ryo Shibayama
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料
by
Shintaro Nomura
Rデータ処理入門
by
Hiroki K
20120326 zansa勉強会発表資料 (公開用) 02 04-38
by
tetsuro ito
More from Satoshi Kitajima
PDF
RapidMinerのインストール【Mac OSX Mavericks】
by
Satoshi Kitajima
PPTX
データサイエンティスト必見!M-1グランプリ
by
Satoshi Kitajima
PDF
分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
by
Satoshi Kitajima
PDF
RapidMinerのインストール【Ubuntu 14.04 LTS】
by
Satoshi Kitajima
PDF
RapidMinerのインストール【CentOS 6.5】
by
Satoshi Kitajima
PDF
RapidMinerのインストール【Windows 7】
by
Satoshi Kitajima
RapidMinerのインストール【Mac OSX Mavericks】
by
Satoshi Kitajima
データサイエンティスト必見!M-1グランプリ
by
Satoshi Kitajima
分析革命がもたらすビッグデータの世界@Cloudera World Tokyo 2014
by
Satoshi Kitajima
RapidMinerのインストール【Ubuntu 14.04 LTS】
by
Satoshi Kitajima
RapidMinerのインストール【CentOS 6.5】
by
Satoshi Kitajima
RapidMinerのインストール【Windows 7】
by
Satoshi Kitajima
#TokyoR 39 高速に前処理するNYSOL
1.
NYSOL Partner KSK
Analytics 2014/5/31 第39回R勉強会@東京(#TokyoR) Lightning Talk 高速に前処理するNYSOL 株式会社KSKアナリティクス データアナリスト 北島 聡
2.
NYSOL Partner KSK
Analytics データ分析のプロセス 実は8割以上は前処理 社外データ 業務システム EXCEL 様々なデータ形式 膨大なデータ量 複雑なデータ構造 分析用 データ 各種・分析モデル クラス 分類 回帰 分析 パターン 解析 クラスタ リング CSV 繰り返しの 前処理 SQLクエリ? AWK? ETLツール? Python?Ruby? R? Excel?
3.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 3 データ分析のプロセス 実は8割以上は前処理 1. システム担当者はデータ加工を嫌がります 2. SQLは複雑・実行時間もかかりすぎます 3. プログラミングは実行まで時間がかかります 4. DWHや専用ツールはお金がかかります 5. データ加工には特殊な能力が必要? 分析用 データ 繰り返しの 前処理 SQLクエリ? AWK? ETLツール? Python?Ruby? R? Excel?
4.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 4 ・「にそる」と読みます。 ・日本発のオープンソースです。 ・すべて無料です。 ・www.nysol.jp
5.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 5
6.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 6 本日のご紹介は、 この「Mコマンド」です。
7.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 7 自信を持って 言えること
8.
NYSOL Partner KSK
Analytics Rより簡単。 © KSK Analytics Inc. 8 <
9.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 9 < Rより早い。
10.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 10 < 某DBより早い。
11.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 11 < Rより柔らかい。
12.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 12 皆さん、 ごめんなさい。
13.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 13 R勉強会ですが、
14.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 14 これからRの話は 全くしません m(__)m
15.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 15 簡単。早い。柔らかい。
16.
NYSOL Partner KSK
Analytics 仕組みはシンプル Mコマンド ・UNIXコマンド ・約70種類 ・CSVデータ 組み合わせは無限大 ・各コマンドを 「パイプ」で接続 © KSK Analytics Inc. 16
17.
NYSOL Partner KSK
Analytics 顧客の平均来店間隔日数を求めたい
18.
NYSOL Partner KSK
Analytics データはCSV
19.
NYSOL Partner KSK
Analytics STEP.1) 必要になる 「顧客」と「日付」項目を選択する。(「商品」を排除) mcut f=顧客,日付
20.
NYSOL Partner KSK
Analytics STEP.2) どの日に来店したかがわかればよいので、 同じ顧客で日付の重複行は省く。 muniq k=顧客,日付
21.
NYSOL Partner KSK
Analytics STEP.3) 「日付」項目の下レコードを横にずらす mslide k=顧客 f=日付:次日付
22.
NYSOL Partner KSK
Analytics STEP.4) 「次日付」-「日付」の日数計算を行う。 mcal c=‘$d{次日付}-‐$d{日付}’ a=日数
23.
NYSOL Partner KSK
Analytics STEP.5) 「日付」と「次日付」は必要ないので省く。 mcut f=顧客,日数
24.
NYSOL Partner KSK
Analytics STEP.6) 顧客別に日数の平均値を計算 (項目名を「平均来店間隔日数」とする) mavg k=顧客 f=日数:平均来店間隔日数
25.
NYSOL Partner KSK
Analytics シェルスクリプト 以上のような処理を実際にコンピュータで行うためには、1)コマンドラインから入力する、 もしくは2)シェルスクリプトを記述する、の大きく2パターン。 入力ファイルを「購買履歴データ.csv」、出力ファイル名を「結果.csv」とすると、シェルスク リプトでの記載は以下のようになります。 #!/bin/sh mcut f=顧客,日付 i=購買履歴データ.csv | muniq k=顧客,日付 | mslide k=顧客 f=日付:次日付 | mcal c='$d{次日付}-‐$d{日付}' a=日数 | mcut f=顧客,日数 | mavg k=顧客 f=日数:平均来店間隔日数 o=結果.csv
26.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 26 約70種類のコマンド(一覧がご覧いただけます) hmp://www.nysol.sakura.ne.jp/mcmd/jp/index.html
27.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 27 日本発のオープンソースです。 みなさん、一緒に応援しましょう!
28.
NYSOL Partner KSK
Analytics © KSK Analytics Inc. 28 株式会社KSKアナリティクス www.ksk-anl.com セールス & マーケティング本部 sales@ksk-anl.com www.nysol.jp 株式会社KSKアナリティクスでは、 NYSOLのビジネスサポート、トレーニング等を 提供しています。お気軽に問い合わせ下さい。 ダウンロードはこちらから UNIX環境(Linux, Macなど)で動作
Download