SlideShare a Scribd company logo
1 of 25
ビッグデータをシンプル・高速に!
日本発の大規模データ解析用 OSS
2014 年 6 月 26 日
株式会社 NYSOL
前川 浩基
1Copyright © 2014 NYSOL All rights reserved.
データ分析、うまくいってますか?
• 世間では、統計学やデータ分析についての
本が多く出版され、ベストセラーとなっている。
• しかし…実は多くの企業で、データ分析は
成功していない。それはなぜか…?
Copyright © 2014 NYSOL All rights reserved. 2
データの前処理は思い通りにできています
か?
前処理の重要性
• 入手できるデータは、ほぼすべて “Bad Data”。
欠損値、はずれ値、フォーマット違い、入力間違い、…等がある
• そのまま統計ソフトに入力しても、まともな結果は出ない。
“Garbage In, Garbage Out”
• データマイニングは、まず 「前処理」 から始まる。
3
分析前処理
Copyright © 2014 NYSOL All rights reserved.
では、どうやって?
• 誰がやるべきか
– システム部門 ?
– ユーザー部門 ?
• そのためのツールはあるか
– Excel ?
– 頑張ってプログラミング ?
• ビッグデータに対応できるか
4Copyright © 2014 NYSOL All rights reserved.
データは現場にある
• データの解釈力は、現場にかなわない
• データ分析の第一歩は、データと “戯れる” こと
• 大量のデータを、高速に、
対話的に、探索的に操作できるツールの重要性
5Copyright © 2014 NYSOL All rights reserved.
そこで、
• 大量のデータを、高速に、
対話的に、探索的に操作できるツール群
6Copyright © 2014 NYSOL All rights reserved.
あなたが
日付 オーダー時刻 レシートNo 商品コード 商品名 伝票No テーブルNo 単価 数量 合計金額
20070701 1152 5589 107 和牛焼肉弁当 4 4 1240 1 1240
20070701 1228 5594 102 冷麺定食 11 24 1130 2 2260
20070701 1208 5595 105 オリジナル3品盛り合わせ 9 22 880 1 880
20070701 1208 5595 107 和牛焼肉弁当 9 22 1240 1 1240
20070701 1226 5596 107 和牛焼肉弁当 10 21 1240 1 1240
20070701 1354 5601 103 石焼ビビンバ膳 13 1 1130 1 1130
20070701 1156 5598 201 いわて和牛しゃぶしゃぶ膳 5 7 1720 2 3440
20070701 1123 5588 302 焼肉ヘルシーセット 1 1 1410 1 1410
20070701 1132 5590 305 特上焼肉厚切りセット 2 3 2470 2 4940
20070701 1200 5591 301 今日の焼肉盛り合わせ 8 23 1330 2 2660
20070701 1158 5592 303 上焼肉盛り合わせセット 7 6 1430 3 4290
: : : : : ; : : : :
日付 オーダー時刻 レシートNo 商品コード 商品名 伝票No テーブルNo 単価 数量 合計金額
20070701 1152 5589 107 和牛焼肉弁当 4 4 1240 1 1240
20070701 1228 5594 102 冷麺定食 11 24 1130 2 2260
20070701 1208 5595 105 オリジナル3品盛り合わせ 9 22 880 1 880
20070701 1208 5595 107 和牛焼肉弁当 9 22 1240 1 1240
20070701 1226 5596 107 和牛焼肉弁当 10 21 1240 1 1240
20070701 1354 5601 103 石焼ビビンバ膳 13 1 1130 1 1130
20070701 1156 5598 201 いわて和牛しゃぶしゃぶ膳 5 7 1720 2 3440
20070701 1123 5588 302 焼肉ヘルシーセット 1 1 1410 1 1410
20070701 1132 5590 305 特上焼肉厚切りセット 2 3 2470 2 4940
20070701 1200 5591 301 今日の焼肉盛り合わせ 8 23 1330 2 2660
20070701 1158 5592 303 上焼肉盛り合わせセット 7 6 1430 3 4290
: : : : : ; : : : :
顧客 生年月日 性別
00000B 19461025 女
00000C 19660307 女
00001C 19490513 女
00002A 19570411 女
00002C 19580713 女
00003A 19540422 女
00003C 19550422 女
: ; :
顧客 生年月日 性別
00000B 19461025 女
00000C 19660307 女
00001C 19490513 女
00002A 19570411 女
00002C 19580713 女
00003A 19540422 女
00003C 19550422 女
: ; :
特定の行を取り出す(mselstr)
• サンプルデータ(焼肉店の POS データ)
• 「商品名」 列に 「弁当」 または 「定食」 を含む行を取り出す
Copyright © 2014 NYSOL All rights reserved. 7
$ mselstr i=yakiniku.csv f=商品名 v=弁当,定食 –sub
日付 オーダー時刻 レシートNo 商品コード 商品名 伝票No テーブルNo 単価 数量 合計金額
20070701 1152 5589 107 和牛焼肉弁当 4 4 1240 1 1240
20070701 1228 5594 102 冷麺定食 11 24 1130 2 2260
20070701 1208 5595 105 オリジナル3品盛り合わせ 9 22 880 1 880
20070701 1208 5595 107 和牛焼肉弁当 9 22 1240 1 1240
20070701 1226 5596 107 和牛焼肉弁当 10 21 1240 1 1240
20070701 1354 5601 103 石焼ビビンバ膳 13 1 1130 1 1130
20070701 1156 5598 201 いわて和牛しゃぶしゃぶ膳 5 7 1720 2 3440
: : : : : ; : : : :
キー単位に合計を求める(msum)
• 「合計金額」 列を 「日付」 ごとに合計したい
Copyright © 2014 NYSOL All rights reserved. 8
日付 オーダー時刻 レシートNo 商品コード 商品名 伝票No テーブルNo 単価 数量 合計金額
20070701 1152 5589 107 和牛焼肉弁当 4 4 1240 1 1240
20070701 1228 5594 102 冷麺定食 11 24 1130 2 2260
20070701 1208 5595 105 オリジナル3品盛り合わせ 9 22 880 1 880
20070701 1208 5595 107 和牛焼肉弁当 9 22 1240 1 1240
20070701 1226 5596 107 和牛焼肉弁当 10 21 1240 1 1240
: : : : : : : : : :
20070702 1159 5647 107 和牛焼肉弁当 2 3 1240 2 2480
20070702 1207 5649 101 ビビンバ定食 3 5 990 1 990
20070702 1214 5652 106 ミンチカツの弁当 4 4 1070 1 1070
: : : : : : : : : :
$ msum i=yakiniku.csv k=日付 f=合計金額
9Copyright © 2014 NYSOL All rights reserved.
表を結合する(mjoin)
dat.csv cust.csv
$ mjoin i=dat.csv m=cust.csv k=顧客 f=性別
• POS データに、顧客属性(性別)を結合する
実 績
– 平成 25 年度 「データ解析コンペティション」
最優秀賞 受賞
http://www.zaikei.co.jp/releases/160553/
10Copyright © 2014 NYSOL All rights reserved.
実 績
– 人工知能学会金融情報学研究会(SIG-FIN)
優秀論文賞 受賞(2012 年度)
「大規模ニュースデータと株価収益率の予測可能性について」
http://www.kwansei-ac.jp/iba/news/2013/10/2012-3.html
11Copyright © 2014 NYSOL All rights reserved.
汎用性の高い CSV データ
入力データも出力データも使いやすい CSV 形式データなので、
様々なアプリケーションとの連携が可能
☓ 複雑な SQL → 管理が大変で運用困難
◎ シンプルな CSV → 早い・簡単・柔らかい
12
基幹系システム NYSOL 分析
SQL文
(CSV出力)
各種業務データ
CSV形式データ
Copyright © 2014 NYSOL All rights reserved.
仕組みはシンプル
13Copyright © 2014 NYSOL All rights reserved.
• シンプルなコマンド群
– データの加工に特化した
コマンドが約 70 種類
• 組み合わせは無限大
– 単純なコマンドの組み合わせ
で加工処理を実現
UNIX という考え方 : 9つの定理
• スモール・イズ・ビューティフル
• 一つのプログラムには一つのことをうまくやらせる
• できるだけ早く試作を作成する
• 効率よりも移植性
• 数値ファイルはASCIIフラットファイルに保存する
• ソフトウェアを梃子として使う
• シェルスクリプトによって梃子の効果と移植性を高める
• 過度の対話的インターフェースを避ける
• 全てのプログラムをフィルタとして設計する
M. Gancarz (芳尾桂監訳)『UNIXという考え方』オーム社,2001.
14Copyright © 2014 NYSOL All rights reserved.
15
UNIX の 「パイプ」
Copyright © 2014 NYSOL All rights reserved.
msortf
入力ファイル
muniq mcut
結果ファイル
複数のコマンドが、
「パイプ」 を介して
つながっている
• 1つ1つのコマンドは単純な機能しか持たないが、
複数のコマンドをパズルのように組み合わせることで
ユーザの求める処理を実現する
オープンソースで公開
• すべて無料のオープンソースソフトウェア
– NYSOL は大学やプロジェクトでの研究成果を広く産業界
に還元する目的で設立されている。そのため、商用版・無
料版などの分類はなく、すべてのソフトを無料で使うこと
が可能
– 分析により収益を生んだとしても、その多くが高いライセ
ンス費を支払うことで自社に残る利益が少ない、といった
ケースが往々にある。NYSOLは無料提供のため、分析事
業の利益を圧迫しない
Copyright © 2014 NYSOL All rights reserved. 16
マニュアルや自習教材も公開
• コマンドリファレンス
– 約 70 のコマンドすべてについて、リファレンスマニュアル
を公開。コマンド実行例も多数記載
• 自習教材
– 自習用のテキスト
(チュートリアル)を、
サンプルデータと共に
公開
Copyright © 2014 NYSOL All rights reserved. 17
とは
• 大規模データの解析に関する様々な大学やプロジェクトでの
研究成果を広く産業界に還元する目的で構築されたソフト
ウェアツールの総称、およびそのプロジェクト活動
• 「にそる」の語源はアイヌ語の「雲」。本プロジェクトが、ERATO
湊離散構造処理系プロジェクトへの参加をきっかけとして発
足したことから、「北海道」と「クラウド時代」の二つの意味を
かけている
• プロジェクトリーダは関西学院大学経営戦略研究科
(ビジネススクール)の羽室行信准教授
18Copyright © 2014 NYSOL All rights reserved.
大学による総合情報拠点
・大規模データセンターの構築
・NYSOL*の開発運用
・基礎アルゴリズムの研究
・教育、ビジネスへの参加
R&D
・日本的MBAプログラムの構築
・世界の思想、哲学、宗教を必須化
・世界の優秀な研究者/実務家の集積
・NYSOLを利用した教育(OJT)
・修了生の組織化
MBA教育
・集積データを活用したビジネスの展開
・ファンドの運用
・コンサルティング
・業務システムの開発支援
・R&Dとの緊密な連携、教育への参加
ビジネス
システム構築、
データ解析サービ
ス
データの提供
開発への参加
Copyright © 2014 NYSOL All rights reserved. 19
Mコマンド
• 「m」 で始まるデータ加工コマンド群の総称
• Mコマンドを使えば、標準的な PC であっても、
数億件規模のデータ処理が可能である
• Mコマンドは NYSOL の一部
20Copyright © 2014 NYSOL All rights reserved.
ほかにもあります
• 公式サイト http://www.nysol.jp
• データマイニングツール、応用ソフトウェア、マニュアル群
21Copyright © 2014 NYSOL All rights reserved.
JRルート列挙サービス Ekillion
• 大阪、東京、福岡、新潟近
郊区間が対象。
• バックエンドで Graphillionを
利用
• 120円(130円)で行くJR大回り
旅の検索エンジンとしての
利用を想定。
• 列挙された全ルートを、駅数、
営業距離によって並べ替え
ることも可能。
• 駅弁販売駅をできるだけ多
く通るルート列挙など「なん
ちゃって検索」も可能。
• アマゾン上で公開中
指定された任意の2駅間の全ルート
を列挙/表示するアプリケーション
22Copyright © 2014 NYSOL All rights reserved.
Download Now!
• ダウンロードは、NYSOL のトップページから
• Mac OS X、Ubuntu Linux ならインストールも簡単
Copyright © 2014 NYSOL All rights reserved. 23
研修コースもあります
NYSOL によるデータマイニング トレーニング
(データ加工編:1日コース)
対象者 ビジネスユーザー、データサイエンスチーム
形式 お客さま指定日(1日間)
こんな方に
オススメ
データ加工が必要なデータがたくさんある
さまざまなデータ加工が必要
SQL スクリプトを得意としている人材が少ない
データベースでは速度のパフォーマンスが出ない
データベースでは大規模データを扱えない
価格 基本価格 15 万円 + 受講者数 × 5万円 (税別)
定員 1 〜 5名程度
Copyright © 2014 NYSOL All rights reserved. 24
ご静聴ありがとうございました
お問い合わせは、
KSK アナリティクス まで
Copyright © 2014 NYSOL All rights reserved. 25

More Related Content

Viewers also liked

エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現する
エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現するエフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現する
エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現するSatoshi Ishikawa
 
RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】Satoshi Kitajima
 
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)KSK Analytics Inc.
 
8つの魔法の習得 -RとRubyによるデータ解析入門より-
8つの魔法の習得 -RとRubyによるデータ解析入門より-8つの魔法の習得 -RとRubyによるデータ解析入門より-
8つの魔法の習得 -RとRubyによるデータ解析入門より-Yuki Shimizu
 
米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向Takatsugu Kobayashi
 
New Technology Trends and Effects on Business
New Technology Trends and Effects on BusinessNew Technology Trends and Effects on Business
New Technology Trends and Effects on BusinessRie Yamanaka
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
ログ収集フレームワークの新バージョン「FlumeNG」
ログ収集フレームワークの新バージョン「FlumeNG」ログ収集フレームワークの新バージョン「FlumeNG」
ログ収集フレームワークの新バージョン「FlumeNG」AdvancedTechNight
 
Building large scale applications in yarn with apache twill
Building large scale applications in yarn with apache twillBuilding large scale applications in yarn with apache twill
Building large scale applications in yarn with apache twillHenry Saputra
 
data.tableパッケージで大規模データをサクッと処理する
data.tableパッケージで大規模データをサクッと処理するdata.tableパッケージで大規模データをサクッと処理する
data.tableパッケージで大規模データをサクッと処理するShintaro Fukushima
 
Harnessing the power of YARN with Apache Twill
Harnessing the power of YARN with Apache TwillHarnessing the power of YARN with Apache Twill
Harnessing the power of YARN with Apache TwillTerence Yim
 
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTipsAmazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTipsyuichi_komatsu
 
Awsとrubyで作るビッグデータ解析の裏側
Awsとrubyで作るビッグデータ解析の裏側Awsとrubyで作るビッグデータ解析の裏側
Awsとrubyで作るビッグデータ解析の裏側Shohei Kobayashi
 
ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?Shohei Hido
 
SQL, NoSQL, BigData in Data Architecture
SQL, NoSQL, BigData in Data ArchitectureSQL, NoSQL, BigData in Data Architecture
SQL, NoSQL, BigData in Data ArchitectureVenu Anuganti
 
Big data presentation for mcpc
Big data presentation for mcpcBig data presentation for mcpc
Big data presentation for mcpcCLOUDIAN KK
 
Building Business UIs with EMF Forms (ECE2014)
Building Business UIs with EMF Forms (ECE2014)Building Business UIs with EMF Forms (ECE2014)
Building Business UIs with EMF Forms (ECE2014)Maximilian Kögel
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識Katsuhiro Morishita
 
[DDBJ Challenge 2016] 遺伝研スーパーコンピュータのビッグデータ解析環境
[DDBJ Challenge 2016] 遺伝研スーパーコンピュータのビッグデータ解析環境[DDBJ Challenge 2016] 遺伝研スーパーコンピュータのビッグデータ解析環境
[DDBJ Challenge 2016] 遺伝研スーパーコンピュータのビッグデータ解析環境DNA Data Bank of Japan center
 
Architecting a Next Generation Data Platform
Architecting a Next Generation Data PlatformArchitecting a Next Generation Data Platform
Architecting a Next Generation Data Platformhadooparchbook
 

Viewers also liked (20)

エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現する
エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現するエフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現する
エフスタ東京Vol3 ビッグデータ解析手法を用いてソーシャルメディアの評価分析を実現する
 
RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】RapidMinerのインストール【CentOS 6.5】
RapidMinerのインストール【CentOS 6.5】
 
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
【KSKアナリティクス】 NYSOL インストール (Windows 64 bit 編)
 
8つの魔法の習得 -RとRubyによるデータ解析入門より-
8つの魔法の習得 -RとRubyによるデータ解析入門より-8つの魔法の習得 -RとRubyによるデータ解析入門より-
8つの魔法の習得 -RとRubyによるデータ解析入門より-
 
米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向
 
New Technology Trends and Effects on Business
New Technology Trends and Effects on BusinessNew Technology Trends and Effects on Business
New Technology Trends and Effects on Business
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
ログ収集フレームワークの新バージョン「FlumeNG」
ログ収集フレームワークの新バージョン「FlumeNG」ログ収集フレームワークの新バージョン「FlumeNG」
ログ収集フレームワークの新バージョン「FlumeNG」
 
Building large scale applications in yarn with apache twill
Building large scale applications in yarn with apache twillBuilding large scale applications in yarn with apache twill
Building large scale applications in yarn with apache twill
 
data.tableパッケージで大規模データをサクッと処理する
data.tableパッケージで大規模データをサクッと処理するdata.tableパッケージで大規模データをサクッと処理する
data.tableパッケージで大規模データをサクッと処理する
 
Harnessing the power of YARN with Apache Twill
Harnessing the power of YARN with Apache TwillHarnessing the power of YARN with Apache Twill
Harnessing the power of YARN with Apache Twill
 
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTipsAmazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
 
Awsとrubyで作るビッグデータ解析の裏側
Awsとrubyで作るビッグデータ解析の裏側Awsとrubyで作るビッグデータ解析の裏側
Awsとrubyで作るビッグデータ解析の裏側
 
ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?
 
SQL, NoSQL, BigData in Data Architecture
SQL, NoSQL, BigData in Data ArchitectureSQL, NoSQL, BigData in Data Architecture
SQL, NoSQL, BigData in Data Architecture
 
Big data presentation for mcpc
Big data presentation for mcpcBig data presentation for mcpc
Big data presentation for mcpc
 
Building Business UIs with EMF Forms (ECE2014)
Building Business UIs with EMF Forms (ECE2014)Building Business UIs with EMF Forms (ECE2014)
Building Business UIs with EMF Forms (ECE2014)
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
 
[DDBJ Challenge 2016] 遺伝研スーパーコンピュータのビッグデータ解析環境
[DDBJ Challenge 2016] 遺伝研スーパーコンピュータのビッグデータ解析環境[DDBJ Challenge 2016] 遺伝研スーパーコンピュータのビッグデータ解析環境
[DDBJ Challenge 2016] 遺伝研スーパーコンピュータのビッグデータ解析環境
 
Architecting a Next Generation Data Platform
Architecting a Next Generation Data PlatformArchitecting a Next Generation Data Platform
Architecting a Next Generation Data Platform
 

【NYSOL】ビッグデータをシンプル・高速に!日本発の大規模データ解析用OSS

Editor's Notes

  1. タブ区切りテキストからの変換等も