Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

【NYSOL】ビッグデータをシンプル・高速に!日本発の大規模データ解析用OSS

2,518 views

Published on

大規模データ解析用ソフトウェア NYSOL のご紹介です。
NYSOL はオープンソースソフトウェアですので、どなたでも自由にお使いいただけます。

Published in: Data & Analytics
  • Be the first to comment

【NYSOL】ビッグデータをシンプル・高速に!日本発の大規模データ解析用OSS

  1. 1. ビッグデータをシンプル・高速に! 日本発の大規模データ解析用 OSS 2014 年 6 月 26 日 株式会社 NYSOL 前川 浩基 1Copyright © 2014 NYSOL All rights reserved.
  2. 2. データ分析、うまくいってますか? • 世間では、統計学やデータ分析についての 本が多く出版され、ベストセラーとなっている。 • しかし…実は多くの企業で、データ分析は 成功していない。それはなぜか…? Copyright © 2014 NYSOL All rights reserved. 2 データの前処理は思い通りにできています か?
  3. 3. 前処理の重要性 • 入手できるデータは、ほぼすべて “Bad Data”。 欠損値、はずれ値、フォーマット違い、入力間違い、…等がある • そのまま統計ソフトに入力しても、まともな結果は出ない。 “Garbage In, Garbage Out” • データマイニングは、まず 「前処理」 から始まる。 3 分析前処理 Copyright © 2014 NYSOL All rights reserved.
  4. 4. では、どうやって? • 誰がやるべきか – システム部門 ? – ユーザー部門 ? • そのためのツールはあるか – Excel ? – 頑張ってプログラミング ? • ビッグデータに対応できるか 4Copyright © 2014 NYSOL All rights reserved.
  5. 5. データは現場にある • データの解釈力は、現場にかなわない • データ分析の第一歩は、データと “戯れる” こと • 大量のデータを、高速に、 対話的に、探索的に操作できるツールの重要性 5Copyright © 2014 NYSOL All rights reserved.
  6. 6. そこで、 • 大量のデータを、高速に、 対話的に、探索的に操作できるツール群 6Copyright © 2014 NYSOL All rights reserved. あなたが 日付 オーダー時刻 レシートNo 商品コード 商品名 伝票No テーブルNo 単価 数量 合計金額 20070701 1152 5589 107 和牛焼肉弁当 4 4 1240 1 1240 20070701 1228 5594 102 冷麺定食 11 24 1130 2 2260 20070701 1208 5595 105 オリジナル3品盛り合わせ 9 22 880 1 880 20070701 1208 5595 107 和牛焼肉弁当 9 22 1240 1 1240 20070701 1226 5596 107 和牛焼肉弁当 10 21 1240 1 1240 20070701 1354 5601 103 石焼ビビンバ膳 13 1 1130 1 1130 20070701 1156 5598 201 いわて和牛しゃぶしゃぶ膳 5 7 1720 2 3440 20070701 1123 5588 302 焼肉ヘルシーセット 1 1 1410 1 1410 20070701 1132 5590 305 特上焼肉厚切りセット 2 3 2470 2 4940 20070701 1200 5591 301 今日の焼肉盛り合わせ 8 23 1330 2 2660 20070701 1158 5592 303 上焼肉盛り合わせセット 7 6 1430 3 4290 : : : : : ; : : : : 日付 オーダー時刻 レシートNo 商品コード 商品名 伝票No テーブルNo 単価 数量 合計金額 20070701 1152 5589 107 和牛焼肉弁当 4 4 1240 1 1240 20070701 1228 5594 102 冷麺定食 11 24 1130 2 2260 20070701 1208 5595 105 オリジナル3品盛り合わせ 9 22 880 1 880 20070701 1208 5595 107 和牛焼肉弁当 9 22 1240 1 1240 20070701 1226 5596 107 和牛焼肉弁当 10 21 1240 1 1240 20070701 1354 5601 103 石焼ビビンバ膳 13 1 1130 1 1130 20070701 1156 5598 201 いわて和牛しゃぶしゃぶ膳 5 7 1720 2 3440 20070701 1123 5588 302 焼肉ヘルシーセット 1 1 1410 1 1410 20070701 1132 5590 305 特上焼肉厚切りセット 2 3 2470 2 4940 20070701 1200 5591 301 今日の焼肉盛り合わせ 8 23 1330 2 2660 20070701 1158 5592 303 上焼肉盛り合わせセット 7 6 1430 3 4290 : : : : : ; : : : : 顧客 生年月日 性別 00000B 19461025 女 00000C 19660307 女 00001C 19490513 女 00002A 19570411 女 00002C 19580713 女 00003A 19540422 女 00003C 19550422 女 : ; : 顧客 生年月日 性別 00000B 19461025 女 00000C 19660307 女 00001C 19490513 女 00002A 19570411 女 00002C 19580713 女 00003A 19540422 女 00003C 19550422 女 : ; :
  7. 7. 特定の行を取り出す(mselstr) • サンプルデータ(焼肉店の POS データ) • 「商品名」 列に 「弁当」 または 「定食」 を含む行を取り出す Copyright © 2014 NYSOL All rights reserved. 7 $ mselstr i=yakiniku.csv f=商品名 v=弁当,定食 –sub 日付 オーダー時刻 レシートNo 商品コード 商品名 伝票No テーブルNo 単価 数量 合計金額 20070701 1152 5589 107 和牛焼肉弁当 4 4 1240 1 1240 20070701 1228 5594 102 冷麺定食 11 24 1130 2 2260 20070701 1208 5595 105 オリジナル3品盛り合わせ 9 22 880 1 880 20070701 1208 5595 107 和牛焼肉弁当 9 22 1240 1 1240 20070701 1226 5596 107 和牛焼肉弁当 10 21 1240 1 1240 20070701 1354 5601 103 石焼ビビンバ膳 13 1 1130 1 1130 20070701 1156 5598 201 いわて和牛しゃぶしゃぶ膳 5 7 1720 2 3440 : : : : : ; : : : :
  8. 8. キー単位に合計を求める(msum) • 「合計金額」 列を 「日付」 ごとに合計したい Copyright © 2014 NYSOL All rights reserved. 8 日付 オーダー時刻 レシートNo 商品コード 商品名 伝票No テーブルNo 単価 数量 合計金額 20070701 1152 5589 107 和牛焼肉弁当 4 4 1240 1 1240 20070701 1228 5594 102 冷麺定食 11 24 1130 2 2260 20070701 1208 5595 105 オリジナル3品盛り合わせ 9 22 880 1 880 20070701 1208 5595 107 和牛焼肉弁当 9 22 1240 1 1240 20070701 1226 5596 107 和牛焼肉弁当 10 21 1240 1 1240 : : : : : : : : : : 20070702 1159 5647 107 和牛焼肉弁当 2 3 1240 2 2480 20070702 1207 5649 101 ビビンバ定食 3 5 990 1 990 20070702 1214 5652 106 ミンチカツの弁当 4 4 1070 1 1070 : : : : : : : : : : $ msum i=yakiniku.csv k=日付 f=合計金額
  9. 9. 9Copyright © 2014 NYSOL All rights reserved. 表を結合する(mjoin) dat.csv cust.csv $ mjoin i=dat.csv m=cust.csv k=顧客 f=性別 • POS データに、顧客属性(性別)を結合する
  10. 10. 実 績 – 平成 25 年度 「データ解析コンペティション」 最優秀賞 受賞 http://www.zaikei.co.jp/releases/160553/ 10Copyright © 2014 NYSOL All rights reserved.
  11. 11. 実 績 – 人工知能学会金融情報学研究会(SIG-FIN) 優秀論文賞 受賞(2012 年度) 「大規模ニュースデータと株価収益率の予測可能性について」 http://www.kwansei-ac.jp/iba/news/2013/10/2012-3.html 11Copyright © 2014 NYSOL All rights reserved.
  12. 12. 汎用性の高い CSV データ 入力データも出力データも使いやすい CSV 形式データなので、 様々なアプリケーションとの連携が可能 ☓ 複雑な SQL → 管理が大変で運用困難 ◎ シンプルな CSV → 早い・簡単・柔らかい 12 基幹系システム NYSOL 分析 SQL文 (CSV出力) 各種業務データ CSV形式データ Copyright © 2014 NYSOL All rights reserved.
  13. 13. 仕組みはシンプル 13Copyright © 2014 NYSOL All rights reserved. • シンプルなコマンド群 – データの加工に特化した コマンドが約 70 種類 • 組み合わせは無限大 – 単純なコマンドの組み合わせ で加工処理を実現
  14. 14. UNIX という考え方 : 9つの定理 • スモール・イズ・ビューティフル • 一つのプログラムには一つのことをうまくやらせる • できるだけ早く試作を作成する • 効率よりも移植性 • 数値ファイルはASCIIフラットファイルに保存する • ソフトウェアを梃子として使う • シェルスクリプトによって梃子の効果と移植性を高める • 過度の対話的インターフェースを避ける • 全てのプログラムをフィルタとして設計する M. Gancarz (芳尾桂監訳)『UNIXという考え方』オーム社,2001. 14Copyright © 2014 NYSOL All rights reserved.
  15. 15. 15 UNIX の 「パイプ」 Copyright © 2014 NYSOL All rights reserved. msortf 入力ファイル muniq mcut 結果ファイル 複数のコマンドが、 「パイプ」 を介して つながっている • 1つ1つのコマンドは単純な機能しか持たないが、 複数のコマンドをパズルのように組み合わせることで ユーザの求める処理を実現する
  16. 16. オープンソースで公開 • すべて無料のオープンソースソフトウェア – NYSOL は大学やプロジェクトでの研究成果を広く産業界 に還元する目的で設立されている。そのため、商用版・無 料版などの分類はなく、すべてのソフトを無料で使うこと が可能 – 分析により収益を生んだとしても、その多くが高いライセ ンス費を支払うことで自社に残る利益が少ない、といった ケースが往々にある。NYSOLは無料提供のため、分析事 業の利益を圧迫しない Copyright © 2014 NYSOL All rights reserved. 16
  17. 17. マニュアルや自習教材も公開 • コマンドリファレンス – 約 70 のコマンドすべてについて、リファレンスマニュアル を公開。コマンド実行例も多数記載 • 自習教材 – 自習用のテキスト (チュートリアル)を、 サンプルデータと共に 公開 Copyright © 2014 NYSOL All rights reserved. 17
  18. 18. とは • 大規模データの解析に関する様々な大学やプロジェクトでの 研究成果を広く産業界に還元する目的で構築されたソフト ウェアツールの総称、およびそのプロジェクト活動 • 「にそる」の語源はアイヌ語の「雲」。本プロジェクトが、ERATO 湊離散構造処理系プロジェクトへの参加をきっかけとして発 足したことから、「北海道」と「クラウド時代」の二つの意味を かけている • プロジェクトリーダは関西学院大学経営戦略研究科 (ビジネススクール)の羽室行信准教授 18Copyright © 2014 NYSOL All rights reserved.
  19. 19. 大学による総合情報拠点 ・大規模データセンターの構築 ・NYSOL*の開発運用 ・基礎アルゴリズムの研究 ・教育、ビジネスへの参加 R&D ・日本的MBAプログラムの構築 ・世界の思想、哲学、宗教を必須化 ・世界の優秀な研究者/実務家の集積 ・NYSOLを利用した教育(OJT) ・修了生の組織化 MBA教育 ・集積データを活用したビジネスの展開 ・ファンドの運用 ・コンサルティング ・業務システムの開発支援 ・R&Dとの緊密な連携、教育への参加 ビジネス システム構築、 データ解析サービ ス データの提供 開発への参加 Copyright © 2014 NYSOL All rights reserved. 19
  20. 20. Mコマンド • 「m」 で始まるデータ加工コマンド群の総称 • Mコマンドを使えば、標準的な PC であっても、 数億件規模のデータ処理が可能である • Mコマンドは NYSOL の一部 20Copyright © 2014 NYSOL All rights reserved.
  21. 21. ほかにもあります • 公式サイト http://www.nysol.jp • データマイニングツール、応用ソフトウェア、マニュアル群 21Copyright © 2014 NYSOL All rights reserved.
  22. 22. JRルート列挙サービス Ekillion • 大阪、東京、福岡、新潟近 郊区間が対象。 • バックエンドで Graphillionを 利用 • 120円(130円)で行くJR大回り 旅の検索エンジンとしての 利用を想定。 • 列挙された全ルートを、駅数、 営業距離によって並べ替え ることも可能。 • 駅弁販売駅をできるだけ多 く通るルート列挙など「なん ちゃって検索」も可能。 • アマゾン上で公開中 指定された任意の2駅間の全ルート を列挙/表示するアプリケーション 22Copyright © 2014 NYSOL All rights reserved.
  23. 23. Download Now! • ダウンロードは、NYSOL のトップページから • Mac OS X、Ubuntu Linux ならインストールも簡単 Copyright © 2014 NYSOL All rights reserved. 23
  24. 24. 研修コースもあります NYSOL によるデータマイニング トレーニング (データ加工編:1日コース) 対象者 ビジネスユーザー、データサイエンスチーム 形式 お客さま指定日(1日間) こんな方に オススメ データ加工が必要なデータがたくさんある さまざまなデータ加工が必要 SQL スクリプトを得意としている人材が少ない データベースでは速度のパフォーマンスが出ない データベースでは大規模データを扱えない 価格 基本価格 15 万円 + 受講者数 × 5万円 (税別) 定員 1 〜 5名程度 Copyright © 2014 NYSOL All rights reserved. 24
  25. 25. ご静聴ありがとうございました お問い合わせは、 KSK アナリティクス まで Copyright © 2014 NYSOL All rights reserved. 25

×