HANA Startup
ビックデータに会いたくて
13年6月29日土曜日
13年6月29日土曜日
x 30人
13年6月29日土曜日
12億件の生データ
13年6月29日土曜日
Amazon S3
CSV:65.1 GiB
13年6月29日土曜日
どうやって料理する?
13年6月29日土曜日
13年6月29日土曜日
MySQL
Second Generation 2XL
(m3.2xlarge)
CPU:8コア
ECU:26
メモリ:30 GiB
ノード:1つ
価格:$1.520/h
13年6月29日土曜日
SAP HANA One
Cluster Compute 8XL
(cc2.8xlarge)
CPU:32コア
ECU:88
メモリ:60.5 GiB
ノード:1つ
価格:$4.065/h
13年6月29日土曜日
Amazon Redshift
High Storage 8XL
(dw.hs1.8xlarge)
CPU:16コア
ECU:35
メモリ:120 GiB
ノード:2つ
価格:$20.00/h
13年6月29日土曜日
Amazon EMR /w Hive
High Memory 4XL
(m2.4xlarge)
CPU:8コア
ECU:26
メモリ:68.4 GiB
ノード:4つ
価格:$4.04/h
13年6月29日土曜日
Amazon DynamoDB
Provisioned IOPS
write : 10000 IOPS
read : 10000 IOPS
価格:$10.12/h
13年6月29日土曜日
各環境の
テーブルを定義する
13年6月29日土曜日
CREATE TABLE detail(
client_id varchar(4) NOT NULL,
sales_key varchar(50) NOT NULL,
receipt_line integer NOT NULL,
sales_d...
Amazon S3のデータを
インポートする方法
13年6月29日土曜日
MySQLの場合
> LOAD DATA INFILE "/usr/local/detail_aa"
INTO TABLE hanatest.detail;
13年6月29日土曜日
SAP HANA Oneの場合
> IMPORT FROM CSV FILE
'/backup/detail_aa.csv'
INTO "HOGE"."DETAIL"
WITH THREADS 10
BATCH 10000
RECORD DEL...
Amazon Redshiftの場合
> copy detail from
's3://bucket/hoge/detail_aa'
CREDENTIALS
'aws_access_key_id=?????;
aws_secret_access...
Amazon EMR /w Hiveの場合
> create external table detail (
client_id string, sales_key string,
receipt_line int, sales_date ti...
Amazon DynamoDBの場合
> CREATE	 EXTERNAL	 TABLE	 detail	 (client_id	 
string,	 sales_key	 string)	 STORED BY
'org.apache.hado...
インデックス無し
13年6月29日土曜日
普通のテーブル定義です!
13年6月29日土曜日
select count(*) from ”DETAIL”;
result : 1,233,895,734
hana : 0.02 s
redshift : 0.42 s
mysql : 24.0 s
emr : 約60分...
13年6月29...
select * from ”DETAIL”
result : all
hana : 0.04 s
redshift : 0.27 s
mysql : 0.00 s (local)
13年6月29日土曜日
select count(*) from (select
distinct "ARTICLE_KEY"
from "DETAIL")
result : 30,253
hana : 1.31 s
redshift : 21.93 s
mysql ...
select "SALES_DATE" from "DETAIL"
where "SALES_KEY" = ‘123456781234567’
and "RECEIPT_LINE" = ‘123’
result : 1
hana : 0.04 ...
select "SALES_DATE"
from "DETAIL"
where "SALES_KEY" like ‘%5678123%’
and "RECEIPT_LINE" = ‘123’
result : 27,719
hana : 0.5...
実は、、、
13年6月29日土曜日
SAP HANA : 12億レコード
Amazon Redshift : 7億レコード
MySQL : 1億レコード
でした。
13年6月29日土曜日
なぜ早い?
13年6月29日土曜日
SAP HANAが早い理由
1.CPU最適化
2.インメモリ
3.カラム型データストア
4.データ圧縮
13年6月29日土曜日
Amazon Redshiftが良い場合
1.増え続けるビックデータ
2.クラスタリングしたい
3.サービス利用したい
4.処理性能を後から上げたい
13年6月29日土曜日
Amazon DynamoDBが良い場合
1.スパイクな書き込みを保証したい
2.スパイクな読込みを保証したい
3.読み取り一貫性を保証したい
※SQLな集計関数は使えません
13年6月29日土曜日
Amazon EMRが良い場合
1.非定型な情報を集計したい
2.Hiveと合わせてSQL使いたい
13年6月29日土曜日
MySQLが良い場合
1.正規化された情報を扱いたい
2.トランザクション管理したい
13年6月29日土曜日
Amazon S3が良い場合
1.無限にスケールするストレージ
2.検索などがない場合
3.KVSな情報の場合
4.追記書き込みが無い場合
5.結果整合性で問題ない場合
13年6月29日土曜日
クラウド破産w
13年6月29日土曜日
13年6月29日土曜日
次回予告
スパイクアクセスに耐えたくて
13年6月29日土曜日
Upcoming SlideShare
Loading in...5
×

SAP Startup Forum Tokyo 2013 / SAP HANA One ビックデータに会いたくて

2,588
-1

Published on

SAP HANA Oneの性能って他のプロダクトと比較してどうなの?ってことで、様々なプロダクトと性能比較してみます。
実際に12億件のデータを挿入して検索を掛けることでHANAの速度を体感できます。

Published in: Technology, Travel

SAP Startup Forum Tokyo 2013 / SAP HANA One ビックデータに会いたくて

  1. 1. HANA Startup ビックデータに会いたくて 13年6月29日土曜日
  2. 2. 13年6月29日土曜日
  3. 3. x 30人 13年6月29日土曜日
  4. 4. 12億件の生データ 13年6月29日土曜日
  5. 5. Amazon S3 CSV:65.1 GiB 13年6月29日土曜日
  6. 6. どうやって料理する? 13年6月29日土曜日
  7. 7. 13年6月29日土曜日
  8. 8. MySQL Second Generation 2XL (m3.2xlarge) CPU:8コア ECU:26 メモリ:30 GiB ノード:1つ 価格:$1.520/h 13年6月29日土曜日
  9. 9. SAP HANA One Cluster Compute 8XL (cc2.8xlarge) CPU:32コア ECU:88 メモリ:60.5 GiB ノード:1つ 価格:$4.065/h 13年6月29日土曜日
  10. 10. Amazon Redshift High Storage 8XL (dw.hs1.8xlarge) CPU:16コア ECU:35 メモリ:120 GiB ノード:2つ 価格:$20.00/h 13年6月29日土曜日
  11. 11. Amazon EMR /w Hive High Memory 4XL (m2.4xlarge) CPU:8コア ECU:26 メモリ:68.4 GiB ノード:4つ 価格:$4.04/h 13年6月29日土曜日
  12. 12. Amazon DynamoDB Provisioned IOPS write : 10000 IOPS read : 10000 IOPS 価格:$10.12/h 13年6月29日土曜日
  13. 13. 各環境の テーブルを定義する 13年6月29日土曜日
  14. 14. CREATE TABLE detail( client_id varchar(4) NOT NULL, sales_key varchar(50) NOT NULL, receipt_line integer NOT NULL, sales_date timestamp NOT NULL, article_key integer, article_key2 integer, coupon_jancd varchar(13), sales integer, sales_tax integer, amount integer, discount integer, coupon integer, gross integer, regdate timestamp ); 13年6月29日土曜日
  15. 15. Amazon S3のデータを インポートする方法 13年6月29日土曜日
  16. 16. MySQLの場合 > LOAD DATA INFILE "/usr/local/detail_aa" INTO TABLE hanatest.detail; 13年6月29日土曜日
  17. 17. SAP HANA Oneの場合 > IMPORT FROM CSV FILE '/backup/detail_aa.csv' INTO "HOGE"."DETAIL" WITH THREADS 10 BATCH 10000 RECORD DELIMITED BY 'n' FIELD DELIMITED BY 't'; MERGE DELTA OF "HOGE"."DETAIL"; 13年6月29日土曜日
  18. 18. Amazon Redshiftの場合 > copy detail from 's3://bucket/hoge/detail_aa' CREDENTIALS 'aws_access_key_id=?????; aws_secret_access_key=?????' delimiter 't'; 13年6月29日土曜日
  19. 19. Amazon EMR /w Hiveの場合 > create external table detail ( client_id string, sales_key string, receipt_line int, sales_date timestamp,) row format delimited fields terminated by 't' lines terminated by 'n' stored as textfile location 's3://hoge/detail'; 13年6月29日土曜日
  20. 20. Amazon DynamoDBの場合 > CREATE EXTERNAL TABLE detail (client_id string, sales_key string) STORED BY 'org.apache.hadoop.hive.dynamodb.Dynam oDBStorageHandler' TBLPROPERTIES ("dynamodb.table.name" = "DETAIL_DYNAMO",  "dynamodb.column.mapping" = "col1: client_id,col2: sales_key");  13年6月29日土曜日
  21. 21. インデックス無し 13年6月29日土曜日
  22. 22. 普通のテーブル定義です! 13年6月29日土曜日
  23. 23. select count(*) from ”DETAIL”; result : 1,233,895,734 hana : 0.02 s redshift : 0.42 s mysql : 24.0 s emr : 約60分... 13年6月29日土曜日
  24. 24. select * from ”DETAIL” result : all hana : 0.04 s redshift : 0.27 s mysql : 0.00 s (local) 13年6月29日土曜日
  25. 25. select count(*) from (select distinct "ARTICLE_KEY" from "DETAIL") result : 30,253 hana : 1.31 s redshift : 21.93 s mysql : 53.42 s 13年6月29日土曜日
  26. 26. select "SALES_DATE" from "DETAIL" where "SALES_KEY" = ‘123456781234567’ and "RECEIPT_LINE" = ‘123’ result : 1 hana : 0.04 s redshift : 0.26 s mysql : 32.41 s 13年6月29日土曜日
  27. 27. select "SALES_DATE" from "DETAIL" where "SALES_KEY" like ‘%5678123%’ and "RECEIPT_LINE" = ‘123’ result : 27,719 hana : 0.57 s redshift : 6.88 s mysql : 31.67 s 13年6月29日土曜日
  28. 28. 実は、、、 13年6月29日土曜日
  29. 29. SAP HANA : 12億レコード Amazon Redshift : 7億レコード MySQL : 1億レコード でした。 13年6月29日土曜日
  30. 30. なぜ早い? 13年6月29日土曜日
  31. 31. SAP HANAが早い理由 1.CPU最適化 2.インメモリ 3.カラム型データストア 4.データ圧縮 13年6月29日土曜日
  32. 32. Amazon Redshiftが良い場合 1.増え続けるビックデータ 2.クラスタリングしたい 3.サービス利用したい 4.処理性能を後から上げたい 13年6月29日土曜日
  33. 33. Amazon DynamoDBが良い場合 1.スパイクな書き込みを保証したい 2.スパイクな読込みを保証したい 3.読み取り一貫性を保証したい ※SQLな集計関数は使えません 13年6月29日土曜日
  34. 34. Amazon EMRが良い場合 1.非定型な情報を集計したい 2.Hiveと合わせてSQL使いたい 13年6月29日土曜日
  35. 35. MySQLが良い場合 1.正規化された情報を扱いたい 2.トランザクション管理したい 13年6月29日土曜日
  36. 36. Amazon S3が良い場合 1.無限にスケールするストレージ 2.検索などがない場合 3.KVSな情報の場合 4.追記書き込みが無い場合 5.結果整合性で問題ない場合 13年6月29日土曜日
  37. 37. クラウド破産w 13年6月29日土曜日
  38. 38. 13年6月29日土曜日
  39. 39. 次回予告 スパイクアクセスに耐えたくて 13年6月29日土曜日
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×