Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

福岡クラウドUG-BigQuery

1,006 views

Published on

福岡クラウドUG資料

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

福岡クラウドUG-BigQuery

  1. 1. Googleが作ったDWH BigQuery 宮田 和三郎 2017/08/31
  2. 2. 2 自己紹介 2 宮田 和三郎 嘉穂無線ホールディングス:データ活用エンジニア カホエンタープライズ:CTO ソフトハウス→外資ベンダー→現職
  3. 3. 3 BigQueryとは? 3 BigQuery は Google が提供するフルマネージドのエ ンタープライズ向けアナリティクス データ ウェアハウス です。 https://cloud.google.com/bigquery/?hl=ja
  4. 4. 4 そもそもDWH(データウェアハウス)とは? 4 データウェアハウスとは、直訳すれば「データの倉庫」 である。 利用者により定義範囲は異なるが、一般に時 系列に整理された大量の統合業務データ、もしくはそ の管理システムを指す。 https://ja.wikipedia.org/wiki/データウェアハウス 主な製品(オンプレ) ■ Exadata(Oracle) ■ PureData(IBM) ■ HANA(SAP) ■ Teradata(Teradata) 主な製品(クラウド) ■ Redshift(AWS) ■ Azure SQL Data Warehouse(Microsoft) ■ Snowflake(Snowflake) ■ BigQuery(GCP)
  5. 5. 5 用途 5 ×不得意 ■ 業務システム(OLTP)のバックエンド ■ webのバックエンド ■ ゲームのバックエンド 〇得意 ■ ログ解析(アクセス、エラー、操作・・) ■ 大量データのバッチ処理 ■ 分析(Window関数、UDF)
  6. 6. 6 とにかく速い! ■ 億を超えるレコード数でも数秒で処理 1TBのデータを1秒でフルスキャンにするには5,000台のディスクが必要 なぜBigQueryはこんなインチキ臭いほどに高速なのか。BigQueryは、Cloudera Impara等のいまどき の大規模並列(Massively Parallel Processing/MPP)クエリエンジンや過去のデータウェアハウスマシ ンと同じくカラム型のデータ分析専用データベースである。しかし、他の多くのカラム型DBとBigQuery との間には量子的飛躍が存在する。それは、並列度のオーダーだ。BigQueryでは、ひとつひとつのク エリを実行するたびに数百台〜数千台のマシンが同時並列に検索を実行している(←ケタ間違えてい ません)。文字通り、massivellyな並列処理だ。その上、インデックスは一切作らず、すべてディスクの フルスキャン(テーブルスキャン)で処理する。 引用:http://qiita.com/kazunori279/items/10ac0066ac9b0b5aaaf3
  7. 7. 7 とにかく楽! ■ 物理設計不要 ☐ サイジング(CPU,メモリ,Disk) ☐ データ格納方法(分散+ソート) ☐ インデックス不要(パフォチュー不要) ■ フルマネージメント ☐ AnalyzeやVacuum系の処理不要 ☐ さようならハードウェア障害! ☐ さようならディスク領域不足!
  8. 8. 8 とにかく安い! ■ 料金体系は使っただけの従量課金 操作 コスト メモ ストレージ GB あたり $0.02/月 毎月 10 GB まで無料。詳細はストレージの料金体系をご覧ください。 長期保存 GB あたり $0.01/月 長期保存の料金をご覧ください。 ストリーミング イン サート GB あたり $0.05 ストレージの料金体系をご覧ください。 クエリ TB あたり $5 毎月 1 TB まで無料。詳細はオンデマンドの料金体系をご覧ください。 多くの容量をご使用のお客 様は定額料金もご利用いただけます。 データの読み込み 無料 BigQuery へのデータの読み込みをご覧ください。 データのコピー 無料 テーブルのコピーをご覧ください。 データのエクスポート 無料 BigQuery からのデータのエクスポートをご覧ください。 メタデータ オペレー ション 無料 list、get、patch、update、delete の呼び出し。 17年08月現在
  9. 9. 9 注意 ■ SQLが2種類存在(Legacy or Standard) →Standard(SQL:2011準拠)がオススメ ■ コストの見積が難しい。 →定額料金あるが、手が届かない。 →変な使い方をしない限り、まず問題ない ■ どんなクエリでも秒単位ではかかる。 →用途を間違えない。 ■ パフォーマンスチューニング不可 →諦める。そもそも速い ■ DML(UPDATE/DELETE)実行回数制限あり →設計で回避
  10. 10. 1010 無料お試し! 1.無料トライアル枠あります $300 の無料クレジットで、あらゆる GCP プロダクトをお試し いただけます(最大12か月)。 https://cloud.google.com/free/?hl=ja 2.BigQuery無料枠あります ストレージ:10GB/月、クエリ:1TB/月 https://cloud.google.com/bigquery/pricing?hl=ja 3.お試しデータあります サンプルデータ:wikipedia全記事改定履歴など 一般公開データ:ニューヨーク市内のタクシー移動など https://cloud.google.com/bigquery/sample-tables https://cloud.google.com/bigquery/public-data/?hl=ja
  11. 11. 11 ご清聴ありがとうございました 無料で遊べます。とりあえず遊んでみよう!

×