Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

gcpug_kyoto_bigquery

GCPUG kyotoで話したスライドです〜。

  • Login to see the comments

gcpug_kyoto_bigquery

  1. 1. BigQuery なかむら さとる
  2. 2. 自己紹介 ● 名前: なかむら さとる ● 経歴: 元某小売系のインフラ・システム運用エンジニア。 今はグルーヴノーツという会社で働いています。 ● その他: Google Developers Experts(Cloud)、BigQueryとかデータ関連が大好き。 GCPUGで色々話しています。あと#bq_sushiやります。
  3. 3. BigQueryって?
  4. 4. BigQueryの仕組み ■The 12 Components of Google BigQuery https://medium.com/google-cloud/the-12-c omponents-of-google-bigquery-c2b49829a7 c7 ■重要なコンポーネント ・Dremel(クエリエンジン) ・Colossus(ストレージエンジン) ・Jupiter(ネットワーク) ・Borg(大規模コンテナ・クラスタ管理)
  5. 5. サーバレス・サービスモデル ● 完全なサーバレスモデルである ○ ハードウェア、機能アップデートの管理はすべて Googleが行う ○ VMやCPU、メモリ、ディスクサイズなどの設定も不要 ○ 数秒で数十万コアを利用することが出来る ○ 利用者はデータを入れること、抽出することだけを考える
  6. 6. 独自のストレージエンジン ● Colossus ○ GFS(Google File System)の後継 ○ データセンター規模でのファイルシステム ○ GmailやDocsなどと同じインフラ ○ 同じデータを3箇所のデータセンターにレプリケーション ○ データのシャーディング ○ 暗号化 ● Capacitor ○ カラムナーストレージフォーマット ○ データの最適化(並べ替えなど) ○ テーブルパーティショニング ● Poseidon ○ 様々なファイルフォーマットへの対応 (CSV,JSON,Avro,DataStore) ○ クエリとインポート/エクスポートの分離
  7. 7. Dremelというクエリエンジン ● 2015年にアップデート ● 最初はBigQuery独自のSQLだけでしたが、Standard-SQLにも対応 (※今後はStandard-SQLを利用、オプティマイザを実装) ● シャッフルやソートはインメモリで実施 ● Borgで管理 ● いつでも元気にフルスキャン
  8. 8. 独立したストレージとネットワーク ● Jupiterネットワーク ○ Googleが独自に開発したネットワーク( H/W,S/Wともに) ○ 1Pb/secの帯域 ○ 謎技術。。。。。(SDNであることは間違いない) ○ ストレージはネットワークで接続
  9. 9. 費用について ● クエリ課金 ○ クエリ毎に利用したカラムに対するデータ容量で課金 ○ 月額固定料金 ● ストレージ課金 ○ データ容量に対して課金 ○ 90日以上変更の無いテーブルはデータ容量に対しての課金が半額 ● ストリーミングインサート ○ バッチでInsertするのではなく、1行ずつ個別にいれるデータ量にたいして課金 ● https://cloud.google.com/bigquery/pricing?hl=ja#transfer
  10. 10. IAMと認証、監査ログ ● Google CloudのIAMと権限の連携(Read/Write/Admin) ● DataSet単位での権限付け ● 認証はO-Authとサービスアカウント ● すべての操作を監査ログで保存し、BigQueryへExportも可能
  11. 11. 制限事項 ● https://cloud.google.com/bigquery/quota-policy?hl=ja
  12. 12. Google Analytics BigQuery Export ● ユーザー単位で行動データ(JSON)がBigQueryにExportされます ● 360の契約が必要です。(135万円から。。。。)
  13. 13. Dataprep ● データを簡単に準備(加工)することができます。 ● つまり汚れたデータをきれいに!
  14. 14. DataStudioとは ● 簡単に言うと、パワポスライドに数値を埋め込むことが出来るツール ● リアルタイムにデータを取得することが出来たり、『ある程度』利用者が自由に データを出すことが出来る ● BIツールの超簡易版
  15. 15. デモる。 サンプルデータでデモる。
  16. 16. データを気軽に楽しく使いましょう!
  17. 17. 分散されたシステム
  18. 18. 分散されたシステム
  19. 19. 分散されたシステム
  20. 20. 分散されたシステム
  21. 21. 統合し(てみ)たシステム
  22. 22. もうちょっと話ししたい人が居れば
  23. 23. もうちょっと話ししたい人が居れば 懇親会で! (※BigQueryならなんぼでも)

×