Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Tomohiro Shinden
PDF, PPTX
47,379 views
これでBigQueryをドヤ顔で語れる!BigQueryの基本
社内勉強会で発表するのに使った資料です。 google big queryが基本的な使い方が全て分かるようにまとめたもの ただし、続きはWebで(公式ドキュメントで)
Technology
◦
Read more
58
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 51
2
/ 51
3
/ 51
4
/ 51
5
/ 51
6
/ 51
7
/ 51
8
/ 51
9
/ 51
10
/ 51
11
/ 51
12
/ 51
13
/ 51
14
/ 51
15
/ 51
16
/ 51
17
/ 51
18
/ 51
19
/ 51
20
/ 51
21
/ 51
22
/ 51
23
/ 51
24
/ 51
25
/ 51
26
/ 51
27
/ 51
28
/ 51
29
/ 51
30
/ 51
31
/ 51
32
/ 51
33
/ 51
34
/ 51
35
/ 51
36
/ 51
37
/ 51
38
/ 51
39
/ 51
40
/ 51
41
/ 51
42
/ 51
43
/ 51
44
/ 51
45
/ 51
46
/ 51
47
/ 51
48
/ 51
49
/ 51
50
/ 51
51
/ 51
More Related Content
PDF
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
by
Techon Organization
PDF
1日5分でPostgreSQLに詳しくなるアプリの開発 ~PostgRESTを使ってみた~(第38回PostgreSQLアンカンファレンス@オンライン 発...
by
NTT DATA Technology & Innovation
PDF
ツール比較しながら語る O/RマッパーとDBマイグレーションの実際のところ
by
Y Watanabe
PDF
Python 3.9からの新定番zoneinfoを使いこなそう
by
Ryuji Tsutsui
PDF
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
by
NTT DATA Technology & Innovation
PDF
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
by
SSII
PDF
全力解説!Transformer
by
Arithmer Inc.
PPTX
Redisの特徴と活用方法について
by
Yuji Otani
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
by
Techon Organization
1日5分でPostgreSQLに詳しくなるアプリの開発 ~PostgRESTを使ってみた~(第38回PostgreSQLアンカンファレンス@オンライン 発...
by
NTT DATA Technology & Innovation
ツール比較しながら語る O/RマッパーとDBマイグレーションの実際のところ
by
Y Watanabe
Python 3.9からの新定番zoneinfoを使いこなそう
by
Ryuji Tsutsui
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
by
NTT DATA Technology & Innovation
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
by
SSII
全力解説!Transformer
by
Arithmer Inc.
Redisの特徴と活用方法について
by
Yuji Otani
What's hot
PDF
BigQueryの課金、節約しませんか
by
Ryuji Tamagawa
PDF
AWSではじめるMLOps
by
MariOhbuchi
PPTX
データ収集の基本と「JapanTaxi」アプリにおける実践例
by
Tetsutaro Watanabe
PDF
2025年現在のNewSQL (最強DB講義 #36 発表資料)
by
NTT DATA Technology & Innovation
PDF
ビジネスパーソンのためのDX入門講座エッセンス版
by
Tokoroten Nakayama
PPTX
PostgreSQLモニタリングの基本とNTTデータが追加したモニタリング新機能(Open Source Conference 2021 Online F...
by
NTT DATA Technology & Innovation
PDF
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
by
Tatsuya Matsushima
PPTX
WFSにおけるCloud SpannerとGKEを中心としたGCP導入事例の紹介
by
gree_tech
PDF
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
by
Deep Learning JP
PDF
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
by
NTT DATA Technology & Innovation
PDF
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
by
Ichigaku Takigawa
PDF
Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)
by
幸太朗 岩澤
PPTX
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
by
NTT DATA Technology & Innovation
PDF
リッチなドメインモデル 名前探し
by
増田 亨
PPTX
オンライン物理バックアップの排他モードと非排他モードについて ~PostgreSQLバージョン15対応版~(第34回PostgreSQLアンカンファレンス...
by
NTT DATA Technology & Innovation
PPTX
データ利活用を促進するメタデータ
by
Yahoo!デベロッパーネットワーク
PPTX
MLflowで学ぶMLOpsことはじめ
by
Kenichi Sonoda
PDF
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
by
Takayuki Itoh
PDF
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
by
Preferred Networks
PDF
グラフィカルモデル入門
by
Kawamoto_Kazuhiko
BigQueryの課金、節約しませんか
by
Ryuji Tamagawa
AWSではじめるMLOps
by
MariOhbuchi
データ収集の基本と「JapanTaxi」アプリにおける実践例
by
Tetsutaro Watanabe
2025年現在のNewSQL (最強DB講義 #36 発表資料)
by
NTT DATA Technology & Innovation
ビジネスパーソンのためのDX入門講座エッセンス版
by
Tokoroten Nakayama
PostgreSQLモニタリングの基本とNTTデータが追加したモニタリング新機能(Open Source Conference 2021 Online F...
by
NTT DATA Technology & Innovation
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
by
Tatsuya Matsushima
WFSにおけるCloud SpannerとGKEを中心としたGCP導入事例の紹介
by
gree_tech
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
by
Deep Learning JP
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
by
NTT DATA Technology & Innovation
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
by
Ichigaku Takigawa
Vertex AI Pipelinesで BigQuery MLのワークフローを管理 (ETL ~ デプロイまで)
by
幸太朗 岩澤
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
by
NTT DATA Technology & Innovation
リッチなドメインモデル 名前探し
by
増田 亨
オンライン物理バックアップの排他モードと非排他モードについて ~PostgreSQLバージョン15対応版~(第34回PostgreSQLアンカンファレンス...
by
NTT DATA Technology & Innovation
データ利活用を促進するメタデータ
by
Yahoo!デベロッパーネットワーク
MLflowで学ぶMLOpsことはじめ
by
Kenichi Sonoda
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
by
Takayuki Itoh
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
by
Preferred Networks
グラフィカルモデル入門
by
Kawamoto_Kazuhiko
Similar to これでBigQueryをドヤ顔で語れる!BigQueryの基本
PDF
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
by
Google Cloud Platform - Japan
PPTX
BigQuery Query Optimization クエリ高速化編
by
sutepoi
PDF
BigQueryを始めてみよう - Google Analytics データを活用する
by
Google Cloud Platform - Japan
PDF
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
by
Google Cloud Platform - Japan
PDF
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
by
Google Cloud Platform - Japan
PDF
BigQuery で 150万円 使ったときの話
by
itkr
PPTX
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
by
Tetsutaro Watanabe
PDF
BigQuery 使ってみよう
by
Noriko Takiguchi
PDF
Google Analytics のデータ分析ハンズオン
by
Kenichi Tatsuhama
PDF
RailsエンジニアのためのSQLチューニング速習会
by
Nao Minami
PDF
BigQueryのちょっとした話 #phpblt
by
kunit
PDF
BigQuery + Fluentd
by
徹 上野山
PDF
BigQueryで実現するデータ統合
by
さとる なかむら
PDF
gcpug_kyoto_bigquery
by
さとる なかむら
PDF
BigQueryを使ってみた(2018年2月)
by
Toshiyuki Shimono
PPTX
FutureTechNight_GoogleCloudデータ活用勉強会.pptx
by
shotamiyazaki6
PDF
Google BigQueryを使ってみた!
by
Yusuke Wada
KEY
Google bigqueryとは
by
Junya Yamaguchi
PDF
普通に使える?BigQuery
by
Wasaburo Miyata
PDF
Google BigQueryについて 紹介と推測
by
Ryuji Tamagawa
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
by
Google Cloud Platform - Japan
BigQuery Query Optimization クエリ高速化編
by
sutepoi
BigQueryを始めてみよう - Google Analytics データを活用する
by
Google Cloud Platform - Japan
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
by
Google Cloud Platform - Japan
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
by
Google Cloud Platform - Japan
BigQuery で 150万円 使ったときの話
by
itkr
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
by
Tetsutaro Watanabe
BigQuery 使ってみよう
by
Noriko Takiguchi
Google Analytics のデータ分析ハンズオン
by
Kenichi Tatsuhama
RailsエンジニアのためのSQLチューニング速習会
by
Nao Minami
BigQueryのちょっとした話 #phpblt
by
kunit
BigQuery + Fluentd
by
徹 上野山
BigQueryで実現するデータ統合
by
さとる なかむら
gcpug_kyoto_bigquery
by
さとる なかむら
BigQueryを使ってみた(2018年2月)
by
Toshiyuki Shimono
FutureTechNight_GoogleCloudデータ活用勉強会.pptx
by
shotamiyazaki6
Google BigQueryを使ってみた!
by
Yusuke Wada
Google bigqueryとは
by
Junya Yamaguchi
普通に使える?BigQuery
by
Wasaburo Miyata
Google BigQueryについて 紹介と推測
by
Ryuji Tamagawa
これでBigQueryをドヤ顔で語れる!BigQueryの基本
1.
BigQueryってなんぞ ~ これだけ知っていればドヤ顔でBigQueryを語れる ~ 2015-12-25
新田 智啓 1
2.
目次 2 ‣ BigQuery概要 ‣ BigQueryをちょっと試してみる ‣
BigQueryの基本 & Tips ‣ BigQueryの課金を減らす ‣ BigQueryまとめ
3.
BigQuery概要 3 ‣ Googleが出しているデータベースストレージ ‣ フルマネージドサービス(複数地域に透過的なレプリケーション) ‣
デカイデータも処理可能(ペタバイト級もらくらく) ‣ 従量課金制 (怖い) ‣ 列指向 (Indexは無い ってか要らない) ‣ WriteとReadのみ。Updateは出来ない(と思っておいたほうがよい)
4.
BigQuery概要 4 ‣ 分析に使う想定で、どんな軸でデータを見たいかを 事前にIndex設計とかしきれないよね。 ‣ データとして取れている、いろいろ全部の項目を 分析に使いたいよね。 ‣
全部にIndex張るとか出来ないの?
5.
BigQuery概要 5 ‣ Google的発想での解決 ‣ Index決めるのが無理なら、 全部スキャンすればいいじゃない ↓ 超絶マシン台数を用意して分散処理
6.
BigQuery概要 6 Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Compute Node Distributed file storage
layer (table) results
7.
BigQuery概要 7 ‣ なんとなくすごい
8.
トライアル 8 ‣ BigQueryを試してみる
9.
トライアル 9
10.
トライアル 10
11.
トライアル 11
12.
トライアル 12
13.
トライアル 13 ‣ 画面のCreate New
Tableからテーブル作成出来る ‣ CSVファイルなども手軽にimport ‣ Google Cloud Storageにあるデータも簡単にload ‣ 転送量無料 (バルク処理のみ、ストリームは有料)
14.
トライアル 14
15.
トライアル 15
16.
BigQueryの基本&Tips 16 ‣ BigQueryの基本&Tips
17.
BigQueryの基本&Tips 17 ‣ BigQueryは時に処理を数千台で行われる ‣ 指定されたテーブルの全てのデータを スキャンして処理を行う ‣
データサイズは数PBでも問題がない ‣ データサイズにもよるがクエリは数秒∼数分で返ってくる ‣ クエリでスキャンしたデータ量に対して課金
18.
BigQueryの基本&Tips 18 ‣ データのインポート 無料 ‣
データのエクスポート 無料 ‣ ストレージ 1GBあたり$0.020/月 (参考: AWSの東京S3は$0.019 /GB + In/Outの転送量) ‣ クエリ でスキャンしたデータ量1TBあたり$5 (月ごとに1TBの無料利用枠あり) ‣ Streaming Insert 200MBあたり$0.01 (以前は10万行につき$0.01)
19.
BigQueryの基本&Tips 19 ‣ プロジェクト >
データセット > テーブル の階層構造 ‣ 列指向データベース ‣ 全てのデータは登録した時の時間を持つ ‣ Google Cloud Storage と相性が良い ‣ Streamingでデータ投入可能(課金されます)
20.
BigQueryの基本&Tips 20 ‣ 基本はスキーマ定義する ‣ JSONを使うとスキーマレスで運用できる (SQLが難しくなるので、ご利用は計画的に) ‣
Streamingでの登録は fluent-plugin-bigqueryもある ‣ ローカルなど他の場所にあるデータは GCS(Google Cloud Storage)に入れてから BigQueryにインポートすると早い (bq loadコマンド)
21.
BigQueryの基本&Tips 21 ‣ bq コマンド ‣
ls : プロジェクトやデータセットの一覧を表示 ‣ load : ファイルなどをロード ‣ mk : テーブル作成 ‣ cp : テーブルなどのコピー ‣ query : クエリの実行 もっと知りたい人はこちら https://cloud.google.com/bigquery/bq-command-line-tool
22.
BigQueryの基本&Tips 22 ‣ BigQueryのSyntax ‣ SELECT ‣
JOIN ‣ FROM ‣ WHERE ‣ ORDER BY もっと知りたい人はこちら https://cloud.google.com/bigquery/query-reference . ‣ GROUP BY ‣ HAVING ‣ LIMIT ‣ ROLLUP ‣ OMIT…IF
23.
BigQueryの基本&Tips 23 もっと知りたい人はこちら https://cloud.google.com/bigquery/query-reference
24.
BigQueryの基本&Tips 24 ‣ Tips: BigQueryのCOUNT
function ‣ COUNT(DISTINCT(field_name))は概算値を返す ‣ fieldの値はnon-nullな値をCount ‣ 正確な数値が欲しい場合は EXACT_COUNT_DISTINCTもしくは GROUP EACH BYしてCOUNT(*) の値を取得する ‣ BigQueryのCOUNTは第2引数があり、COUNTの概 算値を出す時の精度を指定する。(デフォルト:1000)
25.
BigQueryの基本&Tips 25 ‣ BigQueryのJSONで使えるSyntax ‣ JSON_EXTRACT
: JSONのパスからvalueを取り出す ‣ FLATTEN : 配列を1行のデータへ置き換える ‣ WITHIN : JSONのNodeからデータを取り出す ‣ WITHIN RECODE: JSONのレコードからデータを取り出す もっと知りたい人はこちら https://cloud.google.com/bigquery/query-reference
26.
BigQueryの基本&Tips 26 ‣ Table wildcard
functions ‣ TABLE_DATE_RANGE ‣ TABLE_DATE_RANGE_STRICT ‣ TABLE_QUERY もっと知りたい人はこちら https://cloud.google.com/bigquery/query-reference ※具体的な使い方は後述
27.
BigQueryの基本&Tips 27 ‣ Table Decorators ‣
登録された時間に対してクエリ範囲を指定する (範囲をmillisecondsで指定する) ‣ 指定できるのは過去7日以内のデータのみ もっと知りたい人はこちら https://cloud.google.com/bigquery/table-decorators (例) 今から1ms前∼60秒前までのデータを検索 SELECT COUNT(*) FROM [dataset.access_log@-60000‒1];
28.
BigQueryの基本&Tips 28 ‣ もっと難しい変換とか計算したいんだけど! という方に。 ‣ 大丈夫です。 UDF(User-Defined
Functions) 使えます。 ‣ 言語はJavaScript もっと知りたい人はこちら https://cloud.google.com/bigquery/user-defined-functions
29.
BigQueryの基本&Tips 29 ‣ ThirdPartyToolとの連携
30.
BigQueryの課金を減らす 30 ‣ BigQueryの課金を減らす
31.
BigQueryの課金を減らす 31 BigQueryでは扱うデータも大きく 課金方法が他とは違い独特なため 気をつけないと大変なことになります。
32.
大変なことになった例 32 ‣ Qiita: BigQueryで150万円溶かした人の顔 http://qiita.com/itkr/items/745d54c781badc148bb9
33.
大変なことになった例 33 ‣ 既存データからSELECTしたデータで新テーブルを作ろうとした http://qiita.com/itkr/items/745d54c781badc148bb9 --allow_large_results をつけないと、 データ量が多い場合に "Error: Response
too large to return in big query というエラーになります。
34.
BigQueryの課金を減らす 34 ‣ クエリでスキャンしたデータ量に対して課金 ‣ 指定されたテーブルの全てのデータを スキャンして処理を行う ‣
= 指定したテーブルサイズで課金額が決まる ‣ = WHERE句は課金額に関係ない (検索結果が絞りこまれ数件でも課金額には関係がない)
35.
BigQueryの課金を減らす 35 ‣ では、どうすれば課金を 抑えることが出来るか ‣ ポイントは2つ
36.
BigQueryの課金を減らす 36 ‣ 1.列型指向データベース
37.
BigQueryの課金を減らす 37 ‣ 列型指向データベース ‣ カラムごとにデータを保持している ‣
不用意なSELECT * FROM … のクエリをやめ、 必要なカラムのみをSELECTで指定する C1 C2 C3 C4 C5 C6 C7 C8 C9 R1 R2 R3 R4 SELECT * の時にスキャンするデータ C1 C2 C3 C4 C5 C6 C7 C8 C9 R1 R2 R3 R4 SELECT C1,C2,C5,C8 の時に スキャンするデータ
38.
BigQueryの課金を減らす 38 ‣ 2.テーブル分割
39.
BigQueryの課金を減らす 39 ‣ スキャンの最小単位がテーブルなため テーブルを分割するのが定石 ‣ 巨大なデータで多いケースとして ログデータを扱うケースが多いため、まずは日付で 分割するのが定石 ‣
ログデータのため最近のデータほど価値が高い (利用頻度が多い)ケースが多い
40.
BigQueryの課金を減らす 40 ‣ テーブル分割 :
期間で分割したテーブルを利用する mydata.people20140325 mydata.people20140326 mydata.people20140327
41.
BigQueryの課金を減らす 41 ‣ テーブル分割 :
期間で分割したテーブルを利用する ‣ BigQueryで用意されている分割想定された関数を利用する ‣ TABLE_DATE_RANGE と TABLE_DATE_RANGE_STRICTの違いは シーケンスのなかで欠けている日次テーブルがあるときにエラーを返し ます。 ‣ 日別ではなく、月別で処理したいなどの時はYYYYMM01などの1日目 のデータのみを作るなどをすると楽です。
42.
BigQueryの課金を減らす 42 ‣ テーブル分割 :
自由なルールで分割する ‣ TABLE_QUERYを利用するとテーブル名に対して条件Queryを指定し て、合致したTableを検索対象のテーブルとして処理できます。 ‣ 例)テーブル名に oo が含まれて居て、テーブル名の長さが4以上のもの
43.
BigQueryの課金を減らす 43 ‣ テーブル分割 :
自由なルールで分割する ‣ 例)名前の先頭が "boo" で、 その後ろに 3 個から 5 個の数字の連続が含まれているテーブルにマッチする
44.
BigQueryの課金を減らす 44 ‣ テーブル分割 :
自由なルールで分割する ‣ テーブルを個別に指定する ‣ BigQueryのFROM句のカンマ区切りはJoinではなく、 Unionになっている
45.
BigQueryの課金を減らす 45 ‣ 課金額に気をつけるポイント まとめ
46.
BigQueryの課金を減らす 46 ‣ WHERE句での絞り込みは課金には関係ない 関連するデータ全てをスキャンする (絞り込み後ではなく絞り込むために読むデータに対して課金される) ‣ SELECT句で指定するカラムできるだけ絞り込む (列指向なので油断してSelect
* FROM … などにしない) ‣ テーブルは分割する(通常は期間で分割) TABLE_DATE_RANGEを使う前提で作ると便利 ‣ 全期間で複数回のクエリを実行して分析したいときは BigQueryを諦めて別の仕組みを利用することを考える (RedShift、Hadoop系のSparkやHive等、ElasticSearch)
47.
最新Update情報 47 ‣ 米国時間12/15 Updateほやほや ‣
監視ログ機能の追加(Beta) https://cloud.google.com/logging/docs/audit/ ‣ クォータをユーザが設定可能に!(使いすぎ防止) ‣ Query Explainグラフィカルツール ‣ などなど
48.
まとめ 48 ‣ BigQueryまとめ
49.
まとめ 49 ‣ 更新は出来ない!分析用途で利用! ‣ デカイデータに対して少ないクエリ回数で 利用出来る時に使える(データ量に対して激安!) (クエリ回数が多い時はまずRedShiftを検討) ‣
フルスキャンに気をつけろ!(トロケる) ‣ Index無し。あらゆる項目を軸に分析出来る! ‣ どれだけデカくなっても早い!!! ‣ Google的、富豪的解決方法!
50.
まとめ 50 明日から BigQueryはGoogleの発想だから 出来たんだよね! とドヤ顔で言ってやりましょう
51.
ありがとうございました 51 ご清聴ありがとうございました
Download