Submit Search
Upload
BigQueryを使ってみた(2018年2月)
•
0 likes
•
798 views
Toshiyuki Shimono
Follow
Google BigQuery この資料は社内関係者の許可を得て、BigQuery を初めて使って分かったことを人に随時説明するために、補助資料として作ったものを公開するものです。
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 8
Download now
Download to read offline
Recommended
BigQuery 使ってみよう
BigQuery 使ってみよう
Noriko Takiguchi
C# Database操作5 SqlDataAdapterを使用したデータの取得-
C# Database操作5 SqlDataAdapterを使用したデータの取得-
Hiroki Takahashi
C# Database操作6 SqlDataAdapterを使用したデータの更新-
C# Database操作6 SqlDataAdapterを使用したデータの更新-
Hiroki Takahashi
これでBigQueryをドヤ顔で語れる!BigQueryの基本
これでBigQueryをドヤ顔で語れる!BigQueryの基本
Tomohiro Shinden
BigQueryのちょっとした話 #phpblt
BigQueryのちょっとした話 #phpblt
kunit
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
弊社BigQuery節約節約事例
弊社BigQuery節約節約事例
shoishihara1
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud Platform - Japan
Recommended
BigQuery 使ってみよう
BigQuery 使ってみよう
Noriko Takiguchi
C# Database操作5 SqlDataAdapterを使用したデータの取得-
C# Database操作5 SqlDataAdapterを使用したデータの取得-
Hiroki Takahashi
C# Database操作6 SqlDataAdapterを使用したデータの更新-
C# Database操作6 SqlDataAdapterを使用したデータの更新-
Hiroki Takahashi
これでBigQueryをドヤ顔で語れる!BigQueryの基本
これでBigQueryをドヤ顔で語れる!BigQueryの基本
Tomohiro Shinden
BigQueryのちょっとした話 #phpblt
BigQueryのちょっとした話 #phpblt
kunit
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
弊社BigQuery節約節約事例
弊社BigQuery節約節約事例
shoishihara1
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud ベストプラクティス:Google BigQuery 編 - 03 : パフォーマンスとコストの最適化
Google Cloud Platform - Japan
Robust log process
Robust log process
Daisuke Yamazaki
BigQuery Query Optimization クエリ高速化編
BigQuery Query Optimization クエリ高速化編
sutepoi
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送
Google Cloud Platform - Japan
G gencorp
G gencorp
ssuser2d6984
Part 2: Data & AI 基盤 (製造リファレンス・アーキテクチャ勉強会)
Part 2: Data & AI 基盤 (製造リファレンス・アーキテクチャ勉強会)
Takeshi Fukuhara
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
Google Cloud Platform - Japan
賢くチェックするAWSの明細
賢くチェックするAWSの明細
Kieko Sakurai
気になる気になるAWSの利用料金
気になる気になるAWSの利用料金
Kieko Sakurai
Gitを使おう
Gitを使おう
takemaedenki
マーケティングで使えるBigQueryMLテンプレート
マーケティングで使えるBigQueryMLテンプレート
さとる なかむら
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
Google Cloud Platform - Japan
コスト削減から考えるAWSの効果的な利用方法
コスト削減から考えるAWSの効果的な利用方法
Aya Komuro
Google BigQueryのターゲットエンドポイントとしての利用
Google BigQueryのターゲットエンドポイントとしての利用
QlikPresalesJapan
Google Analytics のデータ分析ハンズオン
Google Analytics のデータ分析ハンズオン
健一 辰濱
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
takaya imai
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
Takahiro Inoue
わんくま東京勉強会#46 Azureセッション資料
わんくま東京勉強会#46 Azureセッション資料
Shinichiro Isago
わんくま東京勉強会#46 Azureセッション資料
わんくま東京勉強会#46 Azureセッション資料
guest628c07
nginxの紹介
nginxの紹介
Takashi Takizawa
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/IoT時代のデータベース GridDB
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/IoT時代のデータベース GridDB
griddb
国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)
Toshiyuki Shimono
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
Toshiyuki Shimono
More Related Content
Similar to BigQueryを使ってみた(2018年2月)
Robust log process
Robust log process
Daisuke Yamazaki
BigQuery Query Optimization クエリ高速化編
BigQuery Query Optimization クエリ高速化編
sutepoi
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送
Google Cloud Platform - Japan
G gencorp
G gencorp
ssuser2d6984
Part 2: Data & AI 基盤 (製造リファレンス・アーキテクチャ勉強会)
Part 2: Data & AI 基盤 (製造リファレンス・アーキテクチャ勉強会)
Takeshi Fukuhara
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
Google Cloud Platform - Japan
賢くチェックするAWSの明細
賢くチェックするAWSの明細
Kieko Sakurai
気になる気になるAWSの利用料金
気になる気になるAWSの利用料金
Kieko Sakurai
Gitを使おう
Gitを使おう
takemaedenki
マーケティングで使えるBigQueryMLテンプレート
マーケティングで使えるBigQueryMLテンプレート
さとる なかむら
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
Google Cloud Platform - Japan
コスト削減から考えるAWSの効果的な利用方法
コスト削減から考えるAWSの効果的な利用方法
Aya Komuro
Google BigQueryのターゲットエンドポイントとしての利用
Google BigQueryのターゲットエンドポイントとしての利用
QlikPresalesJapan
Google Analytics のデータ分析ハンズオン
Google Analytics のデータ分析ハンズオン
健一 辰濱
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
takaya imai
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
Takahiro Inoue
わんくま東京勉強会#46 Azureセッション資料
わんくま東京勉強会#46 Azureセッション資料
Shinichiro Isago
わんくま東京勉強会#46 Azureセッション資料
わんくま東京勉強会#46 Azureセッション資料
guest628c07
nginxの紹介
nginxの紹介
Takashi Takizawa
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/IoT時代のデータベース GridDB
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/IoT時代のデータベース GridDB
griddb
Similar to BigQueryを使ってみた(2018年2月)
(20)
Robust log process
Robust log process
BigQuery Query Optimization クエリ高速化編
BigQuery Query Optimization クエリ高速化編
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送
G gencorp
G gencorp
Part 2: Data & AI 基盤 (製造リファレンス・アーキテクチャ勉強会)
Part 2: Data & AI 基盤 (製造リファレンス・アーキテクチャ勉強会)
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
賢くチェックするAWSの明細
賢くチェックするAWSの明細
気になる気になるAWSの利用料金
気になる気になるAWSの利用料金
Gitを使おう
Gitを使おう
マーケティングで使えるBigQueryMLテンプレート
マーケティングで使えるBigQueryMLテンプレート
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
コスト削減から考えるAWSの効果的な利用方法
コスト削減から考えるAWSの効果的な利用方法
Google BigQueryのターゲットエンドポイントとしての利用
Google BigQueryのターゲットエンドポイントとしての利用
Google Analytics のデータ分析ハンズオン
Google Analytics のデータ分析ハンズオン
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
New Approach to Data Analysis System “Tableau + TreasureData” at Tableau User...
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
わんくま東京勉強会#46 Azureセッション資料
わんくま東京勉強会#46 Azureセッション資料
わんくま東京勉強会#46 Azureセッション資料
わんくま東京勉強会#46 Azureセッション資料
nginxの紹介
nginxの紹介
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/IoT時代のデータベース GridDB
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/IoT時代のデータベース GridDB
More from Toshiyuki Shimono
国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)
Toshiyuki Shimono
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
Toshiyuki Shimono
extracting only a necessary file from a zip file
extracting only a necessary file from a zip file
Toshiyuki Shimono
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
Toshiyuki Shimono
新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで
Toshiyuki Shimono
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Toshiyuki Shimono
Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...
Toshiyuki Shimono
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Toshiyuki Shimono
Seminar0917
Seminar0917
Toshiyuki Shimono
既存分析ソフトへ データを投入する前に 簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ データを投入する前に 簡便な分析するためのソフトの作り方の提案
Toshiyuki Shimono
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
Toshiyuki Shimono
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
Toshiyuki Shimono
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Toshiyuki Shimono
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
Toshiyuki Shimono
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど
Toshiyuki Shimono
ページャ lessを使いこなす
ページャ lessを使いこなす
Toshiyuki Shimono
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理
Toshiyuki Shimono
データ全貌把握の方法170324
データ全貌把握の方法170324
Toshiyuki Shimono
Macで開発環境を整える170420
Macで開発環境を整える170420
Toshiyuki Shimono
大きなテキストデータを閲覧するには
大きなテキストデータを閲覧するには
Toshiyuki Shimono
More from Toshiyuki Shimono
(20)
国際産業数理・応用数理会議のポスター(作成中)
国際産業数理・応用数理会議のポスター(作成中)
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
インターネット等からデータを自動収集するソフトウェアに必要な補助機能とその実装
extracting only a necessary file from a zip file
extracting only a necessary file from a zip file
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
A Hacking Toolset for Big Tabular Files -- JAPAN.PM 2021
新型コロナの感染者数 全国の状況 2021年2月上旬まで
新型コロナの感染者数 全国の状況 2021年2月上旬まで
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Multiplicative Decompositions of Stochastic Distributions and Their Applicat...
Theory to consider an inaccurate testing and how to determine the prior proba...
Theory to consider an inaccurate testing and how to determine the prior proba...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Interpreting Multiple Regressionvia an Ellipse Inscribed in a Square Extensi...
Seminar0917
Seminar0917
既存分析ソフトへ データを投入する前に 簡便な分析するためのソフトの作り方の提案
既存分析ソフトへ データを投入する前に 簡便な分析するためのソフトの作り方の提案
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
To Make Graphs Such as Scatter Plots Numerically Readable (PacificVis 2018, K...
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
Make Accumulated Data in Companies Eloquent by SQL Statement Constructors (PDF)
企業等に蓄積されたデータを分析するための処理機能の提案
企業等に蓄積されたデータを分析するための処理機能の提案
新入社員の頃に教えて欲しかったようなことなど
新入社員の頃に教えて欲しかったようなことなど
ページャ lessを使いこなす
ページャ lessを使いこなす
Guiを使わないテキストデータ処理
Guiを使わないテキストデータ処理
データ全貌把握の方法170324
データ全貌把握の方法170324
Macで開発環境を整える170420
Macで開発環境を整える170420
大きなテキストデータを閲覧するには
大きなテキストデータを閲覧するには
BigQueryを使ってみた(2018年2月)
1.
Google BigQuery を 使ってみた 2018-02-14 下野寿之 この資料は社内関係者の許可を得て、BigQuery を 初めて使って分かったことを人に随時説明するために、 補助資料として作ったものを公開するものです。
2.
BigQuery とは ØGoogle クラウドのサービスの1つ。 ØSQL⽂でデータの参照が出来る。 ØSQL⽂のUpdate と Deleteはできない。 Øインデックスも無いようだ。 Øとにかく速い。 Ø裏で数千台数万台のサーバーに計算を⾛らせている。 Ø今まで、2分以上かかったことが無い。 Ø簡単な計算は10〜15秒。簡単なのに60秒かかることもある。 Ø料⾦は
1TB(テラバイト)の参照に5ドル。 Øデータを1週間保管すると、同じ料⾦がかかる。 ØCPUに負荷がかかるような計算をしても、⼀定。 Ø参照する列(カラム)を減らすと、節約可能。 ØWhere 句で参照する⾏が、コスト上は減らない。
3.
BigQueryを使う為には • データのインポート: • GoogleクラウドのGCS(Google Cloud Storage)に データファイルを載せて、インポートを要する。 •
ブラウザで使う • Googleアカウントを1つだけログインして使う。 • 他のGoogleアカウントは使えない。 • ブラウザはChrome も Canaryも同時に起動すると、 メールやGoogleドライブの参照に便利。
4.
BigQuery のSQL • Legacy と標準(Standard) SQL
の選択が必要。 • ブラウザでオプション設定して使う。 • Legacyはjoinやcount(distinct ..)に各種配慮が必要。 • ジョイン(複数のテーブルの結合) • 最近は、{left, right, full} outer join が全て実⾏可能。 • 共有メモリの制約が気になったものの、問題無し。 • Over()句を使った分析関数が使える。 • Row_numer, rank, ntile, approx_{top_count ,quantile} • 配列も使える。 • 正規表現(regular expression)による演算も可能。
5.
BigQueryの結果の出⼒ • 20〜30⾏以内: • ブラウザからエクセルへコピペする。 •
少しコツが必要。コピー領域は出⼒表の 最後のセルをぴったり選択する必要があるようだ。 • 約1万⾏以内: • CSV 形式ですぐ出⼒出来る。 • “配列” を含むセルが存在すると、出⼒不能になる。 • それ以上 : • Google Cloud Storage を経由する。 • ローカルにGoogle Cloud SDK が必要のようだ。
6.
select age, q6[offset(1)], q6[offset(2)], q6[offset(3)], q6[offset(4)], q6[offset(5)] from (select age, approx_quantile(pay,6) q6 from T01 inner join PAY2016 using ( card_id ) group by age ) 1/6 2/6 3/6 4/6 5/6
7.
参照した4個の表 : 6 - 請求情報
7-確定情報 8-月次請求額 22-支払判定 6と7と22に各⽀払の⽇付情報あり。6と7と8に、毎⽉の締年⽉の⽇付列あり。
8.
Select PAY16.annual_pay , T07.price from T07 inner join PAY16 using ( card_id ) where rand () < T07.price / 57.124e8 # 各⽀払の額の57億1240万円に対する⽐で、ランダムに確率抽出。 図は R⾔語でプロット 2016年に2000万円以上請求されたカードによる、全体金額への貢献は約1%。
Download now