プログラマのためのSQL読書会補助資料

プログラマのためのSQL
P492の難解SQL

テーブル定義
CREATE TABLE ProductTests
(batch_nbr INTEGER NOT NULL PRIMARY KEY,
prod_code CHAR(1) NOT NULL,
prod_quality DECIMAL(8,4) NOT NULL);
INSERT INTO ProductTests (batch_nbr, prod_code, prod_quality)
VALUES (1, 'A', 80),
(2, 'A', 70),
(3, 'A', 80),
(4, 'B', 60),
(5, 'B', 90),
(6, 'C', 80),
(7, 'D', 80),
(8, 'A', 50),
(9, 'C', 70);

問題のクエリ
SELECT X.prod_code, MIN(X.batch_nbr) AS start_batch_nbr, end_batch_nbr,
AVG(B4.prod_quality) AS avg_prod_quality
FROM (SELECT B1.prod_code, B1.batch_nbr,
MAX(B2.batch_nbr) AS end_batch_nbr
FROM ProductTests AS B1, ProductTests AS B2
WHERE B1.batch_nbr <= B2.batch_nbr
AND B1.prod_code = B2.prod_code
AND B1.prod_code
= ALL (SELECT prod_code
FROM ProductTests AS B3
WHERE B3.batch_nbr BETWEEN B1.batch_nbr
AND B2.batch_nbr)
GROUP BY B1.prod_code, B1.batch_nbr) AS X
INNER JOIN
ProductTests AS B4
ON B4.prod_code = X.prod_code
AND B4.batch_nbr = X.batch_nbr
GROUP BY X.prod_code, X.end_batch_nbr;

何がしたいクエリなのか？
製品のリストと品質スコアのデータを持つProductTestsというテーブルを考
えよう。このテーブルから、同じ製品のシーケンシャルなグループに対する品
質スコアの平均を求めたい。たとえば、製品Aのバッチ番号1、2、3に対する
平均品質スコアは、
(80+70+80)/3=76.6666…
といった具合だ。ここで注意が必要なのは、バッチ番号8番の製品Aのように、
飛び石になった場合は別グループとして扱うことだ。
Joe Celko. プログラマのためのSQL 第4版すべてを知り尽くしたいあなたに

対象データと結果
対象データ
select * from ProductTests;
batch_nbr | prod_code | prod_quality
-----------+-----------+--------------
1 | A | 80.0000
2 | A | 70.0000
3 | A | 80.0000
4 | B | 60.0000
5 | B | 90.0000
6 | C | 80.0000
7 | D | 80.0000
8 | A | 50.0000
9 | C | 70.0000
(9 rows)
件のSQLの実行結果
prod_code | start_batch_nbr | end_batch_nbr | avg_prod_quality
-----------+-----------------+---------------+---------------------
A | 1 | 3 | 76.6666666666666667
B | 4 | 5 | 75.0000000000000000
C | 6 | 6 | 80.0000000000000000
D | 7 | 7 | 80.0000000000000000
A | 8 | 8 | 50.0000000000000000
C | 9 | 9 | 70.0000000000000000
(6 rows)

クエリ解説1※実行SQLは赤字で示します
AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
※注意1 SELECT句の列指定は*としました。
※注意2 わかりやすさのためOrder byを加えています(行順意外に結果はありません)
batch_nbr | prod_code | prod_quality | batch_nbr | prod_code | prod_quality
-----------+-----------+--------------+-----------+-----------+--------------
1 | A | 80.0000 | 1 | A | 80.0000
1 | A | 80.0000 | 2 | A | 70.0000
1 | A | 80.0000 | 3 | A | 80.0000
1 | A | 80.0000 | 8 | A | 50.0000
2 | A | 70.0000 | 2 | A | 70.0000
2 | A | 70.0000 | 3 | A | 80.0000
2 | A | 70.0000 | 8 | A | 50.0000
3 | A | 80.0000 | 3 | A | 80.0000
3 | A | 80.0000 | 8 | A | 50.0000
4 | B | 60.0000 | 4 | B | 60.0000
4 | B | 60.0000 | 5 | B | 90.0000
5 | B | 90.0000 | 5 | B | 90.0000
6 | C | 80.0000 | 6 | C | 80.0000
6 | C | 80.0000 | 9 | C | 70.0000
7 | D | 80.0000 | 7 | D | 80.0000
8 | A | 50.0000 | 8 | A | 50.0000
9 | C | 70.0000 | 9 | C | 70.0000
(17 rows)

※実行SQLは赤字で示します
AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
クエリ解説1-1
元データ
-----------+-----------+--------------
1 | A | 80.0000
2 | A | 70.0000
3 | A | 80.0000
4 | B | 60.0000
5 | B | 90.0000
6 | C | 80.0000
7 | D | 80.0000
8 | A | 50.0000
9 | C | 70.0000
prod_codeが同じでbatch_nbrが大きいものと自己結合します
Aに限って考えると、Aのバッチ番号は{1,2,3,8}なので
{11,12,13,18, 22,23,28, 33,38, 88}の10通りのペアができます
-----------+-----------+--------------+-----------+-----------+--------------
1 | A | 80.0000 | 1 | A | 80.0000
1 | A | 80.0000 | 2 | A | 70.0000
1 | A | 80.0000 | 3 | A | 80.0000
1 | A | 80.0000 | 8 | A | 50.0000
2 | A | 70.0000 | 2 | A | 70.0000
2 | A | 70.0000 | 3 | A | 80.0000
2 | A | 70.0000 | 8 | A | 50.0000
3 | A | 80.0000 | 3 | A | 80.0000
3 | A | 80.0000 | 8 | A | 50.0000
4 | B | 60.0000 | 4 | B | 60.0000
4 | B | 60.0000 | 5 | B | 90.0000
5 | B | 90.0000 | 5 | B | 90.0000
6 | C | 80.0000 | 6 | C | 80.0000
6 | C | 80.0000 | 9 | C | 70.0000
7 | D | 80.0000 | 7 | D | 80.0000
8 | A | 50.0000 | 8 | A | 50.0000
9 | C | 70.0000 | 9 | C | 70.0000
(17 rows)
SELECT B1.prod_code, B1.batch_nbr,

AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
-----------+-----------+--------------+-----------+-----------+--------------
1 | A | 80.0000 | 1 | A | 80.0000
1 | A | 80.0000 | 2 | A | 70.0000
1 | A | 80.0000 | 3 | A | 80.0000
2 | A | 70.0000 | 2 | A | 70.0000
2 | A | 70.0000 | 3 | A | 80.0000
3 | A | 80.0000 | 3 | A | 80.0000
4 | B | 60.0000 | 4 | B | 60.0000
4 | B | 60.0000 | 5 | B | 90.0000
5 | B | 90.0000 | 5 | B | 90.0000
6 | C | 80.0000 | 6 | C | 80.0000
7 | D | 80.0000 | 7 | D | 80.0000
8 | A | 50.0000 | 8 | A | 50.0000
9 | C | 70.0000 | 9 | C | 70.0000
(13 rows)

AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
AND B1.prod_code
AND B2.batch_nbr)
クエリ解説2-1
青色の行が消えます
batch_nbr | prod_code | prod_quality | batch_nbr | prod_quality
-----------+-----------+--------------+-----------+--------------
1 | A | 80.0000 | 1 | 80.0000
1 | A | 80.0000 | 2 | 70.0000
1 | A | 80.0000 | 3 | 80.0000
1 | A | 80.0000 | 8 | 50.0000
2 | A | 70.0000 | 2 | 70.0000
2 | A | 70.0000 | 3 | 80.0000
2 | A | 70.0000 | 8 | 50.0000
3 | A | 80.0000 | 3 | 80.0000
3 | A | 80.0000 | 8 | 50.0000
4 | B | 60.0000 | 4 | 60.0000
4 | B | 60.0000 | 5 | 90.0000
5 | B | 90.0000 | 5 | 90.0000
6 | C | 80.0000 | 6 | 80.0000
6 | C | 80.0000 | 9 | 70.0000
7 | D | 80.0000 | 7 | 80.0000
8 | A | 50.0000 | 8 | 50.0000
9 | C | 70.0000 | 9 | 70.0000
(17 rows)
-----------+-----------+--------------+-----------+-----------+--------------
1 | A | 80.0000 | 1 | A | 80.0000
1 | A | 80.0000 | 2 | A | 70.0000
1 | A | 80.0000 | 3 | A | 80.0000
2 | A | 70.0000 | 2 | A | 70.0000
2 | A | 70.0000 | 3 | A | 80.0000
3 | A | 80.0000 | 3 | A | 80.0000
4 | B | 60.0000 | 4 | B | 60.0000
4 | B | 60.0000 | 5 | B | 90.0000
5 | B | 90.0000 | 5 | B | 90.0000
6 | C | 80.0000 | 6 | C | 80.0000
7 | D | 80.0000 | 7 | D | 80.0000
8 | A | 50.0000 | 8 | A | 50.0000
9 | C | 70.0000 | 9 | C | 70.0000
(13 rows)
またまたAに限ったケースで考えると…

AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
AND B1.prod_code
AND B2.batch_nbr)
クエリ解説2-2
青色の行が消えます
batch_nbr | prod_code | prod_quality | batch_nbr | prod_quality
-----------+-----------+--------------+-----------+--------------
1 | A | 80.0000 | 1 | 80.0000
1 | A | 80.0000 | 2 | 70.0000
1 | A | 80.0000 | 3 | 80.0000
1 | A | 80.0000 | 8 | 50.0000
2 | A | 70.0000 | 2 | 70.0000
2 | A | 70.0000 | 3 | 80.0000
2 | A | 70.0000 | 8 | 50.0000
3 | A | 80.0000 | 3 | 80.0000
3 | A | 80.0000 | 8 | 50.0000
4 | B | 60.0000 | 4 | 60.0000
4 | B | 60.0000 | 5 | 90.0000
5 | B | 90.0000 | 5 | 90.0000
6 | C | 80.0000 | 6 | 80.0000
6 | C | 80.0000 | 9 | 70.0000
7 | D | 80.0000 | 7 | 80.0000
8 | A | 50.0000 | 8 | 50.0000
9 | C | 70.0000 | 9 | 70.0000
(17 rows)
-----------+-----------+--------------+-----------+-----------+--------------
1 | A | 80.0000 | 1 | A | 80.0000
1 | A | 80.0000 | 2 | A | 70.0000
1 | A | 80.0000 | 3 | A | 80.0000
2 | A | 70.0000 | 2 | A | 70.0000
2 | A | 70.0000 | 3 | A | 80.0000
3 | A | 80.0000 | 3 | A | 80.0000
4 | B | 60.0000 | 4 | B | 60.0000
4 | B | 60.0000 | 5 | B | 90.0000
5 | B | 90.0000 | 5 | B | 90.0000
6 | C | 80.0000 | 6 | C | 80.0000
7 | D | 80.0000 | 7 | D | 80.0000
8 | A | 50.0000 | 8 | A | 50.0000
9 | C | 70.0000 | 9 | C | 70.0000
(13 rows)
ALL述語の条件は若干わかりにくいが、
自己結合したテーブル
B1とB2において、
B1.batch_nbr B2.batch_nbr
間のprod_codeの値が
全て一致する行を残すための相関サブクエリ
1 3や2 3間は全てAなので残る
2 8間では、4にB、6にCが混じるので
ALL述語が成り立たない。＝消える

AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
prod_code | batch_nbr | end_batch_nbr
-----------+-----------+---------------
A | 1 | 3
A | 2 | 3
A | 3 | 3
B | 4 | 5
B | 5 | 5
C | 6 | 6
D | 7 | 7
A | 8 | 8
C | 9 | 9
(9 rows)

クエリ解説3-1※実行SQLは赤字で示します
AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
-----------+-----------+---------------
A | 1 | 3
A | 2 | 3
A | 3 | 3
B | 4 | 5
B | 5 | 5
C | 6 | 6
D | 7 | 7
A | 8 | 8
C | 9 | 9
(9 rows)
対象データ
-----------+-----------+--------------
1 | A | 80.0000
2 | A | 70.0000
3 | A | 80.0000
4 | B | 60.0000
5 | B | 90.0000
6 | C | 80.0000
7 | D | 80.0000
8 | A | 50.0000
9 | C | 70.0000
(9 rows)
連続している製品グループ群の最後のbatch_nbrを
end_batch_nbrに格納している

AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
※赤字の部分のまま実行できないのでselect * from ()で括ってサブクエリとして実行しています
prod_code | batch_nbr | end_batch_nbr | prod_quality
-----------+-----------+---------------+--------------
A | 1 | 3 | 80.0000
A | 2 | 3 | 70.0000
A | 3 | 3 | 80.0000
B | 4 | 5 | 60.0000
B | 5 | 5 | 90.0000
C | 6 | 6 | 80.0000
D | 7 | 7 | 80.0000
A | 8 | 8 | 50.0000
C | 9 | 9 | 70.0000
(9 rows)
内部結合でprod_qualityを付け足しただけ。

AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
-----------+-----------------+---------------+---------------------
A | 1 | 3 | 76.6666666666666667
B | 4 | 5 | 75.0000000000000000
C | 6 | 6 | 80.0000000000000000
D | 7 | 7 | 80.0000000000000000
A | 8 | 8 | 50.0000000000000000
C | 9 | 9 | 70.0000000000000000
(6 rows)
赤字の列でgroup by。
・最小値(同じ製品のシーケンシャルなグループの開始位置)
・平均値
を集計関数で計算して表示

完成
対象データ
-----------+-----------+--------------
1 | A | 80.0000
2 | A | 70.0000
3 | A | 80.0000
4 | B | 60.0000
5 | B | 90.0000
6 | C | 80.0000
7 | D | 80.0000
8 | A | 50.0000
9 | C | 70.0000
(9 rows)
-----------+-----------------+---------------+---------------------
A | 1 | 3 | 76.6666666666666667
B | 4 | 5 | 75.0000000000000000
C | 6 | 6 | 80.0000000000000000
D | 7 | 7 | 80.0000000000000000
A | 8 | 8 | 50.0000000000000000
C | 9 | 9 | 70.0000000000000000
(6 rows)

おさらい1※実行SQLは赤字で示します
AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
-----------+-----------+--------------+-----------+-----------+--------------
1 | A | 80.0000 | 1 | A | 80.0000
1 | A | 80.0000 | 2 | A | 70.0000
1 | A | 80.0000 | 3 | A | 80.0000
1 | A | 80.0000 | 8 | A | 50.0000
2 | A | 70.0000 | 2 | A | 70.0000
2 | A | 70.0000 | 3 | A | 80.0000
2 | A | 70.0000 | 8 | A | 50.0000
3 | A | 80.0000 | 3 | A | 80.0000
3 | A | 80.0000 | 8 | A | 50.0000
4 | B | 60.0000 | 4 | B | 60.0000
4 | B | 60.0000 | 5 | B | 90.0000
5 | B | 90.0000 | 5 | B | 90.0000
6 | C | 80.0000 | 6 | C | 80.0000
6 | C | 80.0000 | 9 | C | 70.0000
7 | D | 80.0000 | 7 | D | 80.0000
8 | A | 50.0000 | 8 | A | 50.0000
9 | C | 70.0000 | 9 | C | 70.0000
(17 rows)

AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
-----------+-----------+--------------+-----------+-----------+--------------
1 | A | 80.0000 | 1 | A | 80.0000
1 | A | 80.0000 | 2 | A | 70.0000
1 | A | 80.0000 | 3 | A | 80.0000
2 | A | 70.0000 | 2 | A | 70.0000
2 | A | 70.0000 | 3 | A | 80.0000
3 | A | 80.0000 | 3 | A | 80.0000
4 | B | 60.0000 | 4 | B | 60.0000
4 | B | 60.0000 | 5 | B | 90.0000
5 | B | 90.0000 | 5 | B | 90.0000
6 | C | 80.0000 | 6 | C | 80.0000
7 | D | 80.0000 | 7 | D | 80.0000
8 | A | 50.0000 | 8 | A | 50.0000
9 | C | 70.0000 | 9 | C | 70.0000
(13 rows)

AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
-----------+-----------+---------------
A | 1 | 3
A | 2 | 3
A | 3 | 3
B | 4 | 5
B | 5 | 5
C | 6 | 6
D | 7 | 7
A | 8 | 8
C | 9 | 9
(9 rows)

AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
※赤字の部分のまま実行できないのでselect * from ()で括ってサブクエリとして実行しています
prod_code | batch_nbr | end_batch_nbr | prod_quality
-----------+-----------+---------------+--------------
A | 1 | 3 | 80.0000
A | 2 | 3 | 70.0000
A | 3 | 3 | 80.0000
B | 4 | 5 | 60.0000
B | 5 | 5 | 90.0000
C | 6 | 6 | 80.0000
D | 7 | 7 | 80.0000
A | 8 | 8 | 50.0000
C | 9 | 9 | 70.0000
(9 rows)
内部結合でprod_qualityを付け足しただけ。

AND B1.prod_code
AND B2.batch_nbr)
INNER JOIN
ProductTests AS B4
-----------+-----------------+---------------+---------------------
A | 1 | 3 | 76.6666666666666667
B | 4 | 5 | 75.0000000000000000
C | 6 | 6 | 80.0000000000000000
D | 7 | 7 | 80.0000000000000000
A | 8 | 8 | 50.0000000000000000
C | 9 | 9 | 70.0000000000000000
(6 rows)
赤字の列でgroup by。
・最小値(同じ製品のシーケンシャルなグループの開始位置)
・平均値
を集計関数で計算して表示

プログラマのためのSQL読書会補助資料

Recommended

Recommended

More Related Content

Similar to プログラマのためのSQL読書会補助資料

Similar to プログラマのためのSQL読書会補助資料 (20)

Recently uploaded

Recently uploaded (20)

プログラマのためのSQL読書会補助資料