pg_bigmで全文検索するときに気を付けたい5つのポイント（第23回PostgreSQLアンカンファレンス@オンライン発表資料）

第23回 PostgreSQLアンカンファレンス@オンライン
© 2021 NTT DATA Corporation
pg_bigmで全文検索するときに気を付けたい5つのポイント
2021年5月11日
株式会社NTTデータ藤井雅雄

© 2021 NTT DATA Corporation 2
2
自己紹介
藤井雅雄
Database Technical Lead @ NTTデータ
データベース研究開発
PostgreSQL 技術支援
PostgreSQLコミッタ
レプリケーション
WAL圧縮
バックアップ進捗確認
pg_bigm(全文検索モジュール) コミッタ
@fujii_masao

3
本講演について
講演資料は、NTTデータのSlideShareアカウント上で公開予定です。
https://www.slideshare.net/nttdata-tech
講演資料に掲載の検証結果は、ノートPC上の簡易計測で取得したものです。
環境や条件などによっては、異なる検証結果になる可能性があるためご了承ください。

pg_bigmとは
PostgreSQL上で全文検索機能を提供するOSSモジュール
「OSS」を含むタイトルの書籍情報を検索したい！
SELECT * FROM book WHERE title LIKE ‘%OSS%’
シーケンシャル
スキャン
インデックス
スキャン
pg_bigm導入で高速に! 
通常、インデックス使えず低速

pg_bigmとは
開発元
pg_bigm Development Group
(もともとはNTTデータが開発)
ライセンス The PostgreSQL License
最新バージョン 1.2-20200228 (2020/2/28リリース)
動作確認環境
OS: Linux, Mac OS X
PostgreSQL: 9.1～13
公開先
(公式) https://pgbigm.osdn.jp
(ミラー) https://github.com/pgbigm/pg_bigm
v14開発版(2021/4/28時点)でも
動作を確認済！！

パブリッククラウドで広がるpg_bigmの採用
2020-08: ApsaraDB RDS for PostgreSQL / AliPG @ Alibaba Cloud
https://www.alibabacloud.com/help/ja/doc-detail/126002.htm
https://help.aliyun.com/document_detail/182266.html
2020-09: TencentDB for PostgreSQL @ Tencent Cloud
https://intl.cloud.tencent.com/jp/document/product/409/38832
https://intl.cloud.tencent.com/jp/document/product/409/7567
2021-04: Amazon RDS for PostgreSQL @ AWS
https://aws.amazon.com/jp/about-aws/whats-new/2021/04/amazon-rds-for-postgresql-
supports-pg-bigm-extension-for-faster-full-text-search/

pg_bigmの参考情報
pg_bigmを用いた全文検索のしくみ(前編)
https://www.slideshare.net/hadoopxnttdata/pgbigm-39739489
pg_bigmを用いた全文検索のしくみ(後編)
https://www.slideshare.net/hadoopxnttdata/pgbigm-39739507
PostgreSQLでpg_bigmを使って日本語全文検索
https://www.slideshare.net/hadoopxnttdata/postgresqlpgbigm-mysqlpostgresql
pg_bigmを触り始めた人に伝えたいこと
https://www.slideshare.net/masahikosawada98/pgbigm-66639454
pg_bigmと類似度検索
https://www.slideshare.net/masahikosawada98/pgbigm-66639588

pg_bigmで気を付けたい5つのポイント

1. 完全一致検索や前方一致検索にはB-treeの利用も検討すべき
日本版Wikipediaタイトル一覧データ約374万件から、
完全一致検索および前方一致検索したときの実行時間の比較
完全一致検索前方一致検索
インデックスなし
(Seq Scan)
265.72 ms 283.37 ms
インデックスなし
(Parallel Seq Scan)
117.92 ms 117.08 ms
pg_bigmインデックス
(Bitmap Index Scan)
2.90 ms 2.00 ms
B-treeインデックス
(Index Scan)
0.59 ms 0.58 ms
B-treeインデックス
(Index Only Scan)
0.34 ms 0.44 ms
完全一致検索
下記SQLで検索結果3件
SELECT * FROM jawiki
WHERE title = 'データベース';
※pg_bigmでは=の代わりにLIKEを使用
前方一致検索
下記SQLで検索結果50件
SELECT * FROM jawiki
WHERE title LIKE 'データベース%';
pg_bigmもそこそこ高速だが、
B-treeのほうが高性能

2. Recheck処理のオーバーヘッドが発生する
東京都
東京と京都
東京都
Recheck処理
検索文字列が3文字以上の場合、Recheck処理により
pg_bigmインデックスから絞り込んだ検索結果候補が妥当か検査しなければならない
'%東京都%'で検索
検索結果候補の数が多いほど、データサイズが大きいほど、
Recheck処理のオーバーヘッドは大きくなる
「東京」と「京都」でインデックス
から検索結果候補を絞り込み
検索結果候補のデータをすべてチェックして、
検索条件を満たすものを抽出する

Recheck
あり
Bitmap Heap Scan on jawiki (actual time=0.979..2.636 rows=3678 loops=1)
Recheck Cond: (title ~~ '%東京都%'::text)
Rows Removed by Index Recheck: 10
Heap Blocks: exact=822
-> Bitmap Index Scan on jawiki_bigm (actual time=0.863..0.864 rows=3688 loops=1)
Index Cond: (title ~~ '%東京都%'::text)
Planning Time: 0.065 ms
Execution Time: 2.931 ms
Recheck
なし(*1)
日本版Wikipediaタイトル一覧データ約374万件から全文検索したときの実行プラン
EXPLAIN ANALYZE SELECT * FROM jawiki WHERE title LIKE '%東京都%';
(*1) pg_bigm.enable_recheck=off
検索結果候補3688件から、
Recheckにより10件を除去
検索対象文字列が平均22Bと小さいため、
Recheck処理のオーバーヘッドは小さい

Recheck
あり
Bitmap Heap Scan on pgdocs (actual time=0.473..44.468 rows=352 loops=1)
Recheck Cond: (contents ~~ '%PostgreSQL%'::text)
-> Bitmap Index Scan on pgdocs_bigm (actual time=0.247..0.247 rows=352 loops=1)
Index Cond: (contents ~~ '%PostgreSQL%'::text)
Recheck
なし
Bitmap Heap Scan on pgdocs (actual time=0.274..0.393 rows=352 loops=1)
Recheck Cond: (contents ~~ '%PostgreSQL%'::text)
-> Bitmap Index Scan on pgdocs_bigm (actual time=0.258..0.258 rows=352 loops=1)
Index Cond: (contents ~~ '%PostgreSQL%'::text)
PostgreSQL日本語ドキュメントの各ソースファイルを格納したテーブルから、全文検索したときの実行プラン
EXPLAIN ANALYZE SELECT * FROM pgdocs WHERE contents LIKE '%PostgreSQL%';
検索対象文字列が平均51kBと大きく、
Recheck処理のオーバーヘッドが大きい

3. 英字/数字のみの全文検索にはpg_trgmの利用も検討すべき
pg_
bigm
Bitmap Heap Scan on uuid (actual time=129.772..129.931 rows=8 loops=1)
Recheck Cond: (id ~~ '%2f1da6%'::text)
-> Bitmap Index Scan on uuid_bigm (actual time=129.714..129.714 rows=191 loops=1)
Index Cond: (id ~~ '%2f1da6%'::text)
pg_
trgm
Bitmap Heap Scan on uuid (actual time=10.219..10.232 rows=8 loops=1)
Recheck Cond: (id ~~ '%2f1da6%'::text)
-> Bitmap Index Scan on uuid_trgm (actual time=10.207..10.207 rows=9 loops=1)
Index Cond: (id ~~ '%2f1da6%'::text)
gen_random_uuid()で作成したUUIDデータ1千万件から、全文検索したときの実行プラン
EXPLAIN ANALYZE SELECT * FROM uuid WHERE id LIKE '%2f1da6%';
検索対象文字列の文字種別が少ない場合は、
3文字区切りのpg_trgmのほうが
インデックスから結果を絞り込みやすい

14
4. シンプルな全文検索のみ可能
=# CREATE INDEX testidx ON test
USING gin (normalize(col, NFKC) gin_bigm_ops);
=# SELECT * FROM test
WHERE normalize(col, NFKC)
LIKE likequery(normalize('PostgreSQLバージョン13', NFKC));
col
--------------------------------------------
PostgreSQLバージョン13の新機能
PostgreSQLﾊﾞｰｼﾞｮﾝ13の新機能
PostgreSQLバージョン⑬の新機能
ＰｏｓｔｇｒｅＳＱＬバージョン１３の新機能
(4 rows)
全文検索インデックスの作成時と
検索時にnormalize関数を指定
英数字・カタカナの全角半角や記号の区別なく
全文検索が可能に！
高度な全文検索を実現するには、関数などと組み合わせてpg_bigmを使う。
例えば、文字の種別を意識しない全文検索をするにはnormalize関数と組み合わせる

FASTUPDATE = OFF FASTUPDATE = ON (デフォルト設定)
更
新
時
検
索
時
5. GINインデックスのFASTUPDATEパラメータについて検討すべき
GIN GIN
pending list
GIN
スキャンスキャンスキャン
大量のキーをGINイン
デックスに追加するため、
更新は低速になりがち
GINインデックスのみを
スキャンするため、
検索は高速
大量のキーをリストに追加する
だけのため、更新は高速。リス
ト内のキーはVACUUM時など
にGINインデックスに一括移動
GINインデックスとリストを
スキャンするため、
リスト内のキーが多いほど
検索は低速になりがち
最大で、リストの最大サイズ(gin_pending_list_limit)分のスキャンのオーバーヘッドが追加発生。
検索を優先したい場合は、FASTUPDATEを無効化するか、検索時に大量のキーがリストに残っていないように
VACUUMなどの実行頻度・契機を調整する
FASTUPDATEパラメータの設定値により、更新・検索性能の傾向が変わる

FASTUPDATE
=off
または
FASTUPDATE
=onでリストが空
FASTUPDATE
=onでリスト内に
約374万件の
キーが存在
日本版Wikipediaタイトル一覧データ約374万件から全文検索したときの実行プラン
EXPLAIN ANALYZE SELECT * FROM jawiki WHERE title LIKE '%東京都%';

pg_bigmのよいところ
日本語全文検索でも高速
1文字、2文字の全文検索でも高速
LIKE検索でインデックスを利用できる
GINインデックスをそのまま利用のため、
- PostgreSQLの機能をサポート(WAL、リカバリ、レプリケーションなど)
- PostgreSQLの新機能もすぐにサポート
(v13リリース直後から新機能パラレルVACUUMに対応など)
- インデックスの信頼性が高い
一部のパブリッククラウドのマネージドDBサービスでも利用できる New!

さいごに
5つのポイントに気を付けながら、
pg_bigmでの全文検索をぜひお試しいただければ！！
1. 完全一致検索や前方一致検索にはB-treeの利用も検討すべき
3. 英字/数字のみの全文検索にはpg_trgmの利用も検討すべき
4. シンプルな全文検索のみ可能

その他、記載されている会社名、商品名、又はサービス名は、
各社の登録商標又は商標です。

YouTubeチャンネル “NTT DATA Tech”
技術取り組み、活用情報を中心にお届けします
https://www.youtube.com/NTTDATATech

pg_bigmで全文検索するときに気を付けたい5つのポイント（第23回PostgreSQLアンカンファレンス@オンライン 発表資料）

More Related Content

What's hot

Similar to pg_bigmで全文検索するときに気を付けたい5つのポイント（第23回PostgreSQLアンカンファレンス@オンライン 発表資料）

More from NTT DATA Technology & Innovation