pgvectorを使ってChatGPTとPostgreSQLを連携してみよう！（PostgreSQL Conference Japan 2023 発表資料）

© 2023 NTT DATA Group Corporation
© 2023 NTT DATA Group Corporation
pgvectorを使ってChatGPTとPostgreSQLを連携し
てみよう！
2023/11/24 PostgreSQL Conference Japan 2023
株式会社NTTデータグループ技術開発本部石井愛弓

© 2023 NTT DATA Group GROUP Corporation 2
目次
• はじめに
• デモ
• システムの流れ・実装の解説
• pgvectorについて
• ベクトル類似度の計算の仕組み
• インデックスの仕組み/パフォーマンス向上
• さいごに

はじめに

© 2023 NTT DATA Group Corporation 4
ChatGPTのデータソースにPostgreSQLを使うことができる！
今年に入って、一気に活用の場が広がっているChatGPT。
こんなことも知っているの？と感心する一方、しれ～っと嘘をつかれることも。
通常、学習済みデータからしか回答しないので、学習していないこと・最新情報(2021年9月以降)は答えられない。
⇒回答の精度を上げるために、RAGという手法が注目されている
• RAG(Retrieval-Augmented Generation)
• LLM（大規模言語モデル）が学習済みでない外部データをLLMに与えて、生成する回答の質を上げる方法
外部データはベクトルデータベースで作成する必要がある。
PostgreSQLもpgvectorを使えば、外部データとして使うことができる！

RAGによって実現できること
オリジナルデータは、常に更新でき、公開情報でなくても（OpenAIのサーバには送信が必要）、データソースにできる。
• 社内のマニュアルをインプットして、チャットで回答する社内Botを作る
• 企業の商品データをインプットして、似た商品をリコメンドするチャットを作る
• 常に最新ニュースをインプットして、時事問題を作成する
• ユーザのチャット履歴を随時記録して、以後の回答に利用する
…などなど。

ChatGPTのデータソースにPostgreSQLを使う方法
1. chatgpt-retrieval-pluginを使う
• OpenAIが公開しているプラグイン
• 詳細は、以下スライド
• https://www.slideshare.net/nttdata-tech/postgresql-chatgpt-odc2023-nttdata
2. LangChainを使う
• https://www.langchain.com/
• 大規模言語モデル(LLM)を使ってアプリ開発を行うためのフレームワーク。
• 今回はこちらを紹介

LangChainの主なコンポーネント
• Models
• LLMs, Chat Models, Text Embedding Modelsから様々なモデルの切替、組み合わせが可能
• Prompts
• モデルに入力するプロンプトをテンプレート化して、生成できる
• Indexes
• ドキュメントローダ、テキストスプリッターなどを使って、外部データを使えるようにする
★今回主に利用するのはこちら
• Memory
• 会話の履歴を保存・利用する
• Chains
• LLMにプロンプト・モデル等を渡して、回答を取得する
• Agents
• ユーザの入力に応じて、実行するアクションを分岐する
• 例えば、最新情報の質問ならGoogle検索へ、プラグイン利用の場合はプラグインへ、など。
詳細は公式ドキュメントhttps://docs.langchain.com/docs/

デモ

今回のデモについて
• ChatGPTも知らない「私の家族の好きな食べ物」を答えてくれるアプリ。
• 事前準備として、好きな食べ物情報をベクトル化してPostgreSQLに入れておく。
• ChatGPTに、PostgreSQLからとってきた情報を参照して回答を返してもらう。
使用した主なコンポーネント
• Python 3.10
• PostgreSQL + pgvector
• OpenAI API
• LangChain

ちなみに、外部データなしだと、こうなります。

デモ：データ挿入編

デモ：回答取得編

システムの流れと実装

全体像
PostgreSQL
pgvector
オリジナルデータ
(TXT)
LangChain
OpenAI
Embeddings
API
読み込み＆分割
②・⑤ベクトル化
③insert
①
④問い合わせ（自然言語）
ChatGPT
API
⑥
類似検索
⑦検索結果をもとにprompt合成
⑧prompt質問
⑨回答
① LangChainがテキストデータを読み込み、分割する

全体像
PostgreSQL
pgvector
(TXT)
LangChain
OpenAI
Embeddings
API
③insert
①
ChatGPT
API
⑥
類似検索
⑧prompt質問
⑨回答
②自然言語をベクトルに変換
私はPostgreSQLが好きです Open AI Embeddings API
text-embedding-ada-002モデル
[0.00058671045, -
0.004581401, .......]
文字数に関係なく
1536次元のベクトル
になる

Embedding models
2022年12月にリリースされた第二世代のtext-embedding-ada-002モデルをOpenAIも推奨。
ほぼすべてのユースケースで、他モデルより品質が高く、安く、使いやすいため。
LangChainの関数では、 text-embedding-ada-002が指定されている
• トークナイザとは
• 文章をトークンに分割するプログラム
モデルトークナイザ最大入力
トークン数
出力する
ベクトルの次元
知識の
切れ目
text-embedding-ada-002 cl100k_base 8191 1536 Sep 2021
https://platform.openai.com/docs/guides/embeddings/what-are-embeddings

似ている単語は、近いベクトルになる。
実際は1536次元だが、2次元でイメージするなら以下のような感じ。
お菓子
チョコ
PostgreSQL
MySQL
データベース
デザート
ベクトル間の距離を計算することで、
単語の類似度を計算できるようになる。

全体像
PostgreSQL
pgvector
(TXT)
LangChain
OpenAI
Embeddings
API
③insert
①
ChatGPT
API
⑥
類似検索
⑧prompt質問
⑨回答
③LangChainがベクトルデータをPostgreSQLにinsertする
ここまでで準備完了！

データを入れるまでのソースコード
セパレーターは改行（デフォルト）
文字数1000にマージ。
オーバーラップなし。
OpenAIのAPIでembeddings
テーブルがないときは作成、データ
の挿入が行われる

from_documents
db = PGVector.from_documents(
embedding=embeddings, ←ベクトルデータ
documents=docs, ←原文
collection_name=“test”, ←コレクション名
connection_string=CONNECTION_STRING, ←接続文字列
pre_delete_collection=False, ←データ挿入前に既存のデータを削除するか？
distance_strategy=DistanceStrategy. COSINE ←距離の計算方法
ids=None ←ユーザ独自のidを付けられる
)

実際に発行されるINSERT
INSERT INTO langchain_pg_embedding
(collection_id, embedding, document, cmetadata, custom_id, uuid)
VALUES
('0effcd46-bfac-4363-83ed-c5a447349a7e'::uuid::UUID,
‘[-0.014597942336596845,0.0024809805856363864,(略)]’,
'長女はブロッコリーが好きです。長男はチョコが好きです。’,
{"source": "sample.txt"}’,
'c87e1582-81d6-11ee-bc52-0a5ea04d8ddb’,
'c7e45348-3d97-4024-a37d-13c27291ec25'::uuid::UUID)
〇pre_delete_collection=Trueの場合
DELETE FROM langchain_pg_collection WHERE langchain_pg_collection.uuid = '0a37f8bd-d054-44bf-
b460-1248f7915ce9'::uuid::UUID

PostgreSQLのテーブル
• データを初期化するときに自動で作成される
列名型説明
collection_id uuid コレクションid
embedding vector ベクトル化されたデータ
document varchar 元の自然言語データ
cmetadata json メタデータ
custom_id varchar ユーザが好きに決められるid
uuid uuid uuid
列名型説明
name varchar コレクション名。複数のデータセットを使い分けるときに使える。
cmetadata json メタデータ{“source”: “sample.txt”} など
uuid uuid uuid
langchain_pg_embedding
langchain_pg_collection

全体像
PostgreSQL
pgvector
(TXT)
LangChain
OpenAI
Embeddings
API
③insert
①
ChatGPT
API
⑥
類似検索
⑧prompt質問
⑨回答
④ユーザが自然言語で問い合わせをする

全体像
PostgreSQL
pgvector
(TXT)
LangChain
OpenAI
Embeddings
API
③insert
①
ChatGPT
API
⑥
類似検索
⑧prompt質問
⑨回答
⑤ユーザの問い合わせをベクトル化する

全体像
PostgreSQL
pgvector
(TXT)
LangChain
OpenAI
Embeddings
API
③insert
①
ChatGPT
API
⑥
類似検索
⑧prompt質問
⑨回答
⑥PostgreSQLからユーザの問い合わせと類似しているドキュメントを検索する
⇒pgvectorの関数を使ってベクトルの類似度を計算する。
※詳細は後スライドで。

全体像
PostgreSQL
pgvector
(TXT)
LangChain
OpenAI
Embeddings
API
③insert
①
ChatGPT
API
⑥
類似検索
⑧prompt質問
⑨回答
⑦PostgreSQLから検索した、類似度の高いドキュメントと、ユーザの元の問い合わせを合成して、
プロンプト（質問文）を作成する

プロンプトの作成
Use the following pieces of context to answer the question at
the end. If you don't know the answer, just say that you don't
know, don't try to make up an answer.
{context}
Question: {question}
プロンプトは、ChatGPTに投げる質問文。
ChatGPTにはDBの情報を加味して回答してほしいので、元の質問文にDBの情報を加えてからChatGPTに投げる。
参考情報つきの質問を送っているようなイメージ。
プロンプトの作成は、LangChainが実施してくれるので、明示的なプログラムは書かなくてもOK
裏では、このように合成してくれている。
←DBからとってきた文章：長女はブロッコリーが好きです。
←ユーザの元の質問：長女は何が好きですか？
←以下の文脈を使って、最後の質問に答えてね。

全体像
PostgreSQL
pgvector
(TXT)
LangChain
OpenAI
Embeddings
API
③insert
①
ChatGPT
API
⑥
類似検索
⑧prompt質問
⑨回答
⑧ChatGPTにプロンプトを渡す

Open AI 文章生成モデルについて
• LangChainのデフォルト：text-davinci-003
モデルファミリー備考
新しいモデル
(2023)
gpt-4 (and gpt-4 turbo), gpt-3.5-
turbo
1ドル以上の課金で使用可能
従来モデル
アップデート版
(2023)
babbage-002, davinci-002 参考：
https://platform.openai.com/docs
/models/moderation
従来モデル
(2020~2022)
text-davinci-003, text-davinci-002,
davinci, curie, babbage, ada
参考：
https://platform.openai.com/docs
/models/gpt-3

全体像
PostgreSQL
pgvector
(TXT)
LangChain
OpenAI
Embeddings
API
③insert
①
ChatGPT
API
⑥
類似検索
⑧prompt質問
⑨回答
⑨ChatGPTがユーザに答えを返却する

データを取得するソースコード（サンプル）

補足：OpenAI のAPIの実行にはAPI keyが必要
OpenAIでアカウントを登録してログイン
API keyを発行して保存しておく
※Free trialが終わるとクレジット登録が必要になった。$0.0001 / 1K tokens
1トークンとは？
エンコーディングの種類によって異なる
今回は、「text-embedding-ada-002」モデルを使用。
このモデルでは、「cl100k_base」のエンコーディングを使
用。
日本語の場合、頻出単語は1トークン、それ以外は
複数トークンとなる。
基本的に文章が長いほど、トークンも大きくなる。
「こんにちは」→ 1
「石井です」 →5
「今日もよろしくお願いします。」→13
ざっと1000万字で1ドル位？

pgvector

pgvector
https://github.com/pgvector/pgvector
PostgreSQLでベクトル類似性検索ができるようになる拡張機能
今年に入って、githubのスター数うなぎ上りの注目機能
引用：https://star-history.com/#pgvector/pgvector&Date
vector型を含むテーブルを作成し、データが保存できる
CREATE TABLE items (id bigserial PRIMARY KEY, embedding vector(3));
→3次元のベクトル列を作成
Supabase、RDS(15.2以降)、Azure、AlloyDBなどでも対応済み
CREATE EXTENSION でインストール可能

pgvectorのバージョンについて
• 現在の最新バージョンはv0.5.1(2023年11月現在）
• v0.5.0が大きなリリースのため、v0.5.0以降の利用がオススメ
• HNSWインデックスのサポート
• ivfflatインデックス構築の並列化
• l1距離追加
• 距離関数のパフォーマンス向上

vector型
通常の列と同じようにデータのINSERT/UPDATE/DELETEできる
Insert vectors
Upsert vectors
Update vectors
Delete vectors
INSERT INTO items (embedding) VALUES ('[1,2,3]'), ('[4,5,6]');
INSERT INTO items (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]')
ON CONFLICT (id) DO UPDATE SET embedding = EXCLUDED.embedding;
UPDATE items SET embedding = '[1,2,3]' WHERE id = 1;
DELETE FROM items WHERE id = 1;

vector型
各ベクトルは4 * 次元数 + 8バイトのストレージを必要とする
次元数は最大16000まで。
ベクトルの要素は、32ビット浮動小数点数。
ただし、さらに精度が必要な場合は、double precision[]またはnumeric[]を使用することも可能。
この場合、チェック制約により、vector型の変換が可能であること、期待される次元数があることを確認する。
インデックスを作成するときは、式インデックスを利用する。（精度はvector同等に落ちる）
検索の例：
CREATE TABLE items (id bigserial PRIMARY KEY, embedding double precision[]);
ALTER TABLE items ADD CHECK (vector_dims(embedding::vector) = 3);
CREATE INDEX ON items USING hnsw ((embedding::vector(3)) vector_l2_ops);
SELECT * FROM items ORDER BY embedding::vector(3) <-> '[3,1,2]' LIMIT 5;

使える演算子
演算子説明
+ 要素ごとの加算
- 要素ごとの減算
* 要素ごとの乗算
<-> ユークリッド距離
<#> 内積×-1
<=> コサイン距離
いずれも距離としてとらえる。
値が小さいほど、ベクトルが似ている。

使えるベクトル関数
関数説明
cosine_distance(vector, vector)
→ double precision
コサイン距離
inner_product(vector, vector)
内積
l2_distance(vector, vector)
L2距離（ユークリッド距離）
l1_distance(vector, vector)
L1距離（マンハッタン距離）
vector_dims(vector)
→ integer
次元数
vector_norm(vector)
ユークリッドノルム
(ベクトルの大きさ）

使える集約関数
関数説明
avg(vector)
→ vector
ベクトルの平均
sum(vector)
→ vector
ベクトルの合計

距離関数

ユークリッド距離とマンハッタン距離
SELECT * FROM items ORDER BY
embedding <-> '[3,1,2]' LIMIT 5;
→[3,1,2]とユークリッド距離が近いベクトルを順に5つ探す
l2_distance(embedding, '[3,1,2]’) LIMIT 5;
→[3,1,2]とユークリッド距離が近いベクトルを順に5つ探す
l1_distance(embedding, ‘[3,1,2]’) LIMIT 5;
→[3,1,2]とマンハッタン距離が近いベクトルを順に5つ探す
・
・
ユークリッド距離
x
y
(x1, y1)
(x2, y2)
マンハッタン距離

内積
内積も２つのベクトルの類似度を表すのに使える。
θ
Ԧ
𝑎 ⋅ 𝑏 = Ԧ
𝑎 𝑏 cos 𝜃
Ԧ
𝑎
𝑏
𝑎1, 𝑎2
𝑏1, 𝑏2
Ԧ
𝑎 ⋅ 𝑏 = 𝑎1𝑏1 + 𝑎2𝑏2
公式②より
ベクトルの大きさが同じなら、内積はなす角θが小さいほど大きくなる。
⇒ベクトルの向きが似ているほど、内積は大きくなる。
pgvectorの演算子<#>は、内積の値に-1を乗算して返却。
-1を掛けているのは、小さいほど似ている値に変換するため。
⇒ 似たベクトルを演算結果の昇順で取り出せる。
※Postgres only supports ASC order index scans on operators
（https://github.com/pgvector/pgvector）
cos 𝜃 =
Ԧ
𝑎 ⋅ 𝑏
Ԧ
𝑎 𝑏
公式①
公式②
ただし、なす角が同じでも、ベクトルの大きさによって値が異なる。
ベクトルの大きさの影響を受けないようにするために、、
⇒内積をベクトルの大きさで割って正規化。
⇒コサイン類似度

コサイン類似度とコサイン距離
コサイン類似度：cosθ なす角で決まる。向きが似ているか？を表す
・ 1
似てる
0
無関係
-1
正反対
θ
θ
コサイン類似度の値の範囲は-1～1
2つのベクトルが似ているほど、値が大きくなる。
pgvectorの <=>は、
1 – コサイン類似度=コサイン距離として取得することができる
コサイン距離は、小さいほど向きが似ていることを示す。
ユークリッド距離と比較して、
テキストや画像など高次元データに効果的で、
ドキュメント検索のユースケースでよく使用される。
LangChainではこれがデフォルト。
なお、OpenAI embeddingsの場合、ベクトルの長さは1に正規化
されているので、内積と同じ。
⇒この場合、内積のほうがよい。計算量が少ないので性能〇。
・
・

インデックス

pgvectorのインデックス：ivfflatとHNSW
• 最も近いベクトルはどれか？を探すためのアルゴリズム
• インデックスがない場合は、クエリと各ベクトルをすべて距離計算する必要があるので計算量が多い
• 高速に検索するため、近似最近傍検索のためのインデックスが利用可能
• 必ず最近傍であることは保証しない
• インデックス付与前と後で、クエリ結果が変わる可能性がある
1. ivfflat (Inverted File with Flat Compression)
• pgvectorに最初から実装されていたインデックス。
2. HNSW(Hierarchical Navigable Small World)
• ivfflatのみでは他のvector DBに比べ性能が低いという問題提起を受け、より高速化するために2023年9月にv0.5.0
で新しく実装されたインデックス。

ivfflat
• ivfflat(Inverted File with Flat Compression) あいぶいえふふらっと
• インデックス作成時に、データセット内の各ベクトルをクラスタに分割する
• 新しいベクトルが追加された場合は、最も重心が近いクラスタに割り当てる
• 最近傍を検索する際は、まず、最も近いクラスターを特定し、その中から最近傍を検索する
• 検索範囲が全体でなく一部となるため、パフォーマンス向上
・
・
・
・・
・
・
・
・
・・
・
・
・
・
・・
・・
・
★
・
・・
・・
・
・
★
★

ivfflatのクラスタの数について
• インデックス作成時に、クラスタ数（リスト数：lists）を指定する
• クラスタ数が多いほど…
• クラスタ内のデータ数が少なくなるので、より高速に検索できる。
• ただし、最も近いデータが、最も近いクラスタに入っておらず、取りこぼす可能性も高くなる（再現率が低くなる）
• トレードオフなので、アプリケーションに合わせて設定する
• 目安
• 100万レコード以下のとき→records/1000 からやってみる
• 100万レコードより多いとき→ sqrt(records) からやってみる
• クラスタ数は少なくとも10個以上が好ましい。
create index on documents using ivfflat (embedding vector_ip_ops) with (lists = 100);
内積

取りこぼしてしまう例
・
・
・
・・
・
・
・
・
・・
・
・
・
・
・
・・
・
★
・
・・
・・
・
・
★
★
▲
一番近い重心は、上のクラスタ。
しかし、最近傍は、上のクラスタではなく、右のクラスタにある

probesパラメータについて
• 取りこぼしを減らすために、最も近い重心を持つクラスタだけでなく、他にも近いクラスタの中も検索する
• デフォルト probes=1 →最も近い重心のクラスタのみ
• probesを増やすと、より多くのクラスタ内で検索するので、再現率が向上（取りこぼしにくい）
• 当然ながら、増やすほど速度は低下する。
• 目安：probes = sqrt(lists)
SET文でトランザクション内で設定可能：
例）
SET ivfflat.probes = 10;

ivfflatインデックス構築の進捗状況の表示
PostgreSQL12以降では、インデックス構築の進捗状況を確認可能
ivfflatのフェーズは以下。
1. initializing
2. performing k-means
3. assigning tuples
4. loading tuples
※上記クエリの％は、loading tuplesのフェーズのみ。
SELECT phase, round(100.0 * tuples_done / nullif(tuples_total, 0), 1) AS "%" FROM
pg_stat_progress_create_index;

ivfflatインデックスの注意点
• 最大2000次元までの列に付与可能
• データ（少なくとも数千レコード）が挿入されたあとでインデックスを追加すること。
• 実際のデータがない状態で作成するとクラスタの重心を適切に決めることができない。（ランダムになる）
• インデックス作成後に、データを追加・削除・更新しても、インデックスは更新されるが、クラスタの重心は更新されない。
• データの更新がある場合、定期的なREIDEXが推奨
• CONCURRENTLY オプションを使えばテーブルへの書き込みをロックせず再作成できる

HNSW
• HNSW(Hierarchical Navigable Small World)
• NSWの階層バージョン
NSWとは？
引用元：https://www.pinecone.io/learn/series/faiss/hnsw/
1. グラフを作っておく（作り方は後ほど）
2. entry pointからスタート
3. 自分からリンクされている要素の中で、一番クエリに近い要素に
移動する
4. 移動できなくなったら（自分が近くなったら）終了

NSWを階層化したのがHNSW
一番下の層には全ての要素、
上に上がるごとに、要素が絞られたグラフを作成。
一番上の層からスタートし、最初は大きく、
だんだん小さく近づいていく。
新幹線→急行→各停に乗り換えるイメージ。
階層化することで、少ない計算量で近づけるので、
高速になる。

HNSWの作り方①層を決定する
新しく要素を追加するとき、
例えば、
layer 2 = 12.5 %
layer 1 = 50%
layer 0 = 100% のように、
上の層ほど少なくなるような確率を用いて、
ランダムに層を決定する。
layer0はすべての要素が存在する。
要素があとからどんどん追加されていっても、
各層のバランスが崩れない。
(インデックス作成後にデータを追加しても問題なし）

HNSWの作り方②リンクを作成する
Mは、リンク数。
M=3なら、近い３つの要素とリンクを作成する
pgvectorのmは、各レイヤの最大リンク数。

HNSWのパラメータ
• M：リンク数
• デフォルト：16、範囲：2~100
• 少なすぎると、再現率が下がる。（最近傍を取りこぼすかも）
• 大きくなるほど、インデックス構築時間増、メモリ使用量増、検索時間増。
• ef_construction：インデックス構築中に何個の近傍をリストとして持つか
• デフォルト：64、範囲：4~1000
• 小さすぎると、再現率が下がる。ただしある点から増やしても再現性があがりにくくなる。
• 大きくすると、インデックス構築時間が長くなる
• ef_search：検索中に何個の近傍をリストとして持つか
• デフォルト：40、範囲：1~1000
• 小さいほど、高速
• 大きいほど、再現率があがる

HNSWインデックス構築の進捗状況の表示
PostgreSQL12以降では、インデックス構築の進捗状況を確認可能
HNSWのフェーズは以下。
1. initializing
2. loading tuples
SELECT phase, round(100.0 * blocks_done / nullif(blocks_total, 0), 1) AS "%" FROM
pg_stat_progress_create_index;

HNSWの特徴
• 最大2000次元までの列に付与可能
• ivfflatと比較して、、
• インデックス構築時間が長い＆メモリ使用量が多いが、検索が高速
• テーブルにデータがなくてもインデックスを作成可能

検索時間について
引用：https://neon.tech/blog/pg-embedding-extension-for-vector-search
再現率99%を達成するとき、
ivfflat ( pgvector) は
HNSW( pg_embedding) の20倍の実行時間
ivfflatとHNSWは性能が大きく異なる

インデックスの比較
ivfflat HNSW
検索速度 △ 〇
正確さ △ 〇
メモリ使用量〇 ×
インデックス構築速度〇 ×
選び方：
• 検索速度を重視する場合は、HNSW。
• メモリ制限がある場合はivfflat。
参考：https://neon.tech/blog/pg-embedding-extension-for-vector-search

さいごに
• とても簡単な手順で、ChatGTPのデータソースにPostgreSQLを使うことができた
• ぜひ皆さんも、使ってみてください

記載されている会社名、商品名、又はサービス名は、
各社の登録商標又は商標です。

pgvectorを使ってChatGPTとPostgreSQLを連携してみよう！（PostgreSQL Conference Japan 2023 発表資料）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to pgvectorを使ってChatGPTとPostgreSQLを連携してみよう！（PostgreSQL Conference Japan 2023 発表資料）

Similar to pgvectorを使ってChatGPTとPostgreSQLを連携してみよう！（PostgreSQL Conference Japan 2023 発表資料） (20)

More from NTT DATA Technology & Innovation

More from NTT DATA Technology & Innovation (20)

Recently uploaded

Recently uploaded (9)

pgvectorを使ってChatGPTとPostgreSQLを連携してみよう！（PostgreSQL Conference Japan 2023 発表資料）