ChatGPTのデータソースにPostgreSQLを使う[詳細版]（オープンデベロッパーズカンファレンス2023 発表資料）

© 2023 NTT DATA Group Corporation
© 2023 NTT DATA Group Corporation
ChatGPTのデータソースにPostgreSQLを使う
[詳細版]
2023/8/26 オープンデベロッパーズカンファレンス2023
株式会社NTTデータグループ技術開発本部石井愛弓

© 2023 NTT DATA Group GROUP Corporation 2
自己紹介
• NTTデータグループ技術開発本部
• 石井愛弓（いしいあゆみ）
• 主にPostgreSQLの人です
• 子への英才教育を企んでいます

目次
• はじめに
• システムの全体像
• 各プロダクトの説明
• 作ってみる！
• パフォーマンスの向上の取り組み

はじめに

© 2023 NTT DATA Group Corporation 5
ある日思った。ズボラ母(私)にもできる安上がりな教育コンテンツはないか。
• 毎日、親が小学生新聞を読み込み、その内容を題材にした穴埋め問題を作成し、ホワイトボードに出題。
• 子は毎朝起きたら新聞を読んでその穴埋め問題に取り組む…という素晴らしい話を聞いた。
• すばらしい…新聞を楽しみながら読む習慣がつきそう…だが、ズボラ母にはできる気がしない…
• ChatGPTに問題作成をお願いしてみようかな！

4歳向けの問題を作成してもらう
…いまいちすぎる！

最新情報も取得できなかった

ChatGPTに感じた問題
通常のChatGPTでは、既存のインプットからしか、回答を得ることができない。
最新情報をデータソースにできないか？
自分で質の高いデータセットを作り、それを参照させることはできないか？
ChatGPTにPostgreSQLを使いたい！
そうすれば以下のようなものもデータソースにできるかも？
• 社内のマニュアル・ドキュメント
• プライベートなデータ
• 2021年9月以降の最新情報

ChatGPT Retrieval Plugin
• ChatGPTでプライベートなドキュメントにアクセスできるプラグイン
• FastAPI(Pythonフレームワーク）で開発されている
プラグイン自体は、OSS
ただしChatGPTでプラグイン機能を使うためには、ChatGPT Plus月額20ドル必要
かつ、プラグイン開発者のwaitlistで承認される必要あり。

全体像：これを作りたい！
PostgreSQL
pgvector
オリジナルデータ
(PDF)
②テキスト抽出
chatgpt-
retrieval-plugin
OpenAI
Embeddings
API
upsert-file API
③・⑦ベクトル化
④upsert
① ⑤問い合わせ
ChatGPT
⑧query
⑥query
(自然言語、フィルタ）
⑨テキスト・類似度スコア
等 ⑩回答

PostgreSQL
pgvector
(PDF)
chatgpt-
retrieval-plugin
OpenAI
Embeddings
API
upsert-file API
④upsert
ChatGPT
⑧query
⑥query
等 ⑩回答
① 私が、PDFのオリジナルデータをプラグインのエンドポイントへ送信する

PostgreSQL
pgvector
(PDF)
chatgpt-
retrieval-plugin
OpenAI
Embeddings
API
upsert-file API
④upsert
ChatGPT
⑧query
⑥query
等 ⑩回答
② プラグインが、PDFデータからテキストを抽出
③ プラグインが、OpenAI Embeddings APIで自然言語をベクトルデータに変換

PostgreSQL
pgvector
(PDF)
chatgpt-
retrieval-plugin
OpenAI
Embeddings
API
upsert-file API
④upsert
ChatGPT
⑧query
⑥query
等 ⑩回答
④ プラグインが、ベクトルデータをPostgreSQLにUPSERTする。
（データがあれば更新、なければ挿入）

PostgreSQL
pgvector
(PDF)
chatgpt-
retrieval-plugin
OpenAI
Embeddings
API
upsert-file API
④upsert
ChatGPT
⑧query
⑥query
等 ⑩回答
⑤ ユーザが、ChatGPTに自然言語で問い合わせを行う
⑥ ChatGPTが、プラグインのqueryエンドポイントにクエリ（自然言語）とフィルタを送信

PostgreSQL
pgvector
(PDF)
chatgpt-
retrieval-plugin
OpenAI
Embeddings
API
upsert-file API
④upsert
ChatGPT
⑧query
⑥query
等 ⑩回答
⑦プラグインが、Embeddings APIを使ってクエリをベクトルデータに変換
⑧プラグインが、ベクトルデータと類似度の高いものをPostgreSQLで検索

PostgreSQL
pgvector
(PDF)
chatgpt-
retrieval-plugin
OpenAI
Embeddings
API
upsert-file API
④upsert
ChatGPT
⑧query
⑥query
等 ⑩回答
⑨プラグインが、テキスト・類似度スコア等をChatGPTに返却
⑩ChatGPTが、スニペットを元に回答をユーザに返却

ChatGPT Retrieval Plugin

ChatGPT Retrieval Pluginで利用可能なデータベース一覧
• Pinecone
• Waviate
• Zilliz
• Milvus
• Qdrant
• Redis
• LlamaIndex
• Chroma
• Axure Cognitive Search
• Supabase
• Postgres
• AnalyticDB
• Elasticsearch
• ドキュメントの保存には、ベクトルデータベースを使用する
• 様々なデータベースに対応
• PostgreSQLも、pgvectorを使って、データソースにすることができる！

chatgpt-retrieval-plugin エンドポイント
• /upsert →開発者が使う（メモリ機能を使う場合は、ChatGPTも）
• 1 つ以上のドキュメントをアップロードし、そのテキストとメタデータをベクターデータベースに保存
• /upsert-file→開発者が使う
• 単一のファイル (PDF、TXT、DOCX、PPTX、または MD) をアップロードする
• /query →ChatGPTが使う
• 1 つ以上の自然言語クエリを実行して、最も関連性の高いドキュメントチャンクの、テキスト、メタデータ、類似度スコアととも
に返す
• 問い合わせ文と併せて、author/source/dateなどで絞り込むことも可能
• /delete →開発者が使う
• ベクターデータベースから 1 つ以上のドキュメントを削除

メモリ機能
• ChatGPTでの会話を記録する機能
• ChatGPTがプラグインのupsertエンドポイントにアクセスし、会話のスニペットをデータベースに保存
• 過去の会話を以降の回答に使用することができるようになる。
upsertのエンドポイントへのアクセスについて
• プラグインの初期状態では、upsertエンドポイントはChatGPTからアクセスできるようになっていない。
• ChatGPTは、プラグインのOpenAPIスキーマ(.well-known/openapi.yaml)を参照することで、プラグインの使い方を把握
している。
• 初期状態では、queryエンドポイントしか記載されていないので、upsertも含めたopenapi.yaml及び、ai-plugin.jsonに
書き換える
• 詳細は以下を参照
• https://github.com/openai/chatgpt-retrieval-plugin/tree/main/examples/memory

オリジナルの絞り込み条件も追加できる
• ChatGPTが、queryエンドポイントで問い合わせを行う際、問い合わせ文の他に、author/source/dateなどで絞り込みが
可能。
→author/source/dateなどは、メタデータとしてモデルに組み込み済み。
• 既存のメタデータにない、オリジナルのメタデータを追加して絞り込みたい場合は、カスタムメタデータフィールドを追加できる。
• OpenAPIスキーマ及び、ソースコードの一部編集が必要
• 詳細は以下
• https://github.com/openai/chatgpt-retrieval-plugin/tree/main

認証機能
以下の認証方法を設定可能
• 認証なし
• 誰でもプラグインを利用可能
• データの中身が公開情報のときなど
• HTTP Bearer
• ユーザレベル
• ユーザごとに一意のアクセストークンが必要。これを採用する場合は追加実装が必要
• サービスレベル
• 事前に登録したトークン（すべてのユーザ共通）が必要。
• OAuth
• OAuthプロバイダーを使用してユーザの認証を行う。これを採用する場合は追加実装が必要。

ディレクトリの説明
ディレクトリ名説明
.well-known OpenAPIスキーマやプラグインのマニフェストファイル
datastore 様々なデータベースを扱うための処理
docs ドキュメント
examples 設定例、認証方法など
local_server localhostテスト用に構成されたプラグインの実装
models ドキュメントモデル、メタデータモデルなど
scripts ドキュメントを処理及びアップロードするためのスクリプト
server メインのFastAPIサーバの実装
services チャンキング、メタデータ抽出などのユーティリティ
test データベース接続のテスト

OpenAI Embeddings API

OpenAI Embeddings API
• 自然言語をベクトルに変換することができるAPI
• 「text-embedding-ada-002」モデルでは、1536次元のベクトルを返却
私はPostgreSQLが好きです
[0.00058671045, -
0.004581401, .......]
使用例
https://openai.com/blog/new-and-improved-embedding-model
より。

pgvector

pgvector
https://github.com/pgvector/pgvector
PostgreSQLでベクトル類似性検索ができるようになる拡張機能
最新バージョンはv0.4.4
vector型を含むテーブルを作成し、データが保存できる
CREATE TABLE items (id bigserial PRIMARY KEY, embedding vector(3));
→3次元のベクトル列を作成
contrib（PostgreSQLの本体のソースコードと一緒にコミュニティで開発されている拡張機能群）ではないが、
Supabase、RDS(15.2以降)、Azure、AlloyDBなどでも対応済み
CREATE EXTENSION でインストール可能

vector型
通常の列と同じようにデータのINSERT/UPDATE/DELETEできる
Insert vectors
Upsert vectors
Update vectors
Delete vectors
INSERT INTO items (embedding) VALUES ('[1,2,3]'), ('[4,5,6]');
INSERT INTO items (id, embedding) VALUES (1, '[1,2,3]'), (2, '[4,5,6]')
ON CONFLICT (id) DO UPDATE SET embedding = EXCLUDED.embedding;
UPDATE items SET embedding = '[1,2,3]' WHERE id = 1;
DELETE FROM items WHERE id = 1;

近いベクトルを探す
例）近いベクトルを探す（ユークリッド距離の算出）
SELECT * FROM items ORDER BY embedding <-> '[3,1,2]' LIMIT 5;
→[3,1,2]と距離が近いベクトルを順に5つ探す
演算子説明
+ 要素ごとの加算
- 要素ごとの減算
* 要素ごとの乗算 [未リリース]
<-> ユークリッド距離
<#> 負の内積
<=> コサイン距離
pgvectorの演算子
・
・
ユークリッド距離
x
y
(x1, y1)
(x2, y2)

内積から計算する類似度
以下はわかりやすさのため、長さ1のベクトルとする
＊イメージ＊
公式のReadMeによると、類似度検索は内積を使っている
・・・
1
似てる
0
似ていない
1/√2
45°
・
-1
逆方向

作ってみる！

主な手順
• Python 3.10をインストール
• PostgreSQLとpgvectorをインストール
• CREATE EXTENSION vector;
• OpenAIでAPI keyを作成
• chatgpt-retrieval-plugin をインストール

OpenAI でAPI keyを発行
OpenAIでアカウントを登録してログイン
API keyを発行して保存しておく
※Free trialが終わるとクレジット登録が必要になった。$0.0001 / 1K tokens
1トークンとは？
TOKENIZERの種類によって異なる
今回は、「text-embedding-ada-002」モデルを使用。
このモデルでは、「cl100k_base」のTOKENIZERを使用。
日本語の場合、頻出単語は1トークン、それ以外は
複数トークンとなる。
「こんにちは」→ 1
「石井です」 →5
「今日もよろしくお願いします。」→13
ざっと1000万字で1ドル位？

chatgpt-retrieval-plugin をインストール
https://github.com/openai/chatgpt-retrieval-plugin のクイックスタートを参照
PostgreSQLを使う場合は、以下も参考になる
https://github.com/openai/chatgpt-retrieval-plugin/blob/main/docs/providers/postgres/setup.md
以下の手順を実施する
1. Python3.10をインストール
2. レポジトリをclone
3. ディレクトリ移動
4. poetryをインストール
git clone https://github.com/openai/chatgpt-retrieval-plugin.git
cd /path/to/chatgpt-retrieval-plugin
pip install poetry

chatgpt-retrieval-plugin をインストール続き
5. 新規のPython3.10の仮想環境を作成
6. 仮想環境をアクティベートする
7. 依存関係のあるアプリをインストール
8. 任意のツールでトークンを発行
• 今回はhttps://jwt.io/ で作成
9. 環境変数を設定（Retrieval app関連）
poetry shell
poetry install
poetry env use python3.10
export DATASTORE=postgres
export BEARER_TOKEN=<8で発行したトークン>
export OPENAI_API_KEY=<OpenAIで発行したKey>

chatgpt-retrieval-plugin をインストール続き
10. 環境変数を設定（PostgreSQL関連）
11. サーバを起動
12. APIエンドポイントの確認
• http://localhost:8000/docsにアクセスすると、エンドポイントが確認できる
poetry run start
export PG_HOST=<postgres_host>
export PG_PORT=<postgres_port>
export PG_USER=<postgres_user>
export PG_PASSWORD=<postgres_password>
export PG_DB=<postgres_database>
ReadMeではPG_DATABASEになっているので注意。※PRしようとしたけど別の人が出してた。
→localhost:8000でサーバが起動！

ドキュメントの確認
※スクリーンショット貼ります

PostgreSQLでドキュメントテーブルを用意
create table if not exists documents (
id text primary key default gen_random_uuid()::text,
source text,
source_id text,
content text, ※原文
document_id text,
author text,
url text,
created_at timestamptz default now(),
embedding vector(1536) ※ベクトルデータ
);

PDFデータをPostgreSQLに挿入
upsert-fileエンドポイントに対して、PDF（今回はPostgreSQLドキュメント）を送る
curl -X POST -F file=@postgresql-15.0-A4.pdf http://localhost:8000/upsert-file
id | 8fc5de86-712f-43dc-b8d6-e56ccb582351_0
source | file
source_id |
content | PostgreSQL 15.0文書 PostgreSQL 15.0文書 PostgreSQLグローバル開発グループ製作著作
c 1996?2022 The PostgreSQL Global Development Group, （翻訳）日本PostgreSQLユーザ会法的告知
Copyright c 1996?2022 PostgreSQLはPostgreSQLグローバル開発チームが著作権を有します。 Copyright c
1994?1995 Postgres95はカリフォルニア大学評議員が著作権を有します。日本PostgreSQLユーザ会(Japan
PostgreSQL User Group)は翻訳の著作権を有します。 Permission to use, copy, modify, and distribute
this software and its documentation
document_id | 8fc5de86-712f-43dc-b8d6-e56ccb582351
author |
url |
created_at | 2023-06-26 04:51:02.296534+00
embedding | [0.008476984,-0.012449941,0.006924103,……(略）

ここまでのシステム
オリジナルデータをアップロードすることできた。
ただし、手動でAPIを実行してデータを入れている。
毎日更新されるようなデータを利用したければ、自動でデータを最新化する仕組みが必要。
PostgreSQL
pgvector
(PDF)
chatgpt-
retrieval-plugin
OpenAI
Embeddings
API
upsert-file API
③ベクトル化
④upsert
①
初期データ準備OK！

常に最新のデータを入れるべく改良する
upsert API
Google Apps
Script
毎日、新規のメール（ PostgreSQLメーリングリストのアナウンス）を
チェックして、本文をデータベースに追加する
PostgreSQL
pgvector
(PDF)
chatgpt-
retrieval-plugin
OpenAI
Embeddings
API
upsert-file API
③ベクトル化
④upsert
①
テキスト抽出

メール本文を取得して、upsertのAPIを実行する仕組み
• 今回は、Google Apps Scriptを使って、自分のGmailに届いたメールから本文を取得し、upsertのAPIを使ってデータベー
スを更新する関数を実装。
• この関数を毎日0時に実施するようなトリガーを設定。
→これにより、自動でベクトルデータベースを毎日最新化することができる。
プラグイン公式では、
• ZapierやMakeなどでwebhookを構成する方法が紹介されている。
• ZapierやMakeはノーコードでワークフローの自動化を実現できるアプリケーション。
• イベントやスケジュールに基づいて、処理を実行可能

サンプルコード（本文取得）
var FindSubject = 'to:(pgsql-announce@lists.postgresql.org) ';
function getMail(){
var myThreads = GmailApp.search(FindSubject, 0, 10);
var myMessages = GmailApp.getMessagesForThreads(myThreads);
for(var i in myMessages){
for(var j in myMessages[i]){
if(!myMessages[i][j].isStarred()){
var strMessage = myMessages[i][j].getPlainBody().slice(0,200);
upsertData(strDate,strSubject,strMessage);
myMessages[i][j].star();
}
}
}
}

サンプルコード（本文をupsertする）
function upsertData(strDate,strSubject,strMessage){
var strToken = “ xxx";
var data = {
"documents": [{
"text": strMessage,
"metadata": {
"source": "email",
}}]
}
var options ={
"method" : "post",
'contentType': 'application/json',
"payload" : JSON.stringify(data),
"headers" : {"Authorization" : "Bearer "+ strToken}
};
UrlFetchApp.fetch("http://xxxxxx:8000/upsert",options);
}

トリガーの設定

動作確認

動作確認
PostgreSQLにメールの本文がベクトル化されて保存されていた。

ここまで完成！
upsert API
Google Apps
Script
PostgreSQL
pgvector
(PDF)
chatgpt-
retrieval-plugin
OpenAI
Embeddings
API
upsert-file API
③ベクトル化
④upsert
①

パフォーマンス向上
の取り組み
データが増えた場合に備える

パフォーマンスの改善：インデックスの付与
• pgvectorでは、vector型の列にivfflatという種類のインデックスを付与することができる
• 最大2000次元までの列に付与可能
• ivfflat(Inverted File with Flat Compression) あいびーえふふらっと
• 近似最近傍 (ANN) 検索の方法
• データセット内の各ベクトルを最も近いクラスターに割り当てる
• 最近傍を検索する際は、まず、最も近いクラスターを特定し、その中から最近傍を検索する
• 検索範囲が全体でなく一部となるため、パフォーマンス向上
・
・
・
・・
・
・
・
・
・・
・
・
・
・
・・
・・
・
★
・
・・
・・
・
・
★
★
→近似インデックスを利用すると、必ず最近傍である保証はできない。
→インデックス追加後と前では、クエリの結果が変わる可能性がある

ivfflatのクラスタの数について
• インデックス作成時に、クラスタ数（リスト数：lists）を指定する
• クラスタ数が多いほど…
• クラスタ内のデータ数が少なくなるので、より高速に検索できる。
• ただし、最も近いデータが、最も近いクラスタに入っておらず、取りこぼす可能性も高くなる（再現率が低くなる）
• トレードオフなので、アプリケーションに合わせて設定する
• 目安
• 100万レコード以下のとき→records/1000 からやってみる
• 100万レコードより多いとき→ sqrt(records) からやってみる
• クラスタ数は少なくとも10個以上が好ましい。
create index on documents using ivfflat (embedding vector_ip_ops) with (lists = 100);
内積

probesパラメータについて
• 取りこぼしを減らすために、最も近い重心を持つクラスタだけでなく、他にも近いクラスタの中も検索する
• デフォルト probes=1 →最も近い重心のクラスタのみ
• probesを増やすと、より多くのクラスタ内で検索するので、再現率が向上（取りこぼしにくい）
• 当然ながら、増やすほど速度は低下する。
• 目安：probes = sqrt(lists)
・
・
・
・・
・
・
・
・
・・
・
・
・
・
・
・・
・
★
・
・・
・・
・
・
★
★
▲
クラスタとしては上のクラスタだが、一番近いデータは右のクラスタに
あるので、取りこぼしてしまう例
SET文でトランザクション内で設定可能：
例）
SET ivfflat.probes = 10;

ivfflatインデックスの注意点
• データ（少なくとも数千レコード）が挿入されたあとでインデックスを追加すること。
• 実際のデータがない状態で作成するとクラスタの重心を適切に決めることができない。（ランダムになる）
• インデックス作成後に、データを追加・削除・更新しても、インデックスは更新されるが、クラスタの重心は更新されない。
• データの更新がある場合、定期的なREIDEXが推奨
• CONCURRENTLY オプションを使えばテーブルへの書き込みをロックせず再作成できる
• 1000以下の小さなデータセットの場合、性能向上のメリットは薄いのでインデックス不要かも。

部分インデックスも可能
CREATE INDEX ON items USING ivfflat (embedding vector_l2_ops) WITH (lists = 100)
WHERE (category_id = 123);
列のすべてのデータではなく、WHERE句で絞った行を対象にインデックスを作成可能。
全ての行に対してインデックスを作成するのに比べ、ディスク容量を削減、対象行の検索は高速になる。

パラレルクエリの活用
• PostgreSQLで複数CPUを活用する「パラレルクエリ」を利用可能
• インデックスを使用しなくても高速化が期待できる
• max_parallel_workers_per_gather を増やす
• 一つのGatherまたはGather Mergeノードに対して起動できるワーカー数の最大値
• デフォルト：２ → 4など

ChatGPTからプラグインを利用する

あとはプラグインを利用するだけ！
Develop your own plugin のボタンがなかった…プラグイン開発のwaitlist承認されないとダメな模様…。
続きは承認されてから…( ；∀；)

さいごに
• 比較的簡単な手順で、ChatGPTに外部データを接続できることがわかった
• 外部データを接続することで、さらにChatGPTの使い方も広がりそう
• 今回は使用しなかったが、LangChainというライブラリを使用して外部データを使用する方法もあるので、試してみたい

参考URL
• https://github.com/openai/chatgpt-retrieval-
plugin/blob/main/docs/providers/postgres/setup.md
• https://github.com/pgvector/pgvector/tree/ed20d98777a07d77a748b1085a3ee0a408f33e6c
• https://supabase.com/blog/chatgpt-plugins-support-postgres
• https://medium.com/@mauricio/optimizing-ivfflat-indexing-with-pgvector-in-postgresql-
755d142e54f5
• https://learn.microsoft.com/ja-jp/azure/postgresql/flexible-server/howto-optimize-
performance-pgvector
• https://www.timescale.com/blog/nearest-neighbor-indexes-what-are-ivfflat-indexes-in-
pgvector-and-how-do-they-work/

その他、記載されている会社名、商品名、又はサービス名は、
各社の登録商標又は商標です。

ChatGPTのデータソースにPostgreSQLを使う[詳細版]（オープンデベロッパーズカンファレンス2023 発表資料）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ChatGPTのデータソースにPostgreSQLを使う[詳細版]（オープンデベロッパーズカンファレンス2023 発表資料）

Similar to ChatGPTのデータソースにPostgreSQLを使う[詳細版]（オープンデベロッパーズカンファレンス2023 発表資料） (20)

More from NTT DATA Technology & Innovation

More from NTT DATA Technology & Innovation (20)

Recently uploaded

Recently uploaded (9)

ChatGPTのデータソースにPostgreSQLを使う[詳細版]（オープンデベロッパーズカンファレンス2023 発表資料）