SlideShare a Scribd company logo
1 of 17
© 2022 NTT DATA Corporation
目標ドメインにおける少量サンプルの近傍データを用いた
文書分類器の精度推定手法
2022年6月28日
NTTデータ 田原 英一 湯浅 晃
情報処理学会 第138回 MPS研究発表会
© 2022 NTT DATA Corporation 2
1.はじめに
2.先行研究
3.提案手法
4.実験・評価
5.まとめ
© 2022 NTT DATA Corporation 3
はじめに
© 2022 NTT DATA Corporation 4
課題
企業への機械学習の導入において,業務システムからの大量データの抽出・加工は大きな工数が必要
デ
ー
タ
モ
デ
ル
テキストデータの
固有名詞は
匿名化して
個人情報対策
して
データ抽出に
時間がかかる・・・!
会社
データ抽出方法
教えて
ITベンダー
© 2022 NTT DATA Corporation 5
本研究の目的
少量の目標ドメインのサンプルをもとに,目標ドメインの真のサンプルを大量に用いた場合の分類器の精度を推定し
たい
少量のサンプルデータから
分類器の精度を推定でき
れば,時間を無駄にする
リスクを下げられる!
A会社
(元ドメイン)
B会社
(目標ドメイン) うちでもA会社の
やつやりたい
AIモデル
このAIの精度
なかなかだな
本研究の目的
ITベンダー
数十件のサンプル
ならすぐ送れる
少
量
サ
ン
プ
ル
テキストデータ
精
度
推
定
特徴量データ
デ
ー
タ
モ
デ
ル
+
© 2022 NTT DATA Corporation 6
先行研究
© 2022 NTT DATA Corporation 7
先行研究
目標ドメインのデータが数十件程度と著しく少ない条件下では,転移学習の適用が難しい
元ドメインからランダムサンプリン
グすると,目標ドメインのデータ
として妥当性を説明できない
本研究のゴールは
目標ドメインの真のサンプルを
大量に用いた場合のモデル精度
を推定すること
モデル
モデル
事例ベース/データ拡張
特徴ベース/モデルベース 学習
目標ドメインのデータ数が少な
いと学習が進まない
学習
モデル
(真の精度)
学習
:元ドメインのデータ
:目標ドメインのデータ
特
徴
空
間
/
パ
ラ
メ
ー
タ
元ドメイン
(数千~数万件のデータ)
目標ドメイン
(数十件のデータ)
先行手法の課題
データの転移・拡張
(飼いならし法[神嶌 2008]
の場合はランダムサンプリング)
特徴空間・パラメータの転移
© 2022 NTT DATA Corporation 8
提案手法
© 2022 NTT DATA Corporation 9
提案手法
目標ドメインのサンプル(T)数が,目標ドメインの全サンプル数をクラスタ数で除算した値以上となるクラスタ(下図の
Cluster=0 とCluster=1)について,所属する元ドメインのサンプル(S)を,目標ドメインのサンプルと見立てる
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
Cluster=1 →採用
Cluster=0 →採用 Cluster=2
S
T
S
T
T
S
S
S
x
y S:元ドメイン
T:目標ドメイン
T
元ドメイン
特徴量データ
目標ドメイン
テキストデータ
文書ベクトル
文書ベクトル
①文書ベクトル変換
モデル作成
②クラスタリングによる近傍データ特定 ③近傍データでの分類器作成
Universal Sentence Encoder ロジスティック回帰
K-means
文書ベクトル
Cluster=1
Cluster=0
モデル
© 2022 NTT DATA Corporation 10
実験・評価
© 2022 NTT DATA Corporation 11
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
y
ランダムサンプリング(3550件)
提案手法(3550件)
実験①:提案手法によるモデルとランダムサンプリングによるモデルの精度比較
社内のマーケティング用のテキストデータ(5000件・自由記述・商品購入有無の教師ラベル付与)を用いて,元ドメインから提案
手法で抽出したモデル精度と,ランダムサンプリングで抽出したモデル精度を比較した
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
Cluster=1 →採用
Cluster=0 →採用 Cluster=2
S
T
S
T
T
S
S
S
x
y S:元ドメイン
T:目標ドメイン
T
x
© 2022 NTT DATA Corporation 12
評価①:提案手法によるモデルとランダムサンプリングによるモデルの精度比較
モデルのAUC の平均値は,提案手法では0.791,ランダムサンプリングでは0.773となった
対応なしt 検定の結果,p 値が0.003 となり,両者の母平均について有意差があることを確認した
AUC
提案手法 ランダムサンプリング
© 2022 NTT DATA Corporation 13
実験②:提案手法による精度推定値と真の精度比較
元ドメインから提案手法によって抽出したモデル精度と,目標ドメインの全量データのモデル精度(真のモデル)を比
較した
y S:元ドメイン
T:目標ドメイン
T
T
T
T
T
T
T
T
目標ドメインの全量データ(真のモデル)
T
T
T
T
T
T
T
提案手法
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
Cluster=1 →採用
Cluster=0 →採用 Cluster=2
S
T
S
T
T
S
S
S
x
y S:元ドメイン
T:目標ドメイン
T
x
T
T
T
T
T
T
T
© 2022 NTT DATA Corporation 14
評価②:提案手法による精度推定値と真の精度比較
真のモデルのAUC は0.812 となり,提案手法による推定値が,ランダムサンプリングより近い値となることを確認した
また,提案手法と真のモデルのロジスティック回帰の回帰係数を比較すると,上位3 位までが同じ特徴量であることを確
認した
回帰係数
X02 0.20990
X05 0.08199
X15 0.06887
X40 0.05490
X01 0.04994
X28 0.04326
X90 0.03833
X77 0.03618
回帰係数
X02 0.555638
X05 0.255425
X15 0.176619
X32 0.172987
X42 0.147251
X09 0.100597
X71 0.098413
X03 0.074788
提案手法 真のモデル
上位3位までが
同じ特徴量
AUC
提案手法 ランダムサンプリング
真のモデル精度
© 2022 NTT DATA Corporation 15
まとめ
© 2022 NTT DATA Corporation 16
本研究の目的
少量の目標ドメインのサンプルをもとに,真のサンプルを大量に用いた場合の分類器の精度を推定すること
結論
今回の検証データセットでは,目標ドメインの近傍データを使用することは分類器の精度推定に有効であることが
確認できた
今後の課題
今後は本手法の妥当性を確認するため,様々なデータセット,およびタスクを用いた実験を実施する必要がある
まとめ
・提案手法と真のモデルのロジスティック回帰の回帰係数は,上位3位までが同じ特徴量となった
そのため,提案手法のモデルは,大局的な振る舞いが似ているとの解釈が可能であり,
一定の説明力を備えている
・提案手法によるモデルは,ランダムサンプリングのモデルより,真のモデルに近い精度になることを確認した
© 2022 NTT DATA Corporation

More Related Content

Similar to 目標ドメインにおける少量サンプルの近傍データを用いた文書分類器の精度推定手法(第138回MPS・第70回BIO合同研究発表会)

データファブリックによるトランザクションの速度でアナリティクスを提供
データファブリックによるトランザクションの速度でアナリティクスを提供データファブリックによるトランザクションの速度でアナリティクスを提供
データファブリックによるトランザクションの速度でアナリティクスを提供Denodo
 
Distributed Cloud Architecture CODT2023
Distributed Cloud Architecture CODT2023Distributed Cloud Architecture CODT2023
Distributed Cloud Architecture CODT2023Takehiro Kudou
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介IBM Analytics Japan
 
PostgreSQL 13でのpg_stat_statementsの改善について(第12回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQL 13でのpg_stat_statementsの改善について(第12回PostgreSQLアンカンファレンス@オンライン 発表資料)PostgreSQL 13でのpg_stat_statementsの改善について(第12回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQL 13でのpg_stat_statementsの改善について(第12回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
正確な意思決定を阻む 問題・障害との向き合い方
正確な意思決定を阻む 問題・障害との向き合い方正確な意思決定を阻む 問題・障害との向き合い方
正確な意思決定を阻む 問題・障害との向き合い方syou6162
 
Talend 2013年概要
Talend 2013年概要Talend 2013年概要
Talend 2013年概要Talend KK
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料Takaya Nakanishi
 
通信業における「データ活用」事例 -携帯電話会社 顧客の離反を減少
通信業における「データ活用」事例 -携帯電話会社 顧客の離反を減少通信業における「データ活用」事例 -携帯電話会社 顧客の離反を減少
通信業における「データ活用」事例 -携帯電話会社 顧客の離反を減少日本テラデータ株式会社
 
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決CLOUDIAN KK
 
Data & AI Update 情報 - 2020年6月版
Data & AI Update 情報 - 2020年6月版Data & AI Update 情報 - 2020年6月版
Data & AI Update 情報 - 2020年6月版Takeshi Fukuhara
 
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)NTT DATA Technology & Innovation
 
佐賀大学 - データ分析と向き合う
佐賀大学 - データ分析と向き合う佐賀大学 - データ分析と向き合う
佐賀大学 - データ分析と向き合うDaiyu Hatakeyama
 
20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座
20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座
20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座SORACOM,INC
 
Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)CLOUDIAN KK
 
Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)CLOUDIAN KK
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例Tetsutaro Watanabe
 
D1-2-S07 オンプレミスのデータウェアハウス基盤を BigQuery へ
D1-2-S07 オンプレミスのデータウェアハウス基盤を BigQuery へD1-2-S07 オンプレミスのデータウェアハウス基盤を BigQuery へ
D1-2-S07 オンプレミスのデータウェアハウス基盤を BigQuery へHideaki Tokida
 

Similar to 目標ドメインにおける少量サンプルの近傍データを用いた文書分類器の精度推定手法(第138回MPS・第70回BIO合同研究発表会) (20)

データファブリックによるトランザクションの速度でアナリティクスを提供
データファブリックによるトランザクションの速度でアナリティクスを提供データファブリックによるトランザクションの速度でアナリティクスを提供
データファブリックによるトランザクションの速度でアナリティクスを提供
 
Distributed Cloud Architecture CODT2023
Distributed Cloud Architecture CODT2023Distributed Cloud Architecture CODT2023
Distributed Cloud Architecture CODT2023
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介データを集めて貯めて分析する…  最先端のテクノロジーが詰まったIBMクラウドのご紹介
データを集めて貯めて分析する… 最先端のテクノロジーが詰まったIBMクラウドのご紹介
 
Aws summit tokyo 2016
Aws summit tokyo 2016Aws summit tokyo 2016
Aws summit tokyo 2016
 
PostgreSQL 13でのpg_stat_statementsの改善について(第12回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQL 13でのpg_stat_statementsの改善について(第12回PostgreSQLアンカンファレンス@オンライン 発表資料)PostgreSQL 13でのpg_stat_statementsの改善について(第12回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQL 13でのpg_stat_statementsの改善について(第12回PostgreSQLアンカンファレンス@オンライン 発表資料)
 
正確な意思決定を阻む 問題・障害との向き合い方
正確な意思決定を阻む 問題・障害との向き合い方正確な意思決定を阻む 問題・障害との向き合い方
正確な意思決定を阻む 問題・障害との向き合い方
 
Talend 2013年概要
Talend 2013年概要Talend 2013年概要
Talend 2013年概要
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
 
通信業における「データ活用」事例 -携帯電話会社 顧客の離反を減少
通信業における「データ活用」事例 -携帯電話会社 顧客の離反を減少通信業における「データ活用」事例 -携帯電話会社 顧客の離反を減少
通信業における「データ活用」事例 -携帯電話会社 顧客の離反を減少
 
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決
 
Data & AI Update 情報 - 2020年6月版
Data & AI Update 情報 - 2020年6月版Data & AI Update 情報 - 2020年6月版
Data & AI Update 情報 - 2020年6月版
 
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
Kubernetes 疲れに Azure Container Apps はいかがでしょうか?(江東区合同ライトニングトーク 発表資料)
 
佐賀大学 - データ分析と向き合う
佐賀大学 - データ分析と向き合う佐賀大学 - データ分析と向き合う
佐賀大学 - データ分析と向き合う
 
20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座
20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座
20181019日経xTECH EXPO講演 | 今からでも遅くない!事例に学ぶIoT導入のための技術ポイント実践講座
 
Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)
 
Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)Cloudianを利用したソリューション (Cloudian Summit 2012)
Cloudianを利用したソリューション (Cloudian Summit 2012)
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例
 
D1-2-S07 オンプレミスのデータウェアハウス基盤を BigQuery へ
D1-2-S07 オンプレミスのデータウェアハウス基盤を BigQuery へD1-2-S07 オンプレミスのデータウェアハウス基盤を BigQuery へ
D1-2-S07 オンプレミスのデータウェアハウス基盤を BigQuery へ
 

More from NTT DATA Technology & Innovation

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)NTT DATA Technology & Innovation
 
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方NTT DATA Technology & Innovation
 
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...NTT DATA Technology & Innovation
 
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)NTT DATA Technology & Innovation
 
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)NTT DATA Technology & Innovation
 
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...NTT DATA Technology & Innovation
 
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)NTT DATA Technology & Innovation
 
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...NTT DATA Technology & Innovation
 
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)NTT DATA Technology & Innovation
 
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)NTT DATA Technology & Innovation
 
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)NTT DATA Technology & Innovation
 
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...NTT DATA Technology & Innovation
 
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)NTT DATA Technology & Innovation
 
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)NTT DATA Technology & Innovation
 
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 

More from NTT DATA Technology & Innovation (20)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
 
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
 
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
 
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
 
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
 
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
 
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
 
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
 
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
 
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
 
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
 
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
 
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
 
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
 
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
 
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
 
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
 
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
 
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
 

Recently uploaded

ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdfネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdfTakayuki Nakayama
 
Keywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltdKeywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltdkokinagano2
 
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。iPride Co., Ltd.
 
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperleger Tokyo Meetup
 
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイルLoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイルCRI Japan, Inc.
 
情報を表現するときのポイント
情報を表現するときのポイント情報を表現するときのポイント
情報を表現するときのポイントonozaty
 
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用KLab Inc. / Tech
 
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアルLoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアルCRI Japan, Inc.
 

Recently uploaded (8)

ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdfネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
 
Keywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltdKeywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltd
 
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
 
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
 
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイルLoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
 
情報を表現するときのポイント
情報を表現するときのポイント情報を表現するときのポイント
情報を表現するときのポイント
 
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
 
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアルLoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
 

目標ドメインにおける少量サンプルの近傍データを用いた文書分類器の精度推定手法(第138回MPS・第70回BIO合同研究発表会)

  • 1. © 2022 NTT DATA Corporation 目標ドメインにおける少量サンプルの近傍データを用いた 文書分類器の精度推定手法 2022年6月28日 NTTデータ 田原 英一 湯浅 晃 情報処理学会 第138回 MPS研究発表会
  • 2. © 2022 NTT DATA Corporation 2 1.はじめに 2.先行研究 3.提案手法 4.実験・評価 5.まとめ
  • 3. © 2022 NTT DATA Corporation 3 はじめに
  • 4. © 2022 NTT DATA Corporation 4 課題 企業への機械学習の導入において,業務システムからの大量データの抽出・加工は大きな工数が必要 デ ー タ モ デ ル テキストデータの 固有名詞は 匿名化して 個人情報対策 して データ抽出に 時間がかかる・・・! 会社 データ抽出方法 教えて ITベンダー
  • 5. © 2022 NTT DATA Corporation 5 本研究の目的 少量の目標ドメインのサンプルをもとに,目標ドメインの真のサンプルを大量に用いた場合の分類器の精度を推定し たい 少量のサンプルデータから 分類器の精度を推定でき れば,時間を無駄にする リスクを下げられる! A会社 (元ドメイン) B会社 (目標ドメイン) うちでもA会社の やつやりたい AIモデル このAIの精度 なかなかだな 本研究の目的 ITベンダー 数十件のサンプル ならすぐ送れる 少 量 サ ン プ ル テキストデータ 精 度 推 定 特徴量データ デ ー タ モ デ ル +
  • 6. © 2022 NTT DATA Corporation 6 先行研究
  • 7. © 2022 NTT DATA Corporation 7 先行研究 目標ドメインのデータが数十件程度と著しく少ない条件下では,転移学習の適用が難しい 元ドメインからランダムサンプリン グすると,目標ドメインのデータ として妥当性を説明できない 本研究のゴールは 目標ドメインの真のサンプルを 大量に用いた場合のモデル精度 を推定すること モデル モデル 事例ベース/データ拡張 特徴ベース/モデルベース 学習 目標ドメインのデータ数が少な いと学習が進まない 学習 モデル (真の精度) 学習 :元ドメインのデータ :目標ドメインのデータ 特 徴 空 間 / パ ラ メ ー タ 元ドメイン (数千~数万件のデータ) 目標ドメイン (数十件のデータ) 先行手法の課題 データの転移・拡張 (飼いならし法[神嶌 2008] の場合はランダムサンプリング) 特徴空間・パラメータの転移
  • 8. © 2022 NTT DATA Corporation 8 提案手法
  • 9. © 2022 NTT DATA Corporation 9 提案手法 目標ドメインのサンプル(T)数が,目標ドメインの全サンプル数をクラスタ数で除算した値以上となるクラスタ(下図の Cluster=0 とCluster=1)について,所属する元ドメインのサンプル(S)を,目標ドメインのサンプルと見立てる S S S S S S S S S S S S S S S S S S S S Cluster=1 →採用 Cluster=0 →採用 Cluster=2 S T S T T S S S x y S:元ドメイン T:目標ドメイン T 元ドメイン 特徴量データ 目標ドメイン テキストデータ 文書ベクトル 文書ベクトル ①文書ベクトル変換 モデル作成 ②クラスタリングによる近傍データ特定 ③近傍データでの分類器作成 Universal Sentence Encoder ロジスティック回帰 K-means 文書ベクトル Cluster=1 Cluster=0 モデル
  • 10. © 2022 NTT DATA Corporation 10 実験・評価
  • 11. © 2022 NTT DATA Corporation 11 S S S S S S S S S S S S S S S S y ランダムサンプリング(3550件) 提案手法(3550件) 実験①:提案手法によるモデルとランダムサンプリングによるモデルの精度比較 社内のマーケティング用のテキストデータ(5000件・自由記述・商品購入有無の教師ラベル付与)を用いて,元ドメインから提案 手法で抽出したモデル精度と,ランダムサンプリングで抽出したモデル精度を比較した S S S S S S S S S S S S S S S S S S S S Cluster=1 →採用 Cluster=0 →採用 Cluster=2 S T S T T S S S x y S:元ドメイン T:目標ドメイン T x
  • 12. © 2022 NTT DATA Corporation 12 評価①:提案手法によるモデルとランダムサンプリングによるモデルの精度比較 モデルのAUC の平均値は,提案手法では0.791,ランダムサンプリングでは0.773となった 対応なしt 検定の結果,p 値が0.003 となり,両者の母平均について有意差があることを確認した AUC 提案手法 ランダムサンプリング
  • 13. © 2022 NTT DATA Corporation 13 実験②:提案手法による精度推定値と真の精度比較 元ドメインから提案手法によって抽出したモデル精度と,目標ドメインの全量データのモデル精度(真のモデル)を比 較した y S:元ドメイン T:目標ドメイン T T T T T T T T 目標ドメインの全量データ(真のモデル) T T T T T T T 提案手法 S S S S S S S S S S S S S S S S S S S S Cluster=1 →採用 Cluster=0 →採用 Cluster=2 S T S T T S S S x y S:元ドメイン T:目標ドメイン T x T T T T T T T
  • 14. © 2022 NTT DATA Corporation 14 評価②:提案手法による精度推定値と真の精度比較 真のモデルのAUC は0.812 となり,提案手法による推定値が,ランダムサンプリングより近い値となることを確認した また,提案手法と真のモデルのロジスティック回帰の回帰係数を比較すると,上位3 位までが同じ特徴量であることを確 認した 回帰係数 X02 0.20990 X05 0.08199 X15 0.06887 X40 0.05490 X01 0.04994 X28 0.04326 X90 0.03833 X77 0.03618 回帰係数 X02 0.555638 X05 0.255425 X15 0.176619 X32 0.172987 X42 0.147251 X09 0.100597 X71 0.098413 X03 0.074788 提案手法 真のモデル 上位3位までが 同じ特徴量 AUC 提案手法 ランダムサンプリング 真のモデル精度
  • 15. © 2022 NTT DATA Corporation 15 まとめ
  • 16. © 2022 NTT DATA Corporation 16 本研究の目的 少量の目標ドメインのサンプルをもとに,真のサンプルを大量に用いた場合の分類器の精度を推定すること 結論 今回の検証データセットでは,目標ドメインの近傍データを使用することは分類器の精度推定に有効であることが 確認できた 今後の課題 今後は本手法の妥当性を確認するため,様々なデータセット,およびタスクを用いた実験を実施する必要がある まとめ ・提案手法と真のモデルのロジスティック回帰の回帰係数は,上位3位までが同じ特徴量となった そのため,提案手法のモデルは,大局的な振る舞いが似ているとの解釈が可能であり, 一定の説明力を備えている ・提案手法によるモデルは,ランダムサンプリングのモデルより,真のモデルに近い精度になることを確認した
  • 17. © 2022 NTT DATA Corporation