SlideShare a Scribd company logo
1 of 19
Copyright©2019 NTT corp. All Rights Reserved.
外部キー制約を
考慮した特徴量削減手法
長 裕敏,山室 健,内山 寛之
NTT ソフトウェアイノベーションセンタ
2Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
背景:企業データの分析活用機会の増加
• 大量データ管理の容易化や機械学習ツールの普及
• 大量の企業データを機械学習で活用した意思決定やサービス改善の増加
• e.g.,顧客情報やサービス利用情報を活用した顧客の解約予測分析
解約予測
モデル
企業データ
顧客情報, サービス利用情報, 等 機械学習
性別が○○で,
年齢が○○で,
平均利用時間が○○で,
継続利用日数が○○な人は
解約しそうだよ!
3Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
解決したい問題
• 特徴選択は予測モデルの精度向上のために重要
冗長な特徴量を事前に削減して特徴選択時間を削減したい
解約予測に使う最適な特徴量は?
a. 年収と登録コース? 高精度
b. 性別と最終利用日? 中精度
c. 職業と年齢? 低精度
d. 年収と性別と継続利用日? 最高精度!
… …
企業データ
顧客情報, サービス利用情報, 等
特徴選択 解約予測
モデル
特徴量がx個あるとき組み合わせ数は𝟐 𝒙あり
最適な組み合わせの発見は時間コスト大
機械学習
4Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
既存手法
• 企業データはDBMS上で外部キー制約をもつ複数テーブルで管理
外部キー制約を活用した結合省略による特徴量削減[1]:
線形分類モデルにおいて,𝒏 𝒔/𝒏 𝑹>20ならば,精度(汎化誤差)の劣化を0.01
以下に抑えて特徴量群を外部キーで代替できる
[1] To Join or Not to Join? Thinking Twice about Joins before Feature Selection. SIGMOD 2016
解約 性別 年齢 … 雇用者ID
Yes 男性 10代 Amazon
NO 女性 40代 Google
Yes 男性 20代 Apple
No 男性 40代 Amazon
… … … … …
顧客テーブル
雇用者ID 職場 売上
Amazon WA 2329臆$
Google CA 1368臆$
… … …
雇用者テーブル
外部キー
主キー
e.g., 顧客の解約予測分析
𝒏 𝒔/𝒏 𝑹>20ならば{職場, 売上}を雇用者IDに代替して特徴量数を削減
𝒏 𝒔
𝒏 𝑹
代替
5Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
既存手法の利点・課題
• 利点:適用可能なら,オーバーヘッドなしに特徴選択時間を大幅短縮
• 課題:適用範囲が限定的
𝒏 𝒔≈ 𝒏 𝑹の場合,適用不可
全特徴量で特徴選択
レコード数比判定
𝐧 𝐬/𝐧 𝐑 > 20 ?
特徴量を除いた上で,特徴選択
Yes NO
より多くのデータセットに対して適用できないか?
6Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
既存手法改善の着眼点
• 𝒏 𝒔≈ 𝒏 𝑹で手法が適用できない場合でも,参照するテーブル中に類似
したレコードを多く含む場合に代替できるケースがあるのでは?
解約 性別 年齢 … 雇用者ID
Yes 男性 10代 Amazon
NO 女性 40代 Google
Yes 男性 20代 Apple
No 男性 40代 Amazon
… … … … …
顧客テーブル
雇用者ID 職場 売上
Amazon WA 2329臆$
Google CA 1368臆$
Microsoft WA 1104臆$
Apple CA 2656臆$
… … …
雇用者テーブル
𝒏 𝒔 𝒏 𝑹 類似レコード
類似レコードを除去することで,適用範囲が広がり
特徴代替して特徴量数を削減できるのでは?
7Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
既存手法→提案手法
類似レコードを除いた
レコード数の算出
全特徴量で特徴選択
レコード数比判定
𝐧 𝐬/𝐧 𝐑 > 20 ?
特徴量を除いた上で,特徴選択
Yes NO
既存手法
8Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
既存手法→提案手法
類似レコードを除いた
レコード数の算出
提案手法の代替判定
複数特徴量を一次元化
した上で,特徴選択
全特徴量で特徴選択
レコード数比判定
𝐧 𝐬/𝐧 𝐑 > 20 ?
特徴量を除いた上で,特徴選択
提案手法
Yes NO
YesNO
9Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
提案手法
類似レコードを除いた
レコード数の算出
提案手法の代替判定
複数特徴量を一次元化
した上で,特徴選択
全特徴量で特徴選択
レコード数比判定
𝐧 𝐬/𝐧 𝐑 > 20 ?
特徴量を除いた上で,特徴選択
提案手法
Yes NO
YesNO
10Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
類似レコードを除いたレコード数𝒏 𝑹‘の算出
• 外部キー参照先テーブルの連続値の特徴をBinning処理を行い離散化
• 主キーを除く特徴群でDistinct処理をして,レコード数をカウント
雇用者ID 職場 売上
Amazon WA 2329臆$
Google CA 1368臆$
Microsoft WA 1104臆$
Apple CA 2656臆$
… … …
雇用者ID 職場 売上ランク
(1-5)
Amazon WA 5
Google CA 5
Microsoft WA 5
Apple CA 5
… … …
雇用者ID 職場 売上ランク
(1-5)
Amazon WA 5
Google CA 5
… … …
𝒏 𝑹‘
Binning
Distinct Count
11Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
提案手法
提案手法の代替判定
類似レコードを除いた
レコード数𝒏 𝑹‘の算出
複数特徴量を一次元化
した上で,特徴選択
全特徴量で特徴選択
レコード数比判定
𝐧 𝐬/𝐧 𝐑 > 20 ?
特徴量を除いた上で,特徴選択
提案手法
Yes NO
YesNO
12Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
提案する特徴量代替判定
Amazon WA 5
Google CA 5
• 参照先テーブルの特徴群を一次元特徴量に代替した時の精度低下リスクを
VC次元定理(|Test error – Train error| ≤
𝟒+ 𝒗𝒍𝒐𝒈(
𝟐𝒆𝒏
𝒗
)
𝝈 𝟐𝒏
)を利用して導出
• 簡略化して参照先の類似レコード除去時のレコード数比(𝐧 𝐬/𝐧 𝐑’>20 ?)で判定
Amazon WA 2329臆$
Google CA 1368臆$
Microsoft WA 1104臆$
Apple CA 2656臆$
𝒏 𝑹
𝒏 𝑹’
𝒏 𝒔
WA & High Sale
CA & High Sale
𝒏 𝒔
類似レコード除去により 𝒏 𝑹 ≥ 𝒏 𝑹’ なので既存手法より多くの
データセットに対して適用できる可能性がある
既存判定:𝐧 𝐬/𝐧 𝐑 > 20 ? 提案判定:𝐧 𝐬/𝐧 𝐑’ > 20 ?
代替 代替
13Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
提案手法
類似レコードを除いた
レコード数𝒏 𝑹‘の算出
提案手法の代替判定
𝐧 𝐬/𝐧 𝐑’ > 20 ?
複数特徴量を一次元化
した上で,特徴選択
全特徴量で特徴選択
レコード数比判定
𝐧 𝐬/𝐧 𝐑 > 20 ?
特徴量を除いた上で,特徴選択
提案手法
Yes NO
YesNO
14Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
参照先テーブルの特徴量一次元化
雇用者ID 職場 売上
Amazon WA 5
Google CA 5
Microsoft WA 5
Apple CA 5
… … …
• 参照先テーブルの特徴群を一次元特徴量に代替
• 同一値を示すレコードごとにグルーピング
• グループごとに同一値を示すカテゴリ変数を付与
• 複数特徴量の一次元化により、特徴選択に要する時間を削減
雇用者ID 職場 売上
Amazon WA 5
Microsoft WA 5
Google CA 5
Apple CA 5
… … …
雇用者ID 職場 売上
Amazon WA 5
Microsoft WA 5
Google CA 5
Apple CA 5
… … …
1
1
2
2
WA∧高売上
CA∧高売上
一次元化
15Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
実験:評価方法
• 全特徴使用時、既存・提案手法を用いての特徴削減時で比較評価
• 実験内容:
• 学習モデルに単純ベイズ分類器を使用
• 特徴選択終了までに要した時間, 選択した特徴で生成したモデル精度を比較
• 特徴選択はBFS(Backward Feature Selection)を使用
• 精度改善がなくなるまで,予測変数と最も関連がない特徴を削減
• 評価項目:
1. 適用範囲
2. 精度
3. 処理時間
16Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
実験:適用範囲評価
• 既存手法で特徴量削減に到らなかった7テーブル中3テーブル
に対して新規に特徴量数を削減可能とした
Dataset 𝐧 𝐒 R 𝐧 𝐑 𝐧′ 𝐑
既存判定
(𝐧 𝐬/ 𝐧 𝐑>20 ?)
提案判定
( 𝐧 𝐬/ 𝐧 𝐑’>20 ?)
MovieLens1M
映画評価予測
1,000,209
User 6,040 5,789 ○ ○
Movie 3,706 2,354 ○ ○
Yelp
お店評価予測
215,879
Business 11,537 10,369 × ×
User 43,873 1,483 × ○
Walmart
売上ランク予測
421,570
Indicator 2,340 913 ○ ○
Store 45 8 ○ ○
LastFM
音楽評価予測
343,747
Artist 4,999 147 ○ ○
User 50,000 3,845 × ○
BookCrossing
書籍評価予測
253,120
User 27,876 356 × ○
Book 49,772 26,030 × ×
Flight
コードシェア
便か予測
66,548
Airlines 540 374 ○ ○
SrcAirport 3,182 3,111 × ×
DestAirPort 3,182 3,111 × ×
WA 5
CA 5
WA 5
CA 5
𝒏 𝒔 𝒏 𝑹
類似レコード多数
のため適用可能に
𝐑
WA 5
CA 5
𝒏 𝑹’
17Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
実験:特徴量数削減による分類予測精度影響比較
• 特徴量数を最も削減しつつ,汎化誤差が増大していないことを確認
Better
27 2 2入力特徴数: 404035 14 3 3 13 6 3 8 8 7 403535
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
MovieLens1M Yelp Walmart LastFM BookCrossing Flight
TestError
(Flight:誤答率,Else:RMSE)
全特徴 既存手法 提案手法
同等精度 同等精度
局所最適解
回避により
精度微改善
2値予測5分類予測5分類予測7分類予測5分類予測5分類予測
-0.02
18Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
実験:データ取得~特徴選択の処理時間比較
• 特徴量数の削減により既存手法と比べて最大3.3x高速化
1.E+00
1.E+01
1.E+02
1.E+03
1.E+04
1.E+05
MovieLens1M Yelp Walmart LastFM BookCrossing Flight
TotalRuntime(s)
全特徴 既存手法 提案手法
Better
27 2 2入力特徴数: 404035 14 3 3 13 6 3 8 8 7 403535
625.3x 84.1x
1.4x
1.4x
1.5x
4.6x
3.3x
19Copyright©2019 NTT corp. All Rights Reserved.
NTT Confidential
まとめ
• DBMS上の外部キー制約を活用して、機械学習の精度を保ちながら特徴量
数を削減可能な手法を提案した。
• 既存手法と同様のデータセットに対して比較実験
• 7テーブル中3テーブルに対して新規に特徴量数を削減可能とし、適用可能な
範囲が広いことを示した
• 学習モデル精度の影響を抑えながら、特徴選択の高速化を達成した
提案手法を用いることで、より多くのデータセットに対して
特徴選択に要する処理時間を削減できる

More Related Content

What's hot

DXを企画・実行する為の基礎知識
DXを企画・実行する為の基礎知識DXを企画・実行する為の基礎知識
DXを企画・実行する為の基礎知識masaaki murakami
 
日経地方創生フォーラム KDDI登壇資料
日経地方創生フォーラム KDDI登壇資料日経地方創生フォーラム KDDI登壇資料
日経地方創生フォーラム KDDI登壇資料KDDI
 
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティングThe Japan DataScientist Society
 
企業活動と情報システム 図版
企業活動と情報システム 図版企業活動と情報システム 図版
企業活動と情報システム 図版Masanori Saito
 
AI_IoTを活用する企業のあり方
AI_IoTを活用する企業のあり方AI_IoTを活用する企業のあり方
AI_IoTを活用する企業のあり方Osaka University
 
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~The Japan DataScientist Society
 
LiBRA 09.2021 / 総集編 2/2
LiBRA 09.2021 / 総集編 2/2LiBRA 09.2021 / 総集編 2/2
LiBRA 09.2021 / 総集編 2/2Masanori Saito
 
企業における社会価値創造の実際
企業における社会価値創造の実際企業における社会価値創造の実際
企業における社会価値創造の実際克彦 岡本
 
学生のための AI で考える近未来
学生のための AI で考える近未来学生のための AI で考える近未来
学生のための AI で考える近未来Daiyu Hatakeyama
 
Teams を活用してメッチャマルチタスクをこなす方法 - dahatake さん流 - version 1.3
Teams を活用してメッチャマルチタスクをこなす方法 - dahatake さん流 - version 1.3Teams を活用してメッチャマルチタスクをこなす方法 - dahatake さん流 - version 1.3
Teams を活用してメッチャマルチタスクをこなす方法 - dahatake さん流 - version 1.3Daiyu Hatakeyama
 
Woven Work Design concept20200520
Woven Work Design concept20200520Woven Work Design concept20200520
Woven Work Design concept20200520ToruTakagi
 
LiBRA 08.2020 / ITソリューション塾_これからのビジネス戦略
LiBRA 08.2020 / ITソリューション塾_これからのビジネス戦略LiBRA 08.2020 / ITソリューション塾_これからのビジネス戦略
LiBRA 08.2020 / ITソリューション塾_これからのビジネス戦略Masanori Saito
 
LiBRA 07.2020 / ITソリューション塾・第34期 SDI
LiBRA 07.2020 /  ITソリューション塾・第34期 SDILiBRA 07.2020 /  ITソリューション塾・第34期 SDI
LiBRA 07.2020 / ITソリューション塾・第34期 SDIMasanori Saito
 
20140608 interlop keynote
20140608 interlop keynote20140608 interlop keynote
20140608 interlop keynoteSORACOM, INC
 
“Generation D (データ活用先進企業)” に対する洞察 豊富なデータを分析主導で推進する企業であることの意味
“Generation D (データ活用先進企業)” に対する洞察  豊富なデータを分析主導で推進する企業であることの意味“Generation D (データ活用先進企業)” に対する洞察  豊富なデータを分析主導で推進する企業であることの意味
“Generation D (データ活用先進企業)” に対する洞察 豊富なデータを分析主導で推進する企業であることの意味IBM Center for Applied Insights
 
LiBRA 05.2021 / 総集編#2/1
LiBRA 05.2021 / 総集編#2/1LiBRA 05.2021 / 総集編#2/1
LiBRA 05.2021 / 総集編#2/1Masanori Saito
 
LiBRA 08.2020 / クラウド・コンピューティング
LiBRA 08.2020 / クラウド・コンピューティングLiBRA 08.2020 / クラウド・コンピューティング
LiBRA 08.2020 / クラウド・コンピューティングMasanori Saito
 
LiBRA 10.2019 / デジタル・トランスフォーメーションの本質と「共創」戦略
LiBRA 10.2019 / デジタル・トランスフォーメーションの本質と「共創」戦略LiBRA 10.2019 / デジタル・トランスフォーメーションの本質と「共創」戦略
LiBRA 10.2019 / デジタル・トランスフォーメーションの本質と「共創」戦略Masanori Saito
 

What's hot (20)

DXを企画・実行する為の基礎知識
DXを企画・実行する為の基礎知識DXを企画・実行する為の基礎知識
DXを企画・実行する為の基礎知識
 
LiBRA 03.2021 / ERP
LiBRA 03.2021 / ERPLiBRA 03.2021 / ERP
LiBRA 03.2021 / ERP
 
日経地方創生フォーラム KDDI登壇資料
日経地方創生フォーラム KDDI登壇資料日経地方創生フォーラム KDDI登壇資料
日経地方創生フォーラム KDDI登壇資料
 
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
 
企業活動と情報システム 図版
企業活動と情報システム 図版企業活動と情報システム 図版
企業活動と情報システム 図版
 
AI_IoTを活用する企業のあり方
AI_IoTを活用する企業のあり方AI_IoTを活用する企業のあり方
AI_IoTを活用する企業のあり方
 
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
 
LiBRA 09.2021 / 総集編 2/2
LiBRA 09.2021 / 総集編 2/2LiBRA 09.2021 / 総集編 2/2
LiBRA 09.2021 / 総集編 2/2
 
企業における社会価値創造の実際
企業における社会価値創造の実際企業における社会価値創造の実際
企業における社会価値創造の実際
 
学生のための AI で考える近未来
学生のための AI で考える近未来学生のための AI で考える近未来
学生のための AI で考える近未来
 
Teams を活用してメッチャマルチタスクをこなす方法 - dahatake さん流 - version 1.3
Teams を活用してメッチャマルチタスクをこなす方法 - dahatake さん流 - version 1.3Teams を活用してメッチャマルチタスクをこなす方法 - dahatake さん流 - version 1.3
Teams を活用してメッチャマルチタスクをこなす方法 - dahatake さん流 - version 1.3
 
Woven Work Design concept20200520
Woven Work Design concept20200520Woven Work Design concept20200520
Woven Work Design concept20200520
 
LiBRA 08.2020 / ITソリューション塾_これからのビジネス戦略
LiBRA 08.2020 / ITソリューション塾_これからのビジネス戦略LiBRA 08.2020 / ITソリューション塾_これからのビジネス戦略
LiBRA 08.2020 / ITソリューション塾_これからのビジネス戦略
 
LiBRA 07.2020 / ITソリューション塾・第34期 SDI
LiBRA 07.2020 /  ITソリューション塾・第34期 SDILiBRA 07.2020 /  ITソリューション塾・第34期 SDI
LiBRA 07.2020 / ITソリューション塾・第34期 SDI
 
20140608 interlop keynote
20140608 interlop keynote20140608 interlop keynote
20140608 interlop keynote
 
“Generation D (データ活用先進企業)” に対する洞察 豊富なデータを分析主導で推進する企業であることの意味
“Generation D (データ活用先進企業)” に対する洞察  豊富なデータを分析主導で推進する企業であることの意味“Generation D (データ活用先進企業)” に対する洞察  豊富なデータを分析主導で推進する企業であることの意味
“Generation D (データ活用先進企業)” に対する洞察 豊富なデータを分析主導で推進する企業であることの意味
 
LiBRA 05.2021 / 総集編#2/1
LiBRA 05.2021 / 総集編#2/1LiBRA 05.2021 / 総集編#2/1
LiBRA 05.2021 / 総集編#2/1
 
LiBRA 08.2021 / IoT
LiBRA 08.2021 / IoTLiBRA 08.2021 / IoT
LiBRA 08.2021 / IoT
 
LiBRA 08.2020 / クラウド・コンピューティング
LiBRA 08.2020 / クラウド・コンピューティングLiBRA 08.2020 / クラウド・コンピューティング
LiBRA 08.2020 / クラウド・コンピューティング
 
LiBRA 10.2019 / デジタル・トランスフォーメーションの本質と「共創」戦略
LiBRA 10.2019 / デジタル・トランスフォーメーションの本質と「共創」戦略LiBRA 10.2019 / デジタル・トランスフォーメーションの本質と「共創」戦略
LiBRA 10.2019 / デジタル・トランスフォーメーションの本質と「共創」戦略
 

Similar to 外部キー制約を考慮した特徴量削減手法

DataRobotを用いた要因分析 (Causal Analysis by DataRobot)
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)DataRobotを用いた要因分析 (Causal Analysis by DataRobot)
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)Yuya Yamamoto
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐Rakuten Group, Inc.
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)Yasuyuki Kataoka
 
AWS Black Belt Online Seminar 2018 Amazon WorkSpaces
AWS Black Belt Online Seminar 2018 Amazon WorkSpacesAWS Black Belt Online Seminar 2018 Amazon WorkSpaces
AWS Black Belt Online Seminar 2018 Amazon WorkSpacesAmazon Web Services Japan
 
20180207 AWS blackbelt online seminar Amazon Workspaces
20180207 AWS blackbelt online seminar Amazon Workspaces20180207 AWS blackbelt online seminar Amazon Workspaces
20180207 AWS blackbelt online seminar Amazon WorkspacesAmazon Web Services Japan
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望についてKen Azuma
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方幹雄 小川
 
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten, core skills neede...
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten,  core skills  neede...楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten,  core skills  neede...
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten, core skills neede...Rakuten Group, Inc.
 
入社半年での開発ストーリー - 千人規模の顔認証受付サービスを 1ヶ月で作った話 -
入社半年での開発ストーリー - 千人規模の顔認証受付サービスを 1ヶ月で作った話 -入社半年での開発ストーリー - 千人規模の顔認証受付サービスを 1ヶ月で作った話 -
入社半年での開発ストーリー - 千人規模の顔認証受付サービスを 1ヶ月で作った話 -Yoshitaka Haribara
 
第73回 Machine Learning 15minutes ! IBM AI Foundation Modelsへの取り組み
第73回 Machine Learning 15minutes ! IBM AI Foundation Modelsへの取り組み第73回 Machine Learning 15minutes ! IBM AI Foundation Modelsへの取り組み
第73回 Machine Learning 15minutes ! IBM AI Foundation Modelsへの取り組みTsuyoshi Hirayama
 
パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN
パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPANパーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN
パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPANYahoo!デベロッパーネットワーク
 
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてタクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてTakashi Suzuki
 
はじめよう FinOps クラウドコスト最適化への第一歩とは 日本IBMカスタマーサクセスチーム
はじめよう FinOps クラウドコスト最適化への第一歩とは 日本IBMカスタマーサクセスチームはじめよう FinOps クラウドコスト最適化への第一歩とは 日本IBMカスタマーサクセスチーム
はじめよう FinOps クラウドコスト最適化への第一歩とは 日本IBMカスタマーサクセスチーム勇 黒沢
 
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」kashiwanoha-iot
 
ビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDBビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDBgriddb
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望についてKen Azuma
 

Similar to 外部キー制約を考慮した特徴量削減手法 (20)

DataRobotを用いた要因分析 (Causal Analysis by DataRobot)
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)DataRobotを用いた要因分析 (Causal Analysis by DataRobot)
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
20111212勉強会資料
20111212勉強会資料20111212勉強会資料
20111212勉強会資料
 
AWS Black Belt Online Seminar 2018 Amazon WorkSpaces
AWS Black Belt Online Seminar 2018 Amazon WorkSpacesAWS Black Belt Online Seminar 2018 Amazon WorkSpaces
AWS Black Belt Online Seminar 2018 Amazon WorkSpaces
 
20180207 AWS blackbelt online seminar Amazon Workspaces
20180207 AWS blackbelt online seminar Amazon Workspaces20180207 AWS blackbelt online seminar Amazon Workspaces
20180207 AWS blackbelt online seminar Amazon Workspaces
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方
 
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten, core skills neede...
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten,  core skills  neede...楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten,  core skills  neede...
楽天市場で使われている技術、エンジニアに必要なコアスキルとはTechnology used in Rakuten, core skills neede...
 
入社半年での開発ストーリー - 千人規模の顔認証受付サービスを 1ヶ月で作った話 -
入社半年での開発ストーリー - 千人規模の顔認証受付サービスを 1ヶ月で作った話 -入社半年での開発ストーリー - 千人規模の顔認証受付サービスを 1ヶ月で作った話 -
入社半年での開発ストーリー - 千人規模の顔認証受付サービスを 1ヶ月で作った話 -
 
お客様が望んでいるモダンデスクトップアプリとは?/傾向と対策 Part1
お客様が望んでいるモダンデスクトップアプリとは?/傾向と対策 Part1お客様が望んでいるモダンデスクトップアプリとは?/傾向と対策 Part1
お客様が望んでいるモダンデスクトップアプリとは?/傾向と対策 Part1
 
第73回 Machine Learning 15minutes ! IBM AI Foundation Modelsへの取り組み
第73回 Machine Learning 15minutes ! IBM AI Foundation Modelsへの取り組み第73回 Machine Learning 15minutes ! IBM AI Foundation Modelsへの取り組み
第73回 Machine Learning 15minutes ! IBM AI Foundation Modelsへの取り組み
 
パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN
パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPANパーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN
パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN
 
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてタクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
 
Infragistics Ultimate 2015 vol.1 新機能ハイライト
Infragistics Ultimate 2015 vol.1 新機能ハイライトInfragistics Ultimate 2015 vol.1 新機能ハイライト
Infragistics Ultimate 2015 vol.1 新機能ハイライト
 
はじめよう FinOps クラウドコスト最適化への第一歩とは 日本IBMカスタマーサクセスチーム
はじめよう FinOps クラウドコスト最適化への第一歩とは 日本IBMカスタマーサクセスチームはじめよう FinOps クラウドコスト最適化への第一歩とは 日本IBMカスタマーサクセスチーム
はじめよう FinOps クラウドコスト最適化への第一歩とは 日本IBMカスタマーサクセスチーム
 
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
Azure IoT/AI 最前線!「IoTビジネス事例のご紹介」
 
ビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDBビッグIoTデータに対応したデータベース GridDB
ビッグIoTデータに対応したデータベース GridDB
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について
 

More from NTT Software Innovation Center

A Global Data Infrastructure for Data Sharing Between Businesses
A Global Data Infrastructure for Data Sharing Between BusinessesA Global Data Infrastructure for Data Sharing Between Businesses
A Global Data Infrastructure for Data Sharing Between BusinessesNTT Software Innovation Center
 
企業間データ流通のための国際データ基盤
企業間データ流通のための国際データ基盤企業間データ流通のための国際データ基盤
企業間データ流通のための国際データ基盤NTT Software Innovation Center
 
企業間データ流通のための国際データ基盤
企業間データ流通のための国際データ基盤企業間データ流通のための国際データ基盤
企業間データ流通のための国際データ基盤NTT Software Innovation Center
 
Hybrid Computing Platform for Combinatorial Optimization with the Coherent Is...
Hybrid Computing Platform for Combinatorial Optimization with the Coherent Is...Hybrid Computing Platform for Combinatorial Optimization with the Coherent Is...
Hybrid Computing Platform for Combinatorial Optimization with the Coherent Is...NTT Software Innovation Center
 
2-in-1 Cluster Integration: Batch and Interactive GPU Computing
2-in-1 Cluster Integration: Batch and Interactive GPU Computing2-in-1 Cluster Integration: Batch and Interactive GPU Computing
2-in-1 Cluster Integration: Batch and Interactive GPU ComputingNTT Software Innovation Center
 
Hybrid Sourcing for Overcoming “Digital Cliff 2025”
Hybrid Sourcing for Overcoming “Digital Cliff 2025”Hybrid Sourcing for Overcoming “Digital Cliff 2025”
Hybrid Sourcing for Overcoming “Digital Cliff 2025”NTT Software Innovation Center
 
Network Implosion: Effective Model Compression for ResNets via Static Layer P...
Network Implosion: Effective Model Compression for ResNets via Static Layer P...Network Implosion: Effective Model Compression for ResNets via Static Layer P...
Network Implosion: Effective Model Compression for ResNets via Static Layer P...NTT Software Innovation Center
 
Why and how Edge Computing matters enterprise IT strategy
Why and how Edge Computing matters enterprise IT strategyWhy and how Edge Computing matters enterprise IT strategy
Why and how Edge Computing matters enterprise IT strategyNTT Software Innovation Center
 
Building images efficiently and securely on Kubernetes with BuildKit
Building images efficiently and securely on Kubernetes with BuildKitBuilding images efficiently and securely on Kubernetes with BuildKit
Building images efficiently and securely on Kubernetes with BuildKitNTT Software Innovation Center
 
Real-time spatiotemporal data utilization for future mobility services
Real-time spatiotemporal data utilization for future mobility servicesReal-time spatiotemporal data utilization for future mobility services
Real-time spatiotemporal data utilization for future mobility servicesNTT Software Innovation Center
 
【招待講演】ICM研究会 - 統合ログ分析技術Lognosisと運用ログ分析の取組
【招待講演】ICM研究会 - 統合ログ分析技術Lognosisと運用ログ分析の取組【招待講演】ICM研究会 - 統合ログ分析技術Lognosisと運用ログ分析の取組
【招待講演】ICM研究会 - 統合ログ分析技術Lognosisと運用ログ分析の取組NTT Software Innovation Center
 
統合ログ分析技術Lognosisと運用ログ分析の取組
統合ログ分析技術Lognosisと運用ログ分析の取組統合ログ分析技術Lognosisと運用ログ分析の取組
統合ログ分析技術Lognosisと運用ログ分析の取組NTT Software Innovation Center
 
OpenStack Swiftとそのエコシステムの最新動向
OpenStack Swiftとそのエコシステムの最新動向OpenStack Swiftとそのエコシステムの最新動向
OpenStack Swiftとそのエコシステムの最新動向NTT Software Innovation Center
 
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービス
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービスNTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービス
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービスNTT Software Innovation Center
 
Challenges for Implementing PMEM Aware Application with PMDK
Challenges for Implementing PMEM Aware Application with PMDKChallenges for Implementing PMEM Aware Application with PMDK
Challenges for Implementing PMEM Aware Application with PMDKNTT Software Innovation Center
 
RDMA programming design and case studies – for better performance distributed...
RDMA programming design and case studies – for better performance distributed...RDMA programming design and case studies – for better performance distributed...
RDMA programming design and case studies – for better performance distributed...NTT Software Innovation Center
 

More from NTT Software Innovation Center (20)

A Global Data Infrastructure for Data Sharing Between Businesses
A Global Data Infrastructure for Data Sharing Between BusinessesA Global Data Infrastructure for Data Sharing Between Businesses
A Global Data Infrastructure for Data Sharing Between Businesses
 
企業間データ流通のための国際データ基盤
企業間データ流通のための国際データ基盤企業間データ流通のための国際データ基盤
企業間データ流通のための国際データ基盤
 
企業間データ流通のための国際データ基盤
企業間データ流通のための国際データ基盤企業間データ流通のための国際データ基盤
企業間データ流通のための国際データ基盤
 
不揮発WALバッファ
不揮発WALバッファ不揮発WALバッファ
不揮発WALバッファ
 
企業間データ流通のための国際基盤
企業間データ流通のための国際基盤企業間データ流通のための国際基盤
企業間データ流通のための国際基盤
 
企業間データ流通のための国際基盤
企業間データ流通のための国際基盤企業間データ流通のための国際基盤
企業間データ流通のための国際基盤
 
Hybrid Computing Platform for Combinatorial Optimization with the Coherent Is...
Hybrid Computing Platform for Combinatorial Optimization with the Coherent Is...Hybrid Computing Platform for Combinatorial Optimization with the Coherent Is...
Hybrid Computing Platform for Combinatorial Optimization with the Coherent Is...
 
2-in-1 Cluster Integration: Batch and Interactive GPU Computing
2-in-1 Cluster Integration: Batch and Interactive GPU Computing2-in-1 Cluster Integration: Batch and Interactive GPU Computing
2-in-1 Cluster Integration: Batch and Interactive GPU Computing
 
Hybrid Sourcing for Overcoming “Digital Cliff 2025”
Hybrid Sourcing for Overcoming “Digital Cliff 2025”Hybrid Sourcing for Overcoming “Digital Cliff 2025”
Hybrid Sourcing for Overcoming “Digital Cliff 2025”
 
Network Implosion: Effective Model Compression for ResNets via Static Layer P...
Network Implosion: Effective Model Compression for ResNets via Static Layer P...Network Implosion: Effective Model Compression for ResNets via Static Layer P...
Network Implosion: Effective Model Compression for ResNets via Static Layer P...
 
Why and how Edge Computing matters enterprise IT strategy
Why and how Edge Computing matters enterprise IT strategyWhy and how Edge Computing matters enterprise IT strategy
Why and how Edge Computing matters enterprise IT strategy
 
Building images efficiently and securely on Kubernetes with BuildKit
Building images efficiently and securely on Kubernetes with BuildKitBuilding images efficiently and securely on Kubernetes with BuildKit
Building images efficiently and securely on Kubernetes with BuildKit
 
Real-time spatiotemporal data utilization for future mobility services
Real-time spatiotemporal data utilization for future mobility servicesReal-time spatiotemporal data utilization for future mobility services
Real-time spatiotemporal data utilization for future mobility services
 
【招待講演】ICM研究会 - 統合ログ分析技術Lognosisと運用ログ分析の取組
【招待講演】ICM研究会 - 統合ログ分析技術Lognosisと運用ログ分析の取組【招待講演】ICM研究会 - 統合ログ分析技術Lognosisと運用ログ分析の取組
【招待講演】ICM研究会 - 統合ログ分析技術Lognosisと運用ログ分析の取組
 
統合ログ分析技術Lognosisと運用ログ分析の取組
統合ログ分析技術Lognosisと運用ログ分析の取組統合ログ分析技術Lognosisと運用ログ分析の取組
統合ログ分析技術Lognosisと運用ログ分析の取組
 
MVSR Schedulerを作るための指針
MVSR Schedulerを作るための指針MVSR Schedulerを作るための指針
MVSR Schedulerを作るための指針
 
OpenStack Swiftとそのエコシステムの最新動向
OpenStack Swiftとそのエコシステムの最新動向OpenStack Swiftとそのエコシステムの最新動向
OpenStack Swiftとそのエコシステムの最新動向
 
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービス
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービスNTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービス
NTTのR&Dを支えるNTTコミュニケーションズのIT基盤サービス
 
Challenges for Implementing PMEM Aware Application with PMDK
Challenges for Implementing PMEM Aware Application with PMDKChallenges for Implementing PMEM Aware Application with PMDK
Challenges for Implementing PMEM Aware Application with PMDK
 
RDMA programming design and case studies – for better performance distributed...
RDMA programming design and case studies – for better performance distributed...RDMA programming design and case studies – for better performance distributed...
RDMA programming design and case studies – for better performance distributed...
 

外部キー制約を考慮した特徴量削減手法

  • 1. Copyright©2019 NTT corp. All Rights Reserved. 外部キー制約を 考慮した特徴量削減手法 長 裕敏,山室 健,内山 寛之 NTT ソフトウェアイノベーションセンタ
  • 2. 2Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 背景:企業データの分析活用機会の増加 • 大量データ管理の容易化や機械学習ツールの普及 • 大量の企業データを機械学習で活用した意思決定やサービス改善の増加 • e.g.,顧客情報やサービス利用情報を活用した顧客の解約予測分析 解約予測 モデル 企業データ 顧客情報, サービス利用情報, 等 機械学習 性別が○○で, 年齢が○○で, 平均利用時間が○○で, 継続利用日数が○○な人は 解約しそうだよ!
  • 3. 3Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 解決したい問題 • 特徴選択は予測モデルの精度向上のために重要 冗長な特徴量を事前に削減して特徴選択時間を削減したい 解約予測に使う最適な特徴量は? a. 年収と登録コース? 高精度 b. 性別と最終利用日? 中精度 c. 職業と年齢? 低精度 d. 年収と性別と継続利用日? 最高精度! … … 企業データ 顧客情報, サービス利用情報, 等 特徴選択 解約予測 モデル 特徴量がx個あるとき組み合わせ数は𝟐 𝒙あり 最適な組み合わせの発見は時間コスト大 機械学習
  • 4. 4Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 既存手法 • 企業データはDBMS上で外部キー制約をもつ複数テーブルで管理 外部キー制約を活用した結合省略による特徴量削減[1]: 線形分類モデルにおいて,𝒏 𝒔/𝒏 𝑹>20ならば,精度(汎化誤差)の劣化を0.01 以下に抑えて特徴量群を外部キーで代替できる [1] To Join or Not to Join? Thinking Twice about Joins before Feature Selection. SIGMOD 2016 解約 性別 年齢 … 雇用者ID Yes 男性 10代 Amazon NO 女性 40代 Google Yes 男性 20代 Apple No 男性 40代 Amazon … … … … … 顧客テーブル 雇用者ID 職場 売上 Amazon WA 2329臆$ Google CA 1368臆$ … … … 雇用者テーブル 外部キー 主キー e.g., 顧客の解約予測分析 𝒏 𝒔/𝒏 𝑹>20ならば{職場, 売上}を雇用者IDに代替して特徴量数を削減 𝒏 𝒔 𝒏 𝑹 代替
  • 5. 5Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 既存手法の利点・課題 • 利点:適用可能なら,オーバーヘッドなしに特徴選択時間を大幅短縮 • 課題:適用範囲が限定的 𝒏 𝒔≈ 𝒏 𝑹の場合,適用不可 全特徴量で特徴選択 レコード数比判定 𝐧 𝐬/𝐧 𝐑 > 20 ? 特徴量を除いた上で,特徴選択 Yes NO より多くのデータセットに対して適用できないか?
  • 6. 6Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 既存手法改善の着眼点 • 𝒏 𝒔≈ 𝒏 𝑹で手法が適用できない場合でも,参照するテーブル中に類似 したレコードを多く含む場合に代替できるケースがあるのでは? 解約 性別 年齢 … 雇用者ID Yes 男性 10代 Amazon NO 女性 40代 Google Yes 男性 20代 Apple No 男性 40代 Amazon … … … … … 顧客テーブル 雇用者ID 職場 売上 Amazon WA 2329臆$ Google CA 1368臆$ Microsoft WA 1104臆$ Apple CA 2656臆$ … … … 雇用者テーブル 𝒏 𝒔 𝒏 𝑹 類似レコード 類似レコードを除去することで,適用範囲が広がり 特徴代替して特徴量数を削減できるのでは?
  • 7. 7Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 既存手法→提案手法 類似レコードを除いた レコード数の算出 全特徴量で特徴選択 レコード数比判定 𝐧 𝐬/𝐧 𝐑 > 20 ? 特徴量を除いた上で,特徴選択 Yes NO 既存手法
  • 8. 8Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 既存手法→提案手法 類似レコードを除いた レコード数の算出 提案手法の代替判定 複数特徴量を一次元化 した上で,特徴選択 全特徴量で特徴選択 レコード数比判定 𝐧 𝐬/𝐧 𝐑 > 20 ? 特徴量を除いた上で,特徴選択 提案手法 Yes NO YesNO
  • 9. 9Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 提案手法 類似レコードを除いた レコード数の算出 提案手法の代替判定 複数特徴量を一次元化 した上で,特徴選択 全特徴量で特徴選択 レコード数比判定 𝐧 𝐬/𝐧 𝐑 > 20 ? 特徴量を除いた上で,特徴選択 提案手法 Yes NO YesNO
  • 10. 10Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 類似レコードを除いたレコード数𝒏 𝑹‘の算出 • 外部キー参照先テーブルの連続値の特徴をBinning処理を行い離散化 • 主キーを除く特徴群でDistinct処理をして,レコード数をカウント 雇用者ID 職場 売上 Amazon WA 2329臆$ Google CA 1368臆$ Microsoft WA 1104臆$ Apple CA 2656臆$ … … … 雇用者ID 職場 売上ランク (1-5) Amazon WA 5 Google CA 5 Microsoft WA 5 Apple CA 5 … … … 雇用者ID 職場 売上ランク (1-5) Amazon WA 5 Google CA 5 … … … 𝒏 𝑹‘ Binning Distinct Count
  • 11. 11Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 提案手法 提案手法の代替判定 類似レコードを除いた レコード数𝒏 𝑹‘の算出 複数特徴量を一次元化 した上で,特徴選択 全特徴量で特徴選択 レコード数比判定 𝐧 𝐬/𝐧 𝐑 > 20 ? 特徴量を除いた上で,特徴選択 提案手法 Yes NO YesNO
  • 12. 12Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 提案する特徴量代替判定 Amazon WA 5 Google CA 5 • 参照先テーブルの特徴群を一次元特徴量に代替した時の精度低下リスクを VC次元定理(|Test error – Train error| ≤ 𝟒+ 𝒗𝒍𝒐𝒈( 𝟐𝒆𝒏 𝒗 ) 𝝈 𝟐𝒏 )を利用して導出 • 簡略化して参照先の類似レコード除去時のレコード数比(𝐧 𝐬/𝐧 𝐑’>20 ?)で判定 Amazon WA 2329臆$ Google CA 1368臆$ Microsoft WA 1104臆$ Apple CA 2656臆$ 𝒏 𝑹 𝒏 𝑹’ 𝒏 𝒔 WA & High Sale CA & High Sale 𝒏 𝒔 類似レコード除去により 𝒏 𝑹 ≥ 𝒏 𝑹’ なので既存手法より多くの データセットに対して適用できる可能性がある 既存判定:𝐧 𝐬/𝐧 𝐑 > 20 ? 提案判定:𝐧 𝐬/𝐧 𝐑’ > 20 ? 代替 代替
  • 13. 13Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 提案手法 類似レコードを除いた レコード数𝒏 𝑹‘の算出 提案手法の代替判定 𝐧 𝐬/𝐧 𝐑’ > 20 ? 複数特徴量を一次元化 した上で,特徴選択 全特徴量で特徴選択 レコード数比判定 𝐧 𝐬/𝐧 𝐑 > 20 ? 特徴量を除いた上で,特徴選択 提案手法 Yes NO YesNO
  • 14. 14Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 参照先テーブルの特徴量一次元化 雇用者ID 職場 売上 Amazon WA 5 Google CA 5 Microsoft WA 5 Apple CA 5 … … … • 参照先テーブルの特徴群を一次元特徴量に代替 • 同一値を示すレコードごとにグルーピング • グループごとに同一値を示すカテゴリ変数を付与 • 複数特徴量の一次元化により、特徴選択に要する時間を削減 雇用者ID 職場 売上 Amazon WA 5 Microsoft WA 5 Google CA 5 Apple CA 5 … … … 雇用者ID 職場 売上 Amazon WA 5 Microsoft WA 5 Google CA 5 Apple CA 5 … … … 1 1 2 2 WA∧高売上 CA∧高売上 一次元化
  • 15. 15Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 実験:評価方法 • 全特徴使用時、既存・提案手法を用いての特徴削減時で比較評価 • 実験内容: • 学習モデルに単純ベイズ分類器を使用 • 特徴選択終了までに要した時間, 選択した特徴で生成したモデル精度を比較 • 特徴選択はBFS(Backward Feature Selection)を使用 • 精度改善がなくなるまで,予測変数と最も関連がない特徴を削減 • 評価項目: 1. 適用範囲 2. 精度 3. 処理時間
  • 16. 16Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 実験:適用範囲評価 • 既存手法で特徴量削減に到らなかった7テーブル中3テーブル に対して新規に特徴量数を削減可能とした Dataset 𝐧 𝐒 R 𝐧 𝐑 𝐧′ 𝐑 既存判定 (𝐧 𝐬/ 𝐧 𝐑>20 ?) 提案判定 ( 𝐧 𝐬/ 𝐧 𝐑’>20 ?) MovieLens1M 映画評価予測 1,000,209 User 6,040 5,789 ○ ○ Movie 3,706 2,354 ○ ○ Yelp お店評価予測 215,879 Business 11,537 10,369 × × User 43,873 1,483 × ○ Walmart 売上ランク予測 421,570 Indicator 2,340 913 ○ ○ Store 45 8 ○ ○ LastFM 音楽評価予測 343,747 Artist 4,999 147 ○ ○ User 50,000 3,845 × ○ BookCrossing 書籍評価予測 253,120 User 27,876 356 × ○ Book 49,772 26,030 × × Flight コードシェア 便か予測 66,548 Airlines 540 374 ○ ○ SrcAirport 3,182 3,111 × × DestAirPort 3,182 3,111 × × WA 5 CA 5 WA 5 CA 5 𝒏 𝒔 𝒏 𝑹 類似レコード多数 のため適用可能に 𝐑 WA 5 CA 5 𝒏 𝑹’
  • 17. 17Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 実験:特徴量数削減による分類予測精度影響比較 • 特徴量数を最も削減しつつ,汎化誤差が増大していないことを確認 Better 27 2 2入力特徴数: 404035 14 3 3 13 6 3 8 8 7 403535 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 MovieLens1M Yelp Walmart LastFM BookCrossing Flight TestError (Flight:誤答率,Else:RMSE) 全特徴 既存手法 提案手法 同等精度 同等精度 局所最適解 回避により 精度微改善 2値予測5分類予測5分類予測7分類予測5分類予測5分類予測 -0.02
  • 18. 18Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential 実験:データ取得~特徴選択の処理時間比較 • 特徴量数の削減により既存手法と比べて最大3.3x高速化 1.E+00 1.E+01 1.E+02 1.E+03 1.E+04 1.E+05 MovieLens1M Yelp Walmart LastFM BookCrossing Flight TotalRuntime(s) 全特徴 既存手法 提案手法 Better 27 2 2入力特徴数: 404035 14 3 3 13 6 3 8 8 7 403535 625.3x 84.1x 1.4x 1.4x 1.5x 4.6x 3.3x
  • 19. 19Copyright©2019 NTT corp. All Rights Reserved. NTT Confidential まとめ • DBMS上の外部キー制約を活用して、機械学習の精度を保ちながら特徴量 数を削減可能な手法を提案した。 • 既存手法と同様のデータセットに対して比較実験 • 7テーブル中3テーブルに対して新規に特徴量数を削減可能とし、適用可能な 範囲が広いことを示した • 学習モデル精度の影響を抑えながら、特徴選択の高速化を達成した 提案手法を用いることで、より多くのデータセットに対して 特徴選択に要する処理時間を削減できる