データサイエンスの目的(1)
• 今や生成モデルの時代・・だが
4
Mt.Fuji in style Gogh Whale in the sky
BERTのChatBot(自作) 黒橋研のLLMを使用(参照先:https://note.com/npaka/n/na8721fdc3e24)
cat to dog
Stable Diffusion(自作:参照先 https://note.com/npaka/n/nd2b03d13a36a)
5.Padoc分析環境の考え方
• Padocはテーブル型データを扱う
• テーブル型データの編集や結合は
コマンドで行う
• 課題と感応の強さの順にデータ表示
できる
• 分析結果をUserとで確認できる
• コマンドの並びでUserが理解と確認
ができる
13
get data1; //テーブル型データの読込
wrk = undate(today) - undate(birthday);
age = wrk/365.25;
//年齢の計算 データ編集コマンド
put data2;
get data2; //別のデータの読込
merge data2 by id //マージコマンド
put data3;
get data3;
cross target by age x1 x2 x3 x4 x5;
get data3;
reg target by x1-5 //分析コマンド
anaput out1;
Get out1
plot scat x1 x2 x3 by target;
7.Padocの記述・例ローンのリスク層の分析(2-2)
/* 契約情報読込 */
get loan3ContR.csv@;
select personid contract mon amount payrate bonus;
paym=amount/mon+amount*payrate/100/12;
Put cont0;
/* 個人情報を顧客IDでマージ */
Get cont0;
merge loan3PersonR.csv@ by personid/
method=and11
;
put togo0;
/* 家族情報を世帯IDでマージ */
get togo0;
merge loan3Home.csv@ by homeid/
method=and11
;
put togo1;
/* 延滞情報を契約IDでマージ */
get togo1;
merge loan3Bank.csv@ by personid/
method=and11
;
put loan3togo@;
19
/* 変数追加 */
get loan3togo@;
old=ifix((undate(20180101)-undate(birth))/365.25); //年齢
workold=old-workspan; //就業年齢
if(bonus > 0) bonflg=“1”; //賞与有無
else bonflg="0";
ltoi = amount/income; //借金/収入
ptoi = paym/income; //金利/収入
put loan3ana@;
/* 破綻先(def=bad) と他の変数のCross 感応度解析 */
get loan3ana@;
cross def by counts amount sex work job
income workspan marrige family home
homespan openen old workold bonflg paym
ltoi ptoi;
/* 破綻先(def=bad)のTree分析 */
get loan3ana@;
tree def by counts amount sex work job
income workspan marrige family home
homespan openen old workold bonflg paym
ltoi ptoi/
target/bad,good
terminal=100 /* 末端ノード数 */
test=50 /* 試験用のデータの率 50%*/
;
anaput anaout;
/* 試験データの精度曲線 */
get anaout;
plot line distincRate by countRate;
ローンの申し込客のリスク層の分析
契約情報・個人情報・家族情報・延滞情報
を連結して判別ツリーでリスク層を検出
7.Padocの記述例・ローンの破綻率を計算(2-4)
21
get train3;
/* ロジット回帰 */
logit deflg by bonflg work_dmy1 work_dmy3-4 home_dmy1-8
marrige_dmy1 ltov family income homespan openen
old workspan ptov;
anaput anaout;
//work_dmy2 は発散する
get anaout;
/* ロジット回帰結果 パレート図の表示 */
plot line logitRate by countRate;
get test3;
/* 試験データのロジットモデル適用 */
score deflg by bonflg work_dmy1 work_dmy3-4 home_dmy1-8
marrige_dmy1 ltov family income homespan openen
old workspan ptov;
anaput test3out;
get test3out;
/* 試験データでのパレート図の表示 */
plot line logitRate by countRate;
ローンの申し込客の破綻率のロジット回帰
個人・契約・家族・延滞・を連結したデータ
でロジット回帰で破綻率を計算
/* 連結データの読込 */
get loan3ana@;
/* カテゴリのOneHot化 */
onehot work home marrige;
put anadata0;
get anadata0;
select def bonflg work_dmy1-5 home_dmy1-8 marrige_dmy1
workold ltov family old income homespan openen workspan
ltov ptov;
put anadata1;
get anadata1;
/* 目的変数の指標化 */
if(def == "good") deflg=0;
else deflg=1;
put anadata2;
get anadata2;
/* 学習データ2000件と試験データを分離4000件 */
rnd=random;
sort rnd;
if(# <= 2000) outrec train3; //学習データ
else outrec test3; //試験データ