SlideShare a Scribd company logo
1 of 15
GCI 2022 SUMMER
最終課題
東京⼤学 理科Ⅱ類 ⽴花 卓遠
想定状況のご説明
2022.7 A社への新規事業ご提案 2
[1]外務省「アメリカ合衆国基礎データ」より抜粋(https://www.mofa.go.jp/mofaj/area/usa/data.html)
A社の所在︓
アメリカ
A社の顧客︓
約33万⼈
• A社のシェア率はアメリカで0.1%であると仮定
• 約3.295億⼈[1]×0.001=約33万⼈と計算
• 頂いたデータは顧客情報より10万件をランダムサンプリングしていると仮定
A社の状況︓
• アメリカ国内を対象にした中規模の電気通信事業を⾏なっている
• データ分析を通じた効率化に興味があり今回の受注をされた
• ⼤規模な新規事業には懐疑的で、⼩規模なものから試していきたいと考えている
アジェンダ
2022.7 A社への新規事業ご提案 3
ü市場分析
üデータ分析
ü事業提案
市場分析
2022.7 A社への新規事業ご提案 4
アメリカ市場での新規顧客獲得は困難
[2]GSMA「Grobal mobile trends」より⼀部改変(https://data.gsmaintelligence.com/api-web/v2/research-file-download?id=18809377&file=global-mobile-
trends1482139998965.pdf)
[3]原⽥果林「⽶通信キャリアは”三つ巴”の状態」(https://businessnetwork.jp/article/8202/)
世界各地における携帯電話の普及率[2]
(2015年(左)と2020年(右))
• インドやアフリカの新興国に⽐べてアメリカの通信市場は近年停滞
しております
• 通信キャリアはベライゾン、AT&T、Tモバイルの3社が契約数シェア
の9割以上を占めており、今後もこの状況が続くと考えられれてい
ます[3]
顧客の新規獲得は困難になると予想され、現在の顧客を引き留める
ことがA社様の利益拡⼤に最重要であると考えられます
アジェンダ
2022.7 A社への新規事業ご提案 5
ü市場分析
üデータ分析
ü事業提案
解約と継続の割合
2022.7 A社への新規事業ご提案 6
解約率を減らすことが損失縮⼩に直結
今回ご提供して頂いたデータの解約率は
49.6%となっております
解約率を1%減らすことができれば
$19,206/⽉の損失を防ぐことができます
解約者:49562⼈
⾮解約者︓50438⼈
解約者の平均⽉額[4]×顧客⼈数×1%
=$58.2×33万⼈×1%
=$19,206
[4]⾮解約者におけるrev_Meanの平均値を使⽤
全データの特徴量分析
2022.7 A社への新規事業ご提案 7
解約率を対象にしてlightgbm.LGBMClassifier[5][6]で特徴量を抽出しました
上位には
関連のデータが⽬⽴ちます
弊社は「使い込み度」によって
顧客を分類することが可能で
あると考えました
• 使⽤減少率(①)
• 使⽤期間(②)
• 使い込み度(③)
各パラメータの重要度
③____
①______
②____
①______
③____
③____
③_____
[6]再現率は0.641となりました
[5] lightgbmは決定⽊アルゴリズムに基づく⾼性能な勾配ブースティングフレームワークで、機械学習タスクに頻繁に使⽤されております(参考︓Kaggle「 LightGBM Classifier in Python」
(https://www.kaggle.com/code/prashant111/lightgbm-classifier-in-python/notebook))
クラスタリング(1/2)
2022.7 A社への新規事業ご提案 8
k-means法[7]を⽤いることで使⽤度別の3タイプのユーザーに分類しました
クラスター数を3つにすることでデー
タの歪み(distortion)が約42%と
なり、エルボー法[8]からも妥当なクラ
スタリングであると考えられます
3次元空間へのプロット
k-means法を⽤いて以下のパラメータで3クラスターに分類し
ました
mou_Mean ⽉ごとの使⽤時間(平均)
hnd_price 使⽤中の機器の値段
avgqty ⽉ごとの電話の回数(平均)
エルボー法によるdistortionの推移
[7] k-means法はクラスターの重⼼を求めて、データをk個のクラスターに分けるアルゴリズムです(参考︓クラウドエース「k平均法︓教師なしモデルの基礎」(https://cloud-ace.jp/column/detail291/))
[8]エルボー法とはクラスター数を変えながら残差平⽅和を計算し、結果を図⽰することで適切なクラスター数を推定する⼿法です
(参考︓technical-note「エルボー法」(https://hkawabata.github.io/technical-note/note/ML/Evaluation/elbow-method.html))
クラスタリング(2/2)
2022.7 A社への新規事業ご提案 9
クラスターはそれぞれヘビーユーザー ・ミドルユーザー・ライトユーザーに相当
結果
着目したもの
• ほとんどのパラメータが0>1>2となっております
• 全てのパラメータで値が⼤きいほど使い込み度が⾼いと解釈可能です
そこで、クラスターをそれぞれヘビーユーザー・ライトユーザー・ミドルユーザーに
置き換えてデータ分析を続けました
cluster mou_Mean hnd_price avgqty
0 1451.3 125.4 461.4
1 417.5 151.8 144.9
2 287.7 47.0 103.5
cluster 分類
0 ヘビーユーザー
1 ミドルユーザー
2 ライトユーザー
クラスター別の解約率を調べてみると
ライトユーザーに注⽬することで
効率よく解約率低下を達成で
きると考えます
ライトユーザーの解約率が54.8%
と他に⽐べて⾼くなっていました
ライトユーザーの特徴量分析
2022.7 A社への新規事業ご提案 10
ライトユーザーにおいて解約率を対象にlightgbm.LGBMClassifier[9]で特徴量分析
ライトユーザーにおける各パラメータの重要度(⼀部中略)
特徴量の中で以下の2つのパラメータに注⽬して
データ分析を⾏ないました
change_mou 使⽤分数の変化量(過去3ヶ⽉間の平均)
uniqsubs[10]
同世帯内で実際に契約している⼈数
________
________
[10]携帯電話の所持⼈数はSIMカードの発⾏枚数でカウントされているが、近年はSIMカードを複数購⼊する⼈が増えたため、純粋な携帯の所持者を表す指標として“unique mobile
subscriber”という概念が⽤いられるようになりました。頂いたデータでは“uniqsubs”というパラメータがその略称として設定されていると解釈しました。(参考︓GSMA「Number of Mobile
Subscribers Worldwide Hits 5 Billion」(https://www.gsma.com/newsroom/press-release/number-mobile-subscribers-worldwide-hits-5-billion/))
これらのパラメータについて、解約者・継続者間で
相違点がないか調べました(次スライド)
[9]再現率は0.746
ライトユーザーのうちの解約率の特徴
2022.7 A社への新規事業ご提案 11
パラメータ“uniqsubs”と“change_mou”の分析
uniqsubs(世帯内の使⽤⼈数)[11] change_mou(使⽤分数の変化率)
平均の解約率
• 解約者は使⽤⼈数が多い
• 特にライトユーザーで顕著
解約者は低下率が⾼い
[11]uniqsubsが10を上回るデータは標本数が少なく不正確な解約率が算出されてしまうと判断したため、ここでは10以下の場合のみについて考えております
アジェンダ
2022.7 A社への新規事業ご提案 12
ü市場分析
üデータ分析
ü事業提案
解約
仮説と新規事業のご提案
2022.7 A社への新規事業ご提案 13
ライトユーザーに対する家族優待サービスの導⼊で解約率低下を図る
新規事業のご提案
仮説
ライトユーザーのうち、世帯内で複数⼈がA社のサービスに加⼊
している世帯のユーザーが、A社のサービスに不満を持った結果、
使⽤時間が減少し、解約に⾄ってしまっている
ライト
ユーザー
家族加⼊ 使⽤時間
減少
世帯内で複数⼈が加⼊しているライトユーザーを対象に通信
量の優遇を⾏う
以下の2つの条件を満たす顧客のパラメータに対して表のような操作を加え、機械
学習モデル[13]に反映させました
新規事業
新規事業による解約率の変化量
2022.7 A社への新規事業ご提案 14
機械学習モデルを使⽤し新規事業による解約率の変化量を算出しました
条件1. 世帯内に複数の加⼊者がいる
条件2. ライトユーザーに分類されている
パラメータ 簡単な説明 加えた操作
eqpdays 現在の機材の使⽤⽇数 0にする
ovrrev_Mean 超過費⽤の平均 0にする
vceovr_Mean ⾳声の超過費⽤ 0にする
datovr_Mean データの超過費⽤ ×0.3
change_mou 使⽤分数の変化量 ×0.3
mou_Mean 毎⽉の使⽤時間 ×1.3
世帯内で複数⼈が加⼊しているライトユーザーを対象に通信量の優遇[12]を⾏う
反映させた結果
新規事業開始前
新規事業開始後
解約率が0.6%減少する
ことで、$11,524[13]の利
益増⼤が予想されます
解約率:49.6%
解約率:49.0%
[12]具体的には超過費⽤分を無料とすることで、安定して⻑期間使⽤して頂くことを想定しています。(表の操作にはこの想定を反映させております。)
[14]解約者の平均⽉額×顧客⼈数×減少量
=$58.2×33万⼈×0.6%
=$11,524
と計算しております。
[13]ライトユーザーの特徴量分析を⾏った際のモデルを使⽤しております。(再現率:0.746)
今回の新規事業においては以
下の関係があります
そのため、確実に解約者を予
想することが重要であり、そのた
めの評価指標としては再現率
が適当であると考えます
新規事業の特徴
2022.7 A社への新規事業ご提案 15
評価指標としての再現率[15]、クラスタリングによる予測精度の上昇、費⽤対効果の⾼さも魅⼒です
優れた費⽤対効果
評価指標が再現率 予測精度の上昇
通信量の優遇による損失/件
解約発⽣による損失/件
》
顧客を適切にクラスタリング
することにより
再現率を約0.1上昇させる
ことが出来ました。これによ
り機械学習モデルの精度が
向上しております
再現率︓0.641
再現率︓0.746
「使い込み度」によってクラスタ
リングすることにより
の2つの条件を満たす17.6%
の顧客にのみ働きかけることで
効率よく解約率を減少させるこ
とが可能となっております
同世帯内に複数の加⼊者
ライトユーザーに分類
[15]再現率とは真の値が正事例のもののなかで正事例と予測した割合のことで、今回は実際に解約した⼈の中で解約すると予想された⼈の割合を指します

More Related Content

What's hot

組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
Shunji Umetani
 

What's hot (20)

DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactDID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpact
 
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
流行りの分散表現を用いた文書分類について Netadashi Meetup 7流行りの分散表現を用いた文書分類について Netadashi Meetup 7
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
 
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
 
オークションの仕組み
オークションの仕組みオークションの仕組み
オークションの仕組み
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化
劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化
劣モジュラ最適化と機械学習 2.0-2.3 劣モジュラ関数の基本性質・例・最適化
 
ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読ゼロから作るDeepLearning 2~3章 輪読
ゼロから作るDeepLearning 2~3章 輪読
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
【輪読】Bayesian Optimization of Combinatorial Structures
【輪読】Bayesian Optimization of Combinatorial Structures【輪読】Bayesian Optimization of Combinatorial Structures
【輪読】Bayesian Optimization of Combinatorial Structures
 
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
 
Optunaでおいしいコーヒーの淹れ方を探索して、データを解析してみる
Optunaでおいしいコーヒーの淹れ方を探索して、データを解析してみるOptunaでおいしいコーヒーの淹れ方を探索して、データを解析してみる
Optunaでおいしいコーヒーの淹れ方を探索して、データを解析してみる
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
 
A/Bテストのための検定
A/Bテストのための検定A/Bテストのための検定
A/Bテストのための検定
 
連続最適化勉強会
連続最適化勉強会連続最適化勉強会
連続最適化勉強会
 
統計モデリングで癌の5年生存率データから良い病院を探す
統計モデリングで癌の5年生存率データから良い病院を探す統計モデリングで癌の5年生存率データから良い病院を探す
統計モデリングで癌の5年生存率データから良い病院を探す
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 

More from Takuo Tachibana

More from Takuo Tachibana (9)

クリケット【UGIPインド研修に参加した際に使用した簡単なクリケットの説明です】
クリケット【UGIPインド研修に参加した際に使用した簡単なクリケットの説明です】クリケット【UGIPインド研修に参加した際に使用した簡単なクリケットの説明です】
クリケット【UGIPインド研修に参加した際に使用した簡単なクリケットの説明です】
 
EEIC2023_電子情報機器学_歩きスマホぼうし【esp32を用いた道案内ハードウエア】
EEIC2023_電子情報機器学_歩きスマホぼうし【esp32を用いた道案内ハードウエア】EEIC2023_電子情報機器学_歩きスマホぼうし【esp32を用いた道案内ハードウエア】
EEIC2023_電子情報機器学_歩きスマホぼうし【esp32を用いた道案内ハードウエア】
 
EEIC後期実験2023_情報可視化_サッカースカウトのための選手スカウトシステム
EEIC後期実験2023_情報可視化_サッカースカウトのための選手スカウトシステムEEIC後期実験2023_情報可視化_サッカースカウトのための選手スカウトシステム
EEIC後期実験2023_情報可視化_サッカースカウトのための選手スカウトシステム
 
UGIPデータハッカソンの最終発表会で使用した資料【YOLOを使った踏切立入検出アプリ】
UGIPデータハッカソンの最終発表会で使用した資料【YOLOを使った踏切立入検出アプリ】UGIPデータハッカソンの最終発表会で使用した資料【YOLOを使った踏切立入検出アプリ】
UGIPデータハッカソンの最終発表会で使用した資料【YOLOを使った踏切立入検出アプリ】
 
RWTH Program Report
RWTH Program ReportRWTH Program Report
RWTH Program Report
 
Voltage-Controlled Ring Oscillatorを設計しました
Voltage-Controlled Ring Oscillatorを設計しましたVoltage-Controlled Ring Oscillatorを設計しました
Voltage-Controlled Ring Oscillatorを設計しました
 
中国観光ビザ申請マニュアル【2023年12月ver】
中国観光ビザ申請マニュアル【2023年12月ver】中国観光ビザ申請マニュアル【2023年12月ver】
中国観光ビザ申請マニュアル【2023年12月ver】
 
LLMで原稿生成
LLMで原稿生成LLMで原稿生成
LLMで原稿生成
 
行列計算アルゴリズム
行列計算アルゴリズム行列計算アルゴリズム
行列計算アルゴリズム
 

GCI最終課題