SlideShare a Scribd company logo
1 of 46
Prédirelademande
enélectricité.
Analysedetimeseries
Algorithmes deprédictionde la consommation.
Votre logo ou nom ici
Contexte
Notre société, Enercoop, spécialisée dans les
énergies renouvelables, souhaite proposer une
meilleure adéquation offre / demande grâce à la
mise en place d’un algorithme de prédiction de la
consommation.
Sommaire
• Présentation et description des sources de données.
• Détail du programme Python développé.
• Correction des consommations mensuelles de l’effet
de température.
• Désaisonnalisation de la consommation.
• Prévision des consommations grâce aux méthodes de
lissage exponentiel et SARIMA
2
Votre logo ou nom ici
Présentation et description
des données.
Les bonnes données pour un bon algorithme …
Point sur les datasets temporels utilisés.
3
Votre logo ou nom ici
2 Timeseries principales
Données mensuelles de DJU (Degré
jour unifié) sur différentes stations
météo régionales, sur la même
période.
Source : cegibat.grdf.fr
Consommation électrique
Données météo
Données mensuelles régionales de
consommation électrique en TWh
sur une période de 8 ans.
Source : www.rte-france.com
4
Votre logo ou nom ici
Les données de consommation électrique
5
Timeserie de la consommation en énergie (TWh), au niveau régional de 2012 à 2019.
Votre logo ou nom ici
Description des données de consommation
6
Des données complètes et cohérentes
• Le fichier eCO2mix_RTE_energie_M.csv téléchargé sur les bases
RTE ne contient pas de données nulles.
• Les dates qui nous intéressent, de 2012 à 2019, sont bien
complétées de données définitives ou consolidées.
• Les valeurs relevées ne semblent pas comporter de valeurs
aberrantes, les moyenne et écart type sont cohérents.
• Nous voyons 13 valeurs uniques pour les territoires.
• Les 12 régions de France y sont représentées ainsi que
l’agglomérat au niveau national (La corse n’est pas présente).
Votre logo ou nom ici
Projection des données régionales
7
Lineplot Seaborn des évolutions de consommations par région depuis 2014.
Les courbes par région suivent la
même tendance et nous
remarquons ici parfaitement l’effet
de saisonnalité.
Les pics saisonniers sont présents
aux même périodes à des niveaux
différents.
Votre logo ou nom ici
Projection des données France
8
Lineplot Seaborn des évolutions de consommations en France depuis 2012.
Ici encore, les effets de la saison
semblent très marqués.
Nous allons donc, sur ces données,
devoir corriger l’effet des
températures grâce aux données
des DJU.
Votre logo ou nom ici
Données DJU pour correction de l’effet de température
9
Timeserie des données de températures .
Les différents datasets au format
Excel ont été téléchargés.
1 fichier téléchargé par chef lieu de
région afin de couvrir l’intégralité
des variations en France.
Le degré jour unifié (DJU) est une
valeur représentative de l’écart
entre la température d’une
journée donnée et un seuil de
température préétabli à 18 °C,
sommés sur une période.
Votre logo ou nom ici
Création d’un DataFrame global des DJU
10
Regroupement des données DJU et calcul des moyennes France.
Grâce à une boucle Python, nous importons tous les
Excels téléchargés pour créer un DataFrame Pandas
global des données DJU 2012 / 2019.
Nous avons donc à présent, pour chaque région,
l’ensemble des DJU mensuels sur la période.
Pour obtenir les données France cohérentes, nous
avons ensuite groupé les données mensuelles par la
moyenne.
Votre logo ou nom ici
Projection des données DJU France
11
Lineplot Seaborn des évolutions de consommations en France et DJU depuis 2012.
Les 2 courbes semblent suivre la
même saisonnalité.
Les variations de la courbe de
consommation d'énergie sont
effectivement globalement liées
aux écarts de températures.
Votre logo ou nom ici
Synthèse
Des données exploitables et cohérentes
• Les données utilisées ne présentent pas de valeurs
manquantes ou aberrantes.
• Les données France compilées sont cohérentes que ce
soit pour les DJU ou les consommations en énergie et
présentent bien les mêmes pics de saisonnalité.
• Nous allons à présent pouvoir corriger l’effet de
température sur les données de consommation par
régression linéaire simple, sur les timeseries France.
12
Votre logo ou nom ici
Correction des données
de l’effet de température.
Régression linéaire simple pour retirer l’effet des
températures sur les consommations d’énergie.
13
Votre logo ou nom ici
Scatterplot et droite de régression conso / DJU
14
Visualisons la répartition des données de consommation en fonction des DJU
Nous projetons les données ainsi :
• 𝑋 = DJU
• 𝑌 = Consommations d’énergie.
Dans ce modèle, nous supposons qu'il existe
une relation linéaire entre la variable à
expliquer et la variable explicative :
𝒀 = 𝒂 + 𝒃𝑿 + 𝜺
Nous cherchons donc les paramètres
inconnus 𝑎 et 𝑏 pour corriger les
consommations mensuelles de l'effet de
température.
Votre logo ou nom ici
Régression linéaire simple avec Statsmodels
15
Fonction OLS
Le coefficient de détermination 𝑅² est de l'ordre de 0.95,
ce qui est relativement élevé et au vu de la représentation
graphique de notre droite de régression, cela nous indique
que le modèle est performant.
La variable "dju" est également statistiquement significative
au niveau de test 5%, sa P-value étant de 0.
Les coefficients de régressions sont ici estimés :
• 𝑎 = 31344
• 𝑏 = 48.39
Votre logo ou nom ici
Vérification de la performance du modèle de régression
16
Valeurs ajustées et normalité des résidus
Les points projetés sont proches de la première bissectrice, ce qui
nous indique que les valeurs ajustées sont proches des valeurs
réelles.
La normalité des résidus est confirmée avec la distribution
observée et le QQplot. Le test de Shapiro-Wilk indique une p-
value de 0,37.
Votre logo ou nom ici
Correction de l’effet de température
17
Visualisation des données initiales et corrigées
Les tests sur notre modèles de
régression linéaire étant significatifs,
nous allons pouvoir utiliser les
coefficients obtenus pour corriger
notre consommation d'énergie des
effets de la température :
𝐶𝑜𝑛𝑠𝑜𝑎𝑗𝑢𝑠𝑡é𝑒 = 𝐶𝑜𝑛𝑠𝑜 – 𝐷𝐽𝑈 ∗ 𝑏
On voit ici clairement l'impact des
températures sur les consommation
d'énergie au niveau national.
Votre logo ou nom ici
Désaisonnalisation
par moyennes mobiles.
On remarque une forte saisonnalité sur nos
données ajustées.
Regardons ce que les données CVS peuvent nous
apprendre.
18
Votre logo ou nom ici
?
19
La correction des variations saisonnières (CVS) est une technique
employée pour éliminer l'effet des fluctuations saisonnières normales
sur les données, de manière à en faire ressortir les tendances
fondamentales …
Une moyenne mobile est une combinaison linéaire d'instants passés et futurs de
notre série temporelle. L'enjeu est de trouver une moyenne mobile qui laisse la
tendance invariante, qui absorbe la saisonnalité et qui réduit le résidu :
Notre série temporelle : 𝑋𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝜀𝑡
Si on applique une moyenne mobile 𝑀 sur la série, nous obtenons :
𝑴𝑿𝒕 = 𝑴𝑻𝒕 + 𝑴𝑺𝒕 + 𝑴𝜺𝒕
Ses propriétés idéales seront donc :
𝑀𝑇𝑡 = 𝑇𝑡
𝑀𝑆𝑡 = 0
𝑀𝜀𝑡 faible
Votre logo ou nom ici
Fonction seasonal_decompose du package statsmodels
20
Décomposition de la tendance, de la saisonnalité et des résidus
Afin d’être certain de travailler sur une série de
type additive, nous avons travaillé avec le
logarithme de la consommation ajustée.
Tendance (trend) de la série
Elle semble être stable avec un pic en 2018.
Saisonnalité (Seasonal)
On peut distinguer 2 pics positifs et 1 pic négatif
par période de 12 mois.
Résidus (Resid)
Ils semblent être faibles, autour de 0.
Votre logo ou nom ici
Calcul et visualisation des consommation ajustées CVS
21
Visualisation des données initiales et corrigées des températures et des variations saisonnières.
Nous avons récupéré les valeurs de
chaque item grâce à la fonction et
calculé :
𝐶𝑜𝑛𝑠𝑜𝑎𝑗𝑢𝑠𝑡é𝑒_𝑐𝑣𝑠
= 𝐶𝑜𝑛𝑠𝑜𝑎𝑗𝑢𝑠𝑡é𝑒– 𝑆𝑎𝑖𝑠𝑜𝑛𝑛𝑎𝑙𝑖𝑡é
Les données de consommation
d’énergie France sont donc ici
corrigées des effets de la
températures et des variations
saisonnières.
Votre logo ou nom ici
Synthèse
Des consommations fortement liées aux effets de
températures et de saisonnalité …
• En corrigeant ainsi la série temporelle des
consommations, on ne remarque pas d’outliers francs
ni de pics aberrants.
• Nous apercevons des pics de saisonnalité positifs et
négatifs sur une période de 12 mois.
• Ces indices vont nous permettre d’orienter nos
modèles de prédiction de consommation.
22
Votre logo ou nom ici
Modèle de prédiction
de la consommation.
2 méthodes seront testées :
- Lissage exponentiel : Holt Winters
- Modèle SARIMA
23
Votre logo ou nom ici
?
24
Dans les techniques de lissage exponentiel, les prévisions sont des
fonctions, linéaires (ou non), du passé de la série.
Dans le cas de la méthode Holt-Winters, la saisonnalité de la série est
prise en compte.
Cette méthode consiste à supposer que 𝑋𝑡 est approximable au
voisinage de 𝑇 par :
𝑎𝑇 + (𝑡 − 𝑇)𝑏𝑇 + 𝑆𝑇
En désignant par 𝑠 la période du cycle saisonnier de la série temporelle.
Lissage exponentiel triple
Votre logo ou nom ici
Lissage de Holt-Winters avec Python via Statsmodels
Nous utiliserons la fonction ExponentialSmoothing
Split de la série
Train, Test
• Le split Train constitue les
données d’entrainement,
conso de 2012 à 2018.
• Le split Test, données
2019, nous servira à
vérifier les prédictions.
Modélisation
sur la série log(Train)
• Lissage exponentiel Holt-
Winters via la fonction
ExponentialSmoothing
avec une saisonnalité 12
sur la série Train.
Prédiction
de la série Test pour comparaison
• Grâce à la fonction
forecast sur une période
12, prédiction de l’année
2019.
• Comparaison avec les
données réelles.
25
Votre logo ou nom ici 26
Les données prédites via la méthode de
lissage exponentiel, sur les moments
passés de la série, sont relativement
fidèles au données réelles test.
On remarque que la saisonnalité et
l’échelle des valeurs sont bien respectées.
Pour vérifier la performance du modèle,
nous allons calculer quelques métriques.
Votre logo ou nom ici
Les métriques analysées :
MAE
Mean Absolute Error,
mesure la déviation
absolue moyenne entre
une estimation prévue et
les données réelles.
MSE
Mean Squared Error, la
distance, entre la
prévision et l’observation,
est ici élevée au carré. La
sensibilité à l’erreur est
meilleure.
RMSE
Root Mean Squared Error,
est la racine carrée du
MSE, c’est une métrique
largement utilisée.
MAPE
Mean Absolute Percentage
Error, moyenne des écarts
en valeur absolue par
rapport aux valeurs
observées exprimée en
pourcentage.
R²
Coefficient de
détermination, c’est le
carré du coefficient de
corrélation linéaire.
27
Votre logo ou nom ici
Analyse de la performance du modèle Holt-Winters
28
Calculs et affichage des diverses métriques
Le MAPE est relativement faible sur ce modèle et le R² assez élevé (quoi que R²
n’est pas forcement le meilleur indicateur pour une timeserie).
En l’état, le modèle semble performant, mais il sera nécessaire de comparer ces
métriques avec celles du modèle suivant (SARIMA).
Votre logo ou nom ici
?
29
La méthode SARIMA (Seasonnal AutoRegressive Integrated Moving
Average) permet de modéliser des séries qui présentent une
saisonnalité, comme c'est le cas pour notre dataset.
Pour être certain que toutes les variables aléatoires suivent la même
loi, nous allons devoir stationnariser la série.
Un processus (𝑋𝑡)𝑡 ∈ ℤ est dit stationnaire si son espérance et ses
autocovariances sont invariantes par translation dans le temps. Nous
stationnariserons notre série par différenciation.
A l'issue de la modélisation, il nous faudra obtenir un signal résiduel qui ne
contient plus d'information temporelle, un bruit blanc qu’il faudra donc
caractériser.
Processus stochastique et stationnaire …
Votre logo ou nom ici
Démarche utilisée pour la méthode SARIMA
Stationnarisation
par différenciation
• Test de stationnarité de la
série conso ajustée.
• Stationnarisation par
différenciation itérative.
Modèles potentiels
Identification, estimation a priori
• Nous utiliserons la
méthode
statspace.sarimax de
Statsmodels ainsi que la
méthode de Jung-Box
pour les tests de
blancheur.
Prévision
et analyses a posteriori
• Prédiction et analyses à
posteriori sur les
données splitées Train et
Test identiques à la
méthode Holt-Winters.
30
Votre logo ou nom ici
Test de stationnarité avec le test ADF (Augmented Dickey-Fuller)
31
Au niveau de test 5%, on ne rejette pas l'hypothèse
de non-stationnarité de la série, contrairement à la
série différenciée testée en second.
Nous allons donc devoir effectuer une
stationnarisation de notre série temporelle.
Votre logo ou nom ici
Stationnarisation : premiers autocorrélogrammes
32
• Pics significatifs dans le
graphique ACF au
décalage 6, 12, 18 ...
(composante saisonnière
semestrielle).
• Dans le graphique PACF,
les délais sont plus lents à
se désintégrer autour de
22, 32 et les pics négatifs
sont significatifs.
Votre logo ou nom ici
Différenciations successives de la série temporelle
Différenciation 𝑰 − 𝑩𝟔 : Il existe encore un problème
de stationnarité pour les multiples de 12 selon les
autocorrélogrammes.
33
Différenciation 𝑰 − 𝑩𝟏𝟐 : Cette fois, la stationnarité
de la série semble être bien établie.
Votre logo ou nom ici
𝒑 𝒆𝒕 𝑷
𝒑 𝒆𝒕 𝑷 sont tous deux
égaux à 1 : Pics positifs
significatifs dans les
graphiques ACF et PACF
𝒅 𝒆𝒕 𝑫 sont tous deux
égaux à 1 : différenciation
sur les premiers
paramètres et les
saisonniers
𝒒 = 𝟎 𝒆𝒕 𝑸 = 𝟏 : pics
négatifs significatifs sur le
PACF mais pas forcement
sur ACF
34
Point de départ de modélisation SARIMA
Ces caractéristiques suggèrent un point de départ potentiel des paramètres de
𝑆𝐴𝑅𝐼𝑀𝐴(1,1,0)(1,1,1,6)
𝒅 𝒆𝒕 𝑫 𝒒 𝒆𝒕 𝑸
𝒔 est égal à 6, on remarque les premiers pics de l’ACF avec une saisonnalité de 6.
Nous allons à présent tester ce modèle.
Votre logo ou nom ici
Estimation et validation des modèles
35
𝑆𝐴𝑅𝐼𝑀𝐴(1,1,0)(1,1,1,6)
• La métrique AIC est faible sur ce modèle, indicateur de
performance.
• Les variables sont toutes significatives au niveau de test de
5%.
• Les p-values du Test de Jung-Box indiquent bien un bruit
blanc des résidus.
• Les autocorrélogrammes des résidus ne montrent pas de
pics significatifs.
Votre logo ou nom ici 36
Diagnostiques 𝑆𝐴𝑅𝐼𝑀𝐴(1,1,0)(1,1,1,6)
Ici, nous testons entre autre la
normalité des résidus grâce à
l’histogramme et le QQPlot.
Nous pouvons donc effectivement
constater cette normalité des
résidus.
Un test de Shapiro-Wilk a également
été réalisé et est significatif.
(pvalue=6.73e-21)
Votre logo ou nom ici
Estimation des autres modèles via Grid search
37
Création d’une table des métriques de tous les modèles SARIMA pertinents
Toujours en fonction des premiers autocorrélogrammes et des
résultats obtenus dans cette grid search, Nous allons tester le
modèles qui semble avoir les meilleures métriques et un AIC
significatif :
𝑆𝐴𝑅𝐼𝑀𝐴(1,0,1)(1,0,1,12)
Votre logo ou nom ici
Estimation et validation du second modèle
38
𝑆𝐴𝑅𝐼𝑀𝐴(1,0,1)(1,0,1,12)
• La métrique AIC est encore meilleure sur ce second modèle.
• Les variables sont toutes significatives au niveau de test de
5%.
• Les p-values du Test de Jung-Box indiquent bien un bruit
blanc des résidus et sont meilleures que le premier modèle
SARIMA testé.
• Les autocorrélogrammes des résidus ne montrent plus de
pics significatifs et sont là aussi meilleurs.
Votre logo ou nom ici 39
Diagnostiques 𝑆𝐴𝑅𝐼𝑀𝐴(1,0,1)(1,0,1,12)
On remarque sur ce second modèle
des indicateurs encore meilleurs que
sur le modèle 1.
Le test de blancheur présente des p-
values proches de 1 et les
indicateurs de performance tels que
l'AIC sont satisfaisant.
La normalité des résidus est
également confirmée.
Nous utiliserons donc le modèle 2
pour nos analyses à posteriori.
Votre logo ou nom ici 40
Analyse a posteriori SARIMA
Les données prédites via la méthode
SARIMA, sont là aussi relativement fidèles
au données réelles test.
Si l’on compare les métriques obtenues
avec celles de la méthode Holt-Winters,
on remarque que SARIMA est meilleure
sur l’ensemble des valeurs.
Votre logo ou nom ici
Synthèse
2 méthodes permettant d’obtenir
des prédictions satisfaisantes.
• Que ce soit par lissage exponentiel ou par méthode
stochastique, les prédictions sont satisfaisantes et
fidèles aux tendances de la série temporelle de
consommation ajustée des effets de températures.
• La méthode SARIMA offre de meilleures métriques que
la méthode Holt-Winters.
• Nous allons à présent réaliser des prédictions pour les
12 prochains mois avec les 2 méthodes.
41
Votre logo ou nom ici
Prédiction
de la consommation pour
2020.
Appliquons nos 2 modèles sur la consommation
corrigée des effets de température pour prédire
les 12 prochains mois.
42
Votre logo ou nom ici 43
Votre logo ou nom ici 44
Votre logo ou nom ici 45
Des résultats proches …
Comme nous pouvons le constater, les
prédictions sur le modèle Holt-Winters
ou sur le modèle SARIMA sont très
proches et suivent la tendance et
saisonnalité de notre série initiale.
Cette proximité est également un
indicateur de performance des 2 modèles.
L’un comme l’autre peuvent être utilisés
pour nos prévision mais je préconiserai
SARIMA.
Pour aller plus loin …
Nous pourrions étudier d’autres
traitements spécifiques des timeseries
comme la procédure Prophet de Facebook
ou grâce au deep learning avec
TensorFlow par exemple.
Merci de votre
attention
Michael FUMERY
06 59 20 65 39
mika.fumery@gmail.com
https://www.enercoop.fr/

More Related Content

What's hot

Regress lineaire simple imp
Regress lineaire simple impRegress lineaire simple imp
Regress lineaire simple imp
Khawla At
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
Pierre Robentz Cassion
 
Ibm spss decision trees
Ibm spss decision treesIbm spss decision trees
Ibm spss decision trees
isamil
 

What's hot (20)

Regress lineaire simple imp
Regress lineaire simple impRegress lineaire simple imp
Regress lineaire simple imp
 
NLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions StackoverflowNLP - Prédictions de tags sur les questions Stackoverflow
NLP - Prédictions de tags sur les questions Stackoverflow
 
[SOMMET 2023] Dynamiques d'évolution des systèmes bovins allaitants en France
[SOMMET 2023] Dynamiques d'évolution des systèmes bovins allaitants en France[SOMMET 2023] Dynamiques d'évolution des systèmes bovins allaitants en France
[SOMMET 2023] Dynamiques d'évolution des systèmes bovins allaitants en France
 
Choix de l’analyse statistique appropriée
 Choix de l’analyse statistique appropriée  Choix de l’analyse statistique appropriée
Choix de l’analyse statistique appropriée
 
Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...
 
Stat5 Student
Stat5 StudentStat5 Student
Stat5 Student
 
Time Series Analysis - Modeling and Forecasting
Time Series Analysis - Modeling and ForecastingTime Series Analysis - Modeling and Forecasting
Time Series Analysis - Modeling and Forecasting
 
methode echantillonnage
methode echantillonnagemethode echantillonnage
methode echantillonnage
 
Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)Regression lineaire Multiple (Autosaved) (Autosaved)
Regression lineaire Multiple (Autosaved) (Autosaved)
 
Ordinal logistic regression
Ordinal logistic regression Ordinal logistic regression
Ordinal logistic regression
 
ARIMA Models - [Lab 3]
ARIMA Models - [Lab 3]ARIMA Models - [Lab 3]
ARIMA Models - [Lab 3]
 
What is ARIMA Forecasting and How Can it Be Used for Enterprise Analysis?
What is ARIMA Forecasting and How Can it Be Used for Enterprise Analysis?What is ARIMA Forecasting and How Can it Be Used for Enterprise Analysis?
What is ARIMA Forecasting and How Can it Be Used for Enterprise Analysis?
 
FMI · Entretien d'embauche d'un médecin anesthésiste-réanimateur: questions/r...
FMI · Entretien d'embauche d'un médecin anesthésiste-réanimateur: questions/r...FMI · Entretien d'embauche d'un médecin anesthésiste-réanimateur: questions/r...
FMI · Entretien d'embauche d'un médecin anesthésiste-réanimateur: questions/r...
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
Time series.ppt
Time series.pptTime series.ppt
Time series.ppt
 
Reporting a partial correlation in apa
Reporting a partial correlation in apaReporting a partial correlation in apa
Reporting a partial correlation in apa
 
Regression lineaire simple
Regression lineaire simpleRegression lineaire simple
Regression lineaire simple
 
Ibm spss decision trees
Ibm spss decision treesIbm spss decision trees
Ibm spss decision trees
 
Data mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes PrincipalesData mining - ACP Analyse en Composantes Principales
Data mining - ACP Analyse en Composantes Principales
 
Linear Regression in R
Linear Regression in RLinear Regression in R
Linear Regression in R
 

Similar to Prédisez la demande en électricité

Correlation and regression
Correlation and regressionCorrelation and regression
Correlation and regression
Khalid Aziz
 
Chapter 16
Chapter 16Chapter 16
Chapter 16
bmcfad01
 

Similar to Prédisez la demande en électricité (20)

Correlation and regression
Correlation and regressionCorrelation and regression
Correlation and regression
 
Chapter 16
Chapter 16Chapter 16
Chapter 16
 
Forecasting_CO2_Emissions.pptx
Forecasting_CO2_Emissions.pptxForecasting_CO2_Emissions.pptx
Forecasting_CO2_Emissions.pptx
 
R9
R9R9
R9
 
IRJET- Analysis of Crucial Oil Gas and Liquid Sensor Statistics and Productio...
IRJET- Analysis of Crucial Oil Gas and Liquid Sensor Statistics and Productio...IRJET- Analysis of Crucial Oil Gas and Liquid Sensor Statistics and Productio...
IRJET- Analysis of Crucial Oil Gas and Liquid Sensor Statistics and Productio...
 
Air Con Energy Rating Info411 Presentation.pdf
Air Con Energy Rating Info411 Presentation.pdfAir Con Energy Rating Info411 Presentation.pdf
Air Con Energy Rating Info411 Presentation.pdf
 
Forecasting Techniques - Data Science SG
Forecasting Techniques - Data Science SG Forecasting Techniques - Data Science SG
Forecasting Techniques - Data Science SG
 
Brock Butlett Time Series-Great Lakes
Brock Butlett Time Series-Great Lakes Brock Butlett Time Series-Great Lakes
Brock Butlett Time Series-Great Lakes
 
Telecom customer churn prediction
Telecom customer churn predictionTelecom customer churn prediction
Telecom customer churn prediction
 
Six sigma pedagogy
Six sigma pedagogySix sigma pedagogy
Six sigma pedagogy
 
Six sigma
Six sigma Six sigma
Six sigma
 
JF608: Quality Control - Unit 3
JF608: Quality Control - Unit 3JF608: Quality Control - Unit 3
JF608: Quality Control - Unit 3
 
Case Study of Petroleum Consumption With R Code
Case Study of Petroleum Consumption With R CodeCase Study of Petroleum Consumption With R Code
Case Study of Petroleum Consumption With R Code
 
1440 track3 galusha
1440 track3 galusha1440 track3 galusha
1440 track3 galusha
 
1030 track1 heiler
1030 track1 heiler1030 track1 heiler
1030 track1 heiler
 
Can you Deep Learn the Stock Market?
Can you Deep Learn the Stock Market?Can you Deep Learn the Stock Market?
Can you Deep Learn the Stock Market?
 
Regression kriging
Regression krigingRegression kriging
Regression kriging
 
Javier Garcia - Verdugo Sanchez - Six Sigma Training - W2 Statistical Process...
Javier Garcia - Verdugo Sanchez - Six Sigma Training - W2 Statistical Process...Javier Garcia - Verdugo Sanchez - Six Sigma Training - W2 Statistical Process...
Javier Garcia - Verdugo Sanchez - Six Sigma Training - W2 Statistical Process...
 
Calculator scientific
Calculator scientificCalculator scientific
Calculator scientific
 
Different Models Used In Time Series - InsideAIML
Different Models Used In Time Series - InsideAIMLDifferent Models Used In Time Series - InsideAIML
Different Models Used In Time Series - InsideAIML
 

Recently uploaded

Making and Justifying Mathematical Decisions.pdf
Making and Justifying Mathematical Decisions.pdfMaking and Justifying Mathematical Decisions.pdf
Making and Justifying Mathematical Decisions.pdf
Chris Hunter
 
The basics of sentences session 3pptx.pptx
The basics of sentences session 3pptx.pptxThe basics of sentences session 3pptx.pptx
The basics of sentences session 3pptx.pptx
heathfieldcps1
 
Beyond the EU: DORA and NIS 2 Directive's Global Impact
Beyond the EU: DORA and NIS 2 Directive's Global ImpactBeyond the EU: DORA and NIS 2 Directive's Global Impact
Beyond the EU: DORA and NIS 2 Directive's Global Impact
PECB
 
Russian Escort Service in Delhi 11k Hotel Foreigner Russian Call Girls in Delhi
Russian Escort Service in Delhi 11k Hotel Foreigner Russian Call Girls in DelhiRussian Escort Service in Delhi 11k Hotel Foreigner Russian Call Girls in Delhi
Russian Escort Service in Delhi 11k Hotel Foreigner Russian Call Girls in Delhi
kauryashika82
 
1029 - Danh muc Sach Giao Khoa 10 . pdf
1029 -  Danh muc Sach Giao Khoa 10 . pdf1029 -  Danh muc Sach Giao Khoa 10 . pdf
1029 - Danh muc Sach Giao Khoa 10 . pdf
QucHHunhnh
 

Recently uploaded (20)

Mehran University Newsletter Vol-X, Issue-I, 2024
Mehran University Newsletter Vol-X, Issue-I, 2024Mehran University Newsletter Vol-X, Issue-I, 2024
Mehran University Newsletter Vol-X, Issue-I, 2024
 
Class 11th Physics NEET formula sheet pdf
Class 11th Physics NEET formula sheet pdfClass 11th Physics NEET formula sheet pdf
Class 11th Physics NEET formula sheet pdf
 
PROCESS RECORDING FORMAT.docx
PROCESS      RECORDING        FORMAT.docxPROCESS      RECORDING        FORMAT.docx
PROCESS RECORDING FORMAT.docx
 
Making and Justifying Mathematical Decisions.pdf
Making and Justifying Mathematical Decisions.pdfMaking and Justifying Mathematical Decisions.pdf
Making and Justifying Mathematical Decisions.pdf
 
How to Give a Domain for a Field in Odoo 17
How to Give a Domain for a Field in Odoo 17How to Give a Domain for a Field in Odoo 17
How to Give a Domain for a Field in Odoo 17
 
Ecological Succession. ( ECOSYSTEM, B. Pharmacy, 1st Year, Sem-II, Environmen...
Ecological Succession. ( ECOSYSTEM, B. Pharmacy, 1st Year, Sem-II, Environmen...Ecological Succession. ( ECOSYSTEM, B. Pharmacy, 1st Year, Sem-II, Environmen...
Ecological Succession. ( ECOSYSTEM, B. Pharmacy, 1st Year, Sem-II, Environmen...
 
General Principles of Intellectual Property: Concepts of Intellectual Proper...
General Principles of Intellectual Property: Concepts of Intellectual  Proper...General Principles of Intellectual Property: Concepts of Intellectual  Proper...
General Principles of Intellectual Property: Concepts of Intellectual Proper...
 
On National Teacher Day, meet the 2024-25 Kenan Fellows
On National Teacher Day, meet the 2024-25 Kenan FellowsOn National Teacher Day, meet the 2024-25 Kenan Fellows
On National Teacher Day, meet the 2024-25 Kenan Fellows
 
microwave assisted reaction. General introduction
microwave assisted reaction. General introductionmicrowave assisted reaction. General introduction
microwave assisted reaction. General introduction
 
The basics of sentences session 3pptx.pptx
The basics of sentences session 3pptx.pptxThe basics of sentences session 3pptx.pptx
The basics of sentences session 3pptx.pptx
 
Holdier Curriculum Vitae (April 2024).pdf
Holdier Curriculum Vitae (April 2024).pdfHoldier Curriculum Vitae (April 2024).pdf
Holdier Curriculum Vitae (April 2024).pdf
 
Beyond the EU: DORA and NIS 2 Directive's Global Impact
Beyond the EU: DORA and NIS 2 Directive's Global ImpactBeyond the EU: DORA and NIS 2 Directive's Global Impact
Beyond the EU: DORA and NIS 2 Directive's Global Impact
 
Russian Escort Service in Delhi 11k Hotel Foreigner Russian Call Girls in Delhi
Russian Escort Service in Delhi 11k Hotel Foreigner Russian Call Girls in DelhiRussian Escort Service in Delhi 11k Hotel Foreigner Russian Call Girls in Delhi
Russian Escort Service in Delhi 11k Hotel Foreigner Russian Call Girls in Delhi
 
1029 - Danh muc Sach Giao Khoa 10 . pdf
1029 -  Danh muc Sach Giao Khoa 10 . pdf1029 -  Danh muc Sach Giao Khoa 10 . pdf
1029 - Danh muc Sach Giao Khoa 10 . pdf
 
Measures of Dispersion and Variability: Range, QD, AD and SD
Measures of Dispersion and Variability: Range, QD, AD and SDMeasures of Dispersion and Variability: Range, QD, AD and SD
Measures of Dispersion and Variability: Range, QD, AD and SD
 
ICT role in 21st century education and it's challenges.
ICT role in 21st century education and it's challenges.ICT role in 21st century education and it's challenges.
ICT role in 21st century education and it's challenges.
 
ICT Role in 21st Century Education & its Challenges.pptx
ICT Role in 21st Century Education & its Challenges.pptxICT Role in 21st Century Education & its Challenges.pptx
ICT Role in 21st Century Education & its Challenges.pptx
 
ComPTIA Overview | Comptia Security+ Book SY0-701
ComPTIA Overview | Comptia Security+ Book SY0-701ComPTIA Overview | Comptia Security+ Book SY0-701
ComPTIA Overview | Comptia Security+ Book SY0-701
 
Unit-V; Pricing (Pharma Marketing Management).pptx
Unit-V; Pricing (Pharma Marketing Management).pptxUnit-V; Pricing (Pharma Marketing Management).pptx
Unit-V; Pricing (Pharma Marketing Management).pptx
 
2024-NATIONAL-LEARNING-CAMP-AND-OTHER.pptx
2024-NATIONAL-LEARNING-CAMP-AND-OTHER.pptx2024-NATIONAL-LEARNING-CAMP-AND-OTHER.pptx
2024-NATIONAL-LEARNING-CAMP-AND-OTHER.pptx
 

Prédisez la demande en électricité

  • 2. Votre logo ou nom ici Contexte Notre société, Enercoop, spécialisée dans les énergies renouvelables, souhaite proposer une meilleure adéquation offre / demande grâce à la mise en place d’un algorithme de prédiction de la consommation. Sommaire • Présentation et description des sources de données. • Détail du programme Python développé. • Correction des consommations mensuelles de l’effet de température. • Désaisonnalisation de la consommation. • Prévision des consommations grâce aux méthodes de lissage exponentiel et SARIMA 2
  • 3. Votre logo ou nom ici Présentation et description des données. Les bonnes données pour un bon algorithme … Point sur les datasets temporels utilisés. 3
  • 4. Votre logo ou nom ici 2 Timeseries principales Données mensuelles de DJU (Degré jour unifié) sur différentes stations météo régionales, sur la même période. Source : cegibat.grdf.fr Consommation électrique Données météo Données mensuelles régionales de consommation électrique en TWh sur une période de 8 ans. Source : www.rte-france.com 4
  • 5. Votre logo ou nom ici Les données de consommation électrique 5 Timeserie de la consommation en énergie (TWh), au niveau régional de 2012 à 2019.
  • 6. Votre logo ou nom ici Description des données de consommation 6 Des données complètes et cohérentes • Le fichier eCO2mix_RTE_energie_M.csv téléchargé sur les bases RTE ne contient pas de données nulles. • Les dates qui nous intéressent, de 2012 à 2019, sont bien complétées de données définitives ou consolidées. • Les valeurs relevées ne semblent pas comporter de valeurs aberrantes, les moyenne et écart type sont cohérents. • Nous voyons 13 valeurs uniques pour les territoires. • Les 12 régions de France y sont représentées ainsi que l’agglomérat au niveau national (La corse n’est pas présente).
  • 7. Votre logo ou nom ici Projection des données régionales 7 Lineplot Seaborn des évolutions de consommations par région depuis 2014. Les courbes par région suivent la même tendance et nous remarquons ici parfaitement l’effet de saisonnalité. Les pics saisonniers sont présents aux même périodes à des niveaux différents.
  • 8. Votre logo ou nom ici Projection des données France 8 Lineplot Seaborn des évolutions de consommations en France depuis 2012. Ici encore, les effets de la saison semblent très marqués. Nous allons donc, sur ces données, devoir corriger l’effet des températures grâce aux données des DJU.
  • 9. Votre logo ou nom ici Données DJU pour correction de l’effet de température 9 Timeserie des données de températures . Les différents datasets au format Excel ont été téléchargés. 1 fichier téléchargé par chef lieu de région afin de couvrir l’intégralité des variations en France. Le degré jour unifié (DJU) est une valeur représentative de l’écart entre la température d’une journée donnée et un seuil de température préétabli à 18 °C, sommés sur une période.
  • 10. Votre logo ou nom ici Création d’un DataFrame global des DJU 10 Regroupement des données DJU et calcul des moyennes France. Grâce à une boucle Python, nous importons tous les Excels téléchargés pour créer un DataFrame Pandas global des données DJU 2012 / 2019. Nous avons donc à présent, pour chaque région, l’ensemble des DJU mensuels sur la période. Pour obtenir les données France cohérentes, nous avons ensuite groupé les données mensuelles par la moyenne.
  • 11. Votre logo ou nom ici Projection des données DJU France 11 Lineplot Seaborn des évolutions de consommations en France et DJU depuis 2012. Les 2 courbes semblent suivre la même saisonnalité. Les variations de la courbe de consommation d'énergie sont effectivement globalement liées aux écarts de températures.
  • 12. Votre logo ou nom ici Synthèse Des données exploitables et cohérentes • Les données utilisées ne présentent pas de valeurs manquantes ou aberrantes. • Les données France compilées sont cohérentes que ce soit pour les DJU ou les consommations en énergie et présentent bien les mêmes pics de saisonnalité. • Nous allons à présent pouvoir corriger l’effet de température sur les données de consommation par régression linéaire simple, sur les timeseries France. 12
  • 13. Votre logo ou nom ici Correction des données de l’effet de température. Régression linéaire simple pour retirer l’effet des températures sur les consommations d’énergie. 13
  • 14. Votre logo ou nom ici Scatterplot et droite de régression conso / DJU 14 Visualisons la répartition des données de consommation en fonction des DJU Nous projetons les données ainsi : • 𝑋 = DJU • 𝑌 = Consommations d’énergie. Dans ce modèle, nous supposons qu'il existe une relation linéaire entre la variable à expliquer et la variable explicative : 𝒀 = 𝒂 + 𝒃𝑿 + 𝜺 Nous cherchons donc les paramètres inconnus 𝑎 et 𝑏 pour corriger les consommations mensuelles de l'effet de température.
  • 15. Votre logo ou nom ici Régression linéaire simple avec Statsmodels 15 Fonction OLS Le coefficient de détermination 𝑅² est de l'ordre de 0.95, ce qui est relativement élevé et au vu de la représentation graphique de notre droite de régression, cela nous indique que le modèle est performant. La variable "dju" est également statistiquement significative au niveau de test 5%, sa P-value étant de 0. Les coefficients de régressions sont ici estimés : • 𝑎 = 31344 • 𝑏 = 48.39
  • 16. Votre logo ou nom ici Vérification de la performance du modèle de régression 16 Valeurs ajustées et normalité des résidus Les points projetés sont proches de la première bissectrice, ce qui nous indique que les valeurs ajustées sont proches des valeurs réelles. La normalité des résidus est confirmée avec la distribution observée et le QQplot. Le test de Shapiro-Wilk indique une p- value de 0,37.
  • 17. Votre logo ou nom ici Correction de l’effet de température 17 Visualisation des données initiales et corrigées Les tests sur notre modèles de régression linéaire étant significatifs, nous allons pouvoir utiliser les coefficients obtenus pour corriger notre consommation d'énergie des effets de la température : 𝐶𝑜𝑛𝑠𝑜𝑎𝑗𝑢𝑠𝑡é𝑒 = 𝐶𝑜𝑛𝑠𝑜 – 𝐷𝐽𝑈 ∗ 𝑏 On voit ici clairement l'impact des températures sur les consommation d'énergie au niveau national.
  • 18. Votre logo ou nom ici Désaisonnalisation par moyennes mobiles. On remarque une forte saisonnalité sur nos données ajustées. Regardons ce que les données CVS peuvent nous apprendre. 18
  • 19. Votre logo ou nom ici ? 19 La correction des variations saisonnières (CVS) est une technique employée pour éliminer l'effet des fluctuations saisonnières normales sur les données, de manière à en faire ressortir les tendances fondamentales … Une moyenne mobile est une combinaison linéaire d'instants passés et futurs de notre série temporelle. L'enjeu est de trouver une moyenne mobile qui laisse la tendance invariante, qui absorbe la saisonnalité et qui réduit le résidu : Notre série temporelle : 𝑋𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝜀𝑡 Si on applique une moyenne mobile 𝑀 sur la série, nous obtenons : 𝑴𝑿𝒕 = 𝑴𝑻𝒕 + 𝑴𝑺𝒕 + 𝑴𝜺𝒕 Ses propriétés idéales seront donc : 𝑀𝑇𝑡 = 𝑇𝑡 𝑀𝑆𝑡 = 0 𝑀𝜀𝑡 faible
  • 20. Votre logo ou nom ici Fonction seasonal_decompose du package statsmodels 20 Décomposition de la tendance, de la saisonnalité et des résidus Afin d’être certain de travailler sur une série de type additive, nous avons travaillé avec le logarithme de la consommation ajustée. Tendance (trend) de la série Elle semble être stable avec un pic en 2018. Saisonnalité (Seasonal) On peut distinguer 2 pics positifs et 1 pic négatif par période de 12 mois. Résidus (Resid) Ils semblent être faibles, autour de 0.
  • 21. Votre logo ou nom ici Calcul et visualisation des consommation ajustées CVS 21 Visualisation des données initiales et corrigées des températures et des variations saisonnières. Nous avons récupéré les valeurs de chaque item grâce à la fonction et calculé : 𝐶𝑜𝑛𝑠𝑜𝑎𝑗𝑢𝑠𝑡é𝑒_𝑐𝑣𝑠 = 𝐶𝑜𝑛𝑠𝑜𝑎𝑗𝑢𝑠𝑡é𝑒– 𝑆𝑎𝑖𝑠𝑜𝑛𝑛𝑎𝑙𝑖𝑡é Les données de consommation d’énergie France sont donc ici corrigées des effets de la températures et des variations saisonnières.
  • 22. Votre logo ou nom ici Synthèse Des consommations fortement liées aux effets de températures et de saisonnalité … • En corrigeant ainsi la série temporelle des consommations, on ne remarque pas d’outliers francs ni de pics aberrants. • Nous apercevons des pics de saisonnalité positifs et négatifs sur une période de 12 mois. • Ces indices vont nous permettre d’orienter nos modèles de prédiction de consommation. 22
  • 23. Votre logo ou nom ici Modèle de prédiction de la consommation. 2 méthodes seront testées : - Lissage exponentiel : Holt Winters - Modèle SARIMA 23
  • 24. Votre logo ou nom ici ? 24 Dans les techniques de lissage exponentiel, les prévisions sont des fonctions, linéaires (ou non), du passé de la série. Dans le cas de la méthode Holt-Winters, la saisonnalité de la série est prise en compte. Cette méthode consiste à supposer que 𝑋𝑡 est approximable au voisinage de 𝑇 par : 𝑎𝑇 + (𝑡 − 𝑇)𝑏𝑇 + 𝑆𝑇 En désignant par 𝑠 la période du cycle saisonnier de la série temporelle. Lissage exponentiel triple
  • 25. Votre logo ou nom ici Lissage de Holt-Winters avec Python via Statsmodels Nous utiliserons la fonction ExponentialSmoothing Split de la série Train, Test • Le split Train constitue les données d’entrainement, conso de 2012 à 2018. • Le split Test, données 2019, nous servira à vérifier les prédictions. Modélisation sur la série log(Train) • Lissage exponentiel Holt- Winters via la fonction ExponentialSmoothing avec une saisonnalité 12 sur la série Train. Prédiction de la série Test pour comparaison • Grâce à la fonction forecast sur une période 12, prédiction de l’année 2019. • Comparaison avec les données réelles. 25
  • 26. Votre logo ou nom ici 26 Les données prédites via la méthode de lissage exponentiel, sur les moments passés de la série, sont relativement fidèles au données réelles test. On remarque que la saisonnalité et l’échelle des valeurs sont bien respectées. Pour vérifier la performance du modèle, nous allons calculer quelques métriques.
  • 27. Votre logo ou nom ici Les métriques analysées : MAE Mean Absolute Error, mesure la déviation absolue moyenne entre une estimation prévue et les données réelles. MSE Mean Squared Error, la distance, entre la prévision et l’observation, est ici élevée au carré. La sensibilité à l’erreur est meilleure. RMSE Root Mean Squared Error, est la racine carrée du MSE, c’est une métrique largement utilisée. MAPE Mean Absolute Percentage Error, moyenne des écarts en valeur absolue par rapport aux valeurs observées exprimée en pourcentage. R² Coefficient de détermination, c’est le carré du coefficient de corrélation linéaire. 27
  • 28. Votre logo ou nom ici Analyse de la performance du modèle Holt-Winters 28 Calculs et affichage des diverses métriques Le MAPE est relativement faible sur ce modèle et le R² assez élevé (quoi que R² n’est pas forcement le meilleur indicateur pour une timeserie). En l’état, le modèle semble performant, mais il sera nécessaire de comparer ces métriques avec celles du modèle suivant (SARIMA).
  • 29. Votre logo ou nom ici ? 29 La méthode SARIMA (Seasonnal AutoRegressive Integrated Moving Average) permet de modéliser des séries qui présentent une saisonnalité, comme c'est le cas pour notre dataset. Pour être certain que toutes les variables aléatoires suivent la même loi, nous allons devoir stationnariser la série. Un processus (𝑋𝑡)𝑡 ∈ ℤ est dit stationnaire si son espérance et ses autocovariances sont invariantes par translation dans le temps. Nous stationnariserons notre série par différenciation. A l'issue de la modélisation, il nous faudra obtenir un signal résiduel qui ne contient plus d'information temporelle, un bruit blanc qu’il faudra donc caractériser. Processus stochastique et stationnaire …
  • 30. Votre logo ou nom ici Démarche utilisée pour la méthode SARIMA Stationnarisation par différenciation • Test de stationnarité de la série conso ajustée. • Stationnarisation par différenciation itérative. Modèles potentiels Identification, estimation a priori • Nous utiliserons la méthode statspace.sarimax de Statsmodels ainsi que la méthode de Jung-Box pour les tests de blancheur. Prévision et analyses a posteriori • Prédiction et analyses à posteriori sur les données splitées Train et Test identiques à la méthode Holt-Winters. 30
  • 31. Votre logo ou nom ici Test de stationnarité avec le test ADF (Augmented Dickey-Fuller) 31 Au niveau de test 5%, on ne rejette pas l'hypothèse de non-stationnarité de la série, contrairement à la série différenciée testée en second. Nous allons donc devoir effectuer une stationnarisation de notre série temporelle.
  • 32. Votre logo ou nom ici Stationnarisation : premiers autocorrélogrammes 32 • Pics significatifs dans le graphique ACF au décalage 6, 12, 18 ... (composante saisonnière semestrielle). • Dans le graphique PACF, les délais sont plus lents à se désintégrer autour de 22, 32 et les pics négatifs sont significatifs.
  • 33. Votre logo ou nom ici Différenciations successives de la série temporelle Différenciation 𝑰 − 𝑩𝟔 : Il existe encore un problème de stationnarité pour les multiples de 12 selon les autocorrélogrammes. 33 Différenciation 𝑰 − 𝑩𝟏𝟐 : Cette fois, la stationnarité de la série semble être bien établie.
  • 34. Votre logo ou nom ici 𝒑 𝒆𝒕 𝑷 𝒑 𝒆𝒕 𝑷 sont tous deux égaux à 1 : Pics positifs significatifs dans les graphiques ACF et PACF 𝒅 𝒆𝒕 𝑫 sont tous deux égaux à 1 : différenciation sur les premiers paramètres et les saisonniers 𝒒 = 𝟎 𝒆𝒕 𝑸 = 𝟏 : pics négatifs significatifs sur le PACF mais pas forcement sur ACF 34 Point de départ de modélisation SARIMA Ces caractéristiques suggèrent un point de départ potentiel des paramètres de 𝑆𝐴𝑅𝐼𝑀𝐴(1,1,0)(1,1,1,6) 𝒅 𝒆𝒕 𝑫 𝒒 𝒆𝒕 𝑸 𝒔 est égal à 6, on remarque les premiers pics de l’ACF avec une saisonnalité de 6. Nous allons à présent tester ce modèle.
  • 35. Votre logo ou nom ici Estimation et validation des modèles 35 𝑆𝐴𝑅𝐼𝑀𝐴(1,1,0)(1,1,1,6) • La métrique AIC est faible sur ce modèle, indicateur de performance. • Les variables sont toutes significatives au niveau de test de 5%. • Les p-values du Test de Jung-Box indiquent bien un bruit blanc des résidus. • Les autocorrélogrammes des résidus ne montrent pas de pics significatifs.
  • 36. Votre logo ou nom ici 36 Diagnostiques 𝑆𝐴𝑅𝐼𝑀𝐴(1,1,0)(1,1,1,6) Ici, nous testons entre autre la normalité des résidus grâce à l’histogramme et le QQPlot. Nous pouvons donc effectivement constater cette normalité des résidus. Un test de Shapiro-Wilk a également été réalisé et est significatif. (pvalue=6.73e-21)
  • 37. Votre logo ou nom ici Estimation des autres modèles via Grid search 37 Création d’une table des métriques de tous les modèles SARIMA pertinents Toujours en fonction des premiers autocorrélogrammes et des résultats obtenus dans cette grid search, Nous allons tester le modèles qui semble avoir les meilleures métriques et un AIC significatif : 𝑆𝐴𝑅𝐼𝑀𝐴(1,0,1)(1,0,1,12)
  • 38. Votre logo ou nom ici Estimation et validation du second modèle 38 𝑆𝐴𝑅𝐼𝑀𝐴(1,0,1)(1,0,1,12) • La métrique AIC est encore meilleure sur ce second modèle. • Les variables sont toutes significatives au niveau de test de 5%. • Les p-values du Test de Jung-Box indiquent bien un bruit blanc des résidus et sont meilleures que le premier modèle SARIMA testé. • Les autocorrélogrammes des résidus ne montrent plus de pics significatifs et sont là aussi meilleurs.
  • 39. Votre logo ou nom ici 39 Diagnostiques 𝑆𝐴𝑅𝐼𝑀𝐴(1,0,1)(1,0,1,12) On remarque sur ce second modèle des indicateurs encore meilleurs que sur le modèle 1. Le test de blancheur présente des p- values proches de 1 et les indicateurs de performance tels que l'AIC sont satisfaisant. La normalité des résidus est également confirmée. Nous utiliserons donc le modèle 2 pour nos analyses à posteriori.
  • 40. Votre logo ou nom ici 40 Analyse a posteriori SARIMA Les données prédites via la méthode SARIMA, sont là aussi relativement fidèles au données réelles test. Si l’on compare les métriques obtenues avec celles de la méthode Holt-Winters, on remarque que SARIMA est meilleure sur l’ensemble des valeurs.
  • 41. Votre logo ou nom ici Synthèse 2 méthodes permettant d’obtenir des prédictions satisfaisantes. • Que ce soit par lissage exponentiel ou par méthode stochastique, les prédictions sont satisfaisantes et fidèles aux tendances de la série temporelle de consommation ajustée des effets de températures. • La méthode SARIMA offre de meilleures métriques que la méthode Holt-Winters. • Nous allons à présent réaliser des prédictions pour les 12 prochains mois avec les 2 méthodes. 41
  • 42. Votre logo ou nom ici Prédiction de la consommation pour 2020. Appliquons nos 2 modèles sur la consommation corrigée des effets de température pour prédire les 12 prochains mois. 42
  • 43. Votre logo ou nom ici 43
  • 44. Votre logo ou nom ici 44
  • 45. Votre logo ou nom ici 45 Des résultats proches … Comme nous pouvons le constater, les prédictions sur le modèle Holt-Winters ou sur le modèle SARIMA sont très proches et suivent la tendance et saisonnalité de notre série initiale. Cette proximité est également un indicateur de performance des 2 modèles. L’un comme l’autre peuvent être utilisés pour nos prévision mais je préconiserai SARIMA. Pour aller plus loin … Nous pourrions étudier d’autres traitements spécifiques des timeseries comme la procédure Prophet de Facebook ou grâce au deep learning avec TensorFlow par exemple.
  • 46. Merci de votre attention Michael FUMERY 06 59 20 65 39 mika.fumery@gmail.com https://www.enercoop.fr/