Successfully reported this slideshow.
Upcoming SlideShare
×

Robust sequentiel learning

Gilles Stoltz (CNRS, HEC

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
• Full Name
Comment goes here.

Are you sure you want to Yes No

• Be the first to like this

Robust sequentiel learning

1. 1. Framework A simple strategy Non stationarity Empirical studies References Robust sequential learning with applications to the forecasting of air quality and of electricity consumption Gilles Stoltz CNRS — École normale supérieure — INRIA, équipe CLASSIC & HEC Paris
2. 2. Framework A simple strategy Non stationarity Empirical studies References A statistician has to predict a sequence y1 , y2 , . . . of observations lying in some set Y. His predictions y1 , y2 , . . . are picked in a set X . Observations and predictions (1) are made in a sequential fashion and (2) rely on no stochastic modeling. (1) means that for each instance, the prediction yt of yt is determined t−1 – solely based on the past observations y1 = y1 , . . . , yt−1 , – before getting to know the actual value yt . (2) indicates that the methods at hand will not resort to the estimation of some parameters of some stochastic process to build a good model and get some accurate forecasts from it.
3. 3. Framework A simple strategy Non stationarity Empirical studies References To make the problem meaningful, ﬁnitely many expert forecasts are called for. At each instance t, expert j ∈ {1, . . . , N} outputs a forecast t−1 fj,t = fj,t y1 ∈X The statistician now determines yt based t−1 – on the past observations y1 = (y1 , . . . , yt−1 ), – and the current and past expert forecasts fj,s , where s ∈ {1, . . . , t} and j ∈ {1, . . . , N}.
4. 4. Framework A simple strategy Non stationarity Empirical studies References We assume that the set X of predictions is convex and we restrict the statistician to form convex combinations of the expert forecasts. At each instance t, the statistician thus picks a convex weight vector p t = p1,t , . . . , pN,t and forms N yt = pj,t fj,t j=1 The aim of the statistician is to predict –on average– as well as the best constant convex combination of the expert forecasts. ... But we need ﬁrst to indicate how to assess the accuracy of a given prediction!
5. 5. Framework A simple strategy Non stationarity Empirical studies References To that end, we consider a convex loss function : X × Y → R+ . When X ⊆ R and Y ⊆ R, possible choices are – the square loss (x, y ) = (x − y )2 ; – the absolute loss (x, y ) = |x − y |; – the absolute percentage of error (x, y ) = |x − y | |y |. The cumulative losses of the statistician and of the constant convex combinations q = (q1 , . . . , qN ) of the expert forecasts equal     T N T N LT =  pj,t fj,t , yt  and LT (q) =  qj fj,t , yt  t=1 j=1 t=1 j=1 The regret is deﬁned as the diﬀerence RT = LT − min LT (q) q
6. 6. Framework A simple strategy Non stationarity Empirical studies References Recall that the regret RT is deﬁned as the diﬀerence     T N T N LT − min LT (q) =  pj,t fj,t , yt  − min  qj fj,t , yt  q q t=1 j=1 t=1 j=1 We are interested in aggregation rules with (uniformly) vanishing per-round regret, 1 lim sup sup LT − min LT (q) 0 T →∞ T q where the supremum is over all possible sequences of observations and of expert forecasts. This is why this framework is referred to as prediction of individual sequences or as robust aggregation of expert forecasts. Note that the best convex combination q can only be determined in hindsight whereas the statistician has to predict in a sequential fashion.
7. 7. Framework A simple strategy Non stationarity Empirical studies References This framework leads to a meta-statistical interpretation: – each series of expert forecasts may be given by a statistical forecasting method, possibly tuned with some given set of parameters; – these base forecasts relying on some stochastic model are then combined in a robust and deterministic manner. The cumulative loss of the statistician can be decomposed as LT = min LT (q) + RT q This leads to the following interpretations: – the term indicating the performance of the best convex combination of the expert forecasts is an approximation error; – the regret term measures a sequential estimation error.
8. 8. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradientsDeux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives 1 Agrégation séquentielle de prédicteurs Cadre mathématique La philosophie sous-jacente à ce cadre Résumé du cadre 2 Applications à des données réelles Prédiction de la qualité de l’air Autres domaines 3 Deux familles d’algorithmes d’agrégation séquentielle Exponentielle des gradients Une pondération exponentielle sans gradients La régression ridge 4 Travaux récents et perspectives Calibration des algorithmes Agrégation lacunaire Autres objectifs ou autres résultats Gilles Stoltz Prédiction avec experts
9. 9. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradientsDeux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives Theorem Le regret de EG face à toute combinaison convexe constante q est uniformément borné (en q et en les suites y1 , y2 , . . .) selon     n N n N ln N ηn 2  pj,t fj,t , yt  −  qj fj,t , yt  + B t=1 t=1 η 2 j=1 j=1 où B est une borne sur les gradients, t ∞ B pour tout t. Deux éléments de démonstration : par convexité,     N N  pj,t fj,t , yt  −  qj fj,t , yt  t (p t ) · pt − q j=1 j=1 et l’analyse de ce majorant (linéaire en q) repose sur le lemme de Hoeﬀding. Gilles Stoltz Prédiction avec experts
10. 10. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradientsDeux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives La version fenêtrée repose sur une largeur de fenêtre T et produit les combinaisons convexes données par t−1 exp −η s = max{1, t−T } s (p s ) j pj,t = N t−1 i=1 exp −η s = max{1, t−T } s (p s ) i La version escomptée utilise une suite décroissante (βs ) pour former t−1 exp −ηt s=1 1 + βt−s s (p s ) j pj,t = N t−1 i=1 exp −ηt s=1 1 + βt−s s (p s ) i On peut exhiber une borne théorique sur le regret de la version escomptée, dépendant de (βs ). Pour la prédiction de la qualité de l’air, nous avons utilisé des escomptes assez forts, βs = 100/s 2 . Gilles Stoltz Prédiction avec experts
11. 11. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradientsDeux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives 1 Agrégation séquentielle de prédicteurs Cadre mathématique La philosophie sous-jacente à ce cadre Résumé du cadre 2 Applications à des données réelles Prédiction de la qualité de l’air Autres domaines 3 Deux familles d’algorithmes d’agrégation séquentielle Exponentielle des gradients Une pondération exponentielle sans gradients La régression ridge 4 Travaux récents et perspectives Calibration des algorithmes Agrégation lacunaire Autres objectifs ou autres résultats Gilles Stoltz Prédiction avec experts
12. 12. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradientsDeux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives La régression ridge a été introduite dans les années 70 par Hoerl et Kennard et intensivement étudiée depuis dans un cadre stochastique. Vovk ’01 et Azoury et Warmuth ’01 en proposent une analyse pour des suites individuelles. Formellement, en perte quadratique, la régression ridge choisit des combinaisons linéaires u t des prédictions des experts données, à l’échéance t 2, par un critère de moindres carrés pénalisés,   2  t−1 N 2 u t ∈ argmin  λ u 2 + ys − uj fj,s   u∈RN s=1 j=1 Elle peut être mise en œuvre eﬃcacement de manière séquentielle et assure que son regret est O(ln n). Gilles Stoltz Prédiction avec experts
13. 13. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradientsDeux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives Une propriété tout à fait sympathique de la régression ridge est qu’elle semble débiaiser automatiquement les experts. On peut en eﬀet la faire tourner sur un seul expert (proposant les s prédictions fj,t ) et faire ainsi presqu’aussi bien que le meilleur des experts, indexés chacun par γ, proposant les prédictions γ fj,t .s S’il y a un facteur de biais multiplicatif à-peu-près contant 1/γ, il est donc corrigé. Sur les données d’ozone, cela donne les erreurs quadratiques moyennes suivantes, par exemple sur le meilleur et le moins bon modèle : Sans Ridge Avec Ridge Sans Ridge Avec Ridge 35.79 24.78 22.43 21.66 Gilles Stoltz Prédiction avec experts
14. 14. Framework A simple strategy Non stationarity Empirical studies References Two empirical studies – Prediction of air quality – Forecasting of the electricity consumption
15. 15. Framework A simple strategy Non stationarity Empirical studies References Two empirical studies The methodology of our studies is in four steps: 1 Build the experts (possibly on a training data set) and pick another data set for the evaluation of our methods; 2 Compute some benchmarks and some reference oracles; 3 Evaluate our strategies when run with ﬁxed parameters (i.e., with the best parameters in hindsight); 4 The performance of interest is actually the one of the data-driven meta-strategies.
16. 16. Framework A simple strategy Non stationarity Empirical studies References First study: Prediction of air quality Joint work with Vivien Mallet (INRIA) and M.Sc. students; published in the Journal of Geophysical Research Some characteristics of one among the studied data sets: – 126 days during summer ’01; one-day ahead prediction – 241 stations in France and Germany – Typical ozone concentrations between 40 µg m−3 and 150 µg m−3 ; sometimes above the values 180 µg m−3 or 240 µg m−3 – 48 experts, built in Mallet et Sportisse ’06 by choosing a physical and chemical formulation, a numerical approximation scheme to solve the involved PDEs, and a set of input data (among many)
17. 17. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’airDeux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives On dispose d’un réseau S de stations à travers l’Europe et chaque s modèle j = 1, . . . , 48 procure une prédiction fj,t pour le pic à la station s et au jour t, qui est ensuite comparée au pic réalisé yts . Le statisticien détermine chaque jour une unique combinaison convexe p t = (p1,t , . . . , pN,t ) à utiliser en toutes les stations pour agréger les prédictions (et obtenir ainsi un champ de prévisions). Les écarts sont mesurés en perte quadratique moyenne, ce qui revient à considérer la fonction de perte  2 48 p t , (yts )s∈St =  pj,t fj,t − yts  s s∈St j=1 où St est le sous-ensemble des stations actives au jour t. La déﬁnition s’étend au cas des combinaisons linéaires u t (qui permettent par exemple de réduire le biais des modèles). Gilles Stoltz Prédiction avec experts
18. 18. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’airDeux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Les ﬁgures ci-dessous montrent que tous les experts sont utiles et apportent de l’information. 110 56 100 54 52 90 Concentration 50 80 48 46 70 44 60 42 50 -10 -5 0 5 10 15 20 40 30 0 5 10 15 20 25 30 35 40 45 0 5 10 15 20 Hour Figure: A gauche : Coloration de l’Europe en fonction de l’indice du meilleur expert local. A droite : Proﬁls moyens de prédiction sur une journée (moyennes spatiales et temporelles, en µg /m3 ). Gilles Stoltz Prédiction avec experts
19. 19. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’airDeux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Les erreurs cumulées de la méthode d’agrégation et de la combinaison linéaire constante induite par u valent respectivement  2 n 48 Ln =  uj,t fj,t − yts  s t=1 s∈St j=1  2 n 48 et Ln (u) =  uj fj,t − yts  s t=1 s∈St j=1 où St est le sous-ensemble des stations actives au jour t. Les erreurs quadratiques moyennes associées sont données par Ln Ln (u) rn = n et rn (u) = n t=1 |St | t=1 |St | Gilles Stoltz Prédiction avec experts
20. 20. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’airDeux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives L’espoir est qu’un bon ensemble d’experts et la considération d’une procédure avec un faible regret entraînent à leur tour une faible erreur quadratique moyenne. En eﬀet, Ln inf Ln (u) + o(n) u∈U se ré-écrit comme 2 2 rn inf rn (u) + o(1) u∈U (U est par exemple le simplexe des probabilités ou une boule 1 ). Gilles Stoltz Prédiction avec experts
21. 21. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’airDeux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Moyenne M. fondamental M. convexe M. linéaire Prescient 24.41 22.43 21.45 19.24 11.99 Ci-dessus, les erreurs quadratiques moyennes (en µg /m3 ) – de la moyenne des prédictions des 48 modèles, i.e., rn (1/48, . . . , 1/48) , – du meilleur modèle fondamental parmi j = 1, . . . , 48, – de la meilleure combinaison convexe q des 48 modèles, i.e., minq rn (q), – de la meilleure combinaison linéaire u (parmi tous les vecteurs de R48 ) des 48 modèles, i.e., minu rn (u), – du prédicteur prescient qui aurait connaissance des yts avant de former sa prédiction et ne serait contraint que par l’obligation de choisir une combinaison linéaire des prédictions des modèles. Gilles Stoltz Prédiction avec experts
22. 22. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’airDeux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Nous avons mis en œuvre environ 20 méthodes d’agrégation diﬀérentes et nous concentrons ici sur deux familles qui ont obtenu de bons résultats, EG et la régression ridge (et leurs variantes). EG est l’abréviation d’exponentielle des gradients. Cette méthode forme des combinaisons convexes dont les composantes sont données par une pondération exponentielle des sommes des composantes des gradients des pertes passées. Son regret moyen par rapport à l’ensemble des combinaisons √ convexes constantes est plus petit que 1/ n. La régression ridge est une méthode d’estimation classique en perte quadratique et qui utilise la meilleure combinaison linéaire pénalisée sur les données passées (pénalisation en terme de norme 2 ). Son regret moyen par rapport à toute combinaison linéaire constante est plus petite qu’une quantité de l’ordre de (ln n)/n. Gilles Stoltz Prédiction avec experts
23. 23. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’airDeux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Les versions fenêtrées n’utilisent qu’un nombre ﬁxe des plus récentes pertes passées, pour ensuite pondérer exponentiellement leurs gradients (EG) ou calculer sur elles seulement une meilleure combinaison linéaire pénalisée (régression ridge). L’escompte multiplie chaque perte passée par un facteur d’autant plus petit que ce passé est lointain. EG EG fenêtré EG esc. Ridge Ridge fenêtrée Ridge esc. 21.47 21.37 21.31 20.77 20.03 19.45 La meilleure combinaison convexe constante est battue et la version escomptée de la régression ridge a des performances très proches de celles de la meilleure combinaison linéaire constante. Moyenne M. fondamental M. convexe M. linéaire Prescient 24.41 22.43 21.45 19.24 11.99 Gilles Stoltz Prédiction avec experts
24. 24. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’airDeux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Les méthodes d’agrégation séquentielle ne se concentrent pas sur un seul expert. Les poids attribués aux modèles peuvent changer rapidement et de manière signiﬁcative au cours du temps. 0.9 10 0.8 0.7 5 0.6 Weight 0 Weight 0.5 0.4 -5 0.3 0.2 -10 0.1 0.0 -15 0 20 40 60 80 100 120 0 20 40 60 80 100 120 Step Step Figure: Poids produits au cours du temps par (à gauche) EG et la version escomptée de la régression ridge (à droite). Gilles Stoltz Prédiction avec experts
25. 25. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaireDeux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives 1 Agrégation séquentielle de prédicteurs Cadre mathématique La philosophie sous-jacente à ce cadre Résumé du cadre 2 Applications à des données réelles Prédiction de la qualité de l’air Autres domaines 3 Deux familles d’algorithmes d’agrégation séquentielle Exponentielle des gradients Une pondération exponentielle sans gradients La régression ridge 4 Travaux récents et perspectives Calibration des algorithmes Agrégation lacunaire Autres objectifs ou autres résultats Gilles Stoltz Prédiction avec experts
26. 26. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaireDeux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives On rappelle que l’exponentielle des gradients prédit, pour t 2, avec p t déﬁni, composante j par composante j selon t−1 exp −η s=1 s (p s ) j pj,t (η) = N t−1 i=1 exp −η s=1 s (p s ) i L’idée ici est de faire varier η en fonction de t et considérer pour ηt le meilleur paramètre η sur les échéances 1, . . . , t − 1, t−1 ηt ∈ argmin s p s (η) . η>0 s=1 On utilise alors p t (ηt ) pour la prédiction au jour t. Gilles Stoltz Prédiction avec experts
27. 27. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaireDeux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives On peut déﬁnir de manière similaire une calibration automatique de Ridge. Sur les données d’ozone : Meilleure convexe 21.45 EG avec meilleur η 21.47 EG avec (ηt ) 21.80 Meilleure linéaire 19.24 Ridge avec meilleur λ 20.77 Ridge avec (λt ) 20.81 Le “meilleur” paramètre désigne le paramètre constant η ou λ, choisi de manière rétrospective, qui aurait donné les meilleurs résultats en termes d’erreur quadratique. Il n’y a pas encore de borne théorique pour cette méthode de calibration, mais nous y travaillons ! Gilles Stoltz Prédiction avec experts
28. 28. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaireDeux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives 1 Agrégation séquentielle de prédicteurs Cadre mathématique La philosophie sous-jacente à ce cadre Résumé du cadre 2 Applications à des données réelles Prédiction de la qualité de l’air Autres domaines 3 Deux familles d’algorithmes d’agrégation séquentielle Exponentielle des gradients Une pondération exponentielle sans gradients La régression ridge 4 Travaux récents et perspectives Calibration des algorithmes Agrégation lacunaire Autres objectifs ou autres résultats Gilles Stoltz Prédiction avec experts
29. 29. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaireDeux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives Pour obtenir des combinaisons linéaires ou convexes n’utilisant qu’un nombre restreint de modèles, on peut seuiller les combinaisons proposées (pour EG) ou changer le type de pénalité (pour Ridge). La méthode LASSO (Tibshirani, ’96) choisit des combinaisons linéaires u t des prédictions des experts données, à l’échéance t 2, par un critère de moindres carrés pénalisés en norme 1 ,   2  t−1 N u t = argmin  λ u 1 + ys − uj fj,s   u∈RN s=1 j=1 Les combinaisons qui en résultent ont en général de nombreux coeﬃcients nuls (et sont dites lacunaires). Gilles Stoltz Prédiction avec experts
30. 30. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaireDeux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives Une version escomptée de LASSO conduit ainsi à une très forte sélection parmi les modèles (une vingtaine est éliminée sur les données d’ozone). Ridge esc. LASSO esc. M. linéaire 19.45 19.31 19.24   10      5 0 Indices of zero weights 40 Weight 5 30   10 15 20 25 0 20 40 60 80 Step 100 120 Gilles Stoltz Prédiction avec experts 20 10 0 0 20 40 60 Step 80 100 120
31. 31. Framework A simple strategy Non stationarity Empirical studies References Second study: Forecasting of the electricity consumption Joint work with Yannig Goude (EDF R&D) and M.Sc. students (Marie Devaine, Pierre Gaillard); submitted Specialized experts are available: each of them only outputs a forecast when speciﬁc conditions are met (working day vs. week end, temperature, etc.). The deﬁnitions and strategies need to be generalized to this setting. Exhaustive list of references: Blum ’97; Freund et al. ’97; Cesa-Bianchi and Lugosi ’03; Blum and Mansour ’07... This is it! On our data set, – 3 families of experts, 24 experts in total; – [operational constraint:] one-day ahead prediction at a half-hour step, i.e., the next 48 half-hour instances are to be predicted every day at noon
32. 32. Framework A simple strategy Non stationarity Empirical studies References 90 55 80 Consumption (GW) Consumption (GW) 50 70 60 45 50 40 40 35 30 9 11 12 1 3 4 5 7 8 Mon Tue Wed Thu Fri Sat Sun Month Day in the week Electricity consumption in France – Year 2007–08 (left) – Typical summer week (right)
33. 33. Framework A simple strategy Non stationarity Empirical studies References Some orders of magnitude for the prediction problem at hand are indicated below. Time intervals Every 30 minutes Number of days D 320 Time instances T 15 360 (= 320 × 48) Number of experts N 24 (= 15 + 8 + 1) Median of the yt 56 330 MW Bound B on the yt 92 760 MW
34. 34. Framework A simple strategy Non stationarity Empirical studies References We indicate RMSE (average errors and 95 % standard errors). Best expert Uniform mean Best p 782 ± 10 724 ± 11 658 ± 9 Exp. weights Best parameter Adaptive 629 ± 8 637 ± 9 Shifts m = T − 1 = 15 359 m = 200 m = 50 223 ± ? 414 ± ? 534 ± ? Fixed-Share Best parameter Adaptive 599 ± 9 629 ± 8
35. 35. Framework A simple strategy Non stationarity Empirical studies References 1.0 0.9 0.8 RMSE (GW) —— Best expert 0.7 ---- Best p Exp. weights 0.6 • Fixed-share 0.5 0.4 0 5 10 15 20 Hour Average RMSEs (in GW / not in MW) according to the half hours A picture is worth thousand tables, right? The average RMSE were similar but the behaviors seem diﬀerent by the half-hours.
36. 36. Framework A simple strategy Non stationarity Empirical studies References References In case you’re not bored to death (yet) by this topic!
37. 37. Framework A simple strategy Non stationarity Empirical studies References The so-called “red bible!” Prediction, Learning, and Games Nicolò Cesa-Bianchi et Gábor Lugosi
38. 38. Framework A simple strategy Non stationarity Empirical studies References I published a survey paper (containing this talk!) one year ago in the Journal de la Société Française de Statistique Journal de la Société Française de Statistique Vol. 151 No. 2 (2010) Agrégation séquentielle de prédicteurs : méthodologie générale et applications à la prévision de la qualité de l’air et à celle de la consommation électrique Title: Sequential aggregation of predictors: General methodology and application to air-quality forecasting and to the prediction of electricity consumption Gilles Stoltz * Résumé : Cet article fait suite à la conférence que j’ai eu l’honneur de donner lors de la réception du prix Marie-Jeanne Laurent-Duhamel, dans le cadre des XLe Journées de Statistique à Ottawa, en 2008. Il passe en revue les résultats fondamentaux, ainsi que quelques résultats récents, en prévision séquentielle de suites arbitraires par agrégation d’experts. Il décline ensuite la méthodologie ainsi décrite sur deux jeux de données, l’un pour un problème de prévision de qualité de l’air, l’autre pour une question de prévision de consommation électrique. La plupart des résultats mentionnés dans cet article reposent sur des travaux en collaboration avec Yannig Goude (EDF R&D) et Vivien Mallet (INRIA), ainsi qu’avec les stagiaires de master que nous avons co-encadrés : Marie Devaine, Sébastien Gerchinovitz et Boris Mauricette. Abstract: This paper is an extended written version of the talk I delivered at the “XLe Journées de Statistique” in Ottawa, 2004, when being awarded the Marie-Jeanne Laurent-Duhamel prize. It is devoted to surveying some fundamental as well as some more recent results in the ﬁeld of sequential prediction of individual sequences with expert advice. It then performs two empirical studies following the stated general methodology: the ﬁrst one to air-quality forecasting and the second one to the prediction of electricity consumption. Most results mentioned in the paper are based on joint works with Yannig Goude (EDF R&D) and Vivien Mallet (INRIA), together with some students whom we co-supervised for their M.Sc. theses: Marie Devaine, Sébastien Gerchinovitz and Boris Mauricette. Classiﬁcation AMS 2000 : primaire 62-02, 62L99, 62P12, 62P30 Mots-clés : Agrégation séquentielle, prévision avec experts, suites individuelles, prévision de la qualité de l’air, prévision de la consommation électrique Keywords: Sequential aggregation of predictors, prediction with expert advice, individual sequences, air-quality forecasting, prediction of electricity consumption Ecole normale supérieure, CNRS, 45 rue d’Ulm, 75005 Paris & HEC Paris, CNRS, 1 rue de la Libération, 78350 Jouy-en-Josas E-mail : gilles.stoltz@ens.fr URL : http://www.math.ens.fr/∼stoltz * L’auteur remercie l’Agence nationale de la recherche pour son soutien à travers le projet JCJC06-137444 ATLAS (“From applications to theory in learning and adaptive statistics”). † Ces recherches ont été menées dans le cadre du projet CLASSIC de l’INRIA, hébergé par l’Ecole normale supérieure et le CNRS. Journal de la Société Française de Statistique, Vol. 151 No. 2 66-106 http://www.sfds.asso.fr/journal © Société Française de Statistique et Société Mathématique de France (2010) ISSN: 2102-6238 Even better (or worse)—it is in French!