Quelles données pour une prévision des ventes pertinente ?

by Rupert Schiessl

#machine learning #data

Le machine learning, afin de générer des modèles capables de prédire les ventes à venir avec précision, doit s'appuyer sur de multiples variables. Nous vous proposons ici un tour d’horizon des différents types de variables utilisées, ainsi que des typologies de données dont elles peuvent être issues.

  1. Types de variables utilisées
  2. Les données les plus fréquemment utilisées
  3. Bases de données évolutives


Types de variables utilisées

Endogènes Vs exogènes

Les variables dites “endogènes” sont directement liées au flux à prédire. Il peut s’agir du prix d’un produit, de l’emplacement d’un point de vente, du nombre de vendeurs, etc. Ces éléments sont généralement connus par l'organisation qui réalise les prédictions et elle possède ces informations dans ses bases de données. Le principal défi concernant ces facteurs endogènes consiste à les extraire de manière ciblée. En effet, même dans des approches de machine learning, capables de comprendre l’importance relative d’une variable par rapport à un objectif fixé, la connaissance du métier et la bonne sélection des variables endogènes reste la clé principale à une bonne précision.

Les variables exogènes, elles, sont des données externes au système de prévision. Il s’agit par exemple de la météo, du trafic routier ou encore de la densité concurrentielle autour d’un point de vente. Ces données, si elles existent, ne se trouvent pas dans les bases de données de l’entreprise. Il faut donc aller les chercher ailleurs afin de les intégrer, parfois dans un second temps si elles sont trop compliquées à obtenir, aux modèles prédictifs. Ici encore, il peut y avoir une problématique liée à la pertinence de certaines de ces données, en fonction de leur capacité à améliorer réellement la prédiction ou à l’induire en erreur la modélisation, et donc à générer du “bruit”.

Connues ou Inconnues

Une partie des variables qui impacte le flux à prédire est connue par l’entreprise. Ces données peuvent alors être identifiées et, si disponibles, utilisées dans la modélisation (ex. prix du produit, mécanisme de promotion, heure d’achat, etc.). Les flux à prédire sont également impactés par des données inconnues, qui ont un impact sur la prévision finale que délivrera le modèle. Pour un achat donné, par exemple, une grande partie du comportement client dépend de sa psychologie ou de son envie du jour.

Maîtrisées vs subies

Dans l’ensemble des données récoltées, seule une faible partie des variables sont maîtrisées. A titre d’exemple, un point de vente maîtrisera le prix de ses articles, les emplacements dans les rayons ou la qualification de sa force de vente. D’autres données, en revanche, sont subies par le prévisionniste, qui ne peut avoir d’influence sur l’importance de chacune d’entre elles. Ce sont des éléments comme la météo, les événements locaux, le pouvoir d’achat des ménages ou encore la législation.

Dans un monde idéal, il serait évidemment souhaitable de connaître et de maîtriser l’intégralité des facteurs qui ont un impact sur une prévision, car plus ces derniers sont inconnus ou non-maîtrisés, plus la variance est élevée, ce qui augmente l’écart entre prévisions et flux réels.

Les données les plus fréquemment utilisées

Certaines données sont essentielles pour réaliser une prédiction des ventes. Parmi celles-ci, on peut notamment retrouver :

      • Saisonnalité (saison, jour de la semaine, jour dans le mois (impact de la paye qui tombe en fin de mois), vacances scolaires, soldes, événements, etc.)
      • Produit (catégorie, marque, packaging, etc.)
      • Prix (prix de vente, réductions, évolution historique du prix, mécanisme promotionnel, etc.)
      • Force de vente (rémunération, qualification, nombre, etc.)
      • Point de vente (localisation, taille, assortiment, événements locaux, etc.)
      • Concurrence (nature, densité, chevauchement des offres, etc.)
      • Canal (physique, web, drive, livraison, relais colis)
      • Promotions (budget pub, merchandising, réseaux sociaux, catalogues, etc.)
      • Météo
      • Indicateurs macroéconomiques (taux de change, salaire moyen, taux d’inflation, cours de bourse, etc.)

Il est à noter que d’autres variables peuvent apparaître temporairement dans des contextes particuliers. La crise sanitaire liée au COVID19 par exemple nous a montré qu’il était nécessaire d’intégrer de nouvelles variables à la modélisation :

      • Déconfinement régional
      • Circulation du virus et niveau de contamination
      • Ouverture des écoles et restaurants scolaires
      • Contraintes de déplacement
      • Ouverture des frontières
      • Disponibilité de masques
      • Nouvelles habitudes (ex. tendance du pain fait maison)

Bases de données évolutives

Pour conclure, il convient de noter que l’importance des données peut évoluer au fil du temps. Un système de prévision n’est jamais statique, mais doit régulièrement prendre en compte de nouvelles données. En règle générale, ces données apparaissent à l’occasion d’une ouverture d’un nouveau magasin, d’un lancement produit ou tout simplement de nouvelles ventes. D’autres peuvent être apportées lors de la mise à disposition d’informations de type open data (ex. publication des informations liées à la fréquentation des trains par la SNCF ou la RATP).

Il est également important de prendre en considération que des variables spécifiques peuvent permettre aux algorithmes de comprendre l’aspect particulier d’une période entière. On peut à nouveau citer ici des classifications binaires utilisées pour indiquer aux algorithmes une situation économique spéciale, comme par exemple lors d’une pandémie comme la COVID19. De la même manière, certaines variables, initialement considérées comme du bruit, peuvent gagner en importance dans le temps, comme la tendance du Bio ou du “Made in France”.

Enfin, gare à bien différencier corrélation, causalité et coïncidence. Toutes les corrélations ne sont pas des causalités et inversement. Et s’il vous reste quelques minutes, voici quelques exemples des plus belles non-corrélations : https://www.tylervigen.com/spurious-correlations

Vous souhaitez en savoir plus sur l'utilisation du machine learning pour la prévision des ventes ? Demandez dès maintenant une démo de notre plateforme Verteego.

Être informé(e) des dernières actualités

Recevez nos dernières news directement dans votre boîte mail

Posts similaires