Les données collectées au cœur de la stratégie de prévision des ventes

Qu’est-ce que la prévision des ventes, si ce n’est pas une précieuse méthode de probabilité au service de la stratégie de l’entreprise dans l’atteinte de ses objectifs ? Basée sur l’analyse des informations passées, les données sont la matière première de la prévision des ventes, car comment faire une prédiction à partir de rien ? Il s’agit d’ailleurs d’une de ses limites, notamment lors du lancement d’un nouveau produit ou l’ouverture d’un point de vente, par exemple.

Mais les données, ou devrions-nous parler de big data, sont partout et évoluent en permanence. Ainsi un modèle prédictif n’est pas statique et doit évoluer en fonction des changements ou des ressources. En outre, la pertinence des nombreuses données collectées est un des critères indispensables pour un calcul des résultats escomptés précis et fiable. Si bien que la prévision des ventes est aujourd’hui un nouveau défi pour les entreprises.

Faisons le point sur les données nécessaires à la prévision des ventes.

Quelles sont les données nécessaires à la prévision des ventes ?-1

Les deux grands types de données indispensables pour la prévision des ventes

Une prévision des ventes doit intégrer de nombreuses données, car plus elles sont importantes et qualifiées et plus la précision sera grande. Ces données sont regroupées en deux grandes catégories de données : les variables internes à l’entreprise, ou endogènes, et les variables externes (exogènes).

Les données endogènes issues de l’entreprise

Les données endogènes sont donc les informations provenant de l’entreprise et directement liées aux flux à prédire. Il s’agit de variables connues, maîtrisées et répertoriées dans une base de données, ou tout au moins facilement collectables, le cas échéant.

Mais les données sont omniprésentes dans le monde de l’entreprise. C’est pourquoi tout l’enjeu du processus de traitement des données internes permettant l’élaboration d’une prévision des ventes repose sur leur extraction, qui doit être ciblée et répondre à des objectifs précis pour une plus grande exactitude du modèle. Il est en effet inutile, voire contreproductif, d’intégrer trop de variables dans le calcul de probabilité.

Voici une tendance non exhaustive des données internes les plus utilisées pour la prévision des ventes :

les variables liées aux produits (catégorie produit, marque, conditionnement, etc.) ;
les données relatives aux prix (prix de vente, coût de production, promotion, évolution des tarifs, etc.) ;
les informations concernant les points de vente (surface, stocks, localisation, chiffre d’affaires moyen, etc.) ;
les informations propres à l’équipe de vente (nombre, formation, qualification, etc.) ;
les données de marketing (promotion, catalogue, réseaux sociaux, etc.) ;
les variables relatives au canal de vente (livraison, retrait, en point de vente, vente en ligne, etc.).

Les données exogènes liées à l’environnement de l’entreprise

Les données exogènes font référence à l’ensemble des variables externes à l’entreprise et au processus de prévision. Elles sont propres à l’environnement direct de l’entreprise et peuvent impacter les ventes. Il s’agit de données inconnues qu’il faut alors collecter et analyser pour ne garder et n’intégrer dans le modèle que les plus pertinentes et fiables, car elles peuvent induire des erreurs (un « bruit ») dans la modélisation. En outre, il s’agit de variables subies dans la mesure où l’entreprise n’a aucune influence sur celles-ci.

La pertinence des données exogènes est fonction du secteur d’activité de l’entreprise. Alors que la météo ou le trafic routier sont des facteurs pouvant impacter les ventes de certaines entreprises, d’autres variables sont toutefois communes :

la saisonnalité (période de l’année, mois, jour de la semaine, comme le jour de paie ou les week-ends, mais aussi les vacances) ;
la concurrence (produits, prix, localisation, clients ciblés, zone de chalandise, etc.) ;
l’actualité, comme le contexte règlementaire ;
le comportement et les habitudes d’achat des consommateurs ;
une nouvelle tendance.

L’ensemble des données internes et externes sont évolutives et non figées dans le temps et l’espace. Les prévisions des ventes doivent alors évoluer en fonction de chaque changement ou selon une période déterminée (au mois, au trimestre ou à l’année). Ceci explique notamment pourquoi certaines données assimilées à du « bruit » à une période donnée peuvent être intéressantes à intégrer au modèle dans un contexte différent.

Enfin, certaines variables spécifiques et temporaires, mais fortement impactantes, comme la crise sanitaire liée au Covid-19, peuvent être intégrées au modèle prédictif grâce au système de classifications binaires permettant d’indiquer à l’algorithme le caractère exceptionnel de la situation et non une normalité.

Quelles sont les données nécessaires à la prévision des ventes ?-2

L’historique de données pour une précision des prévisions des ventes

Les progrès en matière d’intelligence artificielle ont permis d’améliorer la précision des résultats des prévisions, notamment grâce au machine learning, reproduisant l’incroyable faculté propre aux espèces vivantes d’apprendre. Désormais, les algorithmes sont eux aussi en mesure d’apprendre au fur et à mesure de leur expérience.

Si les actions et les comportements de l’Homme sont le fruit de l’apprentissage de la vie au travers d’expériences passées, déterminant sa personnalité et influençant sa vie quotidienne, il en va de même pour l’intelligence artificielle. En effet, le machine learning ne se base pas simplement sur l’analyse des données à une période définie. Pour que ses prévisions soient les plus fiables et précises possibles, le calcul doit intégrer les expériences passées, appelées les données historiques, pour en saisir la tendance moyenne.

Comme nous l’évoquions, la pertinence et la fiabilité des variables internes et externes intégrées au modèle sont donc des facteurs déterminants pour l’entrainement du calcul mathématique. Car comment espérer obtenir des prévisions exactes et exemptes de tous biais algorithmiques (réalité déformée, discrimination, manque de neutralité, etc.) si l’apprentissage se fait à partir de données déjà biaisées ou erronées ? Et c’est tout là un des enjeux auxquels doit répondre l’intelligence de la donnée. Selon un sondage Gartner, 70 % des entreprises affirment que la mauvaise qualité des données traitées impacte négativement leur activité.

Néanmoins, le machine learning permet de réduire le risque que les erreurs de données (ou des actions passées) impactent la prédiction. Pour cela, l’apprentissage se fait à l’aide de milliers de récurrences afin de réduire l’écart entre la prévision et les données réelles (écart appelé pénalité). C’est seulement lorsque les pénalités sont réduites au maximum que le modèle est considéré comme optimal et exploitable.

À cette fin de qualité des prévisions, l’historique de données doit être suffisant et remonter sur une période acceptable (2 ans minimum) pour être en mesure d’intégrer un maximum de facteurs, comme c’est le cas des nombreuses fluctuations d’origine interne ou externe à l’entreprise (saisonnalité, promotion, contexte, etc.).

Enfin, rappelons que tout changement brusque peut rendre l’historique de données inutile si l’on ne donne pas à l’intelligence artificielle les connaissances nécessaires pour comprendre un contexte particulier, d’où l’intérêt des classifications binaires. La crise sanitaire liée au Covid-19 en est, une fois de plus, un bon exemple, car elle a radicalement changé les habitudes de consommation, comme l’augmentation des commandes en ligne aux dépens du chiffre d’affaires des magasins physiques ou encore l’utilisation plus fréquente du drive.

Nous vous recommandons ces autres pages :