Dans le cadre de nos missions, nous découvrons régulièrement chez nos clients des cas d’usage de la donnée à forte valeur ajoutée. J’ai souhaité partager le cas de la société F, où nous avons découvert un enjeu de plusieurs millions d’euros dans ses données. Il pourra vous donner des idées d’amélioration pour votre organisation.

Cas d’usage data : Mon prévisionnel de ventes est-il performant ?

Enseignements

Je retiens quelques enseignements de cette mission :

  • Vous êtes probablement assis sur une mine d’or, comme la société F : les données étaient toutes en interne ou accessibles. Elles cachaient un potentiel de plusieurs centaines de k€ de marge. Le plus difficile est d’avoir l’idée des usages qu’on peut en faire. Appelez-nous et nous saurons vous conseiller.
  • L’importance de définir clairement les objectifs. Ici, les équipes doivent-elles se focaliser sur la marge ou le CA ?
  • Il est facile d’entraîner un modèle. C’est la manipulation, le nettoyage et l’enrichissement des données qui prend le plus de temps.
  • Faire du quick and dirty permet déjà d’identifier des enjeux forts. Nous n’avons pas comparé 50 algorithmes et fait du paramétrage fin, nous avons choisi un algorithme généralement puissant et travaillé avec un budget réduit pour obtenir une base de comparaison.
  • Les machines ne font pas tout. Les ajustements manuels faits par les équipes qui ont la connaissance du terrain permettaient de faire + 4 000 k€ de CA par rapport aux recommandations de Smart Prediction.

Mais au fait, de quoi s’agit-il ? Mise en contexte…

La société F nous a missionnés pour un audit. Elle a deux canaux de ventes principaux pour ses 80 produits (SKU), regroupés en 7 grandes familles. Les grandes plateformes logistiques représentent la plus grosse partie du volume.

F distribue aussi directement ses produits dans plus de 2 000 points de ventes de type supérettes, 3 fois par semaine. Les quantités livrées dans chaque point de vente vont de 0 à une dizaine d’unité.

Ici, c’est F qui détermine la quantité à livrer, et les invendus sont à la charge de la société. Sur environ 24M€ de chiffre d’affaires sur la vente directe, les invendus représentent une charge de plus de 6M€.

Livraison directe

Pour connaître la quantité à livrer dans chaque point de vente et à chaque tournée à J-5, F a développé en interne un algorithme de calcul. Je l’ai renommé Smart Prediction. Il est relativement simple mais il prend en compte l’historique des ventes. L’algorithme est paramétré avec des quantités minimales à livrer, un nombre de SKUs par famille et une cible de taux d’invendus. Il peut aussi prendre en compte la stratégie marketing et autres ajustements manuels. Ainsi, on peut pousser un produit, ou ajuster les quantités en fonction des périodes de congés ou d’incidents dans la chaîne de production.

smart prediction

 

Peut-on faire mieux ?

Les invendus sont inévitables sur des produits périssables que l’on pousse, mais dans quelle proportion ? La première question à se poser est notre critère de décision. Cherche-t-on à maximiser le chiffre d’affaires ou la marge (différence entre chiffre d’affaires et coûts de production) ? Nous avons découvert que l’objectif n’était pas défini clairement pour les équipes.

Nous nous sommes accordés sur le besoin de juger la performance de Smart Prediction par rapport au potentiel de maximisation de la marge.

Méthode

L’objectif initial de la mission n’était pas de trouver un outil permettant de calculer les quantités optimales à livrer. Nous avons quand même souhaité y consacrer une petite partie du budget pour nous faire un avis à ce sujet.

Notre travail a répondu à une question. Si nous produisions un modèle en quelques jours, quelle serait sa performance par rapport à Smart Prediction ? La logique ici est de dire que si nous arrivons à de bons résultats rapidement, nous aurons identifié un point d’amélioration. Cette amélioration porte potentiellement un enjeu de plusieurs millions d’euros.

Les données disponibles étaient les quantités livrées à chaque point de vente, et les retours, par SKU. Ces données représentent plusieurs millions de lignes. Nous les avons enrichies avec des informations sur les dates de vacances scolaires et sur les prévisions météo disponibles à J-5 suite à nos entretiens avec les responsables marketing et le commerce : ils estiment que ces facteurs sont cruciaux, et nous avons estimé qu’ils étaient suffisamment simple à récupérer dans notre démarche.

Principe de fonctionnement du modèle en test

Nous avons entraîné un modèle simple d’accès (de type XGBoost pour les curieux) en cherchant à prédire les ventes à J+5 sur chaque point de vente, et pour chaque famille de produit dans un premier temps.

Limites

N’ayant à disposition que les données réelles, nous n’avions pas d’information complète sur la demande. En effet, s’il y a des invendus, nous connaissons le niveau de la demande. S’il n’y a pas d’invendus, nous perdons de l’information car on ne connaît pas la quantité réellement demandée. Nous nous sommes donc concentrés sur la limitation des invendus et l’impact sur la marge sans faire d’autres hypothèses sur la demande.

Avec ces hypothèses, le CA simulé sera forcément inférieur au CA réel. Nous n’avons pas simulé une augmentation des ventes en cas de rupture de stock. Nous nous sommes contentés d’optimiser les livraisons pour réduire les invendus, ce qui peut entraîner plus de ruptures de stock.

Résultats

Sur le périmètre que nous nous sommes fixés, le modèle entraîné en quelques minutes a produit les résultats financiers suivants :

  1. Coûts des retours divisés par 2, soit – 2 700 k€
  2. Marge améliorée de 42%, soit + 1 800 k€
  3. CA réduit de 13%, soit – 3 100 k€

Pour aller plus loin, nous pourrions enrichir le modèle d’informations connues par les commerciaux et de récupérer plus de données pertinentes. Nous pourrions aussi chercher à évaluer la demande réelle pour les familles de produits pour identifier les potentiels de ventes supplémentaires.

En ce qui concerne les variables importantes, la surprise était au niveau des familles de produits. La première famille de produit apparaît en 19e place des variables importantes. La plus grosse partie de la connaissance, parmi les données utilisées, est contenue dans l’historique des ventes, les vacances (top 5) et la météo (top 9). 8 des 10 variables les plus importantes étaient dans l’historique de données, déjà à disposition de l’outil Smart Prediction de la société F. Avec un modèle relativement simple, nous avons pu identifier un potentiel d’amélioration avec un enjeu à plusieurs millions d’euros.

Pour plus de détail sur le sens des valeurs de SHAP ci-dessous, je vous invite à lire l’article de Loïc sur l’usage de la data pour étudier la voix du client.

shap values