Dans un article précédent, nous décrivions les premières étapes d’une méthode permettant d’identifier les critères réellement importants pour vos clients, ce dans un objectif d’amélioration d’un service / produit existant. A ce stade :
- Votre sondage de la satisfaction a été conçu, déployé et un nombre suffisant de réponses vous a permis d’initier vos analyses
- Avec comme données d’entrée la satisfaction sur les sous-critères de satisfaction et comme donnée de sortie la satisfaction globale de chaque client, vous avez identifié et construit le modèle le plus pertinent pour prédire la satisfaction de vos clients
L’objet de cet article est d’aller au bout de la méthode, à savoir :
- quantifier l’importance des critères de satisfaction pour vos clients
- déduire une méthode pour identifier les meilleurs “zones d’action » pour améliorer votre service / produit
GO !
Etudier la voix du client n’a jamais été aussi simple 2/2
Pour illustrer la méthode, nous continuerons dans cet article à nous baser sur les données du sondage produit par l’ARCEP relatif à la satisfaction des PME / ETI sur leur service de fourniture d’un accès internet.
Etape 3 : quantifier l’importance des critères de satisfaction
A ce stade, le modèle prédictif le plus performant pour l’estimation de la satisfaction globale des clients à partir des sous-critères de satisfaction a été identifié.
En l’occurrence, pour les données de l’ARCEP, la méthode de Lasso était la plus performante pour parvenir à l’élaboration d’un modèle prédictif minimisant l’Explained Variance Score (60%). Avec la plateforme de Datascience Dataiku, la conception, le paramétrage, le test et le déploiement d’une multiplicité de modèles se fait en quelques minutes.
A partir du modèle retenu, il s’agit donc maintenant de quantifier l’importance des critères appelés par le modèle pour effectuer la prédiction. En première approche, plusieurs méthodes existent pour quantifier cette importance (la taille des rouages de chaque critère dans le schéma ci-dessous) :
- Pour un modèle type “régression linéaire” proposant une relation type y= ax1 + bx2+…, les coefficients devant les xi (a, b…) sont des quantificateurs de cette importance. Dans notre article “vos clients ne savent pas ce qu’ils veulent”, nous avions d’ailleurs utilisé ce quantificateur
- Pour un modèle type “arbre de décision” (Random Forest, Extra trees, Decision trees…), il existe un estimateur nommé “l’importance” et dont on dira ici qu’il correspond – en première approche – au nombre d’occurrences d’une variable donnée dans les arbres de décisions. Dès lors, une variable est “importante” lorsqu’elle est utilisée de manière répétée par les arbres du modèle pour construire des chemins de branches.
Seulement voilà, idéalement on préfèrerait utiliser un quantificateur :
- indépendant du modèle utilisé : les modèles que vous construirez ne seront pas systématiquement des équations de régression ou des arbres de décision. Autrement dit, si vous êtes amenés à réitérer vos analyses (enquêtes faites tous les 6 mois / 1 an), le quantificateur d’importance pourrait être amené à changer si le modèle change. Cela entraînerait alors une rupture dans la logique de vos analyses
- déclinable à un niveau fin : l’indicateur de satisfaction sur un critère est une variable que l’on peut manipuler à loisir (moyenne / somme de la satisfaction par catégories de populations, de causes d’insatisfaction, etc.). Ne serait-il pas idéal de pouvoir faire de même avec le quantificateur de l’importance ?
- Non biaisé par la nature des critères du modèle : ce problème se retrouve particulièrement dans les modèles de régression. Dans ces modèles, la valeur des coefficients est assimilable à un niveau d’importance uniquement dans les cas où chaque variable possède le même domaine de définition
Il existe un quantificateur qui répond à ces critères : les valeurs de Shapley. Ces objets mathématiques sont issus de la théorie des jeux. Pour chaque prédiction effectuée par le modèle, les valeurs de Shapley évaluent la contribution marginale (contribution à la variation de la prédiction par rapport à la prédiction moyenne) de chaque variable. Le principe de contribution marginale est illustré dans le schéma ci-dessous pour une prédiction donnée :
Les valeurs de Shapley sont :
- Déterministes : les valeurs de Shapley pour une valeur prédite seront systématiquement les mêmes si le modèle utilisé et les variables d’entrée sont les mêmes
- Mathématiquement “sommables” (en valeur absolue y compris) et donc moyennables pour une variable donnée
- Indépendantes du modèle prédictif choisi : la méthode de calcul des valeurs de Shapley s’applique de la même manière, peu importe le modèle prédictif
Avec les valeurs de Shapley, il est donc possible de quantifier l’importance d’une variable donnée en moyennant l’ensemble de ses valeurs de shapley en valeur absolue. Une explication détaillée du concept de valeurs de Shapley est disponible ici
L’application des valeurs de shapley à nos données de l’ARCEP donne les résultats suivants :
Abscisse : critères de satisfaction | Ordonnée : Moyenne des valeurs absolues des valeurs de Shapley
Chaque colonne ci-dessus peut s’interpréter de la manière suivante :
- En moyenne, l’absence de coupure a tendance à faire dévier (en + ou en -) de 0.35 points la satisfaction globale prédite par rapport à la satisfaction globale moyenne prédite.
- En moyenne, le prix a tendance à faire dévier (en + ou en -) de 0.15 points la satisfaction globale prédite par rapport à la satisfaction globale moyenne prédite.
- …
Des outils gratuits et libres d’accès comme Dataiku et KNIME permettent de calculer les valeurs de Shapley pour vos analyses en deux clics.
Etape 4 : approfondir les analyses pour établir un plan d’action
Aller un cran plus loin
Les importances calculées ci-dessus apportent un premier niveau d’information intéressant mais certainement insuffisant pour en déduire des actions concrètes. Insuffisant pour plusieurs raisons, commençons par traiter la première d’entre elles.
Les variables les plus “importantes” sont-elles vraiment celles qui contribuent le plus à faire baisser la satisfaction ?
Et bien pas nécessairement… Vérifions donc cela en commençant par distinguer les cas de figures où les variables contribuent à faire baisser la satisfaction globale de ceux où elles contribuent à la faire augmenter :
Abscisse : critères de satisfaction | Ordonnée : Moyenne des valeurs de Shapley positives et négatives
Avec les données de l’ARCEP, il s’avère que les variables importantes sont également celles qui tendent le plus à faire baisser la satisfaction. Pour vos analyses, gardez en tête que ce résultat est une contingence.
Une autre manière de visualiser ces résultats est de tracer le “Kano” de chaque variable (un exemple ci-dessous avec deux critères de l’ARCEP) :
Abscisse : Niveau de satisfaction sur le critère | Ordonnée : Moyenne des valeurs absolues des valeurs de Shapley
“Kano” entre guillemets car on visualise bien dans ce diagramme l’impact de chaque critère sur la satisfaction globale selon son niveau de satisfaction. En considérant (cela est hautement débattable)… :
- 0= fonction absente
- 10 = fonction présente et mature
… On a reconstruit ici le diagramme de Kano des critères de satisfaction d’un service de fourniture internet.
Aller encore un cran plus loin
Les analyses avancent… Mais va-t-on assez loin ? Certes nous avons reconstruit ici la contribution moyenne de chaque critère à la baisse de la satisfaction globale. Mais l’utilisation de la moyenne ne nous donne pas d’information sur les “volumes d’insatisfaction”. On sait par exemple que lorsque le critère “absence de coupure” est à un niveau “0” (totalement insatisfait), il contribue en moyenne à faire baisser de 1.5 la satisfaction de l’utilisateur par rapport à la moyenne de la satisfaction des utilisateurs. Mais combien de clients sont dans ce cas (à un niveau “0”) ?
Pour répondre à cette question, n’utilisons plus la moyenne des valeurs de Shapley, mais leur somme.
Abscisse : critères de satisfaction | Ordonnée : Somme des valeurs de Shapley positives et négatives
Cette représentation croise deux informations relatives aux critères :
- Leur importance intrinsèque pour les utilisateurs
- Le niveau de satisfaction réel des clients sur le critère
Cela résulte en un indicateur que l’on pourrait qualifier de “quantité de satisfaction / insatisfaction” produite par chaque critère. On voit d’ailleurs que l’ordonnancement des critères de fourniture internet par niveau d’importance a sensiblement changé avec cette vision complète (le conseil en cas de besoin générant plus d’insatisfaction au global que la rapidité de mise à disposition d’un accès internet).
On peut d’ailleurs tracer la Pareto des causes d’insatisfaction* :
Abscisse : critères de satisfaction | Ordonnée : Somme des valeurs de Shapley négatives (par critère et en cumul)
* Rappel : ce que l’on nomme “insatisfaction” ici correspond à la somme des contributions marginales négatives de chaque critère par rapport à la satisfaction globale moyenne prédite.
Aller un triple cran plus loin
A ce niveau-là, on dispose d’un niveau d’information relativement satisfaisant pour initier un travail d’analyse Métier approfondi à partir d’axes de travail priorisés. Ces axes de travail sont les suivants :
- Diminuer les coupures internet (29% de l’insatisfaction)
- Améliorer le SAV (24%)
- Favoriser l’apport de conseil en cas de besoin (13%)
- Accélérer la mise à disposition de l’accès internet (12%)
- Diminuer les prix (12%)
- Améliorer le débit descendant (7%)
- …
Mais ne peut-on pas aider encore un peu les Métiers dans leurs analyses ? Les valeurs Shapley étant “sommables” pour un même critère, on pourrait par exemple pousser l’analyse un cran plus loin en proposant une analyse affinée par “regroupement de l’insatisfaction” selon le type de clients, la localisation des clients, etc.
Si on se fixe une telle ambition, il faut s’intéresser un peu au Métier. Je vais m’y risquer pour l’exemple en estimant que la qualité de l’accès internet est dépendante de l’organisation des opérateurs en place localement, de la qualité des équipements sur place, etc.
Je propose donc pour la démonstration de regrouper les quantités d’insatisfaction (valeurs de shapley négatives sommées) par critère et par région :
Abscisse : Régions / critères de satisfaction | Ordonnée : Somme des valeurs de Shapley négatives
A ce stade, on devra faire attention à des biais potentiellement induits par une proportion de personnes interrogées non représentative du volume de client réel par région.
Par ailleurs et idéalement, on préférera construire un modèle prédictif dédié à chaque région
On peut alors déduire des axes d’amélioration priorisés par région.
Si l’on dispose d’autres informations issues du sondage, on peut également imaginer d’autres formes de catégorisation pour approfondir l’analyse (par typologies de clients, fournisseurs internet, etc.). Pour cela, il faut penser à collecter cette information dans le sondage ! (cf. Etape 1 de la méthode)
Nous accompagnons régulièrement nos clients dans la mise en pratique et l’industrialisation de solutions Data pour leurs problématiques Métier, consultez notre offre Data for Strategy !
Article co-écrit avec Amr Arbani.