« Si nous avions dû écouter ce que demandaient les gens, nous aurions fait des portables plus petits avec des batteries qui tiennent plus longtemps » ; à ce qu’il paraît, Steve Jobs aurait dit quelque chose du genre fin des années 2000, soit quelques temps après la sortie du premier iPhone. Quoi qu’il en soit, cet aphorisme donne à réfléchir : pour satisfaire nos clients, faut-il les écouter ? Pire, faut-il les croire ? Je vais m’efforcer de donner des éléments de réponse à ces questions, données et calculs à l’appui.
Vos clients ne savent pas ce qu’ils veulent (démonstration)
La voix du client
Lorsque l’on gère un service, que l’on développe un produit et qu’on cherche à l’améliorer, le Lean 6 sigma nous apprend qu’il faut agir selon ce que nous dit la voix du client. Pour cela il faut l’écouter et rationnaliser ses demandes, c’est-à-dire traduire quantitativement ses besoins (grandeurs physiques, décompte, etc.). Seulement, il n’est pas possible de tout mesurer, de tout contrôler, et après tout – le client étant roi – le seul réel indicateur qui finisse par valoir vraiment tend à être sa satisfaction. Personnellement cela me fait un peu peur car la satisfaction ne se mesure ni avec un thermomètre, ni un voltmètre, ni un sonomètre… mais par sondage. Il s’agit-là d’un instrument de mesure comme un autre à ceci près que pour pallier l’absence d’un référentiel commun de « contentement » entre les répondants, on compte sur la quantité de réponses (et quelques méthodes statistiques) pour produire de l’objectivité. C’est ainsi que, au risque de paraître cynique, la voix d’un client ne vaut en réalité pas grand-chose ; la voix du client (c’est-à-dire la somme des clients) en revanche… Mon but dans cet article est d’établir à quel point LE client est apte à juger par lui-même de ce qui est important pour lui dans un service / produit.
Tout au long de l’article, je vous propose de découvrir les éléments méthodologiques sur lesquels se base ce que j’avance. La lecture de ces éléments n’est pas nécessaire pour comprendre les key findings, je demeure néanmoins preneur de vos contributions pour cette méthode !
Pour répondre à la question posée en introduction, la méthode proposée est la suivante :
- Trouver des sondages où l’on demande aux répondants de s’exprimer sur :
- Leur satisfaction globale vis-à-vis d’un service (ex : un logiciel)
- Leur satisfaction vis-à-vis de sous-critères composant ce service (ex : l’ergonomie, les temps de réponse… du logiciel)
- L’importance qu’ils accordent à chacun des sous-critères sur lesquels ils ont donné leur satisfaction (ex : le plus important dans le logiciel c’est l’ergonomie)
- Etablir l’importance que la voix du client accorde à chacun des sous-critères (par moyenne des réponses), et en déduire un modèle prédictif de la satisfaction globale dudit client à partir de sa satisfaction sur chaque sous-critère
- Etablir l’importance de chaque sous-critère par une autre méthode (analyse de covariance entre la satisfaction globale et la satisfaction sur chaque sous-critère) et en déduire un modèle prédictif de la satisfaction globale à partir de la satisfaction sur chaque sous-critère
- Comparer la performance de chaque modèle prédictif : le modèle faisant appel à l’importance déclarée par le client est-il le plus performant pour prédire la satisfaction globale ?
Le schéma ci-dessous résume la méthode :
A ISLEAN nous réalisons régulièrement des enquêtes de satisfaction pour nos clients, mais dans notre méthode, nous ne demandons pas aux répondants de s’exprimer sur l’importance des sous-critères de la satisfaction. J’ai donc dû chercher d’autres données, et j’en ai trouvé en open data :
- « Etude sur les équipements et usages des PME et ETI » par l’ARCEP où les répondants sont appelés à exprimer leur satisfaction sur la qualité de service des fournisseurs internet (entre autres). L’analyse de ce set de données sera le fil rouge de la démonstration.
- « 2018 Constituent Satisfaction Survey Results », une étude menée par le comté d’Arlington, Virginie, sur la satisfaction de ses citoyens par rapport aux services fournis par les autorités publiques.
- C’est tout. Si vous disposez de données répondant aux critères mentionnés dans le chapitre précédent, nous sommes preneurs pour compléter l’analyse !
Je ne vous ai pas compris !
Pour la démonstration, nous utiliserons en fil rouge, le sondage réalisé par l’ARCEP portant notamment sur la satisfaction des décideurs en PME / ETI sur le service de fourniture d’accès internet. Dans ce sondage, les sous-critères de satisfaction présents pour détailler la satisfaction globale vis-à-vis du service de fourniture d’accès internet sont les suivants :
- L’absence de coupures internet (X1)
- Le temps de réparation en cas de coupure (X2)
- Le prix (X3)
- Le SAV (X4)
- Le conseil avancé en cas de besoin (X5)
- Le débit ascendant (X6)
- Le débit descendant (X7)
- La rapidité de mise à disposition d’un accès internet (X8)
Dans les réponses au sondage de l’ARCEP, nous distinguerons donc – comme proposé dans la méthode – deux choses :
- L’importance des sous-critères du service de fourniture internet telle qu’exprimée par les répondants
- L’importance des sous-critères du service de fourniture internet reconstituée par régression linéaire multiple et matérialisée par les coefficients (poids dans l’équation) devant les variables de satisfaction sur chaque sous-critère (cf. équation du schéma « Méthode »)
Ce que disent les clients
Observons l’importance moyenne accordée par les répondants à chaque sous-critère de satisfaction ; pour chaque sous-critère, le répondant pouvait noter de 0 à 10 son estimation personnelle de l’importance dudit critère. On obtient les résultats suivants :
Ce cas est typique : lorsque l’on demande aux clients ce qui est important pour eux, la résultante est une forme de bruit blanc où chaque critère est important (6-8) ou très important (8-10). Le but d’un sondage étant d’identifier les actions les plus pertinentes à mener pour améliorer la satisfaction globale, ces résultats ne nous aident pas tellement…
Ce que nous dit la régression linéaire (analyse de covariance)
En testant plusieurs modèles pour prédire la satisfaction globale à partir de la satisfaction sur les sous-critères (régression linéaire, Random forest, etc.), j’obtiens le modèle le plus performant pour prédire la satisfaction globale. Il s’agit du suivant (régression linéaire multiple) :
Dans cette équation, chaque coefficient devant les Xi matérialise l’importance « reconstituée » de chaque Xi (= satisfaction sur un sous-critère). Pour comparer ces importances reconstituées avec les importances déclarées par les répondants, j’ai remis ces coefficients s’étendant de 0 à 0.2 sur une échelle identique à celle du sondage : un score de 0 à 10. La comparaison est intéressante :
Je constate principalement deux choses :
- La reconstitution de l’importance des critères par le calcul a permis d’éviter l’effet « bruit blanc » : elle fait apparaître des critères moyennement importants (4-6), peu importants (2-4) et non importants (0-2) pour le client.
- L’ordre des critères classés par niveau d’importance n’est plus le même (cf. tableau ci-dessous) ; ex : le critère de débit ascendant est passé de « très important » selon les répondants à « non important » selon le calcul. Cela s’interprète par le fait qu’en réalité, il y a une faible corrélation entre la satisfaction globale et la satisfaction sur le critère « débit ascendant ».
Concrètement, cette analyse peut se traduire comme suit :
- Tandis que les utilisateurs estiment que tous les critères sont importants pour eux, en réalité, leur tendance à être satisfait globalement du service ou non n’est pas ou peu impactée par (corrélée avec) certains critères (débit ascendant, le temps de réparation en cas de coupure, le débit descendant…)
- Ce que disent les clients quant à l’importance des critères du service ne reflète pas de manière optimale ce qu’ils expriment de manière indirecte (par analyse de la covariance entre la satisfaction globale et la satisfaction sur chaque sous-critère)
On observe le même phénomène dans les données de sondage du Comté d’Arlington, Virginie relatif à la satisfaction des citoyens sur les services proposés par l’autorité publique. On n’observe toutefois pas le bruit blanc dans l’importance déclarée des critères (cela peut s’expliquer par la manière dont était posée la question : les répondants ne devaient pas noter l’importance de chaque critère mais choisir leurs 4 critères les plus importants parmi 15) :
Mais après tout, entre l’importance calculée et l’importance déclarée, quelle est la plus pertinente ? En d’autres termes, – entre ce que le client nous dit, et ce que l’on trouve par le calcul – qui a raison ? Pour trouver une réponse à cette question, je propose d’analyser la performance des deux modèles en déterminant quel modèle est le plus apte à prédire la satisfaction globale de chaque client à partir de sa satisfaction sur les sous-critères.
SPOIL : L’exercice de comparaison de la performance des deux modèles nous montre qu’il est a priori plus pertinent de ne pas écouter son client et de reconstruire ce qui est important pour lui par le calcul. En agissant de la sorte, on maximise la probabilité de déduire sa satisfaction globale de sa satisfaction sur les sous-critères du service.
Si la preuve de ce que j’avance en SPOIL ne vous intéresse pas, je vous encourage à passer au chapitre « Au-delà du constat, à quoi sert cette analyse ? »
Reprenons les données du sondage de l’ARCEP. Après avoir proposé un modèle prédictif de la satisfaction globale par régression linéaire multiple (cf. modèle comparatif dans « Méthode »), je propose le modèle prédictif déclaratif (prédiction de la satisfaction globale où les coefficients dans l’équation correspondent aux poids d’importance donnés par la voix du client) suivant :
Modèle déclaratif* :
* coefficients obtenus par produit en croix des scores d’importance déclarés tels que :
où les I sont les importances (coefficients)
Modèle comparatif (régression linéaire) :
Comparaison de la performance des deux modèles :
Dans cet exercice, je propose de comparer la performance des deux modèles avec deux indicateurs :
- L’erreur moyenne produite par chaque modèle (Ē)
L’erreur moyenne Ē est calculée comme suit :
où SATglobale est la satisfaction réelle déclarée par le client sur le service de fourniture internet, SATglôbale est la prédiction de la satisfaction dudit client par le modèle, n est le nombre de réponses prédites
- La distribution des erreurs produites par chaque modèle
Chaque occurrence i dans la distribution des erreurs E est calculée comme suit :
Voici les résultats :
D’après l’erreur moyenne produite par les modèles, le modèle comparatif (obtenu par la régression linéaire) est bel et bien plus performant que le modèle déclaratif. La distribution de l’erreur nous montre que :
- Le modèle déclaratif a tendance à sous-estimer la satisfaction globale *
- Le modèle comparatif (calculé) a tendance à surestimer la satisfaction globale *
* Ces deux derniers points sont des contingences non spécifiques à la méthode
- Le modèle déclaratif prédit la bonne satisfaction globale à +/- 1 point dans 74% des cas, le modèle comparatif (calculé) dans 83% des cas.
Interprétation
En première approche, l’exercice de comparaison de la performance des deux modèles nous montre qu’il est a priori plus pertinent de ne pas écouter son client et de reconstruire ce qui est important pour lui par le calcul. En agissant de la sorte, on maximise la probabilité de déduire sa satisfaction globale de sa satisfaction sur les sous-critères du service.
Au-delà du constat, à quoi sert cette analyse ?
La première utilité d’une enquête de satisfaction est d’identifier les meilleures actions à mener pour améliorer la satisfaction des utilisateurs d’un service.
Une fois l’enquête menée, l’approche la plus répandue est d’analyser dans les réponses au sondage les sources d’insatisfaction des répondants, puis d’en déduire un plan d’action fin et priorisé pour remédier à cette insatisfaction.
Dans le schéma ci-contre, les sous-critères de la satisfaction liée à la fourniture d’un accès internet sont positionnés selon le niveau de satisfaction des répondants. Mais cette méthode de priorisation est-elle suffisante ? Pour ma part, je ne le crois pas car elle ne prend pas en compte 3 réalités :
- Lorsque l’on est amené à valider un plan d’action, on dispose souvent d’un couple budget/délai contraint : les moyens que l’on place à un endroit ne seront pas placés autre part. Autrement dit, cette méthode ne nous dit pas s’il est nécessaire d’investir sur le maintien à niveau (de satisfaction) de certains critères.
- D’autre part, étant toujours contraint par un budget, il pourrait être pertinent de cibler les actions qui compteront vraiment pour les clients, à savoir les actions portant sur les critères les plus importants pour eux
- On voit également que, dans le cadre du sondage de l’ARCEP, la satisfaction moyenne sur chaque sous-critère s’étend dans un intervalle réduit (notes allant de 6.4 à 7.2) : il paraît risqué d’entreprendre des actions – qui coûteront – sur la base d’une priorisation sur l’unique indicateur de satisfaction.
Je propose donc d’ajouter une dimension à la méthode de priorisation : celle de l’importance de chaque critère pour les clients. Appliquons d’abord cette dimension en considérant l’importance telle que déclarée par les répondants pour chaque sous-critère :
Cela ne nous aide pas beaucoup… D’une part on retrouve ici l’effet « bruit blanc » (tout est important) qui n’aide pas dans un exercice de priorisation, d’autre part, nous venons de voir que des critères a priori importants pour les répondants ne le sont pas en réalité.
Appliquons maintenant la dimension d’importance avec les importances calculées pour chaque sous-critère :
Cette fois-ci, les choses sont plus claires. On peut distinguer en première approche 4 catégories de critères :
- P1 : Les critères à améliorer en priorité: ceux qui sont importants pour les clients et où la satisfaction est la plus faible
- P2 : Les critères où la satisfaction doit être a minima maintenue: ceux qui sont importants pour les clients et où la satisfaction est déjà élevée
- P3 : Les critères à améliorer ultérieurement si le budget / les délais le permettent: ceux qui sont peu importants pour les clients et où les clients sont les moins satisfaits
- P4 : Les critères « marge de manœuvre »: ceux où les clients sont satisfaits mais qui s’avèrent peu importants pour eux
Avec cette méthode, on voit que la priorisation des critères dans notre plan d’action a nettement changé. De plus, cette priorisation prend maintenant en compte le besoin de maintien à niveau de certains critères :
Key Findings
- En phase de construction d’un sondage, il n’est a priori pas nécessaire de demander aux clients les critères de satisfaction qui sont importants pour eux, cela est reconstructible par le calcul et cette reconstruction s’avère plus fiable que ce que déclarent les clients eux-mêmes.
- Pour reconstruire l’importance de chaque critère de votre service pour vos clients, pensez à leur poser a minima deux types de questions :
- Leur satisfaction globale sur le service
- Leur satisfaction détaillée sur chaque sous-critère du service, voire sur les sous-sous-critères de votre service (cela facilitera la déclinaison en plan d’action)
- Si on laisse la liberté aux clients de s’exprimer sur l’importance des critères d’un service qu’ils consomment, la voix du client sera probablement un bruit blanc: tous les critères seront a minima importants voire très importants pour eux ; cette caractéristique ajoute à l’incapacité d’utiliser la voix du client pour prioriser les critères à améliorer dans un service.
- Pour décliner les résultats de votre sondage en plan d’action priorisé, privilégiez une approche « bidimensionnelle » prenant en compte à la fois le niveau de satisfaction des clients sur chaque critère et le niveau d’importance qu’ils accordent aux critères (par reconstitution) : cela vous permettra de mieux cibler les actions à mener, ce qui est d’autant plus utile lorsque le plan d’amélioration est contraint (en budget ou en délais).
Les résultats obtenus et les « Key findings » mentionnés plus haut sont à comprendre à la lumière des réserves suivantes :
- L’analyse ne prend pas en compte les biais cognitifs potentiels et propres à l’attitude d’un humain qui répond à un sondage (impact de l’ordre des questions, impact de la formulation des questions, etc.)
- Les résultats de l’analyse sont présentés sur 1 seul cas : les résultats du sondage de l’ARCEP sur le service de fourniture d’accès internet. Je n’ai pas joint à cet article les résultats de l’analyse sur le sondage du Comté d’Arlington, où mis à part le bruit blanc dans l’importance des critères, les résultats sont similaires. Quoiqu’il en soit, ces résultats doivent être confirmés par une analyse croisée, avec plus de données. En disposez-vous ?
- L’analyse est contrainte par les questions posées au client dans le sondage. Il existe sans aucun doute des critères cruciaux pour le client sur lesquels celui-ci n’est pas interrogé.
- Cette analyse est particulièrement pertinente dans un contexte d’amélioration d’un service existant. Pour un service / produit à développer ou dans une démarche d’innovation, on pourra par exemple préférer une méthode du type Analyse de Kano.
- L’analyse a été menée sur l’ensemble des répondants sans distinction de population. Une analyse plus fine pourrait être menée en catégorisant les répondants (ex : types d’entreprise, taille d’entreprise, usages numériques des répondants, etc.)
- En terme de posture, il peut être difficile de justifier auprès d’un client que l’on a déterminé ce qui est important pour lui sans qu’il se soit exprimé dessus explicitement (en reconstruisant l’importance des critères par analyse de covariance avec la satisfaction globale). Pire, il est difficile d’afficher le choix de déprioriser certains critères sous prétexte que ceux-ci soient de manière générale moins importants pour la majorité des clients.
Bonjour, moi même Master Black Belt je trouve votre article très intéressant. Bravo Loïc.
Quelques remarques: votre Ei = sat globale – sat globale prédite n’est autre que le résidu en stat. Vous auriez pu aussi comparer les R2 de vos deux modèles pour trouver le meilleur R2. Le R2 s’exprime aussi en fonction des résidus.
Une autre technique intéressante pour exploiter les résultats d’un sondage est l’analyse en composantes principales: on voit bien graphiquement (projection des questions et réponses dans le plan des deux premières composantes) les questions corrélées (faisceaux de questions) entre elles et avec la réponse sat globale.
La Sat globale est une réponse possible mais on peut aussi avoir par exemple la recommandation du service/produit auprès de son entourage qui est un Y intéressant pour les business qui fonctionnent avec le bouche à oreille.
Dernière question: dans votre modèle vous ne prenez en compte que les termes principaux Xi. Quid des interactions entre Xi?
Bonjour François, merci pour votre commentaire. Je suis d’accord avec vous sur l’utilisation du R2, on monte d’un niveau d’abstraction en l’utilisant mais il est plus consensuel lorsque l’on est initié à l’utilisation de ces outils. En l’occurrence, le calcul du R2 offre une perspective intéressante à l’analyse :
le modèle calculé a un R2 de 60% (faible | mais étant donnée la nature de la réponse analysée, cela ne me paraît pas si mal), le modèle obtenu par le déclaratif (qui n’est d’ailleurs pas loin d’être une simple moyenne des variables à cause de l’effet « bruit blanc ») a un R2 de 30% (très faible).
Il reste donc une partie importante de la variabilité qui n’est pas expliquée par les variables prises en compte dans le modèle calculé, d’autant que – pour répondre à votre dernière question – ce modèle ne prend pas en compte les effets d’interaction entre les Xi. Au-delà de l’amélioration de la performance du modèle, la prise en compte de ces interactions pourrait apporter un angle d’analyse en soit, par exemple, quid de l’effet d’interaction des couples prix / + autres variables ? Merci également pour l’idée d’utiliser la méthode d’analyse des composantes principales (d’autant plus pertinent dans un exercice de priorisation je pense !).
D’accord avec vous sur l’utilisation de sondages avec une réponse « niveau de recommandation à un proche », si vous disposez de données de ce type, je suis très preneur ! Quoiqu’il en soit, si je mets la main sur plus de données pour étayer cette première analyse, un article devrait suivre dans notre newsletter..!
Merci Loïc pour ce très intéressant article. Je travaille en ce moment sur ces questions majeures d’appréciation de la valeur. Je serai intéressé à approfondir ton expérience plus directement.
On pourrait aussi regarder cela en fonction de ce que sait produire l’offre. C’est ce que fait très bien l’approche parangonnée de la société Advantage concernant la satisfaction des services SI, tirant profit de sa large base client. On peut avoir un service très insatisfaisant, mais si cette insatisfaction se retrouve partout c’est que c’est très difficile et que cela n’est pas la peine de s’exciter. Par contre, si l’on a un insatisfaisant, là où les autres organisations produisent un très satisfaisant, on peut mobiliser peu d’énergie à grand gain.
L’approche de Kano est un peu similaire, différenciant ce qui est susceptible de produire rapidement une grande insatisfaction jusqu’à la perte d’un client (dans ton exemple un SAV médiocre ou une coupure longue de service), ce qui produit une satisfaction linéaire avec potentiellement des effets de seuil (par ex. le prix ou le temps d’établissement du service), et ce qui est différenciant, ce qui peut produire l’effet waouh mais qui par essence est peu connu du client (l’expression du génie de Steve Jobs) et qui aussi risque d’être éphémère la concurrence s’attachant à combler son nouveau handicap ou à faire croire qu’elle en est capable (je vous laisse trouver la société à laquelle penser).
Bonjour Dominique,
Très partant pour aller un cran plus loin ensemble, le plus compliqué en première approche étant – selon moi – de mettre la main sur des données exploitables (je ne connaissais d’ailleurs pas ce que faisait la société Advantage sur le sujet).
Sans l’approfondir dans l’article, j’ai pensé un moment à croiser la méthode utilisée dans l’article avec une analyse Kano, car en effet, et comme tu le dis : le modèle construit ici part de l’hypothèse que chaque variable contribue de manière linéaire à la satisfaction globale, ce qui est forcément (au moins un peu) faux. Traduit en « Kano » : on prend ici l’hypothèse que chaque variable génère une attente proportionnelle ; mais il y en en très certainement qui génèrent une attente non exprimée voire attractive ! Pour faire cette analyse, une première approche pourrait être de guetter la mise en ligne des résultats de cette enquête dès que l’ARCEP la réitèrera puis d’observer l’évolution du modèle sachant que le service aura lui-même évolué ; mais tout cela reste bien théorique pour le moment puisqu’il se posera toujours la question de savoir comment apprécier objectivement l’évolution de la qualité du service rendu (l’abscisse dans Kano) sur tous les critères…
Merci pour ton commentaire Dominique, je reste à ta disposition pour continuer à en discuter.
Bonjour Loci
Intéressant article. Il me faut un peu de temps pour refaire les calculs et pouvoir t’aider à aller plus loin. Quelques points à chaud:
Le constat n’est pas nouveau c’est meme pour cela qu’on a inventé la maieutique
Pour faire accoucher les priorités du clients de maniere indolore, j’ai utulisé des logiques AHP avec grand succès. Mais cela marche pour des échantillons de clients qu’on peut réunir dans une meme salle pas dans un sondage grand public.
Tu n’explique pas vraiment pourquoi tu as finalement choisi la régression linéaire au lieu des autres modèles que tu évoques. Tu as des points sur le sujet ? Parce que si le fait que l’estimateur soit bon me semble logique, en revanche le fait que ce soit le meilleur ne me semble pas vraiment démontré. mais ce n’est peut etre pas nécessaire d’avoir le meilleur estimateur.
Si tu es intéressé pour en discuter, a ta disposition
Bonjour Philippe, merci pour ton commentaire.
C’est vrai que cet article ne constitue pas une découverte en soi, les outils mathématiques qui y sont utilisés sont également relativement classiques, mais en cherchant en ligne je n’ai pas trouvé de cas d’application concret (basé sur des données) et chiffré !
Par ailleurs, je ne connaissais pas la logique AHP, merci pour la piste à creuser.
La régression linéaire est le modèle qui présentait la meilleure performance sur le résidu (idem sur le R2), comparé aux Random Forest, arbres de décision, XG Boost… Pour information j’ai utilisé l’outil Dataiku pour construire mes modèles.
Si je comprends bien ta question on peut même aller un peu plus loin dans la posture critique, à savoir : est-ce qu’un modèle, parce qu’il est le meilleur pour optimiser un estimateur donné de l’erreur sur la prédiction, est nécessairement celui qui reflète le mieux les niveaux d’importance réelle de chaque critère pour le client ? La réponse n’est peut-être pas si évidente… Dans cet article je réponds « oui » à cette question, en première approche, mais qu’en penses-tu ?