Quel rapport entre des données, des violons et la moyenne ?

Imaginez un directeur des ventes, un transporteur, un prof… Nombre sont les professionnels que nous rencontrons dans l’exercice de notre métier qui s’appuient sur des statistiques pour prendre leurs décisions. Par exemple les ventes ou le nombre de colis par jour de la semaine ou par mois, les résultats des élèves. Pourtant presque aucun jusqu’ici n’a demandé à voir une distribution. Tout au plus une moyenne, ou quelques statistiques descriptives supplémentaires (min/max, quartiles pour les plus téméraires). Et si on s’intéressait à la distribution des données pour vraiment voir ce qui se passe ?

Faire parler ses données : violons pour la mort de la moyenne.

La médiocre moyenne

Vous avez peut-être entendu cette phrase : « le Français moyen n’existe pas », « la classe moyenne n’existe pas » ou une variante.

Les raisons données sont du type :

  • les données sont trop diffuses,
  • aucun ménage n’est dans la moyenne dans toutes les catégories,
  • etc.

Il y a 39 % de Français qui vivent en zone rurale, et 38M de voitures particulières en circulation en France. Pourtant vous n’êtes pas 61 % citadin et 39 % campagnard, et vous ne possédez pas 0.475 voitures. Vous êtes citadin ou campagnard à 100% selon votre lieu de résidence, et vous avez 0, 1, 2, 3,… voitures.

Si on cherche à croiser ces données, on obtient des infos intéressantes. Combien les citadins ont de voitures ? Et les campagnards ? Comment l’expliquer ? Je ne vais pas y répondre, mais je souhaite montrer que des questions surgissent quand on ne se contente pas de regarder ses moyennes.

Qu’est-ce qui vous fait donc penser que vous allez vendre exactement 475 boîtes de conserve dans un magasin tous les lundis ? Ou que vous allez livrer exactement 37 colis ? Ou que vos élèves ont tous 10,7/20 ?

Quand on calcule une statistique sur N données, on perd N-1 informations. Pire, quand on croise N données avec N autres, et qu’on synthétise le tout en une combinaison de moyennes, on en perd N²-2. Et ainsi de suite. Je vous laisse faire le calcul avec un tableur de 1000 lignes.

Nos sens et notre cerveau sont capables d’en capter et d’en analyser bien plus en temps réel. C’est nécessaire ne serait-ce que pour lancer correctement un ballon vers quelqu’un. Faire son métier est-il moins important que lancer un ballon ?

Comment y voir plus clair sans se noyer ?

Ajouter d’autres statistiques descriptives

Si vous enrichissez vos analyses avec des statistiques supplémentaires, vous aurez peut-être un meilleur aperçu de vos données. Plusieurs peuvent être utiles :

  • L’écart-type. Il évalue l’étalement des données. Je conseille de systématiquement le comparer à la moyenne avec un ratio. Un écart-type qui représente 30 % de la valeur moyenne indique que les données sont plus resserrées autour de la moyenne qu’un écart-type qui représente 80 % de la moyenne.
  • La médiane. Elle a l’avantage d’exister vraiment parmi vos données, et de les couper en 2 catégories de même taille. C’est à comparer également avec la moyenne pour identifier des biais.
  • Les quartiles, déciles, voire centiles. Comme la médiane, ils découpent vos données en parts égales (respectivement quarts, dixièmes, centièmes).
  • L’écart inter-quartile, entre le top 25 % et le bottom 25 % des données mesure également l’étalement des données.
  • Minimum et maximum.

Visualiser autrement ses données

En plus d’un tableau récapitulatif de ces différentes statistiques descriptives, vous pouvez visualiser vos données. Je ne vais pas faire une liste exhaustive. Je me concentre sur les statistiques les plus communes, et sur celles que je souhaite pouvoir estimer plus facilement sur les outils modernes.

  • Le nuage de points permet de voir comment sont placés ses points les uns par rapport aux autres
  • L’histogramme. Il permet déjà d’approcher une répartition des données. Il faut penser à bien définir et affiner ses classes.
  • Les boîtes à moustache sont plus riches, surtout si on les affiche par classe.
  • Les graphiques « ridgeline » qui représentent la distribution. C’est de la bombe, mais bien sûr Excel ne sait pas faire facilement. Cela permet de voir rapidement les anomalies, analyser la répartition des données plus finement qu’avec un histogramme, voire les extrêmes, l’étalement.
  • Une combinaison de ces visualisations : les violons (violin plot). Il affiche des ridgelines avec combinés aux boîtes à moustache OU à des nuages de points. C’est pour moi la Rolls Royce pour représenter ses données et mieux les comprendre en un coup d’oeil.

violons 2022

Comment faire ces fameux violons ?

Ce n’est pas simple, car beaucoup d’outils de visualisation et de BI n’en sont pas capables par défaut : Excel, Power BI, Tableau, Google Datastudio… Oui, ils font une moyenne avec vos données mais pas de violons !

On peut en faire sur R avec la librairie ggplot2 ou Python avec la librairie plotly, mais encore faut-il savoir s’en servir. Plotly permet notamment d’explorer les données et de les comparer avec des détails en déplaçant sa souris.

Détails des violons

On voit que les mercredis sont relativement tassés et stables, mais que les quantités affichées peuvent aller du simple au quintuple. On constate aussi que les quantités du mardi et du jeudi sont très étalées sur les hautes valeurs. Il faut donc s’attendre à des pics mardi et jeudi qui vont peut-être demander des ressources supplémentaires.
Quand on connaît la vision en 3D des violons, pourquoi seulement se contenter d’une vision à 1D comme ce tableau de moyennes ? :

Moyenne par jour

Quantité moyenne par jour

On ne verrait pas arriver les pics du mardi, et on ne se douterait pas que le mercredi est plus prévisible.

On peut enfin superposer et comparer des infos, en distinguant les années par exemple. Ainsi, on peut constater l’évolution, chercher à l’expliquer si c’est utile.

Violons superposés

 

Ça n’est pas encore à la portée de tous les outils. Quelqu’un a aussi créé une visualisation personnalisée pour Google Datastudio, qu’on peut dupliquer et réutiliser avec ses propres données.

Conclusion

Quoiqu’il en soit, soit on se donne les moyens de comprendre ce qu’on a entre les mains (compétence internes ou conseil), soit on reste dans sa planque jusqu’à ce que tout le monde nous dépasse. Plus nous serons nombreux à être curieux, mieux nous pourrons prendre des décisions. Et plus nous serons nombreux à exiger des fonctionnalités, plus les éditeurs seront motivés à les intégrer pour nous faciliter la tâche. Je vais donc faire de mon mieux pour utiliser plus souvent les violons pour expliquer leurs données à mes clients, plutôt que seulement une moyenne comme ils me le demandent souvent.

Pour bien préparer ses données en anticipation, lisez l’article de Loïc Leprat !