Dans un article précédent, je partageais avec vous un retour d’expérience sur les méthodes et outils que nous utilisons aujourd’hui pour nos missions de data consulting. Nous y avons principalement adressé les étapes amont de la chaîne de la valeur de la donnée : collecter, traiter / enrichir, exploiter la donnée. Dans cet article nous adresserons la dernière étape en aval de cette chaîne : la visualisation des données.

Et la réponse est… 42 – datavisualiser pour mieux agir

Visualiser pour convaincre

Imaginez que l’humanité dispose d’un super-ordinateur qui, sur la base de toutes les données disponibles sur notre monde, soit en mesure de calculer la réponse à l’ultime question de l’humanité : quel est le sens de la vie ?  Imaginez maintenant que la réponse à cette question soit le nombre 42 ; c’est tout à coup la déconfiture…. Que veut dire ce nombre et quel est son lien avec la question d’origine ? Parfois les problématiques que vous traitez avec les données dont vous disposez sont particulièrement complexes ou compliquées, or si les résultats de vos analyses ne sont pas clairement compris et partagés par les personnes en mesure de convertir ces enseignements en actions, tout ce travail n’est d’aucune utilité. Cette étape de partage des résultats d’une analyse de données s’appelle la datavisualisation et elle se positionne en aval de la chaine de valeur de la donnée :

Chaine de valeur de la donnée

42 est très certainement une réponse absolument édifiante, n’empêche qu’aucun humain ne la comprend. Le but d’un travail de traitement des données étant rarement de faire converser en bocal deux super-ordinateurs ou deux super-experts, Douglas Adams aurait peut-être dû doter sa machine des outils nécessaires à la réalisation de cette étape cruciale qu’est la visualisation.

Blague à part, commençons par nous éloigner du sujet

La datavisualisation n’est pas une « science » spécifiquement moderne, mais il faut dire que le développement et la démocratisation des procédés d’apprentissage automatique donnent un goût particulièrement réel à l’expérience de pensée du Guide du voyageur galactique : les méthodes de random forest ou autres réseaux neuronaux sont bel et bien des boîtes noires dont les rouages se fabriquent et s’assemblent librement pour produire, à partir de données d’entrée connues, des résultats de sortie fiables, le commun des mortels n’étant pas en mesure d’expliquer le processus qui mène de l’un à l’autre. Tout ça pour dire que produire une visualisation efficace – c’est-à-dire compréhensible et idéalement belle – ne suffit pas en soi : aujourd’hui plus qu’avant, lorsque vous préparez une datavisualisation il faut également vous préparer à la commenter et parfois à expliquer des concepts peut-être compliqués, sinon nouveaux pour vos interlocuteurs.

Quelques questions à se poser pour produire une dataviz

L’étape de création d’une visualisation des données est sans doute le moment ou l’intelligence humaine est la plus mobilisée dans la chaîne de valeur des données : il faut savoir faire preuve d’empathie pour son auditoire, trier le superflu, synthétiser à un niveau pertinent, raconter une histoire, etc. Pour ma part, voici quelques questions que je me pose lorsque je produis une dataviz :

  • Quel type de visualisation est le plus pertinent vis-à-vis de ce que je souhaite représenter ? (Histogramme, camembert, courbe, etc.)
  • Ma datavisualisation permet-elle de lire / mettre en valeur l’information que je souhaite faire passer ?
    • Cette question se pose particulièrement lorsque vous disposez de données en grandes quantités / sur des périmètres nombreux
  • Puis-je imaginer un nouveau type de visualisation pour représenter mes résultats ?
    • Avec les outils classiques comme excel, on se retrouve vite limité par les possibilités offertes par le logiciel (il est par exemple difficile de représenter des résultats avec plus de 2 ou 3 dimensions / axes d’analyse)
  • Ma datavisualisation aura-t-elle du sens pour mes interlocuteurs ?
    • Cela a notamment a voir avec les regroupement / découpages que vous choisirez de faire pour vos représenter vos données (ex : présenter des résultats de chiffre d’affaire par îlot de production n’aura pas forcément de sens pour les membres d’un COMEX)

Différents niveaux de datavisualisation

Dans son guide 2020 de la datavisualisation, Pierre-Nicolas Schwab propose 5 niveaux de maturité dans la visualisation des données, je me permets de les reprendre ici car je les trouve pertinents :

  • Niveau 0 – les données brutes : aucune datavisualisation, on se retrouve ici en quelque sorte dans la situation du super-ordinateur qui répond 42
  • Niveau 1 – visualisation agrégée sous Excel : on produit ici des graphiques simples, non customisés et statiques avec 2 à 3 dimensions maximum représentables.
  • Niveau 2 – des données de différentes natures sur un seul et même graphique
  • Niveau 3 – visualisation interactive des données : une image vaut mieux que mille mots, un exemple de dataviz interactive produite avec Google Data Studio (solution gratuite) – attention : les données représentées n’ont pas de sens
  • Niveau 4 – le data Art : ici on cherche à être efficace et à faire beau, voyez plutôt. De mon expérience personnelle en dataconsulting, je constate que la beauté des datavisualisation n’est d’ailleurs pas superflue du tout : une belle datavisualisation sera plus partagée et produira une première impression sur votre auditoire en votre faveur.

Pour convaincre votre auditoire et créer de la mobilisation autour de vos analyses, l’idéal est de produire des datavisualisations de niveau 4. Même si produire du « Data Art » n’est toujours pas accessible à tous aujourd’hui (connaissances en programmation, coût des solutions type Tableau/Qlik/PBI, etc.), des solutions gratuites et libres d’accès (Google Data Studio, Dataiku, etc.) permettent d’atteindre des niveaux de réalisation (2~3) qui dépassent déjà largement ce dont on a l’habitude avec Excel.