Chez ISLEAN, nous avons mis en place depuis longtemps la certification Green Belt Lean 6 Sigma (a minima) pour tous nos consultants. Il y a encore quelques années nous insistions plus sur le Lean que sur le 6 sigma, notamment car dans le secteur tertiaire, qui représente la majorité de nos missions, les outils du 6 sigma nous semblaient moins utiles. Mais la profusion de données et le big data ont changé la donne, et tout consultant doit connaître les outils de base de la statistique pour initier des travaux sur les données, notamment le nettoyage et l’exploration des données, avant d’espérer y faire de la modélisation ou de l’IA. Pour cela, les outils statistiques de base de la certification Green Belt permettent déjà de faire plein de choses intéressantes. Exemple sur un sujet d’actualité.
Green Belt Lean 6 sigma et #Girlspower – de l’importance de la maîtrise de concepts statistiques de base pour l’analyse de données
Girls Power in Covid-19 times!
Vous avez probablement tous vu, en début de confinement, cet article de Forbes « What Do Countries With The Best Coronavirus Responses Have In Common ? Women Leaders » disant en substance que les pays dirigés par des femmes avaient moins de cas de Covid-19 ou de décès dûs au Covid-19 que les autres.
Le sujet de la parité entre les femmes et les hommes mérite en lui-même de l’attention, suscite des réactions et ne progresse que par la pédagogie.
Cela démarre par un article de presse, qui s’appuie sur une étude et a été relayé sur les réseaux sociaux. La réaction de chacun peut être « Enfin, je suis d’accord, je retweete » ou au contraire « encore des âneries ». Les réseaux sociaux sont impitoyables sur le relais d’informations sans recul.
Comment prendre donc du recul sur ces analyses et annonces importantes ?

La photo de l’article de Forbes (#girlspower)
Etant depuis toujours convaincu que la diversité est un facteur important de performance des équipes, je me suis empressé de relayer ce post…

Pas facile de résister aux réseaux sociaux…
Après ce clic impulsif, l’équipe (que je forme sur le Lean 6 sigma) a eu la bienveillance de me rappeler que j’avais été victime des réseaux sociaux et qu’il fallait vérifier ce genre d’affirmation ! Me voilà de nouveau élève, en utilisant un bagage statistique basique et les outils d’analyse big data que nous dispensons à tous nos consultants.
Les premiers résultats qu’un consultant (Pierre) m’a communiqué m’ont amusé, et n’ayant pas malheureusement pu suivre nos propres modules de formation au big data j’ai dû, pour refaire ses analyses, apprendre sur le tas. Et ce faisant cela m’a permis de débusquer quelques erreurs faites par Pierre, comme quoi… ça sert l’expérience !
La récupération et le nettoyage des données
Primo : la source des données. Ici le choix de Pierre s’est porté sur le site www.worldometers.info
J’ai appris qu’il était très simple de récupérer des données sur une page web. Pour cela Google Sheets a une fonction qui s’appelle importhtml et qui permet d’aller scraper tout tableau (notamment) présent sur une page web et d’y récupérer les données. Très pratique donc, puisque les données Covid-19 évoluant au jour le jour cela permet de rapidement mettre à jour les analyses ultérieures faites sur ces données.

importhtml permet de scraper une page web pour récupérer des tableaux de données
Et là en explorant les analyses faites par le consultant, notamment les points aberrants je tombe sur les données concernant le Portugal qui me semblaient… bizarres justement. En remontant la pelote j’ai fini par trouver un problème (un bug de la fonction importhtml ?). En effet vous remarquerez que sur le site worldometers les données sont en représentation anglo-saxonne avec des virgules pour séparer les milliers (en France on utilise le caractère espace comme séparateur de milliers). Et cela fait bugger la fonction importhtml. Regardez dans l’image précédente pour le Chili (ligne 30) dans le nombre de cas par millions d’habitants (colonne I) la fonction a renvoyé le nombre 1,51 (au lieu de 1,510 donc 1 510 en notation française) c’est à dire 1 510 cas par millions d’habitants. Et impossible d’y arriver même en jouant sur les paramètres géographiques de l’application.
Bref il faut corriger toutes les erreurs de ce type pour reconstituer correctement les valeurs à grands coups de formules sur les chaines de caractères. Bizarrement je n’ai pas trouvé sur internet de gens ayant été confronté au même problème et ayant posté de solution.
Premier apprentissage pour moi qui n’avait jamais fait de formation big data : le nettoyage de données c’est vraiment complexe et piégeur (heureusement : quand on a fait de la migration de données sur des gros projets SI, on garde quelques réflexes…). Apprentissage pour Pierre, consultant pourtant formé au big data : « vérifiez, vérifiez, et faire vérifier le nettoyage de vos données par un de vos pairs ou par un vieux schnock ».
Ensuite Pierre avait voulu tester la corrélation entre le PIB par habitant et la pandémie. Même problème de nettoyage de données avec la représentation anglo saxonne. Une fois ceci réalisé j’ai personnellement préféré utiliser le PIB nominal que le PIB brut. Le PIB nominal tient compte de l’indice des prix de chaque pays donc c’est une version qui me semble plus refléter le pouvoir d’achat moyen par habitant. Par exemple, en Suisse le PIB brut est très élevé mais les prix aussi d’après ce qu’on m’en a dit. Le PIB nominal permet de tenir compte de cela.
Il fallait ensuite enrichir les données avec le genre du chef de gouvernement (est-ce un homme ou une femme ?). Nous n’avons pas plongé dans les arcanes de la gouvernance de chaque pays et avons récupéré les données directement dans un tableau trouvé dans la version anglaise de wikipedia (lien) : List_of_elected_and_appointed_female_heads_of_state_and_government voir le tableau : Elected or appointed female chief executives. Comme cet article de Wikipedia était affublé d’une alerte qualité nous avons fait quelques vérifications complémentaires mais nous n’avons pas vu d’erreurs, en tout cas pas sur les femmes leader de gouvernement actuellement en poste.
Des analyses statistiques basiques pour tester la corrélation entre le genre du gouvernant et les statistiques de mortalité
Voici le tableau (extrait) que nous avons utilisé au final une fois les données nettoyées :

Nos données Covid-19 par pays, nettoyées prêtes à être analysées
Tertio (après le secundo : nettoyer les données) : explorer les données.
Nous n’avons des données complètes que pour 139 pays, ce n’est pas génial mais nous pouvons dire que cela permet de faire des statistiques. En revanche il n’y a que 19 pays dirigés par des femmes, donc nous resterons quand même très modestes sur nos résultats statistiques. 19 c’est vraiment un peu faible.
C’est déjà un premier résultat intéressant (au sens statistique) –> il faut qu’il y ait plus de pays dirigés par des femmes car cela permettra de faire des analyses comparées avec un meilleur niveau de confiance.
Vérifions que nos données obéissent à la loi normale –> c’est bien le cas. Il y a quelques points aberrants citons notamment la Belgique pour le nombre de décès et Saint-Marin pour le nombre de cas détectés. Ne connaissant pas particulièrement ces 2 états (micro-état pour Saint-Marin), difficile de connaître la raison de ces aberrations statistiques.
Maintenant essayons de voir s’il y a une corrélation linéaire entre toutes ces variables. Par exemple : peut-on calculer le nombre de décès dans un pays compte tenu de son PIB nominal par habitant, du nombre de tests pratiqués, du nombre de cas, et si son leader est un homme ou une femme.
Vous pouvez le faire simplement avec Excel et le module statistique (menu Fichier/Options/Compléments – sélectionner Analysis ToolPak)
Essayons de déterminer l’équation linéaire du nombre de cas en fonction du nb de tests, du genre du leader du pays : voici les résultats donnés par Excel :

Résultats de régression linéaire
Qu’est ce que cela signifie ?
Qu’il y a une régression linéaire qui permet de donner une approximation du nombre de cas Covid-19 (par millions d’habitant) dans un pays en fonction du nombre de tests pratiqués et du genre (H ou F) du leader de gouvernement. Effectivement le coefficient du critère H ou F est négatif : -386 ce qui accrédite l’hypothèse du #Girlspower.
Malheureusement vous remarquerez que la p-value est très importante (0,401) ce qui signifie qu’on a 4 chance sur 10 de se tromper en considérant que ce critère mérite d’être pris en compte. Pour un mathématicien c’est un risque d’erreur beaucoup trop important.
Il est simple de calculer quelques indicateurs complémentaires comme par exemple les facteurs de corrélation de Pearson : par exemple y a t-il une corrélation entre le nombre de décès et le genre du leader du gouvernement, ou une corrélation entre le nombre de cas Covid-19 et le genre du leader ?

Correlation entre le genre du leader et le nombre de décès. Alors ?
et bien… non. D’une part les coefficient de corrélation sont minimes et l’erreur statistique (P-Value) est énorme. Entre 6 et 8 chance sur 10 de se tromper en affirmant de telles corrélations. Peut-être pas rédhibitoire pour un journaliste qui sait ce qu’il fait, mais sans être un ayatollah des mathématiques on ne peut décemment pas valider ces corrélations.
Dommage pour Forbes, mais…
Les conclusions de l’article de Forbes sont malheureusement erronées (à ce stade). C’est sûrement une bonne hypothèse de travail et notamment une bonne hypothèse pour écrire un article dans lequel un journaliste peut donner son point de vue et donner des éléments à l’appui de son hypothèse, mais cela ne prouve rien. La seule conclusion, et qui fera quand même plaisir à Forbes, c’est qu’il faut qu’il y ait de plus en plus de femmes leader pour améliorer à l’avenir la valeur statistique de ce type d’analyse en général.
L’épidémie étant toujours en cours et tous les pays n’ayant pas encore franchi le pic d’épidémie, il pourra être intéressant de refaire cette analyse dans plusieurs mois une fois l’épidémie terminée. Ou alors comparer d’ores et déjà les différents pays entre eux mais au même stade de l’épidémie (à nombre de jours identique après les premiers cas détectés par exemple)
Ces quelques analyses statistiques permettent aussi de voir une corrélation significative entre le PIB nominal par habitant et le nombre de cas ou le nombre de décès du Covid-19. On peut donc en déduire qu’effectivement le Covid-19 est une maladie des pays développés. Mais corrélation n’est pas causalité ! Cela ne nous renseigne pas sur les causes même si cela permet d’orienter les futures études sur des causes probables caractéristiques des pays développés (niveau d’industrialisation, niveau d’échanges de biens entre pays / régions, volume des déplacements de personnes, densité de population dans les agglomérations, taux d’obésité…).
En ces temps troublés, il est important de maîtriser quelques basiques d’analyse statistiques pour vérifier ce que la presse ou les réseaux sociaux nous relaient à longueur de journée. Et nul besoin d’être un expert. Le bagage de base de la certification Green Belt permet déjà de vérifier plein de choses.
Merci Eric de mettre la science et la raison dans le débat. C’est avec un radar ça qu’on progresse dans le brouillard.