Dans un contexte de dématérialisation croissante, et de transformation digitale qui englobe toujours plus de processus, les données abondent. Pourquoi faire de la data pour le Lean ? Eh bien les outils statistiques du Lean Six Sigma historique peuvent paraître dépassés par la puissance de calcul et de stockage dont nous disposons désormais. De nouvelles possibilités s’ouvrent grâce à la démocratisation de la data et de l’IA. Ces possibilités ne sont plus l’apanage de quelques statisticiens.

Fort de ce constat et d’une volonté d’innovation méthodologique, j’ai imaginé des cas d’utilisation de vos outils de data préférés. Ils doivent servir à enrichir les réflexions autour du Lean Management. Pour le premier article de cette série, je propose des outils pour s’assurer que les données sont fiables. Il faut selon moi s’assurer qu’elles représentent assez fidèlement la réalité et qu’elles ne sont pas entachées d’erreur manifestes ou subtiles. Si possible avant de plonger dans des analyses ou des résolutions de problèmes qui n’existent peut-être pas.

Data pour le Lean, ép.1 : les données sont-elles fiables ?

Indice 1 : plus de 0.3% de valeurs aberrantes

Supposons qu’une valeur aberrante soit une valeur inattendue, ou au moins inhabituelle. Ce sont les valeurs que vous devriez de toutes façons exclure de vos analyses pour éviter de les polluer, donc autant les identifier au plus vite. Mais que se passe-t-il si on en a trop ? Et c’est combien, « trop » ? Environ 0.3% des données si on imagine une distribution normale, et que les valeurs aberrantes sont au-delà de la moyenne +/- 3 sigma.

Selon les données travaillées, la distribution ne sera peut-être pas normale. Ou alors vous préférez dire que les valeurs aberrantes sont inférieurs à Q1 − 1.5 IQR ou supérieurs à Q3 + 1.5 IQR. Mais l’ordre de grandeur du nombre de valeurs aberrantes est le même : il ne faut pas que ça représente une grosse part de vos données, sinon vous avez peut-être un soucis de collecte.

L’IQR (interquartile range, écart interquartile, est la différence entre le 3e quartile (top 75% des données) et le 1er quartile (top 25% des données)

Données "bornées" à [Q1-1.5 IQR ; Q3 + 1.5 IQR] et nombre de valeurs aberrantes

Données « bornées » à [Q1-1.5 IQR ; Q3 + 1.5 IQR] et nombre de valeurs aberrantes élevé (426 valeurs aberrantes pour 1952 données)

Indice 2 : des suites prolongées au-dessous ou en dessous de la valeur de référence

Vous tirez à pile ou face, et vous avez une série de 14 fois « face », puis 50 fois « pile ». Ou vous produisez une pièce et le système indique que vous consommez moins de 22g de plastique pendant 30 itérations, et qu’ensuite vous consommez plus de 22g pendant 20 itérations. Un fonctionnement d’une machine vraiment calibrée pour un processus maîtrisé devrait alterner régulièrement entre des écarts à la hausse et à la baisse de façon aléatoire. Cela doit-il vous inquiéter ?

Illustration du problème : y a-t-il un biais ?

Illustration du problème : y a-t-il un biais ?

Il existe des tests qui permettent de vérifier que la durée des écarts d’un côté ou de l’autre de la valeur de référence (ex. moyenne ou médiane) ne sont pas trop longs pour vous.

C’est un test des suites de Wald-Wolowitz. On encode les écarts par rapport à la valeur de référence avec un (+) ou (-), et on teste l’hypothèse que la série provient d’une seule série de tirages aléatoires.

Exemple simple d'un test des suites sur Excel

Exemple simple d’un test des suites sur Excel

Indice 3 : les données absentes ne le sont pas aléatoirement

Vous étudiez les défauts qui surviennent dans la fabrication d’une pièce sur une chaîne. Vous êtes en possession de données collectées en fin de chaîne de production, et les défauts sont classés par catégorie. Vous constatez que l’information est parfois manquante. Si des pièces sont éliminées avant d’arriver au bout, ou qu’elles ne sont pas éliminées correctement, vous risquez d’avoir des données biaisées. Comment savoir si c’est le cas ?

Voici quelques types de données manquantes :

  1. Missing completely at random (MCAR) : les données manquantes le sont de façon aléatoire, sans lien avec une variable quelconque.
  2. Missing at random (MAR) : nom trompeur, on devrait peut-être dire « missing conditionally at random ». Le caractère « manquant » d’une donnée est lié à des variables qui font partie de l’étude, mais il est bien aléatoire une fois qu’on a contrôlé ces variables.
  3. Missing non at random (MNAR) : tout ce qui n’est pas MCAR ou MAR. Non seulement les données manquantes sont liées à des variables, mais ces variables ne font pas partie de l’étude.

Avoir des données MNAR ou MAR peut altérer les conclusions d’une étude, et il faut donc au moins se poser la question.

Conclusion

Avant de foncer bille en tête et exploiter ses data pour le lean, il vaut mieux s’assurer que les données dont on dispose maintenant sont exploitables. J’ai présenté 3 types d’indices qui doivent vous mettre la puce à l’oreille. Prochain épisode : construire facilement un prévisionnel.