Dans le cadre de nos activités de conseil, il est plutôt courant que nous ayons à manipuler les données de nos clients. Ces données nous servent à réaliser des états des lieux ou des simulations, elles alimentent des outils, des outils que nous sommes parfois amenés à construire. Depuis quelques années nous constatons des évolutions qui nous ont poussés à renouveler notre manière d’appréhender les problématiques de nos clients avec la donnée. Entre autres, chez nos clients : les volumes de données augmentent et se structurent, les sources de données se multiplient – notamment en dehors des organisations avec l’open data -, de nouveaux métiers émergent autour de la data (data analyst, data scientist, data engineer, etc.), et j’en passe. A travers un retour d’expérience sur mission, je vous propose ici d’explorer quelques pistes que nous avons suivies pour tirer parti de ces évolutions, ou devrais-je dire, de ces opportunités.
Retour d’expérience : conseiller avec la donnée aujourd’hui
Contexte de la mission
Fin 2018, nous sommes intervenus auprès d’un grand opérateur logistique européen. Nous avons mené avec ce client une étude stratégique visant à évaluer l’opportunité à mobiliser son socle logistique (véhicules, moyens industriels, hommes) pour développer de nouvelles activités de service en France. L’étude adressait 2 volets de faisabilité : industrielle et économique. Point de vue données, notre client était bien armé : muni d’un datalake et des moyens de capture des données sur le terrain, il enregistrait par exemple tous ses gestes logistiques des premiers / derniers kilomètres. Ces gestes logistiques représentaient à eux seuls plusieurs centaines de milliers d’enregistrements par jour. Autrement dit, notre client disposait de données en grands volumes et à une maille extrêmement fine (geste métier) : un challenge pour les consultants en stratégie habitués d’Excel que nous sommes.
Nouveau tools pour une nouvelle vie
L’habitude de ce type de missions aurait pu nous faire partir bille en tête munis de notre outil traditionnel pour la manipulation des données : Excel. Pas fous quand même et ayant compris que notre quotidien consisterait en première phase à parcourir, croiser, enrichir, défaire, refaire des sets de données de plusieurs millions de lignes, nous nous sommes mis à la recherche d’outils mieux adaptés à nos besoins. Dans le cadre de notre veille, nous avions déjà identifié comme candidat potentiel Dataiku, une plateforme d’analyse de données facile à prendre en main et gratuite dans sa version de démonstration (amplement suffisante pour les besoins décrits plus haut). Dataiku est d’ailleurs la solution que nous utilisons aujourd’hui pour ce type de missions. Cet article n’étant pas sponsorisé, je citerai comme alternative KNIME, une autre solution qui propose des fonctionnalités équivalentes, un peu plus difficile à prendre en main mais qui a le mérite d’être open source.
Alors qu’Excel est et restera un excellent outil de traitement des données pour de la gestion au quotidien, les solutions types Dataiku et KNIME sont spécifiquement taillées pour l’analyse de données en grands volumes. Avec ces outils :
- Fini les machines qui plantent à causes d’opérations de calcul sur plus de 100k lignes : ces solutions ne mobilisent pas (toute) la mémoire de votre machine. Lorsque vous effectuez des traitements sur vos sets de données, ceux-ci sont d’abord faits sur des échantillons qui permettent une prévisualisation avant de lancer les opérations sur l’intégralité des données. Une fois que vos opérations de nettoyage/calcul sont définies, vous les appliquez à l’ensemble des données. Etant donné que ces outils tournent soit sur un serveur distant, soit sur une partition de votre mémoire, les opérations lourdes qui d’accoutumé feraient planter votre machine s’exécutent ici en tâche de fond.
- Fini les fichiers qui se perdent dans des méandres de dossiers en arborescence : avec ces outils vous travaillez par « projets » où chaque étape de manipulation est conservée dans l’historique par un set de donnée accessible dans l’arborescence des manipulations. Cette fonctionnalité facilite considérablement le partage et la réutilisation de vos données traitées.
- Plus besoin de repartir systématiquement de 0 : lorsque vous effectuez des opérations avec Dataiku ou KNIME, vous définissez en réalité un protocole de traitement des données. Ainsi, un même protocole peut être appliqué sans effort à plusieurs sets de données différents. Cette fonctionnalité est particulièrement utile dès lors que vous manipulez des sets de données structurés destinés à être mis à jour (référentiels, données de ventes, données de production, etc.)
J’ajoute que ces outils ont le bon goût de se connecter avec de nombreuses sources de données (fichiers JSON, txt, csv, bases de données SQL, etc.) et de proposer des fonctionnalités avancées de datavisualisation. Il s’agit donc là d’outils bout-en-bout pour vos analyses.
Nouvelles sources pour une nouvelle vie
S’outiller pour manipuler les données est une chose, encore faut-il pouvoir en tirer de la valeur. En l’occurrence, nous cherchions à établir la faisabilité économique et industrielle de nouveaux services, cela revient en première approche à commencer par se poser les bonnes questions, par exemple : pour quel bassin de clientèle mon appareil industriel est-il dimensionné ? Dans ma logistique aux premiers / derniers km quels créneaux de prestations suis-je en mesure de proposer à mes clients ? Quels services sont attendus par ma clientèle ? Quels créneaux de prestation intéressent mes clients ? Etc. Une fois les questions posées, il faut y répondre. Pour certaines interrogations, notre client produisait des données suffisantes ; pour d’autres, il a fallu enrichir. De nouvelles sources de données ont permis cette enrichissement, notamment des données publiques.
L’open data devient une réalité de plus en plus tangible depuis la promulgation de la Loi pour une République numérique en 2016. Deux constats motivent cette affirmation :
- Des données auparavant non ouvertes ou payantes sont devenues faciles d’accès et gratuites (ex : Base Sirene)
- Des données auparavant disponibles mais difficilement réutilisables sont maintenant proposées de manière structurée pour être réutilisées (ex : Base Adresse Nationale, données de l’INSEE)
Ces données étant disponibles, nous nous en sommes servis pour notre client. En les croisant avec ses données internes, nous avons pu :
- Réinscrire ses données industrielles dans le contexte territorial : redécoupage de ses entités pour des regroupements orientés marketing (clientèle urbaine, péri-urbaine…), regroupement des prestations (matérialisées par des géopoints) par entités territoriales cohérentes (communes, agglomérations, etc.)…
- Ajouter de la valeur à ses données industrielles en les croisant avec des données socio-économiques localisées : niveaux de vie, pouvoir d’achat, marché du travail, etc.
L’open data n’est d’ailleurs pas le seul témoin des évolutions en cours autour de l’utilisation des données. Nous constatons également que beaucoup de services en accès libre en ligne apparaissent et permettent à des « non-experts » d’exploiter ou d’enrichir leurs données facilement : des services de géocodage, outils de cartographie (cf. schéma non exhaustif ci-dessous), API…

Notre sélection d’outils pour réaliser vos cartographies
Conclusion
Dans le cadre de cette étude stratégique, les analyses menées ont permis dans un temps court de définir les conditions de faisabilité industrielle et économique au déploiement de nouveaux services sur le socle logistique de notre client. Plus encore, la capacité à digérer des données en grandes quantités et à les enrichir par des données extérieures a permis de mettre en valeur des risques très concrets dans la feuille de route stratégique de notre client telle que définie à l’époque.
Ces dernières années, ce type de retours d’expériences s’est démultiplié dans nos missions. Ces REX ont motivé autant de prises de recul de notre part à mesure desquels nous avons développé une expertise pour répondre aux problématiques de nos clients avec la donnée : n’hésitez pas à consulter notre offre Data for Strategy