Nous accompagnons régulièrement des clients pour la valorisation de leur patrimoine informationnel. Une partie de ce travail consiste à identifier les sources externes de données qui pourraient venir enrichir les données du client ou informer les métiers dans leur travail au quotidien. Mais où pouvez-vous trouver ce type de données ?

Où trouver des données externes pour créer de la valeur ?

Mes critères pour identifier une bonne source de données

Pour qu’elles aient une valeur et qu’elles engendrent un minimum de travail supplémentaire, les données que vous souhaitez utiliser doivent être de qualité. A mon avis, cela se traduit par 7 caractéristiques (1) :

  1. Précision : les données sont correctes et l’incertitude minime
  2. Complétude : toutes les données possibles sont présentes
  3. Conformité : le format des données est un standard
  4. Cohérence : il n’y a pas de conflit entre les données, ou de conflit avec d’autres sources de qualité
  5. Ponctualité : le producteur créé, maintient et met à disposition les données aussi vite que vous en avez besoin
  6. Unicité : pas de doublons ou d’éléments redondants
  7. Validité : authentiques et prouvées comme étant valides, tirées de sources authentiques et connues

Critères de choix

Ne vous attendez pas à trouver des données de qualité parfaite, mais soyez conscient du fait que chaque attribut faisant défaut peut engendrer un coût supplémentaire. Par exemple, si vous souhaitez exploiter des données qui souffrent d’incohérence, vous devrez mettre en place un processus de résolution de ces incohérences ou faire le choix de les tolérer avec des risques à évaluer au cas par cas.

Où trouver des données de qualité ?

Je vous propose ici une sélection des sites que j’utilise le plus souvent pour rechercher des données. La plupart offrent des données disponibles sans payer. Ce n’est ni une liste exhaustive ni une liste ordonnée. Il en existe d’autres et je vous invite à laisser un commentaire si vous voulez partager vos bons plans !

Données de qualité

Google Dataset Search

Mon premier réflexe est d’utiliser Google Dataset Search (2) lorsque je suis à la recherche d’un jeu de données. Il s’agit d’un moteur qui recense des milliers de référentiels et permet de réaliser des recherches par mot clé. Il offre plusieurs filtres à la date où j’écris cet article (août 2021), dont la fréquence de mise à jour et le format.

Du côté des inconvénients, le plus gros est le périmètre que couvre le moteur. Il n’y a en effet pas de sélection sur la quantité ou la qualité des données disponibles par exemple.

Kaggle

Kaggle (3) est une plateforme web qui organise des compétitions de data science. Des entreprises proposent des problèmes à résoudre, parfois contre une rémunération, et mettent des données à disposition pour ce faire. Les données sont souvent anonymisées, mais pas systématiquement. Les données sont de qualité bien supérieure, mais ne seront pas mise à jour. Elles peuvent donc servir à construire une base de données initiale, servir à la formation ou encore à entraîner ses propres modèles de machine learning.

Ici aussi vous pouvez faire une recherche par mot clé. Les jeux de données sont d’ailleurs repris sur Google Dataset Search.

data.gouv.fr et data.europa.eu

data.gouv.fr (4) est une plateforme de diffusion des données publiques de l’Etat Français. Ici vous trouverez des données au format tabulaire ou géographique le plus souvent. Ici aussi, il est possible de trouver les formats, les producteurs (ministère, etc.), et les zones géographiques qui nous intéressent.

Ces données sont en partie recensées depuis 2021 sur le site data.europa.eu (5) avec celles des autres pays membres de l’UE et des institutions de l’UE. Nous y trouvons pour l’instant des données géographiques, par thème et avec un filtrage sur la qualité des métadonnées !

api.gouv.fr

Pour ceux qui souhaitent créer des applications utilisant des données fournies par les services publics, api.gouv.fr (6) est une mine d’or qui grandit régulièrement. On y trouve de tout, de l’API SIRENE aux horaires de transport en commun, en passant par Chorus Pro. C’est le meilleur moyen d’automatiser certains de vos processus en allant échanger directement avec les services publics qui proposent des API.

INSEE

L’INSEE (7) produit, publie et analyse régulièrement des statistiques officielles en France. Les données produites sont à mon avis plus difficilement exploitables dans un process récurrent et automatisé si on ne passe pas par l’une des 4 APIs (dont l’API SIRENE fait partie). Les données produites permettent malgré tout d’enrichir ses analyses qui s’appuient sur l’activité économique (ciblage de clients, évolution du niveau de revenus ou d’activité, etc.)

Quelques exemples de jeux de données

Je souhaite conclure en partageant quelques exemples de données trouvées qui ont été utiles par le passé ou pour lesquelles je pense qu’il y a un potentiel de réutilisation chez nos clients.

  1. L’API SIRENE (8) : nous avons utilisé cette API avec plusieurs de nos clients. Elle donne accès aux informations concernant les entreprises et les établissements enregistrés au répertoire interadministratif Sirene. Vous pouvez l’utiliser pour mettre en qualité les données de votre CRM ou de votre système de facturation.
  2. Le référentiel de données marchés publics (9) : les acheteurs publics publient les caractéristiques des marchés. J’y vois un potentiel pour estimer la valeur d’un marché public
  3. La base carbone de l’ADEME (10) : nous utilisons des données provenant de cette base pour faire le bilan carbone de nos missions de transformation
  4. Les API de géocodage (ArcGIS, Google Maps ou autre) : elles permettent de donner la position géographique d’une liste d’adresses. C’est une étape préalable au calcul et à l’optimisation d’itinéraire, ou encore au rapprochement de bases de données sur la base de la distance géographique.

Sources utilisées dans cet article :

(1) : https://www.winshuttle.com/blog/good-data-quality-worth/

(2) : https://datasetsearch.research.google.com/

(3) : https://www.kaggle.com/datasets

(4) : https://www.data.gouv.fr/fr/datasets/

(5) : https://data.europa.eu/data/datasets?locale=fr&minScoring=0

(6) : https://api.gouv.fr/rechercher-api

(7) : https://www.insee.fr/fr/statistiques

(8) : https://api.insee.fr/catalogue/site/themes/wso2/subthemes/insee/pages/item-info.jag?name=Sirene&version=V3&provider=insee

(9) : https://www.data.gouv.fr/fr/datasets/608c055b35eb4e6ee20eb325/

(10) : https://www.data.gouv.fr/fr/datasets/base-carbone-r-1/