Aix-en-Provence le 22 septembre 2019,
Bonjour à toutes et à tous,
Occupé depuis un certain temps à faire rentrer tout le Bulletin officiel des annonces des marchés publics (BOAMP 2015-2019 schéma V230) dans Pandas (Python quoi), j’ai évidemment rencontré un certain nombre de difficultés.
Outre les ratés de l’API dès qu’on remonte dans le temps, c’est aussi la qualité des données qui a attiré mon attention lors des tests.
Si, pour les données essentielles un référentiel précis existe (https://www2.economie.gouv.fr/files/files/directions_services/daj/marches_publics/ouverture-donnees/referentiel_marches_publics.pdf), cela m’a l’air moins évident en ce qui concerne le BOAMP.
De ce fait, même si le cœur de mon activité n’est pas l’analyse des données, mais leur mise à disposition des autres, je redoute que la qualité parfois médiocre de celles-ci ne pose question quant au confort de réutilisation qui en découlera. Même si 80% de la DataAnalyse consiste à nettoyer les données, il y a des limites…
M’ouvrant sur le sujet sur Twitter, il m’a été suggéré de poster ici, sur #TeamOpenData, un Billet afin de partager cette préoccupation et d’échanger avec des pros du secteur. J’ai choisi de le rédiger sous la forme de Notebook Jupyter afin que le code soit réutilisable.
Volontairement court, Il est disponible en lecture sur GitHub:
Une solution pour tester vous-mêmes ces données y est aussi proposée.
Par ailleurs, si ce format parait intéressant à certain(e)s d’entre vous, je me propose de faire une petite série de Billets autour l’API du BOAMP (https://www.data.gouv.fr/fr/datasets/api-boamp-beta/) pour les débutant(e)s en Jupyter/Python si tant est que personne ne l’aie fait avant moi.
Bonne lecture,
Jean-Marie FALVET.
Twitter : @Semaine52 et @AuFilDuBoamp
PS / Je remercie à nouveau J.Gombin pour ses conseils ainsi que pour le sous-titre du Billet, qui fera toujours ma joie…