Typologie et annotation des problèmes rencontrés par les usagers sur data.gouv.fr

Bonjour,

En février 2021, j’ai accompagné un projet tuteuré de la Licence Professionnelle Médiations de l’Information Numérique et des Données (LP MIND) de l’Université Bordeaux Montaigne, qui a consisté à annoter toutes les discussions publiées sur data.gouv.fr afin d’identifier les problèmes rencontrés par les utilisateurs, tester une typologie des problèmes et éventuellement mieux catégoriser les discussions entre producteurs et réutilisateurs.

Le résultat de ce travail est publié en open data sur data.gouv.fr avec une documentation des données suivant la trame des datasheets for datasets (cf Traduction et adaptation du modèle de description des données "Datasheet for Datasets") :

Les problèmes d’accessibilité aux données (données manquantes ou inaccessibles) ressortent le plus fortement avec les problèmes d’actualisation et de fiabilité des données. La catégorie autre regroupe principalement les discussions qui n’ont pas pour objet un problème lié aux données elles-mêmes.
image

Les étudiants ont aussi produit dans le cadre de ce travail une typologie des problèmes rencontrés par les usagers en s’appuyant sur les travaux réalisés à Toronto pour produire des indicateurs de qualité des données (cf Toronto : outil de notation de la qualité des données ouvertes).

Voici la typologie complète à la suite. Qu’en dites vous ?

Accessibilité

Concerne la mise à disposition de ressources fonctionnelles pour le plus grand nombre.

Lien mort

Tous les problèmes liés aux téléchargements des fichiers (lien ou le document n’est plus accessible ou renvoie sur un message d’erreur, API qui ne fonctionne plus ou est indisponible…)
Exemples :

“Bonjour
Je cherche à télécharger les données du fichier suivant 2018-05-28-COMAGRI-Communes_Aires_IG.csv (aires géographiques des IGP), mais le lien ne marche pas ou le fichier est corrompu.
Pouvez vous m’aider s’il vous plait? En vous remerciant
Bien cordialement”
“Bonjour,
L’API de Recherche multicritère d’unités légales ne semble plus fonctionner (Erreur 500).
Pouvez-vous vérifier ?
Merci”
“Bonjour,
Je vous contacte pour vous signaler une anomalie dans le téléchargment des données SHP de batiments contruits, entre 2009 à 2012 (Grand Lyon).
Lors de la tentative de téléchargement, la page « 504 Gateway Time-out » apparait.
Cordialement”

Format incompatible

Le format préconisé pour une utilisation optimale et par la majorité des usagers n’est pas respecté.
Le fichier est trop lourd et demande des manipulations particulières ou un logiciel spécifique pour accéder aux données.
Exemples :

“Bonjour,
D’abord merci pour ce travail de collecte de données.
J’ai téléchargé le dernier fichier RNA mais je n’arrive pas à l’ouvrir (trop de lignes mes outils bureautique).
Serait-il possible d’avoir une extraction en CSV uniquement pour le département 89 (Yonne) ?
Merci pour votre réponse”
“Bonjour,
je n’ai pas réussi à profiter de cette contribution car soit :

  • le fichier xls est corrompu.
  • le format que vous utilisez ne respecte pas les normes en matière d’échange de fichier (prononcées et récemment mises à jour dans le nouveau référentiel : Approbation du RGI v 2.0, l'April salue le travail de la DISIC/DINSIC | April) et ne peut être ouvert avec un logiciel qui les respecte, comme Libre Office.”
    “Tous les documents sont des PDF, donc un format non-réutilisable”

Absence de données

Le fichier fourni est vide ou incomplet, ou bien les données présentes ne permettent aucune interprétation.
Exemples :

“la couche (shape) est vide ainsi que le tableau csv.”
“Les fichiers n’étaient pas vide en novembre.”
“Bonjour,
Il manque les tournages de 2002 à 2010. Les données de 2016 ont écrasé les précédentes.
C’est bien dommage.
+1 ! Peut-être qu’à l’occasion de l’upload des données 2017, on pourrait de nouveau avoir accès aux données depuis 2002 ? Ce serait top… :)”

Incapacité à traiter les données

Les compétences techniques de l’usager ne lui permettent pas d’accéder au jeu de données. L’utilisateur ne sait pas où trouver les données.
Exemples :

“Bonjour,
Les coordonnées x;y du fichier ne m’apparaissent pas comme celles de l’Ile-de-France : je n’arrive donc pas à les intégrer dans un logiciel de cartographie. Est-ce normal ?
Merci d’avance,”
“Bonjour,
je souhaiterais avoir quelques informations ou une documentation concernant les possibilités d’intégration sur un système Wordpress.
De plus j’aimerais savoir si les trois fichiers présent ci-dessus ( le fichier xml et les deux fichiers JSON ) sont suffisant pour une intégration ou si une autre installation est nécessaire ? Devons-nous repasser par le moteur G6K afin de créer un simulateur ?
UP SVP”
“J’ai beau essayé de toutes les manières, avec différents navigateurs, impossible de télécharger.
Pouvez-vous m’aider svp ?
Merci par avance.”

Demande de set de données

Une demande d’ouverture d’un jeu de données est formulée par l’usager.
Exemples :

“Bonjour,
Nous sommes 4 étudiants de l’ESGT et nous avons un projet SIG à réaliser.
Nous aurions aimé avoir les données sur la largeur des trottoirs de Paris. Nous avons trouvé sur votre site une carte qui les recense en mentionnant leur largeur mais nous avons pas trouvé ces données en format SHP, SHX.
Serait-il possible de les avoir ?
Merci pour votre réponse,”
“Bonjour, bien que les données soient disponible pour les DOM hors Mayotte, je ne parviens pas obtenir des transactions immobilières pour La Réunion (ni sur immo data, ni sur meilleur agent).
Par quel moyen puis-je accéder à ces données.
Merci.”
“Bonjour, nous sommes un bureau d’étude qui travaillons sur l’Odet, nous souhaiterions obtenir l’historique complet de la station Station principale : Ergué-Gabéric [Kersaviou] (J420192001). Cette station n’est pas suivi par Hydo france. De plus nous savons qu’il y a un pluviomètre à coté, est -ce possible également de récupérer ces données. Merci de votre retour. Cordialement.”

Exploitabilité

L’usager signale des problèmes dans le contenu des données qui rendent difficile ou impossible l’exploitation du jeu de données (problèmes d’uniformité dans la saisie, fautes de saisie (fautes sur les noms, incohérence typographiques…)
Exemples :

“Bonjour,
J’ai remarqué qu’il y a régulièrement des coupures de mots (ajout d’un espace) tous les 70 caractères dans la CONCLUSIONPREL (fichier DIS_PLV).
Pouvez vous corriger cette anomalie ?
Merci”
“Bonjour,
les codes ne sont pas écrits comme ils devraient: ex
163 au lieu de 0163 ou plutôt 01.63 … Beaucoup de 0 initiaux ont disparu rendant ces fichiers peu utilisables.
On trouve ici: Nomenclature d’activités française – NAF rév. 2 | Insee des fichiers exploitables.

Merci quand même pour le partage.
Cordialement.”

Formatage non respecté

Les règles et codes de la saisie dans un tableur ne sont pas respectés.
Exemples :

“Bonjour,
Il y a une erreur sur le flux reçu depuis l’API pour le champ denominationUsuelleEtablissement. D’après la documentation, celui-ci ne doit pas dépasser les 100 caractères.
Dans l’exemple ci-dessous, il arrive à 102 à cause de la notation «  » qui décrit la seconde double quote(") comme faisant partie intégrante de la valeur du champ.”
“dans le dernier set il y a une erreur sur cette entree :
siret : 48885699800015
les données sont décalé :
nomenclatureactiviteprincipaleetablissement : 01.21Z
caractereemployeuretablissement : NAFRev2”

Données non-ouvertes

Les données proposées sont privées, ne correspondent pas à la licence annoncée ou demandent l’utilisation d’un logiciel propriétaire particulier.
Exemples :

“Bonjour
Pourquoi les calendriers scolaires au format ICS bien utiles ne sont-ils plus accessibles en téléchargement sans une identification depuis aujourd’hui? Alors qu’il est précisé clairement dans les conditions générales du site que ces données sont justement accessibles à tout le monde en lecture et en téléchargement sans aucune inscription préalable?”
“Bonjour, pouvez-vous me confirmer les conditions aux fiches descriptives des bibliothèques car je n’arrive pas à les télécharger, visiblement pour des problèmes de droit d’accès.
En vous remerciant par avance.
Cordialement,”

Répétition des données

Les mêmes données sont présentes à plusieurs reprises dans le même fichier.
Exemples :

“J’ai noté la présence de lignes dupliquées dans les fichiers CSV empêchant l’ingestion des adresses en base dans une table avec clé primaire sur le champ id (documenté comme unique ci-dessus) sans filtrage préalable.”
“Bonjour,
Les données du 14/07/2020 sont en doublon. Je ne sais pas qui est responsable de la mise à jour des données mais il serait bien de publier à l’avenir des données qui soient correctement vérifiées afin d’éviter de telles erreurs.”

Problème de granularité

Les données ne sont pas assez précises, fines. L’utilisateur demande des données plus précises dans le jeu de données.
Exemples :

“Bonjour,
Dans les fichiers en téléchargement comme vacsi-a-dep-2021-01-31-20h15.csv le Nb cumulé de personnes vaccinées COVID ne permet pas de reconstituer un historique de la montée en charge de la vaccination. En effet, le Nb cumulé est parfois en diminution par rapport à la veille (exemple récent France entière = 1453323 le 29/01 puis 1420869 le 30/01. On peut bien sûr reconstituer ce cumul avec le Nb journalier mais il serait pratique d’avoir directement ce cumul en base (il est présent mais à mon avis parfois erroné ou alors je n’ai pas compris de quoi il s’agit).”
“Les données de la colonne GC devraient correspondre à la base nette TH. Toutefois, les montants ne correspondent pas à l’état 1288 notifié aux Communes ? Y a t-il d’autres montants à additionner pour obtenir la base nette TH ?”

Harmonisation des données

Les données proviennent de plusieurs jeux de données et ne sont pas uniformes ou sont totalement identiques. Plusieurs jeux de données traitant les mêmes informations se contredisent.
Exemples :

“Après lecture du fil, je ne vois pas la réponse à ma question : pourquoi les deux fichiers (cumuls et données journalières) ne sont pas en phase. Le delta des chiffres cumul n’est presque jamais le chiffre du jour du fichier quotidien.”
“Bonjour,
Le code commune « long » (01001) n’existe pas dans le fichier des communes”

Actualisation

Action de mettre à jour et/ou d’actualiser les jeux de données.

Absence de mise à jour

Le jeu de données contient des données périmées qui nécessitent d’être actualisées.
Exemples :

“Bonjour,
Le dernier fichier date du T4 2017, c’était auparavant des mises-à-jour trimestrielles, vous ne les faites plus?”
“Bonjour,
Est ce que vous pourriez fournir un nouvel export de vos données GTFS ? Celui-ci n’est plus valable depuis le 19 octobre”

Absence d’information sur les mises à jour

La mise à jour a été effectuée mais aucune explication n’a été renseignée sur les changements apportés, brouillant ainsi la compréhension des informations. S’applique aussi si aucune information n’est transmise concernant une future actualisation des données.
Exemples :

“Bonjour,
Pouvez vous m’en dire plus sur les dates de mise à disposition des mesures sur data.gouv.fr et data.anfr.fr par rapport à la date du communiqué de presse ?
Quelle source vaut il mieux utiliser pour avoir les données le plus rapidement possible après le communiqué de presse ?
Merci,
Cordialement,”
“Bonjour,
Après analyse de l’ensemble des documents PDF, du fichier STOCK de la nouvelle offre et des premières données récupérées en csv via l’API, la structure des données SIRENE (nom des attributs) ne correspond plus à l’ancienne offre ?
Pouvez-vous le confirmer ?
Si tel est le cas, existe-t-il une table passerelle entre les 2 dénominations ou doit-on stocker les données de façons différentes ?
Cordialement”

Erreur d’actualisation

Des erreurs sont apparues dans le jeu de données après une actualisation.
Exemples :

“Bonjour, vous mettez à jour les fichiers _TS.xlsx dans la 1ere semaine du mois suivant. Le mois d’août 2016 n’a cependant pas été ajouté, malgré la mise à jour. Est-ce un bug ? Merci”
“Bonjour, il y a un problème sur certains fichiers RCS-A 2020.
En effet certains ISO currency codes ne sont plus valides comme le FRF et le TRY et invalident donc ces fichiers.
J’utilise l fichier de validation ISO_CurrencyCode_2001.xsd
Exemple de fichiers invalides:
RCS-A_BXA20200033.xml (FRF trouvé)
RCS-A_BXA20200055.xml (TRY trouvé")”

Fiabilité

Renvoie à la crédibilité du document, ce qui permet d’être sûr des données.

Erreur dans les données fournies

L’information fournie n’est pas exacte.
Exemples :

“Le Code régional de la Martinique n’est pas le 6 mais le 2
le code régional 6 c’est Mayotte”
“La Description des données exposées par le RNA est fausse… et aproximative.”

Incertitude des données

La donnée proposée ne semble pas correcte. La personne qui commente le fichier met en doute ou interroge l’exactitude des données.
Exemples :

“Bonjour,
le site parle de l’arrêté d’octobre 2018. Sauf erreur de ma part, la dernière version est du 1er mars 2019.
Cordialement”
“Bonjour,
Comment se fait-il que l’on retrouve environ 11 millions de numéros SIREN différents d’entreprises actives (stock unité légale) alors que les statistiques font état d’environ 4 millions d’entreprises en France ?
Sources : Où trouver les chiffres clés des PME ? | economie.gouv.fr
Dix chiffres à connaître sur les entreprises françaises
Bien cdlt”

Source des données incorrecte ou imprécise

La provenance des données n’est pas indiquée ou n’est pas exacte. Le producteur des données d’origine n’est pas cité.
Exemples :

“Ce jeu de données n’a ni auteur ni organisation.”
“Bonjour,
Pouvez vous me préciser quelle référence/source noter dans mon bilan PLH qui utilise ces données ?
Merci”

Incohérence des données

Les données ne correspondent pas à ce qui est indiqué.
Exemples :

“Bonjour,
J’ai remarqué que certains établissements guyanais (code de département : 9C) ont des données de géolocalisation potentiellement incohérentes. La plupart utilisent bien le système RGFG95 - UTM Zone 22 Nord, ce qui est cohérent avec des établissements localisés en Guyane, mais une partie significative utilisent le système RGR92 - UTM Zone 40 Sud qui conviendrait pour des établissements situés à la Réunion.
etc…”
“Il y a des incohérences au niveau des fichiers historiques des contours IRIS sur le site de l’IGN Contours... IRIS® | Géoservices.
Quand on souhaite télécharger la version 2016 on récupère la version 2017, en voulant télécharger la version 2015 on récupère en fait la version 2016. A partir de 2014 les liens sont de nouveau ok.
En conséquence, la version 2015 n’est pas téléchargeable sauf à connaître le lien direct.”

Demande de correction

Le commentaire demande l’ajout d’une donnée ou la correction d’une erreur dans le fichier.
Exemples :

“Bonjour,
L’adresse mail pour s’adresser à notre DPO à changer, comment modifier cette donnée dans les ressources ?
Merci.”
“Bonjour,
Le fichier GTFS pointe vers celui du CG38. En changeant l’adresse et mettant CAPI à la place, j’obtiens le bon fichier.
Pouvez-vous corriger l’adresse ? Merci d’avance”

Compréhension :

L’usager ne saisit pas le sens des données.

Absence de description des variables

Les métadonnées du jeu de données ne sont pas renseignées, l’utilisateur ne comprend pas à quoi correspondent les variables.
Exemples :

“Bonjour,
Votre fichier m’intéresse beaucoup,
Cependant, serait-il possible d’avoir plus de précisions sur ce à quoi correspondent les champs du fichier?
Y-a-t-il un fichier de métadonnée?
En vous remerciant par avance,
Bien cordialement”
“Bonjour, à l’ouverture du fichier CSV on voit que le contenu a l’air passionnant mais si certaines questions peuvent être déduites du contenu, ce n’est pas le cas pour la majorité et les en-têtes de colonne n’aident pas. Y a-t-il une notice disponible avec la traduction des codes en en-têtes, par exemple « a5ab__a5ab_1 » s’il vous plaît ?
Bien cordialement”

Descriptions imprécises

La description proposée ne permet pas de comprendre le jeu de données ou est incomplète.
Exemples :

“Bonjour,
Est ce que ces données sont exhaustives pour les établissements en France ? A quelle année cela correspond ?
Merci de votre réponse”
“Bonjour, pourriez vous m’indiquer comment vous avez produit les données relatives à l’urbanisme sur la commune ?
Merci”

Autre

Regroupe les commentaires n’ayant pas pour objet un problème lié aux données ou à la structure d’un fichier.

Questions ou remarques d’usagers

Questions ou remarques n’ayant pas de lien avec les données elles-mêmes.
Exemples :

“Bonjour, nous venons d’ouvrir un centre de vaccination Covid (code postal 69007). La CPAM nous indique de contacter Santé France afin de pouvoir suivre le nombre de vaccination générée sur notre Centre.
D’avance merci pour votre retours
Cordialement”
“Bonjour,
Qu’en est il de l’art thérapie ?
En effet j’aimerai démocratiser l’art thérapie avec l’appuie de l’Etat lors de prochaine jourée des arts et de la culture. Je suppose que le calendrier 2020 est compris à cause du COVID mais pour 2021, quelles seraient les démarches ?
Cordialement”

Proposition de mots-clefs

Le commentaire relève d’une option proposée par la plateforme pour ajouter un mot-clef au jeu de données.
Exemples :

“Bonjour,
Je propose ce nouveau mot-clé : base-adresse-locale
Cela permet le référencement automatique sur adresse.data.gouv.fr
En attendant nous faisons un référencement manuel.”
“Bonjour,
Je propose ce nouveau mot-clé : Klekoon”

Commentaire sans valeur

Le commentaire ne contient aucune information pertinente ou a été supprimé.
Exemples :

“DELETED”
“mon com”

Information des ré-utilisateurs

Message informant les utilisateurs à propos d’un changement ou de la suppression d’un jeu de données.
Exemples :

“Bonjour,
Une annonce publiée au BODACC a été supprimée.
Si vous êtes ré-utilisateurs de ces données, vous devez impérativement supprimer cette annonce ; merci de nous contacter immédiatement à [email protected] en indiquant dans le titre « Annonce BODACC à supprimer ».
Administration des données”
“Bonjour,
Nous vous informons qu’une actualisation du dossier DTD est publiée dans le répertoire DTD LEGIFRANCE en remplacement de l’ancien.
Ce dossier est accessible aux adresses suivantes :

Message automatique

Message généré automatiquement par un bot.
Exemples :

“Bonjour,
Ce jeu de données arrive à expiration dans 7 jours.
Afin qu’il puisse continuer à être utilisé par les différents acteurs, il faut qu’il soit mis à jour prochainement.
L’équipe transport.data.gouv.fr
“Bonjour,
Vous recevez ce message car ce jeu de données est une consolidation qui se veut conforme au schéma etalab/schema-lieux-covoiturage, ce qui a déclenché un contrôle automatique de vos données par notre robot de validation.

3 « J'aime »

Merci encore pour ce travail précieux !

Nous avons fait un court article pour le mettre en avant :

Je compte sur toi @samgoeta pour le partager aux étudiants :slight_smile:

Très bonne journée,

1 « J'aime »