Assistance à la documentation des données

Bonjour à toutes et tous,

Nous avons travaillé ces derniers mois à la refonte du parcours de publication des données sur data.gouv.fr. Notre objectif principal est d’accompagner au mieux les producteurs de données en leur offrant une aide contextuelle qui leur permettra d’améliorer la qualité de leurs données.

Nous sommes heureux de vous présenter une première version du prototype.

Les retours sont bienvenus, ici ou via ce court questionnaire :slightly_smiling_face:

En ce qui concerne la documentation des données, nous avons réfléchi à plusieurs options :

  1. Fournir simplement une aide sur le côté.
  2. Indiquer un exemple d’état vide.
  3. Pré-remplir la description d’office (comme on peut le faire sur les issues Github par exemple).
  4. Découper la documentation en plusieurs sous-sections en s’appuyant sur le modèle de datasheet for datasets.

Chaque option a ses avantages et inconvénients et je suis preneurs de vos avis !

3 « J'aime »

Bonjour Antonin,

Merci de ce partage.

J’ai une évolution à proposer (une de mes « marottes ») qui ne remet pas en cause cette première version mais cible plutôt une deuxième version :

  • sur la première page, ajouter une option supplémentaire « publier avec modèle de données » serait utile.

Pourquoi ?

  • La notion de modèle de données fait partie des recommandations pour bien documenter un jeu de données (cf nouveau guide)
  • Le modèle de données permet de comprendre la structure d’un jeu de données, il est en ce sens complémentaire au schéma de données (le schéma de données s’intéresse plus particulièrement à chacun des champs). Pour s’en convaincre, il suffit de comparer le modèle de données IRVE et le schéma de données IRVE
  • Le modèle de données peut être construit et publié simplement (cf exemple Mermaid dans le lien du modèle IRVE, mais il peut être construit également en Json ce qui permet de générer la visualisation Mermaid ainsi qu’un template de schéma de données incluant également la fomalisation des relations (cf issue TableSchema toujours pas examinée…))
  • Le modèle de données exprime des règles d’intégrité (relations) qui se traduisent par des dépendances entre champs qui peuvent être contrôlées facilement et qui évitent de publier des données incohérentes (cf exemple de contrôle sur les données IRVE)
  • le modèle de données permet également de construire un référentiel des données qui peut être consolidé en amont (une autre de mes « marottes » mais que je développerait dans un autre message).
1 « J'aime »