Nous avons travaillé ces derniers mois à la refonte du parcours de publication des données sur data.gouv.fr. Notre objectif principal est d’accompagner au mieux les producteurs de données en leur offrant une aide contextuelle qui leur permettra d’améliorer la qualité de leurs données.
J’ai une évolution à proposer (une de mes « marottes ») qui ne remet pas en cause cette première version mais cible plutôt une deuxième version :
sur la première page, ajouter une option supplémentaire « publier avec modèle de données » serait utile.
Pourquoi ?
La notion de modèle de données fait partie des recommandations pour bien documenter un jeu de données (cf nouveau guide)
Le modèle de données permet de comprendre la structure d’un jeu de données, il est en ce sens complémentaire au schéma de données (le schéma de données s’intéresse plus particulièrement à chacun des champs). Pour s’en convaincre, il suffit de comparer le modèle de données IRVE et le schéma de données IRVE
Le modèle de données peut être construit et publié simplement (cf exemple Mermaid dans le lien du modèle IRVE, mais il peut être construit également en Json ce qui permet de générer la visualisation Mermaid ainsi qu’un template de schéma de données incluant également la fomalisation des relations (cf issue TableSchema toujours pas examinée…))
Le modèle de données exprime des règles d’intégrité (relations) qui se traduisent par des dépendances entre champs qui peuvent être contrôlées facilement et qui évitent de publier des données incohérentes (cf exemple de contrôle sur les données IRVE)
le modèle de données permet également de construire un référentiel des données qui peut être consolidé en amont (une autre de mes « marottes » mais que je développerait dans un autre message).