Nouveaux guides pour Etalab et data.gouv.fr đź“š

Bonjour Ă  toutes et tous, :wave:

Nous avons travaillé à la refonte des guides et de la documentation de data.gouv.fr.

Cette nouvelle version a vocation à accompagner au mieux les démarches d’ouverture et de réutilisation de données.

Vous y trouverez ainsi des aides, des conseils et des bonnes pratiques pour :

  • RĂ©pondre aux obligations lĂ©gales d’ouverture de donnĂ©es publiques ;
  • AmĂ©liorer la qualitĂ© de vos donnĂ©es ;
  • Bien utiliser data.gouv.fr ;
  • etc.

Ces nouveaux guides reprennent à la fois les guides d’Etalab et la documentation de data.gouv.fr en les enrichissant.

Voici le lien vers la premiere version (qui deviendra guides.data.gouv.fr)

Nous attendons vos retours avec impatience via un petit questionnaire.

Si vous avez d’autres ressources qui vous semblent pertinentes à référencer n’hésitez pas à nous le faire savoir :slight_smile:

Merci !

1 Like

Bonjour Antonin,

J’ai regardé attentivement le chapitre « lier des données à un référentiel » et je partage totalement ce qui y est présenté.

Par contre, je suis resté sur ma faim car je n’ai pas trouvé d’explication du mécanisme qui permet de décrire les référentiels et de lier les données aux référentiels.

C’est aussi une autre de mes « marottes » (cf après celle postée en réponse à la proposition d’aide à la publication) pour laquelle je « pousse » une solution :

  • La solution consiste Ă  ajouter une notion de « type » au nom d’un champ d’un fichier CSV ou bien dans une reprĂ©sentation JSON,
  • le « type » correspond soit Ă  une donnĂ©e standard (ex. date, position…), soit Ă  une donnĂ©e d’un rĂ©fĂ©rentiel (les rĂ©fĂ©rentiels pouvant ĂŞtre imbriquĂ©s),
  • par exemple pour un type standard:
    • {"mise Ă  jour::date" : ["2021-02-01", "2022-02-03"]} est un Json qui porte le nom « mise Ă  jour » et qui dĂ©crit une liste de deux valeurs de type date,
    • {"fin de vacances:date" : "2023-09-02"} est un Json qui dĂ©crit l’objet qui porte le nom « fin de vacance », de type « date » et de valeur « 2023-09-02 »
    • pour un champ d’un CSV, on aurait la mĂŞme dĂ©nomination que dans le premier exemple : "mise Ă  jour::date"
  • pour les donnĂ©es des rĂ©fĂ©rentiels, on pourrait par exemple avoir dans le rĂ©fĂ©rentiel « fr » un type « siren », ce qui donnerait pour une liste d’entreprises : {"entreprises::fr.siren" : [ 1234, 5678]} ou bien un nom de champ dans un fichier CSV : "entreprises::fr.siren"

La mise en oeuvre prend alors deux formes :

  • la construction du rĂ©fĂ©rentiel des « types » (sous une forme arborescente permettant une dĂ©centralisation),
  • l’utilisation (optionnelle) des « types » dans les Ă©changes de donnĂ©es

Ceci pourrait généraliser d’une part la notion de « variable-pivot » et d’autre part la notion de « format détecté » qu’on retrouve dans « explore.data.gouv ».

Nota :

  • Cette notion de type intĂ©grĂ© au nom est gĂ©nĂ©ralisĂ© dans le format NTV (cf lien github qui inclut Ă©galement une première liste de « types » standards)
  • Une intĂ©gration au niveau de Pandas est envisagĂ©e (cf issue + PDEP (pandas enhancement proposal) (Ă  suivre)
  • Une confĂ©rence a Ă©tĂ© proposĂ©e pour « Opensource Experience » (Ă  suivre)