#TeamOpenData

4 - Standardiser les jeux de données

CONTEXTE

Afin de limiter le nombre de jeux de données inutilisés et en garantir leur qualité et leur interopérabilité, certains jeux de données font l’objet d’une standardisation.

La standardisation des données offrent un cadre méthodologique et technique à la publication. Elle vise à préciser quelles sont les champs essentiels, les formats raisonnables (nombre de décimale), la structure du jeu de donnée. La normalisation des données est un gage de qualité donc de réutilisation et un bénéfice potentiellement positif au regard du coût écologique de sa publication.

Elle facilite l’homogénéisation des publications et l’identification de jeu de données. L’utilisation de standard, comme proposé à travers le Socle Commun des Locales :

  • invite les collectivités à prioriser l’ouverture des données territoriales particulièrement intéressantes dans le champ de la transparence ou de la création de services, et pouvant constituer un socle national
  • aide les producteurs à ouvrir et à améliorer la qualité des données qu’ils publient.
  • facilite l’interopérabilité des données et leurs exploitations par les réutilisateurs (agrégation, consolidation et traitements automatiques).

DESCRIPTION DE LA BONNE PRATIQUE

1- Voir et étudier les standards de données existants

Les schémas disponibles, en cours d’élaboration ou à proposer sont accessibles via schema.data.gouv.fr. Ce service aide les producteurs de données à connaître et comprendre les gabarits de données attendus.

La documentation des schémas précise les modèles de données :

  • Description des données essentielles,
  • Formats (chaîne de caractères, nombre entier, géolocalisation à x décimales, date…),
  • Champ obligatoire ou optionnel,
  • Modalité de mise à jour,
  • etc …

2 - Associer un jeu de données à un schéma existants

Il est recommander d’indiquer si un jeu de données correspond à un schéma depuis l’interface d’administration de data.gouv.fr. Le fait d’indiquer qu’une ressource respecte un schéma permet de bénéficier de vérifications de la qualité des données et d’indiquer aux réutilisateurs que vos données respectent un standard.

Certains producteurs choisissent de faire figurer dans le titre ou la description si le jeu de donnée est associé à un standard. Il serait aussi envisageable de le préciser dans les métadonnées, en intégrant dans la description un lien à la documentation du standard utilisé.


Capture d’écran de la sélection d’un schéma depuis l’interface d’administration de data.gouv.fr

3 - Encadrer les prestataires pour garantir la compatibilité de jeux de données produits aux schémas existants.

Lorsque les données produites dans le cadre d’un marché font partie des données mentionnées dans le référentiel national Socle Commun des Données Locales, le titulaire peut être tenu de transmettre ces données à la collectivité dans les formats décrits dans le standard.

Les formats de transmission des données autres que celles mentionnées dans le référentiel national Socle Commun des Données Locales, seront transmises à la collectivité sous un format ouvert qui devra être décrit dans le mémoire technique. Voir : Clauses à insérer dans les marchés publics


RETOUR D’EXPERIENCE

Les données ouvertes accessibles sur Jeux de données - data.gouv.fr proposent un filtrage par schémas.


EVALUATION

Priorité :

  • prioritaire,
  • recommandée,
  • pour aller plus loin

Mise en œuvre :

  • facile,
  • moyenne ,
  • difficile

Exemple de pilote : Délégué ou référent aux données ouvertes et responsables

Exemple(s) d’indicateur(s) de pilotage

  • % de données ouvertes publiées associés à un schéma de données

Lien vers la fiche : 4 - Standardiser les jeux de données - GREENDATA pour un impact maîtrisé des données


Votre avis nous intéresse.
Que pensez-vous de ces propositions ?

  • :green_circle: D’accord,
  • :orange_circle: Mitigé,
  • :red_circle: Pas d’accord.

0 votant

Vous avez des suggestions ?
Commentez ci-dessous !

Tout à fait d’accord avec ces préconisations en général.

L’impératif de formalisation (avant de penser au standard) ne doit pas être conditionné au SCDL.
De très nombreuses données sont attendues ouvertes et formalisées de manière homogène sans faire partie du SCDL pour autant.

Pourquoi faudrait-il distinguer SCDL ou non dans ce cadre ?

tout à fait d’accord avec la proposition de rajouter une métadonnée indiquant le standard utilisé. Serait-ce possible de créer une taxonomie autour de ces standards qu’on pourrait faire intégrer par défaut par les éditeurs de portail open data ?

Bonjour,

Je suis globalement en phase avec cette fiche, sauf pour le Référentiel Général d’Interopérabilité inclus dans la fiche 4 au chapitre ‹ ressources › qui est bien construit et pertinent mais qu’il faudrait actualiser.

Est-ce qu’il est prévu de le mettre à jour (version de 2015) ? → si oui, je peux envoyer mes remarques et commentaires sur ce document.

Bonne journée