Schéma de données, CSV, JSON et données sémantiques

Bonjour,

Nous avons échangé cette année sur le thème des structures et formats d’échange de données au travers de plusieurs messages:

Votre participation m’a permis d’approfondir les sujets et d’orienter les actions engagées. Je profite donc de cette fin d’année pour vous donner en retour un avancement de celles-ci :

  • Validation et suivi qualité d’un jeu de données(bornes IRVE). Le suivi mis en place mesure l’intégrité des données et identifie les données à corriger. Il permet également de visualiser et de partager les améliorations réalisées. Après plus de 9 mois de suivi, le retour de cette action est positif : La qualité du jeu de données s’améliore. Je cherche actuellement à étendre cette méthode à un (ou plusieurs ?) autre jeu de données. Si vous avez des idées de jeux de données qui pourraient être intéressant à suivre, je suis preneur !

  • Evolution du standard TableSchema pour y inclure les dépendances entre champs (équivalent aux associations entre entités dans les modèles de données): Une issue TableSchema a été déposée mi 2022. Les échanges réalisé avec l’équipe en charge de la nouvelle version (V2) ont été constructifs et une spécification est en cours. Ce sujet devrait donc pouvoir être intégrée (j’espère…) à la V2 de TableSchema prévue pour mi-2024,

  • Format JSON pour les données pandas : L’objectif est d’une part de disposer d’un format JSON réversible (le Dataframe issu du JSON est identique à celui d’origine) et d’autre part de traiter tous les types de données pandas ou définis par Table Schema. Une spécification pandas a donc été rédigée (PDEP12) en ce sens mi-2023 en parallèle du développement de l’outil. Elle a conduit dans un premier temps à mettre en place cet interface dans l’écosystème pandas (ntv-pandas),

  • Mise à disposition de modules python: Tous les outils développés cette année sur le thème des structures et formats d’échange sont disponibles en open-source et accessible via pip ou Github.

  • json-ntv : gestion du format NTV et de l’interface JSON,

  • ntv-pandas : interface pandas / JSON (format NTV et Table Schema)

  • tab-analysis : analyse des structures de données tabulaires et multi-dimensionnelles

  • tab-dataset : gestion de données tabulaires
    Si vous souhaitez avoir des précisions ou effectuer des tests sur ces outils, n’hésitez-pas à me solliciter

  • Engagement d’une action de standardisation auprès de l’IETF (principal contributeur des standards RFC). Deux spécifications rédigées cette année sont prises en compte dans le référentiel IETF : JSON semantic format (JSON-NTV) et NTV tabular format (NTV-TAB). Le sujet NTV a également été présenté lors de la convention IETF118 en novembre. Un travail complémentaire doit être engagé pour répondre aux questions posées (il y a encore du chemin pour obtenir le statut de RFC…).

Le bilan de cette année est donc plutôt positif et je prévois de compléter ce message en début d’année prochaine avec les orientations et les activités envisagées pour 2024.

En attendant, bonnes fêtes de fin d’année (bien méritées je suppose) !

3 Likes