Schéma de données, CSV, JSON et données sémantiques

thomyphi · Décembre 21, 2023, 10:16

Bonjour,

Nous avons échangé cette année sur le thème des structures et formats d’échange de données au travers de plusieurs messages:

Augmenter le niveau sémantique des données partagées qui abordait la possibilité d’enrichir les données Json avec un typage,
Evolution du standard “table schéma” qui proposait de faire évoluer le format Table Schema pour y inclure des contraintes d’intégrité entre champs,
Gestion des structures tabulaires sur la question des outils qui traitent de la structure des données tabulaires
Est-ce la fin du format CSV? qui évoquait les limitations du format CSV et les pistes d’évolution
Schéma de données: un trou dans la raquette? : plaidoyer pour l’utilisation des modèles de données et leur contrôle dans les jeux de données tabulaires

Votre participation m’a permis d’approfondir les sujets et d’orienter les actions engagées. Je profite donc de cette fin d’année pour vous donner en retour un avancement de celles-ci :

Validation et suivi qualité d’un jeu de données(bornes IRVE). Le suivi mis en place mesure l’intégrité des données et identifie les données à corriger. Il permet également de visualiser et de partager les améliorations réalisées. Après plus de 9 mois de suivi, le retour de cette action est positif : La qualité du jeu de données s’améliore. Je cherche actuellement à étendre cette méthode à un (ou plusieurs ?) autre jeu de données. Si vous avez des idées de jeux de données qui pourraient être intéressant à suivre, je suis preneur !
Evolution du standard TableSchema pour y inclure les dépendances entre champs (équivalent aux associations entre entités dans les modèles de données): Une issue TableSchema a été déposée mi 2022. Les échanges réalisé avec l’équipe en charge de la nouvelle version (V2) ont été constructifs et une spécification est en cours. Ce sujet devrait donc pouvoir être intégrée (j’espère…) à la V2 de TableSchema prévue pour mi-2024,
Format JSON pour les données pandas : L’objectif est d’une part de disposer d’un format JSON réversible (le Dataframe issu du JSON est identique à celui d’origine) et d’autre part de traiter tous les types de données pandas ou définis par Table Schema. Une spécification pandas a donc été rédigée (PDEP12) en ce sens mi-2023 en parallèle du développement de l’outil. Elle a conduit dans un premier temps à mettre en place cet interface dans l’écosystème pandas (ntv-pandas),
Mise à disposition de modules python: Tous les outils développés cette année sur le thème des structures et formats d’échange sont disponibles en open-source et accessible via pip ou Github.
json-ntv : gestion du format NTV et de l’interface JSON,
ntv-pandas : interface pandas / JSON (format NTV et Table Schema)
tab-analysis : analyse des structures de données tabulaires et multi-dimensionnelles
tab-dataset : gestion de données tabulaires
Si vous souhaitez avoir des précisions ou effectuer des tests sur ces outils, n’hésitez-pas à me solliciter
Engagement d’une action de standardisation auprès de l’IETF (principal contributeur des standards RFC). Deux spécifications rédigées cette année sont prises en compte dans le référentiel IETF : JSON semantic format (JSON-NTV) et NTV tabular format (NTV-TAB). Le sujet NTV a également été présenté lors de la convention IETF118 en novembre. Un travail complémentaire doit être engagé pour répondre aux questions posées (il y a encore du chemin pour obtenir le statut de RFC…).

Le bilan de cette année est donc plutôt positif et je prévois de compléter ce message en début d’année prochaine avec les orientations et les activités envisagées pour 2024.

En attendant, bonnes fêtes de fin d’année (bien méritées je suppose) !