Une solution d'enrichissement et de publication de données : DataFair

outils
api
datamanagement
opendata

(Joël Gombin) #1

DataFair permet d’enrichir et de partager facilement ses données pour pouvoir ensuite les utiliser dans des applications. Le partage des données peut se faire en mode privé (private data) ou public (open data). Pour l’instant, les données partageables sont des données de type tabulaire, mais le service devrait bientôt supporter d’autres formats, comme les données géographiques. DataFair permet de mettre facilement des données à disposition, mais les métadonnées sont minimes et ce n’est donc pas un service de catalogage. Il peut donc être un excellent complément à un service comme udata utilisé sur le site data.gouv.fr.


(Nicolas Bonnel) #2

Bonjour,

Je me disais que j’allais bientôt présenter le projet ici, mais ce n’est plus nécessaire ! Pour le nom du projet, on est parti du sujet ici sur le lien entre Open Data et FAIR, et on est parti sur un jeu de mots basé sur “la foire aux données”.

L’idée est est de pouvoir API-fier des données fichier (tabulaires pour l’instant) facilement pour pouvoir les rendre interopérables avec d’autres APIs et des applications. L’interopérabilité se fait avec l’utilisation d’un vocabulaire sémantique commun.

Quand on charge un jeu de données, on peut typer les colonnes avec ce vocabulaire : une colonne peut être une code siret, un code insee, un code parcelle ou une paire lat/lon par exemple. On peut ensuite configurer des applications qui vont utiliser certains types de données. On a par exemple une application Infos Parcelles : https://koumoul.com/s/data-fair/app/infos-parcelles qui peut être configurée avec 3 éléments :

  • un dataset qui a une colonne de type code parcelle et une colonne de type lat/lon (obligatoire)
  • des fond de carte du cadastre (obligatoire)
  • une api qui prend en entrée une adresse et rend une paire de coordonnées (optionnel pour la barre de recherche)

Le service peut être testé sur notre site (n’hésitez pas à me contacter car la documentation est encore à améliorer) ou déployé soi-même. Le service étant encore très jeune, nous sommes très preneurs des différents retours qu’on pourrait avoir et je répondrai avec plaisir ici aux différentes questions.


(Joël Gombin) #3

Peut-être intéressant pour la team #Qualidata @CharlesNepote @johan


(Johan) #4

Ca ressemble fichtrement à Datahub ! :smiley: (on en parlait ici)
Dans quel format sont stockés les fichiers ? Datapackage ?


(Nicolas Bonnel) #5

Les fichiers sont stockés tels quels comme ça l’utilisateur peut retélécharger son fichier d’origine. Les données des fichiers sont indexées dans ElasticSearch.

Je ne connais pas trop Datahub, mais il a l’air axé fichier (on télécharge des csv ou des bouts de csv), je ne vois pas d’API Rest pour accéder aux données des datasets.


(Nicolas Bonnel) #6

Nous avons récemment ajouté un nouveau type de ressources : les catalogues. Cela permet de faire des exports des descriptions et schémas des jeux de données pour faciliter la publication. Nous avons implémenté un connecteur qui est pour uData (utilisé pour data.gouv.fr). Une organisation peut ainsi publier des jeux de données sous forme d’API, donc interopérables et réutilisables, sans forcément avoir de portail Opendata.

Le connecteur permet aussi d’exporter les applications configurées sous forme de réutilisations. Les connecteurs sont des plugins, on peut donc en développer un maison pour se connecter à un catalogue en particulier. Nous en avons développé un qui permet d’exporter un dataset vers un service d’un de nos partenaires qui va l’analyser pour savoir si les données peuvent être sensibles ou pas, ce qui permet par exemple de faire une première vérification avant de rendre le dataset public sur un autre catalogue comme data.gouv.fr.

Nous pensons en plus de l’export rajouter l’import : on pourrait imaginer se connecter à un catalogue, récupérer tous les jeux de données d’une organisation qui ont des formats structurés, les APIfier puis remettre a jour la description du catalogue avec ces nouvelles ressources.