Opportunité d'un collectif sur de la donnée essentielle de qualité

oui. J’ai commencé à tester datahub, c’est encore très work in process mais l’idée est assez séduisante.

Oui la philosophie de datahub est assez proche :

  • “Core = important and commonly-used datasets”
  • “Curate = take existing data and provide as high-quality, reliable and easy-to-use (standardized, structured, open)”

Pourquoi pas à terme, mais j’ai plusieurs problèmes relatifs à datahub :

  1. l’initiative est uniquement anglophone ce qui nous fait tout de suite perdre beaucoup de monde
  2. l’initiative reste un tantinet geek
  3. la doc n’est pas toujours très complète…

Et pousser des données sur Datahub demande plus de travail (mais avec plus de “services”, comme par exemple la documentation de chaque champ, etc.)

Pour le suivi, si vous êtes intéressé par le COG, il y a un meetup R sur le paquet COGugaison https://twitter.com/talkR_FR/status/964431659176157184

2 « J'aime »

J’ai passé la journée a essayer de m’en sortir avec l’historique des communes mais sans succès. J’aurais du chercher un peu mieux plus tôt, car ce repo a l’air vraiment bien : https://github.com/etalab/geohisto/

Il y a des CSV exportés dans le repo, pour les communes on a le code INSEE sur 5 caractères.

Mis à part le problème de millésimage du COG (j’ai assez écrit là dessus) sa diffusion actuelle ne me semble en effet pas satisfaisante dans sa forme.

Parmi les jeux de données faisant partie du SPD, Etalab se charge d’un certain nombre de remises en forme pour les données dont la diffusion lui a été confiées (ce n’est pas le cas du COG).
C’est le cas du cadastre, dont le format peu courant (EDIGEO) a clairement mis la priorité sur le besoin de générer des versions plus facilement réutilisables.

Pour le COG, un fichier CSV, restait facilement exploitable même si il a les défauts que vous avez indiqué (et je partage vos avis là dessus). De plus il est disponible sous cette forme depuis des années et les réutilisateurs s’y sont fait :wink:

Je fais remonter le besoin…

Oui et l’effort d’Etalab est ô combien louable de rendre plus accessibles certaines données. Mais on se rend compte que vous ne pouvez pas être partout, c’est pourquoi est née l’idée de ce collectif. Je pense qu’il peut être vu comme complémentaire de l’action d’Etalab. Il peut devenir une sorte d’antichambre des besoins.

Pour moi, le scénario serait le suivant :

  • le collectif publie des données sous forme plus accessibles en attendant mieux
  • Etalab reprend à son compte ces données plus accessibles ? alors l’action du collectif s’arrête et se tourne vers d’autres données

Les réutilisateurs actuels se sont fait au COG tel qu’il est. Mais je pense que la forme actuelle freine l’arrivée de nouveaux utilisateurs, moins aguerris. J’ai déjà fait remonté le besoin mais je n’ai pas eu de retour (il n’est pas redescendu jusqu’à toi :wink:

1 « J'aime »

Pour les jeux de données du SPD, il me semble naturel et logique qu’Etalab fasse l’effort ou industrialise éventuellement quelque chose déjà fait. On peut aussi espérer à faire remonter ces changements auprès du producteur lui même.

Je travaille par ailleurs depuis quelques temps sur les liens entre ces jeux de données du SPD. Le géocodage de SIRENE est un exemple (lien avec la BAN), mais il y a bien d’autre liens nécessaires dans les autres jeux de données qui manquent actuellement.
La présence d’identifiants (ce que j’appelle les liens) sont aussi un facteur important de qualité et de réutilisabilité des jeux de données.

En périphérie du SPD, il y a d’autres jeux de données où ces liens manquent. Exemple (en cours), le fichier des établissements scolaires. Y trouver le SIRET de l’établissement ne ferait pas de mal.

3 « J'aime »

Je rejoins ce qu’a dit @ThomasG77 sur le référentiel cartographique de l’IGN ADMIN EXPRESS qui est structuré et mis à jour mensuellement. Pas besoin de réinventer la roue :wink:

Concernant le jeu donnée, le format utilisé (shapefile) propose un dbf qu’en un clic dans excel ou calc on transforme en CSV.

En tous cas je trouves l’idée de constitution de jeux de “données essentielles” intéressante surtout dans des optiques d’usages simples.

Pourquoi pas ajouter d’autres informations à ce COG simplifié comme le département, la région ou encore le code postal.

1 « J'aime »