Lancement de l'observatoire open data des territoires

samgoeta · Mars 22, 2018, 1:24

Sur ce point, les portails OpenDataSoft peuvent mettre en avant le nombre d’enregistrements (=lignes) dans chaque jeu de données. C’est généralement (mais pas toujours) un bon indicateur de la granularité du jeu de données. Quand c’est activé, je fais généralement un tri sur les portails par nombre d’enregistrements.

Je n’ai pas trouvé la même fonctionnalité sur d’autres solutions de portail. Le poids du fichier peut être trompeur selon les formats mais en csv c’est assez révélateur en effet.

loichay · Mars 22, 2018, 6:11

Oui, pour le moment, seules les plateformes OD génériques où des collectivités locales (com, epci, dep, reg, mais pas encore les autres formes d’interco) publient des données ouvertes sont dans le périmètre. Les plateformes thématiques, sous réserve qu’elles diffusent effectivement des données ouvertes, et les acteurs associés (porteur-s et contributeur-s) seront progressivement ajoutés : IDG territoriales et SIG web locaux pour les données géographiques, mais aussi tourisme, urbanisme, transport, etc.

Il y a effectivement une erreur pour Quimper : l’id de plateforme me renvoie sur Mulhouse ;-(
CC Bretagne Romantique publie des données ouvertes (d’emprise nationale !) avec Metanol : https://bretagneromantic.fr/e-services/open-data/donnees/
Pour les autres, elles publient au minimum 1 jeu de données sur Dat’Armor (portail mutualisé)

loichay · Mars 22, 2018, 6:15

C’est une v0 toute fraîche et pas tout à fait sèche ! La consolidation et les collaborations s’engageront entre aujourd’hui et octobre prochain …

BorisM · Mars 22, 2018, 7:13

merci pour les précision, par contre la CC de Bretagne Romantique ne publie rien en OD à ma connaissance (ils avaient commencé avec OpenDatasoft pour au final faire marche arrière). Le lien auquel tu fais référence est un truc générique metanol il y a 155 jeux de données génériques qu’on retrouve ailleurs.

Je pinailles un peu mais c’est un important d’être le plus exhaustif possible dans votre démarche, surtout que ce qui marque les esprits c’est les chiffres clefs et la carte

loichay · Mars 22, 2018, 9:08

C’est justement ce geste d’engagement « minimum » (la publication d’au moins 1 jeu de données) que nous avons retenu pour déterminer si un acteur peut être intégré dans le corpus (c’est souvent le cas de contributeurs sur les portails mutualisés, data.gouv.fr compris). C’est aussi pour cette raison que les IDG territoriales ne seront intégrées que dans un second temps. Le mode de gouvernance et les solutions techniques des plateformes de données géographiques sont des cas spécifiques : quelles sont les géodata effectivement ouvertes (souvent juste un tag, qui plus est hétérogène, dans le catalogue sans mention explicite de licence) ? qui les produit et les partage parmi les partenaires annoncés sur chaque plateforme et sont-ce des collectivités locales ou d’autres types d’acteurs ?

loichay · Mars 22, 2018, 10:00

C’est notamment sur cette question essentielle que les tentatives d’automatisation de la collecte atteignent leurs limites, car elles sont très dépendantes des fonctionnalités activées et disponibles sur les différentes plateformes … Pour évaluer les usages (à qui et à quoi ça sert ?), il est indispensable de recueillir des informations directement auprès des acteurs impliqués et donc de croiser avec des méthodes d’enquête qualitative !

loichay · Mai 1, 2018, 3:31

Les données brutes de l’observatoire v0 ont été publiées sur data.gouv.fr le 20/04. Elles recensent les plateformes et les organisations qui participent au développement de l’open data dans les territoires. Elles ne concernent, pour le moment, que les collectivités locales françaises (restreintes aux communes, EPCI à fiscalité propre, départements et régions) qui publient des données ouvertes (a minima un jeu de données).

Le jeu de données est disponible ici :
https://www.data.gouv.fr/fr/datasets/donnees-de-lobservatoire-open-data-des-territoires-v0/

Il contient les ressources suivantes :

Modèle de données qui décrit la structure des 2 tables en PDF
Données brutes de la table des plateformes en CSV
Données brutes de la table organisations en CSV
Carte des collectivités open data en GEOJSON (voir la carte uMap)

mathieu · Mai 2, 2018, 3:49

Bonjour Loïc @loichay ,

Merci à tous ceux qui ont travaillé sur le recueil des données de cette v0.
J’ai pris un peu de temps pour regarder ce qu’elles contiennent et j’ai quelques questions, remarques et suggestions.

Pourquoi n’y a-t-il que 2 tables, respectivement pour les plateformes et les organisations?

Un grand nombre de champs de chacune de ces deux tables décrit une information relationnelle dont les arités sont variables:

Chaque organisation porte entre 0 et 2 plateformes et contribue à 0 à 3 plateformes ;
Chaque plateforme est portée par 1 ou 2 organisations et recueille les contributions de 0 à 136 organisations.

Actuellement la table des plateformes comporte donc 136 colonnes pour les identifiants des contributeurs (PTF_ORGA_ID_CONTRIB{1…136}), dont l’immense majorité des colonnes ne contiennent qu’une seule valeur, à la ligne correspondant à la plateforme data.gouv.fr.

Outre le fait que ce n’est pas idéal d’avoir une table avec autant de valeurs manquantes (du point de vue de la manipulation, de la visualisation…), cela signifie également que le schéma de ces tables ne sera sûrement pas stable dans les prochaines versions de l’observatoire: il suffit qu’une 137e collectivité contribue des données sur data.gouv.fr, ou que des collectivités disparaissent (par exemple, par fusion).

Cette modélisation d’une information relationnelle est d’autant plus problématique que le “rang” des contributeurs (1, 2, …, 136) n’a pas de sémantique réelle: est-ce qu’être contributeur 3 ou 50 sur data.gouv.fr signifie quelque chose?
La même question peut éventuellement se poser pour le rang des porteurs (1, 2), de façon plus discutable.

Dans ce cas de figure, je trouverais plus logique d’avoir une ou deux tables pour les porteurs et contributeurs, où chaque entrée relierait une plateforme et une organisation, et contiendrait les informations propres à cette relation comme le nombre de jeux de données déposés par l’organisation sur la plateforme et l’url d’accès à ces données. Si le rang des porteurs ou contributeurs a une sémantique bien définie, on peut également le stocker dans une(unique) colonne dédiée de ces tables.
Ainsi, on aurait quatre tables (plateformes, organisations, porteurs, contributeurs) dont les schémas seraient stables et auraient une sémantique claire, et dont le contenu aurait très peu de valeurs manquantes.

Quelle a été la méthodologie de recueil de ces informations, et quels contrôles qualité ont été appliqués?

Par exemple, quatre collectivités sont listées comme contributrices à la plateforme Dat’Armor (Beaussais-sur-Mer 200064699, CC Lamballe Terre et Mer 200069391, Ploufragan 212202154, La Vicomté-sur-Rance 212203855) dans la table des plateformes, mais n’apparaissent pas dans la table des organisations, alors que trois collectivités (Plérin 212201875, CA Lannion-Trégor Communauté 200065928 et Plaintel 212201719) apparaissent dans la table des organisations comme alimentant cette plateforme, mais ne figurent pas parmi les contributeurs dans la table des plateformes.

Par ailleurs, les entrées concernant certaines organisations semblent incomplètes ou périmées.
Ainsi l’entrée dans la table des organisations pour la métropole Aix-Marseille Provence (AMP) liste 3 contributions:

10 jeux contribués sur data.gouv.fr par l’ex-Marseille Provence Métropole (MPM), actuellement non disponibles,
1 jeu contribué sur opendata.regionpaca.fr, qui est en réalité un lien vers la page sur datasud listant les jeux de données déposés par AMP sur datasud,
11 jeux effectivement déposés par AMP sur datasud.
A contrario, les 6 jeux de données anciennement contribués sur data.gouv.fr par le SAN Ouest Provence, qui fait également partie de la nouvelle métropole Aix-Marseille Provence, ne sont pas inclus dans cette entrée.

Merci d’avance à tous pour vos éclaircissements et retours !

Mathieu

nicolas-bonnel · Mai 2, 2018, 5:08

Bonjour, et merci pour la mise à disposition de ces données.

J’ai essayé de visualiser le fichier GeoJSON, mais il est assez lourd, donc pas facile à manipuler. 2 pistes d’amélioration :

Retirer les espaces, tabulations et sauts de ligne : on passe d’un fichier de 72 Mo à 28 Mo. Ça devient plus dur à ouvrir dans un fichier texte, mais je ne pense pas que ça soit le but premier du fichier.
Est il possible de simplifier les géométries ? Les coordonnées sont sur 12 décimales (6 devrait suffire). De plus n’y a t’il pas doublon entre la propriété “the_geom” et la géométrie ? On pourrait la encore alléger le fichier.

Et pourquoi les villes sont-elles modélisées avec des points et non un tracé ? Si toutes les entités avaient un tracé, on pourrait imaginer indexer le fichier et avoir la liste des portails qui ont des jeux de données sur une position donnée. Ça rendrait aussi le jeu de donnée plus homogène.

En tout cas bravo pour le travail réalisé !

loichay · Mai 3, 2018, 12:06

Merci pour ces questions, remarques et suggestions.

Elles m’offrent l’occasion d’éclaircir les conditions dans lesquelles ces premières données ont été produites : elles ont été saisies et consolidées manuellement (prototype v0).

Pour ce faire, il s’est avéré nécessaire de séparer les 2 tables plateformes et organisations tout en définissant des données pivots (id) pour assurer leur croisement.

La sémantisation des relations et l’ordre des colonnes variables n’étaient pas prioritaires. Les objectifs principaux étaient de produire des résultats chiffrés pour commencer à dessiner le paysage et surtout de stabiliser l’identification des plateformes et des organisations sur un périmètre restreint : celui des collectivités territoriales stricto sensu publiant effectivement des données ouvertes (a minima 1 jeu de données).

Maintenant stabilisée, cette identification doit nous permettre :

d’élargir le corpus d’observation à d’autres catégories d’acteurs (notamment les autres formes d’intercommunalités, mais aussi les agences et organismes para-publics, les délégataires de service public, voire les services déconcentrés de l’Etat et autres producteurs de données d’intérêt territorial);
de compléter progressivement la table des plateformes;
de commencer à moissonner les métadonnées des datasets et statistiques d’usage lorsqu’elles sont disponibles en nous concentrant, dans un premier temps, sur les solutions techniques les plus utilisées (udata, opendatasoft, ckan …) et sans, très certainement, aller jusqu’à créer des scrappers spécifiques;
de réconcilier et d’exploiter au mieux les données moissonnées pour automatiser la génération d’indicateurs homogènes et généralisables (scripts de traitement et de calcul).

La méthode de recueil manuel des informations atteint en effet ses limites dès qu’il s’agit d’aller jusqu’aux datasets. 4 mains et 4 yeux ne suffisent déjà plus pour éviter les erreurs de saisie ou de report d’une table à l’autre (j’ai bien noté les corrections à apporter).

Cette itération nous a tout de même appris à repérer quelques écueils auquels il faut faire attention :

Maîtriser les effets des recompositions et réformes territoriales dans le temps (fusion ou création)
Suivre les évolutions des plateformes (migration openpaca > datasud)
S’assurer que les organisations publient effectivement des données ouvertes (certains des partenaires annoncés sur datarmor n’ont pas encore publié)

loichay · Mai 3, 2018, 4:46

J’ai du renommer le dataset publié sur data gouv … Effet de bord : l’url a changé https://www.data.gouv.fr/fr/datasets/donnees-de-lobservatoire-open-data-des-territoires-millesime-2018-v0-1/

loichay · Mai 3, 2018, 5:26

Merci pour ce retour qui permettrait effectivement d’améliorer le poids du fichier GeoJSON

Celui-ci a été créé rapidement dans QGIS en croisant les données de la table Organisations avec celles du référentiel Admin Express de l’IGN http://professionnels.ign.fr/adminexpress. L’objectif était avant tout d’importer chacune des couches dans la carte uMap pour la mettre à jour.

Cette mise à jour a permis de créer un fichier GeoJSON unique (export) intégrant les géométries spatiales (des points pour les communes et des polygones pour les autres types de collectivité). C’est celui-ci qui a été mis à disposition en tant que ressource dans le dataset publié (cadeau bonus non prévu au départ).

Pourquoi les villes sont-elles modélisées avec des points et non un tracé ? Pour faciliter la visualisation sur la carte et pour anticiper la forme de représentation qui sera appliquée aux autres intercommunalités (hors EPCI à fiscalité propre) pour lesquelles Admin Express ne pourra pas nous fournir de tracé.
Pourquoi les géométries n’ont-t-elles pas été simplifiées ? Le niveau de détail (et donc le poids) des géométries est celui issu du référentiel de l’IGN.

Si vous en êtes d’accord, pourriez-vous publier le fichier GeoJSON allégé en tant que réutilisation / amélioration sur data gouv ?

nicolas-bonnel · Mai 7, 2018, 8:33

J’ai réussi à descendre à un fichier de 12 Mo. Il est publié sur data.gouv.fr.

loichay · Mai 7, 2018, 8:14

Merci pour cette cure drastique > passage de 69.1 MB à 11.4 MB !

samgoeta · Juillet 3, 2018, 3:46

Bonjour,
est-ce que l’enquête par questionnaire est publiée ? Peut-on voir les questions ? Quand les résultats seront-ils publiés ?
Merci pour toute précision !

loichay · Juillet 4, 2018, 8:33

L’enquête par questionnaire a été lancée le 1er juin https://twitter.com/opendata_fr/status/1002477477086756864 et la période de recueil initiale des réponses a été prolongée jusqu’à avant-hier https://twitter.com/opendata_fr/status/1011236354267721729 Le questionnaire est toujours en ligne et tu pourras voir les questions ici https://form.jotform.com/81131895884972. Aujourd’hui, ce questionnaire a fait l’objet de 47 soummissions. Le dépouillement, l’approfondissement via des entretiens téléphoniques avec certains répondants et l’analyse des informations recueillies se dérouleront pendant l’été … pour des résultats et une restitution à la rentrée. Voilà pour les précisions !

samgoeta · Juillet 5, 2018, 12:24

Merci beaucoup @loichay, les résultats vont être très intéressants.

La question qu’on se posait avec @joel n’est pas dans le questionnaire, savoir quel service porte le projet d’open data et si ça oriente le projet de certaines façons.

loichay · Juillet 5, 2018, 2:05

Dans la partie 3 : Qui est chargé de la mise en oeuvre opérationnelle du projet open data ?

Un(e) référent(e) a été nommé(e)
Un poste spécifique a été créé
Une équipe projet a été mise en place

Si une ou plusieurs personne(s) assure(nt) la gestion opérationnelle du projet, pouvez-vous lister sa (ou leurs) fonction(s) avec son (ou leurs) rattachement(s) au sein de l’organisation ?

samgoeta · Juillet 5, 2018, 3:32

Merci @loichay, ça m’avait échappé !

samgoeta · Septembre 24, 2018, 10:31

Je me demandais : est-ce que des passerelles ont été faites entre ce projet et ce que fait l’Open Data Institute ? Je pense que ça intéresserait l’équipe de recherche qui a publié ce guide :
https://theodi.org/article/benchmarking-open-data-automatically/