Lancement de l'observatoire open data des territoires

samgoeta · Mars 21, 2018, 7:20

Le site (très joli) est en ligne : http://www.observatoire-opendata.fr/

V0 (mars 2018) : prototype de l’Observatoire
C’est le site actuel : http://www.observatoire-opendata.fr/
@loichay a présenté les premiers indicateurs : http://slides.com/loichay/resultats_v0, ma synthèse :

4411 collectivités concernées par la loi Lemaire
257 ont ouvert des données
33% des départements et 66% des régions ont déjà ouvert des données, 68% des métropoles
22k jeux de données publiés, croissance très forte depuis 2015

Les données brutes de ces chiffres seront publiés en open data en avril 2018.

V1 (octobre 2018) : Observatoire opérationnel
Le modèle de données sera consolidé, intéressant de voir qu’il y aura des données d’usage.

L’outi de collecte, de stockage et de traitement des données sera consolidé puis élargi à d’autres types d’acteurs territoriaux, essentiellement les intercommunalités. Une enquête par questionnaire sera réalisée pour compléter le recueil automatisé (par Sciences Po, chaire « villes et numérique » dont @acourmont est le responsable).
Un outil de visualisation dynamique des principaux indicateurs sera produit.

Edition annuelle de l’Observatoire : restitution et analyse régulière à partir de début 2019
Voici les indicateurs retenus pour le moment :

Je me pose trois questions @jmbourgogne @loichay :

Est ce que les données agrégées de tous les catalogues de données (les metametadata) seront ouvertes ? Dans ce cas, ça nous sera très utile pour le travail qu’on va conduire avec @mathieu sur la semi-automatisation du recensement.
Comment allez vous faire pour moissoner les catalogues ? Data.gouv.fr peine déjà à le faire et on s’est rendu compte que beaucoup de portails n’ont même pas cette fonctionnalité. Est-ce que vous allez faire du scrapping?
Comment comptez vous collecter les statistiques d’usage ? C’est vraiment très intéressant comme données mais il peut y avoir un gros boulot pour rassembler ces données. On l’avait fait pour data.gouv.fr avec les statistiques de fréquentation quotidienne par URL du site (données et code). En tout cas, ces données sont essentielles pour éviter qu’on se concentre trop sur le nombre de jeux de données ouverts ce qui ne dit pas grand chose de l’utilité des données ouvertes.

En tout cas, le projet s’annonce très intéressant !

cquest · Mars 22, 2018, 7:30

Et une quatrième…

Tout ça est bien sûr ouvert (je parle du code et des données) ?

L’inverse serait étonnant vu les sources de financement… mais bon, toujours utile d’avoir confirmation vu que je n’ai pas (encore) trouvé de lien vers le code et que je ne connais pas nam.R qui semble avoir réalisé le dev et donc les valeurs partagées par cette entreprise.

cquest · Mars 22, 2018, 7:49

La méthodologie de comptage des jeux de données est-elle documentée ?

Compter des jeux de données nécessite en effet de savoir de quoi on parle et n’est pas forcément une approche des plus pertinentes.

Prenons l’exemple de ce fameux fichier des prénoms… on peut en publier un par an, ou un global pluri-annuel.

Dans les deux cas pour moi, il s’agit d’un jeu de donnée, auquel on pourrait associer une notion de profondeur temporelle.

Une mesure qui ne semble pertinente (par type de jeu de données) c’est la volumétrie.
Quand je vois un “jeu de données” de quelques dizaines de Ko, il est rare que je m’y précipite, car il s’agit plutôt d’un document (des stats, quelques chiffres globaux, etc).

Comme on a le socle commun qui définit un ensemble de contenu standardisés, on pourrait avoir un indicateur bien plus objectif en particulier sur ceux-ci.

Ces indicateurs devraient aussi pour être comparables en collectivités ramenés par exemple à la population et/ou à l’emprise géographique.

Voilà juste quelques pistes de réflexion supplémentaires… je ne sais pas si elles ont été envisagées.

BorisM · Mars 22, 2018, 12:18

Super initiative que cet observatoire après il est certains que l’exhaustivité ne sera jamais au RDV cependant à la vue des premiers résultats je m’interroges quand même sur la méthodologie et notamment les processus d’automatisation de recensement.

Quelques commentaires sur la région Bretagne dont je connais bien l’écostystème OD :

D’abord le nombre de 50 n’est pas à mon sens vraiment significatif des collectivité engagées dans une démarches OD. D’un côté il en manque pas mal car beaucoup d’acteurs passent pour leur données géographiques par Géobretagne qui joue un vrai rôle d’agrégateur de données spatiales avec une multitudes d’acteurs (communes, EPCI, DREAL, pays,…). De l’autre certaines collectivités sont identifiées sans avoir vraiment initiée un démarche OD (Quimper, Pluvigner, CC Bretagne Romantique, CC Poher,…). Je comprends pas trop comment elles ont été identifiées…
Bref on voit ici l’une des limites du moissonnage. Peut-être que des relais locaux pourraient venir enrichir et mettre à jour les résultats des moissonnages, il y a dans chaque régions ou département des personnes ayant une vision opérationnelle de l’OD de leur coin.
Ensuite à quel moment une collectivité est-elle identifiée comme ayant engagée une démarche OD ? Exemple simple, certaines communes de Rennes Métropole sont identifiées mais elles ont “juste” fait remonter en local un tableur des prénoms ou des mariages. Idem certaines collectivités possèdent une page sur datagouv mais avec un ou deux datasets.
Sur la question du recensement du nombre de jeux de donnée il y a des vraies question à se poser (redondance temporelle comme le souligne @cquest ou encore redondance entre dispositifs). De plus le nombre de dataset ne veux pas dire grand chose à mon sens, par exemple Montpellier publie plus de 900 jeux de données dont la moitié proviennent d’OSM, ces datasets doivent ils être comptabiliser ?
Sur la question des usages, il y aussi un gros boulot mais c’est plutôt complexe, entre les stats de reuse, de fréquentation et de téléchargement il y a surement moyen de faire sortir quelque chose mais sous quelles formes ?

En tous cas je penses qu’il y a des personnes intéressées par l’initiative qui seraient prêtes à collaborer pour apporter une valeur ajouté au projet,

L’OD c’est aussi l’ouverture des méthodes et des acteurs

samgoeta · Mars 22, 2018, 1:24

Sur ce point, les portails OpenDataSoft peuvent mettre en avant le nombre d’enregistrements (=lignes) dans chaque jeu de données. C’est généralement (mais pas toujours) un bon indicateur de la granularité du jeu de données. Quand c’est activé, je fais généralement un tri sur les portails par nombre d’enregistrements.

Je n’ai pas trouvé la même fonctionnalité sur d’autres solutions de portail. Le poids du fichier peut être trompeur selon les formats mais en csv c’est assez révélateur en effet.

loichay · Mars 22, 2018, 6:11

Oui, pour le moment, seules les plateformes OD génériques où des collectivités locales (com, epci, dep, reg, mais pas encore les autres formes d’interco) publient des données ouvertes sont dans le périmètre. Les plateformes thématiques, sous réserve qu’elles diffusent effectivement des données ouvertes, et les acteurs associés (porteur-s et contributeur-s) seront progressivement ajoutés : IDG territoriales et SIG web locaux pour les données géographiques, mais aussi tourisme, urbanisme, transport, etc.

Il y a effectivement une erreur pour Quimper : l’id de plateforme me renvoie sur Mulhouse ;-(
CC Bretagne Romantique publie des données ouvertes (d’emprise nationale !) avec Metanol : https://bretagneromantic.fr/e-services/open-data/donnees/
Pour les autres, elles publient au minimum 1 jeu de données sur Dat’Armor (portail mutualisé)

loichay · Mars 22, 2018, 6:15

C’est une v0 toute fraîche et pas tout à fait sèche ! La consolidation et les collaborations s’engageront entre aujourd’hui et octobre prochain …

BorisM · Mars 22, 2018, 7:13

merci pour les précision, par contre la CC de Bretagne Romantique ne publie rien en OD à ma connaissance (ils avaient commencé avec OpenDatasoft pour au final faire marche arrière). Le lien auquel tu fais référence est un truc générique metanol il y a 155 jeux de données génériques qu’on retrouve ailleurs.

Je pinailles un peu mais c’est un important d’être le plus exhaustif possible dans votre démarche, surtout que ce qui marque les esprits c’est les chiffres clefs et la carte

loichay · Mars 22, 2018, 9:08

C’est justement ce geste d’engagement « minimum » (la publication d’au moins 1 jeu de données) que nous avons retenu pour déterminer si un acteur peut être intégré dans le corpus (c’est souvent le cas de contributeurs sur les portails mutualisés, data.gouv.fr compris). C’est aussi pour cette raison que les IDG territoriales ne seront intégrées que dans un second temps. Le mode de gouvernance et les solutions techniques des plateformes de données géographiques sont des cas spécifiques : quelles sont les géodata effectivement ouvertes (souvent juste un tag, qui plus est hétérogène, dans le catalogue sans mention explicite de licence) ? qui les produit et les partage parmi les partenaires annoncés sur chaque plateforme et sont-ce des collectivités locales ou d’autres types d’acteurs ?

loichay · Mars 22, 2018, 10:00

C’est notamment sur cette question essentielle que les tentatives d’automatisation de la collecte atteignent leurs limites, car elles sont très dépendantes des fonctionnalités activées et disponibles sur les différentes plateformes … Pour évaluer les usages (à qui et à quoi ça sert ?), il est indispensable de recueillir des informations directement auprès des acteurs impliqués et donc de croiser avec des méthodes d’enquête qualitative !

loichay · Mai 1, 2018, 3:31

Les données brutes de l’observatoire v0 ont été publiées sur data.gouv.fr le 20/04. Elles recensent les plateformes et les organisations qui participent au développement de l’open data dans les territoires. Elles ne concernent, pour le moment, que les collectivités locales françaises (restreintes aux communes, EPCI à fiscalité propre, départements et régions) qui publient des données ouvertes (a minima un jeu de données).

Le jeu de données est disponible ici :
https://www.data.gouv.fr/fr/datasets/donnees-de-lobservatoire-open-data-des-territoires-v0/

Il contient les ressources suivantes :

Modèle de données qui décrit la structure des 2 tables en PDF
Données brutes de la table des plateformes en CSV
Données brutes de la table organisations en CSV
Carte des collectivités open data en GEOJSON (voir la carte uMap)

mathieu · Mai 2, 2018, 3:49

Bonjour Loïc @loichay ,

Merci à tous ceux qui ont travaillé sur le recueil des données de cette v0.
J’ai pris un peu de temps pour regarder ce qu’elles contiennent et j’ai quelques questions, remarques et suggestions.

Pourquoi n’y a-t-il que 2 tables, respectivement pour les plateformes et les organisations?

Un grand nombre de champs de chacune de ces deux tables décrit une information relationnelle dont les arités sont variables:

Chaque organisation porte entre 0 et 2 plateformes et contribue à 0 à 3 plateformes ;
Chaque plateforme est portée par 1 ou 2 organisations et recueille les contributions de 0 à 136 organisations.

Actuellement la table des plateformes comporte donc 136 colonnes pour les identifiants des contributeurs (PTF_ORGA_ID_CONTRIB{1…136}), dont l’immense majorité des colonnes ne contiennent qu’une seule valeur, à la ligne correspondant à la plateforme data.gouv.fr.

Outre le fait que ce n’est pas idéal d’avoir une table avec autant de valeurs manquantes (du point de vue de la manipulation, de la visualisation…), cela signifie également que le schéma de ces tables ne sera sûrement pas stable dans les prochaines versions de l’observatoire: il suffit qu’une 137e collectivité contribue des données sur data.gouv.fr, ou que des collectivités disparaissent (par exemple, par fusion).

Cette modélisation d’une information relationnelle est d’autant plus problématique que le “rang” des contributeurs (1, 2, …, 136) n’a pas de sémantique réelle: est-ce qu’être contributeur 3 ou 50 sur data.gouv.fr signifie quelque chose?
La même question peut éventuellement se poser pour le rang des porteurs (1, 2), de façon plus discutable.

Dans ce cas de figure, je trouverais plus logique d’avoir une ou deux tables pour les porteurs et contributeurs, où chaque entrée relierait une plateforme et une organisation, et contiendrait les informations propres à cette relation comme le nombre de jeux de données déposés par l’organisation sur la plateforme et l’url d’accès à ces données. Si le rang des porteurs ou contributeurs a une sémantique bien définie, on peut également le stocker dans une(unique) colonne dédiée de ces tables.
Ainsi, on aurait quatre tables (plateformes, organisations, porteurs, contributeurs) dont les schémas seraient stables et auraient une sémantique claire, et dont le contenu aurait très peu de valeurs manquantes.

Quelle a été la méthodologie de recueil de ces informations, et quels contrôles qualité ont été appliqués?

Par exemple, quatre collectivités sont listées comme contributrices à la plateforme Dat’Armor (Beaussais-sur-Mer 200064699, CC Lamballe Terre et Mer 200069391, Ploufragan 212202154, La Vicomté-sur-Rance 212203855) dans la table des plateformes, mais n’apparaissent pas dans la table des organisations, alors que trois collectivités (Plérin 212201875, CA Lannion-Trégor Communauté 200065928 et Plaintel 212201719) apparaissent dans la table des organisations comme alimentant cette plateforme, mais ne figurent pas parmi les contributeurs dans la table des plateformes.

Par ailleurs, les entrées concernant certaines organisations semblent incomplètes ou périmées.
Ainsi l’entrée dans la table des organisations pour la métropole Aix-Marseille Provence (AMP) liste 3 contributions:

10 jeux contribués sur data.gouv.fr par l’ex-Marseille Provence Métropole (MPM), actuellement non disponibles,
1 jeu contribué sur opendata.regionpaca.fr, qui est en réalité un lien vers la page sur datasud listant les jeux de données déposés par AMP sur datasud,
11 jeux effectivement déposés par AMP sur datasud.
A contrario, les 6 jeux de données anciennement contribués sur data.gouv.fr par le SAN Ouest Provence, qui fait également partie de la nouvelle métropole Aix-Marseille Provence, ne sont pas inclus dans cette entrée.

Merci d’avance à tous pour vos éclaircissements et retours !

Mathieu

nicolas-bonnel · Mai 2, 2018, 5:08

Bonjour, et merci pour la mise à disposition de ces données.

J’ai essayé de visualiser le fichier GeoJSON, mais il est assez lourd, donc pas facile à manipuler. 2 pistes d’amélioration :

Retirer les espaces, tabulations et sauts de ligne : on passe d’un fichier de 72 Mo à 28 Mo. Ça devient plus dur à ouvrir dans un fichier texte, mais je ne pense pas que ça soit le but premier du fichier.
Est il possible de simplifier les géométries ? Les coordonnées sont sur 12 décimales (6 devrait suffire). De plus n’y a t’il pas doublon entre la propriété “the_geom” et la géométrie ? On pourrait la encore alléger le fichier.

Et pourquoi les villes sont-elles modélisées avec des points et non un tracé ? Si toutes les entités avaient un tracé, on pourrait imaginer indexer le fichier et avoir la liste des portails qui ont des jeux de données sur une position donnée. Ça rendrait aussi le jeu de donnée plus homogène.

En tout cas bravo pour le travail réalisé !

loichay · Mai 3, 2018, 12:06

Merci pour ces questions, remarques et suggestions.

Elles m’offrent l’occasion d’éclaircir les conditions dans lesquelles ces premières données ont été produites : elles ont été saisies et consolidées manuellement (prototype v0).

Pour ce faire, il s’est avéré nécessaire de séparer les 2 tables plateformes et organisations tout en définissant des données pivots (id) pour assurer leur croisement.

La sémantisation des relations et l’ordre des colonnes variables n’étaient pas prioritaires. Les objectifs principaux étaient de produire des résultats chiffrés pour commencer à dessiner le paysage et surtout de stabiliser l’identification des plateformes et des organisations sur un périmètre restreint : celui des collectivités territoriales stricto sensu publiant effectivement des données ouvertes (a minima 1 jeu de données).

Maintenant stabilisée, cette identification doit nous permettre :

d’élargir le corpus d’observation à d’autres catégories d’acteurs (notamment les autres formes d’intercommunalités, mais aussi les agences et organismes para-publics, les délégataires de service public, voire les services déconcentrés de l’Etat et autres producteurs de données d’intérêt territorial);
de compléter progressivement la table des plateformes;
de commencer à moissonner les métadonnées des datasets et statistiques d’usage lorsqu’elles sont disponibles en nous concentrant, dans un premier temps, sur les solutions techniques les plus utilisées (udata, opendatasoft, ckan …) et sans, très certainement, aller jusqu’à créer des scrappers spécifiques;
de réconcilier et d’exploiter au mieux les données moissonnées pour automatiser la génération d’indicateurs homogènes et généralisables (scripts de traitement et de calcul).

La méthode de recueil manuel des informations atteint en effet ses limites dès qu’il s’agit d’aller jusqu’aux datasets. 4 mains et 4 yeux ne suffisent déjà plus pour éviter les erreurs de saisie ou de report d’une table à l’autre (j’ai bien noté les corrections à apporter).

Cette itération nous a tout de même appris à repérer quelques écueils auquels il faut faire attention :

Maîtriser les effets des recompositions et réformes territoriales dans le temps (fusion ou création)
Suivre les évolutions des plateformes (migration openpaca > datasud)
S’assurer que les organisations publient effectivement des données ouvertes (certains des partenaires annoncés sur datarmor n’ont pas encore publié)

loichay · Mai 3, 2018, 4:46

J’ai du renommer le dataset publié sur data gouv … Effet de bord : l’url a changé https://www.data.gouv.fr/fr/datasets/donnees-de-lobservatoire-open-data-des-territoires-millesime-2018-v0-1/

loichay · Mai 3, 2018, 5:26

Merci pour ce retour qui permettrait effectivement d’améliorer le poids du fichier GeoJSON

Celui-ci a été créé rapidement dans QGIS en croisant les données de la table Organisations avec celles du référentiel Admin Express de l’IGN http://professionnels.ign.fr/adminexpress. L’objectif était avant tout d’importer chacune des couches dans la carte uMap pour la mettre à jour.

Cette mise à jour a permis de créer un fichier GeoJSON unique (export) intégrant les géométries spatiales (des points pour les communes et des polygones pour les autres types de collectivité). C’est celui-ci qui a été mis à disposition en tant que ressource dans le dataset publié (cadeau bonus non prévu au départ).

Pourquoi les villes sont-elles modélisées avec des points et non un tracé ? Pour faciliter la visualisation sur la carte et pour anticiper la forme de représentation qui sera appliquée aux autres intercommunalités (hors EPCI à fiscalité propre) pour lesquelles Admin Express ne pourra pas nous fournir de tracé.
Pourquoi les géométries n’ont-t-elles pas été simplifiées ? Le niveau de détail (et donc le poids) des géométries est celui issu du référentiel de l’IGN.

Si vous en êtes d’accord, pourriez-vous publier le fichier GeoJSON allégé en tant que réutilisation / amélioration sur data gouv ?

nicolas-bonnel · Mai 7, 2018, 8:33

J’ai réussi à descendre à un fichier de 12 Mo. Il est publié sur data.gouv.fr.

loichay · Mai 7, 2018, 8:14

Merci pour cette cure drastique > passage de 69.1 MB à 11.4 MB !

samgoeta · Juillet 3, 2018, 3:46

Bonjour,
est-ce que l’enquête par questionnaire est publiée ? Peut-on voir les questions ? Quand les résultats seront-ils publiés ?
Merci pour toute précision !

loichay · Juillet 4, 2018, 8:33

L’enquête par questionnaire a été lancée le 1er juin https://twitter.com/opendata_fr/status/1002477477086756864 et la période de recueil initiale des réponses a été prolongée jusqu’à avant-hier https://twitter.com/opendata_fr/status/1011236354267721729 Le questionnaire est toujours en ligne et tu pourras voir les questions ici https://form.jotform.com/81131895884972. Aujourd’hui, ce questionnaire a fait l’objet de 47 soummissions. Le dépouillement, l’approfondissement via des entretiens téléphoniques avec certains répondants et l’analyse des informations recueillies se dérouleront pendant l’été … pour des résultats et une restitution à la rentrée. Voilà pour les précisions !