Bonjour Loïc @loichay ,
Merci à tous ceux qui ont travaillé sur le recueil des données de cette v0.
J’ai pris un peu de temps pour regarder ce qu’elles contiennent et j’ai quelques questions, remarques et suggestions.
- Pourquoi n’y a-t-il que 2 tables, respectivement pour les plateformes et les organisations?
Un grand nombre de champs de chacune de ces deux tables décrit une information relationnelle dont les arités sont variables:
- Chaque organisation porte entre 0 et 2 plateformes et contribue à 0 à 3 plateformes ;
- Chaque plateforme est portée par 1 ou 2 organisations et recueille les contributions de 0 à 136 organisations.
Actuellement la table des plateformes comporte donc 136 colonnes pour les identifiants des contributeurs (PTF_ORGA_ID_CONTRIB{1…136}), dont l’immense majorité des colonnes ne contiennent qu’une seule valeur, à la ligne correspondant à la plateforme data.gouv.fr.
Outre le fait que ce n’est pas idéal d’avoir une table avec autant de valeurs manquantes (du point de vue de la manipulation, de la visualisation…), cela signifie également que le schéma de ces tables ne sera sûrement pas stable dans les prochaines versions de l’observatoire: il suffit qu’une 137e collectivité contribue des données sur data.gouv.fr, ou que des collectivités disparaissent (par exemple, par fusion).
Cette modélisation d’une information relationnelle est d’autant plus problématique que le “rang” des contributeurs (1, 2, …, 136) n’a pas de sémantique réelle: est-ce qu’être contributeur 3 ou 50 sur data.gouv.fr signifie quelque chose?
La même question peut éventuellement se poser pour le rang des porteurs (1, 2), de façon plus discutable.
Dans ce cas de figure, je trouverais plus logique d’avoir une ou deux tables pour les porteurs et contributeurs, où chaque entrée relierait une plateforme et une organisation, et contiendrait les informations propres à cette relation comme le nombre de jeux de données déposés par l’organisation sur la plateforme et l’url d’accès à ces données. Si le rang des porteurs ou contributeurs a une sémantique bien définie, on peut également le stocker dans une(unique) colonne dédiée de ces tables.
Ainsi, on aurait quatre tables (plateformes, organisations, porteurs, contributeurs) dont les schémas seraient stables et auraient une sémantique claire, et dont le contenu aurait très peu de valeurs manquantes.
- Quelle a été la méthodologie de recueil de ces informations, et quels contrôles qualité ont été appliqués?
Par exemple, quatre collectivités sont listées comme contributrices à la plateforme Dat’Armor (Beaussais-sur-Mer 200064699, CC Lamballe Terre et Mer 200069391, Ploufragan 212202154, La Vicomté-sur-Rance 212203855) dans la table des plateformes, mais n’apparaissent pas dans la table des organisations, alors que trois collectivités (Plérin 212201875, CA Lannion-Trégor Communauté 200065928 et Plaintel 212201719) apparaissent dans la table des organisations comme alimentant cette plateforme, mais ne figurent pas parmi les contributeurs dans la table des plateformes.
Par ailleurs, les entrées concernant certaines organisations semblent incomplètes ou périmées.
Ainsi l’entrée dans la table des organisations pour la métropole Aix-Marseille Provence (AMP) liste 3 contributions:
- 10 jeux contribués sur data.gouv.fr par l’ex-Marseille Provence Métropole (MPM), actuellement non disponibles,
- 1 jeu contribué sur opendata.regionpaca.fr, qui est en réalité un lien vers la page sur datasud listant les jeux de données déposés par AMP sur datasud,
- 11 jeux effectivement déposés par AMP sur datasud.
A contrario, les 6 jeux de données anciennement contribués sur data.gouv.fr par le SAN Ouest Provence, qui fait également partie de la nouvelle métropole Aix-Marseille Provence, ne sont pas inclus dans cette entrée.
Merci d’avance à tous pour vos éclaircissements et retours !
Mathieu