Melodi, catalogue des données de l'INSEE

Je vois passer sur LinkedIn (ici) l’info du lancement de la nouvelle application de catalogage des données de l’Insee : Insee

Qu’en pensez-vous ?

:mega: La nouvelle application Melodi (Mon Espace de Livraison en Open Data de l’Insee) de l’Insee met à disposition des jeux de données statistiques en open data.

:minidisc: Dans le cadre de l’évolution de son offre de #données ouvertes, l’Insee vous propose un nouveau catalogue de données : LinkedIn. Celui-ci permet de mettre à disposition un ensemble de jeux de données #statistiques, ainsi que des fonctions de recherche et de consultation variées.
Porte d’entrée de notre offre de données, ce catalogue permet aux utilisateurs de rechercher le jeu de données répondant à leur besoin grâce à de nombreux filtres :
:black_small_square: l’indicateur (par exemple le produit intérieur brut ou la population) ;
:black_small_square: le niveau géographique ;
:black_small_square: l’axe d’analyse (par exemple l’âge ou le secteur d’activité) ;
:black_small_square: ou la source.
Le catalogue est complètement bilingue : français et anglais.
Pour s’adapter aux diverses exigences des utilisateurs, le catalogue offre différents modes d’accès à la donnée :
:black_small_square: les chargés d’études auront la possibilité de télécharger l’ensemble du jeu de données ;
:black_small_square: les utilisateurs en quête d’une information spécifique pourront consulter les principaux extraits sous forme de tableaux ;
:black_small_square: les utilisateurs ayant des besoins plus spécifiques ou souhaitant simplement explorer les données disponibles auront la possibilité de procéder à leurs propres extractions dans l’explorateur de données.
L’offre de données proposée au catalogue est le fruit de travaux d’intégration de nombreuses sources. Afin de faciliter la consultation et l’utilisation de données par les utilisateurs, un travail important de description des métadonnées dans des standards internationaux et d’harmonisation de leur nommage entre sources (variables et modalités) a été réalisé.

:inbox_tray: Afin de recueillir l’appréciation des utilisateurs, le catalogue est proposé dans un premier temps en version bêta sur insee.fr, incluant un premier ensemble de jeux de données. Il sera enrichi régulièrement de nouveaux jeux de données et de nouvelles fonctionnalités. L’ouverture du catalogue en version stabilisée est envisagée à ce stade mi-2024.
Les utilisateurs sont vivement encouragés à faire part de leurs remarques sur leur expérience en tant qu’utilisateurs du catalogue, en envoyant un message à l’adresse [email protected].

2 « J'aime »

Mon analyse de cette version bêta (déjà transmise aux responsables du projet), sachant que cette version bêta est partielle (l’API Melodi apparaitra lors de la mise en prod).

Points positifs

  • Avec un catalogue centralisé, je vais gagner beaucoup de temps dans mes recherches de bases de données, que ces recherches soient exploratoires ou récurrentes.
  • Le moteur de sélection de jeux de données par critère ou texte libre est riche et fluide.
  • J’apprécie la finesse des métadonnées, la possibilité de visualiser (et télécharger) les nomenclatures associées aux variables, la cohérence d’une base à l’autre des nomenclatures et des noms de dimension associés.
  • L’explorateur apporte évidemment un gros plus, car voir les données est le moyen le plus rapide et le plus efficace de comprendre à quoi on a affaire. La dualité des codes et des libellés est didactique et surtout bien utile pour la dimension géographique.
  • Filtrer permet de choisir quel extrait on veut récupérer en fonction de ses objectifs, et, associé aux tris possibles, permet de répondre à de nombreuses questions fines sans même avoir à télécharger quoi que ce soit.
  • L’API à venir devrait fonctionner sans compte ni token, et le format parquet, si pratique, devenir assez commun.

Points améliorables

  • Trop de clics avant d’accéder à l’explorateur ;
  • Permaliens à mettre en place vers les exports csv, parquet ou autres, avec distinction claire base complète / enregistrements filtrés, et sans limite de taille des exports ;
  • L’export csv sous forme d’un zip comprenant 2 fichiers toujours nommés data.csv et metadata.csv n’est franchement pas pratique ;
  • Accessibilité et ergonomie de l’explorateur à affiner : les multiples petits boutons dans les en têtes m’apparaissent peu clairs ;
  • Présence parfois de colonnes avec une modalité unique, sans grand intérêt.
5 « J'aime »

Merci @icem7, effectivement l’explorateur fait gagner beaucoup de temps !

Question naïve (la stat c’est moins mon domaine) : il n’y a que 38 jeux de données, il en manque ou il y a bien les principales bases de données/enquêtes ?

Merci @samgoeta. Pour te répondre, ce n’est à mon avis qu’un début, la plupart des bases devraient passer dans le moule Melodi, mais c’est visiblement tout un travail de standardisation (SDMX en particulier), qui se fait en continu.

Pour en savoir plus, voir le prochain webinaire DataGrandEst (7 mars) avec le chef du projet Melodi à l’Insee, Nicolas Sagnes : Webinaire - Diffusion de bases statistiques : nouvelles interfaces et nouveaux formats | Portail DataGrandEst

THE bonne nouvelle… en espérant qu’elle soit conforme à quelques standards de cataloguage, pour permettre un moissonnage automatique.

L’INSEE est mon gros manque sur opendatArchives et coder un scrapeur rien que pour ce site pas du tout prévu pour, ne m’a jamais emballé.

On peut espérer désormais trouver les jeux de données de l’INSEE sur le portail national… data.gouv.fr :wink:

Accessible en rediff : le webinaire DataGrandEst sur les nouveautés de la plateforme de diffusion Melodi de l’Insee
et sur les formats #parquet et #geoparquet (en démo live avec #duckdb).
https://www.datagrandest.fr/portail/fr/ressources/diffusion-bases-statistiques-nouvelles-interfaces-et-nouveaux-formats

2 « J'aime »