L'Open Data façon puzzle

archives

(Julien Benedetti) #1

Aujourd’hui j’ai voulu récupérer les derniers jeux de données concernant les services publiques d’archives. Ces données sont issues d’une enquête annuelle réalisée par le Service interministériel des archives de France (SIAF).

1e étape : Je me rends sur data.gouv, et je me rends compte que les jeux de données ne dépassent pas le millésime 2014, et en plus Il y a une erreur dans le lien et donc le fichier à télécharger est un .obj

2e étape : Je vais directement sur France Archives (le portail du SIAF) qui en pied de page a un lien vers une rubrique Open Data, cela me renvoie sur data.culture.gouv.fr. Je fais un bon de deux ans avec des jeux de données jusqu’en 2016.

3e étape : Je signale le souci à France Archives via twitter, qui m’indique (très aimablement) un lien sur leur site où je peux trouver les jeux de données jusqu’en 2017.

Conclusion, il n’y a pas de moissonnage automatique entre les différents sites. Ceci est particulièrement alarmant entre data.gouv et data.culture.gouv. L’intérêt de portail thématique peut se justifier mais si les différents portails de l’Etat n’exposent pas les mêmes données cela me semble très problématique.

Espérons que ma remarque permettra une mise à jour et un alignement des différentes bases, mais si des agents doivent faire ce travail manuellement régulièrement il est évident qu’il y a aura souvent ce type de problème.


(Christian Quest) #2

https://data.culturecommunication.gouv.fr/ est pourtant un site OpenDataSoft, donc moissonnable par data.gouv.fr

Encore faut-il que le minimum soit fait, c’est à dire d’indiquer à data.gouv qu’il faut le moissonner, ce qui est du ressort du ministère de la culture…

C’est effectivement une galère, sans parler des changements d’URL, quand on change de plateforme ou de nom pour le ministère. Rien n’est stable ni durable et les codes HTTP 301 302 semblent inconnus de bien trop de monde (et je ne parle pas de stabilité du contenu des jeux de données eux-même, c’est encore pire).

Sur le “dataset” https://data.culturecommunication.gouv.fr/explore/dataset/archives-publiques-en-france-donnees-statistiques/table on a une liste d’URL de fichiers libreOffice sans aucune structure stable, bref rien d’exploitable “aisément par une machine”.

Bref, “on” se contrefiche des utilisateurs et ré-utilisateurs de données (pour une fois qu’elles sont ouvertes) et il ne faut pas s’étonner que personne ne fasse quelque chose de ce genre de publications. 1022 téléchargements… combien de réutilisation ?

Reconnaissons au moins quelque chose de positif… c’est ouvert et téléchargeable.