Cela fait quelques temps que l’idée d’archiver les données publiées en opendata me trotte dans la tête.
Pourquoi ?
La stabilité de publication de certaines données est plus qu’aléatoire.
On a déjà vu des jeux de données dé-publiés.
Deux exemples:
- les données des ventes et achats de pesticides (pression des lobbys et du Ministère de l’Agriculture)
- données des points de captage d’eau potable et des périmètres de protection (elles étaient en opendata et “à cause de la menace terroriste” elles ont été dépubliées)
On a tous aussi été victime d’un changement de site où le ménage a plus ou moins été fait au passage, considérant que de vieilles données n’étaient plus utiles.
Il y a aussi les portails où l’on ne publie que les versions les plus récentes, ce qui ne permet pas de faire des comparaisons sur de longues séries. Parfois ce ménage est fait pour des raisons de coûts, parfois pour publier à minima ce qu’on est obligé de publier (je pense aux contrôles d’hygiène où les textes réglementaires obligent à publier le dernier contrôle pendant un an, mais n’interdit pas de publier plus que ça !).
Il y a aussi le jeu de piste… les données sont publiées mais en fonction du millésime c’est à un endroit différent. Je pense au Registre Parcellaire Graphique où certaines années sont téléchargeables sur data.gouv, d’autres sur le site de l’IGN, etc…
Je passe ce qui est publié uniquement par API… ou récupéré par scrapping (OpenEventDatabase m’a beaucoup appris pour ça).
Bref, depuis quelques temps déjà, je garde pas mal de choses sur data.cquest.org mais j’envisage de passer à la vitesse supérieure… archiver tout ce qui peut l’être “au cas où”, en attendant que les services officiels chargés des archives prennent le relais.
Comment ?
data.gouv publie désormais le catalogue des jeux de données, ce qui doit permettre d’automatiser les récupération de ce qui y est catalogué sans se limiter à ça.
Il faut ensuite télécharger et stocker, or, louer des serveurs ou de l’espace de stockage revient vite cher, du coup j’envisage du “fait maison”.
La fibre devrait être installé chez moi (enfin) la semaine prochaine (si tout va bien, car c’est la première du quartier).
Ceci va permettre à mon micro-datacenter, de devenir un mini-datacenter
J’ai pour cela complété dernièrement mon mini-datacenter maison par des serveurs de stockage. Tout est composé de matériel recyclé ou d’occasion sauf exception. Les prix sont donc très bas.
J’ai un peu plus de 100To de disponibles (moins en faisant de la redondance).
Je n’ai par contre pas encore réfléchit à la façon de rendre le contenu accessible et explorable.
Il faudra faire mieux que http://data.cquest.org !
Qu’en pensez-vous ?