Ca devrait être puni de supprimer des jeux de données…
Mais bon, je sais que je rêve.
J’ai mis ce que j’ai pu retrouver sur http://data.cquest.org/paris/archive-2010-2011/
Je dois encore fouiller un peu, possible d’avoir encore quelques dataset sur mon vieux Mac Pro…
Changement de nommage des fichiers archivés… maintenant la date de mise à jour du fichier figure en préfixe et en ISO compact, exemple:
- 20160413T102500Z abri-voyageurs-ecrans-tactiles-connectes.csv.gz
- 20170513T145703Z abri-voyageurs-ecrans-tactiles-connectes.csv.gz
- 20160413T104000Z abri-voyageurs-ecrans-tactiles-connectes-meta.json
Même nommage pour les metadonnées en json.
Ceci permet:
- de trier facilement par date
- de séparer facilement le timestamp du nom original du fichier
- d’avoir des noms de fichiers plus compacts
@cquest Nous devons avoir un scraper pour la base Sit@del, et plus largement http://developpement-durable.bsocom.fr/
C’est packagé sous forme de conteneur Docker. Est-ce que ça peut vous intéresser ?
Il nous faut un petit effort de nettoyage avant de libérer le code mais ça doit pouvoir se faire…
Merci pour l’initiative en tout cas, nous aurions justement besoin d’archives longues Sit@del, mais le site ne donne accès qu’aux trois dernières années glissantes. J’en profite d’ailleurs pour lancer un appel si quelqu’un a ces données dans un coin
Ce site propose des données brutes ou juste des décomptes et statistiques ?
L’idée d’opendatarchives, n’est pas vraiment de scraper, ça c’est plus sur data.cquest.org que je le fait
Je ne suis pas trop fan de dockeriser ce genre de chose, le scrap est fait avec quel type d’outil/langage ?
Sitadel contient les décomptes des chantiers (nombres et surfaces) autorisés et commencés, par type de construction, au niveau communal.
Le scraper est écrit avec Python/Selenium, Docker est juste une facilité de déploiement dans notre contexte.
On parle de ces données ?
- https://www.statistiques.developpement-durable.gouv.fr/liste-des-permis-de-construire-des-locaux?rubrique=47&dossier=1053
- https://www.statistiques.developpement-durable.gouv.fr/liste-des-permis-de-construire-des-logements?rubrique=53&dossier=1047
Quand on avait regardé, la fenetre annoncée était de 2 ans, mais on dirait qu’elle s’est élargie.
Et maintenant archivé sur http://data.cquest.org/sitadel/
Il ne reste plus qu’à les géocoder en partant des identifiants de parcelles pour qu’elles soient encore plus intéressantes à exploiter
Merci pour le signalement de ce site qui contient pas mal de choses, désormais archivées sur http://data.cquest.org/sdes/
C’est en vrac, mais le site est vraiment mal fichu car conçu comme un clicodrome
Côté archiveur CKAN ça avance, voici quelques exemples :
- http://files.opendatarchives.fr/data.agglo-royan.fr/
- http://files.opendatarchives.fr/data.coeurcotefleurie.org/
C’est quand même pas le plus simple à archiver !
Difficile de faire la sélection entre données, pièces jointes, liens externes d’info… il y a des champs pour cela mais il sont souvent non renseignés ou faux
Premier archivage d’un portail arcgis… http://files.opendatarchives.fr/departement-ain.opendata.arcgis.com/
Super !
Je n’ai plus qu’à attendre 20 ans pour avoir ma série longue sur http://data.cquest.org/sitadel/
Merci pour l’archivage en tout cas !
Très bonne initiative!
Peut on également trouver les fichiers vecteurs du cadastre d’avant 2017?
À ma connaissance, ils n’ont pas été diffusés en opendata… il faudrait faire une demande auprès de la DGFiP pour les anciens millésimes.
Je me ferai un plaisir de les archiver
Hello. Merci pour votre projet d’archivage !
Une remarque concernant le géoportail de l’urbanisme. Vous n’avez pas récupéré les PLU « i » (intercommunaux), l’indexation doit être faite à partir du code SIREN de la collectivité(CC, CA, …)
exemple du PLUI de Dinan Agglomération dans les Côtes-d’Armor. n° SIren: 200068989
https://wxs-gpu.mongeoportail.ign.fr/externe/i9ytmrb6tgtq5yfek781ntqi/telechargement/prepackage/PACK_DU_200068989_11a901c4641d7ae83082ddd34d109660/file/200068989_PLUi_20200127.zip
Ils sont ici: Index of /geoportail-urbanisme.gouv.fr/DU_20/DU_200068989/
Oui, on peut faire mieux
J’ai ajouté un lien symbolique PLUi > DU_20
Bonjour
Excellent !
Combien de To en juillet 2021 ?
Est-ce normal que le dossier adresse.data.gouv.fr/data s’arrête en 2019 ?
Voici les graphes du serveur: Munin :: computel :: proxmox72.computel :: zpool capacity allocated
56.4To pour opendatarchives, qui est maintenant sur son propre pool ZFS dédié depuis l’arrivée des disques financés par la cagnotte.
Pour les adresses, un script de mise à jour coincé quelque part…
Salut, tout d’abord bravo pour le projet !
J’ai pu apercevoir un grand nombre de fichiers qui sont probablement corrompus dans ce dossier:
http://files.opendatarchives.fr/www.inpi.net/marques-francaises/
(Erreur CRC, checksum, zip non valide etc )
J’ai la liste individuelle des fichiers concernées si cela t’intéresse.
C’est vraiment excellent comme idée !
Là j’ai des gros ralentissements et des errerurs de chargement pour accéder aux fichiers d’archive néanmoins