J’ai commencé à regarder un peu ces données qui m’ont l’air bien intéressantes et suscitent pas mal de discussions sur data.gouv.fr. Je télécharge le fichier CSV géolocalisé à partir de cette page et là j’ai mis 20 minutes à comprendre que ce n’en n’était pas un : le premier header ne colle pas aux données, et il y a en fait 2 fichiers CSV plus ou moins concaténés.
Du coup j’ai commencé à bricoler un script pour générer un vrai fichier CSV, avec des entêtes, un encodage en UTF-8 et des séparateurs virgule. Le script est écrit en NodeJS et disponible dans ce repo github : https://github.com/koumoul-dev/finess . Je n’ai pas encore mis de licence, je crois que ça sera MIT (je ne sais pas trop ce qui se fait pour les scripts).
Il reste encore quelques étapes à faire avant que je ne puisse mettre un CSV en téléchargement :
- Gestion des projections pour les DOM TOM : ce n’est actuellement pas homogène et je compte tout mettre en WGS84
- Trouver à quoi correspond cette dernière colonne, qui n’est pas documentée, et qui contient de temps en temps des codes comme “0011361Z”