La DGFIP et la DGCL publient via un site internet les comptes des collectivités.
Ce site permet de télécharger des données pour une collectivité et pour une année sous forme de fichier .ods
Par contre, aucun téléchargement global n’est prévu et ce site web est un vrai clicodrome.
J’ai scrapé ces fichiers pour toutes les communes d’un département (l’Ain) et toutes les années de 2000 à 2016 et remis ça en json avec les chiffres essentiels (pas les multiples calculs et comparaison avec les autres communes).
Où peut on trouver les informations de métadonnées ? Les champs sont plutôt compréhensibles sauf quelques un comme “fctva”
Serait-il possible d’ajouter le code INSEE de la commune pour pouvoir faire des jointures plus facilement ou l’info n’est pas présente dans les fichiers ?
FCTVA… c’est le nom que j’ai trouvé dans le fichier ODS, il y a de la doc disponible sur le site d’origine… mais je n’arrive pas à accéder en ce moment (peut être parce que je scrape en même temps).
Pour le code INSEE, j’ai ajouté ça pour le retrouver lors de la conversion .ods vers json, les prochains fichiers devraient l’avoir.
J’ai sorti un export en CSV, sûrement plus facile à exploiter.
Il y a un fichier par année, le contenu peut encore évoluer, je vise à avoir les mêmes colonnes, quitte à ce qu’elles soient vides. Il manque quelques codes INSEE de commune, parfois en lien avec les fusions ou changements de noms.
Pour parser ces nombreux fichiers .ods j’ai tenté plusieurs approches:
soffice : appel direct de libreoffice pour convertir les .ods en csv
unoconv: ligne de commande qui exploite le moteur de libreoffice pour faire la conversion en csv
parsing direct du xml des fichiers .ods (avec lxml en python)… la solution la plus stable et surtout la plus rapide (80ms par fichier au lieu d’environ 1s).
La conversion .ods > csv pour une année prends du coup dans les 10 minutes, et peut se paralléliser (ce qui ne semblait pas possible avec unoconv ou soffice).
J’ai fait un petit calcul… c’est environ 1.4 million de requêtes qui ont été nécessaires pour récupérer plus de 600.000 fichiers .ods et comme j’ai été cool, je n’ai rien parallélisé
merci beaucoup Christian pour cette ressource, on l’a intégrée ici si certains veulent l’explorer par filtres et récupérer des bouts via téléchargement ou API
les champs dep et depcom sont vus comme des chiffres par LibreOffice ce qui donne “1” et “1004” pour Ambérieu-en-Bugey ; ils sont bien traités si tu mets ces champs entre guillemets dans le CSV
POURQUOI LES NOMS DE COMMUNES EN MAJUSCULE ET NON ACCENTUES ? J’aurais eu tendance à mettre les versions majuscule initiale et article initial : “Les Mées” plutôt que “MEES (LES)”
@jean-marc.lazard : très chouette. Une broutille, on ne peut pas trier par année dans le mode “tableau” (et ces dernières sont dans le désordre). (Exemple.)
@cquest Je ne sais pas si tu es passé par là mais cela peut potentiellement te servir: les scripts de scrapping de NosFinancesLocales.fr avec le site associé
Comme le libellé de NosFinanceLocales indique 2000 à 2012 mais que MAJ repo du scraper = 2017, à jour?!
Le site des comptes des collectivités a changé, donc l’extraction était à refaire.
Pour les noms de communes, ce sont ceux présents dans les fichiers d’origine, je les ai conservé car tous n’ont pas été retrouvé avec la simple petite requête sqlite actuelle dans le COG historique de l’INSEE… d’où le côté encore “beta” du résultat.
Pour les dep, depcom avec quote… en fait je les génère mais csvstack les supprime. J’ai corrigé ça.
J’ai complété hier par d’autres données, le détail des dotations de fonctionnement (de 2014 à 2017): http://data.cquest.org/dgcl_dgf/
C’est là aussi du quick and dirty… j’y ai passé à peine 1h (bien plus simple, une cinquantaine de CSV à recombiner).
Je viens de mettre à jour ces données avec les comptes individuels des communes pour l’année 2017…
On passe à plus de 660.000 lignes de CSV !
Ah oui, le gag, les fichiers .ods téléchargeables sur le site de la DGFiP ne s’ouvrent qu’avec une version 5.x de LibreOffice. Heureusement que j’ai mon fait mon propre parsing XML !
Travail intéressant qui présente surtout l’intérêt de pouvoir remonter l’historique depuis 2000.
Mais l’idéal serait que la DGFIP publie l’historique depuis 2000 des données brutes des balances comptables comme elle le fait pour les exercices postérieurs à 2010 pour les Communes, Intercommunalités, Départements, Régions, Syndicats, Groupements divers et autres EPL (https://www.data.gouv.fr/fr/datasets/balances-comptables-des-communes/).
Car avec les données brutes des balances, il est possible de faire tous les retraitements souhaités sans être dépendant des agrégats de la DGFIP et cela permet aussi de choisir sa propre méthodologie sans dépendre de celle de la DGFIP (par exemple, en analyse financière des collectivités seules les opérations réelles sont habituellement prises en compte, alors que les agrégats de la DGFIP intègrent les opérations d’ordre qui brouillent la lecture… ou encore le fait que la DGFIP contracte des montants soit dépenses nettes ou recettes nettes alors qu’elles apparaissent dans les comptes des collectivités en dépenses et recettes, éloignant ainsi la présentation faite des comptes soumis au vote des conseils municipaux).
Je viens de m’apercevoir que ce jeux de données n’est plus publié ni téléchargeable sur data.gouv.fr
Il n’indique plus qu’un lien contenu dans un fichier excel (?!?) qui renvoie vers
Et quand on suit ce lien, il est indiqué « Des exports globaux au format CSV des données sont disponibles sur le site data.gouv.fr (recherche : comptes individuels) » qui ne propose que le lien vers cette page
La boucle est bouclée
(allez prévoir des réutilisations pérennes avec ce genre de cas pas si rares…)
Merci ! C’est effectivement pas mal de tout rassembler sur une page.
Et cela m’a permis de trouver les comptes individuels des GFP (qui sont encore disponible au contraire des communes même si pas de mise à jour 2019).
C’est le seul jeu qui semble donner des infos à peu près fiable sur la fiscalité professionnelle locale et qui permet de s’affranchir d’un biais de l’utilisation des fichiers REI !
(En effet, du fait du secret statistique, la somme des données communales d’un EPCI comprenant de nombreuses petites communes, notamment les données relatives à la fiscalité pro, aboutie à une sous-estimation parfois très significative de la fiscalité du territoire le l’EPCI.)
Il serait intéressant de pouvoir bénéficier d’une version agrégée au niveau intercommunal des fichiers REI, limitant l’impact du secret statistique…
L’AFIGESE et les fiscalistes territoriaux en particulier, avec le soutien de l’OFGL, ont sollicité la DGFIP en ce sens car le secret statistique est en effet très pénalisant. Concernant les données fiscales, le REI mériterait d’être encore enrichi.