Les données ouvertes du MEFR, quels usages, leviers, collaborations?

Quels seraient pour vous les jeux de données à mettre à l’épreuve pendant cette Non Conférence ?
Les usages existants ou à venir avec les données du MEFR ?
Quels sont les freins, les idées pour les lever ?
Comment s’entraider ou collaborer ?

1 « J'aime »

Bonjour à toutes et tous,

Un petit tour est déjà possible sur la plateforme opendata du MEFR où l’on retrouve environ 450 jeux de données mis à disposition par les directions de Bercy, comme la DGFiP, la Douane, la DGCCRF, la DGE, etc. Vous pouvez les explorer, mais aussi produire une #dataviz ou une carte quand les données sont géolocalisées.

Hâte de vous voir le 4 et 5 novembre !

2 « J'aime »

Je reposte ici les messages précédemment envoyés suite à réorganisation de ce « forum ».

1) Concernant les freins, honnêtement, ce ne sont pas les données du MEFR qui posent le plus de problème d’usage :wink:

Quatre points qui me viennent cependant immédiatement en tête :

  • Concernant les REI : on peut regretter que les données fiscales des petites communes soient « faussées » compte tenu du secret statistique. Ce problème devient particulièrement sensible lorsqu’on souhaite utiliser des données agrégées (par intercommunalité par exemple) : pour les intercommunalités composées essentiellement de petites communes, la sommes des données communales donnent ainsi des résultats très éloignées de la réalité et donc quasi inexploitables.
    assouplir le secret statistique et/ou a minima fournir une version du REI avec des données agrégées à l’échelon intercommunal pour les données pour lesquelles cette agrégation a un sens comme les bases / produits / exonérations / nb d’éléments au rôle, etc…

  • L’exploitation des balances comptables locales des budgets soumis aux nomenclatures M22 ou M832 sont moins aisées du fait de la non fournitures des nomenclatures au format xml (que l’on trouve sur http://odm-budgetaire.org/ pour les autres nomenclatures)
    Fournir les plans au format xml

  • Les données d’imposition sur le revenu par commune : on peut les obtenir sur Statistiques | impots.gouv.fr via le téléchargement par département (Impôt sur le revenu : par région, département ou commune). Les données fournies sont fournies dans des tableaux excel avec mise en forme inexploitable de manière automatisée.
    Une mise à disposition au format csv serait appréciable.

  • Suivi historique de certains budgets locaux rendu difficile du fait du problème de la volatilité des numéros SIREN (pas très fréquent) ou SIRET (très fréquent) pour les EPCI notamment.
    Par exemple, la Métropole Européenne de Lille dont le siren est passé le 14/03/2020 de 245 900 410 à 200 093 201.

2) Concernant les usages existant, en ce qui me concerne les données open data du MEFR m’ont permis de quitter la Fonction Publique Territoriale en me permettant de développer une activité en indépendant me permettant de manger (pour résumer si le MEFR stoppe sa diffusion de données en open data, je suis condamné à redevenir directeur financier en collectivité :rofl:)

  • utilisation pour la mise en œuvre d’un observatoire des finances locales à destination des collectivités territoriales / entreprises / consultants / banques / etc. qui ne sont pas satisfaits de ce qui est déjà proposé par ailleurs par le ministère sur collectivites-locales.gouv.fr ou par l’OFGL

  • sert de base à la fourniture d’une application en ligne d’analyse financière rétrospective et prospective des collectivités territoriales.

3) Concernant les usages à venir, certaines choses seraient envisageable s’il était possible de

  • libérer au niveau du ministère les flux « totem » transmis par les collectivités via Actes Budgétaires" (qui peuvent être aisément converti au format SCDL par ex). Ces flux correspondant à des données votées par l’assemblée délibérante et exécutoire à compter de leur transmission, ces flux doivent j’imagine être considérés comme « communicables ».

Cela permettrait de contourner le fait que les collectivités n’ouvrent que très peu leur documents budgétaires sous forme de data réutilisables ou lorsqu’elle le font, que cela n’est quasiment jamais fait de manière normalisée (non respect du SCDL). Plutôt que passer une éternité à se battre pour que les collectivités ouvrent ces données, sans jamais parvenir à une ouverture intégrale, il serait plus simple et plus efficace que l’état libère lui-même ces données puisqu’il est déjà en possession de toutes ces données dans un format dématérialisé, exploitable et réutilisable…

On a plus de 35000 collectivités, pourquoi demander / attendre / espérer une action / un effort de la part de 35 000 agents différents quand l’ouverture globale peut s’automatiser informatiquement en un unique traitement centralisé…

3 « J'aime »

DVF est dans ce périmètre ?

Le sujet de l’absence d’identifiant (haché si l’identifiant original ne peut être communiqué) pour faire le lien dans les transactions…

1 « J'aime »

@NicolasTruet @cquest, durant cette Non Conférence sont envisagés des corners autour desquels les directions du MEFR et les réutilisateurs de données pourront échanger. Cela nous semblerait intéressant que vous puissiez remonter à cette occasion les difficultés que vous rencontrez directement aux producteurs (vous en verrez peut-être certains sur ce forum :wink: )

Il y aura également des ateliers de travail sur des sujets proposés par les participants. N’hésitez pas :slight_smile: à être force de proposition !
poke @NatachaRoger

1 « J'aime »

Petit complément…

1 - Il est dommage que toutes les données du MEFR ne soient pas accessibles depuis le portail open data du MEFR (qui présente l’avantage par rapport à datagouv d’avoir des flux rss permettant de se créer un système d’alerte) :

  • les données DVF sont présentes sur datagouv mais pas sur data.economie.gouv.fr
  • idem concernant les données produites par impots.gouv.fr : REI, IRCOM, délibérations fiscales, etc…

2 - Et un autre frein : il serait appréciable que les données de fiscalité locale suivantes dispo sur Statistiques | impots.gouv.fr soit dispo en version « nationale » et non région par région (et idéalement dans un format CSV et non au format xlsx) :

  • Délibérations pour les communes de la région XXX
  • Taux pour les communes de la région XXX
  • Délibérations pour les EPCI la région XXX
  • Délibérations pour les départements de la région XXX
  • Délibérations pour la région XXX
3 « J'aime »

Je rajoute une GROSSE couche… l’INSEE dépend bien du MEFR ?

L’INSEE publie beaucoup de données sur son site, non moisonnable, sans cataloguage simple possible… sans référencement sur data.gouv.fr non plus, bref, non « découvrable ».

5 « J'aime »

J’ai relayé l’information aux communautés wikimédiennes (Wikipedia, Wikidata). Voilà les usages que je connais :

Quand j’ai du temps, je m’intéresse à la fiscalité française pour Wikipédia et Wikidata. Il me semble qu’il y a très peu de données ouvertes en ce qui concerne les taxes affectées, les taxes à faible rendement, l’évolution du produit des taxes dans le temps Billet de blog sur le sujet L'imposition française de la Révolution à nos jours sur Wikidata

Le point de vigilance principal : les liens brisés. En quelques mois, ce problème a été rencontré sur de très gros sites : Légifrance, base Léonore et Cassini.

4 « J'aime »

Ah oui ça, le 30x est inconnu malheureusement… à chaque refonte de site, on perd une masse de liens incroyable alors que le mécanisme de redirection existe depuis plus de 20 ans.

1 « J'aime »

C’est une question qu’on a déjà posée à des membres de la DGFiP, mais je profite de ce fil pour la signaler également : certaines variables provenant des fichiers fiscaux sont purgées des fichiers en open data mais servent de source à d’autres fichiers OD de producteurs différents. Par exemple, les variables « matériaux des toits / des murs / terrasses etc » sont sorties des fichiers des locaux des personnes morales mais apparaissent dans la BD Topo.

Existe-t-il une liste de critères qui explicitent quelles variables sont ouvertes ou non ?

(on a rencontré l’open data manager de la DGFiP qui a été super utile dans ces réponses, je mets ça là surtout pour visibilité car c’est à mon avis un sujet qui dépasse le simple cadre de l’open data).

Autre question importante : est-ce qu’on va tendre vers une harmonisation entre le PCI-V de la DGFiP et le cadastre Etalab ? On a encore des surprise côté réutilisateurs avec des gros décalages de géométrie (surtout quand on met la BD Topo au milieu, mais là c’est tendre le bâton pour se faire battre).

Un autre point qu’on avait aussi abordé mais que je mets en avant pour visibilité : est-ce qu’il serait envisageable de généraliser l’usage de carroyage pour publier de manière anonymisée des données sensibles ? (un peu comme fait l’INSEE avec les niveaux de vie winsorisés).

Enfin, je rejoins totalement @cquest sur l’INSEE, fantastique producteur, vachement-moins-fantastique facilitateur de découverte…

3 « J'aime »

Etonnant que les géométries ne soient pas les mêmes vu qu’Etalab ne fait que convertir les fichiers EDIGEO dans des formats plus modernes. Y a-t-il des exemples précis répertoriés pour qu’on puisse voir d’où vient le problème ?

Pour le décalage avec la BDTopo, c’est un grand classique. Le plan cadastral n’est pas très bien géoréférencé dans bien des cas (et ce feuille par feuille), car cela n’a aucun incidence sur sa finalité fiscale. On a même parfois des bâtiments mal positionnés ou orientés mais sur la bonne parcelle.
L’IGN s’attache par contre à un géoréférencement précis, car ce n’est pas le même objectif et usage.
Un jour, tout cela sera raccord, une fois que la RPCU aura avancé (pour l’instant ça a l’air au point mort).

Bonjour @NicolasTruet ,
Effectivement les données DVF ne sont pas sur data.economie.gouv.fr, mais vous pouvez néanmoins les retrouver dans les référentiels logements/aménagements d’Opendatasoft : Explore — Opendatasoft (donc via API, et avec export RSS). C’est une bonne idée de proposer la fédération de ces jeux de données sur le portail Data Economie @NatachaRoger .
Cordialement,
Philippe Vaillant (ODS)

2 « J'aime »

Merci. J’ai bien noté leur présence « améliorée » sur ODS.

Par contre, en ce qui me concerne mon usage, je ne suis utilisateur que des données brutes en provenance directe des producteurs, afin de ne pas être dépendant d’un tiers pour proposer les services dérivés à mes clients.
(trop de déconvenues par le passé avec des jeux « traités » par des intermédiaires qui soit arrêtaient, soit avaient des délais trop variables, etc…)

Pour les mêmes raison, je ne suis pas (ou exceptionnellement) utilisateur d’API… (exemple de l’OVH down de ce matin : il aurait suffit qu’un seul fournisseur d’une API soit en rade pour bloquer mes utilisateurs).

1 « J'aime »

Bonjour @NicolasTruet, @Philippe_Vaillant1 ,
Des actions sont en cours avec la DGFIP pour publier les données DVF (Demandes de valeurs foncières) sur data.economie.gouv.fr.
@cquest , l’absence d’identifiant pour faire le lien dans les transactions est bien identifié :wink:
La publication de l’identifiant, même tronqué, n’est pas prévue dans le décret n° 52018-1350 du 28 décembre 2018 relatif aux données ouvertes des « Demandes de valeurs foncières ». La DGFIP sera présente les 4 et 5 novembre, ce sera l’occasion d’en parler et peut-être même prévoir une table de travail sur DVF, PCI et MAJIC.

Un décret ça se modifie, quand on en a envie.

La rédaction du décret ne parle effectivement pas de l’identifiant, mais sa rédaction permet aussi une publication où « chaque mutation » est bien cohérente.

Si les données DVF étaient publiées avec un format XML ou json qui permet l’imbrication, il serait tout à fait possible, sans aucun identifiant de conserver la hiérarchie mutation > parcelles.
La dénormalisation faite pour l’extraction actuelle ne me semble pas dans l’esprit du décret.

C’est donc un choix technique, pas un choix réglementaire et en l’état ces données sont souvent mal interprétées à cause de la perte de ce lien.

1 « J'aime »

Et on peut remonter aussi à niveau du dessus, la loi…

« Afin de concourir à la transparence des marchés fonciers et immobiliers, l’administration fiscale rend librement accessibles au public, sous forme électronique, les éléments d’information qu’elle détient au sujet des valeurs foncières déclarées à l’occasion des mutations intervenues au cours des cinq dernières années. » (L112A du Livre des procédures fiscales, introduit par la Loi de 2018).

En l’état c’est partiellement le cas.
« Tragédie de l’exécution »

Bonjour à toutes et à tous,

Suite à vos contributions sur ce forum et aux demandes reçues via le formulaire d’inscription à la Non Conférence, nous avons identifié 5 grandes thématiques pour les ateliers collaboratifs :

  • Les données fiscales (poke @NicolasTruet)
  • Les données foncières
  • Les données de la commande publique (poke @Emeline)
  • Le plan de relance
  • L’archivage des données (poke @cquest :wink: )

Qu’en pensez-vous ? Quelles problématiques ou quels angles d’attaque proposeriez-vous pour ces différents ateliers ? Nous sommes à l’écoute de vos propositions.

Des temps d’échange avec les producteurs seront également organisés afin que vous puissiez leur remonter vos impressions, vos remarques, votre enthousiasme ou vos difficultés concernant leurs données. Le programme complet sera bientôt publié !

2 « J'aime »

Plusieurs sujets peuvent être envisagés pour l’atelier collaboratif sur les données de la commande publique :

  • un bilan de la publication des données essentielles 3 ans après l’entrée en vigueur de l’obligation de publication des DECP ;
  • Comment publier les données de programmation achats : vers la création d’un standard ?
  • Les données essentielles des marchés publics : comment les valoriser en interne et en externe ?
    Dans le cadre du plan de relance : une préférence pour traiter le sujet des données de programmation achats : profitons de la NC pour penser à la création d’un schéma ?!
2 « J'aime »

Bonjour, je crois que l’extraction automatique des données de la base TOTEM est en partie réalisée grâce à l’outil que nous avons développé (suite à un précédent hackathon DataFin) : https://dataclic.fr
Cet outil est conçu pour extraire d’autres données de bases nationales. Il faut choisir celles qui seraient les plus pertinentes, par exemple lors de la (non)conférence.

Oui, l’outil dataclic est excellent. Il permet déjà de convertir facilement et rapidement au format SCDL Budget les fichiers totems produits par les collectivités (https://dataclic.fr/budget).
Je l’indique d’ailleurs à chaque collectivité à qui je recommande de publier leurs données budgétaires au format SCDL.

Mais pour l’utiliser, il faut disposer des fichiers TOTEM produits pas les collectivités…

Hors, on n’y a pas accès, il faut les demander à chaque collectivité (refus à 98%) alors que ces données sont des données communicables et déjà centralisées via la procédure de transmission aux préfectures « Actes Budgétaire ».