Les données ouvertes du MEFR, quels usages, leviers, collaborations?

Je rajoute une GROSSE couche… l’INSEE dépend bien du MEFR ?

L’INSEE publie beaucoup de données sur son site, non moisonnable, sans cataloguage simple possible… sans référencement sur data.gouv.fr non plus, bref, non « découvrable ».

5 « J'aime »

J’ai relayé l’information aux communautés wikimédiennes (Wikipedia, Wikidata). Voilà les usages que je connais :

Quand j’ai du temps, je m’intéresse à la fiscalité française pour Wikipédia et Wikidata. Il me semble qu’il y a très peu de données ouvertes en ce qui concerne les taxes affectées, les taxes à faible rendement, l’évolution du produit des taxes dans le temps Billet de blog sur le sujet L'imposition française de la Révolution à nos jours sur Wikidata

Le point de vigilance principal : les liens brisés. En quelques mois, ce problème a été rencontré sur de très gros sites : Légifrance, base Léonore et Cassini.

4 « J'aime »

Ah oui ça, le 30x est inconnu malheureusement… à chaque refonte de site, on perd une masse de liens incroyable alors que le mécanisme de redirection existe depuis plus de 20 ans.

1 « J'aime »

C’est une question qu’on a déjà posée à des membres de la DGFiP, mais je profite de ce fil pour la signaler également : certaines variables provenant des fichiers fiscaux sont purgées des fichiers en open data mais servent de source à d’autres fichiers OD de producteurs différents. Par exemple, les variables « matériaux des toits / des murs / terrasses etc » sont sorties des fichiers des locaux des personnes morales mais apparaissent dans la BD Topo.

Existe-t-il une liste de critères qui explicitent quelles variables sont ouvertes ou non ?

(on a rencontré l’open data manager de la DGFiP qui a été super utile dans ces réponses, je mets ça là surtout pour visibilité car c’est à mon avis un sujet qui dépasse le simple cadre de l’open data).

Autre question importante : est-ce qu’on va tendre vers une harmonisation entre le PCI-V de la DGFiP et le cadastre Etalab ? On a encore des surprise côté réutilisateurs avec des gros décalages de géométrie (surtout quand on met la BD Topo au milieu, mais là c’est tendre le bâton pour se faire battre).

Un autre point qu’on avait aussi abordé mais que je mets en avant pour visibilité : est-ce qu’il serait envisageable de généraliser l’usage de carroyage pour publier de manière anonymisée des données sensibles ? (un peu comme fait l’INSEE avec les niveaux de vie winsorisés).

Enfin, je rejoins totalement @cquest sur l’INSEE, fantastique producteur, vachement-moins-fantastique facilitateur de découverte…

3 « J'aime »

Etonnant que les géométries ne soient pas les mêmes vu qu’Etalab ne fait que convertir les fichiers EDIGEO dans des formats plus modernes. Y a-t-il des exemples précis répertoriés pour qu’on puisse voir d’où vient le problème ?

Pour le décalage avec la BDTopo, c’est un grand classique. Le plan cadastral n’est pas très bien géoréférencé dans bien des cas (et ce feuille par feuille), car cela n’a aucun incidence sur sa finalité fiscale. On a même parfois des bâtiments mal positionnés ou orientés mais sur la bonne parcelle.
L’IGN s’attache par contre à un géoréférencement précis, car ce n’est pas le même objectif et usage.
Un jour, tout cela sera raccord, une fois que la RPCU aura avancé (pour l’instant ça a l’air au point mort).

Bonjour @NicolasTruet ,
Effectivement les données DVF ne sont pas sur data.economie.gouv.fr, mais vous pouvez néanmoins les retrouver dans les référentiels logements/aménagements d’Opendatasoft : Explore — Opendatasoft (donc via API, et avec export RSS). C’est une bonne idée de proposer la fédération de ces jeux de données sur le portail Data Economie @NatachaRoger .
Cordialement,
Philippe Vaillant (ODS)

2 « J'aime »

Merci. J’ai bien noté leur présence « améliorée » sur ODS.

Par contre, en ce qui me concerne mon usage, je ne suis utilisateur que des données brutes en provenance directe des producteurs, afin de ne pas être dépendant d’un tiers pour proposer les services dérivés à mes clients.
(trop de déconvenues par le passé avec des jeux « traités » par des intermédiaires qui soit arrêtaient, soit avaient des délais trop variables, etc…)

Pour les mêmes raison, je ne suis pas (ou exceptionnellement) utilisateur d’API… (exemple de l’OVH down de ce matin : il aurait suffit qu’un seul fournisseur d’une API soit en rade pour bloquer mes utilisateurs).

1 « J'aime »

Bonjour @NicolasTruet, @Philippe_Vaillant1 ,
Des actions sont en cours avec la DGFIP pour publier les données DVF (Demandes de valeurs foncières) sur data.economie.gouv.fr.
@cquest , l’absence d’identifiant pour faire le lien dans les transactions est bien identifié :wink:
La publication de l’identifiant, même tronqué, n’est pas prévue dans le décret n° 52018-1350 du 28 décembre 2018 relatif aux données ouvertes des « Demandes de valeurs foncières ». La DGFIP sera présente les 4 et 5 novembre, ce sera l’occasion d’en parler et peut-être même prévoir une table de travail sur DVF, PCI et MAJIC.

Un décret ça se modifie, quand on en a envie.

La rédaction du décret ne parle effectivement pas de l’identifiant, mais sa rédaction permet aussi une publication où « chaque mutation » est bien cohérente.

Si les données DVF étaient publiées avec un format XML ou json qui permet l’imbrication, il serait tout à fait possible, sans aucun identifiant de conserver la hiérarchie mutation > parcelles.
La dénormalisation faite pour l’extraction actuelle ne me semble pas dans l’esprit du décret.

C’est donc un choix technique, pas un choix réglementaire et en l’état ces données sont souvent mal interprétées à cause de la perte de ce lien.

1 « J'aime »

Et on peut remonter aussi à niveau du dessus, la loi…

« Afin de concourir à la transparence des marchés fonciers et immobiliers, l’administration fiscale rend librement accessibles au public, sous forme électronique, les éléments d’information qu’elle détient au sujet des valeurs foncières déclarées à l’occasion des mutations intervenues au cours des cinq dernières années. » (L112A du Livre des procédures fiscales, introduit par la Loi de 2018).

En l’état c’est partiellement le cas.
« Tragédie de l’exécution »

Bonjour à toutes et à tous,

Suite à vos contributions sur ce forum et aux demandes reçues via le formulaire d’inscription à la Non Conférence, nous avons identifié 5 grandes thématiques pour les ateliers collaboratifs :

  • Les données fiscales (poke @NicolasTruet)
  • Les données foncières
  • Les données de la commande publique (poke @Emeline)
  • Le plan de relance
  • L’archivage des données (poke @cquest :wink: )

Qu’en pensez-vous ? Quelles problématiques ou quels angles d’attaque proposeriez-vous pour ces différents ateliers ? Nous sommes à l’écoute de vos propositions.

Des temps d’échange avec les producteurs seront également organisés afin que vous puissiez leur remonter vos impressions, vos remarques, votre enthousiasme ou vos difficultés concernant leurs données. Le programme complet sera bientôt publié !

2 « J'aime »

Plusieurs sujets peuvent être envisagés pour l’atelier collaboratif sur les données de la commande publique :

  • un bilan de la publication des données essentielles 3 ans après l’entrée en vigueur de l’obligation de publication des DECP ;
  • Comment publier les données de programmation achats : vers la création d’un standard ?
  • Les données essentielles des marchés publics : comment les valoriser en interne et en externe ?
    Dans le cadre du plan de relance : une préférence pour traiter le sujet des données de programmation achats : profitons de la NC pour penser à la création d’un schéma ?!
2 « J'aime »

Bonjour, je crois que l’extraction automatique des données de la base TOTEM est en partie réalisée grâce à l’outil que nous avons développé (suite à un précédent hackathon DataFin) : https://dataclic.fr
Cet outil est conçu pour extraire d’autres données de bases nationales. Il faut choisir celles qui seraient les plus pertinentes, par exemple lors de la (non)conférence.

Oui, l’outil dataclic est excellent. Il permet déjà de convertir facilement et rapidement au format SCDL Budget les fichiers totems produits par les collectivités (https://dataclic.fr/budget).
Je l’indique d’ailleurs à chaque collectivité à qui je recommande de publier leurs données budgétaires au format SCDL.

Mais pour l’utiliser, il faut disposer des fichiers TOTEM produits pas les collectivités…

Hors, on n’y a pas accès, il faut les demander à chaque collectivité (refus à 98%) alors que ces données sont des données communicables et déjà centralisées via la procédure de transmission aux préfectures « Actes Budgétaire ».

oui, on a donc un sujet d’approfondissement sur ce cas précis : un accès automatique et libre à la base Totem…

3 « J'aime »

Bonjour, pouvez-vous nous en dire plus sur TOTEM? TOTEM est un SI, un outil de collecte? ou le nom de la base de données des budgets des collectivités? Merci!

@jmbourgogne @NicolasTruet

Quand je parlais de TOTEM, il s’agissait d’un abus de langage. TOTEM étant l’outil permettant de lire un flux budgétaire dématérialisé (=> http://odm-budgetaire.org/).

Le flux budgétaire contenant les informations budgétaire étant les fichiers xml « normalisés » de dématérialisation des décisions budgétaires des collectivités, syndicats et établissements publics locaux définit par la DGFIP / la DGCL.

=> https://www.collectivites-locales.gouv.fr/finances-locales/26-savoir-lire-un-flux-budgetaire

C’est de cette manière que sont désormais transmises à l’Etat les décisions budgétaires (budgets primitif, décisions modificatives, comptes administratifs) : via la procédure Actes Budgétaires pour transmission à la Préfecture, via Hélios en PES PJ pour transmission à la DGFIP.

Donc a priori, les flux sont à disposition de la DGCL et de la DGFIP puisqu’ils sont intégrés dans Hélios.

Bonjour à tous !

J’ai le plaisir de vous transmettre le programme de la Non Conférence ! On espère vous y retrouver nombreux.

MEFR_NC_programme2021.pdf (108,0 Ko)

2 « J'aime »

@NicolasTruet
Merci pour ces précisions! Je comprends mieux les flux, ces données sont donc bien dans Hélios.