Cartographie territoriale - contours

Bonjour à tous,

Je cherche a compiler les contours des différents territoires et établissements liés à des territoires. Je pense que tous les éléments que je cherche ont un code SIREN (mais n’étant pas expert, je n’en suis pas sûr). En gros l’idée serait de faire une association code SIREN => contours géographique

Pour les divisions administratives, j’ai identifié ces sources de données :

Il me semble que seules les données sur les EPCI ont des codes SIREN, mais je doit pouvoir trouver des correspondance code territoire <-> code SIREN sur le site de l’INSEE

Pour les etablissement publics territoriaux, j’ai trouvé ce jeu de données : Etablissements publics territoriaux (EPT) de la Métropole du Grand Paris - data.gouv.fr . Il manque le code SIREN aussi, mais vu le faible nombre, je dois pouvoir le faire « a la main ».

Si parmis les sources que j’ai identifiées, vous en avez de meilleure qualité, je suis preneur.

La partie plus délicate concerne les différents types de syndicats, si je ne dis pas de bêtises, les natures juridiques 73XX dans la base sirene. Je n’espère pas trouver des fichiers de contours, mais savez vous si il existe des fichiers a peu près normalisés qui feraient l’association entre un SIREN et une liste de code territoire ou codes SIREN ? Un peu comme les bassins d’emploi : https://www.insee.fr/fr/statistiques/fichier/4652957/ZE2020_au_01-01-2021.zip

Merci par avance pour vos retours !

EDIT : on dirait que la liste de tout ce que je recherche est dans ce fichier : https://www.banatic.interieur.gouv.fr/V5/fichiers-en-telechargement/telecharger.php?zone=N&date=01/04/2021&format=A

EDIT 2 : En regardant le fichier de métadonnées (https://www.banatic.interieur.gouv.fr/V5/ressources/documents/document_reference/Banatic_Metadonnees2019.xlsx), il y a une colonne « Siren membre », j’ai l’impression que c’est presque ce que je recherche, je ne comprend pas pourquoi ce n’est pas au pluriel …

1 Like

Si je comprends bien ton explication, on a eu un besoin similaire pour la carte de l’observatoire open data d’OpenDataFrance, c’est à dire associer un établissement public, identifié par son code INSEE ou son SIREN, à une géométrie. On a utilisé ADMIN-EXPRESS de l’IGN (et les données de l’Institut Paris Région pour les contours des intercommunalités en IDF). Certains établissements, pour lesquels il n’y avait à notre connaissance à l’époque pas de géométrie officielle, sont représentés par un point.

@loichay aura peut-être plus d’infos sur ces choix. Ca a été mis en place il y a 3 ans mais c’est toujours mis à jour automatiquement avec le référentiel d’OpenDataFrance (liste des établissements avec leur SIREN).

Plus d’infos sur les données ici :

1 Like

Pour info, les couches administratives de la BDTopo contiennent les communes, départements, régions, mais aussi les EPCI (peut être en doublon d’ADMIN-EXPRESS).

Le code SIREN y figure pour les EPCI, ainsi que pour les communes mais pas pour les départements et régions.

Si vous ne voulez pas télécharger toute la BDTopo, j’ai regénéré séparément chaque couche pour la France entière au format géopackage :

https://data.cquest.org/ign/bdtopo/latest/geopackage/

1 Like

Merci pour vos retours et vos liens !

@johan : oui c’est ça, et j’avais cette carte en tete car différents types de territoires la composent. L’idée est de continuer en ce sens, et d’essayer d’avoir des géométries pour tous les établissements de type AGCT, COM, DSPT et OACT (jai repris la liste sur le lien gitlab, il y a peu etre d’autres accronymes). Pourquoi etes-vous partis de Sirene plutôt que Banatic, il y a une raison particulière ?

Le référentiel et la typologie des établissements sont faits maison par ODF (méthodo détaillée ici). On trouve dans les organisations recensées des « EPT » (établissement public territorial) ou encore des « OACT » (organisme associé de collectivité territoriale), parfois des associations, des GIP, etc. Bref, autant d’établissements qu’on ne retrouve pas dans la BANATIC.

La définition d’« acteur de l’open data » dans l’Observatoire est très vague donc la base SIRENE qui a l’avantage de recenser tous les établissements est idéale pour ce projet. J’irai même jusqu’à reprendre la nature juridique pour classer les établissements plutôt que de faire une typologie maison mais c’est un autre sujet.

Si je comprends bien Admin express COG, qu’on a utilisé, et un sous-produit de la BD TOPO. Mais c’était il y a 3 ans et je ne sais pas si les produits ont évolué. Si c’était à refaire, peut-être qu’aujourd’hui on ferait différemment. :slight_smile:

C’est surtout que la BDTopo n’était pas ouverte il y a 3 ans :wink:

Elle est publiée chaque trimestre, ADMIN-EXPRESS chaque mois avec une version « COG » en cohérence avec le dernier Code Officiel Géographique publié par l’INSEE, en retard car vers mars/avril pour le 1er janvier précédent.

La définition d’« acteur de l’open data » dans l’Observatoire est très vague donc la base SIRENE qui a l’avantage de recenser tous les établissements est idéale pour ce projet. J’irai même jusqu’à reprendre la nature juridique pour classer les établissements plutôt que de faire une typologie maison mais c’est un autre sujet.

Ca correspondrait aux codes nature juridique 72XX et 73XX ?

Oui c’est ça, les catégories juridiques INSEE. Si tu passes la liste des établissements « acteurs de l’open data » à la moulinette de l’API Sirene, tu trouves de tout :

Code Libellé
5515 SA d’économie mixte à conseil d’administration
5599 SA à conseil d’administration (s.a.i.)
7210 Commune et commune nouvelle
7220 Département
7225 Collectivité et territoire d’Outre Mer
7230 Région
7344 Métropole
7346 Communauté de communes
7348 Communauté d’agglomération
7354 Syndicat mixte fermé
7355 Syndicat mixte ouvert
7410 Groupement d’intérêt public (GIP)
9220 Association déclarée

Et j’en passe. Mais encore une fois ce sont des problématiques spécifiques à l’Observatoire open data pour lesquelles il a fallu trouver des solutions adaptées. Ca ne s’applique peut-être pas à ton cas.

1 Like

Bonjour @nicolas-bonnel olas-bonnel, si vous voulez un retour d’expérience, pour un besoin similaire nous utilisons la BANATIC (pas les données Open Data qui sont des tables mais la cartographie ici https://www.banatic.interieur.gouv.fr/V5/ressources/documents/document_reference/contours_epci.zip qui est un SHP).

On utilise la colonne Raison_Sociale & Nature_Juridique pour nos références, et il y a le code SIREN de l’EPCI et de la commune centre.

Une fois qu’on a ce code, on peut faire la correspondance avec les tables de périmètres des EPCI à fiscalité propre (https://www.banatic.interieur.gouv.fr/V5/fichiers-en-telechargement/telecharger.php?zone=N&date=01/04/2021&format=E, url de téléchargement direct), qui indique pour chaque commune à quel EPCI elle est rattachée, et le code SIREN de cet EPCI.

J’espère que ça répond à vos questions !

Charles

Bonjour @CharlesHP ,

Merci pour votre retour. Si je ne dis pas de bêtises, ca répond pour la partie EPCI, mais pas pour les syndicats mixte et autres groupements.

Pour la partie syndicats, il y a peut être moyen d’avoir quelques chose en scrappant des pages comme celle la : BANATIC, la base nationale sur l'intercommunalité ou celle la : BANATIC, la base nationale sur l'intercommunalité . J’aimerais ne pas à avoir à faire du scrapping, mais si c’est la seule solution …

Ah oui pardon je croyais que c’était pour les EPCI à fiscalité propre.

Étonnamment la liste des communes (ou structures) dans les EPCI sans fiscalité propre n’est pas en fichier national.

Pour Mégalis Bretagne que vous citez par exemple, on retrouve les 64 membres uniquement dans les fichiers en téléchargement à l’échelle de la région (Périmètre des groupements) et un filtre sur nom du groupement (colonne F). Je viens de vérifier on retrouve bien les 64 membres et leur SIREN (colonne E).

Après, pourquoi ces données sont disponibles à l’échelle régionale et pas nationale, c’est une autre question (et une bonne)

1 Like

Charles,

Merci, je viens d’arriver exactement aux mêmes conclusions que vous. J’etais resté sur le fichier national, mais on dirait que les fichiers régionaux sont plus adaptés !

Du coup ca va nous éviter d’avoir à faire du scrapping, on va concaténer ces fichiers régionaux, basculer sur des champs multivalués pour les compétences, sirens membres, communes, départements et régions impliqués. Et rajouter les contours à partir de tout ça.

Je ne savais pas non plus que les fichiers BANATIC régionaux et départementaux n’avaient pas le même périmètre que le fichier national. Si vous publiez un fichier agrégé ça m’intéresse d’y jeter un coup d’oeil ! (points bonus si mis à jour automatiquement à chaque nouvelle publication d’un fichier source)

Sinon, à toute fin utile, j’avais extrait la liste des siren des communes, ept, GFP, syndicats, départements, régions, depuis les données des balances comptables.

L’inconvénient est la fraicheur puisque les données les plus récentes sont de 2019…

SIREN_EPT_2019.csv (508 Octets) SIREN_SYND_2019.csv (487,2 Ko) SIREN_Commune_2019.csv (1,2 Mo) SIREN_REG_2019.csv (586 Octets) SIREN_DEPT_2019.csv (3,4 Ko) SIREN_GFP_2019.csv (57,1 Ko)

Attention concernant la cartographie des différents epci à fiscalité propre et sans fiscalité propre à partir de la BANATIC :

  • pour avoir l’ensemble des données, se référer à l’échelon régional + récupérer Mayotte à l’échelon départemental ;
  • pour cartographier précisément les contours, il faut souvent descendre plusieurs niveaux pour certains epci car la nature juridique des territoires membres d’un groupement est multiple + attention au mécanisme de représentation-substitution où l’ensemble des communes d’un territoire membre d’un groupement ne sont pas forcément incluses dans ce groupement, seulement une partie.
1 Like

@johan : On prévoit de le mettre à jour automatiquement (le traitement sera même publié en opensource sous forme de plugin data fair), mais on a 2 soucis : quand savoir qu’un fichier source a été publié ? (Je ne crois pas qu’il y ait des webhook du coté de banatic.interieur.gouv). Et comment connaitre la dernière date valide ? (cf le lien de Charles avec une date au 01/04/2021).

@NicolasTruet : Merci ! Malheureusement la fraicheur pose problème, nous allons utiliser la dernière version de la base sirene je pense.

@bellice : Merci pour ces précisions ! Pourriez-vous nous expliquer plus en détails le second point, ou nous renvoyer vers des liens expliquant cela ?

Oui pas possible de savoir quand un fichier va être publié sur le site https://www.banatic.interieur.gouv.fr/. La dernière mise à jour date du 01/04/2021, les précédentes du 01/10/2020 et du 01/07/2020 (source web.archive.org). Ce n’est pas régulier donc je partirais sur une récupération programmée avec cron tous les 2 du mois. L’important selon moi c’est de ne plus avoir à s’en souvenir mais d’être alerté quand les scripts ne marchent plus (ce qui arrivera quasiment à chaque fois à cause de changements d’URL ou de structures des fichiers) et surtout que le processus (les scripts comme les données) soit ouvert, transparent pour les utilisateurs et versionné.
C’est ce que fait dans mon équipe en s’appuyant sur Git et Gitlab-CI pour différents projets notamment l’Observatoire de l’open data cité plus haut mais aussi (à plus grande échelle) DBnomics.

Cette méthode qui a pas mal d’avantages a récemment été théorisée sous le nom de « git scraping » par Simon Willison (créateur de Django et de Datasette).

1 Like

En prenant les données des périmètres des groupements au 01/01/2021,
si on sélectionne les groupement dont la Nature.juridique est le PETR, on constate que certains de ces groupements possèdent une modalité égale à 1 dans le champ Représentation.substitution. Cela indique dans ce cas que le périmètre de l’epci membre n’est pas inclus en totalité. Il faudra descendre au niveau communal pour retirer les communes qui n’adhèrent pas directement à ce PETR.
C’est par exemple le cas du PETR du Pays de Lourdes et des vallées des Gaves où l’epci membre CA Tarbes-Lourdes-Pyrénées est en représentation-substitution suite à une fusion.
On retrouve ce même mécanisme dans les pôles métropolitains et les syndicats mixtes.
Le grand inconvénient des fichiers mis à disposition par la DGCL est qu’il n’est pas possible de retrouver les communes qui adhèrent directement ou non à un groupement. Dans le cas du PETR du Pays de Lourdes et des vallées des Gaves, je sais seulement qu’une partie des communes membres du CA Tarbes-Lourdes-Pyrénées n’adhère pas directement à ce PETR.
Pour savoir quelles communes exactement, il faut en faire la demande. La DGCL possède cette information dans leur interface.

2 Likes

Merci pour cette explication détaillée !

Il nous reste un autre point à éclaircir : la licence des données. Dans les mentions légale du site, il est écrit qu’il n’y a pas de droit d’auteur. Par contre, il est précisé « Toute utilisation à des fins commerciales ou publicitaires est interdite. »

Cela veut donc dire qu’on ne peut pas publier les données retravaillées sous licence ouverte ?

Site ? le BANATIC de la DGCL ?

Une telle clause est désormais illégale, donc nulle… encore des CGU obsolètes.