Base SIRENE géocodée... quotidiennement :)

Je géocodais jusqu’à maintenant la base SIRENE sur chaque stock mensuel.

J’ai ajouté le géocodage des fichiers quasi-quotidiens de mise à jour.

C’est un peu “beta” (on verra si le cron est ok demain) et disponible sur http://data.cquest.org/geo_sirene/quotidien/

Le géocodage des anciens fichiers de mise à jour est en cours (en remontant le temps)

5 « J'aime »

C’est complet et la mise à jour quotidienne fonctionne. :tada:

2 « J'aime »

bravo et merci !

bonjour et bravo.

Le geocodage de SIRENE est également réalisé par opendatasoft ici
Comment est fait votre geocodage ?
Aujourd’hui à la MEL, nous nous basons sur cette donnée, il me semble que la géoloc est faite avec la BANO. @jean-marc.lazard pouvez vous confirmer ?
Quelle est la précision de ces 2 geocodages pour que nous puissions tous en tirer le meilleur ?

Ce que j’entends ici c’est que vous apportez ainsi en plus un historique de la géolocalisation des entreprises.

Merci pour ces travaux
Bonne journée
Jérôme

Bonjour Jérôme,

Nous utilisons effectivement la BAN pour le géocodage de la base SIRENE.
Notre mise à jour est quotidienne également afin d’avoir l’information la plus à jour.
Qu’entendez-vous par historique de géolocalisation?

Malo

La seule BAN ne suffit pas à obtenir un résultat correct sur certaine zones, en particulier en rural.

Mon géocodage utilise:

  • BAN
  • BANO, en complément sur les adresses mais aussi et surtout sur les lieux-dits sans adresses numérotés, absents de la BAN
  • OSM pour les adresses qui n’en sont pas, par exemple “mairie”, “centre commercial”, etc

Malgré cela, ce n’est pas encore du 100%.

Le code est ouvert, ce qui permet de vérifier ce qui est fait… et de proposer des améliorations :wink:

Un rapport de géocodage est aussi généré, avec la liste des adresses non trouvées et des stats.

Dans le lien donné par @cquest, on peut retrouver la base SIRENE a une date donnée, ce qui fait que si on collecte l’ensemble de ces données, qu’on garde le SIRET comme identifiant unique (ce qu’il est), on peut ainsi avoir l’ensemble des établissements fréquentés par l’entreprise, reste juste à voir si le lieu est actif ou fermé.

En terme d’exploitation par des services de développement économique, c’est intéressant pour voir le flux des entreprises ou en prévision si on sait qu’une entreprise quitte un lieu c’est qu’on a potentiellement un lieu vacant

Pour info, mes petits scripts génèrent aussi un “diff” quotidien des changements de code SIRET:

http://data.cquest.org/histo_sirene/

Il serait sûrement possible de sortir de la même façon les locaux qui se libèrent…

1 « J'aime »

Attention néanmoins, pour avoir tenté de réutiliser ces données, elles sont fiables au stade de la création des établissements, beaucoup moins à celui de sa disparition…

1 « J'aime »

La disparition ne se fait qu’une fois la liquidation prononcée… ça peut prendre du temps.

Même problème pour le répertoire des associations… rares sont celles qui font le nécessaire quand elle cessent lentement leur activité et il y a plein de fantômes dans cette base.

Pour les entreprises, c’est plus les changements d’adresses qui sont à surveiller, là potentiellement un local d’activité se libère.

2 « J'aime »

merci beaucoup pour ce job @cquest c’est bien utile !

1 « J'aime »

Bonjour,

Je fais partie de la société Koumoul. Nous avons créé une API Sirene il y a 3 ans, il s’agit essentiellement d’une indexation des fichiers Sirene et d’une API REST. Mais nos mises à jour sont en panne depuis un moment, nous avons manqué de temps pour suivre les dernières évolutions des APIs et des formats de fichier.

Nous pensons migrer vers l’utilisation de vos fichiers geo_sirene pour profiter de vos efforts sur le geocodage et sur la rétro-compatibilité avec les anciens fichiers stock.

En terme de licence est-ce que ça change quelque-chose par rapport à la source Sirene d’origine ?

En terme d’infrastructure on envisage 1 téléchargement mensuel des 2 archives, multiplié par 2 en tenant compte d’un environnement de recette, plus quelques téléchargements occasionnels sur les postes de développement. Est-ce raisonnable pour votre infrastructure ?

Est-il raisonnable de compter nous appuyer dessus pour quelques années ? Je comprend que vous fournissez cette donnée sans engagement et bien entendu je n’attends pas de réponse ferme, simplement une indication si vous pensez maintenir les traitements et l’hébergement à moyen terme.

Un grand merci pour votre travail ! Et merci d’avance pour vos réponses.

Ah, et pour info le captcha sur la page de contact de www.cquest.fr ne fonctionne pas sur mon firefox ou mon chrome.

Je ne recommande pas le maintien d’une dépendance aux fichiers à l’ancien format. C’est vraiment pour permettre une transition que je les génère encore. Les fichiers retrosirene ne peuvent être qu’une solution temporaire et transitoire.

Quitte à modifier quelque chose chez vous, il serait préférable de passer aux nouveaux formats de fichiers et d’API.

Pour le téléchargement régulier, cela ne pose pas de problème, depuis mon passage à la fibre il y a de la marge avant de saturer les 600+500Mbps en sortie (oui, il y a deux fibres et tout est auto-hébergé chez moi: https://www.computel.fr).

Licence: la situation est plus claire depuis que la BAN est passée sous Licence Ouverte.
Des données OSM, sous licence ODbL, sont aussi utilisées pour le géocodage, mais la fondation OSM a précisé que cet usage de données OSM pour le géocodage n’activait pas le partage à l’identique et que le résultat du géocodage n’avait pas besoin d’être sous ODbL.

Donc… geo_sirene est en LO somme SIRENE.

Pour la pérennité… j’ai automatisé un maximum de choses, c’est donc une charge assez limitée pour moi. Les scripts de géocodage sont sur github, ce qui permet à quelqu’un de reprendre le flambeau si jamais je stoppe pour une raison ou une autre.

J’espérai que ce croisement fort utile entre données faisant partie du Service Public de la Donnée soit systématisé, par exemple par Etalab. Les jeux d’acteurs ont fait que cela n’a pas (encore) été fait. Des échos m’ont indiqué que l’INSEE utilise en interne une base SIRENE géocodée, peut être la mienne d’ailleurs et l’IGN s’auto-positionne comme incontournable dès qu’on parle de géographie… ce qui bloque souvent les avancées (ou les ralentit énormément).

Pour le captcha… gros « oups » à propos de mon site « pro » qui végète depuis des années dans un recoin de serveur et que je ferai mieux de fermer !

Merci pour toutes ces informations. Même si ce n’est pas parfait, je pense qu’on va s’appuyer sur retrosirene/geo_sirene et vos serveurs de données pendant au moins quelques mois. Pour l’instant le temps nous manque pour une refonte plus importante.

1 « J'aime »

Bonjour, j’ai chargé les données geo_sirene nouvelle version du mois de décembre et novembre 2020. Pour ces deux mois (je n’ai pas testé les autres) les données sont présentes jusqu’au département 65, mais pas le reste. Si vous avez une solution à ce problème je suis preneur. Cordialement

Bizarre, tout semble bien présent: http://data.cquest.org/geo_sirene/v2019/2020-12/dep/

Bonjour,

nouvelle question, j’observe que sur Lyon mais aussi Paris, il n’y a presque pas d’établissements géolocalisés. Est-ce un problème de géocodage à l’arrondissement ?
Est-ce normal ?
merci

J’ai corrigé un bug à ce sujet le mois dernier. Les données de début mai devraient être correctes.

j’ai chargé le mois de mai et c’est pareil. Lyon 2 et Lyon 7 fonctionnent pas trop mal, mais pas les autres arrondissements. Désolé