Base SIRENE géocodée... quotidiennement :)

datatouille

(Christian Quest) #1

Je géocodais jusqu’à maintenant la base SIRENE sur chaque stock mensuel.

J’ai ajouté le géocodage des fichiers quasi-quotidiens de mise à jour.

C’est un peu “beta” (on verra si le cron est ok demain) et disponible sur http://data.cquest.org/geo_sirene/quotidien/

Le géocodage des anciens fichiers de mise à jour est en cours (en remontant le temps)


(Christian Quest) #2

C’est complet et la mise à jour quotidienne fonctionne. :tada:


(Joël Gombin) #3

bravo et merci !


(Jerome Van Oost) #4

bonjour et bravo.

Le geocodage de SIRENE est également réalisé par opendatasoft ici
Comment est fait votre geocodage ?
Aujourd’hui à la MEL, nous nous basons sur cette donnée, il me semble que la géoloc est faite avec la BANO. @jean-marc.lazard pouvez vous confirmer ?
Quelle est la précision de ces 2 geocodages pour que nous puissions tous en tirer le meilleur ?

Ce que j’entends ici c’est que vous apportez ainsi en plus un historique de la géolocalisation des entreprises.

Merci pour ces travaux
Bonne journée
Jérôme


#5

Bonjour Jérôme,

Nous utilisons effectivement la BAN pour le géocodage de la base SIRENE.
Notre mise à jour est quotidienne également afin d’avoir l’information la plus à jour.
Qu’entendez-vous par historique de géolocalisation?

Malo


(Christian Quest) #6

La seule BAN ne suffit pas à obtenir un résultat correct sur certaine zones, en particulier en rural.

Mon géocodage utilise:

  • BAN
  • BANO, en complément sur les adresses mais aussi et surtout sur les lieux-dits sans adresses numérotés, absents de la BAN
  • OSM pour les adresses qui n’en sont pas, par exemple “mairie”, “centre commercial”, etc

Malgré cela, ce n’est pas encore du 100%.

Le code est ouvert, ce qui permet de vérifier ce qui est fait… et de proposer des améliorations :wink:

Un rapport de géocodage est aussi généré, avec la liste des adresses non trouvées et des stats.


(Jerome Van Oost) #7

Dans le lien donné par @cquest, on peut retrouver la base SIRENE a une date donnée, ce qui fait que si on collecte l’ensemble de ces données, qu’on garde le SIRET comme identifiant unique (ce qu’il est), on peut ainsi avoir l’ensemble des établissements fréquentés par l’entreprise, reste juste à voir si le lieu est actif ou fermé.

En terme d’exploitation par des services de développement économique, c’est intéressant pour voir le flux des entreprises ou en prévision si on sait qu’une entreprise quitte un lieu c’est qu’on a potentiellement un lieu vacant


(Christian Quest) #8

Pour info, mes petits scripts génèrent aussi un “diff” quotidien des changements de code SIRET:

http://data.cquest.org/histo_sirene/

Il serait sûrement possible de sortir de la même façon les locaux qui se libèrent…


(Joël Gombin) #9

Attention néanmoins, pour avoir tenté de réutiliser ces données, elles sont fiables au stade de la création des établissements, beaucoup moins à celui de sa disparition…


(Christian Quest) #10

La disparition ne se fait qu’une fois la liquidation prononcée… ça peut prendre du temps.

Même problème pour le répertoire des associations… rares sont celles qui font le nécessaire quand elle cessent lentement leur activité et il y a plein de fantômes dans cette base.

Pour les entreprises, c’est plus les changements d’adresses qui sont à surveiller, là potentiellement un local d’activité se libère.


(Henri Labarre) #11

merci beaucoup pour ce job @cquest c’est bien utile !