Le geocodage de SIRENE est également réalisé par opendatasoft ici
Comment est fait votre geocodage ?
Aujourd’hui à la MEL, nous nous basons sur cette donnée, il me semble que la géoloc est faite avec la BANO. @jean-marc.lazard pouvez vous confirmer ?
Quelle est la précision de ces 2 geocodages pour que nous puissions tous en tirer le meilleur ?
Ce que j’entends ici c’est que vous apportez ainsi en plus un historique de la géolocalisation des entreprises.
Nous utilisons effectivement la BAN pour le géocodage de la base SIRENE.
Notre mise à jour est quotidienne également afin d’avoir l’information la plus à jour.
Qu’entendez-vous par historique de géolocalisation?
Dans le lien donné par @cquest, on peut retrouver la base SIRENE a une date donnée, ce qui fait que si on collecte l’ensemble de ces données, qu’on garde le SIRET comme identifiant unique (ce qu’il est), on peut ainsi avoir l’ensemble des établissements fréquentés par l’entreprise, reste juste à voir si le lieu est actif ou fermé.
En terme d’exploitation par des services de développement économique, c’est intéressant pour voir le flux des entreprises ou en prévision si on sait qu’une entreprise quitte un lieu c’est qu’on a potentiellement un lieu vacant
Attention néanmoins, pour avoir tenté de réutiliser ces données, elles sont fiables au stade de la création des établissements, beaucoup moins à celui de sa disparition…
La disparition ne se fait qu’une fois la liquidation prononcée… ça peut prendre du temps.
Même problème pour le répertoire des associations… rares sont celles qui font le nécessaire quand elle cessent lentement leur activité et il y a plein de fantômes dans cette base.
Pour les entreprises, c’est plus les changements d’adresses qui sont à surveiller, là potentiellement un local d’activité se libère.
Je fais partie de la société Koumoul. Nous avons créé une API Sirene il y a 3 ans, il s’agit essentiellement d’une indexation des fichiers Sirene et d’une API REST. Mais nos mises à jour sont en panne depuis un moment, nous avons manqué de temps pour suivre les dernières évolutions des APIs et des formats de fichier.
Nous pensons migrer vers l’utilisation de vos fichiers geo_sirene pour profiter de vos efforts sur le geocodage et sur la rétro-compatibilité avec les anciens fichiers stock.
En terme de licence est-ce que ça change quelque-chose par rapport à la source Sirene d’origine ?
En terme d’infrastructure on envisage 1 téléchargement mensuel des 2 archives, multiplié par 2 en tenant compte d’un environnement de recette, plus quelques téléchargements occasionnels sur les postes de développement. Est-ce raisonnable pour votre infrastructure ?
Est-il raisonnable de compter nous appuyer dessus pour quelques années ? Je comprend que vous fournissez cette donnée sans engagement et bien entendu je n’attends pas de réponse ferme, simplement une indication si vous pensez maintenir les traitements et l’hébergement à moyen terme.
Un grand merci pour votre travail ! Et merci d’avance pour vos réponses.
Je ne recommande pas le maintien d’une dépendance aux fichiers à l’ancien format. C’est vraiment pour permettre une transition que je les génère encore. Les fichiers retrosirene ne peuvent être qu’une solution temporaire et transitoire.
Quitte à modifier quelque chose chez vous, il serait préférable de passer aux nouveaux formats de fichiers et d’API.
Pour le téléchargement régulier, cela ne pose pas de problème, depuis mon passage à la fibre il y a de la marge avant de saturer les 600+500Mbps en sortie (oui, il y a deux fibres et tout est auto-hébergé chez moi: https://www.computel.fr).
Licence: la situation est plus claire depuis que la BAN est passée sous Licence Ouverte.
Des données OSM, sous licence ODbL, sont aussi utilisées pour le géocodage, mais la fondation OSM a précisé que cet usage de données OSM pour le géocodage n’activait pas le partage à l’identique et que le résultat du géocodage n’avait pas besoin d’être sous ODbL.
Donc… geo_sirene est en LO somme SIRENE.
Pour la pérennité… j’ai automatisé un maximum de choses, c’est donc une charge assez limitée pour moi. Les scripts de géocodage sont sur github, ce qui permet à quelqu’un de reprendre le flambeau si jamais je stoppe pour une raison ou une autre.
J’espérai que ce croisement fort utile entre données faisant partie du Service Public de la Donnée soit systématisé, par exemple par Etalab. Les jeux d’acteurs ont fait que cela n’a pas (encore) été fait. Des échos m’ont indiqué que l’INSEE utilise en interne une base SIRENE géocodée, peut être la mienne d’ailleurs et l’IGN s’auto-positionne comme incontournable dès qu’on parle de géographie… ce qui bloque souvent les avancées (ou les ralentit énormément).
Pour le captcha… gros « oups » à propos de mon site « pro » qui végète depuis des années dans un recoin de serveur et que je ferai mieux de fermer !
Merci pour toutes ces informations. Même si ce n’est pas parfait, je pense qu’on va s’appuyer sur retrosirene/geo_sirene et vos serveurs de données pendant au moins quelques mois. Pour l’instant le temps nous manque pour une refonte plus importante.
Bonjour, j’ai chargé les données geo_sirene nouvelle version du mois de décembre et novembre 2020. Pour ces deux mois (je n’ai pas testé les autres) les données sont présentes jusqu’au département 65, mais pas le reste. Si vous avez une solution à ce problème je suis preneur. Cordialement
nouvelle question, j’observe que sur Lyon mais aussi Paris, il n’y a presque pas d’établissements géolocalisés. Est-ce un problème de géocodage à l’arrondissement ?
Est-ce normal ?
merci