opendatArchives des données environnement/risques (post-lubrizol)

L’incendie de l’usine Lubrizol de Rouen a été l’occasion de fouiller dans les données disponibles sur la partie environnement et risques.

Beaucoup de données sont accessibles en lignes, mais « façon puzzle », c’est à dire réparties sur différents sites. De plus elles sont souvent consultables par une interface web, mais partiellement téléchargeables, c’est à dire qu’on peut télécharger la liste, mais le détail pour chaque fiche n’est accessible que sur une page web en HTML.

Donc… deux dossiers nouveaux sont arrivés sur data.cquest.org: icpe et georisques

ICPE (Installation Classées pour la Protection de l’Environnement)

  • la liste en CSV est archivée et historisée
  • le détail de chaque fiche est scrapé et remis dans un fichier json global
  • les documents (PDF) associés sont aussi archivés

Voir: http://data.cquest.org/icpe/

Géorisques:
C’est un site destiné plutôt au grand public qui permet de s’informer sur les risques en un point donné du territoire. Il permet d’accéder à des infos sur les risques naturels (inondations, mouvement de terrain, volcanisme, séismes, etc) mais aussi technologique (on retrouve les ICPE, mais aussi les anciens sites industriels, la base de sols pollués, le registre des émission polluantes, etc).

J’ai regroupé un bonne partie de ces données sur http://data.cquest.org/georisques/

En cours… le détail des bases BASIAS et BASOL.

Pour le cas de Lubrizol, je vais aussi archiver les données météo de la période (observations et prévisions à court terme, en général très proche de la réalité)… ça peut toujours servir.

9 « J'aime »

Les données détaillées de BASIAS sont maintenant dispo sur: http://data.cquest.org/georisques/basias_detail/

BASIAS c’est la base des anciens sites industriels… elle répertorie des activités qui ont pu avoir des conséquences en terme de pollution. Plus de 300 000 sites y figurent !

Les données détaillées proviennent d’un scraping du site georisques, vu que seul un CSV basique est proposé au téléchargement et pas le détail de chaque fiche concernant un site.

1 « J'aime »

Nous avions publié une visualisation basée sur les données icpe que tu as scrappées.
Nous constatons aujourd’hui que l’URL des fiches n’est plus valide. Par exemple : http://www.installationsclassees.developpement-durable.gouv.fr/ficheEtablissement.php?champEtablBase=58&champEtablNumero=575 (Le site Lubrizol - au hasard)

Nous avons cherché sur les liens mentionnées à la racine du site, mais sans succès. Une idée d’un endroit où elles pourraient etre ? J’ai regardé un peu dans le fichier icpe_detail.json.gz, mais j’ai l’impression qu’il y a beaucoup moins d’informations que sur les fiches qu’il y avait dans le lien que j’ai mis en premier.

Sur data.gouv.fr, j’avais vu que le collectif « Lou Dupont » avait aussi scrapé les pages de basol et basias pour des informations également très riches

Exemple sur BASOL : https://www.data.gouv.fr/fr/datasets/inventaire-des-sites-pollues/

Ces scraping/publications « citoyennes » ont parfois été l’aiguillon qui a fait bouger les administrations :wink:

Quelques exemples que je connais bien :

  • les comptes de collectivités
  • annuaire des services publics
  • les contributions au grand débat
1 « J'aime »

@nicolas-bonnel les fiches détails ont été migrées sur Géorisques (une petite redirection n’aurait pas fait de mal). Exemple avec le site du Lubrizol: https://www.georisques.gouv.fr/dossiers/installations/donnees/details/0058.00575. Tu peux facilement reconstituer les urls à partir de champEtblBase et champEtablNumero.

2 « J'aime »

Merci pour la précision, nous allons regarder ça !

Bonjour,

Complément d’information : les dossiers ayant nourris cette base sont disponibles aux Archives départementales, d’ailleurs la référence « archives » est présente dans le JSON. Après ouverture de quelques fichiers j’ai pu constater que la donnée n’est pas toujours typée de la même façon, ni dans la même balise.

Ces dossiers sont très fréquemment consultés en salle de lecture.

Une petite remontée de sujet… avec l’actualité libanaises :frowning:

J’ai relancé un scrapping des détails sur les installations classées, ce qui permet de retrouver les ICPE avec les classes 1331 et 1332 liées au nitrates d’ammonium…

Donc des données plus récentes seront bientôt disponibles sur

1 « J'aime »

Bon… petite galère avec un webservice qui retourne du JSON non conforme…

Pour info, j’ai regéocodé les adresses de la table des émissions de la base IREP, pour pallier à la mauvaise qualité des champs de geolocalisation (projections differentes d’une ligne à l’autre, et non documentées, erreurs de signes, coordonnées manquantes, etc.). J’ai publié ça sur Géocodage de la table des émissions du Registre des émissions polluantes - data.gouv.fr, et le script est sur GitHub - cedricr/geocodage_irep: Géocodage de la table des émissions du Registre des émissions polluantes
Feedback bienvenu!
Exemple de réutilisation: Les plus gros émetteurs directs de CO2 en 2019 - data.gouv.fr

Cedric

2 « J'aime »

Bonjour,

SI j’ai bien compris vous avez fait un effort de geocodage des bases BASOL et BASIAS ? Serait il possible de savoir la date de la mise à jour? Est il conseillé d’utiliser pour BASIAS votre fichier national ou les fichiers par départements? Je vois que dans le dossier DETAIL, il s’agit de fichiers JSON et non de geojson. On ne peut pas les charger dans un SIG. Faut il les convertir en geojson? Si vous avez des informations sur votre méthode et votre travail, avec plaisir.

Euh… c’est un peu loin, mais il ne me semble pas l’avoir re-géocodée.

La partie « détail » est issue d’un scrapping fait en 2019 du site web géorisques.

Le reste provient des couches de données disponibles en WFS (donc données géographiques) mais qui contiennent moins d’information si ma mémoire est bonne et qui sont extraits quotidiennement.

Bonjour. C’est pas facile de s’y retrouver dans ses données Georisques. J’ai utilisé votre travail fait sur les emissions. J’aimerais simplement pouvoir récupérer la bonne information XY pour les autres fichiers ( les prélèvements ;les productions de déchets [danger]),etc.
Pour faire des jointures, pouvez vous me confirmer que le champ SIRET est le champ pertinent (champ commun)?
Au début je pensais prendre le champ identifiant car je pensais que ce dernier faisait référence toujours aux établissements, dans chacun des fichiers. Mais j’ai un doute.
Si vous pensez pouvoir m’éclairer ?
L’idée serait de profiter de cette amélioration de localisation proposée par @cedricr et de l’étendre pour tout le jeu de données IREP.

Je ne connais pas l’intimité de ces jeux de données.

Le SIRET va identifier un établissement au sens INSEE dans la base SIRENE, pas sûr que les sites aient tous des SIRET distincts, et comme ils sont géocodés avec des adresses, je doute par exemple qu’une décharge pousse être localisée comme ça.

On va localiser son exploitant… pas mieux.

N’y a-t-il pas des références de parcelles cadastrales ? C’est l’idéal…

Merci. Les champs du fichier ETABLISSEMENT sont : identifiant, nom_etablissement numero_siret, adresse, code_postal, commune, departement, region, coordonnees_x, coordonnees_y, code_ape, libelle_ape, code_eprtr, libelle_eprtr.

L’idée serait de pouvoir profiter de l’amélioration de localisation proposée par @cedricr et de l’étendre pour tout le jeu de données IREP. Cette amélioration apportée par @cedricr est proposée pour le fichier emissions. Honnetement je suis étonné par le manque de metadata de ces données georisques. Et les champs XY sont parfois pas remplis. Différents systemes de referencement se trouvent dans une meme donnée. C’est pourtant des données à enjeux forts.

IREP me semble forcément lié à une activité donc un établissement.

BASOL décrit des sites où il peut ne plus y avoir d’activité depuis longtemps (exemple près de chez moi, une station service fermée depuis au moins 25 ans) et là le SIRET ne permettra pas de géoloc.

1 « J'aime »

A partir de mon script je pense qu’il est assez facile d’étendre au reste du jeu de donnée; je pars bien des Etablissements, mais je ne garde que ceux qui sont liés à des emission.
Mais attention, je n’ai localisé qu’à la commune, ce qui suffisait pour mon usage de cartographie à l’échelle nationale.

Si vous avez un SIRET, prenez ma version géocodée de la base SIRENE… c’est géocodé à l’adresse (le plus possible).

http://data.cquest.org/geo_sirene/v2019/last/

Ah d’accord. Merci. Je vais regarder.