sireneLD : un graphe des données d'entreprises et d'organisations publiques

Bonjour à tous et toutes,

Comme le projet avance bien ces dernières temps et qu’il attire de plus en plus les curieux et curieuses, je me suis dit qu’une petite présentation était de mise.

En deux mots, sireneLD, c’est le projet de rendre accessible au plus grand nombre (agents publics, citoyen·nes) les données liées aux entreprises et aux organisations publiques via un requêtage et un téléchargement de données tabulaires simplifiés pour une exploitation dans un logiciel de tableur. Il n’y aura pas besoin d’apprendre un langage de requête : une application Web permettra la création et le partage de requêtes génériques.

LD = Linked Data = Données liées

Par exemple :

  • la liste de toutes les PME du {département} ayant remporté un marché public en {année d'attribution}
  • par département, le nombre d’entreprises ayant à la fois remporté au moins un marché public et reçu au moins une subvention en 2019 (en espérant que la publication des données de subventions décolle un peu…)

Cette liste deviendra plus intéressante à mesure que de nouveaux jeux de données seront intégrés.

Je mettrai ce post à jour régulièrement.

Vous pouvez également suivre l’aventure

Les étapes

1. Rassembler un maximum de données ouvertes des entreprises et des organisations publiques dans un graphe (c’est assez bien expliqué ici)

Les données, plus ou moins par ordre de priorité :

  • :white_check_mark: en pierre angulaire, les données du répertoire SIRENE
    • Unité légales
    • Établissements
  • :white_check_mark: les données des marchés publics (1,9 million de triplets)
  • :white_square_button: chiffres clés infogreffe
  • RNCS
    • :white_square_button: RNCS CA
    • :white_square_button: RNCS IMR (Immatriculations, Modification, Radiations)
    • :white_square_button: RNCS Actes (constitutifs, modificatifs, PV d’AG, statuts). Ça a l’air d’être du PDF…
  • :white_square_button: subventions publiques
  • :white_square_button: répertoire des représentants d’intérêt
  • :white_square_button: les intercommunalités (banatic)
  • :white_square_button: indice sur l’égalité des salaires (egapro)
  • :white_square_button: Annuaire santé
  • :white_square_button: Données présentes sur Wikidata (via les SIREN)
  • :white_square_button: BODACC
  • :white_square_button: plein de nomenclatures officielles :
    • :hourglass_flowing_sand: : COG
    • :white_square_button: NAF
    • :white_check_mark: CPV
  • :white_square_button: données du recensement ?
  • vous voyez autre chose ?

Bref tout ce qui mentionne ou décrit des SIRET ou des SIREN. La[liste exhaustive est sur le kanban du projet.

Pour chaque type d’objet (entreprise, marché public, commune), je crée une ontologie afin de modéliser les objets et leurs relations.

Voici les ontologies déjà publiées :

2. Les publier

Les données sont publiées sous deux formes :

Exemple de requête SPARQL exécutée avec curl :

curl -X POST http://sireneld.io:18300/sparql -H "Content-type: application/sparql-query"  -d "select ?p ?o where { <https://sireneld.io/siret/81223113200034> ?p ?o } limit 10"

3. Proposer une application Web et une API

Ça sera sur sireneld.io via le code développé ici : https://github.com/ColinMaudry/sirene-ld-web/

Actuellement ça n’avance pas. J’ai juste publié un moteur de recherche d’attribution de marché : https://sireneld.io/commande-publique.

Même si ça m’amuse, le développement Web n’est pas mon fort. Et surtout il y a beaucoup à faire par ailleurs. Donc si le projet te botte et que tu veux bidouiller du VueJS, fais toi connaître !

L’API reposera en partie sur sparql-router (expressJS + VueJS), qui devra être refactoré et remis au goût du jour.

Projets connexes

4 « J'aime »

Super initiative. Il va falloir que je me penche sur ton API SPARQL pour apprendre à l’utiliser et explorer les données que tu proposes. Puis voir comment je peux l’inclure dans le front-end Open Companies Data . Si tu veux qu’on fasse front commun (jeu de mot), pour ne pas développer des choses similaires chacun dans notre coin, je suis ouvert à la discussion :slight_smile:

Tout à fait, c’est prévu ! Pour ma part je me noie un peu dans ce que propose l’Open Data RNCS et sur comment traiter les données, donc il y a clairement quelque chose à faire :wink: