Bonjour à tous et toutes,
Comme le projet avance bien ces dernières temps et qu’il attire de plus en plus les curieux et curieuses, je me suis dit qu’une petite présentation était de mise.
En deux mots, sireneLD, c’est le projet de rendre accessible au plus grand nombre (agents publics, citoyen·nes) les données liées aux entreprises et aux organisations publiques via un requêtage et un téléchargement de données tabulaires simplifiés pour une exploitation dans un logiciel de tableur. Il n’y aura pas besoin d’apprendre un langage de requête : une application Web permettra la création et le partage de requêtes génériques.
LD = Linked Data = Données liées
Par exemple :
- la liste de toutes les PME du
{département}
ayant remporté un marché public en{année d'attribution}
- par département, le nombre d’entreprises ayant à la fois remporté au moins un marché public et reçu au moins une subvention en 2019 (en espérant que la publication des données de subventions décolle un peu…)
Cette liste deviendra plus intéressante à mesure que de nouveaux jeux de données seront intégrés.
Je mettrai ce post à jour régulièrement.
Vous pouvez également suivre l’aventure
- sur Twitter : @sirene_ld.
- sur le kanban Github
Les étapes
1. Rassembler un maximum de données ouvertes des entreprises et des organisations publiques dans un graphe (c’est assez bien expliqué ici)
Les données, plus ou moins par ordre de priorité :
-
en pierre angulaire, les données du répertoire SIRENE
- Unité légales
- Établissements
- les données des marchés publics (1,9 million de triplets)
- chiffres clés infogreffe
- RNCS
- RNCS CA
- RNCS IMR (Immatriculations, Modification, Radiations)
- RNCS Actes (constitutifs, modificatifs, PV d’AG, statuts). Ça a l’air d’être du PDF…
- subventions publiques
- répertoire des représentants d’intérêt
- les intercommunalités (banatic)
- indice sur l’égalité des salaires (egapro)
- Annuaire santé
- Données présentes sur Wikidata (via les SIREN)
- BODACC
-
plein de nomenclatures officielles :
- : COG
- NAF
- CPV
- données du recensement ?
- vous voyez autre chose ?
Bref tout ce qui mentionne ou décrit des SIRET ou des SIREN. La[liste exhaustive est sur le kanban du projet.
Pour chaque type d’objet (entreprise, marché public, commune), je crée une ontologie afin de modéliser les objets et leurs relations.
Voici les ontologies déjà publiées :
- Données SIRENE : SIRENE (visualisation plein écran)
- Données de la commande publique : ComPub (visualisation plein écran)
2. Les publier
Les données sont publiées sous deux formes :
- des dumps de données à télécharger au format RDF (c’est là)
- un point de requête SPARQL (pour l’instant c’est http://sireneld.io:18300/sparql)
Exemple de requête SPARQL exécutée avec curl :
curl -X POST http://sireneld.io:18300/sparql -H "Content-type: application/sparql-query" -d "select ?p ?o where { <https://sireneld.io/siret/81223113200034> ?p ?o } limit 10"
3. Proposer une application Web et une API
Ça sera sur sireneld.io via le code développé ici : https://github.com/ColinMaudry/sirene-ld-web/
Actuellement ça n’avance pas. J’ai juste publié un moteur de recherche d’attribution de marché : https://sireneld.io/commande-publique.
Même si ça m’amuse, le développement Web n’est pas mon fort. Et surtout il y a beaucoup à faire par ailleurs. Donc si le projet te botte et que tu veux bidouiller du VueJS, fais toi connaître !
L’API reposera en partie sur sparql-router (expressJS + VueJS), qui devra être refactoré et remis au goût du jour.
Projets connexes
- entreprise.data.gouv.fr (pour tout le monde, 100 % open data)
- entreprise.api.gouv.fr (pour les organismes publics, en partie closed data)
- Open Companies Data par @Leolecolo