sireneLD : un graphe des données d'entreprises et d'organisations publiques

col1m · Mai 12, 2020, 1:08

Bonjour à tous et toutes,

Comme le projet avance bien ces dernières temps et qu’il attire de plus en plus les curieux et curieuses, je me suis dit qu’une petite présentation était de mise.

En deux mots, sireneLD, c’est le projet de rendre accessible au plus grand nombre (agents publics, citoyen·nes) les données liées aux entreprises et aux organisations publiques via un requêtage et un téléchargement de données tabulaires simplifiés pour une exploitation dans un logiciel de tableur. Il n’y aura pas besoin d’apprendre un langage de requête : une application Web permettra la création et le partage de requêtes génériques.

LD = Linked Data = Données liées

Par exemple :

la liste de toutes les PME du {département} ayant remporté un marché public en {année d'attribution}
par département, le nombre d’entreprises ayant à la fois remporté au moins un marché public et reçu au moins une subvention en 2019 (en espérant que la publication des données de subventions décolle un peu…)

Cette liste deviendra plus intéressante à mesure que de nouveaux jeux de données seront intégrés.

Je mettrai ce post à jour régulièrement.

Vous pouvez également suivre l’aventure

sur Twitter : @sirene_ld.
sur le kanban Github

Les étapes

1. Rassembler un maximum de données ouvertes des entreprises et des organisations publiques dans un graphe (c’est assez bien expliqué ici)

Les données, plus ou moins par ordre de priorité :

en pierre angulaire, les données du répertoire SIRENE
- Unité légales
- Établissements
les données des marchés publics (1,9 million de triplets)
chiffres clés infogreffe
RNCS
- RNCS CA
- RNCS IMR (Immatriculations, Modification, Radiations)
- RNCS Actes (constitutifs, modificatifs, PV d’AG, statuts). Ça a l’air d’être du PDF…
subventions publiques
répertoire des représentants d’intérêt
les intercommunalités (banatic)
indice sur l’égalité des salaires (egapro)
Annuaire santé
Données présentes sur Wikidata (via les SIREN)
BODACC
plein de nomenclatures officielles :
- : COG
- NAF
- CPV
données du recensement ?
vous voyez autre chose ?

Bref tout ce qui mentionne ou décrit des SIRET ou des SIREN. La[liste exhaustive est sur le kanban du projet.

Pour chaque type d’objet (entreprise, marché public, commune), je crée une ontologie afin de modéliser les objets et leurs relations.

Voici les ontologies déjà publiées :

Données SIRENE : SIRENE (visualisation plein écran)
Données de la commande publique : ComPub (visualisation plein écran)

2. Les publier

Les données sont publiées sous deux formes :

des dumps de données à télécharger au format RDF (c’est là)
un point de requête SPARQL (pour l’instant c’est http://sireneld.io:18300/sparql)

Exemple de requête SPARQL exécutée avec curl :

curl -X POST http://sireneld.io:18300/sparql -H "Content-type: application/sparql-query"  -d "select ?p ?o where { <https://sireneld.io/siret/81223113200034> ?p ?o } limit 10"

3. Proposer une application Web et une API

Ça sera sur sireneld.io via le code développé ici : https://github.com/ColinMaudry/sirene-ld-web/

Actuellement ça n’avance pas. J’ai juste publié un moteur de recherche d’attribution de marché : https://sireneld.io/commande-publique.

Même si ça m’amuse, le développement Web n’est pas mon fort. Et surtout il y a beaucoup à faire par ailleurs. Donc si le projet te botte et que tu veux bidouiller du VueJS, fais toi connaître !

L’API reposera en partie sur sparql-router (expressJS + VueJS), qui devra être refactoré et remis au goût du jour.

Projets connexes

entreprise.data.gouv.fr (pour tout le monde, 100 % open data)
entreprise.api.gouv.fr (pour les organismes publics, en partie closed data)
Open Companies Data par @Leolecolo

Leolecolo · Mai 13, 2020, 4:59

Super initiative. Il va falloir que je me penche sur ton API SPARQL pour apprendre à l’utiliser et explorer les données que tu proposes. Puis voir comment je peux l’inclure dans le front-end Open Companies Data . Si tu veux qu’on fasse front commun (jeu de mot), pour ne pas développer des choses similaires chacun dans notre coin, je suis ouvert à la discussion

col1m · Mai 13, 2020, 5:15

Tout à fait, c’est prévu ! Pour ma part je me noie un peu dans ce que propose l’Open Data RNCS et sur comment traiter les données, donc il y a clairement quelque chose à faire