Dans une série de billets, j’ai essayé de faire le point sur plus de 10 ans d’expériences diverses dans le domaine y compris dans le cadre d’initiatives d’ouverture des données. Je pense que ça pourrait intéresser les utilisateurs de ce forum, d’autant que ma participation à quelques threads ici m’ont motivé à écrire ce bilan. Je suis preneur de vos retours. Bonne lecture. http://www.lespetitescases.net/les-technos-du-web-semantique-ont-elles-tenu-leurs-promesses
Bon attention tout le monde, les articles de Gautier ne sont pas faciles à lire mais terriblement éclairants. C’est le témoignage direct d’un fin connaisseur de ces technos, qui a travaillé dans plusieurs grandes institutions mais aussi dans des startup qui développent des solutions. Enfin Gautier est capable de se réinterroger froidement sur ses expériences.
La communauté Open Data peut retenir plusieurs choses des billets de Gautier. Je reviens sur deux idées.
Tout d’abord l’open data des données “sémantisées” y est abordé et j’adhère à toutes ses conclusions, ayant moi-même observé les mêmes causes et les mêmes effets. Je cite Gautier :
"[…] force est de constater que les réutilisations de ces données sont assez faibles. Outre la nature des données qui ne se prête pas forcément à la réutilisation (quoique…), leur exploitation demande une courbe d’apprentissage qui n’est pas évidente . Or, les chercheurs veulent des choses simples et accessibles . Clarisse Bardiot, professeur d’histoire de l’art à l’université de Valenciennes, l’explique clairement dans ce billet. Lors de la table ronde pendant la journée d’étude organisée l’an dernier par l’ADEMEC autour des rapports entre recherche et institutions patrimoniales, Raphaëlle Lapotre, chef de produit de data.bnf.fr, ne dit pas autre chose :
« on entre surtout en contact avec les chercheurs quand ça se passe mal avec les données et ça se passe souvent mal pour plusieurs raisons. Mais, effectivement, il y a eu la question de ces fameux standards qui bouffent la vie des chercheurs […] ils nous disent mais pourquoi vous balancez pas des csv plutôt que de vous embêter avec vos affaires de web sémantique. »
C’est un constat général dans le monde de l’Open Data, même si cela se justifie (ici l’interopérabilité) : plus les données se révèlent complexes à exploiter et moins elles font l’objet de réutilisation."
(Fin de citation.)
Second point : data centralisées vs décentralisées
Du fait de la complexité des techno du web sémantique, qui ne sont pas sans intérêt, le second article revient sur l’opportunité de préférer de gros hubs de données enrichies (au format du web sémantique et reliées entre elles) à de petits hubs dont la pérénité est problématique (du point de vu institutionnel comme du point de vu informationnel : quand un dépôt de données meurt, une part de la connaissance et des usages meurt du fait des liens créés par d’autres dépôts vers ses données). Mais ces gros hubs (wikidata, BNF/Gallica, OpenStreetMap d’une certaine manière) posent aussi des questions de gouvernance et de responsabilité (la disparition du dépôt BNF/Gallica aurait de lourdes conséquences). Une invitation pour la communauté Open Data retrouver de la vision et réfléchir collectivement à sa feuille de route : la façon dont elle diffuse des données et la responsabilité de la diffusion.
À lire absolument donc.
Merci Gautier.
Je t’en prie Par contre, il m’aura fallu plusieurs années de recul pour arriver à écrire ses billets et j’ai pas mal souffert pendant l’écriture, donc je ne suis pas sûr que ce soit aussi “froidement” que tu le dis
Je n’ai pas encore lu le billet, mais je rebondis sur la difficulté de d’utiliser et de réutiliser des données publiées selon les méthodes du Web sémantique. D’après mon expérience, c’est effectivement vrai, mais ce n’est pas forcément bloquant.
Je pense que ces technologies ont beaucoup d’avenir pour permettre de produire à peu près les mêmes services que ceux proposés à partir de technologies traditionnelles, mais beaucoup plus facilement. La standardisation des vocabulaire et des techniques ou encore la possibilité de produire facilement des vues tabulaires très variées à partir d’un même graphe sont pour moi des atouts majeurs.
J’ai commencé à travailler sur une publication du SIRENE et des données périphériques (codes APE, code officiel géographiques) basées sur les technologies du Web sémantique, avec comme objectif de résoudre des problématiques intimement liées à des données aussi critiques.
Ma plus grosse expérience du Web sémantique, je l’ai vécue dans le privé en participant à la mise en place d’un cloud sémantique chez NXP Semiconductors. Il s’agissait d’exporter les données des systèmes de gestion de produits et de documentation afin de pouvoir exposer ces données publiquement (cette partie a été supprimée depuis), mais surtout pour développer des applications internes qui rassemblent des données hétérogènes (= issues de silos variés).
La flexibilité du modèle RDF en graphe permettait de reproduire la sémantique des données de chaque silo, et on pouvait ensuite les “mailler” ensemble et les exposer de façon homogène et riche, sous forme d’API REST JSON classiques.
Je pense que ce scénario peut être reproduit dans l’Open Data français, mais sans se tromper d’objectif : proposer des services, non des données.
Quelques liens :
- NXP Enterprise Data Hub (video) https://www.youtube.com/watch?v=LxfPzdlqV9E
- NXP Enterprise Data Hub (description) https://2018.semantics.cc/nxp-enterprise-data-hub
Je pense que les technologies du Web sémantique peuvent tenir certaines de leurs promesses : sireneLD : un graphe des données d'entreprise et d'organisations publiques.
La difficulté, c’est que les technologies du Web sémantique proposent une approche des données très différentes à l’approche des données en tables ou en arbres, avec justement l’omniprésence de la sémantique.
Ensuite, je le vois avec les données SIRENE, la manipulation de grands volumes de données en graphe n’est pas aisée car elles sont assez volumineuses à traiter et à stocker. Enfin, leur requêtage sur un triplestore classique (requêtage non-streamé), peut mettre à genoux le serveur (voir https://linkeddatafragments.org/).
Dans mon projet sireneLD, je pense à la fois avoir trouvé
- un problème pour lequel les technologies du Web sémantique apporte des solutions : agrégation de données sur les entreprises et orga publiques et mise à disposition de réponses à des questions complexes (approche « service » mentionnée dans mon post précédent)
- une solution à la mise à disposition douce des données :
- requêtes streamées grâce à Comunica et un LinkedDataFragments server
- stockage des données au format binaire HDT