Histoire des standards et modèles de données : l'intéressant cas des archivistes

CharlesNepote · Novembre 29, 2018, 12:23

En echo aux bons billets de @lespetitescases sur un bilan des technologies du web sémantique, je signale un très intéressant regard sur l’évolution des modèles de données sur un temps long, par la communauté des archivistes : Vers un modèle conceptuel international pour la description archivistique.

Une grosse partie de l’article est réservée à cette espèce rare qui coche les cases [x] archiviste de métier et [x] datageek, mais une importante partie de l’article résume très clairement l’évolution des grands modèles de données (SQL, SGML/XML, etc.) et l’intérêt des modèles en graphes (RDF) pour les archivistes : lire p. 5-9.
On retrouve donc cette idée qui est que les acteurs de la culture semblent se tourner massivement vers le web des données et ses technos (RDF, etc.).

J’y retrouve aussi cette idée d’un rouleau compresseur qui n’en finit pas d’arriver (va-t-il arriver un jour ?). Je reviens d’une journée sur la transition bibliographique et c’était assez convainquant. Sauf qu’il ma fallu insister lourdement sur le fait les dumps RDF ou les interfaces SPARQL sont un très grosse barrière à l’entrée et qu’il est impératif de fournir aux usagers des formats de données utilisables par monsieur toutlemonde (CSV, Excel, etc.).

J’y trouve aussi l’idée que la fabrication de standards de données est une processus très long, qui demande beaucoup d’énergie et d’organisation.

lespetitescases · Novembre 29, 2018, 1:43

Je ne suis pas convaincu que le rouleau compresseur finira par arriver mais cela ne t’étonnera pas Qu’il y ait une intense réflexion sur une volonté d’utiliser les technologies du Web sémantique dans les milieux culturels, je ne le remets pas en question, que cette réflexion permette d’accompagner le mouvement de réflexion réel (et nécessaire) sur les modèles de données des milieux patrimoniaux, ça paraît une évidence et c’est bien de la même manière que j’ai abordé cette problématique. Mais, la réalité va rattraper le milieu et je ne vois pas comment ils vont réussir à faire passer à l’échelle l’implémentation de ces technologies sans compter les problèmes opérationnels concrètes qu’elle pose.

Toute la réflexion (aussi bien du côté des Archives que des bibliothèques et donc de la Transition bibliographique) s’appuie en grande part sur des POCs ou des aspects théoriques ; théorie que je connais plutôt pas trop mal car j’y ai participé ces 10 dernières années avec en particulier l’ouvrage, le Web sémantique en bibliothèque qui date de 2014… Mais, ils vont se heurter aux mêmes problèmes qu’on a rencontré lors de l’implémentation à grande échelle de ces technos : manque de connaissance des développeurs et des éditeurs logiciels spécialisés, coût du déploiement de ces technos, complexité de mise en oeuvre, manque criant sur certains aspects et finalement maintenabilité complexe à assurer.

Pour conclure, je pense que ces technos sont des bons moyens d’entamer une réflexion sur le modèle de données, sur la mise en cohérence des données d’une organisation et entre les organisations et finalement sur la place de la donnée dans la définition d’une stratégie d’établissement. Mais, pour implémenter les conclusions de ces réflexions, les technos du Web sémantique ne sont absolument pas nécessaires, même si elles offrent des perspectives intéressantes (largement contrebalancées par des problèmes complexes à régler). Elles sont, par ailleurs, le moyen le plus performant pour assurer l’interopérabilité des données, mais en a-t-on vraiment besoin ? On se rend bien compte et tu l’as rappelé que ces technos ne sont pas utiles pour l’IOpen Data vers d’autres milieux et, bien souvent, l’interopérabilité est pensé au niveau des systèmes et pas des données (et la méconnaissance des informaticiens pour la donnée n’est pas étrangère à ce fait…).

En aparté, par rapport à l’article que tu cites, il y a quand même un truc qui me chiffonne sur la comparaison XML/RDF qui ne me semble pas bonne et si certains voudraient plus de détails, j’avais écrit un billet sur cette question : https://www.lespetitescases.net/xml-vs-rdf

J.Benedetti · Décembre 5, 2018, 3:28

Le travail international autour d’une ontologie spécifique pour les archives est très intéressant et la France y bien représentée. Cependant pour travailler au quotidien sur un SI archives j’ai de sérieux doute sur l’utilisation future de technologies web-sémantiques, et pourtant mon service est loin d’être un “petit” service.

L’investissement en terme de formation ou outillage afin de produire des données structurées en XML (DTD-EAD notamment) a été long et même encore partielle. Je me dis qu’annoncer à nos équipes qu’il faut déjà passer à autre chose me paraît compliqué, surtout sans réel usage en face côté public. Alors le déploiement ira-t-il au-delà des archives nationales ?

De plus, le projet et son management sont l’objet de critiques par un groupe de l’ICA (international council on archives).

lespetitescases · Décembre 5, 2018, 9:52

Je pense qu’il ne faut pas jeter le bébé avec l’eau du bain. Au delà de la question de l’utilisation ou non des technologies du Web sémantique dans les archives et de la place réelle de leur utilisation (on pourrait par exemple limiter cet usage à l’exposition de données), j’identifie au moins deux intérêts immédiats à cette initiative :

Poser la question de l’interopérabilité des données archivistiques entre elles, de leurs mises en relations et de leurs partages mais aussi avec d’autres données ;
Ouvrir la réflexion sur une modélisation orientée “entités” des données archivistiques qui permettraient de dépasser la structure documentaire de l’inventaire d’une part et la sacro-sainte hiérarchie d’organisation de la description issue de l’organisation physique des archives physiques elles-même (et le respect des fonds qui va avec). Elle ouvre ainsi la voie à d’autres manières de penser la description/la donnée archivistique décorrélées de l’organisation physique des archives elles-mêmes. Cela ouvre des perspectives très intéressantes quant à la reconstitution virtuelle de fonds séparées entre différents entrepôts. J’avais exploré cette problématique dans un billet il y a presque 10 ans (https://www.lespetitescases.net/carcans-de-la-pensee-hierarchique-et-documentaire-2)