Indexation collaborative en archives

archives
crowdsourcing

(Julien Benedetti) #1

Les services d’archives ont depuis longtemps recours à des appels à indexation des documents (principalement nominatifs) par des bénévoles. Cela existait déjà depuis longtemps avec des associations de généalogistes venant en salle faire des relevés dans des registres d’Etat-civil.

Avec la diffusion intensive sur Internet de documents d’archives (400 M de docs en France) l’indexation a connu un nouvel essor et de nouvelles modalités.

Un billet de blog de l’historien Erwan Le Gall sur un projet mis en place par la ville de Saint-Brieuc est la raison de mon message.

Nous avons déjà eu l’occasion d’en discuter avec @CharlesNepote mais ces projets posent comme question la mise à disposition ensuite des données (je n’ose brutes) au public. Public qui est en donc collaborativement producteur de ces données. En effet, si les documents et le moteur de recherche sont fournis par le service d’archives on trouve très peu de cas où la base d’indexation est mise à disposition. Rien n’est dit par exemple sur la base Mémoires des Hommes.

Certains services vont même jusqu’à considéré que cette indexation est protégé par la Propriété Intellectuelle. Ceci dans le but de bloquer une éventuelle réutilisation commerciale des données (justement hautement sensible dans les archives). L’argument étant que si ce travail collaboratif est par la suite utilisé par une entreprise alors nous n’aurions pas d’indexeur motivé.

Alors que ces projets sont collaboratifs nous voyons donc qu’il se limite pour les services d’archives à un flux entrant, permettant un meilleur service pour les usages mais en ayant l’exclusivité de l’exploitation et de la diffusion.


(Charles Nepote) #2

Oui il y a un jeu d’acteurs compliqué. Les centres d’archives et assos de généalogie reposent majoritairement sur un modèle où les données ne doivent pas circuler librement : les archivistes probablement parce qu’ils se sentent dépossédés (on peut l’entendre) ; et les associations parce que les données (les relevés collaboratifs) sont leur première source de financement (on le comprend aussi).
Du côté des archivistes, il faudrait sans doute mieux documenter les cas d’open data et inciter à réfléchir sur le sens du métier. Pour ma part je me dis (naïvement ?) que la mission des archivistes c’est la conservation et la mise à disposition pérenne d’une information de référence sans cesse renouvelée par les progrès de la recherche : ce qui militerait à la fois pour l’open data ET la coproduction de données (crowdsourcing). Du côté des assos de généalogie, je me dis (naïvement ?) que leur mission devrait être la médiation entre les généalogistes et les outils et l’écosystème de recherche : ce qui devrait également militer pour l’open data ET la coproduction du données.

Voilà bien longtemps que j’hésite à lancer une nouvelle initiative (française ? francophone ?) qu’on pourrait appeler Données Historiques Libres, Open Genealogy Data, Open History Data ou quelque chose du genre, dont les données seraient systématiquement en Open Data. On pourrait déjà commencer à les lister, à documenter des cas d’usages, à standardiser des choses, etc.


(Karl Pineau) #3

Bonjour,

Je travaille pour ma part pour le projet Testaments de Poilus (https://testaments-de-poilus.huma-num.fr), qui est un projet de transcription collaborative (des testaments des Poilus de la Première Guerre mondiale) et qui vient d’être ouvert au grand public.
Parmi les porteurs du projet se trouvent pour le moment deux centres d’archive, les Archives nationales et les Archives départementales des Yvelines.
Le projet est en tout cas clairement orienté vers l’opendata. Toutes les transcriptions produites, les images numérisées et les futures éditions seront libres de droit, et le projet ambitionne bien de fournir une application de restitution du travail produit par les contributeurs.

Voilà pour ce qui est d’un projet précis :slight_smile:


(Charles Nepote) #4

Magnifique Karl ! Quel beau projet de surcroît !

Mais pourquoi diable s’évertuer à le cacher dans une obscure page de mentions que personne ne lit jamais ?
https://testaments-de-poilus.huma-num.fr/#!/content/13

Qu’est-ce qui a fait que la licence des images et métadonnées (LO) est différente de la licence de la documentation du projet (CC4) ? Est-ce parce que la CC4 n’est pas adoubée par le CRPA ?

Une idée comme ça : demander officiellement à l’AGD d’ajouter la licence CC4 dans les licences officielles ?


(Julien Benedetti) #5

Merci pour la précision. Je rejoins @CharlesNepote sur la “non-visibilité” de cette très bonne idée. J’ai un peu cherché hier et je n’avais pas vu la page en question.

Je me demandais si vous aviez des éléments de précisions sur ce paragraphe :
“Conformément à la jurisprudence, les transcriptions résultant des contributions des bénévoles, dans leur état définitif validé par l’équipe projet, ne sont pas des œuvres de l’esprit au sens du code de la propriété intellectuelle. Étant reçues et conservées par des organismes publics, elles constituent des documents administratifs libres de droits.”

Auriez-vous les références de jurisprudence ? Cela est important par moment de pouvoir apporter ce genre d’élément. La mise à disposition de données ne relève pas du libre choix de l’administration mais de la loi, autant s’en servir.

Et bravo pour ce magnifique projet.


(Samuel Goëta) #6

C’est en effet un superbe projet, merci @KarlPineau ! Le fait que les données soient en open data permettra aussi de développer des usages inattendus. Par exemple, je me souviens que quand Regards Citoyens avait fait sa campagne de retranscription des déclarations d’intérêts manuscrites des parlementaires, ils avaient reçu de nombreuses solicitations comme données d’apprentissage d’algorithmes de transcription d’écriture manuscrite.


(Florence Clavaud) #7

Bonjour, je suis archiviste, en poste aux Archives nationales, et je travaille aussi sur des projets d’humanités numériques.
J’assure la direction technique du projet testaments de Poilus que Karl a évoqué, et nous travaillons donc ensemble sur ce projet.
Juste quelques éléments de réponse à votre message :

  • la page de mentions légales (et la page de crédits), que nous avons en l’occurrence voulues précises, sont tout de même faites pour être lues. Je sais bien que dans la plupart des sites web les utilisateurs ne lisent pas les pages donnant les éléments de contexte, mais c’est tout de même la meilleure solution pour réunir au même endroit les informations sur le rôle de chacun dans de tels projets (dans la page de crédits nous avons par ex. crédité tous les bénévoles qui ont déjà participé au projet, et continuerons de le faire) et sur les conditions d’utilisation des contenus d’un site. Notre projet implique qui plus est de nombreuses entités publiques, agrège des contenus (images et notices) produits par plusieurs services d’archives et il était important d’être très clair sur toutes ces questions.
    Ce n’est sans doute pas assez visible. Nous pourrions donc mettre en place sous la visionneuse d’images un lien vers la page de mentions légales, idem dans l’interface de transcription.

  • la licence CC4 sert dans ce projet pour donner un statut le plus libre possible à des textes originaux (sections Découvrir et Aide de la plateforme) qui ont été élaborés pour les besoins du projet par des ingénieurs, des archivistes et chercheurs, qui sont signés, que nous considérons comme des oeuvres protégées en droit français par le code de la propriété intellectuelle. Vous êtes libres de les réutiliser sauf dans un but commercial, pourvu que vous mentionniez leurs auteurs.

C’est pour l’instant ce que nous avons choisi. Cette licence ne s’applique pas aux transcriptions des testaments qui sont produites collaborativement à l’aide de la plateforme


(Florence Clavaud) #8

Bonjour,

En ce qui concerne la réutilisation des informations produites ou collectées par les services publics d’archives, les choses ont beaucoup changé ces dernières années. Vous pouvez consulter l’article suivant du blog de réflexion tenu par le service interministériel des Archives de France :
[http://siafdroit.hypotheses.org/659#more-659] (http://siafdroit.hypotheses.org/659#more-659)
Pour le projet Testaments de Poilus nous mettons en oeuvre le régime juridique décrit par cet article.

La charte des contributeurs du projet Testaments de Poilus précise également, plus généralement, les droits et obligations des porteurs du projet et des contributeurs bénévoles.

En ce qui concerne le statut des transcriptions, le texte des mentions légales du projet Testaments de Poilus mentionne en effet à la fois le CRPA et la jurisprudence.
Vous trouverez à la page Références > Jurisprudence du blog déjà cité,
la référence d’un jugement du Tribunal de grande instance de Paris (3ème chambre, 4ème section) du 27 mars 2014, selon lequel une simple transcription de texte, sans apparat critique, n’attribue pas de droit de propriété intellectuelle au transcripteur.