Traduction et adaptation du modèle de description des données "Datasheet for Datasets"


(Samuel Goëta) #1

Bonjour,

Avec @LaureHuguenin chargée de projet open data de la région Centre-Val de Loire, j’ai traduit et adapté le modèle de description des jeux de données “Datasheets for Datasets”.

Le modèle vient d’un article scientifique (merci @mathieu pour la détection) qui propose le concept de fiche technique pour les jeux de données :

La communauté du machine learning n’a pas de méthode normalisée pour documenter comment et pourquoi un jeu de données a été créé, quelles informations il contient, les tâches pour lesquelles il devrait et ne devrait pas être utilisé, et si cela pourrait soulever des préoccupations d’ordre éthique ou juridique. Pour combler cette lacune, nous proposons le concept de fiches techniques (datasheets) pour les jeux de données. Dans l’industrie électronique, il est standard d’accompagner chaque composant d’une fiche technique fournissant les caractéristiques de fonctionnement standard, les résultats d’essais, les recommandations d’usage et d’autres renseignements. De même, nous recommandons que chaque jeu de données soit accompagné d’une fiche technique documentant sa création, sa composition, les utilisations prévues, sa maintenance et d’autres propriétés. Les fiches techniques des jeux de données faciliteront une meilleure communication entre les créateurs et les utilisateurs de jeux de données, et encouragerons la communauté du machine learning à prioriser la transparence et à la reddition de comptes.
(Traduit avec www.DeepL.com/Translator)

Le modèle propose une annexe une liste de questions à documenter :

Je suis convaincu que ce modèle pourrait être très utile pour inciter les producteurs de données à mieux documenter leurs données au delà des métadonnées essentielles.

J’ai donc traduit, simplifié et adapté cette liste de questions pour qu’elle réponde plus aux besoins des producteurs de données publiques ouvertes.

Qu’en pensez vous ?

Motivations pour la création du jeu de données

• Pourquoi le jeu de données a-t-il été initialement créé ?
• Quelles ont été les utilisations non prévues du jeu de données ?
• Pour quelles autres tâches le jeu de données pourrait-il être utilisé ?
• Quelles sont les utilisations trompeuses du jeu de données ?
• Qui a financé ou soutenu la création du jeu de données ?

Composition du jeu de données

• Que contient le jeu de données principalement ? Les enregistrements représentent-ils principalement des documents, des personnes, des territoires, des entreprises… ?
• Dispose-t-on d’un schéma décrivant les variables du jeu de données ?
• Que contient chaque champ du jeu de données ?
• Est-ce que le contenu du jeu de données dépend de ressources externes (ex. identifiant SIRET ou lien vers le document…) ? De quelles garanties dispose-t-on concernant la pérennité de ces ressources ?

Processus de collecte des données

• Comment les données ont été collectées (avec des capteurs, manuellement, par des outils informatiques…) ?
• Qui a assuré le processus de collecte de données (des agents, des bénévoles, des étudiants…) ?
• Quelle a été la période de collecte des données ?
• Les données ont-elles été collectées directement ou inférées à partir d’autres données ?
• Les données ont-elles été collectées sur un échantillon ? Quelle est la population complète ? Selon quelles méthodes ?
• Quelles sont les erreurs connues, les limites, les sources de bruit ou de redondances associées à ces données ?

Pré-traitement des données

• Comment les données ont-elles nettoyées ou préparées ?
• Les données « brutes » ont-elles été conservées ? Sont-elles diffusées ?
• L’outil de pré-traitement des données est-il disponible ?

Diffusion du jeu de données

• Les données sont-elles diffusées en ligne ? Selon quelles modalités (sur un portail open data, un site web, une API…) ?
• Si non, les données sont-elles diffusées au cas par cas ? à la demande ?
• Selon quelle licence les données sont-elles diffusées ?
• Des redevances ou des restrictions sont-elles appliquées dans l’accès aux données ?

Maintenance du jeu de données

• Qui assure la maintenance du jeu de données ? Comment peut-on contacter cette personne ? Quel est le service responsable du jeu de données ?
• Est-ce que les rôles sont distincts entre la production des données, leur éditorialisation et leur diffusion ?
• Le jeu de données sera-t-il mis à jour ? Si oui, à quelle fréquence ?
• Si les données deviennent obsolètes, comment cette information sera-t-elle communiquée ?
• Est-il possible de contribuer à l’amélioration des données ? Selon quelles modalités ?

Considérations légales et éthiques

• Si le jeu de données concerne des individus, ont-ils exprimé leur consentement de manière claire ?
• Les individus ont-ils été informés sur la finalité du traitement de données ?
• Le jeu de données peut-il exposer de manière directe ou indirecte des individus ?
• Ces données sont-elles conformes au RGPD ?
• Les données peut-elles avantager ou désavantager des groupes sociaux ?
• Le jeu de données contient-il des informations pouvant être considérées comme inappropriées ou offensantes ?


Methodo ouverture
(Charles Nepote) #2

Bravo et merci de ce travail ! Les questions me paraissent très pertinentes pour la plupart.

Peut-être il ne manque pas grand chose pour en faire une méthodo un peu plus opérationnelle :

  • indiquer qui est concerné / impliqué dans ce questionnaire (probablement plusieurs personnes) ?
  • combien de temps dure le questionnaire (pour avertir son interlocuteur et savoir si on peut le faire pendant un atelier express) ?
  • est-ce qu’il existe un moyen de démarrer par une version simplifiée (le questionnaire est tout de même long avec des questions auxquelles il n’est pas toujours simple de répondre rapidement) ?
  • une première partie pourrait consister en des cases à cocher de manière à pouvoir être complétée très rapidement : un certains nombre de question sont déjà binaires, d’autres pourraient le devenir.

Le questionnaire pourrait donner ça pour la partie “Pré-traitement des données” :

  • Les données ont-elles nettoyées ou préparées ? [ ] Oui - [ ] Non
  • Les données « brutes » ont-elles été conservées ? [ ] Oui - [ ] Non – Sont-elles diffusées ? [ ] Oui - [ ] Non
  • L’outil de pré-traitement des données est-il disponible ? [ ] Oui - [ ] Non
  • Décrivez comment les données ont-elles nettoyées ou préparées ? [__________]