Traduction et adaptation du modèle de description des données "Datasheet for Datasets"

samgoeta · Mars 13, 2019, 3:29

Bonjour,

Avec @LaureHuguenin chargée de projet open data de la région Centre-Val de Loire, j’ai traduit et adapté le modèle de description des jeux de données « Datasheets for Datasets ».

Le modèle vient d’un article scientifique (merci @mathieu pour la détection) qui propose le concept de fiche technique pour les jeux de données :

La communauté du machine learning n’a pas de méthode normalisée pour documenter comment et pourquoi un jeu de données a été créé, quelles informations il contient, les tâches pour lesquelles il devrait et ne devrait pas être utilisé, et si cela pourrait soulever des préoccupations d’ordre éthique ou juridique. Pour combler cette lacune, nous proposons le concept de fiches techniques (datasheets) pour les jeux de données. Dans l’industrie électronique, il est standard d’accompagner chaque composant d’une fiche technique fournissant les caractéristiques de fonctionnement standard, les résultats d’essais, les recommandations d’usage et d’autres renseignements. De même, nous recommandons que chaque jeu de données soit accompagné d’une fiche technique documentant sa création, sa composition, les utilisations prévues, sa maintenance et d’autres propriétés. Les fiches techniques des jeux de données faciliteront une meilleure communication entre les créateurs et les utilisateurs de jeux de données, et encouragerons la communauté du machine learning à prioriser la transparence et à la reddition de comptes.
(Traduit avec www.DeepL.com/Translator)

Le modèle propose une annexe une liste de questions à documenter :

Je suis convaincu que ce modèle pourrait être très utile pour inciter les producteurs de données à mieux documenter leurs données au delà des métadonnées essentielles.

J’ai donc traduit, simplifié et adapté cette liste de questions pour qu’elle réponde plus aux besoins des producteurs de données publiques ouvertes.

Qu’en pensez vous ?

Motivations pour la création du jeu de données

• Pourquoi le jeu de données a-t-il été initialement créé ?
• Quelles ont été les utilisations non prévues du jeu de données ?
• Pour quelles autres tâches le jeu de données pourrait-il être utilisé ?
• Quelles sont les utilisations trompeuses du jeu de données ?
• Qui a financé ou soutenu la création du jeu de données ?

Composition du jeu de données

• Que contient le jeu de données principalement ? Les enregistrements représentent-ils principalement des documents, des personnes, des territoires, des entreprises… ?
• Dispose-t-on d’un schéma décrivant les variables du jeu de données ?
• Que contient chaque champ du jeu de données ?
• Est-ce que le contenu du jeu de données dépend de ressources externes (ex. identifiant SIRET ou lien vers le document…) ? De quelles garanties dispose-t-on concernant la pérennité de ces ressources ?

Processus de collecte des données

• Comment les données ont été collectées (avec des capteurs, manuellement, par des outils informatiques…) ?
• Qui a assuré le processus de collecte de données (des agents, des bénévoles, des étudiants…) ?
• Quelle a été la période de collecte des données ?
• Les données ont-elles été collectées directement ou inférées à partir d’autres données ?
• Les données ont-elles été collectées sur un échantillon ? Quelle est la population complète ? Selon quelles méthodes ?
• Quelles sont les erreurs connues, les limites, les sources de bruit ou de redondances associées à ces données ?

Pré-traitement des données

• Comment les données ont-elles nettoyées ou préparées ?
• Les données « brutes » ont-elles été conservées ? Sont-elles diffusées ?
• L’outil de pré-traitement des données est-il disponible ?

Diffusion du jeu de données

• Les données sont-elles diffusées en ligne ? Selon quelles modalités (sur un portail open data, un site web, une API…) ?
• Si non, les données sont-elles diffusées au cas par cas ? à la demande ?
• Selon quelle licence les données sont-elles diffusées ?
• Des redevances ou des restrictions sont-elles appliquées dans l’accès aux données ?

Maintenance du jeu de données

• Qui assure la maintenance du jeu de données ? Comment peut-on contacter cette personne ? Quel est le service responsable du jeu de données ?
• Est-ce que les rôles sont distincts entre la production des données, leur éditorialisation et leur diffusion ?
• Le jeu de données sera-t-il mis à jour ? Si oui, à quelle fréquence ?
• Si les données deviennent obsolètes, comment cette information sera-t-elle communiquée ?
• Est-il possible de contribuer à l’amélioration des données ? Selon quelles modalités ?

Considérations légales et éthiques

• Si le jeu de données concerne des individus, ont-ils exprimé leur consentement de manière claire ?
• Les individus ont-ils été informés sur la finalité du traitement de données ?
• Le jeu de données peut-il exposer de manière directe ou indirecte des individus ?
• Ces données sont-elles conformes au RGPD ?
• Les données peut-elles avantager ou désavantager des groupes sociaux ?
• Le jeu de données contient-il des informations pouvant être considérées comme inappropriées ou offensantes ?

CharlesNepote · Mars 18, 2019, 2:12

Bravo et merci de ce travail ! Les questions me paraissent très pertinentes pour la plupart.

Peut-être il ne manque pas grand chose pour en faire une méthodo un peu plus opérationnelle :

indiquer qui est concerné / impliqué dans ce questionnaire (probablement plusieurs personnes) ?
combien de temps dure le questionnaire (pour avertir son interlocuteur et savoir si on peut le faire pendant un atelier express) ?
est-ce qu’il existe un moyen de démarrer par une version simplifiée (le questionnaire est tout de même long avec des questions auxquelles il n’est pas toujours simple de répondre rapidement) ?
une première partie pourrait consister en des cases à cocher de manière à pouvoir être complétée très rapidement : un certains nombre de question sont déjà binaires, d’autres pourraient le devenir.

Le questionnaire pourrait donner ça pour la partie “Pré-traitement des données” :

Les données ont-elles nettoyées ou préparées ? [ ] Oui - [ ] Non
Les données « brutes » ont-elles été conservées ? [ ] Oui - [ ] Non – Sont-elles diffusées ? [ ] Oui - [ ] Non
L’outil de pré-traitement des données est-il disponible ? [ ] Oui - [ ] Non
Décrivez comment les données ont-elles nettoyées ou préparées ? [__________]

samgoeta · Juillet 24, 2019, 10:14

Elodie Faath d’OpenEdition me signale que Datasheet for Datasets ressemble fortement aux plans de gestion des données de la recherche (DMP comme Data Management Plan), obligatoire pour tous les projets européens H2020 et ANR

L’outil OPIDOR permet de faire des plans de gestion des données de la recherche avec une interface guidée : https://dmp.opidor.fr/

Sciences Po a fait un guide très bien conçu avec de bons conseils sur la documentation des données :

On trouve aussi de nombreux outils de formation sur Doranum : https://doranum.fr/

Gemma · Octobre 21, 2020, 2:34

Bonjour Sam,
J’étais très contente d’avoir assisté à votre présentation cet après midi. Pour moi les deux documents n’ont pas le même but. Le DMP sert à prévoir le cycle de vie des données sur le totalité d’un projet de recherche. Votre document sera utile pour la curation automatique (ou non) de site (logique vu que google souhaite faire beaucoup de progrès dans cette direction) et donc est destiné à la réutilisation et la trouvabilité d’un jeu de données. Quelque chose qui, à mon point de vu, aura besoin de travail surtout en SHS.
Bien cordialement,
Gemma

joel · Juillet 22, 2021, 1:00

On a essayé de manger notre propre pâtée pour chien et d’appliquer cette méthode à un jeu de donnée qu’on vient de publier :

samgoeta · Mai 9, 2022, 4:07

J’ajoute à la veille le modèle des dataset score cards de Hugging Face :

github.com

huggingface/datasets/blob/master/templates/README_guide.md

---
YAML tags:
- copy-paste the tags obtained with the online tagging app: https://huggingface.co/spaces/huggingface/datasets-tagging
---

# Dataset Card Creation Guide

## Table of Contents
- [Dataset Card Creation Guide](#dataset-card-creation-guide)
  - [Table of Contents](#table-of-contents)
  - [Dataset Description](#dataset-description)
    - [Dataset Summary](#dataset-summary)
    - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
    - [Languages](#languages)
  - [Dataset Structure](#dataset-structure)
    - [Data Instances](#data-instances)
    - [Data Fields](#data-fields)
    - [Data Splits](#data-splits)
  - [Dataset Creation](#dataset-creation)
    - [Curation Rationale](#curation-rationale)

This file has been truncated. show original

C’est plus orienté machine learning (logique) mais le modèle me parait intéressant, voir ici en application : cnn_dailymail · Datasets at Hugging Face

J’aime bien que quand les champs ne sont pas remplis, ils sont marqués comme tels : amazon_us_reviews · Datasets at Hugging Face

samgoeta · Juin 10, 2022, 10:49

Je rajoute aussi à la veille les data cards réalisés par Google :
open-images-extended-crowdsourced

samgoeta · Juin 10, 2022, 11:50

Repéré aussi par @mathieu sur le sujet :

https://datanutrition.org/#section-problem