Ressources en langue française et en langue anglaise sur la qualité des données

qualité

(FredKM) #1

Il y a peu de ressources en langue française sur les méthodes permettant d’assurer la qualité des données alors que c’est un point tout à fait essentiel. Il serait utile d’en établir une liste en attendant les traductions de travaux rédigés en anglais sur la question.
Isabelle Boydens qui enseigne à l’Université Libre de Bruxelles a écrit une monographie sur le sujet : Informatique, normes et temps. Bruxelles : Éditions E. Bruylant, 1999.
Elle préside le groupe de contact FNRS (équivalent du CNRS en France) sur l’Analyse critique et amélioration de la qualité de l’information numérique.


(FredKM) #2

L’Open Data Support financé par la Commission européenne dans le cadre du projet SMART 2012/0107 propose un document sur la qualité des données et des métadonnées ouvertes. Lien


(Charles Nepote) #3

Merci Frédéric !
Je copie / colle celles que j’ai identifiée dans notre guide “Qualité des données : petit guide collaboratif de survie” (en annexe 1).

AFCDP : Glossaire “Anonymisation de données”, par le groupe de travail “référentiels et labels” de l’AFCDP
http://www.afcdp.net/IMG/pdf/AFCDP_Glossaire_Anonymisation_070523.pdf
Ce glossaire offre une remarquable introduction à l’anonymisation de données, à travers un glossaire très complet.

Broman, Karl : How to organize data in spreadsheets (en)
http://kbroman.org/dataorg/

Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen. (en)
Dédié à la qualité des données dans le monde de la biodiversité, cet ouvrage dépasse de très loin son cadre initial et forme une excellente base pour qui s’intéresse à la qualité des données dans son ensemble.
http://www.gbif.org/orc/?doc_id=1229.

Chapman, A. D. 2005. Principles and Methods of Data Cleaning – Primary Species and Species-Occurrence Data, version 1.0. Report for the Global Biodiversity Information Facility, Copenhagen.
http://www.gbif.org/orc/?doc_id=1262.

Data Quality Checklist

ExQI : Le coût de la qualité des données
En trois courtes pages l’association ExQi effectue une intéressante synthèse des travaux en la matière.
http://exqi.asso.fr/site/medias/586665FicheExqiCoutsQualiteV2.pdf

ExQi : Les dimensions de la qualité des données
L’association ExQi résume en trois pages 20 ans de travaux de recherche sur la qualité des données.
http://exqi.asso.fr/site/medias/641739FicheDimensionsQualite.pdf

Open Data Support : La qualité des métadonnées et des données (ouvertes)
Le support d’un module de formation sur la qualité des données.

Opquast : Check-list OpenData. 72 règles destinées aux producteurs de données ouvertes.
Cette liste se concentre principalement sur la publication de données ouverte. Cette liste propose un découpage en 13 thèmes : Animation, API, applications, catalogage, format, historique, identification, licence, linked-data, nommage, transparence, utilisabilité, vie privée.
http://checklists.opquast.com/fr/opendata/

Poupeau, Gautier : Du problème de la qualité des données et de la manière de le résoudre…
http://www.lespetitescases.net/Du-probleme-de-la-qualite-des-donnees-et-de-la-maniere-de-le-resoudre

Qualification des données du système d’information Quadrige² : un exemple très métier.

Romain l’Ourson : Faire de l’open data efficace

The Quartz guide to bad data
An exhaustive reference to problems seen in real-world data along with suggestions on how to resolve them.

Wickham, Hadley : Tidy Data (en)
http://vita.had.co.nz/papers/tidy-data.html


(FredKM) #4

Le comité de la qualité des données de Europeana pro a mis en ligne un google doc intitulé Discovery- User scenarios and their metadata requirements


(Joël Gombin) #5

Le W3C a une page sur le vocabulaire de la qualité des données. Ce vocabulaire est distinct de DCAT mais en réutilise des éléments.

This document provides a framework in which the quality of a dataset can be described, whether by the dataset publisher or by a broader community of users. It does not provide a formal, complete definition of quality, rather, it sets out a consistent means by which information can be provided such that a potential user of a dataset can make his/her own judgment about its fitness for purpose.


(Charles Nepote) #6

Merci Joël j’avais pas repéré. Le W3C trace son sillon mais, honnêtement, ce truc là est fait pour les très grosses organisations qui ont durablement les compétences et/ou les ingénieurs capables de digérer ça. Je dirais qu’en France un standard comme ça concerne moins d’une vingtaine d’acteurs (la BNF, etc.).
Il faut une grosse culture en web sémantique pour aborder un tel standard : il faut bien maîtriser RDF, DCAT, SKOS, connaître la syntaxe N3, etc. Autant dire que c’est à la portée d’assez peu de monde…


(Joël Gombin) #7

oui bien d’accord…