Bonjour à tous,
Voici un compte-rendu des échanges durant la journée restitution du programme Parlez-vous Data & Présentation d’Open Data Impact de la FING
Atelier : qualité des données Open Data
La qualité des données est un frein pour l’usage
Exemple : ville de Faux -> problème avec la valeur False dans les feuilles de calcul
Il existe très peu de travaux sur la qualité des données => bibliographie pauvre (travaux qui ne sont pas opérationnels)
Objectif de la FING donner des repères & méthodes
Brainstorming sur les problèmes de qualité rencontrés :
- Format :
- Nécessité de convertir le fichier (ex : Trident, GTFS)
- Pas d’exploitation possible si adresse pas valable (données géographiques) : séparation incorrecte de la rue, code postal…
- Clarté
- Esthétique des données dans les fichiers : aspects morpho-syntaxiques
- Pas d’historique => évolution
- Carences de données
- Métadonnées :
- Description des fichiers : Haute-Garonne, Hte Garonne
- Nom du jeu de données pas en accord avec ce qu’il y a dedans
- A quoi correspondent certaines colonnes dans le fichier (code UIC)
- Découvrabilité de la donnée (ex : « ponctualité » selon la SNCF vs « retard » des trains pour l’utilisateur moyen) - le vocabulaire a de l’importance - remontée dans les résultats de recherches de moteurs / référencement, mots clés…
- Pas de données pivot pour réunifier deux jeux de données de producteurs différents entre eux (le code Siret est une donnée pivot qui peut s’appliquer à tous types d’acteur… et non le code INSEE qui ne marche pas pour les EPCI)
- Pas de concierge / point de contact : quel point de contact pour une demande de données supplémentaires, pour un process de retour, une rétroaction, un feedback (comment avoir une action ?)
Globalement, il n’y a pas de fluidité dans l’expérience vis-à-vis de la donnée.
Peu de collectivités ont mis en place une charte qualité (celles qui l’ont fait ==> cela effraie)
Témoignage Open Data PACA sur la qualité
Actuel changement de plateforme Open Data qui nécessite de repenser les jeux de données et leur publication
Prise en compte des remarques des users
Défi de trier et surqualifier avec un recentrage sur les 5 thématiques prioritaires de la région
Objectif de produire des répertoires de données intelligences (énergie, transport mobilité, emploi formation,…) composés de données publiques et privées (ex : ENEDIS)
Outils pour appuyer la qualité des jeux de données : ressources en ligne sur l’aide à la saisie, formations des acteurs locaux ; Problématique de l’année 2018 : mettre en place une hotline producteur
Checklist OPQUAST pour assurer la qualité des données
Guide de la FING :
Exemples de problèmes de qualité rencontrés :
- Surabondance de données (données GPS à 8, 9 ou 10 chiffres après la virgule)
- Problèmes liés à la réglementation : Données personnelles disponibles
Comment améliorer la découvrabilité : mettez-vous dans le point de vue du producteur et le point de vue de l’utilisateur : quels mots clés pour la recherche
Cependant, la donnée doit rester dans les mains de celui qui la produit et qui sait où se situe l’intérêt de la donnée
Sujet du temps passé à qualifier la donnée qui reste important
Sprint Qualité (complément du guide de la FING) - bon outil pour un projet où on manipule un jeu de données
- Méthodologie sur un temps contraint sur la qualité de la donnée
- Mis en pratique avec Etalab et la MAIF (cela a par exemple permis la mise en place de dictionnaires de données et a permis de booster les gens qui travaillent dessus)
- 120 points de contrôle dans la méthode
- Exercice à réaliser en équipes avec 15/20 points par binôme
- Sprint de Qualité qui doit se faire avec le producteur de données -> permet de comprendre aussi les contraintes du producteur
Concernant les arguments pour oeuvrer en faveur de la qualité de données, ils existent en début du guide (Impact sur l’usage, nouvelles opportunités générées)
Point de contrôle n°121 détecté en atelier: sujet de la donnée pivot (qui ne figure pas dans le guide & sprint) :
Donnée pivot (= données de référence) permet à des acteurs d’un écosystème, de métiers différents, de croiser des données entre elles, entre producteurs, entre fichiers…
Un point de contrôle supplémentaire dans le sprint sur la qualité pourrait donc être : y a t-il une donnée pivot que me permet de relier ce jeu de données à d’autres ?
Sujet de la reliabilité des données - Ex : clé d’opérabilité entre BAL et BAN
Point de contrôle qui serait donc le suivant :
Description : le jeu de données ne contient pas de données pivot (donnée de référence) facilitant le croisement avec d’autres données
Exemple : Ce fichier relatif aux lycées ne contient pas le code RNE/UAI (qui recense les 135000 établissements, composé de 7 chiffres et une lettre). Or il existe plusieurs lycée Paul Claudel.
Impact : restriction de l’usage, consistant à croiser plusieurs données pour approfondir l’analyse (croisement de données = usage qui porte le plus de valeur)
Détection : Recherche manuelle dans les métadonnées et les données
Correction : trouver une donnée pivot adéquate (regarder les standards / référentiels nationaux ou internationaux) ; Mise à jour manuelle ou reprise avec d’autres données
Crowdfixing = co-production de réparation de données
Restitution et présentation des productions collectives des 3 thèmes de Parlez-vous data ?
FING : campagne infolab (2012-2017)
- Précurseur des fablabs / infolabs
- Prototype d’infolab à Futur en Seine en 2013
- Premier séminaire de médiation aux données en 2014
- 2015 : site infolabs.io
- 2016 : Infolab citoyen en île de France
- 2016 : Infolab organisation (Adele, La poste, Mais, PACA, SGMAP, group UP)
- 2016 : Data Literacy Conference (170+ part., 1ère mondiale)
- 2017 : Parlez-vous Data ? Data literas Conférence + MOOC + Data position + 4 livrables
- Donut : nouvel infolab qui se monte à Marseille
Lyon : Tuba = infolab
Marseille = infolab sans financement public - Natural Solutions (biodiversité)
Région Ouest : planche sur son infolab interne
Sud-Ouest : infolab interne également
Restitution sur la Portabilité des données en pratique (Guillaume Jacquart) :
Cf cahier
La suite :
- Dataccess : suggestion UX, techniques et sur les données en anglais, pour en discuter au niveau européen
- Encore bcp de sujets sur la portabilité : quelles données, formats de données, standards, API, moyens de transmission, réutilisation, écosystème,…
Qualité des données (Charles Nepote)
Sujet sensible de la qualité :
- fatalité ;
- payer les data scientists pour qu’ils passent 80% de leur temps à nettoyer les données pourries ;
- chacun participe à la qualité des données (ex : fausses infos dans un formulaire web)
Appel à commentaires sur le guide collaboratif
Sprint Qualité
=> nécessaire d’avoir un recul critique dans la démarche Sprint Qualité
=> dialogue entre technique et non technique + dialogue entre producteurs et utilisateurs (permet de comprendre la logique)
Projet QualiData (Toulouse, FING, Datactivist)
L’Open Data & Les entreprises (Armelle Gilliard)
Cf cahier
Pari de Daniel Kaplan en 2012 : parle déjà d’Open Data & Entreprises
Plusieurs raisons pour lesquelles les entreprise publient leurs données
Responsabilité sociale de l’entreprise
elles veulent améliorer les relations avec leur clients
elles testent (hackathon, autre façon de travailler)
elles y sont obligées
Cahier qui prend pour exemple BPCE, SNCF, Orange, La Poste, Ouest France
Surprise sur la publication de certaines données SNCF sur l’absentéisme, relations sociales,… en réponse à des situations de communication de crise
Ouest France :
- Un seul jeu de données - mais très gros jeu de données (avec l’action de la métropole : standardiser la déclaration d’évènements)
- Equipe de modérateurs à priori, équipe interne sur ce sujet
- Propose des abonnements en complément de l’OD
2018, les défis de l’Open Data : atelier et présentation du nouveau programme de la Fing : Open Data impact.
Culture de la donnée :
Japon en 1945 : l’invention d’une culture : la qualité (méthode KANBAN)
Aujourd’hui, idem chez les GAFAM : culture de la donnée très forte qui a investi ces entreprises
Etat d’esprit vis-à-vis de la donnée :
nouvel or noir
tas d’or
diamant brut
de plus en plus, on mentionne la donnée comme étant le blé
Open Data Impact lancé en 2018
- Sur la courbe du modèle de Gartner, nous sommes en plein creux de désillusion : bcp de données, mais usages très limités car données « dégueulasses »
- Attention à la publication massive de données avec les 4000 collectivités en 2018 => on est peut être pas encore arrivés au pic des désillusions
- risque de transformer ce sujet d’innovation et transparence en sujets techniques / chiants
Objectif de Open Data impact
1/ Observer / analyser : faire un bilan étayé de l’open data : photo d’ensemble, zoomer sur les impacts produits et les belles histoires mais aussi les échecs, voir et raconter ce qui se passe ailleurs (métiers, pays - Quebec), affiner les premiers constats formuler les grands défis de l’open data, identifier des leviers, des terrains d’expérimentation qui seront travaillés tout au long de la campagne.
2/ Mobiliser / expérimenter : susciter des projets innovants sur la question de l’impact
- Appel permanent de petits projets sur le sujet de l’impact & fournir une assistance légère
- 4 à 6 projets terrains importants et collaboratifs :
- Qualidata
- L’observatoire de l’Open Data (ODF)
- Self Data territorial et open data : les enquêtes déplacements (coûtent très cher) pourraient être simplifiées
- Open Data dans les entreprises : vers un terrain ?
Livrables : 4 journées nationales où ces projets se rencontrent et travaillent
3/ Programmer / Déployer : Construire collectivement l’agenda de l’Open Data ces 10 prochaines années
Conclusion : L’Open Data est un pilier de la culture de la donnée