Restitution de notre programme Parlez-vous data ? et présentation d'Open Data impact

CharlesNepote · Février 7, 2018, 4:17

Le 21 février prochain à Paris au GS1, nous vous convions à la restitution de notre programme 2017, Parlez-vous data ?, portant sur la culture de la donnée. À la clé des productions inédites sur la culture de la data, réalisées collectivement avec 7 grandes organisations partenaires (l’ADEME, Carrefour, la MAIF, la Région PACA, La Poste, la DINSIC et le CGET).

Cette journée sera aussi l’occasion, à partir de 16h, de vous présenter notre nouveau programme :
Open Data impact, mobiliser et construire la feuille de route de l’Open Data pour 2025.

Programme détaillé et inscriptions :
http://fing.org/?page=evenement&id=750

Charles Nepote / [email protected].

joel · Février 8, 2018, 3:10

@CharlesNepote, que penses-tu de l’idée d’essayer à cette occasion un format de prise de note collaborative en mode wiki ici-même pour permettre à la communauté de suivre l’événement ?

[Ajout Sam] Discourse a une excellente fonctionnalité de wiki post

joel · Février 8, 2018, 3:10

(je sais que tu adoooores les wiki )

joel · Février 9, 2018, 4:48

L’annonce d’open Data Impact est ici : http://fing.org/?Open-Data-Impact-vers-2025&lang=fr

samgoeta · Février 9, 2018, 5:00

J’y serai @CharlesNepote !

eva_dun · Février 21, 2018, 7:29

Bonjour à tous,

Voici un compte-rendu des échanges durant la journée restitution du programme Parlez-vous Data & Présentation d’Open Data Impact de la FING

Atelier : qualité des données Open Data

La qualité des données est un frein pour l’usage
Exemple : ville de Faux -> problème avec la valeur False dans les feuilles de calcul
Il existe très peu de travaux sur la qualité des données => bibliographie pauvre (travaux qui ne sont pas opérationnels)
Objectif de la FING donner des repères & méthodes

Brainstorming sur les problèmes de qualité rencontrés :

Format :
- Nécessité de convertir le fichier (ex : Trident, GTFS)
- Pas d’exploitation possible si adresse pas valable (données géographiques) : séparation incorrecte de la rue, code postal…
Clarté
Esthétique des données dans les fichiers : aspects morpho-syntaxiques
Pas d’historique => évolution
Carences de données
Métadonnées :
- Description des fichiers : Haute-Garonne, Hte Garonne
- Nom du jeu de données pas en accord avec ce qu’il y a dedans
- A quoi correspondent certaines colonnes dans le fichier (code UIC)
- Découvrabilité de la donnée (ex : « ponctualité » selon la SNCF vs « retard » des trains pour l’utilisateur moyen) - le vocabulaire a de l’importance - remontée dans les résultats de recherches de moteurs / référencement, mots clés…
Pas de données pivot pour réunifier deux jeux de données de producteurs différents entre eux (le code Siret est une donnée pivot qui peut s’appliquer à tous types d’acteur… et non le code INSEE qui ne marche pas pour les EPCI)
Pas de concierge / point de contact : quel point de contact pour une demande de données supplémentaires, pour un process de retour, une rétroaction, un feedback (comment avoir une action ?)

Globalement, il n’y a pas de fluidité dans l’expérience vis-à-vis de la donnée.
Peu de collectivités ont mis en place une charte qualité (celles qui l’ont fait ==> cela effraie)

Témoignage Open Data PACA sur la qualité

Actuel changement de plateforme Open Data qui nécessite de repenser les jeux de données et leur publication
Prise en compte des remarques des users
Défi de trier et surqualifier avec un recentrage sur les 5 thématiques prioritaires de la région
Objectif de produire des répertoires de données intelligences (énergie, transport mobilité, emploi formation,…) composés de données publiques et privées (ex : ENEDIS)
Outils pour appuyer la qualité des jeux de données : ressources en ligne sur l’aide à la saisie, formations des acteurs locaux ; Problématique de l’année 2018 : mettre en place une hotline producteur

Checklist OPQUAST pour assurer la qualité des données

Guide de la FING :
Exemples de problèmes de qualité rencontrés :

Surabondance de données (données GPS à 8, 9 ou 10 chiffres après la virgule)
Problèmes liés à la réglementation : Données personnelles disponibles

Comment améliorer la découvrabilité : mettez-vous dans le point de vue du producteur et le point de vue de l’utilisateur : quels mots clés pour la recherche
Cependant, la donnée doit rester dans les mains de celui qui la produit et qui sait où se situe l’intérêt de la donnée

Sujet du temps passé à qualifier la donnée qui reste important

Sprint Qualité (complément du guide de la FING) - bon outil pour un projet où on manipule un jeu de données

Méthodologie sur un temps contraint sur la qualité de la donnée
Mis en pratique avec Etalab et la MAIF (cela a par exemple permis la mise en place de dictionnaires de données et a permis de booster les gens qui travaillent dessus)
120 points de contrôle dans la méthode
Exercice à réaliser en équipes avec 15/20 points par binôme
Sprint de Qualité qui doit se faire avec le producteur de données -> permet de comprendre aussi les contraintes du producteur

Concernant les arguments pour oeuvrer en faveur de la qualité de données, ils existent en début du guide (Impact sur l’usage, nouvelles opportunités générées)

Point de contrôle n°121 détecté en atelier: sujet de la donnée pivot (qui ne figure pas dans le guide & sprint) :

Donnée pivot (= données de référence) permet à des acteurs d’un écosystème, de métiers différents, de croiser des données entre elles, entre producteurs, entre fichiers…
Un point de contrôle supplémentaire dans le sprint sur la qualité pourrait donc être : y a t-il une donnée pivot que me permet de relier ce jeu de données à d’autres ?

Sujet de la reliabilité des données - Ex : clé d’opérabilité entre BAL et BAN

Point de contrôle qui serait donc le suivant :

Description : le jeu de données ne contient pas de données pivot (donnée de référence) facilitant le croisement avec d’autres données
Exemple : Ce fichier relatif aux lycées ne contient pas le code RNE/UAI (qui recense les 135000 établissements, composé de 7 chiffres et une lettre). Or il existe plusieurs lycée Paul Claudel.
Impact : restriction de l’usage, consistant à croiser plusieurs données pour approfondir l’analyse (croisement de données = usage qui porte le plus de valeur)
Détection : Recherche manuelle dans les métadonnées et les données
Correction : trouver une donnée pivot adéquate (regarder les standards / référentiels nationaux ou internationaux) ; Mise à jour manuelle ou reprise avec d’autres données
Crowdfixing = co-production de réparation de données

Restitution et présentation des productions collectives des 3 thèmes de Parlez-vous data ?

FING : campagne infolab (2012-2017)

Précurseur des fablabs / infolabs
Prototype d’infolab à Futur en Seine en 2013
Premier séminaire de médiation aux données en 2014
2015 : site infolabs.io
2016 : Infolab citoyen en île de France
2016 : Infolab organisation (Adele, La poste, Mais, PACA, SGMAP, group UP)
2016 : Data Literacy Conference (170+ part., 1ère mondiale)
2017 : Parlez-vous Data ? Data literas Conférence + MOOC + Data position + 4 livrables
Donut : nouvel infolab qui se monte à Marseille

Lyon : Tuba = infolab
Marseille = infolab sans financement public - Natural Solutions (biodiversité)
Région Ouest : planche sur son infolab interne
Sud-Ouest : infolab interne également

Restitution sur la Portabilité des données en pratique (Guillaume Jacquart) :

Cf cahier

La suite :

Dataccess : suggestion UX, techniques et sur les données en anglais, pour en discuter au niveau européen
Encore bcp de sujets sur la portabilité : quelles données, formats de données, standards, API, moyens de transmission, réutilisation, écosystème,…

Qualité des données (Charles Nepote)

Sujet sensible de la qualité :

fatalité ;
payer les data scientists pour qu’ils passent 80% de leur temps à nettoyer les données pourries ;
chacun participe à la qualité des données (ex : fausses infos dans un formulaire web)

Appel à commentaires sur le guide collaboratif

Sprint Qualité
=> nécessaire d’avoir un recul critique dans la démarche Sprint Qualité
=> dialogue entre technique et non technique + dialogue entre producteurs et utilisateurs (permet de comprendre la logique)

Projet QualiData (Toulouse, FING, Datactivist)

L’Open Data & Les entreprises (Armelle Gilliard)

Cf cahier

Pari de Daniel Kaplan en 2012 : parle déjà d’Open Data & Entreprises

Plusieurs raisons pour lesquelles les entreprise publient leurs données

Responsabilité sociale de l’entreprise
elles veulent améliorer les relations avec leur clients
elles testent (hackathon, autre façon de travailler)
elles y sont obligées

Cahier qui prend pour exemple BPCE, SNCF, Orange, La Poste, Ouest France

Surprise sur la publication de certaines données SNCF sur l’absentéisme, relations sociales,… en réponse à des situations de communication de crise

Ouest France :

Un seul jeu de données - mais très gros jeu de données (avec l’action de la métropole : standardiser la déclaration d’évènements)
Equipe de modérateurs à priori, équipe interne sur ce sujet
Propose des abonnements en complément de l’OD

2018, les défis de l’Open Data : atelier et présentation du nouveau programme de la Fing : Open Data impact.

Culture de la donnée :

Japon en 1945 : l’invention d’une culture : la qualité (méthode KANBAN)
Aujourd’hui, idem chez les GAFAM : culture de la donnée très forte qui a investi ces entreprises

Etat d’esprit vis-à-vis de la donnée :

nouvel or noir
tas d’or
diamant brut
de plus en plus, on mentionne la donnée comme étant le blé

Open Data Impact lancé en 2018

Sur la courbe du modèle de Gartner, nous sommes en plein creux de désillusion : bcp de données, mais usages très limités car données « dégueulasses »
Attention à la publication massive de données avec les 4000 collectivités en 2018 => on est peut être pas encore arrivés au pic des désillusions
risque de transformer ce sujet d’innovation et transparence en sujets techniques / chiants

Objectif de Open Data impact
1/ Observer / analyser : faire un bilan étayé de l’open data : photo d’ensemble, zoomer sur les impacts produits et les belles histoires mais aussi les échecs, voir et raconter ce qui se passe ailleurs (métiers, pays - Quebec), affiner les premiers constats formuler les grands défis de l’open data, identifier des leviers, des terrains d’expérimentation qui seront travaillés tout au long de la campagne.

2/ Mobiliser / expérimenter : susciter des projets innovants sur la question de l’impact

Appel permanent de petits projets sur le sujet de l’impact & fournir une assistance légère
4 à 6 projets terrains importants et collaboratifs :
- Qualidata
- L’observatoire de l’Open Data (ODF)
- Self Data territorial et open data : les enquêtes déplacements (coûtent très cher) pourraient être simplifiées
- Open Data dans les entreprises : vers un terrain ?
  Livrables : 4 journées nationales où ces projets se rencontrent et travaillent

3/ Programmer / Déployer : Construire collectivement l’agenda de l’Open Data ces 10 prochaines années

Conclusion : L’Open Data est un pilier de la culture de la donnée

FKM · Février 22, 2018, 3:52

Je pense qu’il serait intéressant d’ouvrir un thème sur la littérature existante sur la qualité de la donnée.

samgoeta · Février 22, 2018, 5:35

Il y a déjà eu une discussion intéressante sur le forum Open Knowledge :

FKM · Février 22, 2018, 5:47

Il faudrait peut être compléter cette première discussion par une seconde en français.

ThomasG77 · Février 23, 2018, 12:57

Vous pouvez lire “Série de fiches Cerema : Qualifier les données géographiques - Un décryptage de la norme ISO 19157” C’est assez spécifique à la cartographie mais il devrait avoir des idées à prendre.

Après si je me souviens bien il y a la normalisation des jeux de données usuels pour faciliter la difficile consolidation pour aller vers des données utilisables plutôt que le “data déluge basse qualité hétérogène”. Je crois me souvenir qu’Opendata France bosse sur le sujet mais je n’ai pas suivi leur avancement depuis quelques mois (quémande des infos )

joel · Février 23, 2018, 1:02

Oui, il y a d’une part le socle commun des données locales qui vise en effet à standardiser certains jeux de données considérées comme essentiels, et d’autre part le programme Qualidata (sur lequel la FING, Jailbreak et Datactivist collaborent également.)