DROP : les lanceurs d'alerte de l'open data ?

Ouvre-b0ite lance un outil intitulé DROP, inspiré des lanceurs d’alerte, et permettant à un agent de publier anonymement un jeu de données bloqué par sa hiérarchie.

J’avoue ne pas trop savoir que penser de cette initiative. D’une part parce que dans la plupart des cas, l’open data ne pose pas les dilemmes éthiques habituellement soulevés par les lanceurs d’alerte qui peuvent justifier de sortir du fonctionnement normal d’un service administratif.

D’autre part, parce qu’il me semble que dire “l’open data c’est aussi simple que balancer un fichier en vrac sur un serveur” est assez contre productif du point de vue de la pédagogie sur le travail d’ouverture des données, qui en plus peut difficilement être individuel et doit être organisationnel.

Qu’en pensez-vous ?

2 « J'aime »

Pas d’accord. Le fonctionnement normal d’un service administratif n’est pas assuré : la loi CADA n’est pas respectée par la plupart des administrations qui la contournent allègrement. On pourra dire que c’est légal puisque les avis de la cada ne sont que consultatifs mais l’esprit de la loi c’est quand même la transparence. La cada le dit dans ses rapports, la plupart de ses avis n’ont pas lieu d’être, ils sont juste une réponse à l’attentisme de l’administration

Dans ses rapports, la CADA écrit chaque année qu’il faut éduquer l’administration à la transparence et privilégier une approche pédagogique à la sanction. Mais, en 40 ans, l’open data n’est pas entré dans les réflexes de l’administration. Je pense que nous avons atteint les limites de la transparence volontaire.

1 « J'aime »

Je n’utilise que des données open data dont je suis sûr de leur source (la notion de producteur certifié sur data.gouv.fr est pour moi très importante). Là on perd tout ça et n’importe qui peut publier des données sur n’importe quoi.

Pour moi cette initiative va presque à contre courant des principes open data et notamment tout ce qui touche à la culture de la donnée.

En tant qu’ex agent public, je trouve l’initiative séduisante : un grand nombre de données sont retenues par frilosité, et sont pourtant d’une grande utilité, et de bonne qualité.

Après je me pose 2 questions : la première a déjà été évoquée, qu’en est-il de la qualité de la source et des principes de l’open data ? Et la deuxième : même avec n’importe quelle anonymisation, si vous êtes agent.e d’une ville et publiez les données sur les relevés de fuites d’eau par exemple, il y a peu de doute que votre chef de service ou directrice / directeur sache qui a fait fuiter les fichiers…

Dans tous les cas : curieux des résultats !

J’ai aussi vu l’annonce de ce site hier et j’ai été assez déstabilisé. D’une part il peut sembler séduisant d’organiser une sorte d’Open Data en mode guérilla mais cela soulève pas mal de question de fonds d’un point de vue éthique.

Tout d’abord comme le dit @joel cela laisse à penser qu’il suffit de balancer des fichiers pour que cela soit utile. Ensuite, je pense que le type d’informations que l’on peut diffuser n’est pas toujours si simple à définir (même si le site propose une page wiki sur ce sujet).

Comme archiviste, je ne peux que me réjouir de lire vos propos sur l’importance de la source de production du fichier. Au final, avec ce système je peux facilement fournir un fichier totalement erroné (de façon involontaire ou malveillante) et qu’il soit sur le portail data.gouv.fr.

Ensuite, même si je vois bien les nombreux freins je ne pense pas que faire une libération sauvage de données soit à terme productif auprès des administrations. Je préfère les solutions type dodo data ou les recours récurrents fait par certains journalistes. Évidemment cela est peu fluide et la plupart des requêtes CADA ne devraient pas exister.

Enfin je rejoins @EtiennePichotDamon sur l’anonymisation toute relative dans certaines structures.

1 « J'aime »

Je vois au moins un avantage: ça permet de savoir que certaines données existent bien… contrairement à certaines réponses officielles.

Je doute qu’on puisse vraiment réutiliser sérieusement des données ainsi “exfiltrées” car:

  • aucune garantie sur l’origine
  • aucune garantie sur la qualité du contenu
  • aucune garantie de mises à jour

Remarquez que pour ces deux derniers points, les données officielles ne brillent pas toujours non plus.

3 « J'aime »

D’accord avec vous sur le relatif anonymat.
Pour ce qui est de la donnée, effectivement, c’est gênant de ne pas avoir de garantie sur l’origine et la qualité. Mais @cquest, je dirai que l’argument est le même que pour Wikipedia ou OpenStreetMap sur le “vandalisme”. Pourquoi part-on du présupposé que la donnée est pourrie ou falsifiée?
Il se peut simplement qu’un chef de service refuse de publier un jeu que l’administration utilise déjà en interne, ou qu’il estime que la donnée n’est pas assez propre. Mais combien de jeux ne sont pas propres sur data.gouv? On dit souvent qu’il faut publier et que les utilisateurs feront remonter les anomalies.
Alors pour moi, ce service et plutôt une bonne nouvelle. A voir si la mayonnaise prend.

Je ne dis pas que ce service n’a pas son utilité, on verra à l’usage (et si il est effectivement utilisé), mais il faut faire attention avec des données publiées de façon aussi anonyme.

La différence avec wikipédia et OpenStreetMap c’est que le contenu est surveillé, nettoyé en permanence par une communauté et qu’en plus, l’anonymat des contributions est très partiel.

Un fichier “tombé du camion” n’a pas ces garanties minimales et peut très bien être manipulé… besoin d’un exemple ? Les “listes clearstream”, où des noms d’hommes politiques avaient été ajoutés au milieu de données bien réelles.

Je ne parle même pas du sourçage… impossible par exemple de les utiliser pour OSM car on ne sait potentiellement rien sur leur licence.

Perso, je verrai plutôt le verre à moitié plein : évidemment les données publiées par un tel biais ne seront pas “officielles” et nécessiteront de prendre plein de précautions avec…
Mais si l’administration se refuse à publier les données correspondantes, cela aura au moins le mérite dans un premier temps de permettre déjà de confirmer leur existence ainsi que de les voir et les utiliser.
Mais surtout, cela pourra probablement permettre ensuite de les libérer réellement : une fois leur existence démontrée et leur contenu dévoilé, l’administration se montre généralement rapidement soit plus encline, soit contrainte, à céder à la publication :wink:
À titre d’exemple, ce n’est qu’après plusieurs initiatives de scraping des données de transparence santé qu’elles ont finalement pu être mises sur datagouv, pareil pour les données parlementaires et les sites opendata des deux chambres :wink:

5 « J'aime »

Pour les données tombés du camion qu’on peut modifier, je suis d’accord qu’un certain nombre de fichier devront être pris avec des pincettes, notamment des données financières ou d’attribution de subventions, mais pour ce qui est des données géographiques: arbres, bornes incendies, BAL,… je vois mal quelqu’un faire exprès de pourrir le fichier.
La question de la donnée est une vraie question mais comme les fichiers en OD sont soit en LO ou en ODBL, je ne vois pas trop le problème. En fonction du fichier, on peut bien voir si ca rentre vraiment dans le cadre de l’OD, non?

Si je me place en réutilisateur des données par pour OSM, elles sont inutilisables car je ne connais pas la source, je ne connais pas la licence et je n’ai aucun moyen de lever le doute.

Je rappelle quand même que lorsqu’on publie des données en opendata sous son nom, on garantit aussi qu’il n’y a pas de droits détenus par des tiers sur ces données (ou bien on le signale explicitement), ce qui donne le feu vert aux réutilisations.

Nous ne pensons pas que l’initiative soit favorable à l’open data. De nombreuses raisons ont déjà été évoquées plus haut.
Obtenir par l’intermédiaire de DROP des “documents administratifs” dont on ne peut attester ni du caractère officiel, ni de la source, ni de la date de mise à jour n’est pas à même d’apporter la sécurité nécessaire à la réutilisation des données publiques : sans des informations fiables sur ces points, comment le réutilisateur pourra-t-il s’acquitter de ses obligations de mention de paternité ou de non dénaturation des données qui sont actuellement prévues par le CRPA ? Sans ces mêmes informations, ou des informations complémentaires, comment Ouvre-boite sera-t-elle en mesure d’avoir « la certitude que leur publication est légale » avant diffusion sur data.gouv ? Comment s’assurer du respect des CGU de data.gouv.fr notamment pour ce qui concerne les obligations qui pèsent sur les contributeurs ?.. Avec pour risque aussi de devoir revenir sur les principes de confiance et de modération à posteriori qui ont prévalu à la dimension collaborative de data.gouv.

4 « J'aime »

Je précise que même aujourd’hui, tout un chacun est libre de publier ce qu’il/elle veut sur data.gouv.fr (a priori, sous réserve de respecter les CGU rappelées par @laurelucchesi).

Oui. Tous les arguments qui jugent ce service contre-productif se valent mais je pense que vous passez à côté de quelque chose en vous plaçant sur le terrain de la fiabilité des données.
DROP est clairement une oeuvre de guérilla : l’objectif n’est pas d’obtenir des données fiables mais de forcer l’acteur public à bouger. Un fin connaisseur de l’open data (il traîne ici et complétera peut-être) me citait l’exemple d’une association en Guyanne, je crois, qui avait publié de fausses données pour forcer la préfecture à publier les bonnes.

Rien ne vaut un dialogue constructif avec les pouvoir publics, mais DROP peut sans doute avoir des usages vertueux.

2 « J'aime »

à titre personnel je trouve cette initiative contre-productive.

Même si le terme lanceur d’alerte est séduisant, la réalité est souvent beaucoup plus simple : la Data n’est pas la préoccupation première des agents capables de gérer les enjeux Data et les interfaces de travail qui en découlent. Ils sont débordés sur d’autres dossiers, c’est une réalité dans la fonction publique, et suivre cette dynamique transversale nouvelle, c’est une de plus. Il s’agit donc de préserver ces perles. Construire avec elles une relation dans la durée questions qualité et disponibilité. Aboutir parfois à une spécialisation de fonction.

Un jeu de donnée “incontrôlé” sort, disons biodiversité, il n’était pas souhaité ou non conforme. Si il fait parler en mal, ma perle de l’Environnement ne me fournit plus jamais de données. La mécanique est rompue, tout le monde est perdant.

L’enjeu data est désormais perçu. Ce genre d’initiative peut casser la confiance naissante.

3 « J'aime »

La possibilité proposée par le portail data.gouv.fr me semble être tout de même dans une autre logique que celle (comme le dit justement @CharlesNepote) de guérilla de l’Open Data.

Concernant par ailleurs l’argument “on publie de données fausses et cela force l’administration à publier les vraies”, bien évidemment cela peut permettre parfois d’arriver à ses fins mais cela peut aussi jeter le discrédit sur le travail de collecte de données citoyennes (sujet évoqué lors de le dernière Dataliteracy Conference).

1 « J'aime »

Je crois qu’on peut conclure que l’enthousiasme n’est pas de mise. On verra ce que ca donnera.
Mais comme dit l’autre: “100% des gagnants ont tenté leur chance”

Bonsoir

DROP ne palliera certainement pas à tous les maux.
Il présente certainement des avantages pour motiver un acteur à publier.

Évidemment en phase avec ceux qui prônent le respect des règles pour construire un open data durable, de qualité et incluant tous les acteurs. Aujourd’hui, certains ne jouent pas le jeu. Ce n’est pourtant pas faute de les amener à réfléchir régulièrement sur la question. On a le cas du Ministère de l’Intérieur vs Nextimpact en ce moment, il en est certainement question ailleurs sur le forum.

Sur la question de la qualité, j’ai eu la remarque suivante aujourd’hui même (en parlant d’OpenStreetMap, initiative massivement axée sur la contribution) : “Si on encourage les gens à contribuer sur un sujet précis, on va se retrouver avec plein de fausses infos et erreurs”. Pour l’instant on s’en sort très bien.
Drop est une affaire de motivés qui pourraient très bien rechercher à maximiser l’impact de leur engagement, donc de publier des données authentiques. C’est un point de vue.
En tout cas sur d’autres terrains, lorsqu’il n’y a plus d’enjeu à conserver une donnée à l’ombre, le gestionnaire publie, pour au moins avoir les avantages du crowdsourcing sur les erreurs.

Intéressé par ailleurs sur le retour d’expérience et les enseignements à tirer de tout ça