Mille excuses si le sujet a déjà été évoqué sur ce forum (c’est probablement une tarte à la crème…) mais je me suis rendu compte qu’il existe un clivage sur la posture à adopter face à des données publiques mal documentés. Dans cette situation, certains pensent qu’il est préférable de ne pas ouvrir les données (sous entendu un jeu de données insuffisamment documenté n’est pas réutilisable et consomme du stockage inutilement) tandis que d’autres, dont je fais partie, estiment que des données ouvertes c’est toujours mieux que des données fermées (même si on les préfère documentées, évidemment).
Quel est votre avis (et surtout quels arguments mettez-vous dans la balance) : à tout prendre, vaut-il mieux des données ouvertes insuffisamment documentées ou des données pas ouvertes ?
Aucun doute, des données ouvertes insuffisamment documentées. J’ai eu le cas récemment pendant un cours, mes étudiants ont travaillé sur un fichier de l’ARCOM sur les français face à l’information : plus de 3000 lignes et 1000 colonnes avec une datamap vraiment incompréhensible (Etude sur les Français et l'Information - data.gouv.fr).
J’ai pris les données, cherché à les comprendre, joint la personne de l’ARCOM et résultat : on a pu publier une analyse malgré la complexité des données.
Tu dois vouloir parler de l’ARCOM ?
Parce qu’il est impossible que tu sois parvenu à joindre une personne de l’ARCEP (no offence)
D’après le droit, la charge de travail nécessaire à la publication entre en ligne de compte dans le choix d’ouverture ou non.
Il vaut mieux publier ce qui existe et éventuellement collaborer ensuite avec la multitude pour documenter ce qui est nécessaire.
Il est difficile de soutenir qu’on veut consentir à un effort facultatif avant de publier ce qui est obligatoire et on pourra opportunément retenir que l’argument permet de gagner du temps.
Il serait quand même étonnant qu’aucune documentation « interne » n’existe concernant ces données.
Cette documentation est un document administratif… communicable comme les données
Cet argument est un grand classique pour ne pas publier, et dès qu’on creuse un peu ça ne tient pas.
Au-delà de l’argument classique contre l’ouverture des données, cette réticence repose, selon moi, sur une mécompréhension fréquente de ce qu’est réellement l’open data.
Beaucoup considèrent l’open data comme une version distincte des données internes, conçue spécifiquement à des fins de communication et de réutilisation.
Il existe également une mauvaise interprétation de la demande visant à décloisonner les données des contextes métiers : au lieu de comprendre cela comme une invitation à fournir une documentation compréhensible, certain·e·s y voient une nécessité de transformer les données pour les adapter à l’open data.
En plus de générer un coût supplémentaire, cela peut entraîner un décalage problématique entre les données publiques et celles utilisées pour appuyer les décisions publiques.
À cela s’ajoute le débat (qui, selon moi, n’en est pas un) opposant qualité et quantité des données. La qualité des données est parfois invoquée comme prétexte pour ne pas ouvrir des données qui devraient l’être par défaut.