Data.gouv.nc : nouveau portail opendata ou (vraiment) pas?

J’ai découvert ce matin via twitter l’ouverture hier d’un portail opendata pour la Nouvelle-Calédonie:

Bien sûr, curieux, je suis allé voir, déjà pour l’ajouter comme il se doit à opendatArchives :wink:

http://files.opendatarchives.fr/data.gouv.nc/

Plus de 200 jeux de données, hébergés par opendatasoft… sauf que… côté licence il y a beaucoup à dire :frowning:

80 jeux de données en licence ouverte, mais surtout plus d’une centaine (119) en Creative commons avec des clauses ND (pas d’oeuvre dérivée) et NC (pas d’utilisation commerciale) deux clauses incompatibles avec le principe de libre réutilisation de l’opendata.

S’ajoute à cela, la publication de données dans des formats propriétaires, comme les geodatabase (ESRI) pour les données géographiques.

Je creuse ensuite sur les photos aériennes, toujours utiles pour OpenStreetMap et là, le téléchargement passe par un clicodrome (en Flash !), puis un captcha et la fourniture d’un mail pour ensuite recevoir des liens de téléchargement…

La licence pour ces données est indiquée CC-BY-ND-NC sur le portail opendata, mais sur le portail géographique où l’on aboutit pour le téléchargement, le document de 2017 précisant les conditions d’utilisation ne parle que de non réutilisation commerciale, pas de CC ni de ND…

Bref, c’est un peu n’importe quoi.

Je ne sais pas si le CRPA s’applique en Nouvelle-Calédonie, mais ce qui est sûr c’est qu’on est assez loin des principes de l’opendata. Il y a quelques principes de base à revoir.

Du coup, sur opendatArchives, j’ai pour la première fois ajouté un WARNING.txt : http://files.opendatarchives.fr/data.gouv.nc/WARNING.txt

Selon vous, devrais-je filtrer pour ne récupérer que les données sous licence non ND/NC ?

2 Likes

Bonjour @cquest.
Pour expliquer un peu le contexte chez nous, en Nouvelle-Calédonie:

  • En termes de réutilisation de données, nous ne sommes pas soumis au CRPA
  • Concernant les jeux de données avec des licences CC, ils sont issus du moissonnage de notre portail d’information géographique (georep.nc) pour lequel avait été fait le choix - autrefois - d’utiliser des Creative Commons: il n’est pas du tout exclu de remettre cela en cause, nous souhaitons aller dans la bonne direction mais cela peut parfois prendre du temps

D’une manière générale, nous sommes tout à fait conscients des soucis que vous évoquez, et nous avons cette volonté d’amélioration. Par ailleurs, vous semblez avoir des pistes d’améliorations à nous suggérer, et nous serions ravis d’échanger avec vous afin d’avoir vos avis et retours d’expérience.

Les améliorations possibles:

  • revoir les licences
  • fournir les données dans des formats ouverts (geopackage pour les données géo, qui est conforme OGC)
  • remplacer les téléchargements par « panier » par des liens directs (comme ça plus nécessaire de passer par l’interface Flash)

Les licences :

Il faut savoir qu’à l’origine, les licences Creative-Commons n’étaient pas adaptées aux données, mais uniquement aux œuvres pouvant être couvertes par le droit d’auteur. Ce n’est qu’à partir de la version 4.0 des CC que les data sont prises correctement en compte. Je ne sais pas quelle version vous avez choisi. J’ai cherché la délibération à ce sujet, mais n’ai pas pu la trouver. Les seuls documents trouvés ne parlaient pas de licence CC, mais fixaient des clauses à la réutilisation.
Attention donc à ne pas choisir une licence « qui ressemble » à la délibération, mais soit à bien coller à celle-ci ou délibérer sur une licence précise.

CC ou pas, les clauses de type ND/NC qui ne sont pas considérées comme ouvertes car elles limitent bien trop les réutilisations.

ND (pas d’œuvre dérivée) est même un non sens du point de vue de l’opendata dont un des buts est la réutilisation des données, donc leur adaptation, transformation à un autre usage que celui original. ND l’empêche tout simplement.

NC (pas d’utilisation commerciale) pose aussi un problème car on ne sait pas clairement définir où cela commence. Utiliser ces données sur un site web avec quelques pubs est-ce un usage commercial ? Quelle est la finalité d’une telle clause ? Ces données sont-elles vendues par ailleurs ?

Même la clause SA est problématique car tout ce qu’on peut faire avec les données (oeuvres dérivées) doit être mis sous la même licence CC. Par exemple, une ortho photo en CC-BY-SA ne pourra être utilisée pour améliorer OpenStreetMap car la base OSM n’est pas en CC-BY-SA mais en ODbL. L’ODbL est plus mesurée car elle prévoit que seule la base de donnée et ses améliorations doivent être partagées à l’identique, pas les œuvres dérivées qui ne sont pas des bases de données.

Tout est en fait question d’objectif… si vous voulez que ces données soient les plus largement utilisées et ré-utilisées, il faut limiter les clauses au strict minimum et la Licence Ouverte a ce but là. Elle protège de plus le producteur de données vis à vis du contenu des données, des erreurs potentielles, des données personnelles éventuelles, etc.
Si vous voulez rentrer sur certains jeux de données dans une logique de commun où les améliorations doivent être repartagées, c’est l’ODbL qui conviendra.

Formats ouvert :

Fournir des données dans des formats propriétaires (courants ou pas) est une question de principe et aussi pratique pour les réutilisateurs.
De principe car alors qu’on promeut une ouverture sur les contenus, on enferme par les contenants.
Pratique car dans le cas que je citais du format geodatabase, c’est un format ESRI, non ouvert, et exploitable essentiellement avec les outils propriétaires d’ESRI, payants et ne fonctionnant que sous un système d’exploitation propriétaire lui aussi (Windows).

Pour les données géographiques, l’OGC fait un excellent travail de standardisation, et les outils libres (tels que QGis ou gdal/ogr) supportent parfaitement ces standards, supportés aussi par les outils propriétaires.

Pour les données non géographiques, on évitera ausi les Excel… mais cela est secondaire vu que vous publiez vos données via opendatasoft.

Liens directs vs panier :

Les « paniers » souvent hérités de portails ou d’outils prévus à la base pour vendre certaines données. Ils limitent très fortement l’accès aux données sans raison valable.
Impossible par exemple d’avoir un script de téléchargement automatique pour récupérer une nouvelle version des données pour rester à jour.

Une amélioration sur ces trois points vous permettrait de qualifier pleinement votre portail « opendata ».

1 Like

Merci beaucoup @cquest pour toutes ces précisions utiles :grinning:
Nous tâchons d’étudier tous ces points de notre côté, pour continuer à améliorer notre portail.