Open data et FAIR : deux paradigmes différents ?

datamanagement
recherche
opendata

(Joël Gombin) #1

Quelqu’un sait il s’il existe de la littérature sur la relation entre les paradigmes de l’open data et FAIR (généralement appliqué aux données de la recherche : Faciles à trouver, Accessibles, Interoperables et Réutilisables) ? Je n’ai jamais vu le paradigme FAIR explicitement appliqué à l’open data et pourtant ça me semblerait assez intéressant…


(Nicolas Bonnel) #2

C’est très intéressant en effet ! En cherchant un nom un peu plus sexy pour le projet sur lequel je bosse, je viens de tomber sur un article décrivant ce principe. Après l’avoir parcouru vite fait, je ne vois pas pourquoi ça ne pourrait pas être appliqué à l’opendata


(Mathieu Saby) #3

Bonne question!
FAIR est un acronyme pour
F = findable
A = accessible
I = interoperable
R = reusable
Il y a un article wikipedia qui n’est pas trop mal, même s’il s’écarte un peu du sujet : https://fr.wikipedia.org/wiki/Fair_data

Le document de référence exposant les principes FAIR, qui ne sont pas forcément très connus hors du monde de la recherche:

  • Wilkinson, M. D., Dumontier, M., Aalbersberg, Ij. J., Appleton, G., Axton, M., Baak, A., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3. https://doi.org/10.1038/sdata.2016.18

Articles plus récents exposant l’adoption de ces principes par la communauté scientifique:

  • Wilkinson, M. D., Verborgh, R., Santos, L. O. B. da S., Clark, T., Swertz, M. A., Kelpin, F. D. L., … Dumontier, M. (2017). Interoperability and FAIRness through a novel combination of Web technologies. PeerJ Computer Science, 3, e110. https://doi.org/10.7717/peerj-cs.110
  • Wilkinson, M. D., Sansone, S.-A., Schultes, E., Doorn, P., Santos, L. O. B. da S., & Dumontier, M. (2017). A design framework and exemplar metrics for FAIRness. BioRxiv, 225490. https://doi.org/10.1101/225490
  • Mons, B., Neylon, C., Velterop, J., Dumontier, M., Santos, da S., Bonino, L. O., & Wilkinson, M. D. (2017). Cloudy, increasingly FAIR; revisiting the FAIR Data guiding principles for the European Open Science Cloud. Information Services & Use, 37(1), 49‑56. https://doi.org/10.3233/ISU-170824

Pour le dire vite, les principes “FAIR” ne recoupent pas l’open data au sens strict. Mais ils sont conçus pour être appliqués de manière modulaire et graduée : un jeu de données ou une infrastructure, peuvent être “plus ou moins” FAIR, selon chacun des axes symbolisés par les 4 lettres du mot (F : findable, A: accessible, I: interoperable, R: reusable). Des données ouvertes sans restriction (téléchargeables librement et gratuitement, licence imposant le minimum de contrainte, etc) sont 100% accessible. Mais des données scientifiques peuvent aussi être FAIR tout en étant en accès restreint, ou sous embargo, si cela se justifie. Dans ce cas il faut au minimum que les métadonnées soient elles mêmes accessibles.

Sur les liens entre FAIR et “open”, une clarification nette dans Mons, B., Neylon, C., Velterop, J., Dumontier, M., Santos, da S., Bonino, L. O., & Wilkinson, M. D. (2017). Cloudy, increasingly FAIR; revisiting the FAIR Data guiding principles for the European Open Science Cloud. Information Services & Use, 37(1), 49‑56. https://doi.org/10.3233/ISU-170824 :

FAIR is not equal to Open: The ‘A’ in FAIR stands for ‘Accessible under well defined conditions’. There may be legitimate reasons to shield data and services generated with public funding from public access. These include personal privacy, national security, and competitiveness. The FAIR principles, although inspired by Open Science, explicitly and deliberately do not address moral and ethical issues pertaining to the openness of data. In the envisioned Internet of FAIR Data and Services, the degree to which any piece of data is available, or even advertised as being available (via its metadata) is entirely at the discretion of the data owner. FAIR only speaks to the need to describe a process – mechanised or manual – for accessing discovered data; a requirement to openly and richly describe the context within which those data were generated, to enable evaluation of its utility; to explicitly define the conditions under which they may be reused; and to provide clear instructions on how they should be cited when reused [11]. None of these principles necessitate data being “open” or “free”. They do, however, require clarity and transparency around the conditions governing access and reuse. As such, while FAIR data does not need to be open, in order to comply with the condition of reusability, FAIR data are required to have a clear, preferably machine readable, license. The transparent but controlled accessibility of data and services, as opposed to the ambiguous blanket-concept of “open”, allows the participation of a broad range of sectors – public and private – as well as genuine equal partnership with stakeholders in all societies around the world.”

Ces principes ont été développés à partir de 2014, initialement par des chercheurs néerlandais issus du domaine de la biologie et de la santé. Il s’agissait d’une démarche “de terrain” destinée à faciliter la réutilisation effective des données de la recherche, ce qui explique:

  • l’insistance sur la réutilisation “par des ordinateurs” (ce type d’approche étant devenue centrale dans le domaine biomédical)
  • la prise en compte des infrastructures et des outils : le chercheur peut vouloir produire des données FAIR, mais encore faut-il qu’il ait les moyens de le faire, et que ces données puissent être préservées et mises à disposition dans un entrepôt de données qui leur permettent de rester FAIR (ex: en attribuant aux données un identifiant pérenne, des métadonnées riches, etc)
  • la prise en compte des données non ouvertes ou partiellement ouvertes
  • la prise en compte d’intérêts de “partie prenantes” non directement liés à la recherche (éditeurs, financeurs, infrastructures de recherche, décideurs…)

En quelques années, ces principes ont été adoptés par de nombreuses communautés scientifiques internationales et par des acteurs importants, notamment la commission européenne. Mais ce sont des principes de “haut niveau”, qui exigent un travail d’“opérationnalisation” pour être applicables à différents contextes. Il y a une réflexion en cours par exemple pour mettre en place des grilles d’analyses inspirées de FAIR afin d’évaluer le degré de “FAIRness” entrepôts de données scientifiques, des jeux de données, des projets…
Pour l’UE : le modèle FAIR a été intégré à l’été 2016 au document servant de guide aux projets financés par le programme cadre Horizon 2020 (http://www.donneesdelarecherche.fr/IMG/pdf/lignes-directrices_gestion-donnees-fair_horizon2020_version_3.0_tr-fr.pdf). Mais ce modèle n’induit pas de changement concret dans les exigences de gestion des données (elles sont certes élargies à de nouveaux projets mais ce n’est pas lié directement à l’adoption de ce modèle). Il s’agit plutôt d’une nouvelle manière “conseillée” pour présenter les opérations liées à la gestion des données d’un projet (concrètement, un nouveau modèle de plan de gestion de données).
Les plans de gestion de données sont très liés au monde de la recherche, mais le travail en cours dans le monde des administrateurs d’entrepôts de données est peut-être plus directement transposable au contexte de l’open data “non scientifique”. Sur cela voir https://www.youtube.com/watch?v=gAsDc08SuWk et https://www.youtube.com/watch?v=kuu7MR8-eCA

Enfin on peut sans doute s’interroger sur l’adoption très rapide de ce nouveau paradigme, qui est parfois présenté comme une évolution de l’open data scientifique, alors que clairement ce n’est pas un concept positionné sur le même plan. Si FAIR devient l’unique cadre conceptuel pour le partage des données scientifiques, cela pourrait être une régression en terme d’“ouverture” au sens strict. Politiquement, il est peut-être nécessaire d’articuler la “FAIRness” des données et leur ouverture? Concrètement, faut-il décider de règles utilisant le modèle général FAIR, mais précisant dans quelles cas la non ouverture totale ou partielle des données est légitime, en fonction de la nature des données, de leur circonstances de création, etc etc ?


#4

Bonjour,

Il me semble qu’il y a en réalité davantage de liens entre les principes FAIR et l’Open Data que ce qui est exposé ci-dessus.

Les principes FAIR constituent des directives adressées par la commission européenne aux porteurs de projets de recherche financés dans le cadre du programme H2020, concernant la gestion des données.

En 2017, un “Open Research Data pilot” a été généralisé à l’ensemble du programme H2020 et il implique désormais un principe très proche de l’Open data par défaut de la loi République numérique

Voyez ce que l’on lit sur le site de la Commission http://ec.europa.eu/research/participants/docs/h2020-funding-guide/cross-cutting-issues/open-access-dissemination_en.htm

As of the Work Programme 2017 the Open Research Data pilot is extended to cover all thematic areas of Horizon 2020 per default. However, the Commission recognizes that some research data cannot be made open and applies the principle of ‘as open as possible, as closed as necessary’. It is therefore possible to opt out of research data sharing at any stage - before or after the signature of the grant agreement - but reasons have to be given e.g. for intellectual property rights (IPR) concerns, privacy/data protection concerns, national security concern, if it would run against the main objective of the project or for other legitimate reasons.

“As Open as possible, as closed as necessary” : cette phrase exprime bien l’idée d’un “Open Data par défaut”.

Les porteurs peuvent encore ne pas ouvrir leurs données, mais il faut qu’ils motivent cette décision et invoquent une véritable “nécessité” découlant d’une obligation légale s’opposant à l’ouverture (droit de propriété intellectuelle de tiers, protection de la vie privée, secrets administratifs,etc.).

C’est en fait la même logique que ce qui s’applique en France pour les autres types de données publiques : une obligation générale d’ouverture assortie d’exceptions listées dans la loi.

Cela influe sur l’interprétation du “R” (Reusable) de la méthode FAIR. On le voit d’ailleurs ici dans ce document récapitulatif http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf

> - Specify how the data will be licenced to permit the widest reuse possible
> - Specify whether the data produced and/or used in the project is useable by third
> parties, in particular after the end of the project? If the re-use of some data is
> restricted, explain why

Les porteurs de projets doivent par défaut choisir des licences permettant “l’usage le plus large possible” et seulement dans certains cas exceptionnels, ils peuvent ne pas ouvrir les données, à condition qu’ils invoquent une raison légitime.

On est donc bien dans un paradigme identique à celui d’une obligation d’Open Data, dans la mesure où la décision d’ouverture ne relève plus d’un “pouvoir discrétionnaire”, mais bien d’une “compétence liée”.

Ajoutons que de toutes façons, pour ce qui est des projets de recherche français, la loi République numérique concerne aussi en principe les données de la recherche : les principes FAIR devront donc être appliqués par les équipes françaises dans le respect du principe d’Open Data par défaut.

Mais la méthode FAIR a une valeur en elle-même, au-delà de ces considérations juridiques. Il s’agit d’une excellente “checklist” permettant aux acteurs souhaitant ouvrir des données de vérifier qu’ils le font dans de bonnes conditions. Et ces principes gagneraient à être appliqués au-delà du seul secteur de la recherche.

Par ailleurs, comme le dit Mathieu, même lorsqu’on ne peut pas ouvrir des données, appliquer la méthode FAIR conserve quand un intérêt, car elle apporte un plus en termes d’accessibilité, de documentation et de signalement.


(Sabine Blanc) #5

hello, pour info, du 26 décembre : http://www.enseignementsup-recherche.gouv.fr/cid124728/www.enseignementsup-recherche.gouv.fr/cid124728/science-ouverte-la-france-rejoint-go-fair-en-tant-que-co-fondatrice.html


(Loïc Haÿ) #6

Réaliser un plan de gestion de données « FAIR » [guide de rédaction] est un document qui vise à accompagner les chercheurs et chargés de projets dans la rédaction de plans de gestion de données de la recherche [Data Management Plans, DMP] > https://hal.archives-ouvertes.fr/sic_01690547


(Mathieu Saby) #7

Quelques actualités sur le modèle FAIR et son lien avec les principes de l’open data
Lors d’un workshop récent le FAIR Data Expert Group de la Commission Européenne (qui rendra un rapport complet en novembre) a précisé pour lever les ambiguités que:

"FAIR does not itself imply and necessitate Open. It needs to be augmented with the principle “As open as possible, as closed as necessary” (https://youtu.be/_OZpYz-GJLk?t=15m56s)

La Commission européenne vient de dévoiler ses nouvelles recommandations concernant la science ouverte (remplacent les recommandations de 2012 sur l’open access). https://ec.europa.eu/digital-single-market/en/news/recommendation-access-and-preservation-scientific-information
Les données y sont traitées à travers le prisme “FAIR”, mais on y trouve également une mention de l"open access" des données, toujours selon le principe “as open as possible, as closed as necessary”.
Je trouve que la formulation n’est pas hyper claire (moins que celle du groupe d’experts sur les données…), mais voici ce que prévoient (entre autres choses):

  • le point 3 (politiques que doivent mettre en place les Etats pour le “management of open data, including open access”)

research data that results from publicly funded research becomes and stays findable, accessible, interoperable and re-usable (“FAIR principles”) within a secure and trusted environment, through digital infrastructures […] unless this is not possible or is incompatible with the further exploitation of the research results (“as open as possible, as closed as necessary”). This could be for reasons, in particular, of privacy, trade secrets, national security, legitimate commercial interests and to intellectual property rights of third parties. Any data, know-how and/or information whatever its form or nature which is held by private parties in a joint public/private partnership prior to the research action should not be affected by these policies or national action plans;”

  • et le point 4 (actions que doivent mettre en place les financeurs et les universités dépendants des Etats pour mettre en oeuvre la politique définie au point 3):

including requirements for data management plans and open access to research data as a principle (“as open as possible, as closed as necessary”) for projects producing research data in grant agreements and other financial support for research, together with mechanisms for monitoring compliance with those requirements and follow up actions to correct cases of non-compliance;

L’extrait du point 3 n’est pas très clair grammaticalement car la phrase “This could be for reasons…” précise la restriction “unless this is not possible…” de la phrase précédente. C’est assez mal dit… En plus le principe d’ouverture “as open as possible, as closed as necessary” n’y est mentionné que dans la restriction “unless this is not possible…”, alors que dans le point 4 il est présenté positivement.

Mais bref, l’idée est bien que les données de la recherche doivent être 1/ FAIR et 2/ open-sauf-si-ça-n’est-pas-possible