Guide commun CNIL et CADA open data / RGPD

cada
rgpd
cnil
opendata

(Joël Gombin) #1

La CNIL et la CADA ont publié il y a quelques jours leur “guide pratique de la publication en ligne et de la réutilisation des données publiques” (et proposent dans la foulée une consultation publique sur ce document).

Fiche de lecture de ce document :

  • Etalab est mentionné comme ayant été associé à la rédaction de ce document.
  • Le document fait un rappel du droit de l’open data. Rien de neuf ici, mais il donne une définition des “bases de données” (visées à l’article L312-1-1 du CRPA) :

On entend par base de données un recueil d’œuvres, de données ou d’autres éléments indépendants, disposés de manière systématique ou méthodique, et individuellement accessibles par des moyens électroniques ou par tout autre moyen (art L112-3 du code de la propriété intellectuelle)

En, d’autres termes il s’agit d’un ensemble de données organisé en vue de son utilisation par des programmes correspondant à des applications distinctes et de manière à faciliter l’évolution indépendante des données et des programmes (en anglais : data base)

  • Le document donne également une définition de ce qu’est une “donnée” (visée au même article : “les données, mises à jour de façon régulière, dont la publication présente un intérêt économique, social, sanitaire ou environnemental”) :

Une donnée correspond à la représentation d’une information sous une forme conventionnelle destinée à faciliter son traitement (en anglais : data).

  • Rappel : les mentions portant une appréciation ou un jugement de valeur sur une personne physique, nommément désignée ou aisément identifiable, doivent être occultée avant publication d’un document administratif. Ainsi par exemple des éléments de rémunération individuelle variable d’un agent public. Mais l’existence de ces mentions ne fait pas par principe obstacle à la publication du document, dès lors qu’elles sont occultées. Par ailleurs, il peut y avoir des couvertures légales pour la publication de ces mentions (exemples : résultats du baccalauréat).

  • De même, les mentions “faisant apparaître le comportement d’une personne, dès lors que la divulgation de ce comportement pourrait lui porter préjudice” doivent être occultées. Ex : arrêté de fermeture administrative d’un établissement.

  • L’administration n’est pas tenue de publier un document lorsque “les travaux d’occultation dénatureraient ou videraient de sens le document” ou si “le document est indivisible ou l’occultation est trop complexe”.

  • Lorsqu’on a d’un côté une obligation de publication d’un document, et de l’autre un secret légal ou une mention non publiable, la question de savoir si l’obligation de publication fait sauter ces obstacles doit s’apprécier au cas par cas, en fonction de l’intention du législateur (ou du pouvoir réglementaire) de lever ou non le secret. Exemples de cas où la loi/règlementation fait sauter ces obstacles :

    • les dispositions du CGCT sur la communicabilité des PV, délibérations, budgets, comptes et arrêtés des collectivités. Intéressant car certaines directions juridiques des collectivités ont soulevé par exemple le secret des affaires pour s’opposer à la publication de certaines subventions. Or clairement ici la CADA et la CNIL nous disent que

      L’ensemble des documents qui relèvent de ces dispositions est intégralement communicable à toute personne et donc publiable en ligne, sans qu’il y ait lieu d’occulter les mentions qui seraient couvertes par l’un des secrets prévus à l’article L. 311-6 du CRPA.

    • La jurisprudence est même convoquée (CE 10 mars 2010, commune de Sète) pour écarter le secret des affaires comme obstacle.
    • L’information environnementale (art L124-1 du Code de l’environnement) : le régime est complexe (je vous renvoie au détail si cela vous intéresse), mais le point intéressant est qu’en matière d’informations environnementales (dont la définition est très large),

      l’administration peut donc décider de communiquer une information relative à l’environnement si elle l’estime opportun, alors même qu’un des motifs énumérés ci-dessus pourrait légalement justifier un refus de communication. Il lui appartient par suite, à l’occasion de chaque saisine, de procéder à un bilan coûts-avantages de la publication au regard des différents intérêts en présence.

    • Sont, en outre, soumises à une obligation de transparence renforcée, les informations relatives à des émissions de substance dans l’environnement et celles relatives au nucléaire. Dans ce cas, les seuls obstacles invocables sont : la conduite de la politique extérieure de la France, à la sécurité publique ou à la défense nationale ; le déroulement des procédures juridictionnelles ou à la recherche d’infractions pouvant donner lieu à des sanctions pénales ; des droits de propriété intellectuelle.
  • S’agissant des droits de propriété littéraire ou artistique qui peuvent peser sur un document administratif, ils peuvent faire obstacle à sa publication. Toutefois, il est précisé que

    le droit de divulgation dont dispose un agent public sur un document administratif ne saurait faire obstacle au droit d’accès prévu par le titre Ier du livre III du CRPA. L’administration n’a donc pas à requérir l’autorisation préalable de l’agent public, ou le cas échéant de ses ayants droit, avant de procéder à la communication ou à la publication du document.

    Il est toujours souhaitable de déterminer contractuellement l’étendue des droits cédés entre l’administration et un tiers auquel une commande d’une œuvre de l’esprit est passée et d’y inclure, pour l’administration, le respect de ses obligations de publication en application du titre I livre III du code des relations entre le public et l’administration.

S’agissant de l’articulation open data/données personnelles, on peut retenir les éléments suivants :

  • Tout d’abord, la prohibition de la communication à des tiers et donc la non publication ne porte pas sur les données personnelles en général, mais bien sur les données à caractère personnel relevant de la vie privée des personnes concernées . Exemple : date de naissance, âge, coordonnées personnelles, situation patrimoniale et financière, la qualité de travailleur handicapé, la formation initiale, les horaires de travail, les sympathies politiques, les croyances religieuses…
  • Dès lors, " Certains documents administratifs comportent des données personnelles qui ne sont pas couvertes en tant que telles par le secret de la vie privée ". Notamment le nom et le prénom . Un document nominatif n’est donc pas, par principe, non communicable. Pour qu’il le soit il faut qu’il comporte des éléments relevant de la vie privée et que la personne concernée soit identifiable.
  • De plus, certains objectifs d’intérêt général prévalent sur la protection de la vie privée. Plus précisément, " les données dont on estime que le public doit avoir connaissance, soit au titre de l’organisation du service public, soit afin de pouvoir exercer pleinement son droit de recours " ne sont pas couvertes par la protection de la vie privée. Exemples : arrêté de nomination d’un employé municipal, mentions relatives au nom et à l’adresse du bénéficiaire d’une autorisation d’urbanisme, informations librement consignées par des personnes renseignant un registre d’enquête publique.
  • Cependant, si ces objectifs d’intérêt général permettent la communication de ces données à toutes personnes qui en fait la demande, par principe, la diffusion de données à caractère personnel en ligne est proscrite . Ces documents doivent nécessairement faire l’objet d’une anonymisation préalablement à leur publication en ligne.
  • Trois hypothèses néanmoins permettent la publication en ligne de données à caractère personnel sans anonymisation :
    • une disposition législative contraire (“couverture législative”)
    • si les personnes intéressées ont donné leur accord (consentement au sens de l’article 4 du RGPD)
    • les documents relevant de l’article D312-3-1 du CRPA (le fameux décret de décembre dernier). Le document précise : “La CADA et la CNIL s’accordent
      pour considérer que dans la mesure où la diffusion sans anonymisation ne constitue qu’une faculté pour les administrations, l’opportunité d’une telle diffusion devrait être appréciée au regard de l’intérêt du public à connaître de données revêtant un caractère personnel et des risques corrélatifs d’atteinte à la vie privée des personnes.” Un exemple est donné : " Une anonymisation partielle des organigrammes et annuaires des administrations devrait être envisagée s’agissant de données relatives à l’identité de certains agents ".
  • Le document permet aussi de préciser ce qu’il faut entendre par anonymisation . Deux principes :
    • les données ne doivent plus se référer à une personne réelle (exit les noms, identifiants etc.).
    • les données ne doivent plus être spécifiques à un individu mais communes à un ensemble de personnes.
  • Trois critères d’appréciation :
    • l’individualisation : est-il toujours possible d’isoler un individu ?
    • la corrélation : est-il possible de relier entre eux des ensembles de données distincts concernant un même individu ?
    • l’inférence : peut-on déduire de l’information sur un individu ?
  • “Un ensemble de données pour lequel au moins un des trois critères n’est pas respecté ne pourra être considéré comme anonyme qu’à la suite d’une analyse détaillée des risques de ré-identification.” => le respect strict des trois critères n’est pas nécessaire dès lors qu’on peut prouver que la réidentification n’est pas possible.
  • Ensuite on rentre dans ce qui est controversé de mon point de vue : l’indexation des données identifiantes. Le document estime que l’indexation de ces données est possible (en clair, proposer un moteur de recherche) mais que l’indexation par un moteur de recherche externe devrait être proscrite . La justification avancée est que " toute consultation d’informations diffusées en open data doit résulter d’une démarche volontaire des internautes depuis les plateformes dédiées à l’ouverture des données ". Je suis preneur de l’avis des membres de ce forum sur ce point, @cquest a d’ailleurs commencé à soulever le débat.

Enfin, la dernière partie aborde les modalités de diffusion en ligne de données à caractère personnel. En effet, lorsque cette diffusion est autorisée, elle doit se faire dans le respect du RGPD, car cette diffusion en ligne constitue un “traitement” au sens du RGPD. Principes à respecter :

  • information des personnes concernées (au moment de la collecte des données, et au moment de leur diffusion) => ce qui mine de rien n’est pas forcément simple. Par exemple l’ensemble des candidats au baccalauréat sont-ils prévenus de la publication en ligne des résultats de l’examen ?
  • droit d’opposition des personnes concernées (art 21 du RGPD). Mais l’administration n’est pas nécessairement tenu de faire droit à une demande de retrait, si un motif légitime et impérieux supérieur prévalent sur les intérêts et les droits et libertés de la personne concernée. Ex : “dans le cadre de la publication de son organigramme en ligne, une administration pourra refuser de faire droit à une demande d’opposition qui serait formulée par un agent occupant des fonctions nécessitant que son identité soit portée à la connaissance du public”.
  • exactitude des données (art 5 du RGPD). Le document incite ici à l’usage d’API pour s’assurer de la fraîcheur des données.

Le format de diffusion : le document rappelle ici les exigences de la LRN (format ouvert, lisible machine, etc.), et précise que, dans le respect de ces principes, l’administration n’est pas liée par le souhait du demandeur quant au choix du format à retenir.
La CNIL et la CADA précisent ensuite que l’accès à des données ouvertes ne peut être soumise à création préalable d’un compte personnel, mais se contredit immédiatement en disant que “si l’administration peut soumettre l’accès à l’ouverture d’un compte personnel, c’est seulement à la condition que la création de ce compte soit générée automatiquement, sans validation ou intervention de sa part.” De quoi remettre une pièce dans le jukebox du débat sur les API ?

Le document rappelle que l’administration n’est pas tenue de proposer une licence pour un jeu de données, même s’il est pédagogiquement souhaitable de le faire. Néanmoins, dans le cas où les données sont mises à disposition à titre onéreux, il est obligatoire de fixer une licence. Il est possible de proposer des licences différentes, par exemple pour une mise à disposition à titre gratuit et une mise à disposition à titre onéreux.

S’agissant de la réutilisation des informations publiques, la liberté est le principe, mais s’y opposent :

  • les droits de PI d’une personne privée ou publique exploitant un SPIC soumis à la concurrence (ex : EDF)
  • les droits de PI détenus par des tiers. Ces tiers peuvent, le cas échéant, être des agents publics. Dans ce cas, l’administration indique l’identité des tiers détenteurs de ces droits de PI à la personne souhaitant réutiliser l’information publique.
  • le paiement d’une redevance pour l’accès à certaines données : hypothèse encore autorisé pour certains cas (administrations dont l’activité principale consiste en la production et la mise à disposition d’informations publiques et qui financent cette dernière à + de 25% de leurs recettes propres, ex IGN ou INSEE ; certaines administrations relevant de l’Etat, selon une liste de jeux de données fixée par décret - actuellement cela ne concerne que l’IGN, Meteo France et le SHOM ; les informations issues des opérations de numérisation des collections des bibliothèques, musées et archives). Depuis le 1er janvier 2017 l’INSEE et les services statistiques ministériels ne peuvent plus demander de redevance.

Un principe général est posé : Sauf accord exprès de l’administration détentrice, la réutilisation des informations publiques est soumise à la condition que ces dernières ne soient pas altérées, que leur sens ne soit pas dénaturé et que leurs sources et la date de leur dernière mise à jour soient mentionnées .

La réutilisation d’informations publiques ne peut par principe faire l’objet d’un droit d’exclusivité, sauf lorsque celle-ci est nécessaire à l’exercice d’une mission de service public .

Lorsque un document contenant des données personnelles a été licitement diffusé selon les conditions rappelées ci-dessus, le RGPD n’impose plus le recueil du consentement, l’anonymisation, ou de s’appuyer sur une disposition explicite permettant la réutilisation.

Mais le réutilisateur des données devient lui-même responsable de traitement au sens du RGPD. Dès lors ce traitement doit être conforme au RGPD, et être :

  • licite : une base légale doit être fournie à l’appui du traitement, qui pourra être le consentement, la nécessité de l’exécution d’une mission d’intérêt public ou relevant de l’autorité publique, ou la nécessité aux fins des intérêts légitimes poursuivis par le responsable de traitement. Par exemple, une réutilisation à des fins de prospection commerciale à caractère professionnel (B to B) pourra être fondée sur l’intérêt légitime dès lors que celui-ci est démontré au regard de l’activité du responsable de traitement et des finalités poursuivies et que les intérêts des personnes concernées ne prévalent pas.
  • poursuivre une finalité qui doit être déterminée explicite et légitime . De plus le traitement ne doit pas rendre les données plus identifiantes que les données originelles si cette réidentification n’est pas nécessaire à la finalité poursuivie ou si elle est suceptible de porter préjudice aux personnes concernées.
  • porter sur des données adéquates pertinentes et proportionnées.
  • porter sur des données mises à jour (le document rappelle ici l’intérêt des API à cet égard)
  • être effectuée en toute transparence . “tout traitement de donnée à caractère personnel issu d’une réutilisation devra être accompagné d’une information générale comprenant les mentions mentionnées à l’article 14 du RGPD. Par ailleurs, lorsqu’elle est possible et qu’elle n’exige pas d’efforts disproportionnés l’information devra être délivrée directement aux personnes concernées. Ainsi par exemple lorsque les données visées par la réutilisation ne permettent pas d’identifier directement les
    personnes concernées, une information générale pourra suffire”.
  • être effectuée dans le respect des droits des personnes . opposition, accès et rectification, limitation, et le cas échéant portabilité si le traitement est fondé sur le consentement.
  • respecter le principe de limitation de conservation des données : la durée de conservation doit être déterminée et appropriée au regard de la finalité du traitement. À l’issue du traitement, les données doivent être isolées, et archivées si cela se justifie, ou détruites.
  • garantir la sécurisation des données .