Outils d'anonymisation des données

joel · Janvier 18, 2018, 6:37

Certains jeux de données nécessitent d’être anonymisés avant d’être publiés en open data. Voici un outil pour ce faire.

joel · Janvier 25, 2018, 9:03

L’AGD a également rassemblé des ressources sur le sujet ici : https://github.com/SGMAP-AGD/anonymisation

joel · Janvier 29, 2023, 7:50

Une extension postgresql pour nativement anonymiser une base de données pour les utilisateurs pour qui elle doit l’être

tvroylandt · Avril 18, 2023, 8:28

Je remonte le sujet pour signaler l’existence de Cantabular : https://cantabular.com/
C’est notamment ce qu’utilise le Census britannique pour la production de tableaux sur mesure (agrégés donc forcément).

Pas vraiment généralisable en l’état, mais intéressant à connaîtree

cquest · Avril 19, 2023, 5:42

En lien avec l’anonymisation… je travaille actuellement sur le floutage de visage et plaques d’immatriculation dans les photos pour le projet Panoramax.

A suivre par exemple ici: Exemples de résultat de floutage - Technique - Forum GéoCommuns

Un modèle dédié a été entraîné avec un millier de photos annotées collaborativement à l’aide du logiciel label-studio.

A partir de cela j’ai codé une API à laquelle on envoie une photo et retour la version floutée.

Afin de ne pas dégrader la qualité de l’image, on procède par remplacement à bas niveau de blocs JPEG (MCU) car une image JPEG est compressée par blocs de 8x8 pixels.
L’image n’est donc pas décompressée/recompressée sauf sur les zones floutées, d’où un gain aussi sur le CPU nécessaire et la préservation à l’identique du reste de l’image.

Un mécanisme de défloutage est possible, en conservant la version originale des zones floutées, mais sans lien permettant de retrouver l’image d’origine d’où elles ont été tirées (hash). Ceci permet de traiter si besoin les faux positifs.

L’API est très performante, et permet sur le serveur de test d’OSM France de flouter de l’ordre de 1 million d’images par jour avec 2 GPU plutôt anciens (GTX1070 et Tesla P4).

Les sujets « floutage » autour de Panoramax sont discutés ici: Sujets avec l'étiquette floutage

DavidG · Septembre 13, 2024, 4:02

Bonjour,

Vous avez connaissance de cas d’usage ou d’expérimentation autour de l’anonymisation/pseudonymisation de texte ? J’ai déjà identifié le Conseil d’Etat et la Cour de Cassation.

De plus, vous avez connaissance de solution informatique sur ce type de besoin ?

nicolas-bonnel · Septembre 30, 2024, 1:58

Bonjour,

Je profite de la remontée de ce sujet pour mentionner PIMO, qui est open source, permet de manipuler du JSON (et des BDD avec l’outil LINO associé) et est utilisé par France Travail et Groupe La Poste (qui sont dans les contributeurs).

Il fait de l’anonymisation et de la pseudonymisation.

Enro · Octobre 10, 2024, 11:30

A la fois cas d’usage et outil open source pour la pseudonymisation de textes cliniques français, voici EDS-Pseudo de l’AP-HP : Perceval Wajsbürt on LinkedIn: L'AP-HP publie le premier modèle open-source de pseudonymisation de textes… | 27 comments