Outils d'anonymisation des données

Certains jeux de données nécessitent d’être anonymisés avant d’être publiés en open data. Voici un outil pour ce faire.

8 « J'aime »

L’AGD a également rassemblé des ressources sur le sujet ici : https://github.com/SGMAP-AGD/anonymisation

2 « J'aime »

Une extension postgresql pour nativement anonymiser une base de données pour les utilisateurs pour qui elle doit l’être

3 « J'aime »

Je remonte le sujet pour signaler l’existence de Cantabular : https://cantabular.com/
C’est notamment ce qu’utilise le Census britannique pour la production de tableaux sur mesure (agrégés donc forcément).

Pas vraiment généralisable en l’état, mais intéressant à connaîtree

En lien avec l’anonymisation… je travaille actuellement sur le floutage de visage et plaques d’immatriculation dans les photos pour le projet Panoramax.

A suivre par exemple ici: Exemples de résultat de floutage - Technique - Forum GéoCommuns

Un modèle dédié a été entraîné avec un millier de photos annotées collaborativement à l’aide du logiciel label-studio.

A partir de cela j’ai codé une API à laquelle on envoie une photo et retour la version floutée.

Afin de ne pas dégrader la qualité de l’image, on procède par remplacement à bas niveau de blocs JPEG (MCU) car une image JPEG est compressée par blocs de 8x8 pixels.
L’image n’est donc pas décompressée/recompressée sauf sur les zones floutées, d’où un gain aussi sur le CPU nécessaire et la préservation à l’identique du reste de l’image.

Un mécanisme de défloutage est possible, en conservant la version originale des zones floutées, mais sans lien permettant de retrouver l’image d’origine d’où elles ont été tirées (hash). Ceci permet de traiter si besoin les faux positifs.

L’API est très performante, et permet sur le serveur de test d’OSM France de flouter de l’ordre de 1 million d’images par jour avec 2 GPU plutôt anciens (GTX1070 et Tesla P4).

Les sujets « floutage » autour de Panoramax sont discutés ici: Sujets avec l'étiquette floutage

3 « J'aime »