Certains jeux de données nécessitent d’être anonymisés avant d’être publiés en open data. Voici un outil pour ce faire.
L’AGD a également rassemblé des ressources sur le sujet ici : https://github.com/SGMAP-AGD/anonymisation
Une extension postgresql pour nativement anonymiser une base de données pour les utilisateurs pour qui elle doit l’être
Je remonte le sujet pour signaler l’existence de Cantabular : https://cantabular.com/
C’est notamment ce qu’utilise le Census britannique pour la production de tableaux sur mesure (agrégés donc forcément).
Pas vraiment généralisable en l’état, mais intéressant à connaîtree
En lien avec l’anonymisation… je travaille actuellement sur le floutage de visage et plaques d’immatriculation dans les photos pour le projet Panoramax.
A suivre par exemple ici: Exemples de résultat de floutage - Technique - Forum GéoCommuns
Un modèle dédié a été entraîné avec un millier de photos annotées collaborativement à l’aide du logiciel label-studio.
A partir de cela j’ai codé une API à laquelle on envoie une photo et retour la version floutée.
Afin de ne pas dégrader la qualité de l’image, on procède par remplacement à bas niveau de blocs JPEG (MCU) car une image JPEG est compressée par blocs de 8x8 pixels.
L’image n’est donc pas décompressée/recompressée sauf sur les zones floutées, d’où un gain aussi sur le CPU nécessaire et la préservation à l’identique du reste de l’image.
Un mécanisme de défloutage est possible, en conservant la version originale des zones floutées, mais sans lien permettant de retrouver l’image d’origine d’où elles ont été tirées (hash). Ceci permet de traiter si besoin les faux positifs.
L’API est très performante, et permet sur le serveur de test d’OSM France de flouter de l’ordre de 1 million d’images par jour avec 2 GPU plutôt anciens (GTX1070 et Tesla P4).
Les sujets « floutage » autour de Panoramax sont discutés ici: Sujets avec l'étiquette floutage
Bonjour,
Vous avez connaissance de cas d’usage ou d’expérimentation autour de l’anonymisation/pseudonymisation de texte ? J’ai déjà identifié le Conseil d’Etat et la Cour de Cassation.
De plus, vous avez connaissance de solution informatique sur ce type de besoin ?
Bonjour,
Je profite de la remontée de ce sujet pour mentionner PIMO, qui est open source, permet de manipuler du JSON (et des BDD avec l’outil LINO associé) et est utilisé par France Travail et Groupe La Poste (qui sont dans les contributeurs).
Il fait de l’anonymisation et de la pseudonymisation.
A la fois cas d’usage et outil open source pour la pseudonymisation de textes cliniques français, voici EDS-Pseudo de l’AP-HP : Perceval Wajsbürt on LinkedIn: L'AP-HP publie le premier modèle open-source de pseudonymisation de textes… | 27 comments