Je ne suis pas spécialiste de l’anonymisation, mais il me semble que chercher des prénoms et noms de famille doit être un petit peu au coeur du sujet.
Histoire d’avoir du carburant pour cela, j’ai extrait de la base SIRENE une liste de prénoms et une liste de noms de famille (séparées pour… l’anonymisation !).
Il y a plus de 200.000 prénoms et 800.000 patronymes avec le nombre d’apparition correspondant. J’ai juste filtrer pour n’avoir que des valeurs uniquement alphabétiques… donc il y a un peu de déchet aussi là dedans malheureusement
Avec une petite expression régulière sur ’ nom=".?"’ et ’ prenom=".?"’, vous devriez avoir du stock.
Il y a des erreurs de parsing de temps en temps, mais si vous filtrez d’abord les personnes dont le sexe est déterminé, vous devriez en avoir beaucoup moins
On sera étonné de voir dans le champ prénom certains des noms de famille les plus courants en France qui ne sont pas des prénoms usuels comme Martin (numéro 1) : Petit : 110 fois, Moreau : 57 fois, Lefebvre : 50 fois, Roux : 66 fois…
Aie. Oui, j’ai parfois des problèmes pour détecter des inversions de nom/prénom, en effet. Il y a des écritures non ambigues dans le JO comme Leblanc (Maurice) ou Maurice LEBLANC, mais parfois le standard s’inverse sans prévenir, et j’ai un peu de mal à détecter l’intention de l’auteur ^^;
Le prénom apparait dans le premier cas (et il est bien detecté), et comme il n’y en a pas dans le second… Erreur. Même un truc aussi simple qu’identifier le prénom et le nom d’une personne est déjà assez … contextuel
Pour le “prenom” petit (4 hits) il s’agit parfois de noms de jeune fille:
“Maison de retraite de Stenay : Mme Petit Colas-André, attaché de direction au centre hospitalier de Verdun”
Vous parlez de plus gros chiffres, par contre: 110 “Petit”, 57 “Moreau”, 50 “Lefebvre”. Mais je ne trouve pas autant de hits quand j’inspecte le fichier pour y trouver des choses à corriger.
Ca m’intéresse de savoir d’où ils viennent: il y a peut-être des choses qui sont légitimement améliorables (i.e. sans avoir à mettre un humain derrière chaque décret).
Oui, je crois que c’est effectivement une concaténation des noms de ses parents. Un s’appelle “petit colas”, l’autre s’appelle “André” (c’est un nom de famille).
La page ne contient que des noms de famille de toute façon. Et puis “André” pour une femme, c’est rare aussi.
Plus je manipule des données, plus je me fais à l’idée que c’est l’état normal d’une base de données d’être truffée d’erreurs T_T