Un peu de carburant pour l'anonymisation: listes de prénoms et noms de famille

cquest · Octobre 14, 2018, 3:05

Je ne suis pas spécialiste de l’anonymisation, mais il me semble que chercher des prénoms et noms de famille doit être un petit peu au coeur du sujet.

Histoire d’avoir du carburant pour cela, j’ai extrait de la base SIRENE une liste de prénoms et une liste de noms de famille (séparées pour… l’anonymisation !).

C’est ici: https://www.data.gouv.fr/fr/datasets/liste-de-prenoms-et-patronymes/

Il y a plus de 200.000 prénoms et 800.000 patronymes avec le nombre d’apparition correspondant. J’ai juste filtrer pour n’avoir que des valeurs uniquement alphabétiques… donc il y a un peu de déchet aussi là dedans malheureusement

Si je trouve d’autres sources, je compléterai.

nathann · Octobre 14, 2018, 3:24

Bonjour,

Si vous voulez des prénoms, vous en aurez aussi un paquet à cette adresse:
https://www.steinertriples.fr/ncohen/data/nominations_JORF/
https://www.steinertriples.fr/ncohen/data/nominations_JORF/all.zip

Avec une petite expression régulière sur ’ nom=".?"’ et ’ prenom=".?"’, vous devriez avoir du stock.

Il y a des erreurs de parsing de temps en temps, mais si vous filtrez d’abord les personnes dont le sexe est déterminé, vous devriez en avoir beaucoup moins

cquest · Octobre 14, 2018, 6:00

Je regarde pour compléter !

Les prénoms c’est encore assez facile, pour les noms de famille ça me semble plus complexe (et utile).

samgoeta · Octobre 14, 2018, 7:04

Super idée !

On sera étonné de voir dans le champ prénom certains des noms de famille les plus courants en France qui ne sont pas des prénoms usuels comme Martin (numéro 1) : Petit : 110 fois, Moreau : 57 fois, Lefebvre : 50 fois, Roux : 66 fois…

nathann · Octobre 14, 2018, 9:40

Aie. Oui, j’ai parfois des problèmes pour détecter des inversions de nom/prénom, en effet. Il y a des écritures non ambigues dans le JO comme Leblanc (Maurice) ou Maurice LEBLANC, mais parfois le standard s’inverse sans prévenir, et j’ai un peu de mal à détecter l’intention de l’auteur ^^;

Nathann

nathann · Octobre 14, 2018, 9:41

Du coup si vous voulez éviter ces erreurs-là, il faudra faire une regexp sur les noms dont l’écriture n’est pas ambigue, comme ces deux-là.

nathann · Octobre 14, 2018, 10:10

Ahah. Je viens d’aller voir ces mauvais hits de prénoms/noms. Je regarde le prénom “Lefebvre” pour lequel j’ai 4 hits en tout, par exemple ici:

https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000034826352
M. Lefebvre de Plinval Salgues (Guillaume), gérant société Huchemouche, NNW Consulting ;
M. Lefebvre de Saint Germain, capitaine de vaisseau de la marine nationale ;

Le prénom apparait dans le premier cas (et il est bien detecté), et comme il n’y en a pas dans le second… Erreur. Même un truc aussi simple qu’identifier le prénom et le nom d’une personne est déjà assez … contextuel

Pour le “prenom” petit (4 hits) il s’agit parfois de noms de jeune fille:
“Maison de retraite de Stenay : Mme Petit Colas-André, attaché de direction au centre hospitalier de Verdun”

Vous parlez de plus gros chiffres, par contre: 110 “Petit”, 57 “Moreau”, 50 “Lefebvre”. Mais je ne trouve pas autant de hits quand j’inspecte le fichier pour y trouver des choses à corriger.

Ca m’intéresse de savoir d’où ils viennent: il y a peut-être des choses qui sont légitimement améliorables (i.e. sans avoir à mettre un humain derrière chaque décret).

Nathann

mathieu · Octobre 15, 2018, 9:01

@nathann Pour ton dernier exemple, je pense que le nom de jeune fille serait “Petit Colas”, qui est un patronyme rare mais existant.

nathann · Octobre 15, 2018, 10:28

Oui, je crois que c’est effectivement une concaténation des noms de ses parents. Un s’appelle “petit colas”, l’autre s’appelle “André” (c’est un nom de famille).

La page ne contient que des noms de famille de toute façon. Et puis “André” pour une femme, c’est rare aussi.

Plus je manipule des données, plus je me fais à l’idée que c’est l’état normal d’une base de données d’être truffée d’erreurs T_T