Outil d'alignement de listes de termes proches

Bonjour,

Je cherche un outil qui me permettrait de réaliser des alignements de listes de termes presque similaires.
J’ai une liste de noms de communes avec des noms saisis à la main (donc des variations sur les Saint/ St, tirets ou pas tiret) en majuscules non accentuées et je voudrais remplacer ces noms par les noms issus de la liste officielle des communes.

Pour avoir un tout petit peu travaillé sur des alignements de thésaurus. Je sais qu’il existe des outils comme OnAGUI qui font ça automatiquement, en indiquant un score de fiabilité du résultat. Mais ça ne fonctionne que sur des ontologies hiérarchisées (skos et owl)…

Est-ce que vous auriez des outils en tête ou des solutions ? Est-ce qu’open refine permet de le faire ?

Oui j’allais dire OpenRefine + Wikidata est très adapté à ce besoin. :+1: C’est la fonction de « réconciliation » qui va t’aider ici.

La doc officielle :

Il y a plein de tutoriels et vidéos sur Internet et une énorme communauté de très bon conseil sur les forums, Twitter, Telegram… y compris en français !

Sinon si ce sont uniquement des noms de communes, vous pouvez aussi utiliser :
https://api-adresse.data.gouv.fr/search/?q=st%20quentin&type=municipality
et si vous avec un cp en plus le résultat sera meilleur.
Le résultat contient une sorte de score de matching.

oui j’ai un code postal
merci !

super, merci !
je vais m’y mettre !

Vous n’avez pas le code INSEE de la commune ? C’est l’idéal pour retrouver les libellés officiels.

Attention, l’API adresses n’a pas été conçue pour ce type de recherches et peut parfois retourner des résultats surprenants même si ça fonctionne globalement bien.

Non, c’est là le souci… dans le fichier, il n’y a pas le code INSEE. Je voulais apporter deux améliorations : intégrer le code INSEE et nous aligner sur le référentiel des communes (pour corriger les erreurs de saisie).

J’avais déjà utilisé l’api adresse l’année dernière pour ajouter la latitude et la longitude sur un autre fichier. Mais comme je n’avais que ça en tête à l’époque, je n’avais pas retenu que ça pouvait permettre d’autres corrections…

Le résultat que j’obtiens sur les communes de mon fichier en passant par l’API est a priori plutôt bon. Mais il faut que je regarde plus longuement pour repérer les éventuelles erreurs.

Merci pour la précision !

Pour améliorer les résultats:

  • désactiver l’autocomplétion
  • ajouter le code postal quand on l’a en filtre
  • limiter à 1 résultat (il ne devrait pas y en avoir plus)
  • si l’on n’a pas de réponse, retirer le filtre sur le code postal

En gros la première requête a cette tête:

https://api-adresse.data.gouv.fr/search/?type=municipality&autocomplete=0&limit=1&postcode=02100&q=st%20quentain

super, merci !