Je cherche un outil qui me permettrait de réaliser des alignements de listes de termes presque similaires.
J’ai une liste de noms de communes avec des noms saisis à la main (donc des variations sur les Saint/ St, tirets ou pas tiret) en majuscules non accentuées et je voudrais remplacer ces noms par les noms issus de la liste officielle des communes.
Pour avoir un tout petit peu travaillé sur des alignements de thésaurus. Je sais qu’il existe des outils comme OnAGUI qui font ça automatiquement, en indiquant un score de fiabilité du résultat. Mais ça ne fonctionne que sur des ontologies hiérarchisées (skos et owl)…
Est-ce que vous auriez des outils en tête ou des solutions ? Est-ce qu’open refine permet de le faire ?
Oui j’allais dire OpenRefine + Wikidata est très adapté à ce besoin. C’est la fonction de « réconciliation » qui va t’aider ici.
La doc officielle :
Il y a plein de tutoriels et vidéos sur Internet et une énorme communauté de très bon conseil sur les forums, Twitter, Telegram… y compris en français !
Vous n’avez pas le code INSEE de la commune ? C’est l’idéal pour retrouver les libellés officiels.
Attention, l’API adresses n’a pas été conçue pour ce type de recherches et peut parfois retourner des résultats surprenants même si ça fonctionne globalement bien.
Non, c’est là le souci… dans le fichier, il n’y a pas le code INSEE. Je voulais apporter deux améliorations : intégrer le code INSEE et nous aligner sur le référentiel des communes (pour corriger les erreurs de saisie).
J’avais déjà utilisé l’api adresse l’année dernière pour ajouter la latitude et la longitude sur un autre fichier. Mais comme je n’avais que ça en tête à l’époque, je n’avais pas retenu que ça pouvait permettre d’autres corrections…
Le résultat que j’obtiens sur les communes de mon fichier en passant par l’API est a priori plutôt bon. Mais il faut que je regarde plus longuement pour repérer les éventuelles erreurs.