Découvrabilité : un nouveau moteur de recherche pour data.gouv.fr

Antonin_Garrone · Décembre 16, 2021, 3:53

Bonjour à toutes et tous,
Pour faciliter vos recherches de données nous avons travaillé ces dernières semaines sur un nouveau moteur de recherche. Vos retours nous seront précieux.

Bonne recherche !

cquest · Décembre 16, 2021, 4:09

Test rapide, avec une bonne pertinence des résultats.

Conservez-vous traces du rang de la réponse quand l’utilisateur l’a choisie ? (ou l’absence de choix, la saisie qui continue, etc)

Un boost des jeux de données couvrant les plus grandes emprises (ou de plus grande volumétrie) serait intéressant.
Exemple: quand je cherche « résultats élections législatives » j’ai des résultats locaux proposés avant le fichier national alors que rien dans le libellé (à part l’ordre des mots) ne devrait faire préférer des résultats locaux.

Enro · Décembre 16, 2021, 4:23

Sur les acronymes / mots courts, le moteur de recherche semble vouloir à tout prix augmenter le nombre de résultats en essayant d’autres combinaisons de lettres.

Exemple : je cherche « ZNT » (= zone de non traitement, en agriculture) et le moteur retourne 67 résultats : les deux premiers sont pertinents, les autres résultats mélangent MNT (= modèle numérique de terrain), ENT (= environnement numérique de travail) et ZNI (= zones non interconnectées) qui n’ont rien à voir.

Impact : ce comportement apporte plus de bruit que de signal.

GuillaumeD · Décembre 16, 2021, 4:48

L’obtention des résultats est très rapide, ils sont mis à jour en temps réel.
Est-ce que cela ne va pas vous poser des problèmes de performance ?

Est-ce que l’on peut chercher des organisations, ou est-ce seulement pour les jeux de données ?

Je suis d’accord, la hiérarchisation est très importante.

Lorsque les mots cherchés sont dans le titre, il devrait y avoir plus d’importance que lorsqu’ils sont dans la description.
exemple : les premiers résultats sont (selon moi) moins pertinents que la BNLS qui arrive en 8ème

Vous pouvez tester d’autres critères, comme acteurs nationaux>locaux (qui publient souvent des extraits de bases plus larges), tenir compte du nombre d’entrées, de réutilisations, de likes…
Ces paramètres pourraient aussi être utilisés dans un mode avancé, pour filtrer les résultats de la recherche…

C’est elasticsearch

Antonin_Garrone · Décembre 16, 2021, 5:15

Merci pour ces premiers retours !

Pour la recherche nous vérifions que tous les termes ensemble sont présents dans le titre, la description, l’organisation ou le sigle (le titre et le sigle ont un poids plus important que la description et l’orga). En suite nous classons les résultats de recherche selon un certain nombre de critères, par exemple :

• si l’organisation est un service public
• du nb de vues du dataset
• du nb de followers du dataset
• du nb de followers de l’organisation

Les poids de ces différents critères ne sont pas figés dans le marbre et seront ajustés selon les retours

EstelleM · Décembre 17, 2021, 10:32

Merci pour les différents retours !

Les différents tests de charge mené nous laissent confiants quant aux temps de réponse du moteur.

Pour l’instant nous testons en priorité la recherche de jeux de données, mais nous sommes aussi en train de travailler sur la recherche d’organisation.