Google Dataset search


(Samuel Goëta) #1

Hello,

avez vous vu cette annonce par Google aujourd’hui ?
https://www.blog.google/products/search/making-it-easier-discover-datasets/amp/

Google lance Dataset Search, l’équivalent de Google Scholar, pour découvrir des jeux de données gouvernementaux et publics : https://toolbox.google.com/datasetsearch

J’ai testé, tout le catalogue de data.gouv.fr y est. En revanche, c’est difficile (par exemple sur une requête “subventions”) de distinguer ce qui est publié par les collectivités locales des institutions nationales.

Aussi, dans l’été, Google a annoncé une fonctionnalité qui affiche un extrait des jeux de données publics dans les résultats de recherche : https://www.blog.google/outreach-initiatives/google-news-initiative/making-it-easier-discover-data-search/

Les spécifications techniques sont ici : https://developers.google.com/search/docs/data-types/dataset

Qu’en pensez vous ?


Google lance Google Dataset Search plateforme en ligne d'exploration et recherche de datasets
(CharlesHP) #2

Le site est consultable ici : https://toolbox.google.com/datasetsearch
Après quelques essais sur la France, cela renvoie principalement des données issues de data.gouv.fr et l’indexation n’a pas l’air folle.

Des avis ?


(Samuel Goëta) #3

@CharlesHP J’ai fusionné nos messages postés de manière concomitante :slight_smile:


(Cecile LE GUEN) #4

Alors moi du coup j’ai testé la requête “Opérations coordonnées par les CROSS” qui ne donne aucun résultat alors que le dataset existe bien sur data.gouv.

Ce qui veut dire que le moteur de recherche ne va pas taper tout de suite dans le titre ?
Si je fais une requête sur le producteur, j’ai le même résultat, pas de jeu de donné associé.

Ça serait intéressant de comprendre les conditions de découvrabilité de jeux de données qui à priori, ont la même structure de médadonnées.


(Guillaume Larcher) #5

Comme indiqué dans les spécifications techniques la découverte des datasets repose sur l’utilisation de balises de type linked data dans les métadonnées des datasets.

Avec ce nouveau moteur de recherche je pense que Google cherche à imposer petit à petit le linked data comme la norme pour publier du contenu. L’incentive d’être correctement référencé par le moteur est tellement forte que les producteurs de contenu auront tout intérêt à faire l’effort d’utiliser le linked data dans le balisage de leurs documents.


(Nicolas Bonnel) #6

Je reste un peu sur ma faim avec ce moteur de recherche. data.gouv.fr fait l’effort de publier les métadonnées avec le vocabulaire DCAT au format JSON-LD (qui est celui mentionné dans la spécification de Google). Pas mal d’infos sont disponibles et pas utilisées par Google, comme les liens directs vers les ressources, le producteur des données, …

Pour reprendre l’exemple de @CecileLG, les métadonnées sont bien présentes sur la page et on devrait trouver la page avec la requête, ou même des fragments. Peut être que toutes les données n’ont pas encore été indexées comme le service est récent ?


(Guillaume Larcher) #7

En fait votre exemple est bien référencé : Opérations coordonnées par les CROSS. (Le référencement a du se faire entre temps … )

Par contre il y a beaucoup d’erreurs dans le json-ld du document : structured data testing tool


(nathann) #8

Je trouve que c’est plutôt une bonne nouvelle, et un bon moyen. Au lieu d’avoir 150 000 portails différents ou chaque agglo/pays/organisation liste ses données, ca permet de définir un format un peu standard que tout le monde pourra réutiliser.

Bien sur ca nous fait nourrir Google de nouvelles données qu’ils pourront ensuite valoriser, mais le jsonld intégré à la page reste disponible pour tout le monde.

Je vais joyeusement trouver quelques quarts d’heure pour ajouter cà et là des jsonld, et avec un peu de chance dans quelques mois on aura dépassé la masse critique et on pourra enfin faire de la recherche dans les jeux de données sans tester 140 sites :slight_smile:

Au passage, ils disent bien à plusieurs endroits de leurs posts que c’est une sorte d’expérience, et qu’ils verront au fur et à mesure quelles informations sont utiles à déclarer, lesquelles ne le sont pas, bref qu’ils auront eux aussi des choses à apprendre de ce qui va (ou pas) se produire.

Nathann


(Nicolas Bonnel) #9

Je viens de soumettre un ticket pour les erreurs dans le json-ld généré par data.gouv.


(Joël Gombin) #10

Il semble aussi assez clair que la prochaine étape (et conformément à ce qu’ils ont commencé à déployer sur le search principal) sera d’indexer le contenu même des jeux de données. Ce qui signifie que les gens n’iront plus forcément sur les portails… comme le modèle économique des portails n’est pas publicitaire, ce n’est pas grave, mais ça veut dire aussi, à la marge, une perte de capacité d’éditorialisation dans la manière de communiquer les données de la part des producteurs. Et à côté de ça il est effectivement probable que le JSON-LD se généralise comme format de diffusion des métadonnées. Ça va aussi je pense à terme valoriser la publication de données répondant à des standards reconnus, ce qui me semble plutôt une excellente chose.


(Samuel Goëta) #11

Je pense que les cas où des gens ne vont pas consulter le portail vont rester marginaux car ça ne concerne que les personnes qui cherchent un point de donnée ce que Google fait depuis longtemps très bien avec le public data explorer et le standard Dataset Publishing Language (DSPL), essentiellement pour des données issues d’organisations internationales. Là l’idée est plus de fournir un aperçu du jeu de données et, selon Google, d’aider des chercheurs et des scientifiques à trouver des jeux de données comme Google Scholar. Après, ça peut attirer des gens qui n’ont pas le réflexe d’aller chercher sur les portails open data vers des jeux de données ouverts.


Les données ouvertes au musée