Google Dataset search

Hello,

avez vous vu cette annonce par Google aujourd’hui ?
https://www.blog.google/products/search/making-it-easier-discover-datasets/amp/

Google lance Dataset Search, l’équivalent de Google Scholar, pour découvrir des jeux de données gouvernementaux et publics : https://toolbox.google.com/datasetsearch

J’ai testé, tout le catalogue de data.gouv.fr y est. En revanche, c’est difficile (par exemple sur une requête “subventions”) de distinguer ce qui est publié par les collectivités locales des institutions nationales.

Aussi, dans l’été, Google a annoncé une fonctionnalité qui affiche un extrait des jeux de données publics dans les résultats de recherche : https://www.blog.google/outreach-initiatives/google-news-initiative/making-it-easier-discover-data-search/

Les spécifications techniques sont ici : https://developers.google.com/search/docs/data-types/dataset

Qu’en pensez vous ?

2 Likes

Le site est consultable ici : https://toolbox.google.com/datasetsearch
Après quelques essais sur la France, cela renvoie principalement des données issues de data.gouv.fr et l’indexation n’a pas l’air folle.

Des avis ?

@CharlesHP J’ai fusionné nos messages postés de manière concomitante :slight_smile:

1 Like

Alors moi du coup j’ai testé la requête « Opérations coordonnées par les CROSS » qui ne donne aucun résultat alors que le dataset existe bien sur data.gouv.

Ce qui veut dire que le moteur de recherche ne va pas taper tout de suite dans le titre ?
Si je fais une requête sur le producteur, j’ai le même résultat, pas de jeu de donné associé.

Ça serait intéressant de comprendre les conditions de découvrabilité de jeux de données qui à priori, ont la même structure de médadonnées.

1 Like

Comme indiqué dans les spécifications techniques la découverte des datasets repose sur l’utilisation de balises de type linked data dans les métadonnées des datasets.

Avec ce nouveau moteur de recherche je pense que Google cherche à imposer petit à petit le linked data comme la norme pour publier du contenu. L’incentive d’être correctement référencé par le moteur est tellement forte que les producteurs de contenu auront tout intérêt à faire l’effort d’utiliser le linked data dans le balisage de leurs documents.

Je reste un peu sur ma faim avec ce moteur de recherche. data.gouv.fr fait l’effort de publier les métadonnées avec le vocabulaire DCAT au format JSON-LD (qui est celui mentionné dans la spécification de Google). Pas mal d’infos sont disponibles et pas utilisées par Google, comme les liens directs vers les ressources, le producteur des données, …

Pour reprendre l’exemple de @CecileLG, les métadonnées sont bien présentes sur la page et on devrait trouver la page avec la requête, ou même des fragments. Peut être que toutes les données n’ont pas encore été indexées comme le service est récent ?

En fait votre exemple est bien référencé : Opérations coordonnées par les CROSS. (Le référencement a du se faire entre temps … )

Par contre il y a beaucoup d’erreurs dans le json-ld du document : structured data testing tool

1 Like

Je trouve que c’est plutôt une bonne nouvelle, et un bon moyen. Au lieu d’avoir 150 000 portails différents ou chaque agglo/pays/organisation liste ses données, ca permet de définir un format un peu standard que tout le monde pourra réutiliser.

Bien sur ca nous fait nourrir Google de nouvelles données qu’ils pourront ensuite valoriser, mais le jsonld intégré à la page reste disponible pour tout le monde.

Je vais joyeusement trouver quelques quarts d’heure pour ajouter cà et là des jsonld, et avec un peu de chance dans quelques mois on aura dépassé la masse critique et on pourra enfin faire de la recherche dans les jeux de données sans tester 140 sites :slight_smile:

Au passage, ils disent bien à plusieurs endroits de leurs posts que c’est une sorte d’expérience, et qu’ils verront au fur et à mesure quelles informations sont utiles à déclarer, lesquelles ne le sont pas, bref qu’ils auront eux aussi des choses à apprendre de ce qui va (ou pas) se produire.

Nathann

1 Like

Je viens de soumettre un ticket pour les erreurs dans le json-ld généré par data.gouv.

2 Likes

Il semble aussi assez clair que la prochaine étape (et conformément à ce qu’ils ont commencé à déployer sur le search principal) sera d’indexer le contenu même des jeux de données. Ce qui signifie que les gens n’iront plus forcément sur les portails… comme le modèle économique des portails n’est pas publicitaire, ce n’est pas grave, mais ça veut dire aussi, à la marge, une perte de capacité d’éditorialisation dans la manière de communiquer les données de la part des producteurs. Et à côté de ça il est effectivement probable que le JSON-LD se généralise comme format de diffusion des métadonnées. Ça va aussi je pense à terme valoriser la publication de données répondant à des standards reconnus, ce qui me semble plutôt une excellente chose.

Je pense que les cas où des gens ne vont pas consulter le portail vont rester marginaux car ça ne concerne que les personnes qui cherchent un point de donnée ce que Google fait depuis longtemps très bien avec le public data explorer et le standard Dataset Publishing Language (DSPL), essentiellement pour des données issues d’organisations internationales. Là l’idée est plus de fournir un aperçu du jeu de données et, selon Google, d’aider des chercheurs et des scientifiques à trouver des jeux de données comme Google Scholar. Après, ça peut attirer des gens qui n’ont pas le réflexe d’aller chercher sur les portails open data vers des jeux de données ouverts.

1 Like

Google vient d’annoncer que Dataset Search sortait de sa version beta : https://www.blog.google/products/search/discovering-millions-datasets-web/

A mettre en parallèle d’autres évolutions notables pour comprendre vers où tout cela tend :

  • Data Commons, une initiative de Google pour diffuser des données structurées plus facilement exploitables en s’appuyant comme pour Dataset Search sur schema.org. C’est donc dans la continuité et dans la même logique de SEO. Data Commons est carrément présenté comme un « projet communautaire », voire un « effort communautaire », où il suffirait aux providers de respecter leur vocabulaire pour être moissonné et stocké gratuitement chez eux (Google Cloud Platform).
  • Google Cloud Public Datasets, des jeux de données open data déjà redistribués dans le cloud de Google. On parle de données volumineuses (imagerie satellite, génome…) et de fournisseurs dont la publication sans friction pour leurs utilisateurs n’est clairement pas le forte. Dans cette logique, les jeux de données sont un produit, une commodité qui ajoutent de la valeur aux services offerts dans le cloud (stockage, calcul, notebooks…).
  • Amazon qui détient près de 50 % des parts de marché mondial du cloud (Azure 15 %, GCP 5 %), fait aussi de l’openwashing pour marketer encore mieux leur offre : Open Data on AWS. Ils proposent même depuis peu un Data Exchange où n’importe qui peut distribuer et monétiser des jeux de données, directement utilisables dans le vaste écosystème AWS.
4 Likes

Pour Amazon, je connais surtout leur hébergement (gratuit) public datasets

https://registry.opendata.aws/

On y trouve des dataset énormes… en volume mais aussi en potentielles réutilisations

Ma dernière trouvaille c’est Common Crawl: https://registry.opendata.aws/commoncrawl/

25 milliards de pages web, de quoi faire votre [email protected]… si vous avez un peu d’espace disque dispo (234To pour la version de décembre).

3 Likes

Oui c’est ce que l’équipe Camembert a utilisé pour entraîner son modèle https://twitter.com/inriaparisnlp/status/1193462288382074881?lang=fr

Je ne sais pas si c’est une conséquence de Dataset Search mais je découvre que Google indique désormais le nombre d’enregistrements dans certains jeux de données directement dans les résultats de recherche. Super utile comme indication du niveau de précision d’un jeu de données.

C’est étrange car les métadonnées de ce site ne semblent pas du tout indexées par Google : https://datasetsearch.research.google.com/search?query=site%3Ahttps%3A%2F%2Fwww.marinetraffic.com%2F

Et pour cause, les pages du site n’utilisent pas le markup Dataset (exemple).

Les voies de Google sont impénétrables…

https://decryptageo.fr/moteurs-de-recherche-de-donnees-parkings-montpellier/

Article partant d’une idée intéressante (prendre le point de vue d’un utilisateur de données avec un besoin réel et suivre son parcours), malheureusement avec un diagnostic et une analyses incorrects.

En deux mots-clés, vais-je pouvoir trouver la base de données localisant tous les parkings de Montpellier ? C’est bien la promesse de Google Dataset Search,

Il faut déjà préciser que Google trouvera ces données sur les parkings de Montpellier à deux conditions : 1) si elles existent (duh), et 2) si elles sont découvrables, c’est à dire diffusées et décrites de façon structurée en respectant les standards du web.

Les pages citées dans l’article (celle-ci par exemple) référence une page qui n’existe plus. Plutôt que d’en tirer une quelconque conclusion sur Google, j’en retiens surtout que BRGM ferait bien de nettoyer son catalogue (la page en question n’a pas été mise à jour depuis… 2013). J’ai quand même pris le temps de signaler le lien cassé par le biais du formulaire de contact et j’ai reçu cette réponse du BRGM :

Le Géocatalogue est constitué par moissonnage des catalogues des adhérents au projet.
Votre signalement a été transmis au catalogue d’où est issue cette métadonnée : Occitanie Pyrénées en Intelligence Géomatique (OpenIG http://www.siglr.org/).

Pareil pour cette page où une page a été créée mais aucune donnée publiée, mettant sur une fausse piste les moteurs de recherche et donc les utilisateurs.

Dans ces deux cas, les sites font leur boulot : se rendre découvrable des utilisateurs à travers les moteurs de recherche et exposer les informations telles que renseignées par les producteurs.

A quel moment ça foire alors ?

Le phénomène est en fait très courant et symptomatique du problème de l’open data actuel. Les producteurs s’appuient sur des sites pour rendre visibles leurs données mais considèrent une fois la publication réalisée que le boulot est fait une fois pour toute. Or les données ne sont pas mises à jour, les liens cassent, etc. Les portails ne sont pas branchés aux systèmes métiers où vivent ces données. Les portails ne sont des outils que de publication et de communication, aussi bons que l’usage qu’on en fait.

Le dernier site où atterrit l’utilisatrice est finalement le bon : https://data.montpellier3m.fr/. On y voit la meilleure approche pour un producteur : s’appuyer pour publier ses données sur un outil dont il a l’entière maîtrise et qui est au plus près de ses systèmes métiers. Les jeux de données y sont riches et à jour.

Malheureusement celui-ci ne profite pas pleinement des possibilité du web et n’utilise le markup Dataset nécessaire pour être indexé par Google Dataset Search (et potentiellement tous les autres crawlers qui le souhaitent).

Cette exploration très instructive se conclut par un téléchargement de données OSM, redistribuées par data.montpellier3m.fr.

Les parkings étant des données géographiques par excellence, elles prennent tout leur sens dans OSM. Or, les données OpenStreetMap par définition ne sont pas sur le web. Bref, il faut aussi penser l’open data en dehors du web, donc en dehors des moteurs de recherche, et dans les gisements où elles vivent (base de données métiers, OpenStreetMap, Wikidata/Wikibase, etc.).

Ce n’était qu’une question de temps mais cela ne laisse pas de surprendre, le fichier planet OSM est maintenant redistribué sur GCP.

Le PDG de Google qui fait de la pub pour OpenStreetMap… On aura tout vu !

D’ailleurs, allant encore plus loin encore que l’open washing, on assiste en ce moment à une véritable opération de Covid-washing. Autre exemple donné par les Français de Dawex, mais à l’intérêt tout aussi discutable :

1 Like