9 - Optimiser le référencement des jeux de données

mbrient · Juillet 12, 2022, 2:33

CONTEXTE

Les données dupliquées et redondantes consomment des ressources matérielles (les disques de stockage) et de façon récurrente de l’énergie (pour la redondance). Elles polluent donc considérablement les systèmes d’information.

Cette pratique vise à privilégier l’optimisation du référencement plutôt que la duplication de jeux de données afin de libérer de l’espace sur le stockage et d’optimiser l’utilisation de données ouvertes.

Plus la donnée est référencée, plus elle est utilisée. Optimiser le référencement permet pour le producteur de données de :

Faciliter et mieux suivre les réutilisations des données,
Favoriser la découvrabilité des données,
Améliorer la cohérence des données publiées (contenu et présentation),
Permettre les agrégations territoriales ou thématiques,
Faire des économies d’échelle (technique et financières) par la mutualisation,
Sortir de l’anonymat.

DESCRIPTION DE LA BONNE PRATIQUE

1 - Eviter la duplication des données

Afin de réduire l’impact environnemental et le coût de stockage de données ouvertes, il convient de limiter leur duplication et de privilégier le moissonnage des données. Une première étape peut s’intéresser à identifier les redondances des jeux de données volumineux et stratégiques : où les données sont publiées, dupliquées …

2 - Identifier les lieux de publications de données

Des plateformes de données peuvent référencer et moissonner les (méta)données entre portails. Plutôt que de dupliquer un jeu de données, il est donc préférable d’optimiser son référencement en indexant le jeu de données sur d’autres portails. Par exemple :

plateforme nationale (data.gouv),
plateformes territoriales (échelon régional, départemental, …),
plateforme thématique (transport.data.gouv.fr, data.tourisme, geoportail, …).

3 - Demander à data.gouv.fr de moissonner votre portail

Un moissonneur permet d’importer toutes les données d’un portail d’open data. Vous pouvez aussi demander au moissonneur de n’importer que certains jeux de données, au moyen de filtres.
Demander à data.gouv.fr de moissonner votre site

4 - Maintenir l’accès et la qualité des données produites

Pour maintenir à jour les données référencées et limiter le risque de problème de version des jeux de données sur d’autres plateformes, privilégier un accès aux données par API. Voir la fiche 8 - Proposer un accès aux données par API.

RETOUR D’EXPÉRIENCE

La ville de Castelnaudary publie ses données ouvertes directement sur le portail data.gouv.fr. L’exposition et la valorisation des données se fait localement, sur le site officiel de la ville : https://ville-castelnaudary.fr/fr/mairie/open-data

Le portail OpenData de la Région Occitanie référence l’ensemble des données produites par le Conseil Départementale de l’Hérault et facilite ainsi leur découvrabilité et le croisement de cas d’usages. https://data.laregion.fr/pages/accueil/

ÉVALUATION

Priorité :

prioritaire,
recommandée,
pour aller plus loin

Mise en œuvre :

facile,
moyenne ,
difficile

Exemple de pilote : Délégué ou référent aux données ouvertes et responsables

Exemple(s) d’indicateur(s) de pilotage

nombre (ou %) de jeux de données récupérés par API
nombre (ou %) de jeux de données référencés sur plus d’un portail

Lien vers la fiche : 9 - Optimiser le référencement des jeux de données - GREENDATA pour un impact maîtrisé des données

Votre avis nous intéresse.
Que pensez-vous de ces propositions ?

D’accord,
Mitigé,
Pas d’accord.

0 votant

Vous avez des suggestions ?
Commentez ci-dessous !

nicolas-bonnel · Juillet 21, 2022, 10:53

En complément du moissonnage, qui tire les (méta)données (pull) et doit donc vérifier à chaque fois si elles ont été modifiées, on peut aussi pousser les (meta)données depuis une autre plateforme. Data.gouv.fr a une API qui permet de faire cela sans problème. Les 2 principaux avantages que je vois :

Des modifications peuvent être propagées instantanément d’une plateforme à une autre, pas besoin d’attendre l’execution du moissonneur
Pas besoin de communication supplémentaire (donc d’énergie) pour vérifier si les données sont bien synchronisées

Flacombe · Juillet 24, 2022, 9:35

D’une manière générale, le référencement est un moyen de découvrabilité. Ce chapitre ne devrait parler que de découvrabilité, peu importe le moyen employé.

Cette phrase est interprétable de différentes façons.
Incluez-vous les dispositifs de redondance tels que le RAID dans votre raisonnement ?

Par ailleurs, je ne comprends pas comment le référencement (seul) permet :

Référencer n’est pas mesurer

En quoi le référencement correspond à une démarche d’évaluation puis d’amélioration de la qualité ?

Référencer, ce n’est pas publier sur la même plateforme que le voisin. Justement, je comprends dans le cas présenté que chacun a sa plateforme et référence les jdd des autres. En quoi peut-on invoquer la mutualisation ici ?

Désolé mais je ne parviens pas à faire la relation ici.

Malgré l’intérêt que je peux percevoir dans certains cas, il faut aussi rappeler la duplication nous a sauvé dans plusieurs situations où les données finissent par disparaître.

Virginie · Juillet 25, 2022, 10:47

Bonjour

Plusieurs remarques :

data.gouv.fr ne peut devenir le seul portail de publication, ne serait que, eu égard à la libre administration des collectivités, mais également eu égard à la notion d’infrastructure essentielle. Une seule plateforme serait par exemple excessivement vulnérable à des attaques cyber, à mon avis, quel que soit son niveau de sécurité (trop tentant de tester cet OIV). Mais plus prosaïquement il s’agit aussi de préserver une certaine prise de risque territoriale, innovation quant à des fonctionnalités, éditorialisation, ou autre qui peuvent permettre à l’OD de conserver un dynamisme et de ne pas dépendre d’un seul acteur, d’une seule volonté publique, voire d’un seul financeur (comparaison avec le cimetière de projets de Google).
toutefois le moissonnage étant la garantie de la préservation et de la circulation des données, et des métadonnées, il serait intéressant de développer d’autres mécanismes d’interopérabilité/découvrabilité entre portails tels le LOD. Dans une période de développement des services publics locaux des données, l’interopérabilité entre portails, mais également l’exposition des données des portails directement sur le web, peuvent être des outils au service d’une minimisation de leur empreinte environnementale (postulat théorique à confirmer par une méthodologie de calcul empirique).
la duplication n’est pas forcément pertinente, mais l’archivage oui. Outre que l’empreinte environnementale de l’archivage est plus faible (données froides requêtées sur demande et non « pour voir »), l’archivage n’est pas incompatible avec l’échantillonage, alors que la duplication l’est. Je m’explique : dans le cadre de mon travail, je « visualise » les échantillons de données avant de télécharger/dupliquer un JDD ou d’en demander une récupération par API. Toutefois il m’arrive encore souvent de devoir télécharger des JDD de plusieurs Gigas avant de les nettoyer moi-même pour n’en conserver qu’un extrait localisé qui servira d’ailleurs à mes collègues pour vérifier la bonne récupération des données via les APIs.
pour en revenir au référencement, effectivement, nous créons des notices relatives à des JDD produits par d’autres mais qui correspondent à des besoins locaux afin d’en favoriser la découvrabilité.
mais surtout nous manquons de taxonomies favorisant la description des JDD et leur découvrabilité d’un portail à un autre.

mbrient · Août 17, 2022, 1:08

Bonjour François,
merci pour cette relecture et ces points pertinents.

En effet, l’élément clé ici est bien celui de la découvrabilité des jeux de données, via le référencement par exemple. Concernant les bénéfices pour le producteur de données, là aussi, vos retours m’orientent à les retravailler.

richardhanna · Août 19, 2022, 2:27

Bonjour.
Je recommande de ne pas utiliser le terme « optimiser » (ici dans le titre) lorsqu’il s’agit de réduire les impacts environnementaux. L’optimisation devrait être une bonne pratique de base et non pas une démarche d’écoconception.
Proposition :

Faciliter la découvrabilité des jeux de données

Autre remarque :

Elles polluent donc considérablement les systèmes d’information.

Ici polluer n’est pas dans le sens environnemental mais dans le sens occupation des ressources. Je propose également d’éviter cette utilisation à double-sens.
Suggestion :

Ces données génèrent donc des impacts environnementaux en trop (ou en plus ?).