Identifiant unique de portails de données

Bonjour,

Je souhaiterais ouvrir une discussion de la communauté open data sur l’opportunité de disposer d’identifiants uniques pour désigner les portails de données ouvertes. Aujourd’hui, à ma connaissance, nous ne disposons pas de moyen fiable d’identifier un portail de données (l’URL n’en est pas un puisqu’elle peut changer au cours du temps). Pourtant, ça pourrait être utile, me semble-t-il. Quelques exemples :

  • ça permettrait d’avoir un identifiant externe dans les fiches wikidata des portails open data (exemple).
  • ça permettrait d’avoir un identifiant unique dans cette table des données de l’Observatoire Open data des territoires d’Open data France (poke @jmbourgogne @johan).
  • ça permettrait sans doute de mieux gérer les moissonnages entre portails (à ce sujet à ma connaissance la liste des portails moissonnés par data.gouv.fr par exemple n’est pas publique ? poke @abulte-datagouv. geo.data.gouv.fr le faisait : Catalogues | geo.data.gouv.fr cc @jdesboeufs)
  • ça aiderait sans doute aussi @cquest à gérer https://www.opendatarchives.fr (aujourd’hui les données sont organisées par URL des sites, qui ne sont pas nécessairement pérennes, et n’ont, je crois, pas de métadonnées associées)
  • si un jour quelqu’un souhaitait s’engager dans une logique d’identifiant unique de jeux de données (des DOI par exemple) ça permettrait d’identifier sans ambiguïté le portail de première publication.

Qu’en pensez-vous ? Voyez-vous d’autres usages possibles ? Des difficultés potentielles d’implémentation (j’en vois quelques unes, mais elles ne me paraissent pas insurmontables dès lors qu’un minimum de gouvernance est mis en place, poke Etalab :wink: cc @laurelucchesi) ? et le cas échéant, comment peut-on démarrer ? @jmbourgogne : pourrait-on imaginer de rajouter une colonne avec un identifiant unique dans la table que je pointe plus haut ?

9 « J'aime »

Tu peux ajouter la découvrabilité des API… il y a des portails où il faut vraiment chercher pour trouver si il y a une API, où et comment elle fonctionne.

1 « J'aime »

tu rajouterais les endpoint de l’API comme métadonnée ?

C’est en effet le but à mon sens de l’Observatoire open data des territoires d’OpenDataFrance dans la dimension données qu’il doit produire.

Les données de l’Observatoire auraient tout à fait leur place au sein du SPD :

  • La liste des établissement publics (SIRET) ayant publié au moins un jeu de données sur un site Internet
  • La liste des sites Internet (URL) où sont publiés les jeux de données
  • Voir, soyons fous, un catalogue complet des jeux de données (DCAT)

La Siretisation / Wikidatisation de datagouv serait un effet bonus de ce chantier (n’est-ce pas @pac @Antonin_Garrone @tkd :wink:), et qui me paraît pas si compliqué à mener !

4 « J'aime »

oui @johan mais ça n’est à mon sens qu’un élément de la réponse, car :

  1. tous les portails n’ont pas vocation à être référencés par l’observatoire ODT (par exemple des portails de ministère, d’opérateurs nationaux, voire d’acteurs privés - d’où mon poke à Etalab)
  2. je maintiens que l’URL ne peut pas être un identifiant unique et pérenne. Donc il faut un UUID… donc il faut une gouvernance même minimale de cet UUID.

Là où je te rejoins en revanche c’est que l’observatoire ODT est un super point de départ pour expérimenter, et sans doute plus léger à mettre en place en terme de gouvernance.

1 « J'aime »

Oui on est bien d’accord, l’URL n’est pas un identifiant, seulement la finalité du besoin utilisateur en l’occurence. Si les données de l’Observatoire étaient considérées comme une source de vérité, un « jeu de données de référence » au sens du SPD (ce qu’il n’est pas actuellement), l’ajout d’un identifiant pour chaque entrée dans un jeu de données aurait bien une utilité et serait trivial à faire.

A mon sens, l’Observatoire ODT pourrait être étendu au-delà du périmètre actuel. La notion d’ « acteur de l’open data » n’a jamais été vraiment définie et comprend déjà des établissements qui ne sont pas des collectivités. La problématique technique d’un tel observatoire est la même quel que soit le périmètre (qui peut le plus peut le moins).

L’enjeu pour moi c’est la collecte des SIRET de tous les acteurs de l’open data (définis comme les établissements ayant ouvert au moins un jeu de données) et des sites web utilisés. Elle pourrait être crowdsourcée plus efficacement qu’elle ne l’est aujourd’hui (Airtable n’est pas fait pour), ça reste un des points de blocage actuels, sur lequel on est justement en train de travailler.

2 « J'aime »

Oui et pour être complet:

  • URL de l’endpoint de l’API,
  • URL de la doc de l’API (pour un humain)
  • URL du swagger/openapi (pour une machine)

Il y a de multiples mécanismes pour exposer ça…

4 « J'aime »

cool, et curieux et preneur d’en savoir plus :wink:

On ne manquera pas de communiquer dès que le crowdsourcing sera possible mais je pense qu’on a d’abord quelques étapes préalables à franchir de notre côté. :slight_smile:

Le hasard fait bien les choses, le (vieux) projet dataportals.org est évoqué aujourd’hui par @herrmann sur le forum de l’OKFN :

1 « J'aime »

Les portails open data sont une sous-catégorie des portails et entrepôts de données.

Dans le domaine de la recherche scientifique, les portails et entrepôts de données peuvent être identifiées par deux systèmes d’identifiants uniques pérennes qui cohabitent :

4 « J'aime »

La ressource export-harvest-20220504-075117.csv :wink:

4 « J'aime »

les URL ne se résolvent pas :thinking:

ah merci ! les identifiants sont stables dans le temps ?

J’ai corrigé le premier DOI qui ne pointait pas sur la bonne page, mais chez moi ça marche nickel…

Oui mais il s’agit un identifiant de l’objet moissonneur propre à data.gouv. Pour un même portail externe, plusieurs moissonneurs peuvent être créés dans le temps par exemple.

@Antonin_Garrone Merci pour la référence ! Il faudrait mettre la documentation du jeu de données à jour, parce que la description présente 6 fichiers… le 7e est donc ce fichier des portails moissonnés :slight_smile:

Oui c’est assez récent je le fais à l’instant :slight_smile:

3 « J'aime »

C’est quand même récent… les premières archives datent du 12 avril dernier.

Merci pour cet export, ça va simplifier mes mises à jour de portails à archiver. Déjà deux de repérés et ajoutés, maintenant automatiquement :slight_smile:

3 « J'aime »

Il y a un identifiant unique s’il y a une base de données avec quelqu’un en charge de la maintenir. Ce qui pourrait être logique ce serait que la DILA référence les portails open data dans l’annuaire du service public. On pourrait alors utiliser les slugs de l’annuaire comme identifiant des organisations publiques ayant un portail open data.

J’aime bien l’idée de Johan. On peut construire une liste des portails à partir de Wikidata. Je vais essayer de faire quelques requêtes un jour ou l’autre.

Faudrait qu’on se refasse des petits garagethons Wikidatagouv à l’occasion.

1 « J'aime »

Oui on peut construire une liste à partir de Wikidata mais la logique voudrait qu’on mette des UID externes dans Wikidata plutôt que l’inverse, je pense ? Donc oui ça pose la question de maintenir une base de données de portails. C’est pour ça que je pokais Etalab :wink:

1 « J'aime »