#TeamOpenData

Identifiant unique de portails de données

Oui on est bien d’accord, l’URL n’est pas un identifiant, seulement la finalité du besoin utilisateur en l’occurence. Si les données de l’Observatoire étaient considérées comme une source de vérité, un « jeu de données de référence » au sens du SPD (ce qu’il n’est pas actuellement), l’ajout d’un identifiant pour chaque entrée dans un jeu de données aurait bien une utilité et serait trivial à faire.

A mon sens, l’Observatoire ODT pourrait être étendu au-delà du périmètre actuel. La notion d’ « acteur de l’open data » n’a jamais été vraiment définie et comprend déjà des établissements qui ne sont pas des collectivités. La problématique technique d’un tel observatoire est la même quel que soit le périmètre (qui peut le plus peut le moins).

L’enjeu pour moi c’est la collecte des SIRET de tous les acteurs de l’open data (définis comme les établissements ayant ouvert au moins un jeu de données) et des sites web utilisés. Elle pourrait être crowdsourcée plus efficacement qu’elle ne l’est aujourd’hui (Airtable n’est pas fait pour), ça reste un des points de blocage actuels, sur lequel on est justement en train de travailler.

2 Likes

Oui et pour être complet:

  • URL de l’endpoint de l’API,
  • URL de la doc de l’API (pour un humain)
  • URL du swagger/openapi (pour une machine)

Il y a de multiples mécanismes pour exposer ça…

3 Likes

cool, et curieux et preneur d’en savoir plus :wink:

On ne manquera pas de communiquer dès que le crowdsourcing sera possible mais je pense qu’on a d’abord quelques étapes préalables à franchir de notre côté. :slight_smile:

Le hasard fait bien les choses, le (vieux) projet dataportals.org est évoqué aujourd’hui par @herrmann sur le forum de l’OKFN :

1 Like

Les portails open data sont une sous-catégorie des portails et entrepôts de données.

Dans le domaine de la recherche scientifique, les portails et entrepôts de données peuvent être identifiées par deux systèmes d’identifiants uniques pérennes qui cohabitent :

4 Likes

La ressource export-harvest-20220504-075117.csv :wink:

2 Likes

les URL ne se résolvent pas :thinking:

ah merci ! les identifiants sont stables dans le temps ?

J’ai corrigé le premier DOI qui ne pointait pas sur la bonne page, mais chez moi ça marche nickel…

Oui mais il s’agit un identifiant de l’objet moissonneur propre à data.gouv. Pour un même portail externe, plusieurs moissonneurs peuvent être créés dans le temps par exemple.

@Antonin_Garrone Merci pour la référence ! Il faudrait mettre la documentation du jeu de données à jour, parce que la description présente 6 fichiers… le 7e est donc ce fichier des portails moissonnés :slight_smile:

Oui c’est assez récent je le fais à l’instant :slight_smile:

3 Likes

C’est quand même récent… les premières archives datent du 12 avril dernier.

Merci pour cet export, ça va simplifier mes mises à jour de portails à archiver. Déjà deux de repérés et ajoutés, maintenant automatiquement :slight_smile:

3 Likes

Il y a un identifiant unique s’il y a une base de données avec quelqu’un en charge de la maintenir. Ce qui pourrait être logique ce serait que la DILA référence les portails open data dans l’annuaire du service public. On pourrait alors utiliser les slugs de l’annuaire comme identifiant des organisations publiques ayant un portail open data.

J’aime bien l’idée de Johan. On peut construire une liste des portails à partir de Wikidata. Je vais essayer de faire quelques requêtes un jour ou l’autre.

Faudrait qu’on se refasse des petits garagethons Wikidatagouv à l’occasion.

1 Like

Oui on peut construire une liste à partir de Wikidata mais la logique voudrait qu’on mette des UID externes dans Wikidata plutôt que l’inverse, je pense ? Donc oui ça pose la question de maintenir une base de données de portails. C’est pour ça que je pokais Etalab :wink:

1 Like

Sujet peut-être annexe, mais quelles obligations à la création d’un portail opendata pour le producteur? Y a-t-il une obligation de déclaration à Etalab? Comment faire pour le portail ne soit pas dans un coin poussiéreux d’un site et donc ne serve à rien?

Il y a sûrement un gros travail à faire pour renseigner les propriétés :

  • P6671 : l’identifiant sur le site de l’annuaire du service public
  • P1616 : le code SIREN
    Pour les portails open data, on peut soit mettre directement l’url du portail via la propriété P1325 (site externe de données), soit créer un élément spécifique pour le portail (P8402)
    Deux requêtes pour commencer.
  • Liste des adminisrations françaises avec l’identifiant sur l’annuaire du service public, le code SIREN, le portail open data (lorsqu’il a un élément dédié sur wikidata) et son URL : Wikidata Query Service
  • Liste des adminisrations françaises avec l’identifiant sur l’annuaire du service public, le code SIREN, le portail open data lorsque celui est renseigné via son url (P1325) : Wikidata Query Service

Aucune à ma connaissance…

Je ne réfléchirais pas nécessairement comme ça : une même organisation peut avoir plusieurs portails (par exemple un portail SIG et un portail open data) et un même portail peut dépendre de plusieurs organisations (exemple du portail commun Nantes / CD Loire-Atlantique / Région Pays de la Loire).

1 Like

Je ne suis pas juriste mais :

  1. Le décret du 25 octobre 2019 relatif à la DINUM dispose que :

[la DINUM] administre le portail unique interministériel destiné à rassembler et à mettre à disposition librement l’ensemble des informations publiques de l’Etat, de ses établissements publics et, si elles le souhaitent, des collectivités territoriales et des personnes de droit public ou de droit privé chargées d’une mission de service public.

  1. La circulaire du 27 avril 2021 relative à la politique de la donnée, à destination des ministres, ministres délégués et secrétaires d’État, ordonne à ces derniers :

vous vous assurerez que les données ouvertes de votre ministère sont référencées
sur les portails interministériels data.gouv.fr et api.gouv.fr

Du coup mon interprétation est que l’État, les ministères et tout établissement public doit référencer ses données sur data.gouv.fr. Par contre les collectivités et les autres personnes chargées d’une mission de service public restent obligées par le CRPA à ouvrir leurs données mais pas à les référencer sur data.gouv.fr.

Ceci dit, data.gouv.fr fait environ 1 million de visiteurs par mois et son utilisation est gratuite, donc nous (Etalab) invitons tout le monde à y publier ses données pour un maximum de visibilité :slight_smile:

2 Likes