Feuille de route de la DINUM : et l'open data dans tout ça?

La nouvelle feuille de route de la DINUM vient d’être publiée : Feuille de route de la DINUM - Une stratégie numérique au service de l'efficacité de l’action publique | numerique.gouv.fr

On peut s’étonner de la quasi-absence de l’open data dans cette feuille de route et du manque de continuité avec le rapport Bothorel :

  • Une seule mention de l’open data, c’est presque un progrès par rapport à la précédente feuille de route
  • Aucune action dédiée à l’ouverture des données
  • Aucune mention de data.gouv.fr et d’Etalab.
  • Aucune mention aussi de l’avenir des feuilles de route données, algorithmes et codes sources des AMDAC

Les actions sur les données sont évoquées dans le troisième axe qui part du constat que les données publiques ont bénéficié d’abord au secteur privé et pas assez au secteur public :

  1. Développer l’exploitation effective des données pour un État plus efficace dans
    son action et plus simple vis-à-vis des citoyens, des entreprises et des agents
    publics.
    Cette exploitation qui a transformé de nombreux secteurs d’activité privés, des
    transports à la finance en passant par la grande distribution, n’est pas suffisamment
    déployée au sein de l’État en dépit des bénéfices certains qu’elle pourrait apporter.

Faut-il en conclure pour autant que l’open data sera délaissé ces prochaines années ? C’est dommage en tout cas de ne pas avoir perçu l’open data comme un levier pour la stratégie numérique de l’Etat.

Voici le détail de l’axe 3 :

Valoriser et exploiter les données comme levier d’efficacité de l’action publique

Constats

La politique open data menée depuis 10 ans a permis la concrétisation de services utiles
aux citoyens, dont notamment « Vite ma dose », un outil pour identifier la disponibilité de
doses vaccinales durant la crise sanitaire, « DVF », un registre ouvert des prix immobiliers
partout en France ou encore « Nos Gestes Climat », un simulateur d’empreinte carbone.
Ces données publiques fournissent également des informations objectives et fiables aux
journalistes pour contribuer à la transparence du débat public.

Au-delà de l’ouverture des données, il est crucial pour l’État de pleinement tirer parti de
ses données en les exploitant. Cette exploitation doit également se matérialiser pour des
données protégées par la loi uniquement accessibles à des acteurs habilités : données
économiques et sociales des entreprises par Signaux Faibles pour orienter les actions des
DREETS en faveur des entreprises en difficulté ; déclarations préalables à l’embauche
utilisées par Pôle Emploi pour orienter les demandeurs d’emploi avec « Ma Bonne Boite » ;
déclarations d’immatriculation pour lutter contre la fraude à l’immatriculation. Ces
réalisations, invariablement issues d’expérimentations passées à l’échelle, témoignent du
potentiel de réutilisation des données, à la fois pour l’efficacité de l’administration mais
aussi pour le déploiement de nouveaux services au bénéfice des usagers, en proactivité.
L’industrialisation des échanges de certaines données avec les API a permis à de premiers
services publics en ligne d’éviter de redemander des informations connues de
l’administration aux usagers selon le principe du « Dites-le-nous une fois » et parfois
d’anticiper les besoins des usagers avec de la proactivité : demande d’aide juridictionnelle,
bourse des collèges, tarification des activités périscolaires, des démarches qui sont au
cœur du quotidien des Français.
La politique publique de la donnée est ainsi encore limitée par :

  • les incertitudes quant à l’interprétation des différents cadres juridiques, qui
    induisent chez les détenteurs une résistance à la mise à disposition des données.
    De fait, si le cadre juridique français apparaît extrêmement favorable au partage,
    à l’exploitation et à la valorisation des données, y compris pour rendre des
    démarches proactives, il laisse des marges d’interprétation et des incertitudes
    pour les détenteurs de données, qui n’y trouvent pas un cadre sécurisant ;
  • la vétusté des systèmes d’information des administrations et la difficulté à les
    faire évoluer pour qu’ils participent à cette circulation. Un défaut de
    standardisation est également constaté : malgré la récente publication d’une
    doctrine technique en matière d’échange de données par API, les producteurs de
    données appliquent encore différentes modalités d’échanges de données
    complexifiant leur exploitation ;
  • la difficulté d’attirer et de retenir des talents dans tous les métiers de la donnée :
    data scientist, data ingénieur, chef de produit

Évolutions pour mieux exploiter le potentiel de la donnée

La richesse que constituent les données des administrations est un effet de levier puissant
pour renforcer l’efficacité des politiques publiques, pour déployer des services plus
simples et accessibles et pour faciliter le travail des agents publics. Il s’agit ainsi de mieux
les exploiter et d’en faire un axe fort de transformation publique. Afin d’accélérer les
projets d’innovation par la donnée en dépassant les freins identifiés, un incubateur de
projets data, le « datalab », sera créé au sein de la DINUM pour :

  • endosser la responsabilité juridique et technique des innovations ne pouvant
    émerger facilement dans les périmètres d’un ministère, dans le respect de la
    protection des données personnelles et des secrets protégés par la loi ;
  • accélérer le déploiement de nombreux cas d’usage en donnant accès aux
    ressources et aux données nécessaires : par exemple, l’envoi d’un courrier aux
    foyers détenteurs de 2 véhicules thermiques via un accès aux données fiscales et
    d’immatriculation ou le suivi de la performance de chaque formation
    professionnelle ;
  • accompagner les porteurs de projets de l’administration vers un impact métier
    réel en exploitant à plein les données existantes ;
  • animer le réseau des lacs de données ministériels existants ou à venir.
    Le « datalab » se matérialisera par :
  • un dispositif juridique robuste et sécurisant pour les parties prenantes du projet ;
  •  une infrastructure technique sécurisée permettant la mise à disposition et le
    traitement de données non ouvertes ;
  • le recours à des techniques d’intelligence artificielle ;
  • la possibilité de bénéficier de ressources humaines de la DINUM en data science.
    Les projets de valorisation des données pourront par ailleurs bénéficier d’un financement
    au travers d’un guichet dédié du FTAP doté de 10 millions d’euros.
    La DINUM en tant qu’administratrice générale des données veillera également à la réussite
    des administrateurs ministériels des données dans la conception et le déploiement de
    projets d’exploitation de la donnée porteurs d’impact. La transposition du règlement
    « Data Governance Act » sera d’ailleurs, par cohérence, l’occasion de confier à la DINUM
    le rôle de coordonnatrice des autorités d’assistance et point d’information unique pour
    les administrations et le public pour la réutilisation de données publiques, y compris celles
    n’étant pas ouvertes.
    La DINUM sera chargée de faire progresser la circulation des données en
    institutionnalisant les API Particulier et API Entreprise déjà existants selon une doctrine
    de contrôle par le distributeur et non par le producteur de données. Ainsi, pour les API
    interministérielles, la DINUM se chargera d’accréditer le demandeur qui n’aura besoin
    d’aucune autre accréditation subséquente pour accéder aux données et les producteurs de données pourront tracer ces accès et stopper un flux le cas échéant. Cette architecture
    permettra d’accélérer considérablement les projets de partage de données pour éviter de
    redemander des informations déjà détenues par l’administration aux usagers. C’est un axe
    fort de simplification et de proactivité, tant côté usager qu’agent public.
7 « J'aime »

Peut être est-ce parce que l’ouverture ça semble acquis (et dans les textes donc théoriquement effectif) ?

Il y a encore des « baleines blanches » à aller chercher, c’est sûr, cependant mon constat personnel c’est qu’on a une profusion de données ouvertes, mais peu exploitables dans de bien trop nombreux cas.

Quantité oui, qualité bof… avec des documentations minimalistes ou inexistantes, des diffusions « ponctuelles » et peu suivies.

Mettre un jeu de données ouvertes sur son chemin critique est assez risqué malheureusement, même pour des données du Service Public de la Donnée de Référence, un comble !

Avec un peu plus de « eat your own dog food » dans la sphère publique comme le décrit ta citation, on peut espérer que ça puisse améliorer globalement ce paradoxe mais oui, il ne faut pas lâcher pour éviter des reculs (exemple: geo.data.gouv.fr) ou de l’immobilisme (exemple: les redevances résiduelles qui perdurent sur les données météo et climatiques alors que c’est un sujet majeur pour notre avenir).

Je trouve qu’il y a un équilibre à avoir entre:

  • ouverture des données pour la transparence et/ou sur demande (sans avoir à passer par la CA[D]DA, la Commission d’Accès [Difficile] aux Documents Administratifs)
  • l’effectivité du « dites le nous une fois » dans les démarches administratives qui impacte tout le monde (je râle assez souvent à cause de ça)

et

  • l’ouverture systématique… qui mobilise pas mal de ressources par rapport aux deux premiers points car les moyens ne sont pas illimités, mais qui n’a pas tant d’impact que ça au final.
3 « J'aime »

Je rajoute une couche, car la nuit a porté ses fruits… et pour être peut être encore plus clair dans mon propos.

Tout d’abord rappeler ce que constitue pour moi (et en principe) l’opendata:

  • l’accès (publication) à des données et documents existants,
  • pas de production nouvelle ou juste « des traitements d’usage courant » par exemple pour éliminer quelques infos qui ne sont pas communicables à tous

Le manque de documentation est donc soit dû:

  • à l’absence de documentation (fréquent)
  • à la non publication de la documentation existante (shame shame shame)

Le manque de qualité intrinsèque des données publiées reflète le très mauvais état de fonctionnement des SI, par exemple :

  • pas de liens avec les identifiants pivot,
  • des champs de saisie trop libres où l’on retrouve n’importe quoi,
  • des « forks » de données qu’on améliore chacun dans son coin qui ne se remettent pas à jour à partir de leur source,
  • des bases qui devraient être collaboratives mais ne le sont pas (des silos trop étanches)
  • des bases « métier » au contenu suffisant pour leur usage primaire, mais inadapté à d’autres usages et vu que l’usage métier n’est pas documenté on ne peut pas savoir ce qui est fiable ou non dedans.
    etc.

On peut continuer comme les 10 années précédentes à toujours ouvrir plus, de tout et pas mal de n’importe quoi, ou bien se focaliser sur des données essentielles, en améliorer la qualité et donc leur permettre d’avoir encore plus d’impact. C’est, il me semble, la direction prise par les dernières directives européennes sur les données à fort impact (ou valeur ajoutée).

Exemple avec SIRENE

  • Trop d’info ne sont pas à jour dedans. Des établissements fermés ou sans activités ne sont pas marqués comme tels. Des changements d’adresse d’activité absent.
  • Des champs ne sont qu’indicatifs car on ne peut garantir leur mise à jour (les tranches d’effectifs dont on a parlé il y a peu).
  • La version géocodée (par l’INSEE) très approximative du fait d’adresses bien mal saisies car n’utilisant pas le référentiel national d’adresses (la BAN) mais un truc maison (pas ouvert).

Tout n’est pas de la faute de l’INSEE, qui ne fait qu’agréger des données saisies par les CFE et les complète avec ce qu’on veut bien lui fournir.
Pour les changements d’adresse absents, c’est le passage obligé par un CFE et en particulier les tribunaux de commerce avec une démarche payante (merci les professions protégées réglementées) qui fait que cela n’est pas à jour, alors qu’une entreprise pourrait signaler elle même sa nouvelle adresse (dites-le-nous-une-fois) sans qu’un greffier soit dans la boucle et prenne son obole au passage.

Dans un monde idéal, je verrai bien:

  1. des Répertoires d’Informations Publiques (les RIP prévus depuis des lustres), tenus à jour, complets
  2. la publication en « push » de ces RIP et de la documentation des jeux de données qui devrait exister si les SI étaient bien gérés
  3. la publication en « pull » d’un jeu de données si il y a une demande

Tout cela est déjà prévu par la Loi, mais dès le premier point ça n’est quasiment pas appliqué !

Savoir ce qu’on a comme données, ça permet déjà une très forte rationalisation interne, une plus grande efficacité et un service public qui fonctionne mieux.

Du coup on a un fonctionnement quasiment uniquement en « pull » pour ce qui a été identifié parfois par hasard comme existant et est intéressant (avec toutes les résistances qu’on connaît) et beaucoup de « push » pour des jeux de données qui font du volume mais qui n’apportent pas grand chose.

J’ajouterai qu’on a vu le mot « circulation » (voir partage ou échange) remplacer le mot « ouverture » ces dernières années. Circulation entre administration, qui si il s’agit de données communicables à tous devrait systématiquement être ouvertes à cette occasion (éventuellement après avoir fait le traitement d’usage courant pour retirer ce qui ne peut être communiqué à tous).
Là on aurait au moins un début de garantie de stabilité dans le contenu et la diffusion vu la dépendance qu’on va créer avec au moins un réutilisateur public.

J’arrête là avant d’embrayer sur l’abus d’API :wink:

2 « J'aime »

Toujours marrant de lire ViteMaDose comme exemple pour l’opendata alors que le site n’utilise pas ou peu d’opendata.

6 « J'aime »

Des nouvelles des feuilles de route ministérielles de la donnée dans le compte-rendu du 7e Comité interministériel de la transformation publique

(via @X_Berne sur le forum de Ma Dada)

Pour mémoire, les précédentes sont ici: Feuilles de route ministérielles sur la politique de la donnée, des algorithmes et des codes sources - data.gouv.fr

Qu’est ce qui a été vraiment fait dans ce qui était prévu il n’y a que deux ans de ça ?

Oh ! Je n’avais pas vu que dans le cadre interministériel (le premier document) figure cette phrase:

Les administrations en charge de la production de données et qui exposent des API doivent
garantir une disponibilité de 98% afin de permettre à l’ensemble des réutilisateurs de
bénéficier d’un niveau de qualité acceptable.

Il va falloir le ré-expliquer à pas mal de monde… proposer des données par API ça oblige à avoir un (très) bon taux de disponibilité (et 98% c’est vraiment le minimum du minimum, ça fait un maximum de 14h de coupure mensuelle).

2 « J'aime »