10 - Mettre en place une politique d'archivage

CONTEXTE

La conservation des données publiques par l’archivage vise 4 objectifs : rendre les données et documents produits accessibles, en garantir leur intégrité, leur intelligibilité via leur documentation et enfin leur lisibilité.

Il demeure une réalité organisationnelle où tout ne peut cependant être conserver en l’état dans les portails OpenData. Les services archives disposent de méthodes de suivi, de documentation, et d’outils de gestion pour traiter les données publiques et leur conservation. A ce jour, la question de la conservation des données temps réel exploitées est rarement explorer.

Cette pratique vise à développer une réflexion autour d’une stratégie d’archivage des données ouvertes au sein des organisations, afin de limiter l’impact environnemental du stockage de données ouvertes obsolètes.


DESCRIPTION DE LA BONNE PRATIQUE

1 - Animer et acter la démarche

Constituer et animer un groupe de travail dédié à la question de l’archivage des données ouvertes. Ce collectif aura pour tâche de définir la stratégie d’archivage des données ouvertes : qui décide de garder/supprimer/archiver sur temps long… Quelles sont les règles de nommage et de versionning ? Comment identifier, contrôler et à quelles conditions supprimer des données obsolètes stockées en masse ? Ce groupe pourrait rassembler des membres du service des archives, du référent aux données ouvertes et responsables, du délégué à la protection des données ou encore du responsable de la sécurité des systèmes d’information, de la personne responsables de l’accès aux documents administratifs, et des producteurs de données.

2 - Définir les conditions et critères d’archivages

Il est important de définir clairement pour chaque jeu de données, ses conditions d’archivage :

  • quoi archiver : dans de nombreux cas, conserver un échantillonnage des données produites suffit à développer des modèles et analyses comparatives;

  • mécanismes d’archivage : durée d’utilité administrative des données avant archivage temporaire et enfin pérenne avec accès sur demande,

  • formats ouverts et pérennes des données archivées, infrastructure sécurisée,

  • création et maintien d’un index des données ouvertes archivées,

  • règles d’administration définissant les modalités d’accès aux archives.

3 - Mieux identifier les données archivées

Séparer les données « vivantes », c’est à dire à jour, applicables ou pertinentes, des données « anciennes », éventuellement utiles à des fins de comparaison (suivi temporal) ou de recherche de version. La séparation évite de trouver ou utiliser des données inexploitables ou avariées; elle permet aussi une gestion d’archivage différente.

Il peut être utile pour mieux identifier les données d’archives, de le labelliser dans le titre ou la description du jeu de données. Un attribut précisant le caractère d’archive d’un jeu de données peut aussi être précisé dans les métadonnées.

4 - Favoriser l’échantillonnage

Plutôt que de conserver l’ensemble d’un jeu de donnée, dans certains cas, en conserver un échantillon peut être suffisant pour limiter la charge de stockage tout en garantissant l’exploitation de modèles et d’analyses.


RETOURS D’EXPÉRIENCES

Identification
Le Ministère de l’Enseignement, de la Recherche et de l’Innovation a par exemple labellisé dans le titre le caractère d’archive d’un jeu de données « Archives - Appels à projets ANR - Projets retenus et participants identifiés ».


ÉVALUATION

Priorité :

  • prioritaire,
  • recommandée,
  • pour aller plus loin

Mise en œuvre :

  • facile,
  • moyenne ,
  • difficile

Exemple(s) d’indicateur(s) de pilotage

  • Volume de données archivées par an
  • Nombre de références de données archivées
  • Volume de données disponible directement via le portail OpenData
  • Nombre de jeux de données travaillés avec archivistes

Exemple de pilote : Délégué ou référent aux données ouvertes et responsables.
Services et personnes à associer : DPO, RSSI, Services des Archives, Producteurs de données


Lien vers la fiche : 10 - Mettre en place une politique d'archivage - GREENDATA pour un impact maîtrisé des données


Votre avis nous intéresse.
Que pensez-vous de ces propositions ?

  • :green_circle: D’accord,
  • :orange_circle: Mitigé,
  • :red_circle: Pas d’accord.

0 votant

Vous avez des suggestions ?
Commentez ci-dessous !

1 « J'aime »

Bonjour et merci pour la proposition de référentiel, très pertinente en soi, et notamment s’agissant de la mise en place d’une politique d’archivage. Mes observations sont globalement les suivantes : 1. sur un tel sujet, il faut que la partie soit rédigée par un archiviste, parce que c’est une compétence particulière, avec une terminologie particulière. En outre, les archives ne peuvent être seulement associées à la démarche, elles doivent obligatoirement être associées (je veux dire plus que le DPO ou RSS…) voire copiloter la démarche avec le référent aux données ouvertes. Il faut mettre l’archiviste au centre de la réflexion. 2. Il n’appartient pas, dans l’absolu, à un éventuel groupe de travail de décider ce qui doit être gardé, supprimé…car il existe une réglementation précise sur ces questions - code du patrimoine + circulaires - ces dernières étant pilotées par le SIAF (service interministériel des archives de france). Et comme ces circulaires sont aujourd’hui muettes sur les règles d’archivage des jeux de données, il faut inviter le SIAF à y intégrer la question de l’open data, en y associant des typologies de documents, des durées d’utilité administrative, des sorts finaux etc. 3. faute de disposition précise en matière d’open data à ce jour, notre archiviste et moi allons, pour Antibes, réfléchir à la mise en place temporaire de bonnes pratiques d’archivage et reviendrons vers vous avec ce que nous aurons décidé en attendant la publication d’instructions claires de la part du SIAF. Dans tous les cas merci pour l’invitation à la réflexion, très utile!

4 « J'aime »

Bonjour et merci pour ces éléments de réflexion très intéressants.
Dès lors qu’on parle d’archivage publique - domaine règlementé - l’archiviste ne devrait-il pas être à la manœuvre?
Cordialement,

2 « J'aime »

Ajouter que pour éviter de perdre le patrimoine logiciel, le code source des applications et services devenus obsolètes peuvent être déposés sur la plateforme software heritage : https://www.softwareheritage.org/

1 « J'aime »

@Jaunedesienne sur la place de l’archiviste je te rejoins mais moins pour une intervention obligatoire du SIAF. Bien entendu ce service peut apporter son avis et expertise mais il me semble que dans le cas de jeux de données sur des portails Open Data nous n’aurons que peu d’obligation réglementaire de conservation mais plutôt opérer des choix d’ordre scientifiques et techniques qui là peuvent relever des propositions et pratiques professionnelles avec un groupe dédié.

Même si cela fût rapide lors d’un échange en visio, je remercie par ailleurs @Matthieu_BRIENT de m’avoir solliciter à ce sujet. Globalement, les archivistes sont très bien reçus dans le monde de l’Open Data et les chargés de mission aiment découvrir nos compétences et outils (ce n’est pas @Jaunedesienne qui va me démentir).

Pour ce qui est de l’échantillonnage, je pense qu’il y a un travail à mener aussi avec des réutilisateurs potentiels de données à votre volumétrie issues par exemple de capteurs. Un peu sur le modèle de ce qui est fait pour les tableaux de gestion par les archivistes en général : consultation des producteurs et réflexions sur les usages (secondaires).

Bonjour @Jaunedesienne,

un grand merci pour cette relecture et ces différents points !

J’aimerais beaucoup discuter et suivre vos travaux en cours à sur ce sujet à Antibes. Est-ce possible de s’en parler prochainement ? (je vous fais suivre un message privé).

1 « J'aime »