Hello la teamopendata !
Je poste – pour la première fois* — pour vous parler d’un dada dont voici un premier aboutissement : la publication de données ouvertes sur les parcours d’études dans l’enseignement supérieur. Ce qui m’intéresse est votre avis, notamment sur la méthode employée.
L’idée est de suivre les inscriptions et les réussites de chaque étudiant·e d’année en année (on simplifie en ne tenant compte chaque année universitaire que de l’inscription principale). La donnée produite – le parcours d’étude – est plus symbolique que numérique. Bien que communiquée en cohortes (parcours identiques) avec un effectif numérique, la donnée numérique est tronquée par une espèce de variante de la k-anonymistion où l’on conserve les cohortes avec un effectif inférieur à k = 5 sans en communiquer l’effectif. De même les attributs de la cohorte sont effacés lorsqu’ils sont rares. Ceci pour éviter les réidentifications. Je crois savoir que les bonnes pratiques de l’open data évoluent plutôt dans ce genre de cas vers une simple pseudonymisation, mais pour le moment nous restons conservateurs, ce qui a pour effet de rendre impossible toute exploitation numérique sérieuse de nos données.
Je viens de publier le premier jeu de données issus d’une exploitation des données SISE. Vous trouverez plus d’explications dans la notice, certainement encore imparfaite.
J’ai volontairement limité l’extraction aux académies d’Île-de-France, car le projet qui porte l’action (https://oraccle.fr) dans laquelle s’inscrit cette ouverture réunit les principaux établissements supérieurs d’Île-de-France, pas au-delà. C’est pourquoi notre demande d’accès aux données auprès du comité du secret statistique ne concernait que l’Île-de-France et que me conformant à cette demande je n’exploite pas l’entièreté des données SISE auxquelles nous avons accès (8,7 millions d’individus), mais seulement une fraction (1,5 millions d’individus avec plus de « trous » dans les parcours).
Les données SISE sont collectées par le service « statistiques » du ministère de l’Enseignement supérieur et de la Recherche, le SIES, à partir de remontées nominatives et obligatoires effectuées vers le 15 janvier depuis les établissements, avec comme source l’administration de la scolarité. Le cadre en a été donné par un arrêté paru au JO du 30 décembre 1994 (https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000000732949, l’art. 7 m’avait fait bondir à l’époque).
Antérieurement, à partir de 2017, j’avais exploité des données un peu plus riches – le grain est plus fin et on connaît l’établissement du bac – mais limitées à mon établissement universitaire. Voir : Données de scolarité de l'université Paris 13 - data.gouv.fr
Et plus récemment la maquette d’un service basé sur ces données : https://data.unif.app/ avec notamment une cartographie par lycée du bac (Oraccle OD // carte des établissements).
L’un de mes problèmes est que les données actuelles réclament quelques référentiels externes pour êtres décodés :
- celui des établissements d’enseignement français identifiés par UAI (unité administrative immatriculée) ainsi que leurs composantes (UAI filles), accessible sur un site du ministère de l’Éducation et de la Jeunesse mais sans que la licence soit claire et surtout sans historisation (les données sur les parcours référencent des établissements fermés ou ayant changé d’identifiant). J’envisage de créer un service (public) d’historisation des UAI en copiant ces données sur la durée. Est-ce une bonne idée ?
- celui des diplômes identifiés par un code SISE qui peut provenir d’une nomenclature nationale pour les diplômes nationaux ou d’une codification par les établissements eux-mêmes dans les autres cas. Je ne suis pas d’avis d’en fournir notre propre copie, même si ce référentiel est nécessaire pour l’intelligibilité de nos données.
- dans une moindre mesure des petits référentiels SISE, comme celui des spécialités du bac, qui n’est disponible qu’avec des libellés en majuscules sans diacritiques et mériterait une meilleure présentation ou encore celui des types de bac (8 valeurs possibles).
Je suis preneur de tout avis et critique sur la démarche !
*: Je me rends compte que bien que vous lisant depuis des années, c’est la première fois que je poste ici. Deux mots de présentation : je suis universitaire et je travaille sur différents sujets de mutualisation dans l’enseignement supérieur et la recherche en Île-de-France (où je ne vis plus).