Données sur les parcours d'études (en île-de-France)

Hello la teamopendata !

Je poste – pour la première fois* — pour vous parler d’un dada dont voici un premier aboutissement : la publication de données ouvertes sur les parcours d’études dans l’enseignement supérieur. Ce qui m’intéresse est votre avis, notamment sur la méthode employée.

L’idée est de suivre les inscriptions et les réussites de chaque étudiant·e d’année en année (on simplifie en ne tenant compte chaque année universitaire que de l’inscription principale). La donnée produite – le parcours d’étude – est plus symbolique que numérique. Bien que communiquée en cohortes (parcours identiques) avec un effectif numérique, la donnée numérique est tronquée par une espèce de variante de la k-anonymistion où l’on conserve les cohortes avec un effectif inférieur à k = 5 sans en communiquer l’effectif. De même les attributs de la cohorte sont effacés lorsqu’ils sont rares. Ceci pour éviter les réidentifications. Je crois savoir que les bonnes pratiques de l’open data évoluent plutôt dans ce genre de cas vers une simple pseudonymisation, mais pour le moment nous restons conservateurs, ce qui a pour effet de rendre impossible toute exploitation numérique sérieuse de nos données.

Je viens de publier le premier jeu de données issus d’une exploitation des données SISE. Vous trouverez plus d’explications dans la notice, certainement encore imparfaite.

J’ai volontairement limité l’extraction aux académies d’Île-de-France, car le projet qui porte l’action (https://oraccle.fr) dans laquelle s’inscrit cette ouverture réunit les principaux établissements supérieurs d’Île-de-France, pas au-delà. C’est pourquoi notre demande d’accès aux données auprès du comité du secret statistique ne concernait que l’Île-de-France et que me conformant à cette demande je n’exploite pas l’entièreté des données SISE auxquelles nous avons accès (8,7 millions d’individus), mais seulement une fraction (1,5 millions d’individus avec plus de « trous » dans les parcours).

Les données SISE sont collectées par le service « statistiques » du ministère de l’Enseignement supérieur et de la Recherche, le SIES, à partir de remontées nominatives et obligatoires effectuées vers le 15 janvier depuis les établissements, avec comme source l’administration de la scolarité. Le cadre en a été donné par un arrêté paru au JO du 30 décembre 1994 (https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000000732949, l’art. 7 m’avait fait bondir à l’époque).

Antérieurement, à partir de 2017, j’avais exploité des données un peu plus riches – le grain est plus fin et on connaît l’établissement du bac – mais limitées à mon établissement universitaire. Voir : Données de scolarité de l'université Paris 13 - data.gouv.fr
Et plus récemment la maquette d’un service basé sur ces données : https://data.unif.app/ avec notamment une cartographie par lycée du bac (Oraccle OD // carte des établissements).

L’un de mes problèmes est que les données actuelles réclament quelques référentiels externes pour êtres décodés :

  • celui des établissements d’enseignement français identifiés par UAI (unité administrative immatriculée) ainsi que leurs composantes (UAI filles), accessible sur un site du ministère de l’Éducation et de la Jeunesse mais sans que la licence soit claire et surtout sans historisation (les données sur les parcours référencent des établissements fermés ou ayant changé d’identifiant). J’envisage de créer un service (public) d’historisation des UAI en copiant ces données sur la durée. Est-ce une bonne idée ?
  • celui des diplômes identifiés par un code SISE qui peut provenir d’une nomenclature nationale pour les diplômes nationaux ou d’une codification par les établissements eux-mêmes dans les autres cas. Je ne suis pas d’avis d’en fournir notre propre copie, même si ce référentiel est nécessaire pour l’intelligibilité de nos données.
  • dans une moindre mesure des petits référentiels SISE, comme celui des spécialités du bac, qui n’est disponible qu’avec des libellés en majuscules sans diacritiques et mériterait une meilleure présentation ou encore celui des types de bac (8 valeurs possibles).

Je suis preneur de tout avis et critique sur la démarche !

*: Je me rends compte que bien que vous lisant depuis des années, c’est la première fois que je poste ici. Deux mots de présentation : je suis universitaire et je travaille sur différents sujets de mutualisation dans l’enseignement supérieur et la recherche en Île-de-France (où je ne vis plus).

1 « J'aime »

Merci pour le partage. Pas de remarque pour le moment.

1 « J'aime »

@pierreboudes, désolé de répondre si tardivement à ton message ! Tout d’abord bravo et merci pour cette publication d’un premier jeu de données, c’est super. Ça fait toujours plaisir de voir des gens qui jouent le jeu !

Sur les UAI, je pense que ce serait un grand service rendu à la communauté que de créer et maintenir des outils d’exploitation de ce référentiel donc j’ai l’impression qu’il ne s’assume pas comme tel. Donc très favorable à ton idée d’historicisation du référentiel (ce qui permettra peut-être aussi de le distribuer sous forme d’API, de l’enrichir, etc.).

Plus largement, pour avoir un peu exploré ce domaine ces derniers temps, j’ai l’impression que le champ de la formation et de l’éducation est vraiment une jungle en matière de référentiels. Ce serait vraiment précieux d’avoir de meilleurs outils…

1 « J'aime »

Effectivement pour le primaire et le secondaire, il y a un peu de ménage à faire. Pour le supérieur, je ne sais pas, je n’ai pas pratiqué les données.

Il n’y a pas de quoi, c’est exactement ce pourquoi j’aime les modes de communication qui permettent de se concentrer pour un sujet, on peut revenir à l’échange longtemps après.

Merci pour ton retour, je vais écrire un petit service avec API pour collecter/historiser les UAI. Je ferai quelque chose avec une BDD, mais j’ai bien envie d’exporter aussi vers un git pour suivre à plat les modifications. Je ne promets rien en termes de délai.

Pour le moment, j’essaie de trouver une notion de distance pas trop mauvaise entre multi-ensembles pour former des clusters de formations et rendre les données plus faciles à appréhender avec différents facteurs de zoom. Malheureusement avec trop peu de temps fléché sur le sujet.

De quoi remonter 4 ans en arrière…

http://files.opendatarchives.fr/data.education.gouv.fr/archives/fr-en-adresse-et-geolocalisation-etablissements-premier-et-second-degre/

Ce jeu de données a l’air très vivant !

2 « J'aime »

Top @pierreboudes. Si tu as besoin d’un beta testeur je suis ton homme, et je peux aussi passer du temps avec toi sur un atelier pour travailler sur la définition d’une distance (j’ai essayé des embeddings sur des données différentes mais pas très éloignées et ça marche vraiment pas mal).

tu les as utilisées dans le cadre d’OSM ?

Oui, on les utilise beaucoup dans le cadre OSM.

Merci pur ta proposition ! Je te tiendrai au courant de mon avancement et on pourra déterminer ensemble quand ce sera le meilleur moment pour échanger.