Bonjour,
J’ai regardé les données mises à disposition et en réponse à votre question, voici une rapide analyse du fichier CSV :
Bilan en terme de données :
- la taille du fichier est de 1 Go
- le taux d’unicité (nombre de valeurs différentes / nombre de valeurs) est de 30% (70% des données sont dupliquées)
- la taille moyenne d’une valeur est de 570 octets
Bilan en terme de structure :
Sul les 1000 premières lignes :
- LIBGEO, CODGEO, commune_geom et commune_centroid sont couplés (relation 1:1)
- LIBEPCI et EPCI sont couplés (relation 1:1)
- EPCI est dérivé de CODGEO (relation 1:n)
Sur les 3000 premières lignes, les résultats sont différents :
- LIBGEO est dérivé de CODGEO (et non plus couplé)
- commune_geom est dérivé de CODGEO (et non plus couplé)
Par exemple, les écarts constatés entre LIBGEO et CODGEO sont les suivants (pour les 3000 premières lignes) :
(‹ 24464 ›, ‹ SAINT-MESMIN ›), (‹ 21563 ›, ‹ SAINT-MESMIN ›),
(‹ 21568 ›, ‹ SAINT-RÉMY ›), (‹ 24494 ›, ‹ SAINT-RÉMY ›),
(‹ 21571 ›, ‹ SAINT-SAUVEUR ›), (‹ 24499 ›, ‹ SAINT-SAUVEUR ›),
(‹ 22999 ›, ‹ FORAINS ›), (‹ 21999 ›, ‹ FORAINS ›), (‹ 23999 ›, ‹ FORAINS ›),
(‹ 21555 ›, ‹ SAINT-JULIEN ›), (‹ 22307 ›, ‹ SAINT-JULIEN ›)
L’analyse qui peut être faite de ces résultats est la suivante :
- la taille du fichier est importante et continuera à grossir avec l’ajout de nouveaux trimestres
- il en est de même du taux d’unicité qui va continuer à ce dégrader
- la principale cause de ce volume est d’une part la présence des polygones très volumineux et d’autre part le fait d’avoir à les dupliquer sur plusieurs lignes
- en terme de structure, je ne sais pas interpréter ce que représente le fait d’avoir plusieurs CODGEO pour un même LIBGEO ou pour une même commune_geom.
Enfin, en terme d’amélioration, il serait peut-être intéressant de :
- ne pas fournir les polygones communaux mais uniquement un lien vers un fichier les contenant
- partager l’information sous un format qui évite la duplication (cf outils qui fournissent des données JSON non dupliqués). A titre d’exemple, toujours avec les 3000 premières lignes, on passerait d’un volume de 19 Mo à 9 Mo.
- décrire sous la forme d’un modèle de données les cardinalités qui devraient exister entre chaque champs de façon a pouvoir simplement s’assurer que les données respectent bien le modèle défini.
Bonne journée
PJ : fichier d’analyse
vehicule-energie.py (1,2 Ko)