Possible mise à disposition de données automobiles

Bonjour,

Dans le cadre de nos recherches et analyses sur des données d’immatriculations automobiles, nous avons l’opportunité de mettre à disposition gratuitement certaines de ces données agrégées.

En premier lieu nous envisagions de publier le nombre de véhicules électrifiés à la maille communale tous les semestres. Mais cette première idée n’est pas immuable.

En tant que consommateur open data y voyez-vous un intérêt ? Quelles données supplémentaires souhaiteriez-vous utiliser (énergie, carrosserie …) ? Quelle granularité temporelle (annuelle / semestre / trimestre ?).

En attente de vos retours,

Nicolas

1 « J'aime »

Bonjour,
Pour ma part, dans le cadre d’un projet d’atlas en ligne des aires urbaines, des données trimestrielles à l’échelle communale pourraient donner lieu à des contenus éditoriaux intéressants.
Quel serait le mode de diffusion de ces données ?

Et pourquoi ne pas diffuser les données brutes, expurgées de ce qui est personnel ?

Pas d’info sur le propriétaire, et hop.

1 « J'aime »

Bonjour,

Merci pour votre réponse,
nous envisagions le dépôt d’un fichier structuré type csv sur la plateforme data.gouv.

1 « J'aime »

Bonjour,

Pouvez-vous expliciter les données brutes auxquelles vous pensez ?
Nous sommes contraints par des licences qui interdisent une rediffusion gratuite des données brutes.

Bonjour,

Je travaille en collectivité et l’analyse de l’électrification du parc automobile nous intéresse particulièrement. L’ouverture des données à la maille communale nous serait à ce titre très utile !

Bonjour,

Merci pour vos retours, le jeu de données a été mis en ligne sur :

On peut aussi le trouver sur data.gouv.fr
Voitures particulières immatriculées par commune et par type de recharge - data.gouv.fr

Le jeu de données est mis à jour tous les trimestres.
Bonne journée

5 « J'aime »

Bonjour,

J’ai regardé les données mises à disposition et en réponse à votre question, voici une rapide analyse du fichier CSV :

Bilan en terme de données :

  • la taille du fichier est de 1 Go
  • le taux d’unicité (nombre de valeurs différentes / nombre de valeurs) est de 30% (70% des données sont dupliquées)
  • la taille moyenne d’une valeur est de 570 octets

Bilan en terme de structure :

Sul les 1000 premières lignes :

  • LIBGEO, CODGEO, commune_geom et commune_centroid sont couplés (relation 1:1)
  • LIBEPCI et EPCI sont couplés (relation 1:1)
  • EPCI est dérivé de CODGEO (relation 1:n)

Sur les 3000 premières lignes, les résultats sont différents :

  • LIBGEO est dérivé de CODGEO (et non plus couplé)
  • commune_geom est dérivé de CODGEO (et non plus couplé)

Par exemple, les écarts constatés entre LIBGEO et CODGEO sont les suivants (pour les 3000 premières lignes) :
(‹ 24464 ›, ‹ SAINT-MESMIN ›), (‹ 21563 ›, ‹ SAINT-MESMIN ›),
(‹ 21568 ›, ‹ SAINT-RÉMY ›), (‹ 24494 ›, ‹ SAINT-RÉMY ›),
(‹ 21571 ›, ‹ SAINT-SAUVEUR ›), (‹ 24499 ›, ‹ SAINT-SAUVEUR ›),
(‹ 22999 ›, ‹ FORAINS ›), (‹ 21999 ›, ‹ FORAINS ›), (‹ 23999 ›, ‹ FORAINS ›),
(‹ 21555 ›, ‹ SAINT-JULIEN ›), (‹ 22307 ›, ‹ SAINT-JULIEN ›)

L’analyse qui peut être faite de ces résultats est la suivante :

  • la taille du fichier est importante et continuera à grossir avec l’ajout de nouveaux trimestres
  • il en est de même du taux d’unicité qui va continuer à ce dégrader
  • la principale cause de ce volume est d’une part la présence des polygones très volumineux et d’autre part le fait d’avoir à les dupliquer sur plusieurs lignes
  • en terme de structure, je ne sais pas interpréter ce que représente le fait d’avoir plusieurs CODGEO pour un même LIBGEO ou pour une même commune_geom.

Enfin, en terme d’amélioration, il serait peut-être intéressant de :

  • ne pas fournir les polygones communaux mais uniquement un lien vers un fichier les contenant
  • partager l’information sous un format qui évite la duplication (cf outils qui fournissent des données JSON non dupliqués). A titre d’exemple, toujours avec les 3000 premières lignes, on passerait d’un volume de 19 Mo à 9 Mo.
  • décrire sous la forme d’un modèle de données les cardinalités qui devraient exister entre chaque champs de façon a pouvoir simplement s’assurer que les données respectent bien le modèle défini.

Bonne journée

PJ : fichier d’analyse
vehicule-energie.py (1,2 Ko)

1 « J'aime »

Oui… normal… il y a des communes homonymes en France, y compris au sein d’un même département.

Le seul identifiant qui vaille est le code INSEE de la commune (CODGEO)… couplé à l’année afin de gérer les fusions de communes qui conservent l’ancien code de la commune « chef-lieu » comme code de la nouvelle commune.

Fournir les géométries des communes dans un tel fichier n’apporte pas grand chose et énormément de redondance.

1 « J'aime »

Je suis d’accord avec la réponse.

J’en ai profité également pour regarder les écarts entre CODGEO et le centroïde du polygone et on obtient les écarts suivants (en ajoutant LIBGEO pour avoir un libellé):
[(’’, ‹ 22999 ›, ‹ FORAINS ›),
(’’, ‹ 22999 ›, ‹ FORAINS ›),
(’’, ‹ 22999 ›, ‹ FORAINS ›),
(’’, ‹ 24997 ›, ‹ NON IDENTIFIE ›),
(’’, ‹ 24997 ›, ‹ NON IDENTIFIE ›),
(’’, ‹ 24997 ›, ‹ NON IDENTIFIE ›),
(’’, ‹ 24997 ›, ‹ NON IDENTIFIE ›),
(’’, ‹ 21999 ›, ‹ FORAINS ›),
(’’, ‹ 21999 ›, ‹ FORAINS ›),
(’’, ‹ 21999 ›, ‹ FORAINS ›),
(’’, ‹ 23999 ›, ‹ FORAINS ›),
(’’, ‹ 23999 ›, ‹ FORAINS ›)]
→ la correspondance est donc bien correcte (je suppose que FORAINS correspond à des zones non identifiées ou provisoires)

Bonne journée

Oui, les codes INSEE ont été attribués séquentiellement, donc aucun ne se termine par 99x car il y a maximum 400/500 communes dans un département (et nettement moins d’une centaine dans les DOM).

Bonjour,
Merci pour ces données !

Est-ce que vous avez regardé potentiellement rajouter l’age moyen des véhicules sur la commune ? Cela pourrait donner un éclairage additionnel.

Merci encore !

Bonjour,

Je me permets de compléter ce fil avec cette publication que l’on m’a fait découvrir récemment, le SDES mets à disposition quelques agrégats issus du SIV.

Ce n’est pas le seul problème : disposer du couple véhicule / immatriculation pose des problèmes d’usurpation d’identité ou de maquillage de véhicules.
Je ne sais pas si une réglementation spécifique existe à cet égard, peut-être que l’immatriculation elle-même est considérée comme personnelle et devra être supprimée.

2 « J'aime »