Les données UBER en open data


(jmbourgogne) #1

La presse nous a sollicité récemment pour connaitre les données publiées par UBER en open data. Sans avoir fait un gros travail de recherche, je peux cependant vous donner un état succinct :
-UBER a lancé fin 2017 une démarche d’open data (sans doute pour redorer leur blason) : UBER MOVEMENT.
Il s’agit de données anonymisées, principalement les temps de trajet de point à point (carte isochrone). L’offre n’est accessible actuellement en France que pour Paris et sa banlieue. La licence est CC-BY-NC (creative commun, paternité, non commercial). Cela permet de connaitre les trajets UBER et par déduction, l’état du trafic : le taux d’embouteillage, les éventuels détournements pour cause de travaux, etc.
C’est « un service destiné aux municipalités et aux services publics, "comme une aide à la prise de décision en matière d’investissement public ».

Notez aussi :


(Boris Mericskay) #2

Bonjour je me permet d’apporter quelques précisions pour venir compléter le sujet.

Les données disponibles sur Uber Movements sont des données relatives au trafic routier de plusieurs grandes villes de monde (collectées par les VTC et agrégées et anonymisées par Uber). Du coup on ne peux pas connaître les trajets de Uber à travers ces données. Il ne s’agit pas de traces des trajets mais de l’agrégation des temps de trajets à des échelles assez grossières.

Actuellement il existe deux grand types de données disponibles sur le service :

  • des données sur les vitesses moyennes de tronçons routiers (en beta) qu’il faut associer à des référentiels géographiques OSM et qui présentent des vitesses moyennes par heures, jour, semaine sur des périodes de 4 mois

  • Des données sur des temps de trajets de zones à zones (IRIS dans Paris et commune en première couronne) qui présentent des temps moyens,min et max

Contrairement à ce qu’on peux croire et à ce qui est affiché sur la plateforme ces données sont difficilement analysables et surtout exploitables dans une optique de diagnostic ou d’aide à la décision. En effet ce sont avant tout des fichiers plats (csv) qui sont mis à disposition, il faut donc un travail de jointure avec des référentiels géographiques qui ne sont pas très précis avec des échelles comme l’IRIS ou la commune. De plus le volume de données et la manière dont elles sont structurées (à plat) peut vite limiter les analyses, pour exemple les données agrégées des temps moyens de déplacement heure par heure pour quatre mois nécessite un travail fastidieux de préparation des données en amont qu’assez peu de personnes sont capacités de prendre en main.En gros un simple SIG ne suffit pas.

En revanche la plateforme est très efficace pour visualiser à la volée des temps de parcours et les comparer sur des heures et des dates différentes.

Pour terminer sur le sujet Uber, il convient de rajouter quelques petits points très peu abordés et pourtant vecteurs de réels avancées et transformation dans le monde des données :

  • Uber à mis en place depuis un peu plus d’un an son propre système d’indexation spatial de données. Pour la faire très simple c’est juste hallucinant de voir comment cette société s’affranchit de ce qui existe depuis des dizaines d’années et développe sans aucun problème de nouvelles solutions pour répondre à ses propres besoins.

  • Uber développe en ce sens depuis quelques temps toute une série de solutions (en open source) dédiées à la visualisation, la géovisualisation et l’analyse spatiale de données volumineuses à l’image de vis.gl, deck.gl ou encore kepler.gl qui viennent modifier les manières d’aborder les question de visualisation de données et donner un coup de vieux à tous ce qui existe déjà.

Bref comme j’aime à l’expliquer aux étudiants Uber c’est pas juste une plateforme de VTC c’est vraiment un acteur majeur de la donnée qui bien au-delà de produire et diffuser des données intéressantes renouvelle les manières de les traiter, les analyser et les visualiser, je conseille si vous êtes curieux de suivre le blog de Uber Engineering :wink:


(Samuel Goëta) #3

On ne peut pas dire qu’elles sont en open data avec l’interdiction des usages commerciaux, cf https://opendefinition.org/