je souhaite avoir accès aux données suivantes, situées sur le site de la sécurité routière.
Malheureusement, ces données sont sous un format PDF (ce ne sont pas des données compliquées, mais assez inexploitables dans ce cas).
Sachant que ces données sont de simples tableaux, je souhaiterais ainsi pouvoir demander à ce que ces données soient mises à disposition sous un autre format exploitable (csv, à la limite excel).
Quelle serait la meilleure façon de procéder :
prendre contact directement sur le site de la sécurité routière ?
demander à un tiers de faire la démarche (CADA, dododata.io, autre ???) ?
Si pas pressé… demande de communication du document bureautique original.
Si pressé: tabula (ou excalibur) pour récupérer les données depuis le PDF vous même… ce qui prendra sûrement beaucoup moins de temps… et que vous pourrez publier en opendata
J’ai trouvé une solution ! Je voulais tester ce que ça donnait avec un outil qui s’appelle PDFpen et j’ai trouvé que ça marchait mieux que Tabula sur ce cas là.
La difficulté ce sont les quelques cas où l’emplacement du radar est sur plusieurs lignes :
Pour avoir le détail exact des emplacements, il faut aller sur ce fichier le réseau de données opendatasoft qui a scrappé les données de https://radars.securite-routiere.gouv.fr/#/. Puis copier l’emplacement du radar.
Pour les radars fixes, c’est plus compliqué à corriger vu le nombre. J’en suis à la Haute-Garonne (31) mais ça me semble jouable de corriger le fichier entier. radars fixes 2017.csv (101,5 Ko)
La suite arrive donc… Dès que j’ai fini, je mets ça sur data.gouv.fr, ça les forcera à ouvrir les données pour de vrai.
J’ai finalement pris le temps d’extraire les données en utilisant Tabula (PDFpen ne semble utilisable que sur Mac).
Il n’y a globalement que les données de 2017 qui posaient problème, et en utilisant les fichiers des autres années, on arrive à retrouver ses petits.
Les données sont maintenant dispo sur data.gouv.fr