Les problèmes d'inefficacité auxquels sont confrontés les "data scientists"

J’ai trouvé cette lecture très inspirante "What are the greatest inefficiencies data scientists face today?"
TLDR: savoir nettoyer de la donnée fait partie du rôle, se poser les bonnes questions sur la donnée aussi.
D’ailleurs, cela rejoint la question de “l’utilité” de la donnée qui se pose pour "créer des services innovants"
Du grain à moudre dans cet article :slight_smile: et s’appliquant à la donnée en général sans un focus spécifique #opendata

1 « J'aime »

Complétement d’accord avec tout ça, des qu’on cherche à vouloir donner du sens aux données il y a un gros travail de préparation mais aussi de compréhension des jeux de données.

Il ne faut pas perdre de vue que si les données sont peu voire pas structurées de fait les usages seront limités et surtout restreints à certaines personnes en capacité d’en faire quelque chose, type “data scientists”, développeurs ou géomaticiens.

Je trouves dommage que ces questions ne soient pas plus discutées alors qu’elle sont au cœur du processus d’ouverture des données. Ouvrir des données c’est bien mais pour qui ? pourquoi faire ? et surtout à quoi servent les données ouvertes ? Des fois on peux se poser la question :wink:

Malheureusement on ouvre souvent ce qu’on a et ce qu’on a n’est pas toujours bien joli, bien structuré et bien lié à des référentiels.

Un exemple (un peu ancien) avec les arrêts de bus de la RATP…

La première version mise en opendata par la RATP était de très mauvaise qualité. Des arrêts placés à des positions qui avaient changé pour certains 10 ans plus tôt (et pas de quelques metres, je parle de 2 pâtés de maison).
Après quelques échanges, il s’avère qu’ils avaient 6 bases avec des arrêts de bus, utilisées par 6 métiers différents.

A part les rares cas où lors de leur ouverture des données sont dégradées (le plus souvent involontairement), ils révèlent souvent une mauvaise gestion interne qui du coup révèle aussi la sous utilisation de ces données aussi en interne !

La culture de la donnée (structurée, etc) est encore bien minoritaire face à celle du document, et les usages bureautiques l’emportent sur une véritable logique informatique.

2 « J'aime »