Est-ce la fin du format CSV?

col1m · Avril 13, 2024, 3:15

Bonjour !

J’ai testé le parquet OpenDataSoft sur les données augmentées des marchés publics.

Et gros soucis : les types de données ne sont pas bons. Les SIRETs sont typés comme float, ce qui signifie une perte potentielle de données si un SIRET commence par un zéro (pas sûr que ce soit possible… mais bon). Je soupçonne que le fichier est généré automatiquement, puisque les SIRETs et autres codes 100 numériques sont souvent mal typés par défaut (dans pandas par exemple).

Test d’un pd.DataFrame.info() sur le parquet en question, en gardant que les lignes qui contiennent « float » :

1   titulaire_id_1                      834699 non-null  float64
 4   titulaire_id_2                      62210 non-null   float64
 7   titulaire_id_3                      31404 non-null   float64
 12  dureemois                           837115 non-null  float64
 18  montant                             837095 non-null  float64
 34  offresrecues                        2280 non-null    float64
 40  origineue                           291 non-null     float64
 41  originefrance                       291 non-null     float64
 46  booleanmodification                 837095 non-null  float64
 48  dureemoismodification               58553 non-null   float64
 51  montantmodification                 80330 non-null   float64
 53  idmodification                      194 non-null     float64

SIRET en float (titulaire_id_x), identifiant métier en float (idmodification), mois ça me donne pas confiance, je prends le CSV dans ces conditions.