Bonjour !
J’ai testé le parquet OpenDataSoft sur les données augmentées des marchés publics.
Et gros soucis : les types de données ne sont pas bons. Les SIRETs sont typés comme float, ce qui signifie une perte potentielle de données si un SIRET commence par un zéro (pas sûr que ce soit possible… mais bon). Je soupçonne que le fichier est généré automatiquement, puisque les SIRETs et autres codes 100 numériques sont souvent mal typés par défaut (dans pandas par exemple).
Test d’un pd.DataFrame.info()
sur le parquet en question, en gardant que les lignes qui contiennent « float » :
1 titulaire_id_1 834699 non-null float64
4 titulaire_id_2 62210 non-null float64
7 titulaire_id_3 31404 non-null float64
12 dureemois 837115 non-null float64
18 montant 837095 non-null float64
34 offresrecues 2280 non-null float64
40 origineue 291 non-null float64
41 originefrance 291 non-null float64
46 booleanmodification 837095 non-null float64
48 dureemoismodification 58553 non-null float64
51 montantmodification 80330 non-null float64
53 idmodification 194 non-null float64
SIRET en float (titulaire_id_x
), identifiant métier en float (idmodification
), mois ça me donne pas confiance, je prends le CSV dans ces conditions.