Quel specs de laptop économique assez puissant pour traiter nos grosses tables sur Excel?

philgib · Juin 11, 2021, 8:45

Bonjour,

Je travaille depuis peu en télétravail sur des tables assez larges, aux limites d’Excel, que j’exporte en suite sur Mysql pour les traiter en PHP.

J’en suis au million de lignes pour un seul département, et je vais devoir travailler sur une voire sur plusieurs régions, donc un département par onglet et encore

Je suis conscient des limites d’Excel ( 1 048 000 lignes ).

De plus mon matos est très vieux ( Excel 2010, laptop Asus 4 coeurs 4 gigas,Windows 8, etc… ) et je suis obligé de « saucissonner » les fichiers JSON, CSV ou autres pour pouvoir les traiter sans crasher.

Je m’inquiète pour Excel, Microsoft devrait encore sortir une version standalone en 2021 mais je crains que 365 soit la ensuite la règle.

Openoffice max 32 000 lignes, on oublie…

Quel matériel utilisez-vous typiquement pour traiter vos gros fichiers, et quels logiciels ?

Merci

cquest · Juin 11, 2021, 9:40

Le problème n’est pas le matériel, mais le logiciel utilisé (Excel) qui n’est pas adapté à ce genre d’usage. Les outils bureautique (office and co) ne sont pas conçus pour traiter ces volumétries de données.

Il est temps de passer à autre chose et de sortir des outils

Quels types de traitements sont faits ? La réponse permettra un aiguillage vers quelque chose de plus adapté.

philgib · Juin 11, 2021, 10:08

Merci pour votre réponse.

Le processus est le suivant
=> Ouverture fichiers json ou ndjson sous editeur de texte
=> « saucissonage » ( découpe de gros fichiers en plus petits pour qu’EXCEL puisse les ouvrir )
=> Importation dans EXCEL
=> Extraction des données ndjson, json ou CSV sous EXCEL
=> Choix de certaines colonnes
=> calculs ( distance entre 2 points GPS par exemple )
=> sauvegarde finale sous CSV
=> exportation vers base MySQL ( OVH,etc… )
=> interrogations par formulaires HTML / Javascript / PHP / MYSQL

Je fais la totalité moi-même, et cela peut devenir… fastidieux !

Je suis en train de me dire que je pourrais éviter tout cela en programmant un parser PHP de fichiers NDJSON, JSON ou CSV qui écrirait directement dans la base MySQL

nicolas-bonnel · Juin 11, 2021, 10:38

Bonjour,

Pour le traitement de données volumineuses, si vous l’attaquez avec de la programmation, la question est de savoir si vous pouvez traiter les données en flux (stream), ou si vous devez les monter en mémoire (par exemple pour utiliser les structures comme les dictionnaires).

D’après ce que vous décrivez, un traitement en flux semble possible (les calculs ont l’air d’etre local à la ligne, et en plus vous saucissonnez déjà les données). De plus, les formats ndjson et csv sont particulièrement adapté à des traitements en flux (c’est un peu plus compliqué avec du json mais c’est faisable).

Je ne suis pas expert en php, mais si c’est votre langage de prédilection, il peut être intéressant de regarder ce lien : PHP: Flux - Manual

cquest · Juin 11, 2021, 11:05

Dans ma caisse à outils habituelle j’ai :

jq: pour la manipulation de fichiers json
postgresql: qui lui aussi permet de manipuler directement du json, ainsi que des données géographiques (ce qui n’est pas le fort de mysql)
python: pour des traitements plus poussés

Pour faire le traitement indiqué, j’aurai procédé ainsi :

import des données ndjson dans une table temporaire de la base SQL (mysql ou postgresql)
sélection des colonnes utiles et création de la table finale (requêtes SQL directes)
calculs supplémentaires (idem)

Moins d’étapes et aucune répétitive (pour un humain)… et tout est scriptable.

philgib · Juin 11, 2021, 12:16

Oui en effet je crois que ce processus est plus intéressant car également scalable.
Merci pour cette suggestion

philgib · Juin 11, 2021, 12:18

Merci Nicolas j’ai regardé mais ouf la learning curve semble être plutôt pentue …