Reconnaissance de caractères et fichiers pdf

nathann · Mars 18, 2018, 11:02

Bonjour,

Qu’utiliseriez-vous pour faire de la reconnaissance de caractères (d’imprimerie) depuis des fichiers pdf ou des images ?

Je serais éventuellement intéressé aussi par une fonctionnalité qui permettrait de se rappeler de la position des caractères sur l’image. Afin de reconstituer des tableaux, par exemple.

Merci,

Nathann

cquest · Mars 18, 2018, 3:00

J’avais fait ce genre de choses pour un datacamp sur les limites des bureaux de votes sur des PDF scannés.

conversion des PDF en tiff (avec imagemagick)
extraction texte par ocr avec tesseract

Voir: https://github.com/cadastre-electoral/datacamp-2016-11-05/tree/master/cquest/arretes

Si les PDF ne sont pas des scans, il y a tabula qui permet de se passer d’ocr: http://tabula.technology/

ThomasG77 · Mars 20, 2018, 5:52

Tu peux rajouter textcleaner (autre utilitaire intégré à imagemagick) qui améliore les résultats http://vbridge.co.uk/2012/11/05/how-we-tuned-tesseract-to-perform-as-well-as-a-commercial-ocr-package/
Il y a d’autres articles plus complet sur cet usage en cherchant sur un moteur de recherche.

nathann · Mars 20, 2018, 7:40

Merci beaucoup pour vos conseils, en particulier pour Tabula et Textcleaner !