Reconnaissance de caractères et fichiers pdf

Bonjour,

Qu’utiliseriez-vous pour faire de la reconnaissance de caractères (d’imprimerie) depuis des fichiers pdf ou des images ?

Je serais éventuellement intéressé aussi par une fonctionnalité qui permettrait de se rappeler de la position des caractères sur l’image. Afin de reconstituer des tableaux, par exemple.

Merci,

Nathann

J’avais fait ce genre de choses pour un datacamp sur les limites des bureaux de votes sur des PDF scannés.

  1. conversion des PDF en tiff (avec imagemagick)
  2. extraction texte par ocr avec tesseract

Voir: https://github.com/cadastre-electoral/datacamp-2016-11-05/tree/master/cquest/arretes

Si les PDF ne sont pas des scans, il y a tabula qui permet de se passer d’ocr: http://tabula.technology/

1 « J'aime »

Tu peux rajouter textcleaner (autre utilitaire intégré à imagemagick) qui améliore les résultats http://vbridge.co.uk/2012/11/05/how-we-tuned-tesseract-to-perform-as-well-as-a-commercial-ocr-package/
Il y a d’autres articles plus complet sur cet usage en cherchant sur un moteur de recherche.

Merci beaucoup pour vos conseils, en particulier pour Tabula et Textcleaner !