Ça fait des années que j’aimerais pouvoir mettre la pile de courrier administratifs dans le scanner, que ça scanne, annote et classe chaque PDF au bon endroit.
Plus qu’à mettre la pile dans « courriers traités le … ». Si j’ai vraiment besoin d’un original (ça n’arrive en réalité jamais) il suffit de récupérer la date de traitement du PDF pour récupérer le document.
En réalité ça n’a jamais eu lieu. Je n’ai jamais vu passer de logiciel qui tente de préclasser les PDF en fonction de leur contenu.
De mon côté je n’avais qu’un scanner à plat et… ça prenait des plombes quoi que je fasse. Je traitais de toutes façons chaque courrier à la main donc faire le classement ne me coûtait pas beaucoup plus cher.
Depuis j’ai changé d’imprimante et j’ai mis les quelques dizaines d’euros supplémentaires pour avoir un chargeur automatique avec scanner recto-verso. Je suis paré.
Je ne désespère pas de voir un logiciel qui fasse déjà tout ce que j’espère. À défaut j’ai déjà en tête un début de procédure :
- Passer le bloc de courriers dans le scanner, récupérer un fichier PDF unique.
- Passer le PDF à l’OCR pour avoir le contenu de chaque page indépendamment.
- À partir de quelques règles simples, faire une préclassification (« banque » et « société générale » parce qu’il y a l’entête de la sogé, puis « compte courant » et « éric » parce qu’il y a le numéro de mon compte personnel, puis trouver la date du relevé). Le plus complexe sera d’associer les différentes pages d’un même courrier, mais des règles de base pourront probablement être suffisantes. J’ai l’impression que je peux faire 80% du boulot ainsi en automatique.
- Présenter une GUI avec chaque page (ou groupe de pages) sous forme de vignettes, les classifications trouvées, et permettre de corriger rapidement si nécessaire.
- En sortie, découper le PDF, ajouter le texte d’OCR sur chaque page pour permettre l’indexation, optimiser, redresser, et sauvegarder chaque fichier au bon endroit avec une convention de nommage.
Je ne sais pas si j’irai jusque là. J’espère que d’autres ce seront tapés le boulot avant moi.
Pour l’instant j’ai une première étape : extraire le texte, optimiser et redresser le PDF.
ocrmypdf --output-type pdf --rotate-pages -l fra --deskew --clean --skip-text --optimize 1 test.pdf test.pdf
Laisser un commentaire