Ma vie sans papier (1)

Ça fait des années que j’ai­me­rais pouvoir mettre la pile de cour­rier admi­nis­tra­tifs dans le scan­ner, que ça scanne, annote et classe chaque PDF au bon endroit.

Plus qu’à mettre la pile dans « cour­riers trai­tés le … ». Si j’ai vrai­ment besoin d’un origi­nal (ça n’ar­rive en réalité jamais) il suffit de récu­pé­rer la date de trai­te­ment du PDF pour récu­pé­rer le docu­ment.


En réalité ça n’a jamais eu lieu. Je n’ai jamais vu passer de logi­ciel qui tente de préclas­ser les PDF en fonc­tion de leur contenu.

De mon côté je n’avais qu’un scan­ner à plat et… ça prenait des plombes quoi que je fasse. Je trai­tais de toutes façons chaque cour­rier à la main donc faire le clas­se­ment ne me coûtait pas beau­coup plus cher.

Depuis j’ai changé d’im­pri­mante et j’ai mis les quelques dizaines d’eu­ros supplé­men­taires pour avoir un char­geur auto­ma­tique avec scan­ner recto-verso. Je suis paré.


Je ne déses­père pas de voir un logi­ciel qui fasse déjà tout ce que j’es­père. À défaut j’ai déjà en tête un début de procé­dure :

  1. Passer le bloc de cour­riers dans le scan­ner, récu­pé­rer un fichier PDF unique.
  2. Passer le PDF à l’OCR pour avoir le contenu de chaque page indé­pen­dam­ment.
  3. À partir de quelques règles simples, faire une préclas­si­fi­ca­tion (« banque » et « société géné­rale » parce qu’il y a l’en­tête de la sogé, puis « compte courant » et « éric » parce qu’il y a le numéro de mon compte person­nel, puis trou­ver la date du relevé). Le plus complexe sera d’as­so­cier les diffé­rentes pages d’un même cour­rier, mais des règles de base pour­ront proba­ble­ment être suffi­santes. J’ai l’im­pres­sion que je peux faire 80% du boulot ainsi en auto­ma­tique.
  4. Présen­ter une GUI avec chaque page (ou groupe de pages) sous forme de vignettes, les clas­si­fi­ca­tions trou­vées, et permettre de corri­ger rapi­de­ment si néces­saire.
  5. En sortie, décou­per le PDF, ajou­ter le texte d’OCR sur chaque page pour permettre l’in­dexa­tion, opti­mi­ser, redres­ser, et sauve­gar­der chaque fichier au bon endroit avec une conven­tion de nommage.

Je ne sais pas si j’irai jusque là. J’es­père que d’autres ce seront tapés le boulot avant moi.

Pour l’ins­tant j’ai une première étape : extraire le texte, opti­mi­ser et redres­ser le PDF.

ocrmypdf --output-type pdf --rotate-pages  -l fra --deskew --clean --skip-text --optimize 1 test.pdf test.pdf


Publié

dans

par

Étiquettes :

Commentaires

Une réponse à “Ma vie sans papier (1)”

  1. Avatar de Loïc Lacombe
    Loïc Lacombe

    Bonjour,
    Il y a un logiciel libre qui ambitionne exactement cet objectif et que j’utilise depuis bientôt 2 ans : PaperWork (https://openpaper.work/). Ça scanne les documents sous forme d’images et on peut ajouter des tags ainsi que des dates aux documents. Le texte des documents est mis dans un index pour des recherches rapides.
    Une fois qu’on a scanné une bonne quantité de documents, un filtre statistique attribue automatiquement les tags.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *