OCR et Linux et abbyyocr
Introduction
On peut dire ce que l'on veut, mais le domaine de l'OCR (Optical Character Recognition - en français ROC - Reconnaissance Optique de Caratères) est un des domaines dans lequel Linux est le plus en retard par rapport aux logiciels propriétaires... hélas. Néanmoins voici une petite revue de ce que j'ai trouvé sur le sujet.
En ligne de commande
- gocr
- gocr-gtk
- cuneiform
- ocrad
- tesseract
- tesseract-ocr
- ocropus ?
Un petit exemple de récupération de texte avec tesseract
tesseract lettre1.png lettre1.txt -l fra
on y indique la langue à utiliser fra et ça marche...
Front-end
Avec des GUI (Front-end) utilisant l'un ou l'autre des OCR ci-dessus
- Ocrfeeder - Donnée comme une bonne suite, mais en fait décevante!
- kooka - Projet abandonné
- xsane - Le meilleur à mon avis, --> images ET textes
- yagf - GUI pour Cuneiform et Tesseract (boof..)
- pdf2tex
- gscan2pdf - GUI pour faciliter la numérisation vers du pdf
- gImageReader
- Linux Intelligent OCR Solution --> en deb seulement --> Lios_1.7_all.deb (pas encore essayé, mais je vais le faire !)
Conclusion
Voilà pour un petit tour rapide des solutions pour Linux. Ce qui est décevant c'est que le moteur de reconnaissance n'a pas l'air d'avancer beaucoup et de plus les application en front-end sont très sommaires, le libre nos a habitué à mieux et ce serait dommage d'aller vers le payant qui de toutes les façons ne tourne pas sous Linux ...
OCR online
Il y a plusieurs sites de reconnaissance de caractères Online.
Un des meilleurs, à mon humble avis, est celui-ci :
En fait depuis que abbyyocr a laissé tomber Linux je n'utilise plus que ce site. Il est vrai que je n'ai pas besoin de reconnaître beaucoup de pages et cela tombe bien parce qu’il y a une limite :
- Available 15 pages per hour
- Only 10 pages in multipage
- Maximum file size 15 mb
... ce qui laisse une bonne marge tout de même
Le logciel abbyyocr
Abbyyocr est un excellent OCR, mais il n'est pas libre ! Pour un usage très modéré (100 pages) il est gratuit, mais il m'a coût env CHF 150.- pour la version 12'000 pages/an. J'aurais préféré une proposition plus "légère", je ne scanne pas 12'000 pages par année ! Mais bon.. je dois dire qu'il fonctionne vraiment très bien.
Il est en ligne de commande, je n'ai pas trouvé de GUI ! Dommage.
Installation version abbyyocr11
- Il faut décompresser le fichier original : abbyyocr-11-1-4-49....tar.gz
- dans un dossier créé pour cela, exemple : /home/mondossier/abbyy
- Ensuite repérer le chemin du fichier abbyyocr.run
- Ouvrir un terminal Konsole
- Passer en mode root : sudo -i
- Aller dans le dossier /opt
- Copier depuis ce dossier le fichier abbyyocr.run :
moi@monordi:$ cp /home/mondossier/abbyy/abbyyocr.run .
- rester dans le dossier /opt/
- appliquer la commande suivante :
moi@monordi:$ sudo ./abbyyocr.run
suivre les instructions. J'avoue j'ai eu quelques problèmes avec la licence lorsque j'ai changé de distribution ou d'ordinateur.. mais
Les commandes
Usage:
abbyyocr11 [options] -if <image file> -f format [options] -of <export file>
abbyyocr11 [options] -if <image file> -f format1 [options] -of <export file 1> -f format2 [options] -of <export file 2>
abbyyocr11 [options] -if <image file 1> [options] -if <image file 2> -f format [options] -of <export file>
Exemple : le fichier montexte.pdf à reconnaître et à sauvegarder en format .txt (resultat.txt)
abbyyocr11 -fm -rl French -if montexte.pdf -f TextUnicodeDefaults -tet UTF8 -of resultat.txt
commande |
interprétation |
---|---|
-fm |
FastMode (rapide) |
-rl French |
Reconnaissance de la langue française |
-if |
Input Filename Nom de fichier à reconnaître (Mondoc.pdf) |
-of |
--outputFileName nom du fichier de destination (Mondoc.txt |
-f |
--outputFileFormat format de l'export du texte reconnu (1) |
-sp |
--skipPictures #reset "keep pictures" mode in all suitable formats |
-tet |
--txtEncodingType <text file type> (2) |
(1) RTF, HTMLVersion10Defaults, HTMLUnicodeDefaults, XLS, PDF, TextVersion10Defaults, TextUnicodeDefaults, XML, DOCX, XLSX, PPTX, ALTO, EPUB, FB2, ODT.
(2) Simple, UTF8, UTF16, Auto.
Année 2020, ABBYYOCR a complètement laissé tomber la version pour Linux...