Căutam STAFF!! Aplica pentru un grad pe forum!

Distribuiţi
In jos
avatar
Administrator
Administrator
Mesaje : 45
Data de înscriere : 05/10/2017
Varsta : 28
Localizare : D
Vezi profilul utilizatoruluihttp://fileprogram.hitforum.ro

Tesseract-ocr -- Un soft cu care extragem textul din imaginile scanate

la data de Vin Ian 26, 2018 1:13 pm
Tesseract-ocr este un soft gratuit OCR (Optical Character Recognition) asemănator cu celebrul ABBYY FineReader. Cu ajutorul acestui program putem extrage textul din orice imagine. Am observat ca este de preferat pentru acurateţe formatul TIF. Nu are limită pentru mărimea fişierului aşa cum au aplicaţiile ocr online (2-5 mb) sau de pagini / documente (10-15 imagini / oră). Unul dintre neajunsuri este faptul că nu poate extrage tabele, aşa cum face "fratele" său mai mare ABBYY FineReader. Pentru utilizatorii de linux cred că este cea mai bună aplicaţie, rata de eroare fiind foarte mică în comparaţie cu alte soft-uri (gocr, ocrad, ocrfeeder etc.).
Pentru început trebuiesc instalate din managerul de programe:
1.ImageMagick - pentru convertirea imaginilor în formatul TIF şi nu numai.
2.tessearact-ocr - aplicaţia propriu-zisă.
3.tessearact-ocr-ron - pentru recunoaşterea textului în limba română (a diacriticelor etc).
Extragerea textului se va face în doua etape:
1.Convertirea fişierului scanat (care poate fi în format JPG, JPEG, GIF, BMP, PNG sau PDF) în formatul TIF. Pentru aceasta vom deschide un terminal în folder-ul unde avem imaginea scanată şi vom tasta următoarea comandă:
Cod:
convert myscan.format myscan.tif

de exemplu:
Cod:
convert myscan.jpg myscan.tif
Această comandă va converti fişierul myscan.jpg într-un fişier myscan.tif
OBS.: Uneori se poate omite acest pas trecând direct la etapa a doua extrăgând, textul fără conversie, direct folosind formatul gif, jpeg, jpg, png etc. Depinde foarte mult de calitatea imaginii scanate. Pentru a nu exista erori este indicat să convertim în formatul tif.
2. Extragerea propriu-zisă a textului folosind comanda:
Cod:
tesseract myscan.tif textextras
Pentru a recunoaşte corect caracterele din limba română vom tasta comanda:
Cod:
tesseract myscan.tif textextras -l ron
unde unde myscan.tif este imaginea scanată şi convertită la etapa întâi, textextras este un fişier txt în care se va găsi textul extras şi -l ron opţiunea pentru limba română.
Pentru a vizualiza în terminal, rapid textul extras tastam comanda:
Cod:
cat textextras.txt
OBS.: În cazul în care nu suntem mulţumiţi de rezultat, rata erorilor este mare, ne vom întoarce la prima etapă şi vom converti imaginea scanată cu mai multă acurateţe folosindu-ne de următoarele comenzi:
Cod:
convert myscan.jpg -resize 1000 myscan.tif
sau
Cod:
convert myscan.jpg -resize 5000 myscan.tif
urmată bineînțeles de a doua comandă:
Cod:
tesseract myscan.tif textextras -l ron

O altă facilitate a programului Tesseract-ocr este extragerea textului dintr-un fișier pdf.
Avem nevoie de un fișier pdf, vom deschide un terminal în folder-ul care conține acest fișier. Extragerea textului conține doua etape:
1.Convertirea fișierului pdf într-o imagine tif cu ajutorul comenzii:
Cod:
convert -monochrome -density 300 pdftest.pdf image.tif
2.Extragerea propri-zisă a textului din imaginea tif prin comanda:
Cod:
tesseract image.tif out -l ron
Va rezulta un fișier text numit out.txt ce va conține textul extras.
Vizualizăm rapid rezultatul în terminal tastând:
Cod:
cat out.txt
OBS.: Calitatea textului extras este data de complexitatea fișierului pdf si de calitatea imaginii tif. Pentru mai multe amănunte privind conversia fișierelor folosind ImageMagick intrați pe site-ul acestei aplicații:
[Trebuie sa fiti inscris si conectat pentru a vedea acest link]
sau pe forumul comunității:
[Trebuie sa fiti inscris si conectat pentru a vedea acest link]
Sus
Permisiunile acestui forum:
Nu puteti raspunde la subiectele acestui forum