Tesseract

Tesseract


Sorts	optisk teckenigenkänning
Utvecklare	Hewlett-Packard , Google
Skrivet i	C++
Gränssnitt	kommandorad
Operativ system	Linux , Mac OS X och andra UNIX-liknande , Windows
Första upplagan	mitten av 1980-talet
senaste versionen	5.2.0 ( 6 juli 2022 ) [1]
Läsbara filformat	TIFF , PNG , JPEG [d] , JP2 [d] och WebP File Interchange Format
Genererade filformat	HOCR , vanlig text , PDF , ALTO [d] och TSV
Licens	Apache 2.0
Hemsida	github.com/tesseract-ocr...
Mediafiler på Wikimedia Commons

Tesseract (från engelska - " tesseract ", från andra grekiska. τέσσαρες ἀκτῖνες - "fyra strålar") är ett gratis datorprogram för textigenkänning , utvecklat av Hewlett-Packard från mitten av 1980-talet till mitten av 1990-talet och sedan 1990-talet . "ligger på hyllan." I augusti 2006 köpte Google den och öppnade källkoden under Apache 2.0-licensen [2] för vidareutveckling. För tillfället fungerar programmet redan med UTF-8, språkstöd (inklusive ryska från version 3.0 [3] [4] ) utförs med hjälp av ytterligare moduler.

Historik

Kärnan i Tesseract-programmet utvecklades vid Hewlett Packards Bristol Laboratory och vid Hewlett Packard Co, Greeley , Colorado 1985-1994. 1996 gjordes betydande förändringar och en port för Windows förbereddes. Sedan, sedan 1998, en partiell migrering från C till C++. En betydande del av koden skrevs ursprungligen i C, men förbättringar gjordes för kompatibilitet med C++-kompilatorer. [2]

Tesseract 3.0 är för närvarande byggd på Linux med GCC 2.95 och senare och på Windows med Visual C++ 2008 Express och senare (stöd för Visual C++ 6 togs bort i version 3.0 [3] ).

För närvarande är den senaste versionen Tesseract 5.0 baserad på LSTM [5] .

Grafiska gränssnitt för Tesseract

För Linux

För Windows

Webbplatser baserade på Tesseract-motorn

Beroenden

Leptonica

Intressanta fakta

Tesseract används av Tucan Manager- nedladdningshanteraren för textigenkänning i CAPTCHA- tester .

Anteckningar

↑ https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0
↑ 1 2 Vincent, Luc tillkännager Tesseract OCR (augusti 2006). Hämtad 26 juni 2008. Arkiverad från originalet 18 mars 2012. (obestämd)
↑ 12 Tesseract 3.00 släppt . Hämtad 5 oktober 2010. Arkiverad från originalet 9 oktober 2010. (obestämd)
↑ Tesseracts nedladdningssida . Arkiverad från originalet den 18 mars 2012. (obestämd)
↑ TESSERACT(1) Manual Page . Hämtad 12 januari 2019. Arkiverad från originalet 5 maj 2020.

Länkar

Programvara för optisk teckenigenkänning

fri

CuneiForm
GOCR
Ocrad
OCRopus
Tesseract

Grafiska gränssnitt	OCR-matare YAGF

Proprietär

Kognitiva former
Upplevelse
FineReader
Microsoft Office Document Imaging
OmniPage
Readiris
readsoft
simpleocr
Smart IDReader
SmartScore
ViewWise