Tesseract | |
---|---|
Sorts | optisk teckenigenkänning |
Utvecklare | Hewlett-Packard , Google |
Skrivet i | C++ |
Gränssnitt | kommandorad |
Operativ system | Linux , Mac OS X och andra UNIX-liknande , Windows |
Första upplagan | mitten av 1980-talet |
senaste versionen | |
Läsbara filformat | TIFF , PNG , JPEG [d] , JP2 [d] och WebP File Interchange Format |
Genererade filformat | HOCR , vanlig text , PDF , ALTO [d] och TSV |
Licens | Apache 2.0 |
Hemsida | github.com/tesseract-ocr... |
Mediafiler på Wikimedia Commons |
Tesseract (från engelska - " tesseract ", från andra grekiska. τέσσαρες ἀκτῖνες - "fyra strålar") är ett gratis datorprogram för textigenkänning , utvecklat av Hewlett-Packard från mitten av 1980-talet till mitten av 1990-talet och sedan 1990-talet . "ligger på hyllan." I augusti 2006 köpte Google den och öppnade källkoden under Apache 2.0-licensen [2] för vidareutveckling. För tillfället fungerar programmet redan med UTF-8, språkstöd (inklusive ryska från version 3.0 [3] [4] ) utförs med hjälp av ytterligare moduler.
Kärnan i Tesseract-programmet utvecklades vid Hewlett Packards Bristol Laboratory och vid Hewlett Packard Co, Greeley , Colorado 1985-1994. 1996 gjordes betydande förändringar och en port för Windows förbereddes. Sedan, sedan 1998, en partiell migrering från C till C++. En betydande del av koden skrevs ursprungligen i C, men förbättringar gjordes för kompatibilitet med C++-kompilatorer. [2]
Tesseract 3.0 är för närvarande byggd på Linux med GCC 2.95 och senare och på Windows med Visual C++ 2008 Express och senare (stöd för Visual C++ 6 togs bort i version 3.0 [3] ).
För närvarande är den senaste versionen Tesseract 5.0 baserad på LSTM [5] .
Tesseract används av Tucan Manager- nedladdningshanteraren för textigenkänning i CAPTCHA- tester .
Programvara för optisk teckenigenkänning | |||
---|---|---|---|
fri |
| ||
Proprietär |
|