Tesseract

Tesseract
Sorts optisk teckenigenkänning
Utvecklare Hewlett-Packard , Google
Skrivet i C++
Gränssnitt kommandorad
Operativ system Linux , Mac OS X och andra UNIX-liknande , Windows
Första upplagan mitten av 1980-talet
senaste versionen
Läsbara filformat TIFF , PNG , JPEG [d] , JP2 [d] och WebP File Interchange Format
Genererade filformat HOCR , vanlig text , PDF , ALTO [d] och TSV
Licens Apache 2.0
Hemsida github.com/tesseract-ocr...
 Mediafiler på Wikimedia Commons

Tesseract  (från  engelska  -  " tesseract ", från andra grekiska. τέσσαρες ἀκτῖνες - "fyra strålar") är ett gratis datorprogram för textigenkänning , utvecklat av Hewlett-Packard från mitten av 1980-talet till mitten av 1990-talet och sedan 1990-talet . "ligger på hyllan." I augusti 2006 köpte Google den och öppnade källkoden under Apache 2.0-licensen [2] för vidareutveckling. För tillfället fungerar programmet redan med UTF-8, språkstöd (inklusive ryska från version 3.0 [3] [4] ) utförs med hjälp av ytterligare moduler.

Historik

Kärnan i Tesseract-programmet utvecklades vid Hewlett Packards Bristol Laboratory och vid Hewlett Packard Co, Greeley , Colorado 1985-1994. 1996 gjordes betydande förändringar och en port för Windows förbereddes. Sedan, sedan 1998, en partiell migrering från C till C++. En betydande del av koden skrevs ursprungligen i C, men förbättringar gjordes för kompatibilitet med C++-kompilatorer. [2]

Tesseract 3.0 är för närvarande byggd på Linux med GCC 2.95 och senare och på Windows med Visual C++ 2008 Express och senare (stöd för Visual C++ 6 togs bort i version 3.0 [3] ).

För närvarande är den senaste versionen Tesseract 5.0 baserad på LSTM [5] .

Grafiska gränssnitt för Tesseract

För Linux För Windows

Webbplatser baserade på Tesseract-motorn

Beroenden

Intressanta fakta

Tesseract används av Tucan Manager- nedladdningshanteraren för textigenkänning i CAPTCHA- tester .

Anteckningar

  1. https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0
  2. 1 2 Vincent, Luc tillkännager Tesseract OCR (augusti 2006). Hämtad 26 juni 2008. Arkiverad från originalet 18 mars 2012.
  3. 12 Tesseract 3.00 släppt . Hämtad 5 oktober 2010. Arkiverad från originalet 9 oktober 2010.
  4. Tesseracts nedladdningssida . Arkiverad från originalet den 18 mars 2012.
  5. TESSERACT(1) Manual  Page . Hämtad 12 januari 2019. Arkiverad från originalet 5 maj 2020.

Länkar