CuneiForm

CuneiForm
Sorts optisk teckenigenkänning
Författare Kognitiv teknik
Utvecklare CuneiForm-Linux Team
Skrivet i C , C++
Gränssnitt kommandorad
Operativ system Linux , Mac OS X och andra UNIX-liknande
Första upplagan 1996
senaste versionen 1.1.0 (19 april 2011 [1] )
Genererade filformat HOCR
stat övergiven
Licens BSD -liknande licens från Cognitive Technologies [2]
Hemsida launchpad.net/cuneiform-…

CuneiForm ( eng.  cuneiform , cuneiform  - cuneiform ), Cognitive OpenOCR  är ett fritt distribuerat öppet system för optisk textigenkänning av det ryska företaget Cognitive Technologies .

OCR CuneiForm utvecklades av Cognitive Technologies som en kommersiell produkt 1993. Systemet levererades med de mest populära modellerna av skannrar, MFP:er och programvara i Ryssland och världen: Corel Draw, Hewlet-Packard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti, etc. 2008, Cognitive Technologies öppnade källkoderna för OCR Cunei Form.

Funktioner

CuneiForm är positionerat som ett system för att konvertera elektroniska kopior av pappersdokument och grafiska filer till en redigerbar form med möjligheten att bevara originaldokumentets struktur och typsnitt i automatiskt eller halvautomatiskt läge. Systemet innehåller två program för enkel- och batchbehandling av elektroniska dokument.

Lista över språk som stöds av systemet:

Dessutom stöds en blandning av ryska och engelska. Igenkänning av blandningar av andra språk stöds endast i en gren utvecklad av Andrey Borovsky 2009 [3] . Att lära ut andra språk är svårt på grund av anslutningen av varje språk till en dat-fil, strukturen och metoden för att erhålla som inte avslöjades av utvecklarna.

Historik

1993  - Cognitive Technologies ingick ett OEM-kontrakt med det kanadensiska företaget Corel Corporation , enligt vilket biblioteket för kognitiv igenkänning är inbyggt i det populära publiceringspaketet Corel Draw 3.0 (och efterföljande versioner). [fyra]

1994  - Ett kontrakt undertecknades med Hewlett-Packard för den kompletta uppsättningen skannrar som levereras till Ryssland av OCR CuneiForm. Detta är HP:s första kontrakt med en rysk mjukvaruutvecklare. [5] [6] [7] [8]

1995  - Ett kontrakt undertecknades med det japanska företaget Epson för den kompletta uppsättningen av CuneiForm OCR-skannrar. [9] Ett OEM-kontrakt undertecknades med världens största tillverkare av faxmaskiner, laserskrivare, skannrar och annan kontorsutrustning - Brother Corporation. Enligt avtalet kommer den nya rullskannern Brother IC-150 att vara utrustad med kognitiv programvara för scanning, igenkänning runt om i världen.

1996  - Ett OEM-kontrakt tecknades med en av världens största tillverkare av bildskärmar, faxar, laserskrivare, multifunktionsenheter och annan kontorsutrustning - Samsung Information Systems America. [10] Enligt avtalet kommer den nya multifunktionsenheten Samsung OFFICE MASTER OML-8630A att säljas med Cognitive Cuneiform LE optiska teckenigenkänningssystem över hela världen.

Adaptiv igenkänning  är en metod baserad på en kombination av två typer av utskrivbara teckenigenkänningsalgoritmer: teckensnittsbaserad (multifont) och teckensnittsoberoende (omnifont). Systemet genererar ett internt teckensnitt för varje inmatningsdokument, baserat på väl utskrivna tecken, det vill säga dynamisk justering (anpassning) till specifika inmatningstecken används. Således kombinerar metoden mångsidigheten och tillverkningsbarheten hos det teckensnittslösa tillvägagångssättet och den höga noggrannheten för teckensnittsigenkänning, vilket gör det möjligt att radikalt förbättra kvaliteten på igenkänningen.

1997  - CuneiForm-systemet var det första som använde teknik baserad på neurala nätverk. Algoritmer som använder neurala nätverk för teckenigenkänning är uppbyggda enligt följande. Den teckenbild (raster) som kommer för igenkänning reduceras till en viss standardstorlek (normaliserad). Ljusstyrkevärdena vid noderna i det normaliserade rastret används som ingångsparametrar för det neurala nätverket. Antalet utgångsparametrar för det neurala nätverket är lika med antalet igenkännbara tecken. Resultatet av igenkänning är symbolen som motsvarar det största av värdena för utgångsvektorn i det neurala nätverket.

1999

2001  - Ett OEM-kontrakt undertecknades för komplett utrustning tillverkad av Canon (skannrar, multifunktionsenheter) med programvara för Cognitive Technologies (OCR CuneiForm) i Östeuropa.

Den 12 december 2007 släpptes en gratisversion av OCR CuneiForm och dess källkod tillkännagavs [15] . [16] [17]

Den 2 april 2008 publicerades Cuneiforms OCR-källkod under en BSD-licens [18] och på hösten källkoden för systemgränssnittet [19] .

Den senaste OpenSource-versionen för Windows har inte uppdaterats sedan februari 2009.

Under 2009 släpptes grafiska gränssnitt för den öppna versionen av Cuneiform baserat på Qt 4 -biblioteket  - Cuneiform-Qt [20] , YAGF . Sedan version 0.9.0 [21] kan Linux-versionen med öppen källkod användas som en .

Grafiska gränssnitt för CuneiForm

Se även

Anteckningar

  1. Port of Cuneiform för Linux. . Hämtad 22 juli 2008. Arkiverad från originalet 20 maj 2011.
  2. Licenstext. Arkiverad från originalet den 19 mars 2012.
  3. ~anb-symmetrica/cuneiform-linux/cuneiform-multilang : revision 400
  4. Tillverkad i Ryssland (otillgänglig länk) . Hämtad 6 december 2016. Arkiverad från originalet 27 juni 2013. 
  5. ↑ " Legitima " HP skannrar kommer att lära sig att läsa ryska
  6. CuneiForm-flaggade HP-skannrar . Datum för åtkomst: 6 december 2016. Arkiverad från originalet 20 december 2016.
  7. Hewlett-Packard presenterar nya produkter i Moskva Arkiverad 16 april 2014 på Wayback Machine , Algonet
  8. HP och Cognitive fördjupar partnerskapet Arkiverad 20 december 2016 på Wayback Machine , PCweek
  9. PC World. Pärlor av rysk programvara . Hämtad 29 november 2016. Arkiverad från originalet 16 april 2014.
  10. Samsung väljer kognitiv teknologis OCR för allt-i-ett-enheter Arkiverad 20 december 2016 på Wayback Machine , PCweek, 1996-10-09
  11. Vladimir Mitin Canons multifunktionella enheter har skaffat en ny kvalitetsarkivkopia daterad 20 december 2016 på Wayback Machine , PCweek , 1998-05-12
  12. Vladimir Mitin Canon - Cognitive Technologies Alliance utvecklas framgångsrikt
  13. Cognitive Technologies och OKI kliver på gasen Arkiverad 20 december 2016 på Wayback Machine , PCweek
  14. HP Informal Marketing Arkiverad 20 december 2016 på Wayback Machine , Computer World
  15. OCR CuneiForm - det första industriella Open Source-projektet inom området för erkännande Arkiverad den 25 maj 2011.
  16. Det ryska CuneiForm textigenkänningssystemet kommer att bli öppet Arkivkopia daterat 20 december 2016 på Wayback Machine Сybersecurity, 12/06/2007
  17. CuneiForm Returns Arkiverad 20 december 2016 på Wayback Machine , Computerworld, 2007-12-24
  18. Cognitive Technologies öppen källkod Kilskrift OCR-kod (nedlänk) . Hämtad 4 april 2011. Arkiverad från originalet 11 november 2009. 
  19. Cognitive Technologies Open Cuneiform OCR Code Arkiverad 19 april 2011.
  20. Cuneiform-Qt . Hämtad 9 april 2009. Arkiverad från originalet 12 april 2009.
  21. Cuneiform Linux 0.9.0 släpps . Datum för åtkomst: 8 februari 2010. Arkiverad från originalet 26 januari 2014.

Länkar