Optisk teckenigenkänning ( eng. optical character recognition, OCR ) - mekanisk eller elektronisk översättning av bilder av handskriven , maskinskriven eller tryckt text till text som används för att representera tecken i en dator (till exempel i en textredigerare ). OCR används ofta för att konvertera böcker och dokument till elektronisk form , för att automatisera affärsredovisningssystem eller för att publicera text på en webbsida . Optisk teckenigenkänning låter dig redigera text, söka efter ord eller fraser, lagra den i en mer kompakt form, visa eller skriva ut material utan att förlora kvalitet, analysera information och tillämpa elektronisk översättning , formatering eller tal på text . Optisk textigenkänning är ett forskat problem inom områdena mönsterigenkänning , artificiell intelligens och datorseende .
OCR-system kräver kalibrering för att fungera med ett specifikt teckensnitt ; i tidiga versioner krävde programmering en bild av varje karaktär, programmet kunde bara fungera med ett teckensnitt åt gången. För närvarande är de vanligaste de så kallade "intelligenta" systemen, som känner igen de flesta typsnitt med en hög grad av noggrannhet. Vissa OCR-system kan återställa den ursprungliga formateringen av text, inklusive bilder, kolumner och andra icke-textkomponenter.
1929 fick Gustav Tauschek patent på OCR i Tyskland , följt av Handel ( eng. Paul W. Handel ), som fick patent på sin metod i USA 1933. 1935 fick Tauschek också ett amerikanskt patent för sin metod . Tausheks maskin var en mekanisk anordning som använde mallar och en fotodetektor.
1950 byggde David H. Shepard , en kryptoanalytiker vid United States Armed Forces Security Agency , efter att ha analyserat problemet med att konvertera utskrivna meddelanden till maskinspråk för datorbehandling, en maskin som löste detta problem. Efter att han fått det amerikanska patentet rapporterade han det till Washington Daily News (27 april 1951) och till The New York Times (26 december 1953). Shepard grundade sedan ett företag som utvecklade intelligenta maskiner, som snart släppte världens första kommersiella optiska teckenigenkänningssystem.
Det första kommersiella systemet installerades på Reader's Digest 1955. Det andra systemet såldes till Standard Oil för att läsa kreditkort för checkar. Andra system som levererades av Shepards företag såldes i slutet av 1950-talet, inklusive en sidskanner för US National Air Force , designad för att läsa och teleskriva maskinskrivna meddelanden. IBM fick senare licens att använda Shepards patent.
Runt 1965 samarbetade Reader's Digest och RCA för att skapa en OCR-dokumentläsare utformad för att digitalisera serienumren på Reader's Digest-kuponger som returnerades från annonser. För utskrift på dokument använde RCA-trumskrivaren ett speciellt OCR-A- teckensnitt . Dokumentläsaren arbetade direkt med RCA 301-datorn (en av de första halvledardatorerna). Maskinens hastighet var 1500 dokument per minut: den kontrollerade alla dokument, utom de som den inte kunde behandla korrekt.
Sedan 1965 har United States Postal Service använt OCR-maskiner för att sortera post, baserat på teknik som utvecklats av forskaren Yakov Rabinov. I Europa var det brittiska postkontoret den första organisationen som använde OCR-maskiner. Canada Post har använt optiska teckenigenkänningssystem sedan 1971. I det första steget, i sorteringscentret för det optiska teckenigenkänningssystemet, läses mottagarens namn och adress och en streckkod skrivs ut på kuvertet. Den appliceras med ett speciellt bläck som är tydligt synligt under ultraviolett ljus . Detta görs för att undvika förväxling med det personfyllda adressfältet, som kan finnas var som helst på kuvertet.
1974 grundade Ray Kurzweil Kurzweil Computer Products och började arbeta med utvecklingen av det första optiska teckenigenkänningssystemet som kan känna igen text som är tryckt i vilket typsnitt som helst. Kurzweil trodde att den bästa tillämpningen av denna teknik skulle vara skapandet av en läsmaskin för blinda, som skulle göra det möjligt för blinda att ha en dator som kunde läsa text högt. Den här enheten krävde uppfinningen av två teknologier samtidigt - en CCD flatbäddsskanner och en synthesizer som omvandlar text till tal. Den slutliga produkten presenterades den 13 januari 1976 under en presskonferens ledd av Kurzweil och ledare för National Federation of the Blind.
1978 lanserade Kurzweil Computer Products det första kommersiellt framgångsrika OCR-datorprogrammet. Två år senare sålde Kurzweil sitt företag till Xerox Corporation, som var intresserade av att ytterligare kommersialisera OCR-system. Kurzweil Computer Products blev ett dotterbolag till Xerox, känt som Scansoft.
Det första programmet som kände igen det kyrilliska alfabetet var AutoR-programmet för det ryska företaget OKRUS. Programmet började distribueras 1992, fungerade under DOS- operativsystemet och gav ett acceptabelt igenkänning vad gäller hastighet och kvalitet även på IBM PC/XT -persondatorer med en Intel 8088-processor med en klockfrekvens på 4,77 MHz. I början av 90 -talet levererade Hewlett-Packard sina skannrar till den ryska marknaden komplett med AutoR-programmet. "AutoR"-algoritmen var kompakt, snabb och helt "intelligent", det vill säga verkligt teckensnittsoberoende. Denna algoritm utvecklades och testades i slutet av 60-talet av två unga biofysiker, utexaminerade från Moskvainstitutet för fysik och teknik - G. M. Zenkin och A. P. Petrov. De publicerade sin igenkänningsmetod i tidskriften Biophysics i nummer 12, nr. 3 för 1967. För närvarande används Zenkin-Petrov-algoritmen i flera applikationssystem som löser problemet med att känna igen grafiska symboler. Baserat på algoritmen skapades PenReader- teknologin av Paragon Software Group 1996 . G. M. Zenkin fortsatte arbetet med PenReader-teknologi vid Paragon Software Group [1] . Tekniken används i företagets produkt med samma namn [2] .
1993 släpptes det ryska företaget ABBYYs textigenkänningsteknik . Baserat på den har ett antal företagslösningar och program för massanvändare skapats. I synnerhet ABBYY FineReader textigenkänningsprogram , applikationer för textinformationsigenkänning från mobila enheter och ABBYY FlexiCapture-systemet för direktuppspelning av dokument och datainmatning. Licensgivare för ABBYY OCR-teknik för textigenkänning är internationella IT-företag som Fujitsu , Panasonic , Xerox , Samsung [3] , EMC och andra.
Exakt igenkänning av latinska tecken i tryckt text är för närvarande endast möjligt om tydliga bilder finns tillgängliga, till exempel skannade utskrivna dokument. Noggrannheten med denna formulering av problemet överstiger 99 %, absolut noggrannhet kan endast uppnås genom efterföljande mänsklig redigering. Problemen med igenkänning av handskriven "tryckt" och standard handskriven text, samt tryckta texter av andra format (särskilt med ett mycket stort antal tecken) är för närvarande föremål för aktiv forskning.
Metodernas noggrannhet kan mätas på flera sätt och kan därför variera mycket. Till exempel, om ett specialiserat ord som inte används för motsvarande programvara påträffas när du söker efter icke-existerande ord, kan felet öka.
Online teckenigenkänning förväxlas ibland med optisk teckenigenkänning. Den sistnämnda är en offlinemetod som fungerar med en statisk form av textrepresentation, medan teckenigenkänning online tar hänsyn till rörelser under skrivning. Till exempel, vid onlineigenkänning med PenPoint OS eller en surfplatta, kan du bestämma om en rad skrivs från höger till vänster eller från vänster till höger.
Onlinesystem för handskriftsigenkänning i farten har nyligen blivit allmänt kända som kommersiella produkter. Algoritmerna för sådana anordningar använder det faktum att ordningen, hastigheten och riktningen för individuella sektioner av ingångslinjerna är kända. Dessutom kommer användaren att lära sig att endast använda specifika skrivformer. Dessa metoder kan inte användas i programvara som använder skannade pappersdokument, så problemet med att känna igen handskriven "tryckt" text är fortfarande öppet. På bilder med handskriven "tryckt" text utan artefakter kan en noggrannhet på 80% - 90% uppnås, men med sådan noggrannhet kommer bilden att konverteras med dussintals fel på sidan. Sådan teknik kan endast vara användbar i ett mycket begränsat antal tillämpningar.
Ett annat allmänt undersökt problem är handskriftsigenkänning . För närvarande är den uppnådda noggrannheten ännu lägre än för handskriven "tryckt" text. Högre poäng kan endast uppnås med kontextuell och grammatisk information. Till exempel, under igenkänning, är det lättare att slå upp hela ord i en ordbok än att försöka identifiera enskilda tecken från en text. Att känna till ett språks grammatik kan också hjälpa till att avgöra om ett ord är ett verb eller ett substantiv. Formerna på individuella handskrivna tecken kan ibland inte innehålla tillräckligt med information för att korrekt (mer än 98%) känna igen hela handstilen.
För att lösa mer komplexa uppgifter inom igenkänningsområdet används som regel intelligenta igenkänningssystem, såsom artificiella neurala nätverk .
För att kalibrera textigenkänningssystem har en standard MNIST- databas skapats , bestående av bilder av handskrivna siffror.
Ordböcker och uppslagsverk | |
---|---|
I bibliografiska kataloger |
|
Programvara för optisk teckenigenkänning | |||
---|---|---|---|
fri |
| ||
Proprietär |
|
naturlig språkbehandling | |
---|---|
Allmänna definitioner | |
Textanalys |
|
Refererar |
|
Maskinöversätta |
|
Identifiering och datainsamling | |
Tematisk modell | |
Peer review |
|
Naturligt språkgränssnitt |
Skrivare och skanner | |||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| |||||||||||||||||||
| |||||||||||||||||||
|