ReCAPTCHA

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 17 maj 2022; kontroller kräver 4 redigeringar .

reCAPTCHA


Sorts	crowdsourcing
Författare	Luis von Ahn Ben Maurer Colin McMillen Harshad Bhujbal Manuel Blum
Utvecklaren	Google
Första upplagan	27 maj 2007 ( 2007-05-27 )
Hemsida	google.com/recaptcha
Mediafiler på Wikimedia Commons

ReCAPTCHA är ett system utvecklat vid Carnegie Mellon University för att skydda webbplatser från internetbots och samtidigt hjälpa till med digitaliseringen av boktexter. Det är en fortsättning på CAPTCHA- projektet [1] . I september 2009 förvärvades reCAPTCHA av Google . I början av 2011 digitaliserade reCAPTCHA New York Times arkiv och böcker tillgängliga på Google boksökning .

Våren 2012 lanserade Google ett experiment för att känna igen bilder från Google Maps och Google Street View med hjälp av tjänsten ReCAPTCHA [2] . Från och med juli 2013 fortsätter ReCAPTCHA-tjänsten att erbjuda fragment av bilder från Google Street View för igenkänning; som regel är det fragment som visar byggnadsnummer. Således har det ursprungliga mottot för ReCAPTCHA - Stoppa spam, läs böcker - idag lite att göra med vad detta system faktiskt används till.

Redan i början av 2015 uppdaterades ReCAPTCHA. Nu uppmanas användaren att helt enkelt markera kryssrutan , efter att ha klickat på kryssrutan kan användaren uppmanas att välja alla bilder som faller under förutbestämda förhållanden - välj till exempel alla motorcyklar .

Hur det fungerar

reCAPTCHA är praktiskt taget obedragen av OCR-programvara . Det andra ordet är hämtat från en källa som kräver igenkänning (till exempel en bok). Kontroll och överföring av "captcha" utförs enligt det ord som är känt för systemet. Det okända andra ordet är valfritt. Det andra ordet som användaren matat in lagras i systemet och används som ett möjligt igenkänningsalternativ. Slutlig ordigenkänning görs genom att välja det ord som används oftast för inmatning. ReCAPTCHA-systemet förser användare med bilder för igenkänning och samlar in resultaten, varefter det överför dem till organisatörerna av digitaliseringen av material [1] .

Inflytande

Systemet används flitigt av sajter som Facebook , TicketMaster, Twitter , StumbleUpon , Steam (10 januari 2015), LiveJournal och cirka 350 000 andra sajter. Ungefär 100 miljoner ord digitaliseras per dag, vilket skulle kunna ge cirka 2,5 miljoner böcker per år. Antalet individer som hjälpte till att digitalisera minst ett ord från boken uppskattas till 750 miljoner [1] . Effektiviteten för denna metod är ganska hög, eftersom systemet är försett med flera erkända alternativ.

Eftersom orden visas i slumpmässig ordning, uppstår oundvikligen nyfikna kombinationer av ord. Detta gav upphov till internetmemet "inglip", när människor tar en skärmdump av två ord från reCAPTCHA-systemet och ritar roliga ritningar [1] .

Skämt som "hitta en Viet Cong " dök upp i adressen till den grafiska versionen av reCAPTCHA (det finns en solid djungel i bilden).

Kritik

Allmänt

När du ansluter denna tjänst till webbplatsen erbjuds du ett begränsat antal förfrågningar gratis. ReCAPTCHA-algoritmerna är medvetet byggda så att användaren gör så många förfrågningar som möjligt, vilket leder till att gratisgränsen överskrids och tvingar sajtägaren att byta till betalversionen. Användare tvingas skriva in dubbelt så mycket text som krävs för en given form av Turing-testet utan att få någon belöning för att göra det. Intäkterna från den använda erkända texten förblir hos Google Corporation . Kräver JavaScript för att fungera och vid användning av en föråldrad webbläsare tvingas besökaren uppdatera till Googles webbläsare .

Däremot har webbplatsägare rätt att förbehålla sig valet av hur de ska skydda sig mot bots.

Med för frekventa CAPTCH-förfrågningar från samma IP-adress blir reCAPTCHA nästan oläslig, vilket gör det mycket svårt att ange den när du använder Tor -mjukvaran (eftersom frekvensen av captcha-förfrågningar från Tor-utgångsnoder är mycket högre än från en vanlig användar-IP) . Dessutom, i sådana fall är båda orden som erbjuds användaren för igenkänning verifierbara, det vill säga reCAPTCHA börjar agera som vilket annat system som helst för att skydda mot bots. Men efter nästa uppdatering av algoritmen i reCaptcha blev det svårt för många användare att komma in på webbplatsen, så om en person går in på webbplatsen och börjar lösa antiboten kommer det att gå för långsamt, men även efter att han löst detta problem korrekt, anti-bot-systemet kommer inte att räkna hans svar kommer att be dig välja rätt bilder igen, som återigen kommer att uppdateras mycket långsamt, som ett resultat kan användaren spendera lite tid (från flera minuter) på att lösa detta problem. Det har också dykt upp blockering av åtkomst för att lösa captcha från en specifik IP-adress, vilket gör det omöjligt att använda det när du går in på webbplatsen, och även om du med en dynamisk ip-adress kan tilldela dig själv en ny genom att återansluta, kan en statisk ip inte användas .

Textimplementeringar

Användaren behöver inte ange båda orden. En av dem är inte kontrollerad, det är ganska lätt att känna igen den: vid olika tidpunkter var det kontrollerade ordet "bullrigt" med en dubbel kontur, linjer och geometriska förvrängningar. Dessutom finns ibland skiljetecken , text på andra språk, matematiska formler etc. i ett omarkerat ord En inversion av bakgrundsfärger och bokstäver är också möjlig för ett omarkerat ord .

Ett komplicerat, overifierbart ord som tagits ur sitt sammanhang kan vara felidentifierat. Till exempel identifierades kapten Infernet ( Louis-Antoine Infernet , deltagare i slaget vid Trafalgar ) ibland som Internet [3] .

Grafiska implementeringar

Vissa bilder är svåra att känna igen även av en person. Det kan finnas problem med frågans osäkerhet, till exempel: det är nödvändigt att märka bussar, men på bilden en trolleybuss; valet av skyltfönster kanske inte är självklart om en inglasad entré till byggnaden visas.

Anteckningar

↑ 1 2 3 4 Louis von Ahn: Massive Online Collaboration Arkiverad 6 juni 2012 på Wayback Machine // TED-konferens , 2011
↑ Peretz Sarah. Google nu använder ReCAPTCHA för att avkoda Street View-adresser ( död länk) (29 mars 2012). Hämtad 14 augusti 2012. Arkiverad från originalet 18 augusti 2012.
↑ The Gentleman's Magazine and Historical Chronicle. (engelska) . Google Böcker . Hämtad 12 februari 2012. Arkiverad från originalet 23 maj 2013.

Länkar

Officiell webbplats för reCAPTCHA-systemet (eng.)
Luis von Ahn , Benjamin Maurer, Colin McMillen, David Abraham och Manuel Blum . reCAPTCHA: Human-Based Character Recognition via Web Security Measures // Vetenskap . - 12.09.2008. — Vol. 321, nr 5895 . - P. 1465-1468. - doi : 10.1126/science.1160379 .
Louis von Ahn: Massive Online Collaboration // TED-konferens , 2011
Patent för Google-patent.
Hutchinson Alex. ReCAPTCHA: Jobbet du inte ens visste att du hade (engelska) (nedlänk) . Valrossen (29 mars 2012). Datum för åtkomst: 18 september 2012. Arkiverad från originalet den 24 november 2011.
Paul Baecher, Niklas Buscher, Marc Fischlin och Benjamin Milde. Breaking reCAPTCHA: A Holistic Approach via Shape Recognition // Future Challenges in Security and Privacy for Academia and Industry. - Springer Boston , 2011. - Vol. 354. - S. 56-67. - (IFIP Advances in Information and Communication Technology). — ISBN 978-3-642-21423-3 . - doi : 10.1007/978-3-642-21424-0_5 .