reCAPTCHA | |
---|---|
Sorts | crowdsourcing |
Författare |
|
Utvecklaren | |
Första upplagan | 27 maj 2007 |
Hemsida | google.com/recaptcha |
Mediafiler på Wikimedia Commons |
ReCAPTCHA är ett system utvecklat vid Carnegie Mellon University för att skydda webbplatser från internetbots och samtidigt hjälpa till med digitaliseringen av boktexter. Det är en fortsättning på CAPTCHA- projektet [1] . I september 2009 förvärvades reCAPTCHA av Google . I början av 2011 digitaliserade reCAPTCHA New York Times arkiv och böcker tillgängliga på Google boksökning .
Våren 2012 lanserade Google ett experiment för att känna igen bilder från Google Maps och Google Street View med hjälp av tjänsten ReCAPTCHA [2] . Från och med juli 2013 fortsätter ReCAPTCHA-tjänsten att erbjuda fragment av bilder från Google Street View för igenkänning; som regel är det fragment som visar byggnadsnummer. Således har det ursprungliga mottot för ReCAPTCHA - Stoppa spam, läs böcker - idag lite att göra med vad detta system faktiskt används till.
Redan i början av 2015 uppdaterades ReCAPTCHA. Nu uppmanas användaren att helt enkelt markera kryssrutan , efter att ha klickat på kryssrutan kan användaren uppmanas att välja alla bilder som faller under förutbestämda förhållanden - välj till exempel alla motorcyklar .
reCAPTCHA är praktiskt taget obedragen av OCR-programvara . Det andra ordet är hämtat från en källa som kräver igenkänning (till exempel en bok). Kontroll och överföring av "captcha" utförs enligt det ord som är känt för systemet. Det okända andra ordet är valfritt. Det andra ordet som användaren matat in lagras i systemet och används som ett möjligt igenkänningsalternativ. Slutlig ordigenkänning görs genom att välja det ord som används oftast för inmatning. ReCAPTCHA-systemet förser användare med bilder för igenkänning och samlar in resultaten, varefter det överför dem till organisatörerna av digitaliseringen av material [1] .
Systemet används flitigt av sajter som Facebook , TicketMaster, Twitter , StumbleUpon , Steam (10 januari 2015), LiveJournal och cirka 350 000 andra sajter. Ungefär 100 miljoner ord digitaliseras per dag, vilket skulle kunna ge cirka 2,5 miljoner böcker per år. Antalet individer som hjälpte till att digitalisera minst ett ord från boken uppskattas till 750 miljoner [1] . Effektiviteten för denna metod är ganska hög, eftersom systemet är försett med flera erkända alternativ.
Eftersom orden visas i slumpmässig ordning, uppstår oundvikligen nyfikna kombinationer av ord. Detta gav upphov till internetmemet "inglip", när människor tar en skärmdump av två ord från reCAPTCHA-systemet och ritar roliga ritningar [1] .
Skämt som "hitta en Viet Cong " dök upp i adressen till den grafiska versionen av reCAPTCHA (det finns en solid djungel i bilden).
När du ansluter denna tjänst till webbplatsen erbjuds du ett begränsat antal förfrågningar gratis. ReCAPTCHA-algoritmerna är medvetet byggda så att användaren gör så många förfrågningar som möjligt, vilket leder till att gratisgränsen överskrids och tvingar sajtägaren att byta till betalversionen. Användare tvingas skriva in dubbelt så mycket text som krävs för en given form av Turing-testet utan att få någon belöning för att göra det. Intäkterna från den använda erkända texten förblir hos Google Corporation . Kräver JavaScript för att fungera och vid användning av en föråldrad webbläsare tvingas besökaren uppdatera till Googles webbläsare .
Däremot har webbplatsägare rätt att förbehålla sig valet av hur de ska skydda sig mot bots.
Med för frekventa CAPTCH-förfrågningar från samma IP-adress blir reCAPTCHA nästan oläslig, vilket gör det mycket svårt att ange den när du använder Tor -mjukvaran (eftersom frekvensen av captcha-förfrågningar från Tor-utgångsnoder är mycket högre än från en vanlig användar-IP) . Dessutom, i sådana fall är båda orden som erbjuds användaren för igenkänning verifierbara, det vill säga reCAPTCHA börjar agera som vilket annat system som helst för att skydda mot bots. Men efter nästa uppdatering av algoritmen i reCaptcha blev det svårt för många användare att komma in på webbplatsen, så om en person går in på webbplatsen och börjar lösa antiboten kommer det att gå för långsamt, men även efter att han löst detta problem korrekt, anti-bot-systemet kommer inte att räkna hans svar kommer att be dig välja rätt bilder igen, som återigen kommer att uppdateras mycket långsamt, som ett resultat kan användaren spendera lite tid (från flera minuter) på att lösa detta problem. Det har också dykt upp blockering av åtkomst för att lösa captcha från en specifik IP-adress, vilket gör det omöjligt att använda det när du går in på webbplatsen, och även om du med en dynamisk ip-adress kan tilldela dig själv en ny genom att återansluta, kan en statisk ip inte användas .
Användaren behöver inte ange båda orden. En av dem är inte kontrollerad, det är ganska lätt att känna igen den: vid olika tidpunkter var det kontrollerade ordet "bullrigt" med en dubbel kontur, linjer och geometriska förvrängningar. Dessutom finns ibland skiljetecken , text på andra språk, matematiska formler etc. i ett omarkerat ord En inversion av bakgrundsfärger och bokstäver är också möjlig för ett omarkerat ord .
Ett komplicerat, overifierbart ord som tagits ur sitt sammanhang kan vara felidentifierat. Till exempel identifierades kapten Infernet ( Louis-Antoine Infernet , deltagare i slaget vid Trafalgar ) ibland som Internet [3] .
Vissa bilder är svåra att känna igen även av en person. Det kan finnas problem med frågans osäkerhet, till exempel: det är nödvändigt att märka bussar, men på bilden en trolleybuss; valet av skyltfönster kanske inte är självklart om en inglasad entré till byggnaden visas.