ImageNet- databasen är ett projekt för att skapa och underhålla en enorm databas med kommenterade bilder, designad för att utveckla och testa metoder för bildigenkänning och maskinseende . Från och med 2016 registrerades cirka tio miljoner webbadresser med bilder i databasen, som var manuellt kommenterade för ImageNet, anteckningarna listade objekten som föll på bilden och rektanglarna med sina koordinater. [1] En databas med kommenterade och URL-bilder från tredje part är tillgänglig direkt via ImageNet, men själva bilderna ägs inte av projektet [2] . Sedan 2010 har projektet ILSVRC ( ImageNet Large Scale Visual Recognition Challenge ) pågått , där olika mjukvaruprodukter årligen tävlar i klassificering och igenkänning av objekt och scener i ImageNet-databasen.
ImageNet använder crowdsourcing för bildkommentarer.
Anteckningar på själva bildernas nivå visar närvaron eller frånvaron av ett föremål av denna klass (till exempel "det finns en tiger på bilden" eller "det finns inga tigrar på bilden"). På objektnivå innehåller anteckningen en rektangel med koordinaterna för den synliga delen av objektet. ImageNet använder en variant av WordNets semantiska nätverk för att kategorisera objekt, vilket är ganska detaljerat, till exempel representeras hundraser av 120 klasser. Varje WordNet- nod har hundratals eller tusentals bilder associerade med sig, men genomsnittet för 2016 är cirka 500 bilder [3] .
I augusti 2017 har ImageNet 14 197 122 bilder uppdelade i 21 841 kategorier.
Sedan 2010 genomförs inom ramen för ILSVRC-projektet tävlingar mellan forskargrupper i klassificering av objekt. ILSVCR inspirerades av den lilla PASCAL VOC-kampanjen 2005, som hade en uppsättning av 20 000 bilder och 20 funktionsklasser [3] . Betydande framsteg i mönsterigenkänning gjordes 2010. 2011 ansågs ett klassificeringsfel på 25 % vara ett bra resultat. Under 2012 kunde ett djupinlärningssystem baserat på ett konvolutionellt neuralt nätverk uppnå 16 % fel; och under de följande åren sjönk felet till några procent [4] . 2015 konstaterade forskare att programmen i vissa uppgifter i ILSVRC-projektet överträffade mänskliga förmågor [5] . Men som Olga Russakovskaya, en av arrangörerna av kampanjen, påpekade, måste programmen fortfarande bestämma objekt för en av de tusen kategorierna, och människor kan känna igen fler kategorier och (till skillnad från program) kan också ange bildernas kontext [6 ] .
Under 2014 gick mer än 50 organisationer med i kampanjen [3] . 2015 stängdes forskare från Baidu- projektet av i ett år eftersom de gick in i projektet under flera olika namn för att kringgå tvåveckorsgränsen [7] [8] . Baidu uppgav senare att teamledaren hade fått sparken och att en speciell vetenskaplig rådgivande grupp skulle sammansättas [9] .