MNIST (databas)

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 14 januari 2019; kontroller kräver 9 redigeringar .

MNIST -databasen (förkortning av Modified National Institute of Standards and Technology ) är en stor databas med handskrivna sifferprover. Databasen är en standard som föreslagits av US National Institute of Standards and Technology i syfte att kalibrera och jämföra bildigenkänningsmetoder med hjälp av maskininlärning främst baserad på neurala nätverk [1] [2] . Datan består av förberedda exempelbilder, utifrån vilka utbildning och testning av system genomförs [3] [4] . Databasen skapades efter omarbetning av den ursprungliga NIST 20x20 pixel svartvita provuppsättningen . Skaparna av NIST-databasen använde i sin tur en uppsättning prover från US Census Bureau , till vilka lades fler testprov skrivna av studenter vid amerikanska universitet [5] . Prover från NIST-uppsättningen normaliserades, kantutjämnade och reducerades till en 28x28 pixel gråskalebild [5] .

MNIST-databasen innehåller 60 000 bilder för träning och 10 000 bilder för testning [6] . Hälften av tränings- och testproverna var från NIST-träningssatsen och den andra hälften var från NIST-testsatsen [7] .

Det har gjorts många försök att uppnå minimala fel efter träning i MNIST-databasen och har diskuterats i den vetenskapliga litteraturen. Rekordresultat indikerades i publikationer om användningen av konvolutionella neurala nätverk , felfrekvensen höjdes till 0,23% [8] . Skaparna av databasen tillhandahöll själva flera testmetoder [5] . Det ursprungliga arbetet indikerar att användningen av stödvektormaskinen kan uppnå en felnivå på 0,8 % [9] .

Kvaliteten på resultatet och utvecklingen av tillvägagångssätt

I vissa verk noteras höga resultat för system byggda på ensembler av flera neurala nätverk; samtidigt visar sig kvaliteten på sifferigenkänning för MNIST-basen vara jämförbar med nivån på en person, och för andra igenkänningsuppgifter, i synnerhet för vägmärken, är den till och med dubbelt så bra [8] .

På skaparnas originalsidor [5] noteras fel på 12 % när man använder enkla linjära klassificerare utan förbearbetning [9] .

2004 uppnådde LIRA-systemet som använde Rosenblatts trelagersperceptron en felfrekvens på 0,42 % [10] .

En studie genomfördes på inlärning enligt MNIST-systemet med användning av slumpmässiga förvrängningar. Affina eller elastiska transformationer introducerades som förvrängningar [5] . Ibland uppnådde sådana system bra prestanda, i synnerhet finns det publikationer om felfrekvensen på 0,39 % [11] .

Under 2011 uppnåddes en felfrekvens på 0,27 % med hjälp av neurala nätverk [12] . Under 2013 dök det upp publikationer om att uppnå ett fel på 0,21 % genom att använda neurala nätverksregularisering (genom DropConnect- anslutningsavbrott ) [13] .

Senare gjorde användningen av ett enda faltningsneuralt nätverk det möjligt att förbättra kvaliteten till en felnivå på 0,31 % [14] . Det bästa resultatet på ett enda konvolutionellt neuralt nätverk visades av systemet som erhölls efter 74 träningsepoker - 0,27% [15] . En ensemble av fem faltningsneurala nätverk gjorde det dock möjligt att uppnå en felfrekvens på 0,21 % [16] [17] . Under 2018 rapporterade forskare som använde Random Multimodel Deep Learning (RMDL) ett fel på 0,18 procent, vilket förbättrade det tidigare bästa resultatet: en ny ensemble, djupinlärningsmetod för klassificering [18] .

Jämförelse av system

Tabellen innehåller exempel på maskininlärningsresultat i olika bildklassificeringssystem: [19]

Sorts	Strukturera	förvrängning	Preliminär bearbetning	Fel (%)
Linjär klassificerare	Enkelnivå perceptron	Inte	Inte	12 [8]
Linjär klassificerare	Parvis linjär klassificerare	Inte	inriktning	7,6 [9]
k närmaste granne metod	K-NN med icke-linjär deformation (P2DHMDM)	Inte	skiftbara kanter	0,52 [20]
gradientförstärkning	Restbearbetning baserad på Haar-funktioner	Inte	Tecken på Haar	0,87 [21]
Icke-linjär klassificerare	40 PCA + kvadratisk klassificerare	Inte	Inte	3.3 [9]
Stöd vektor maskin	Virtual Support Vector System , deg-9 poly, 2-pixlar jitter	Inte	inriktning	0,56 [22]
Neuralt nätverk	2-nivå nätverk 784-800-10	Inte	Inte	1,6 [23]
Neuralt nätverk	2-nivå nätverk 784-800-10	Elastiska deformationer	Inte	0,7 [23]
Deep Neural Network	6-lagers nätverk 784-2500-2000-1500-1000-500-10	Elastiska deformationer	Inte	0,35 [24]
Konvolutionellt neuralt nätverk	6-lagers nätverk 784-40-80-500-1000-2000-10	Inte	Datatillägg för utbildning	0,31 [14]
Konvolutionellt neuralt nätverk	6-lagers nätverk 784-50-100-500-1000-10-10	Inte	Datatillägg för utbildning	0,27 [15]
Konvolutionellt neuralt nätverk	Ensemble av 35 CNN-nätverk, 1-20-P-40-P-150-10	Elastiska deformationer	Med normalisering	0,23 [8]
Konvolutionellt neuralt nätverk	Ensemble av 5 CNN-nätverk, 6 nivåer 784-50-100-500-1000-10-10	Inte	Datatillägg för utbildning	0,21 [16]
Random Multi-Model Deep Learning (RMDL)	30 modeller för slumpmässig djupinlärning (RDL) (10 CNN, 10 RNN och 10 DNN)	Inte	Inte	0,18 [18]

Se även

om maskininlärning
Caltech 101
imagenet
LabelMe

Anteckningar

↑ Stöd vektormaskiners hastighetsmönsterigenkänning - Vision Systems Design . Vision Systems Design . Hämtad: 17 augusti 2013. (obestämd)
↑ Gangaputra, Sachin Handskriven sifferdatabas . Hämtad: 17 augusti 2013. (obestämd)
↑ Qiao, Yu THE MNIST DATABAS med handskrivna siffror (2007). Hämtad: 18 augusti 2013. (obestämd)
↑ Platt, John C. Använda analytisk QP och gleshet för att påskynda träning av stödvektormaskiner // Advances in Neural Information Processing Systems: journal. - 1999. - P. 557-563 . Arkiverad från originalet den 4 mars 2016.
↑ 1 2 3 4 5 LeCun, Yann MNIST handskrivna siffror databas, Yann LeCun, Corinna Cortes och Chris Burges . Hämtad: 17 augusti 2013. (obestämd)
↑ Kussul, Ernst; Tatiana Baidyk. Förbättrad metod för handskriven sifferigenkänning testad på MNIST-databas // Image and Vision Computing: journal. - 2004. - Vol. 22 , nr. 12 . - s. 971-981 . - doi : 10.1016/j.imavis.2004.03.008 .
↑ Zhang, Bin; Sargur N. Srihari. Snabb k -Nearest Neighbor-klassificering med klusterbaserade träd // IEEE- transaktioner på mönsteranalys och maskinintelligens : journal. - 2004. - Vol. 26 , nr. 4 . - s. 525-528 . - doi : 10.1109/TPAMI.2004.1265868 . — PMID 15382657 .
↑ 1 2 3 4 Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber. Flerspaltiga djupa neurala nätverk för bildklassificering // 2012 IEEE Conference on Computer Vision and Pattern Recognition : tidskrift. - 2012. - P. 3642-3649 . — ISBN 978-1-4673-1228-8 . - doi : 10.1109/CVPR.2012.6248110 . - arXiv : 1202.2745 .
↑ 1 2 3 4 LeCun, Yann; Leon Bottou; Yoshua Bengio; Patrick Haffner. Gradient-Based Learning Applied to Document Recognition // Proceedings of the IEEE 86: journal. - 1998. - Vol. 86 , nr. 11 . - P. 2278-2324 . - doi : 10.1109/5.726791 .
↑ Kussul, Ernst; Tatiana Baidyk. Förbättrad metod för handskriven sifferigenkänning testad på MNIST-databas // Image and Vision Computing: journal. - 2004. - Vol. 22 . - s. 971-981 . - doi : 10.1016/j.imavis.2004.03.008 . Arkiverad från originalet den 21 september 2013.
↑ Ranzato, Marc'Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun. Effektivt lärande av glesa representationer med en energibaserad modell // Framsteg inom neurala informationsbehandlingssystem: tidskrift. - 2006. - Vol. 19 . - P. 1137-1144 .
↑ Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jürgen Schmidhuber. Konvolutionella neurala nätverkskommittéer för handskriven karaktärsklassificering (engelska) // 2011 International Conference on Document Analysis and Recognition (ICDAR): tidskrift. - 2011. - P. 1135-1139 . - doi : 10.1109/ICDAR.2011.229 . Arkiverad från originalet den 22 februari 2016.
↑ Wang, Li; Matthew Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus (2013). Regularisering av neurala nätverk med DropConnect . Internationell konferens om maskininlärning (ICML).
↑ 1 2 Romanuke, Vadim Det enda konvolutionella neurala nätverket bästa prestanda under 18 epoker på utökad träningsdata vid Parallel Computing Center, Khmelnitskiy, Ukraina . Tillträdesdatum: 16 november 2016. (obestämd)
↑ 1 2 Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ukraina) ger ett enda konvolutionellt neuralt nätverk som presterar på MNIST med 0,27 procent felfrekvens. . Tillträdesdatum: 24 november 2016. (obestämd)
↑ 1 2 Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ukraina) representerar en ensemble av 5 konvolutionella neurala nätverk som fungerar på MNIST med 0,21 procent felfrekvens. . Tillträdesdatum: 24 november 2016. (obestämd)
↑ Romanuke, Vadim. Utbildningsdataexpansion och förstärkning av konvolutionella neurala nätverk för att minska MNIST-datauppsättningsfelfrekvensen // Research Bulletin of NTUU "Kyiv Polytechnic Institute": tidskrift. - 2016. - Vol. 6 . - S. 29-34 . - doi : 10.20535/1810-0546.2016.6.84115 .
↑ 1 2 Kowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. RMDL: Random Multimodel Deep Learning for Classification (3 maj 2018). Hämtad: 10 maj 2018. (obestämd)
↑ Le Cunn, MNIST-DATABASEN med handskrivna siffror
↑ Keysers, Daniel; Thomas Deselaers; Christian Golan; Hermann Ney. Deformationsmodeller för bildigenkänning (obestämd) // EEE Transactions on Pattern Analysis and Machine Intelligence. - 2007. - Augusti ( vol. 29 , nr 8 ). - S. 1422-1435 .
↑ Kégl, Balázs; Robert Busa-Fekete. Öka produkter av basklassificerare (obestämd) // Proceedings of the 26th Annual International Conference on Machine Learning. - 2009. - S. 497-504 .
↑ DeCoste och Scholkopf, MLJ 2002
↑ 1 2 Patrice Y. Simard; Dave Steinkraus; John C. Platt. Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis // Document Analysis and Recognition, 2003. Proceedings. Sjunde internationella konferensen om: tidskrift. - IEEE, 2003. - doi : 10.1109/ICDAR.2003.1227801 .
↑ Ciresan, Claudiu Dan; Dan, Ueli Meier, Luca Maria Gambardella och Juergen Schmidhuber. Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition // Neural Computation: journal. - 2010. - December ( vol. 22 , nr 12 ). - doi : 10.1162/NECO_a_00052 . - arXiv : 1003.0358 .

Litteratur

Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen. Flerkolumns djupa neurala nätverk för bildklassificering // 2012 IEEE-konferens om datorseende och mönsterigenkänning : journal. - New York, NY: Institute of Electrical and Electronics Engineers (IEEE), 2012. - Juni. - P. 3642-3649 . — ISBN 9781467312264 . - doi : 10.1109/CVPR.2012.6248110 . - arXiv : 1202.2745v1 .

Länkar

MNIST handskriven sifferdatabas, Yann LeCun, Corinna Cortes och Chris Burges — Hemmet för databasen
Neural Net for Handwritten Digit Recognition in JavaScript — En JavaScript-implementering av ett neuralt nätverk för handskriven siffraklassificering baserat på MNIST-databasen