MNIST (databas)
Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från
versionen som granskades den 14 januari 2019; kontroller kräver
9 redigeringar .
MNIST -databasen (förkortning av Modified National Institute of Standards and Technology ) är en stor databas med handskrivna sifferprover. Databasen är en standard som föreslagits av US National Institute of Standards and Technology i syfte att kalibrera och jämföra bildigenkänningsmetoder med hjälp av maskininlärning främst baserad på neurala nätverk [1] [2] . Datan består av förberedda exempelbilder, utifrån vilka utbildning och testning av system genomförs [3] [4] . Databasen skapades efter omarbetning av den ursprungliga NIST 20x20 pixel svartvita provuppsättningen . Skaparna av NIST-databasen använde i sin tur en uppsättning prover från US Census Bureau , till vilka lades fler testprov skrivna av studenter vid amerikanska universitet [5] . Prover från NIST-uppsättningen normaliserades, kantutjämnade och reducerades till en 28x28 pixel gråskalebild [5] .
MNIST-databasen innehåller 60 000 bilder för träning och 10 000 bilder för testning [6] . Hälften av tränings- och testproverna var från NIST-träningssatsen och den andra hälften var från NIST-testsatsen [7] .
Det har gjorts många försök att uppnå minimala fel efter träning i MNIST-databasen och har diskuterats i den vetenskapliga litteraturen. Rekordresultat indikerades i publikationer om användningen av konvolutionella neurala nätverk , felfrekvensen höjdes till 0,23% [8] . Skaparna av databasen tillhandahöll själva flera testmetoder [5] . Det ursprungliga arbetet indikerar att användningen av stödvektormaskinen kan uppnå en felnivå på 0,8 % [9] .
Kvaliteten på resultatet och utvecklingen av tillvägagångssätt
I vissa verk noteras höga resultat för system byggda på ensembler av flera neurala nätverk; samtidigt visar sig kvaliteten på sifferigenkänning för MNIST-basen vara jämförbar med nivån på en person, och för andra igenkänningsuppgifter, i synnerhet för vägmärken, är den till och med dubbelt så bra [8] .
På skaparnas originalsidor [5] noteras fel på 12 % när man använder enkla linjära klassificerare utan förbearbetning [9] .
2004 uppnådde LIRA-systemet som använde Rosenblatts trelagersperceptron en felfrekvens på 0,42 % [10] .
En studie genomfördes på inlärning enligt MNIST-systemet med användning av slumpmässiga förvrängningar. Affina eller elastiska transformationer introducerades som förvrängningar [5] . Ibland uppnådde sådana system bra prestanda, i synnerhet finns det publikationer om felfrekvensen på 0,39 % [11] .
Under 2011 uppnåddes en felfrekvens på 0,27 % med hjälp av neurala nätverk [12] . Under 2013 dök det upp publikationer om att uppnå ett fel på 0,21 % genom att använda neurala nätverksregularisering (genom DropConnect- anslutningsavbrott ) [13] .
Senare gjorde användningen av ett enda faltningsneuralt nätverk det möjligt att förbättra kvaliteten till en felnivå på 0,31 % [14] . Det bästa resultatet på ett enda konvolutionellt neuralt nätverk visades av systemet som erhölls efter 74 träningsepoker - 0,27% [15] . En ensemble av fem faltningsneurala nätverk gjorde det dock möjligt att uppnå en felfrekvens på 0,21 % [16] [17] . Under 2018 rapporterade forskare som använde Random Multimodel Deep Learning (RMDL) ett fel på 0,18 procent, vilket förbättrade det tidigare bästa resultatet: en ny ensemble, djupinlärningsmetod för klassificering [18] .
Jämförelse av system
Tabellen innehåller exempel på maskininlärningsresultat i olika bildklassificeringssystem: [19]
Sorts |
Strukturera |
förvrängning |
Preliminär bearbetning |
Fel (%)
|
Linjär klassificerare |
Enkelnivå perceptron |
Inte |
Inte |
12 [8]
|
Linjär klassificerare |
Parvis linjär klassificerare |
Inte |
inriktning |
7,6 [9]
|
k närmaste granne metod |
K-NN med icke-linjär deformation (P2DHMDM) |
Inte |
skiftbara kanter |
0,52 [20]
|
gradientförstärkning |
Restbearbetning baserad på Haar-funktioner |
Inte |
Tecken på Haar |
0,87 [21]
|
Icke-linjär klassificerare |
40 PCA + kvadratisk klassificerare |
Inte |
Inte |
3.3 [9]
|
Stöd vektor maskin |
Virtual Support Vector System , deg-9 poly, 2-pixlar jitter |
Inte |
inriktning |
0,56 [22]
|
Neuralt nätverk |
2-nivå nätverk 784-800-10 |
Inte |
Inte |
1,6 [23]
|
Neuralt nätverk |
2-nivå nätverk 784-800-10 |
Elastiska deformationer |
Inte |
0,7 [23]
|
Deep Neural Network |
6-lagers nätverk 784-2500-2000-1500-1000-500-10 |
Elastiska deformationer |
Inte |
0,35 [24]
|
Konvolutionellt neuralt nätverk |
6-lagers nätverk 784-40-80-500-1000-2000-10 |
Inte |
Datatillägg för utbildning |
0,31 [14]
|
Konvolutionellt neuralt nätverk |
6-lagers nätverk 784-50-100-500-1000-10-10 |
Inte |
Datatillägg för utbildning |
0,27 [15]
|
Konvolutionellt neuralt nätverk |
Ensemble av 35 CNN-nätverk, 1-20-P-40-P-150-10 |
Elastiska deformationer |
Med normalisering |
0,23 [8]
|
Konvolutionellt neuralt nätverk |
Ensemble av 5 CNN-nätverk, 6 nivåer 784-50-100-500-1000-10-10 |
Inte |
Datatillägg för utbildning |
0,21 [16]
|
Random Multi-Model Deep Learning (RMDL) |
30 modeller för slumpmässig djupinlärning (RDL) (10 CNN, 10 RNN och 10 DNN) |
Inte |
Inte |
0,18 [18]
|
Se även
Anteckningar
- ↑ Stöd vektormaskiners hastighetsmönsterigenkänning - Vision Systems Design . Vision Systems Design . Hämtad: 17 augusti 2013. (obestämd)
- ↑ Gangaputra, Sachin Handskriven sifferdatabas . Hämtad: 17 augusti 2013. (obestämd)
- ↑ Qiao, Yu THE MNIST DATABAS med handskrivna siffror (2007). Hämtad: 18 augusti 2013. (obestämd)
- ↑ Platt, John C. Använda analytisk QP och gleshet för att påskynda träning av stödvektormaskiner // Advances in Neural Information Processing Systems: journal. - 1999. - P. 557-563 . Arkiverad från originalet den 4 mars 2016.
- ↑ 1 2 3 4 5 LeCun, Yann MNIST handskrivna siffror databas, Yann LeCun, Corinna Cortes och Chris Burges . Hämtad: 17 augusti 2013. (obestämd)
- ↑ Kussul, Ernst; Tatiana Baidyk. Förbättrad metod för handskriven sifferigenkänning testad på MNIST-databas // Image and Vision Computing: journal. - 2004. - Vol. 22 , nr. 12 . - s. 971-981 . - doi : 10.1016/j.imavis.2004.03.008 .
- ↑ Zhang, Bin; Sargur N. Srihari. Snabb k -Nearest Neighbor-klassificering med klusterbaserade träd // IEEE- transaktioner på mönsteranalys och maskinintelligens : journal. - 2004. - Vol. 26 , nr. 4 . - s. 525-528 . - doi : 10.1109/TPAMI.2004.1265868 . — PMID 15382657 .
- ↑ 1 2 3 4 Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber. Flerspaltiga djupa neurala nätverk för bildklassificering // 2012 IEEE Conference on Computer Vision and Pattern Recognition : tidskrift. - 2012. - P. 3642-3649 . — ISBN 978-1-4673-1228-8 . - doi : 10.1109/CVPR.2012.6248110 . - arXiv : 1202.2745 .
- ↑ 1 2 3 4 LeCun, Yann; Leon Bottou; Yoshua Bengio; Patrick Haffner. Gradient-Based Learning Applied to Document Recognition // Proceedings of the IEEE 86: journal. - 1998. - Vol. 86 , nr. 11 . - P. 2278-2324 . - doi : 10.1109/5.726791 .
- ↑ Kussul, Ernst; Tatiana Baidyk. Förbättrad metod för handskriven sifferigenkänning testad på MNIST-databas // Image and Vision Computing: journal. - 2004. - Vol. 22 . - s. 971-981 . - doi : 10.1016/j.imavis.2004.03.008 . Arkiverad från originalet den 21 september 2013.
- ↑ Ranzato, Marc'Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun. Effektivt lärande av glesa representationer med en energibaserad modell // Framsteg inom neurala informationsbehandlingssystem: tidskrift. - 2006. - Vol. 19 . - P. 1137-1144 .
- ↑ Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jürgen Schmidhuber. Konvolutionella neurala nätverkskommittéer för handskriven karaktärsklassificering (engelska) // 2011 International Conference on Document Analysis and Recognition (ICDAR): tidskrift. - 2011. - P. 1135-1139 . - doi : 10.1109/ICDAR.2011.229 . Arkiverad från originalet den 22 februari 2016.
- ↑ Wang, Li; Matthew Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus (2013). Regularisering av neurala nätverk med DropConnect . Internationell konferens om maskininlärning (ICML).
- ↑ 1 2 Romanuke, Vadim Det enda konvolutionella neurala nätverket bästa prestanda under 18 epoker på utökad träningsdata vid Parallel Computing Center, Khmelnitskiy, Ukraina . Tillträdesdatum: 16 november 2016. (obestämd)
- ↑ 1 2 Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ukraina) ger ett enda konvolutionellt neuralt nätverk som presterar på MNIST med 0,27 procent felfrekvens. . Tillträdesdatum: 24 november 2016. (obestämd)
- ↑ 1 2 Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ukraina) representerar en ensemble av 5 konvolutionella neurala nätverk som fungerar på MNIST med 0,21 procent felfrekvens. . Tillträdesdatum: 24 november 2016. (obestämd)
- ↑ Romanuke, Vadim. Utbildningsdataexpansion och förstärkning av konvolutionella neurala nätverk för att minska MNIST-datauppsättningsfelfrekvensen // Research Bulletin of NTUU "Kyiv Polytechnic Institute": tidskrift. - 2016. - Vol. 6 . - S. 29-34 . - doi : 10.20535/1810-0546.2016.6.84115 .
- ↑ 1 2 Kowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. RMDL: Random Multimodel Deep Learning for Classification (3 maj 2018). Hämtad: 10 maj 2018. (obestämd)
- ↑ Le Cunn, MNIST-DATABASEN med handskrivna siffror
- ↑ Keysers, Daniel; Thomas Deselaers; Christian Golan; Hermann Ney. Deformationsmodeller för bildigenkänning (obestämd) // EEE Transactions on Pattern Analysis and Machine Intelligence. - 2007. - Augusti ( vol. 29 , nr 8 ). - S. 1422-1435 .
- ↑ Kégl, Balázs; Robert Busa-Fekete. Öka produkter av basklassificerare (obestämd) // Proceedings of the 26th Annual International Conference on Machine Learning. - 2009. - S. 497-504 .
- ↑ DeCoste och Scholkopf, MLJ 2002
- ↑ 1 2 Patrice Y. Simard; Dave Steinkraus; John C. Platt. Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis // Document Analysis and Recognition, 2003. Proceedings. Sjunde internationella konferensen om: tidskrift. - IEEE, 2003. - doi : 10.1109/ICDAR.2003.1227801 .
- ↑ Ciresan, Claudiu Dan; Dan, Ueli Meier, Luca Maria Gambardella och Juergen Schmidhuber. Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition // Neural Computation: journal. - 2010. - December ( vol. 22 , nr 12 ). - doi : 10.1162/NECO_a_00052 . - arXiv : 1003.0358 .
Litteratur
Länkar