MNIST (databas)

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 14 januari 2019; kontroller kräver 9 redigeringar .

MNIST -databasen (förkortning av Modified National Institute of Standards and Technology ) är en stor databas med handskrivna sifferprover. Databasen är en standard som föreslagits av US National Institute of Standards and Technology i syfte att kalibrera och jämföra bildigenkänningsmetoder med hjälp av maskininlärning främst baserad på neurala nätverk [1] [2] . Datan består av förberedda exempelbilder, utifrån vilka utbildning och testning av system genomförs [3] [4] . Databasen skapades efter omarbetning av den ursprungliga NIST 20x20 pixel svartvita provuppsättningen . Skaparna av NIST-databasen använde i sin tur en uppsättning prover från US Census Bureau , till vilka lades fler testprov skrivna av studenter vid amerikanska universitet [5] . Prover från NIST-uppsättningen normaliserades, kantutjämnade och reducerades till en 28x28 pixel gråskalebild [5] .

MNIST-databasen innehåller 60 000 bilder för träning och 10 000 bilder för testning [6] . Hälften av tränings- och testproverna var från NIST-träningssatsen och den andra hälften var från NIST-testsatsen [7] .

Det har gjorts många försök att uppnå minimala fel efter träning i MNIST-databasen och har diskuterats i den vetenskapliga litteraturen. Rekordresultat indikerades i publikationer om användningen av konvolutionella neurala nätverk , felfrekvensen höjdes till 0,23% [8] . Skaparna av databasen tillhandahöll själva flera testmetoder [5] . Det ursprungliga arbetet indikerar att användningen av stödvektormaskinen kan uppnå en felnivå på 0,8 % [9] .

Kvaliteten på resultatet och utvecklingen av tillvägagångssätt

I vissa verk noteras höga resultat för system byggda på ensembler av flera neurala nätverk; samtidigt visar sig kvaliteten på sifferigenkänning för MNIST-basen vara jämförbar med nivån på en person, och för andra igenkänningsuppgifter, i synnerhet för vägmärken, är den till och med dubbelt så bra [8] .

På skaparnas originalsidor [5] noteras fel på 12 % när man använder enkla linjära klassificerare utan förbearbetning [9] .

2004 uppnådde LIRA-systemet som använde Rosenblatts trelagersperceptron en felfrekvens på 0,42 % [10] .

En studie genomfördes på inlärning enligt MNIST-systemet med användning av slumpmässiga förvrängningar. Affina eller elastiska transformationer introducerades som förvrängningar [5] . Ibland uppnådde sådana system bra prestanda, i synnerhet finns det publikationer om felfrekvensen på 0,39 % [11] .

Under 2011 uppnåddes en felfrekvens på 0,27 % med hjälp av neurala nätverk [12] . Under 2013 dök det upp publikationer om att uppnå ett fel på 0,21 % genom att använda neurala nätverksregularisering (genom DropConnect- anslutningsavbrott ) [13] .

Senare gjorde användningen av ett enda faltningsneuralt nätverk det möjligt att förbättra kvaliteten till en felnivå på 0,31 % [14] . Det bästa resultatet på ett enda konvolutionellt neuralt nätverk visades av systemet som erhölls efter 74 träningsepoker - 0,27% [15] . En ensemble av fem faltningsneurala nätverk gjorde det dock möjligt att uppnå en felfrekvens på 0,21 % [16] [17] . Under 2018 rapporterade forskare som använde Random Multimodel Deep Learning (RMDL) ett fel på 0,18 procent, vilket förbättrade det tidigare bästa resultatet: en ny ensemble, djupinlärningsmetod för klassificering [18] .

Jämförelse av system

Tabellen innehåller exempel på maskininlärningsresultat i olika bildklassificeringssystem: [19]

Sorts Strukturera förvrängning Preliminär bearbetning Fel (%)
Linjär klassificerare Enkelnivå perceptron Inte Inte 12 [8]
Linjär klassificerare Parvis linjär klassificerare Inte inriktning 7,6 [9]
k närmaste granne metod K-NN med icke-linjär deformation (P2DHMDM) Inte skiftbara kanter 0,52 [20]
gradientförstärkning Restbearbetning baserad på Haar-funktioner Inte Tecken på Haar 0,87 [21]
Icke-linjär klassificerare 40 PCA + kvadratisk klassificerare Inte Inte 3.3 [9]
Stöd vektor maskin Virtual Support Vector System , deg-9 poly, 2-pixlar jitter Inte inriktning 0,56 [22]
Neuralt nätverk 2-nivå nätverk 784-800-10 Inte Inte 1,6 [23]
Neuralt nätverk 2-nivå nätverk 784-800-10 Elastiska deformationer Inte 0,7 [23]
Deep Neural Network 6-lagers nätverk 784-2500-2000-1500-1000-500-10 Elastiska deformationer Inte 0,35 [24]
Konvolutionellt neuralt nätverk 6-lagers nätverk 784-40-80-500-1000-2000-10 Inte Datatillägg för utbildning 0,31 [14]
Konvolutionellt neuralt nätverk 6-lagers nätverk 784-50-100-500-1000-10-10 Inte Datatillägg för utbildning 0,27 [15]
Konvolutionellt neuralt nätverk Ensemble av 35 CNN-nätverk, 1-20-P-40-P-150-10 Elastiska deformationer Med normalisering 0,23 [8]
Konvolutionellt neuralt nätverk Ensemble av 5 CNN-nätverk, 6 nivåer 784-50-100-500-1000-10-10 Inte Datatillägg för utbildning 0,21 [16]
Random Multi-Model Deep Learning (RMDL) 30 modeller för slumpmässig djupinlärning (RDL) (10 CNN, 10 RNN och 10 DNN) Inte Inte 0,18 [18]

Se även

Anteckningar

  1. Stöd vektormaskiners hastighetsmönsterigenkänning - Vision Systems Design . Vision Systems Design . Hämtad: 17 augusti 2013.
  2. Gangaputra, Sachin Handskriven sifferdatabas . Hämtad: 17 augusti 2013.
  3. Qiao, Yu THE MNIST DATABAS med handskrivna siffror (2007). Hämtad: 18 augusti 2013.
  4. Platt, John C. Använda analytisk QP och gleshet för att påskynda träning av stödvektormaskiner  //  Advances in Neural Information Processing Systems: journal. - 1999. - P. 557-563 . Arkiverad från originalet den 4 mars 2016.
  5. 1 2 3 4 5 LeCun, Yann MNIST handskrivna siffror databas, Yann LeCun, Corinna Cortes och Chris Burges . Hämtad: 17 augusti 2013.
  6. Kussul, Ernst; Tatiana Baidyk. Förbättrad metod för handskriven sifferigenkänning testad på MNIST-databas  //  Image and Vision Computing: journal. - 2004. - Vol. 22 , nr. 12 . - s. 971-981 . - doi : 10.1016/j.imavis.2004.03.008 .
  7. Zhang, Bin; Sargur N. Srihari. Snabb k -Nearest Neighbor-klassificering med klusterbaserade träd  // IEEE-  transaktioner på mönsteranalys och maskinintelligens : journal. - 2004. - Vol. 26 , nr. 4 . - s. 525-528 . - doi : 10.1109/TPAMI.2004.1265868 . — PMID 15382657 .
  8. 1 2 3 4 Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber. Flerspaltiga djupa neurala nätverk för bildklassificering  //  2012 IEEE Conference on Computer Vision and Pattern Recognition : tidskrift. - 2012. - P. 3642-3649 . — ISBN 978-1-4673-1228-8 . - doi : 10.1109/CVPR.2012.6248110 . - arXiv : 1202.2745 .
  9. 1 2 3 4 LeCun, Yann; Leon Bottou; Yoshua Bengio; Patrick Haffner. Gradient-Based Learning Applied to Document Recognition  //  Proceedings of the IEEE 86: journal. - 1998. - Vol. 86 , nr. 11 . - P. 2278-2324 . - doi : 10.1109/5.726791 .
  10. Kussul, Ernst; Tatiana Baidyk. Förbättrad metod för handskriven sifferigenkänning testad på MNIST-databas  //  Image and Vision Computing: journal. - 2004. - Vol. 22 . - s. 971-981 . - doi : 10.1016/j.imavis.2004.03.008 . Arkiverad från originalet den 21 september 2013.
  11. Ranzato, Marc'Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun. Effektivt lärande av glesa representationer med en energibaserad modell  //  Framsteg inom neurala informationsbehandlingssystem: tidskrift. - 2006. - Vol. 19 . - P. 1137-1144 .
  12. Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jürgen Schmidhuber. Konvolutionella neurala nätverkskommittéer för handskriven karaktärsklassificering  (engelska)  // 2011 International Conference on Document Analysis and Recognition (ICDAR): tidskrift. - 2011. - P. 1135-1139 . - doi : 10.1109/ICDAR.2011.229 . Arkiverad från originalet den 22 februari 2016.
  13. Wang, Li; Matthew Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus (2013). Regularisering av neurala nätverk med DropConnect . Internationell konferens om maskininlärning (ICML).
  14. 1 2 Romanuke, Vadim Det enda konvolutionella neurala nätverket bästa prestanda under 18 epoker på utökad träningsdata vid Parallel Computing Center, Khmelnitskiy, Ukraina . Tillträdesdatum: 16 november 2016.
  15. 1 2 Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ukraina) ger ett enda konvolutionellt neuralt nätverk som presterar på MNIST med 0,27 procent felfrekvens. . Tillträdesdatum: 24 november 2016.
  16. 1 2 Romanuke, Vadim Parallel Computing Center (Khmelnitskiy, Ukraina) representerar en ensemble av 5 konvolutionella neurala nätverk som fungerar på MNIST med 0,21 procent felfrekvens. . Tillträdesdatum: 24 november 2016.
  17. Romanuke, Vadim. Utbildningsdataexpansion och förstärkning av konvolutionella neurala nätverk för att minska MNIST-datauppsättningsfelfrekvensen  //  Research Bulletin of NTUU "Kyiv Polytechnic Institute": tidskrift. - 2016. - Vol. 6 . - S. 29-34 . - doi : 10.20535/1810-0546.2016.6.84115 .
  18. 1 2 Kowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. RMDL: Random Multimodel Deep Learning for Classification (3 maj 2018). Hämtad: 10 maj 2018.
  19. Le Cunn, MNIST-DATABASEN med handskrivna siffror
  20. Keysers, Daniel; Thomas Deselaers; Christian Golan; Hermann Ney. Deformationsmodeller för bildigenkänning  (obestämd)  // EEE Transactions on Pattern Analysis and Machine Intelligence. - 2007. - Augusti ( vol. 29 , nr 8 ). - S. 1422-1435 .
  21. Kégl, Balázs; Robert Busa-Fekete. Öka produkter av basklassificerare  (obestämd)  // Proceedings of the 26th Annual International Conference on Machine Learning. - 2009. - S. 497-504 .
  22. DeCoste och Scholkopf, MLJ 2002
  23. 1 2 Patrice Y. Simard; Dave Steinkraus; John C. Platt. Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis  //  Document Analysis and Recognition, 2003. Proceedings. Sjunde internationella konferensen om: tidskrift. - IEEE, 2003. - doi : 10.1109/ICDAR.2003.1227801 .
  24. Ciresan, Claudiu Dan; Dan, Ueli Meier, Luca Maria Gambardella och Juergen Schmidhuber. Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition  //  Neural Computation: journal. - 2010. - December ( vol. 22 , nr 12 ). - doi : 10.1162/NECO_a_00052 . - arXiv : 1003.0358 .

Litteratur

Länkar