Djup lärning

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 5 juni 2022; kontroller kräver 7 redigeringar .

Deep learning ( deep learning ; eng.  Deep learning ) - en uppsättning maskininlärningsmetoder ( med en lärare , med en lärares partiell inblandning , utan en lärare , med förstärkning ) baserade på inlärningsrepresentationer ( eng.  feature/representation learning ), och inte specialiserade algoritmer under specifika uppgifter. Många metoder för djupinlärning var kända redan på 1980-talet (och till och med tidigare [1] ), men resultaten var inte imponerande [2] förrän framsteg inom teorin om artificiella neurala nätverk (förträning av neurala nätverk med ett specialfall av en icke-riktad grafisk modell, den så kallade begränsade maskinen Boltzmann ) och beräkningskraften från mitten av 2000-talet (inklusive de som använder grafikacceleratorer , användarprogrammerbara gate-arrayer och olika former av neurala processorer ) tillät inte skapandet av komplexa tekniska arkitekturer av neurala nätverk som har tillräcklig prestanda och tillåter att lösa ett brett spektrum av problem som inte kunde lösas effektivt tidigare, till exempel inom datorseende , maskinöversättning , taligenkänning , och kvaliteten på lösningen är i många fall nu jämförbar, och i vissa fall överträffar mänsklig effektivitet [3] .

Historik

Trots det faktum att termen " djupinlärning " dök upp i det vetenskapliga samfundet för maskininlärning först 1986 efter arbetet av Rina Dekhter [4] , publicerades den första allmänna arbetsalgoritmen för djupmatade flerskiktsperceptroner i boken av sovjet. forskarna Alexei Grigorievich Ivakhnenko och Valentin Grigorievich Lapa "Cybernetic predictive devices", redan 1965 [5]

Andra djupa arkitekturer, särskilt de som är specialiserade på mönsterigenkänning , har sitt ursprung i neokognitronen utvecklad av Kunihiko Fukushima.år 1980. År 1989 lyckades Jan LeCun använda backpropagation- algoritmen för att träna djupa neurala nätverk för att lösa problemet med att känna igen handskrivna postnummer [6] . Trots den framgångsrika erfarenheten tog det tre dagar att träna modellen, vilket avsevärt begränsade användbarheten av denna metod. Den låga inlärningshastigheten är förknippad med många faktorer, inklusive problemet med försvinnande gradienter på grund av den stora spridningen av värdena för inlärningsbara parametrar, som analyserades 1991 av Jörgen Schmidhuber och Sepp Hochreiter. På grund av dessa problem gav neurala nätverk plats för att stödja vektormaskiner på 1990 -talet .

År 1991 användes sådana system för att känna igen isolerade 2D-handskrivna siffror, och 3D-objektigenkänning åstadkoms genom att matcha 2D-bilder till en handgjord 3D-objektmodell. 1992 skapades en modell av en cresceptron [7] [8] [9] för att känna igen tredimensionella objekt i röriga scener.

År 1994 publicerade André de Carvalho, tillsammans med Mike Fairhurst och David Bisset, de experimentella resultaten av ett flerlagers booleskt neuralt nätverk, även känt som ett viktlöst neuralt nätverk, bestående av en trelagers självorganiserande neuralnätverksmodul för funktionsextraktion ( SOFT) och sedan en skiktad neural nätverksmodulklassificering (GSN). Varje modul genomgick självständig utbildning. Varje lager i modulen hämtade objekt med ökande komplexitet i förhållande till föregående lager. [tio]

1995 visade Brendan Frey att det var möjligt att träna (på två dagar) ett nätverk som innehåller sex helt anslutna lager och flera hundra dolda enheter med hjälp av en sömn-vakna algoritm utvecklad med Peter Dayan och Hinton [11] . Många faktorer bidrar till långsam hastighet, inklusive problemet med försvinnande gradient som analyserades 1991 av Sepp Hochreiter [12] [13] .

Enklare modeller som använder uppgiftsspecifikt manuellt arbete, såsom Gabor-filter och stödvektormaskiner (SVM), var populära val på 1990- och 2000-talen på grund av beräkningskostnaden för artificiella neurala nätverk (ANN). .ANN) och brist på förståelse för hur hjärnan länkar sina biologiska nätverk.

Både yt- och djupinlärning (t.ex. återkommande nätverk) ANN har studerats i många år [14] [15] [16] . Dessa metoder har aldrig överträffat heterogena blandade Gaussiska och dolda Markov- modeller baserade på diskriminerande tränade generativa talmodeller [17] . Nyckelsvårigheter analyserades, inklusive gradientminskning [12] och svag tidsmässig korrelationsstruktur i neurala prediktiva modeller [18] [19] . Ytterligare svårigheter var bristen på träningsdata och begränsad datorkraft.

Deep learning blev populärt i mitten av 2000-talet när allt kom ihop: datorer blev tillräckligt kraftfulla för att träna stora neurala nätverk (de lärde sig att delegera beräkningar till grafikprocessorer , vilket påskyndade inlärningsprocessen med en storleksordning), datamängder blev tillräckligt stora för att träna stora nätverk var vettigt, och ett annat framsteg ägde rum i teorin om artificiella neurala nätverk - artiklar av Hinton , Osinderero och Tae [20] , samt Bengio [21] , där författarna visade att det är möjligt att effektivt förträna ett neuralt flerskiktsnätverk om varje lager tränas separat i att använda en begränsad Boltzmann-maskin och sedan omträna med backpropagation- metoden .

The Deep Learning Revolution

2012 vann ett team under ledning av George E. Dahl Merck Molecular Activity Challenge genom att använda multitasking djupa neurala nätverk för att förutsäga det biomolekylära målet för ett enda läkemedel [22] . 2014 använde Hochreiters grupp djupinlärning för att identifiera off-target och toxiska effekter av miljökemikalier i näringsämnen, hushållsprodukter och droger, och vann "Tox21 Data Challenge" från U.S. National Institutes of Health , US Food and Drug Administration . livsmedels- och läkemedelskvalitet och NCATS [23] .

En betydande utveckling av bild- eller objektigenkänning kändes mellan 2011 och 2012. Medan backpropagated convolutional neural networks (CNN) har funnits i årtionden, och GPU:er har implementerat neurala nätverk i många år, inklusive CNN, har snabba implementeringar av CNN på GPU:n använts för att främja datorseende. 2011 uppnådde detta tillvägagångssätt övermänsklig prestation för första gången i en tävling för visuell mönsterigenkänning. Även 2011 vann han ICDARs handskriftstävling och i maj 2012 ISBI-bildsegmenteringstävlingen [24] . Fram till 2011 spelade inte CNN någon större roll vid datorseendekonferenser, men i juni 2012 visade en presentation av Ciresan [25] på flaggskeppet CVPR-konferens hur den maximala integrationen av CNN på en GPU avsevärt kan förbättra många benchmarkresultat. I oktober 2012 utvecklades ett liknande system av Krizhevsky [26] , vars team vann den storskaliga ImageNet -tävlingen med en betydande marginal jämfört med ytans maskininlärningsmetoder. I november 2012 vann Ciresan-teamet också ICPR-tävlingen för stor medicinsk bildanalys för cancerdetektering, och året därpå MICCAI Grand Challenge om samma ämne [27] . Under 2013 och 2014 minskade felfrekvensen i ImageNet-uppgiften med djupinlärning ytterligare på grund av en liknande trend inom storskalig taligenkänning. Steven Wolfram publicerade dessa förbättringar som en del av Image Identification Project [28] .

Bildklassificeringen utökades sedan till den mer komplexa uppgiften att skapa beskrivningar (textningar) för bilder, ofta som en kombination av CNN och LSTM [29] [30] [31] [32] .

Vissa forskare tror att ImageNets seger i oktober 2012 markerade början på en "deep learning revolution" som förändrade AI-branschen [33] .

I mars 2019 tilldelades Yoshua Bengio , Geoffrey Hinton och Yann LeCun Turing Award för konceptuella och tekniska genombrott som har gjort djupa neurala nätverk till en kritisk komponent i datoranvändning.

Neurala nätverk

Artificiella neurala nätverk (ANN)  är beräkningssystem baserade på principerna för biologiska neurala nätverk som utgör djurhjärnan. Sådana system lär sig (förbättrar gradvis sin förmåga) att utföra uppgifter, vanligtvis utan att vara programmerade att lösa specifika uppgifter. Till exempel, vid bildigenkänning av katter kan de lära sig att känna igen bilder som innehåller katter genom att analysera exempel på bilder som manuellt har märkts "katt" eller "ingen katt" och använda resultaten av analysen för att identifiera katter i andra bilder. ANN:er har funnit sin största användning i mjukvaruapplikationer som är svåra att uttrycka med en traditionell datoralgoritm som använder regelbaserad programmering .

ANN är baserade på en uppsättning sammankopplade enheter som kallas artificiella neuroner (liknande biologiska neuroner i den biologiska hjärnan). Varje anslutning (synaps) mellan neuroner kan överföra en signal till en annan neuron. Den mottagande (postsynaptiska) neuronen kan bearbeta signalen/signalerna och sedan signalera neuronerna som är anslutna till den. Neuroner kan ha ett tillstånd, vanligtvis representerat av reella tal, vanligtvis mellan 0 och 1. Neuroner och synapser kan också ha vikter som förändras under inlärning, vilket kan öka eller minska styrkan på signalen som de sänder ut.

Vanligtvis är neuroner organiserade i lager. Olika lager kan utföra olika typer av transformationer. Signalerna färdas från det första (ingången) till det sista (utgångs-) lagret, möjligen efter att ha passerat genom lagren flera gånger.

Det ursprungliga målet med den neurala nätverksansatsen var att lösa problem på samma sätt som den mänskliga hjärnan gör. Med tiden har uppmärksamheten fokuserats på urvalet av vissa intellektuella förmågor, vilket ledde till avvikelser från biologin, såsom backpropagation, eller överföring av information i motsatt riktning och upprättande av ett nätverk för att spegla denna information.

Neurala nätverk används för en mängd olika uppgifter, inklusive maskinseende, taligenkänning, maskinöversättning, filtrering av sociala medier, videospel och medicinsk diagnostik.

Från och med 2017 har neurala nätverk vanligtvis några tusen till några miljoner enheter och miljontals anslutningar. Trots det faktum att detta antal är flera storleksordningar mindre än antalet neuroner i den mänskliga hjärnan, kan dessa nätverk utföra många uppgifter på en nivå som överstiger människors förmåga (till exempel ansiktsigenkänning, spela go ) [34] .

Djupa neurala nätverk

Ett djupt neuralt nätverk (DNN, DNN - Deep neural network) är ett artificiellt neuralt nätverk (ANN) med flera lager mellan ingångs- och utgångsskikten [35] [36] . GNN hittar den korrekta matematiska transformationsmetoden för att omvandla indata till en utdata, oavsett om korrelationen är linjär eller icke-linjär . Nätverket rör sig genom lagren och beräknar sannolikheten för varje utgång. Till exempel kommer en DNN som är tränad att känna igen hundraser gå igenom en given bild och beräkna sannolikheten för att en hund på bilden tillhör en viss ras. Användaren kan se resultaten och välja sannolikheterna som nätverket ska visa (till exempel över en viss tröskel) och returnera en föreslagen etikett till nätverket. Varje matematisk transformation anses vara ett lager, och komplexa GNN har många lager, därav namnet "djupa" eller "djupa" nätverk.

GNN kan modellera komplexa icke-linjära samband. GNN-arkitekturer genererar kompositionsmodeller där ett objekt uttrycks som en flernivåkomposition av primitiver [37] . Ytterligare lager tillåter att element komponeras från lägre nivåer, vilket potentiellt kan modellera komplexa data med färre enheter än ett fint nätverk med liknande mått [35] .

Djup arkitektur innehåller många varianter av flera grundläggande tillvägagångssätt. Varje arkitektur har funnit framgång inom vissa områden. Det är inte alltid möjligt att jämföra prestanda för flera arkitekturer om de inte har utvärderats på samma datamängder.

GNN:er är typiskt feed-forward-nätverk där data överförs från ett ingångsskikt till ett utgångsskikt utan återkoppling. Först skapar GNN en karta över virtuella neuroner och tilldelar slumpmässiga numeriska värden eller "vikter" till kopplingarna mellan dem. Vikterna och indata multipliceras och returnerar en utsignal från 0 till 1. Om nätverket inte korrekt känner igen ett visst mönster kommer algoritmen att justera vikterna tills den bestämmer koefficienterna som korrekt bearbetar data. [38]

Definitioner

Maskininlärningsalgoritmer

Deep learning karakteriseras som en klass av maskininlärningsalgoritmer som [ 39] :

Alla definitioner anger

  1. närvaron av flera lager av icke-linjär bearbetning
  2. övervakat eller oövervakat lärande presenterade varje lager och bildade en hierarki från låga till höga nivåer [39] .

Sammansättningen av specifika olinjära skikt beror på problemet som ska lösas. Både dolda lager i det neurala nätverket och lager av komplexa logiska transformationer används [40] . Systemet kan inkludera latenta variabler organiserade i lager i djupa generativa modeller som noder i en djup väv av förtroende och en djupt begränsad Boltzmann-maskin .

Algoritmer för djupinlärning är motsatsen till grunda inlärningsalgoritmer när det gäller antalet parameteriserade transformationer som signalen möter när den fortplantar sig från ingångsskiktet till utgångsskiktet, där en parametriserad transformation anses vara en databehandlingsenhet som har träningsbara parametrar som t.ex. som vikter eller trösklar [41] . Kedjan av transformationer från input till output kallas CAP - genom att överföra ansvar ( engelska  credit assignment path, CAP ). CAPs beskriver potentiella orsakssamband längs nätverket från input till output, och vägen i olika grenar kan ha olika längd. För ett neuralt nätverk för feedforward skiljer sig inte CAP-djupet från nätverksdjupet och är lika med antalet dolda lager plus ett (utgångsskiktet är också parametriserat). För återkommande neurala nätverk , där signalen kan hoppa genom lager som går förbi mellanliggande, är CAP potentiellt obegränsad i längd på grund av återkoppling. Det finns ingen allmänt överenskommen tröskel för uppdelningsdjupet för grundt lärande från djupinlärning, men djupinlärning anses generellt kännetecknas av flera icke-linjära lager (CAP > 2). Jorgen Schmidhuber lyfter också fram "very deep learning" när CAP > 10 [41] .

Innehåll

Deep learning är en maskininlärningsalgoritm för modellering av abstraktioner på hög nivå med hjälp av flera icke-linjära transformationer [39] [40] [41] [42] [43] .

Först och främst inkluderar djupinlärning följande metoder och deras variationer:

Genom att kombinera dessa metoder skapas komplexa system som motsvarar olika artificiella intelligensuppgifter .

Deep learning är ett validerat urval från en bred familj av maskininlärningsmetoder för att representera den data som bäst passar problemets natur. En bild, till exempel, kan representeras på många sätt, såsom en intensitetsvektor av värden per pixel, eller (i en mer abstrakt form) som en uppsättning primitiver, regioner med en viss form, etc. Framgångsrika datarepresentationer göra det lättare att lösa specifika problem - till exempel ansiktsigenkänning och ansiktsuttryck [44] ). I system för djupinlärning automatiserar den processen för val och inställning av funktioner, utför funktionsinlärning utan en lärare eller med partiell inblandning av en lärare , med hjälp av effektiva algoritmer och hierarkisk funktionsextraktion [45] för detta .

Forskning inom detta område har förbättrat modeller för att arbeta med stora volymer omärkt data. Vissa tillvägagångssätt har uppstått från framsteg inom området neurovetenskap , framsteg inom tolkningen av informationsbehandling, byggande av kommunikationsmodeller i nervsystemet , såsom neural kodning i samband med att bestämma förhållandet mellan stimulus och neurala svar, och sambandet mellan elektrisk aktivitet mellan neuroner i hjärnan [46] .

System för djupinlärning har funnit tillämpning inom områden som datorseende , taligenkänning , naturlig språkbehandling , ljudigenkänning, bioinformatik , där betydligt bättre resultat än tidigare visades för ett antal uppgifter.

Trots framgången med att använda djupinlärning har det fortfarande en grundläggande begränsning: modeller för djupinlärning är begränsade i vad de kan representera, och de flesta program kan inte uttryckas som en kontinuerlig geometrisk morphing av en mängd olika data [47] .

Det kvarstår dock den skeptiska uppfattningen att djupinlärning  inte är något annat än ett modeord eller en ommärkning av neurala nätverk [48] [49] .

Se även

Anteckningar

  1. Faktum är att de första djupa nätverken dök upp i mitten av 1960-talet: nätverk i form av djupa perceptroner beskrevs i verk av de sovjetiska forskarna A. G. Ivakhnenko och V. G. Lapa - se avsnittet Historia nedan.
  2. Neurala nätverksforskare John Denker observerade 1994: "Neurala nätverk är det näst bästa sättet att göra nästan vad som helst."
  3. Ciresan, Dan; Meier, U.; Schmidhuber, J. Flerspaltiga djupa neurala nätverk för bildklassificering  //  2012 IEEE Conference on Computer Vision and Pattern Recognition : tidskrift. - 2012. - Juni. - P. 3642-3649 . - doi : 10.1109/cvpr.2012.6248110 .
  4. Rina Dechter (1986). Lärande medan du söker i problem med begränsningar Arkiverad 19 april 2016 på Wayback Machine . University of California, datavetenskapsavdelningen, Laboratoriet för kognitiva system.
  5. Ivakhnenko A. G. , Lapa V. G. Cybernetiska prediktiva enheter. - K . : "Naukova Dumka", 1965. - 216 s. - ISBN 978-5-458-61159-6 .
  6. Yann LeCun et al. Backpropagation tillämpas på handskriven postnummerigenkänning (länk ej tillgänglig) . Hämtad 28 augusti 2014. Arkiverad från originalet 29 maj 2015. 
  7. J. Weng, N. Ahuja och TS Huang. Cresceptron: ett självorganiserande neuralt nätverk som växer adaptivt  // Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581. - juni 1992. Arkiverad från originalet den 21 september 2017.
  8. J. Weng, N. Ahuja och TS Huang,. Lär dig igenkänning och segmentering av 3-D-objekt från 2-D-bilder  // Proc. 4:e internationella konf. Computer Vision, Berlin, Tyskland, s. 121-128. - maj 1993. Arkiverad från originalet den 21 september 2017.
  9. J. Weng, N. Ahuja och TS Huang,. Lärandeigenkänning och segmentering med hjälp av Cresceptron  // International Journal of Computer Vision, vol. 25, nr. 2, sid. 105-139. nov. 1997. Arkiverad från originalet den 25 januari 2021.
  10. de Carvalho, Andre CLF; Fairhurst, Mike C.; Bisset, David (1994-08-08). Ett integrerat booleskt neuralt nätverk för mönsterklassificering  // Pattern Recognition Letters.. — s. 807–813 . - doi : 10.1016/0167-8655(94)90009-4. . Arkiverad från originalet den 25 augusti 2019.
  11. Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford. Wake-sleep-algoritmen för oövervakade neurala nätverk  // Science. 268 (5214): 1158–1161 .. - 1995-05-26. doi : 10.1126 / science.7761831. . Arkiverad från originalet den 25 augusti 2019.
  12. ↑ 1 2 S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen  // Diploma thesis. institut f. Informatik, Technische Univ. München. Rådgivare: J. Schmidhuber. - 1991. Arkiverad 6 mars 2015.
  13. Hochreiter, S.; et al. Gradientflöde i återkommande nät: svårigheten att lära sig långsiktiga beroenden  // I Kolen, John F.; Kremer, Stefan C. (red.). En fältguide till dynamiska återkommande nätverk. John Wiley & Sons. - 15 januari 2001. - ISBN 978-0-7803-5369-5 . . Arkiverad från originalet den 19 augusti 2020.
  14. Morgan, Nelson; Bourlard, Herve; Renals, Steve; Cohen, Michael; Franco, Horacio. Hybrid neuralt nätverk/dolda markov modellsystem för kontinuerlig taligenkänning // International Journal of Pattern Recognition and Artificial Intelligence.. — 1993-08-01. - Nr 07 (4): 899–916 . — ISSN 0218-0014 . - doi : 10.1142/s0218001493000455 .
  15. Robinson, T. Ett system för ordigenkänning i nätverk för återkommande felutbredning i realtid. — ICASSP. Icassp'92: 617–620 .. - 1992. - ISBN 9780780305328 ..
  16. Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, KJ Fonomigenkänning med hjälp av neurala nätverk med tidsfördröjning // IEEE-transaktioner på akustik, tal och signalbehandling. 37(3): 328–339. - Mars 1989. - ISSN 0096-3518 . - doi : 10.1109/29.21701. hdl:10338.dmlcz/135496 .
  17. Baker, J.; Deng, Li; Glas, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. 2009. Research Developments and Directions in Speech Recognition and Understanding, Del 1 // IEEE Signal Processing Magazine.. - nr 26 (3): 75–80 . - doi : 10.1109/msp.2009.932166 .
  18. Bengio, Y. Artificiella neurala nätverk och deras tillämpning på tal/sekvensigenkänning  // McGill University Ph.D. avhandling.. - 1991. Arkiverad från originalet den 9 maj 2021.
  19. Deng, L.; Hassanein, K.; Elmasry, M. Analys av korrelationsstruktur för en neural prediktiv modell med tillämpningar för taligenkänning // Neural Networks. 7(2). - 1994. - S. 331-339 . - doi : 10.1016/0893-6080(94)90027-2 .
  20. En snabb inlärningsalgoritm för djupa trosnät . Hämtad 24 januari 2018. Arkiverad från originalet 23 december 2015.
  21. Bengio, Yoshua (2012), Praktiska rekommendationer för gradientbaserad träning av djupa arkitekturer, arΧiv : 1206.5533 . 
  22. Meddelande om vinnarna av Merck Molecular Activity Challenge . Hämtad 27 november 2019. Arkiverad från originalet 21 juni 2017.
  23. NCATS tillkännager vinnare av Tox21 Data Challenge . Hämtad 27 november 2019. Arkiverad från originalet 8 september 2015.
  24. Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen. Framsteg inom neurala informationsbehandlingssystem  // Curran Associates, Inc. - 2012. - P. 2843–2851. . Arkiverad från originalet den 9 augusti 2017.
  25. Ciresan, D.; Meier, U.; Schmidhuber, J. Flerkolumns djupa neurala nätverk för bildklassificering // IEEE Conference on Computer Vision and Pattern Recognition. - 2012. - S. 3642–3649 . — ISBN 978-1-4673-1228-8 . - doi : 10.1109/cvpr.2012.6248110 . - arXiv : 1202.2745. .
  26. Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry. ImageNet Classification with Deep Convolutional Neural Networks  // NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada.. - 2012. Arkiverad den 10 januari 2017.
  27. Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks // Proceedings MICCAI. Föreläsningsanteckningar i datavetenskap. 7908 (Pt 2): 411–418. - 2013. - ISBN 978-3-642-38708-1 . - doi : 10.1007/978-3-642-40763-5_51 . — PMID 24579167 .
  28. ^ "The Wolfram Language Image Identification Project". www.imageidentify.com. Hämtad 2017-03-22. . Hämtad 29 november 2019. Arkiverad från originalet 22 juli 2020.
  29. Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru. Visa och berätta: A Neural Image Caption Generator // [cs.CV]. - 2014. - arXiv : 1411.4555 .
  30. Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollar, Piotr; Gao, Jianfeng; Han, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey. Från bildtexter till visuella koncept och tillbaka // [cs.CV]. - 2014. - arXiv : https://arxiv.org/abs/1411.4952 .
  31. Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S. Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models // [cs.LG]. - 2014. - arXiv : https://arxiv.org/abs/1411.2539 .
  32. Zhong, Sheng-hua; Liu, Yan; Liu, Yang. Bilinear Deep Learning för bildklassificering // Proceedings of the 19th ACM International Conference on Multimedia. MM '11. New York, NY, USA: ACM. - 2011. - S. 343–352 . — ISBN 9781450306164 . - doi : 10.1145/2072298.2072344 .
  33. Varför djupinlärning plötsligt förändrar ditt liv . Fortune (2016. Hämtad 13 april 2018.). Hämtad 30 november 2019. Arkiverad från originalet 14 april 2018.
  34. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda. Bemästra spelet Go med djupa neurala nätverk och trädsökning // Nature: 529 (7587):. - Januari 2016. - ISSN 1476-4687 . - doi : 10.1038/nature16961 . — . — PMID 26819042 .
  35. ↑ 1 2 Bengio, Yoshua. Lär dig djupa arkitekturer för AI  // Grunder och trender inom maskininlärning. 2(1):1–127. - 2009. - doi : 10.1561/2200000006 .
  36. Schmidhuber, J. Deep Learning in Neural Networks: En översikt // Neural Networks. 61:85–117. - 2015. - doi : 10.1016/j.neunet.2014.09.003 . - arXiv : 1404.7828 . — PMID 25462637 .
  37. Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru. Djupa neurala nätverk för objektdetektering  // Framsteg inom neurala informationsbehandlingssystem. - 2013. - S. 2553-2561 . Arkiverad från originalet den 29 juni 2017.
  38. Hof, Robert D. Kommer artificiell intelligens äntligen till sin rätt?  // MIT Technology Review. Hämtad 2018-07-10. Arkiverad från originalet den 31 mars 2019.
  39. 1 2 3 Deng, L.; Yu, D. Deep Learning: Metoder och tillämpningar  (obestämd)  // Grunder och trender inom signalbehandling. - 2014. - V. 7 , nr 3-4 . - S. 1-199 . - doi : 10.1561/2000000039 .
  40. 1 2 Bengio, Yoshua. Lär dig djupa arkitekturer för AI  (neopr.)  // Grunder och trender inom maskininlärning. - 2009. - V. 2 , nr 1 . - S. 1-127 . - doi : 10.1561/2200000006 . Arkiverad från originalet den 4 mars 2016. Arkiverad kopia (inte tillgänglig länk) . Hämtad 24 november 2017. Arkiverad från originalet 4 mars 2016. 
  41. 1 2 3 Schmidhuber, J. Deep Learning in Neural Networks: En översikt  (obestämd)  // Neural Networks. - 2015. - T. 61 . - S. 85-117 . - doi : 10.1016/j.neunet.2014.09.003 . - arXiv : 1404.7828 . — PMID 25462637 .
  42. Bengio, Y.; Courville, A.; Vincent, P. Representation Learning: A Review and New Perspectives  // IEEE Transactions on Pattern Analysis and Machine Intelligence  [  : journal. - 2013. - Vol. 35 , nr. 8 . - P. 1798-1828 . - doi : 10.1109/tpami.2013.50 . - arXiv : 1206.5538 .
  43. Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey. Deep Learning  (engelska)  // Nature. - 2015. - Vol. 521 . - s. 436-444 . - doi : 10.1038/nature14539 . — PMID 26017442 .
  44. Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc-uppsats). Imperial College London, Department of Computing. arXiv : 1508.06535 .
  45. Song, Lee, Neural Information Processing, 2013
  46. Olshausen, BA Uppkomsten av enkelcellsreceptiva fältegenskaper genom att lära sig en sparsam kod för naturliga bilder  //  Nature: journal. - 1996. - Vol. 381 , nr. 6583 . - s. 607-609 . - doi : 10.1038/381607a0 . — . — PMID 8637596 .
  47. Francois Chollet. Kapitel 9, avsnitt 2 // Deep Learning med Python. - Manning, 2017. - 350 sid. — ISBN 9781617294433 .
  48. Djup inlärning för effektiv diskriminerande analys . Tid från källans start: 7min 45s. Arkiverad 19 oktober 2020 på Wayback Machine
  49. Gomes, maskinlärande maestro Michael Jordan om vanföreställningarna om Big Data och andra enorma tekniska ansträngningar

Litteratur