Generativt motståndsnätverk

Generative adversarial network ( GAN  för kort) är en oövervakad maskininlärningsalgoritm byggd på en kombination av två neurala nätverk , varav det ena (nätverket G) genererar sampel (se Generativ modell ), och det andra (nätverket D) försöker att skilja korrekta ("äkta") prov från felaktiga (se Diskriminerande modell ). Eftersom nätverk G och D har motsatta mål - att skapa prover och förkasta prover - uppstår ett antagonistiskt spel mellan dem . Det generativa motståndsnätverket beskrevs av Ian Goodfellow från Google 2014 [1] .

Användningen av denna teknik gör det särskilt möjligt att generera fotografier som uppfattas av det mänskliga ögat som naturliga bilder. Till exempel finns det ett välkänt försök att syntetisera fotografier av katter, vilket vilseleder experten, som anser att de är naturliga foton [2] . Dessutom kan GAN användas för att förbättra kvaliteten på suddiga eller delvis skadade fotografier.

Metod

I GAN-systemet genererar ett av nätverken (G-nätverk, från Generator) samplingar (se Generativ modell ), och det andra (D-nätverket, från Discriminator) försöker särskilja korrekta ("äkta") sampel från felaktiga. (se Diskriminerande modell ) [1] . Med hjälp av en uppsättning latenta rymdvariabler försöker det generativa nätverket forma ett nytt mönster genom att blanda flera av de ursprungliga mönstren. Det diskriminerande nätverket är tränat att skilja mellan äkta och falska prov, och resultaten av distinktionen matas till ingången till det generativa nätverket så att det kan välja den bästa uppsättningen latenta parametrar, och det diskriminerande nätverket skulle inte längre kunna skilja äkta prover från falska. Målet med nätverk G är alltså att öka felfrekvensen för nätverk D, och målet för nätverk D är tvärtom att förbättra igenkänningsnoggrannheten [1] [3] .

Diskrimineringsnätverket D, som analyserar prover från originaldata och från de som skapats av generatorn, uppnår viss diskrimineringsnoggrannhet. I det här fallet börjar generatorn med slumpmässiga kombinationer av latenta rymdparametrar (se multivariat normalfördelning ), och efter att ha utvärderat de erhållna proverna av nätverket D, tillämpas metoden för förökning av felet , vilket förbättrar genereringskvaliteten genom att korrigera ingången uppsättning latenta parametrar. Gradvis blir artificiella bilder vid utgången av det generativa nätverket mer och mer kvalitativa [4] . D-nätverket är implementerat som ett konvolutionellt neuralt nätverk , medan G-nätverket tvärtom vecklar ut bilden baserat på dolda parametrar.

I processen för gemensamt konkurrensutsatt lärande, om systemet är tillräckligt balanserat, uppnås ett minimax- jämviktstillstånd, där båda nätverken har förbättrat sin kvalitet avsevärt, och nu kan de genererade bilderna användas nästan som verkliga.

Idén om kontradiktoriskt lärande lades fram 2013 av Li, Gauci och Gross [5] . Denna metod kallas också för "Turing-inlärning" [6] eftersom den syftar till att klara Turing-testet .

Populära metodförklaringar

Principen för påstående i ett GAN beskrivs ofta genom metaforer. Till exempel liknas ett generativt nätverk vid en förfalskare eller en förfalskare av målningar, och ett diskriminerande nätverk liknas vid en expert som försöker känna igen en falsk [7] [8] . Ett annat exempel är bilden av två boxare, varav en studerade med mästaren, och den andra tvingas imitera studenten [9] .

I en populär applikation för att generera mänskliga ansikten fungerar riktiga fotografier som autentisk data, och ett generativt nätverk försöker skapa konstgjorda ansikten genom att variera kombinationer av sådana latenta parametrar som hårfärg, ansiktsproportioner, ögonform, näsform, öronstorlek, skägg och mustasch , etc. d [10] [11]

Forskarnas artiklar ger exempel på GAN-implementering baserat på TensorFlow- biblioteket [12] [13] .

Applikation

GAN används för att erhålla fotorealistiska bilder, till exempel för industriella designelement , inredning , kläder, väskor, portföljer, dataspelscener, etc. GAN används också i Facebook -nätverket [14] . Nyligen har GAN använts för att förbereda film- eller animationsramar [15] . Dessa system hjälper också till att återskapa en tredimensionell modell av ett objekt med hjälp av fragmentariska bilder [16] och förbättra bilder erhållna från astronomiska observationer [17] .

Anteckningar

  1. 1 2 3 Goodfellow, Ian J.; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron & Bengio, Yoshua (2014), Generative Adversarial Networks, arΧiv : 1406.2661 [stat.ML]. 
  2. Salimans, Tim; Goodfellow, Ian; Zaremba, Wojciech; Cheung, Vicki; Radford, Alec & Chen, Xi (2016), Improved Techniques for Training GANs, arΧiv : 1606.03498 [cs.LG]. 
  3. Luc, Pauline; Couprie, Camille; Chintala, Soumith; Verbeek, Jacob. Semantisk segmentering med hjälp av Adversarial Networks  (neopr.)  // NIPS Workshop on Adversarial Training, dec , Barcelona, ​​​​Spain. - 2016. - 25 november ( vol. 2016 ). - arXiv : 1611.08408 .
  4. Andrej Karpathy, Pieter Abbeel, Greg Brockman, Peter Chen, Vicki Cheung, Rocky Duan, Ian Goodfellow, Durk Kingma, Jonathan Ho, Rein Houthooft, Tim Salimans, John Schulman, Ilya Sutskever, And Wojciech Zaremba, Generative Models , OpenAI , < http://openai.com/blog/generative-models/ > . Hämtad 7 april 2016. Arkiverad 22 april 2021 på Wayback Machine 
  5. Li, Wei; Gauci, Melvin; Gross, Roderich (6 juli 2013). "Ett samevolutionärt tillvägagångssätt för att lära sig djurs beteende genom kontrollerad interaktion" . Proceedings of the 15th Annual Conference on Genetic and Evolutionary Computation (GECCO 2013) . Amsterdam, Nederländerna: ACM. pp. 223-230.
  6. Li, Wei; Gauci, Melvin; Gross, Roderich. Turing-inlärning: en metrikfri metod för att härleda beteende och dess tillämpning på svärmar  //  Swarm Intelligence : journal. - 2016. - 30 augusti ( vol. 10 , nr 3 ). - S. 211-243 . - doi : 10.1007/s11721-016-0126-1 .
  7. Förfalskare mot bankirer: spela ut motstridiga nätverk i Theano . Hämtad 19 juli 2017. Arkiverad från originalet 20 augusti 2017.
  8. Fotoredigering med generativa motstridiga nätverk (del 1) . Hämtad 19 juli 2017. Arkiverad från originalet 20 augusti 2017.
  9. Michael Dietz. Om intuitionen bakom djupinlärning och GAN - mot en grundläggande förståelse  (otillgänglig länk)
  10. Anders Boesen Lindbo Larsen och Søren Kaae Sønderby Generating Faces with Torch . Hämtad 19 juli 2017. Arkiverad från originalet 11 juli 2017.
  11. Fotoredigering med generativa motstridiga nätverk (del 1) . Hämtad 19 juli 2017. Arkiverad från originalet 20 augusti 2017.
  12. Generativa motståndare i TensorFlow Agustinus Kristiadi . Datum för åtkomst: 14 november 2017. Arkiverad från originalet 17 november 2017.
  13. Bildkomplettering med djupinlärning i TensorFlow . Hämtad 14 november 2017. Arkiverad från originalet 15 november 2017.
  14. Greenemeier, Larry När kommer datorer att ha sunt förnuft? Fråga Facebook . Scientific American (20 juni 2016). Hämtad 31 juli 2016. Arkiverad från originalet 24 juli 2016.
  15. Skapa videor med scendynamik . web.mit.edu _ Hämtad 19 juli 2017. Arkiverad från originalet 20 mars 2017.
  16. Generativt motståndskraftigt 3D-nätverk . 3dgan.csail.mit.edu . Hämtad 19 juli 2017. Arkiverad från originalet 27 oktober 2019.
  17. Schawinski, Kevin; Zhang, Ce; Zhang, Hantian; Fowler, Lucas & Santhanam, Gokula Krishnan (2017-02-01), Generative Adversarial Networks återställer funktioner i astrofysiska bilder av galaxer bortom dekonvolutionsgränsen, arΧiv : 1702.00403 [astro-ph.IM]. 

Länkar