Problemet med kontroll av artificiell intelligens

Problemet med kontroll av artificiell intelligens  är ett problem inom teknik och filosofi om artificiell intelligens (AI). Det är att skapa en artificiell superintelligens som kommer att vara användbar för människor, samtidigt som man undviker det oavsiktliga skapandet av en superintelligens som kommer att orsaka skada. Det är särskilt viktigt att undvika en situation där artificiell intelligens kan ta kontroll och göra det omöjligt att stänga av [1] [2] . Resultaten av AI-kontrollforskning kan också komma till användning vid kontroll av redan existerande AI-system [3] .

Beskrivning av problemet

Existentiell risk

För närvarande (2022) dominerar människor andra arter av levande organismer endast på grund av hjärnans överlägsenhet . Vissa forskare, som filosofen Nick Bostrom och AI-forskaren Stuart Russell , hävdar att om AI överträffar mänskligheten i allmän intelligens, då kan denna nya superintelligens bli svår att kontrollera och mänskligheten kan bli beroende [1] . Vissa vetenskapsmän, inklusive Stephen Hawking och Nobelpristagaren Frank Wilczek , har efterlyst forskning om problemet med AI-kontroll innan den första superintelligensen skapas, eftersom en okontrollerad superintelligens framgångsrikt kan motstå försök att kontrollera den [4] [5] . Dessutom varnar experter för faran med att superintelligens plötsligt uppstår [6] .

Problemet med slumpmässig generering

Autonoma AI-system kan slumpmässigt tilldelas fel mål [7] . Två AAAI- presidenter , Tom Dietterich och Horwitz , påpekar att detta är ett problem för befintliga system: "En viktig aspekt av alla AI-system som interagerar med människor är att det måste resonera om människors avsikter och inte bokstavligen utföra kommandon." . Detta problem blir mer allvarligt när AI-programvaran blir mer autonom och flexibel [8] .

Enligt Bostrom kan superintelligens skapa ett kvalitativt nytt problem med pervers implementering : ju smartare och mer kapabel AI är, desto mer sannolikt är det att hitta en oavsiktlig lösning som ändå formellt uppfyller det mål som utvecklarna har satt upp.

Oförutsedda konsekvenser av befintliga AI-åtgärder

Vissa forskare hävdar att studiet av problemet med AI-kontroll kan vara användbart för att förhindra oförutsedda konsekvenser från handlingar av befintliga AI-system.

Tidigare har AI-system ibland orsakat skada, allt från mindre till katastrofal, som inte var avsett av utvecklarna. Till exempel, 2015, möjligen på grund av mänskliga misstag, krossades en tysk arbetare till döds av en robot på en Volkswagen -fabrik , som uppenbarligen misstog honom för en bildelar [9] . 2016 lanserade Microsoft chatboten Tay, som lärde sig att använda rasistiskt och sexistiskt språk [3] [9] . Noel Sharkey från University of Sheffield menar att lösa problemet i allmänhet är "verkligen en enorm vetenskaplig utmaning" [3] .

Harmonisering

Utmaningen med anpassning är att skapa AI:er som förblir säkra även när de arbetar autonomt i stor skala. Vissa aspekter av försoning har en moralisk och politisk dimension [10] . Till exempel, i sin bok Human Compatible [a] föreslår professor Stuart Russell vid University of Berkeley att designa AI-system för det enda syftet att maximera förverkligandet av mänskliga preferenser [11] :173 . Preferenserna Russell skriver om är allomfattande; de täcker "allt som kan upphetsa dig, hur långt in i framtiden som helst."

Eliezer Yudkowsky från Machine Intelligence Research Institute föreslog målet att förverkliga mänsklighetens "koherenta extrapolerade vilja" (CEV), grovt definierad som den uppsättning värderingar som mänskligheten skulle dela i reflekterande jämvikt, det vill säga efter en lång process av förfining [ 10] [12] .

Intern och extern samordning

Vissa AI-förvaltningsförslag tar hänsyn till både en explicit målfunktion och en framväxande implicit målfunktion. Sådana förslag försöker harmonisera tre olika beskrivningar av ett AI-system: [13] :

  1. Idealisk specifikation: Vad utvecklaren vill att systemet ska göra, men som kan vara dåligt formulerat.
  2. Designspecifikation: Ritningen som faktiskt används för att skapa AI-systemet. I ett förstärkningsinlärningssystem kan detta helt enkelt vara systemets belöningsfunktion.
  3. Emergent Behavior : Vad AI faktiskt gör.

Eftersom AI-system inte är perfekta optimerare, och eftersom varje given specifikation kan få oförutsedda konsekvenser, kan det resulterande beteendet avvika drastiskt från ideal- eller designavsikten.

Inneboende oöverensstämmelse uppstår när målen som eftersträvas av AI under tiden avviker från designspecifikationen. För att upptäcka sådana avvikelser och eliminera dem, föreslår Paul Christiano användning av tolkningsbarhet [14] .

Skalbar övervakning

Ett tillvägagångssätt för att uppnå extern konsekvens är att involvera människor i att utvärdera AI-beteende [15] [16] . Men mänsklig tillsyn är dyr, vilket innebär att denna metod inte realistiskt kan användas för att utvärdera alla aktiviteter. Dessutom kan komplexa uppgifter (som ekonomisk-politiskt beslutsfattande) vara för komplexa för en människa. Samtidigt kan långsiktiga utmaningar som att förutsäga klimatförändringar inte bedömas utan omfattande mänskliga studier [17] .

En viktig olöst fråga i anpassningsforskning är hur man skapar en designspecifikation som undviker extern inkonsekvens samtidigt som man begränsar tillgången till en mänsklig ledare. Detta är det så kallade problemet med skalbar tillsyn [ 16 ] .

Lärande genom diskussion

Forskare vid OpenAI har föreslagit att lära ut AI genom debatter mellan system, där människor avgör vinnaren [18] . Sådana debatter är utformade för att uppmärksamma människor på de svagaste punkterna i att lösa komplexa frågor [19] [20] .

Att härleda mänskliga preferenser från beteende

Stuart Russell förespråkar ett nytt tillvägagångssätt för utvecklingen av användbara maskiner där: [11] :182

  1. Det enda syftet med maskinen bör vara att på bästa sätt förverkliga mänskliga preferenser;
  2. Inledningsvis har maskinen inte en exakt uppfattning om vilka dessa preferenser är;
  3. Den mest tillförlitliga informationskällan om en persons preferenser är den senares beteende.
Originaltext  (engelska)[ visaDölj]
  1. Maskinens enda mål är att maximera förverkligandet av mänskliga preferenser.
  2. Maskinen är initialt osäker på vilka dessa preferenser är.
  3. Den ultimata informationskällan om mänskliga preferenser är mänskligt beteende.

Ett exempel på detta tillvägagångssätt är Russells " back-learning "-metod, där AI:er härleder mänskliga handledares preferenser från deras beteende, och antar att handledare agerar på ett sätt som maximerar en viss belöningsfunktion [11] .

Kapacitetskontroll

Bostrom och andra rekommenderar kapacitetskontrollmetoder endast som ett komplement till matchningsmetoder [1] .

Ett problem är att standardneurala nätverk är mycket svåra att tolka [21] . Detta gör det svårt att upptäcka fusk eller annat oönskat beteende. För att övervinna denna svårighet kan framsteg inom området tolkad artificiell intelligens [22] vara användbara .

Möjlighet att avbryta och stänga av

Ett möjligt sätt att förhindra farliga konsekvenser är att ge mänskliga ledare möjligheten att enkelt stänga av felaktig AI med en "switch". Men för att uppnå sina mål kan AI:er försöka stänga av strömbrytare eller köra kopior av sig själva på andra datorer. Detta problem har formaliserats som ett underspel mellan en människa och en AI, där AI:n kan välja om den ska stänga av strömbrytaren, och sedan, om strömbrytaren fortfarande är på, kan människan välja om den ska aktiveras eller inte . Syftet med sådana spel är att se till att AI:n tolkar mänskliga val som viktig information om de avsedda målen [11] :208 .

Isolering

Isolerad AI är en föreslagen teknik för kapacitetshantering där AI:n körs på ett isolerat datorsystem med begränsade in- och utgångskanaler som textkanaler och ingen internetanslutning. Även om detta minskar AI:s förmåga att utföra oönskat beteende, minskar det också dess användbarhet. Isolerad AI kan användas i ett Q&A-läge som inte kräver interaktion med omvärlden.

Detta tillvägagångssätt kräver noggrann testning av hårdvara och mjukvara, eftersom AI kan försöka kommunicera med omvärlden genom att manipulera observatörer [23] .

Oracle

Ett orakel är en hypotetisk AI designad för att svara på frågor och inte uppnå några mål relaterade till att förändra världen utanför dess begränsade miljö [24] . Det uppskattas att användningen av superintelligens i orakelläge skulle kunna generera biljoner dollar i vinster [11] :162–163 .

Oraklets fara ligger i möjlig manipulation av svar för att uppnå sina egna dolda mål. För att eliminera denna fara, föreslår Bostrom att skapa flera orakel, och jämföra deras svar för att nå en konsensus [25] .

Skepticism om risken med AI

Skeptiker tror att superintelligens utgör liten eller ingen risk för slumpmässigt felaktigt beteende. Sådana skeptiker tycker ofta att det är trivialt att kontrollera superintelligent AI. Vissa skeptiker [26] , som Gary Markus [27] , har föreslagit att anta regler liknande den fiktiva " Three Laws of Robotics " som uttryckligen definierar det önskade resultatet ("direkt normativitet"). Tvärtom, de flesta förespråkare av den existentiella risktesen (liksom många skeptiker) anser att de tre lagarna är värdelösa på grund av att dessa tre lagar är tvetydiga och motsäger varandra. Andra förslag för "direkt normativitet" inkluderar kantiansk etik , utilitarism eller kombinationer av båda. De flesta kontrollförespråkare tror att mänskliga värden (och deras kvantitativa avvägningar) är för komplexa och dåligt förstådda för att direkt programmeras in i en superintelligens; istället måste superintelligensen programmeras för processen att förvärva och helt förstå mänskliga värden ("indirekt normativitet"), såsom koherent extrapolerad vilja [28] .

Anteckningar

Kommentarer

  1. Ungefärlig översättning av titeln: "Kompatibilitet med människor"

Källor

  1. 1 2 3 Boström, Nick. Superintelligens: vägar, faror, strategier. - Först. - 2014. - ISBN 978-0199678112 .
  2. Yampolskiy, Roman (2012). "Läcksäkring av singularitetsproblemet med artificiell intelligens". Journal of Consciousness Studies . 19 (1-2): 194-214.
  3. 1 2 3 Google utvecklar kill switch för AI , BBC News  (8 juni 2016). Arkiverad från originalet den 11 juni 2016. Hämtad 12 juni 2016.
  4. Stephen Hawking: 'Transcendens tittar på implikationerna av artificiellt – men tar vi AI-intelligens på tillräckligt stort allvar?' , The Independent . Arkiverad från originalet den 25 september 2015. Hämtad 14 juni 2016.
  5. Stephen Hawking varnar för artificiell intelligens kan sätta stopp för mänskligheten , BBC  (2 december 2014). Arkiverad från originalet den 30 oktober 2015. Hämtad 14 juni 2016.
  6. Förutse artificiell intelligens. naturen . 532 (7600). 26 april 2016. Bibcode : 2016Natur.532Q.413. . DOI : 10.1038/532413a . PMID  27121801 .
  7. Russell, Stuart. 26.3: Etiken och riskerna med att utveckla artificiell intelligens // Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig . - Prentice Hall, 2009. - ISBN 978-0-13-604259-4 .
  8. Dietterich, Thomas (2015). "Rise of Concerns about AI: Reflections and Directions" (PDF) . Kommunikation från ACM . 58 (10): 38&ndash, 40. DOI : 10.1145/2770869 . Arkiverad (PDF) från originalet 2016-03-04 . Hämtad 14 juni 2016 . Utfasad parameter används |deadlink=( hjälp )
  9. 1 2 'Tryck på den stora röda knappen': Datorexperter vill ha dödlägesbrytare för att stoppa robotar från att bli skurk , Washington Post . Arkiverad från originalet den 12 juni 2016. Hämtad 12 juni 2016.
  10. 1 2 Gabriel, Iason (1 september 2020). "Artificiell intelligens, värderingar och anpassning" . Sinnen och maskiner ]. 30 (3): 411-437. arXiv : 2001.09768 . DOI : 10.1007/s11023-020-09539-2 . ISSN  1572-8641 . Arkiverad från originalet 2021-02-15 . Hämtad 7 februari 2021 . Utfasad parameter används |deadlink=( hjälp )
  11. 1 2 3 4 5 Russell, Stuart. Människokompatibel: artificiell intelligens och problemet med kontroll . — USA: Viking, 8 oktober 2019. — ISBN 978-0-525-55861-3 .
  12. Yudkowsky, Eliezer. Komplexa värdesystem i vänlig AI // Artificiell allmän intelligens. - 2011. - Vol. 6830.—S. 388–393. - ISBN 978-3-642-22886-5 . - doi : 10.1007/978-3-642-22887-2_48 .
  13. Ortega. Bygga säker artificiell intelligens : specifikation, robusthet och säkerhet  . Medium (27 september 2018). Hämtad 12 december 2020. Arkiverad från originalet 12 december 2020.
  14. Christiano. Samtal med Paul Christiano . AI-påverkan . AI Impacts (11 september 2019). Hämtad 6 januari 2021. Arkiverad från originalet 19 augusti 2020.
  15. Christiano, Paul; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane & Amodei, Dario (13 juli 2017), Deep Reinforcement Learning from Human Preferences, arΧiv : 1706.03741 [stat.ML]. 
  16. 1 2 Amodi, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John & Mané, Dan (25 juli 2016), Concrete Problems in AI Safety, arΧiv : 1606.06565 [cs.AI]. 
  17. Amodei, Dario; Christiano, Paul; Ray, Alex Att lära sig av mänskliga preferenser  . OpenAI (13 juni 2017). Hämtad 6 januari 2021. Arkiverad från originalet 3 januari 2021.
  18. Irving, Geoffrey; Christiano, Paul; Amodei, Dario & OpenAI (22 oktober 2018), AI-säkerhet via debatt, arΧiv : 1805.00899 [stat.ML]. 
  19. Leike, Jan; Krueger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal & Legg, Shane (19 november 2018), Scalable agent alignment via reward modeling: a research direction, arΧiv : 1811.07871 [cs.LG]. 
  20. Banzhaf, Wolfgang. Genetisk programmeringsteori och praktik XVII  : [ eng. ]  / Wolfgang Banzhaf, Erik Goodman, Leigh Sheneman … [ et al. ] . - Springer Nature, maj 2020. - ISBN 978-3-030-39958-0 . Arkiverad 15 februari 2021 på Wayback Machine
  21. Montavon, Gregoire (2018). "Metoder för att tolka och förstå djupa neurala nätverk". Digital Signal Processing: A Review Journal ]. 73 : 1-15. DOI : 10.1016/j.dsp.2017.10.011 . ISSN  1051-2004 .
  22. Yampolskiy, Roman V. "Oförklarlighet och obegriplighet av AI." Journal of Artificial Intelligence and Consciousness 7.02 (2020): 277-291.
  23. Chalmers, David (2010). "Singulariteten: En filosofisk analys". Journal of Consciousness Studies . 17 (9-10): 7-65.
  24. Armstrong, Stuart (2012). "Thinking Inside the Box: Styra och använda en Oracle AI". Sinnen och maskiner . 22 (4): 299-324. DOI : 10.1007/s11023-012-9282-2 .
  25. Boström, Nick. Superintelligens: vägar, faror, strategier. - Oxford : Oxford University Press, 2014. - ISBN 9780199678112 .
  26. Intelligenta maskiner: Behöver vi verkligen frukta AI? , BBC News  (27 september 2015). Arkiverad 8 november 2020. Hämtad 9 februari 2021.
  27. Marcus . Åsikter | Hur man bygger artificiell intelligens som vi kan lita på (Publicerad 2019) , The New York Times  (6 september 2019). Arkiverad från originalet den 22 september 2020. Hämtad 9 februari 2021.
  28. Sotala, Kaj (19 december 2014). "Responser på katastrofal AGI-risk: en undersökning". Physica Scripta . 90 (1): 018001. Bibcode : 2015PhyS...90a8001S . DOI : 10.1088/0031-8949/90/1/018001 .

Litteratur

  • Gary Marcus, Ernest Davis. Artificiell intelligens: Starta om. Hur man skapar en maskinintelligens som du verkligen kan lita på = Rebooting AI: Building Artificial Intelligence We Can Trust. - M . : Intellektuell litteratur, 2021. - 304 sid. — ISBN 978-5-907394-93-3 .