Problemet med kontroll av artificiell intelligens är ett problem inom teknik och filosofi om artificiell intelligens (AI). Det är att skapa en artificiell superintelligens som kommer att vara användbar för människor, samtidigt som man undviker det oavsiktliga skapandet av en superintelligens som kommer att orsaka skada. Det är särskilt viktigt att undvika en situation där artificiell intelligens kan ta kontroll och göra det omöjligt att stänga av [1] [2] . Resultaten av AI-kontrollforskning kan också komma till användning vid kontroll av redan existerande AI-system [3] .
För närvarande (2022) dominerar människor andra arter av levande organismer endast på grund av hjärnans överlägsenhet . Vissa forskare, som filosofen Nick Bostrom och AI-forskaren Stuart Russell , hävdar att om AI överträffar mänskligheten i allmän intelligens, då kan denna nya superintelligens bli svår att kontrollera och mänskligheten kan bli beroende [1] . Vissa vetenskapsmän, inklusive Stephen Hawking och Nobelpristagaren Frank Wilczek , har efterlyst forskning om problemet med AI-kontroll innan den första superintelligensen skapas, eftersom en okontrollerad superintelligens framgångsrikt kan motstå försök att kontrollera den [4] [5] . Dessutom varnar experter för faran med att superintelligens plötsligt uppstår [6] .
Autonoma AI-system kan slumpmässigt tilldelas fel mål [7] . Två AAAI- presidenter , Tom Dietterich och Horwitz , påpekar att detta är ett problem för befintliga system: "En viktig aspekt av alla AI-system som interagerar med människor är att det måste resonera om människors avsikter och inte bokstavligen utföra kommandon." . Detta problem blir mer allvarligt när AI-programvaran blir mer autonom och flexibel [8] .
Enligt Bostrom kan superintelligens skapa ett kvalitativt nytt problem med pervers implementering : ju smartare och mer kapabel AI är, desto mer sannolikt är det att hitta en oavsiktlig lösning som ändå formellt uppfyller det mål som utvecklarna har satt upp.
Vissa forskare hävdar att studiet av problemet med AI-kontroll kan vara användbart för att förhindra oförutsedda konsekvenser från handlingar av befintliga AI-system.
Tidigare har AI-system ibland orsakat skada, allt från mindre till katastrofal, som inte var avsett av utvecklarna. Till exempel, 2015, möjligen på grund av mänskliga misstag, krossades en tysk arbetare till döds av en robot på en Volkswagen -fabrik , som uppenbarligen misstog honom för en bildelar [9] . 2016 lanserade Microsoft chatboten Tay, som lärde sig att använda rasistiskt och sexistiskt språk [3] [9] . Noel Sharkey från University of Sheffield menar att lösa problemet i allmänhet är "verkligen en enorm vetenskaplig utmaning" [3] .
Utmaningen med anpassning är att skapa AI:er som förblir säkra även när de arbetar autonomt i stor skala. Vissa aspekter av försoning har en moralisk och politisk dimension [10] . Till exempel, i sin bok Human Compatible [a] föreslår professor Stuart Russell vid University of Berkeley att designa AI-system för det enda syftet att maximera förverkligandet av mänskliga preferenser [11] :173 . Preferenserna Russell skriver om är allomfattande; de täcker "allt som kan upphetsa dig, hur långt in i framtiden som helst."
Eliezer Yudkowsky från Machine Intelligence Research Institute föreslog målet att förverkliga mänsklighetens "koherenta extrapolerade vilja" (CEV), grovt definierad som den uppsättning värderingar som mänskligheten skulle dela i reflekterande jämvikt, det vill säga efter en lång process av förfining [ 10] [12] .
Vissa AI-förvaltningsförslag tar hänsyn till både en explicit målfunktion och en framväxande implicit målfunktion. Sådana förslag försöker harmonisera tre olika beskrivningar av ett AI-system: [13] :
Eftersom AI-system inte är perfekta optimerare, och eftersom varje given specifikation kan få oförutsedda konsekvenser, kan det resulterande beteendet avvika drastiskt från ideal- eller designavsikten.
Inneboende oöverensstämmelse uppstår när målen som eftersträvas av AI under tiden avviker från designspecifikationen. För att upptäcka sådana avvikelser och eliminera dem, föreslår Paul Christiano användning av tolkningsbarhet [14] .
Ett tillvägagångssätt för att uppnå extern konsekvens är att involvera människor i att utvärdera AI-beteende [15] [16] . Men mänsklig tillsyn är dyr, vilket innebär att denna metod inte realistiskt kan användas för att utvärdera alla aktiviteter. Dessutom kan komplexa uppgifter (som ekonomisk-politiskt beslutsfattande) vara för komplexa för en människa. Samtidigt kan långsiktiga utmaningar som att förutsäga klimatförändringar inte bedömas utan omfattande mänskliga studier [17] .
En viktig olöst fråga i anpassningsforskning är hur man skapar en designspecifikation som undviker extern inkonsekvens samtidigt som man begränsar tillgången till en mänsklig ledare. Detta är det så kallade problemet med skalbar tillsyn [ 16 ] .
Lärande genom diskussionForskare vid OpenAI har föreslagit att lära ut AI genom debatter mellan system, där människor avgör vinnaren [18] . Sådana debatter är utformade för att uppmärksamma människor på de svagaste punkterna i att lösa komplexa frågor [19] [20] .
Stuart Russell förespråkar ett nytt tillvägagångssätt för utvecklingen av användbara maskiner där: [11] :182
Ett exempel på detta tillvägagångssätt är Russells " back-learning "-metod, där AI:er härleder mänskliga handledares preferenser från deras beteende, och antar att handledare agerar på ett sätt som maximerar en viss belöningsfunktion [11] .
Bostrom och andra rekommenderar kapacitetskontrollmetoder endast som ett komplement till matchningsmetoder [1] .
Ett problem är att standardneurala nätverk är mycket svåra att tolka [21] . Detta gör det svårt att upptäcka fusk eller annat oönskat beteende. För att övervinna denna svårighet kan framsteg inom området tolkad artificiell intelligens [22] vara användbara .
Ett möjligt sätt att förhindra farliga konsekvenser är att ge mänskliga ledare möjligheten att enkelt stänga av felaktig AI med en "switch". Men för att uppnå sina mål kan AI:er försöka stänga av strömbrytare eller köra kopior av sig själva på andra datorer. Detta problem har formaliserats som ett underspel mellan en människa och en AI, där AI:n kan välja om den ska stänga av strömbrytaren, och sedan, om strömbrytaren fortfarande är på, kan människan välja om den ska aktiveras eller inte . Syftet med sådana spel är att se till att AI:n tolkar mänskliga val som viktig information om de avsedda målen [11] :208 .
Isolerad AI är en föreslagen teknik för kapacitetshantering där AI:n körs på ett isolerat datorsystem med begränsade in- och utgångskanaler som textkanaler och ingen internetanslutning. Även om detta minskar AI:s förmåga att utföra oönskat beteende, minskar det också dess användbarhet. Isolerad AI kan användas i ett Q&A-läge som inte kräver interaktion med omvärlden.
Detta tillvägagångssätt kräver noggrann testning av hårdvara och mjukvara, eftersom AI kan försöka kommunicera med omvärlden genom att manipulera observatörer [23] .
Ett orakel är en hypotetisk AI designad för att svara på frågor och inte uppnå några mål relaterade till att förändra världen utanför dess begränsade miljö [24] . Det uppskattas att användningen av superintelligens i orakelläge skulle kunna generera biljoner dollar i vinster [11] :162–163 .
Oraklets fara ligger i möjlig manipulation av svar för att uppnå sina egna dolda mål. För att eliminera denna fara, föreslår Bostrom att skapa flera orakel, och jämföra deras svar för att nå en konsensus [25] .
Skeptiker tror att superintelligens utgör liten eller ingen risk för slumpmässigt felaktigt beteende. Sådana skeptiker tycker ofta att det är trivialt att kontrollera superintelligent AI. Vissa skeptiker [26] , som Gary Markus [27] , har föreslagit att anta regler liknande den fiktiva " Three Laws of Robotics " som uttryckligen definierar det önskade resultatet ("direkt normativitet"). Tvärtom, de flesta förespråkare av den existentiella risktesen (liksom många skeptiker) anser att de tre lagarna är värdelösa på grund av att dessa tre lagar är tvetydiga och motsäger varandra. Andra förslag för "direkt normativitet" inkluderar kantiansk etik , utilitarism eller kombinationer av båda. De flesta kontrollförespråkare tror att mänskliga värden (och deras kvantitativa avvägningar) är för komplexa och dåligt förstådda för att direkt programmeras in i en superintelligens; istället måste superintelligensen programmeras för processen att förvärva och helt förstå mänskliga värden ("indirekt normativitet"), såsom koherent extrapolerad vilja [28] .