The Prisoner 's Dilemma ( eller mindre allmänt känt som Bandit's Dilemma ) är ett grundläggande problem inom spelteorin , enligt vilket rationella spelare inte alltid kommer att samarbeta med varandra, även om det är i deras bästa intresse. Det antas att spelaren ("fången") maximerar sin egen utdelning, utan att bry sig om andras fördelar.
Kärnan i problemet formulerades av Meryl Flood och Melvin Drescher 1950. Dilemmats namn gavs av matematikern Albert Tucker .
I Prisoner's Dilemma dominerar svek strängt samarbetet, så den enda möjliga jämvikten är svek från båda deltagarna. Enkelt uttryckt, oavsett beteendet hos den andra spelaren, kommer var och en att gynnas mer om han sviker. Eftersom det är bättre att förråda än att samarbeta i vilken situation som helst, kommer alla rationella spelare att välja att förråda.
Genom att bete sig rationellt individuellt kommer deltagarna tillsammans fram till en irrationell lösning: om båda sviker kommer de att få en mindre total vinst än om de samarbetade (den enda jämvikten i detta spel leder inte till en optimal Pareto- lösning). Däri ligger dilemmat.
I det återkommande fångsdilemmat spelas spelet med jämna mellanrum, och varje spelare kan "bestraffa" den andra för att han inte samarbetade tidigare. I ett sådant spel kan samarbete bli en jämvikt, och incitamentet att förråda kan uppvägas av hotet om straff (när antalet iterationer ökar tenderar Nash-jämvikten till ett Pareto-optimum ).
I alla rättssystem är straffet för bandit (att begå brott som en del av en organiserad grupp) mycket hårdare än för samma brott som begås ensamma (därav namnet "banditens dilemma").
Den klassiska formuleringen av fångens dilemma är:
Två brottslingar - A och B - greps ungefär samtidigt för liknande brott. Det finns skäl att tro att de handlade i maskopi, och polisen, efter att ha isolerat dem från varandra, erbjuder dem samma affär: om den ena vittnar mot den andre, och han förblir tyst, släpps den första för att ha hjälpt utredningen, och den andra får maximalt fängelse (10 år). Om båda är tysta, går deras handling under en lättare artikel, och var och en av dem döms till sex månaders fängelse. Om båda vittnar mot varandra får de ett minimistraff (2 år vardera). Varje fånge väljer om han vill vara tyst eller vittna mot den andre. Ingen av dem vet dock exakt vad den andra kommer att göra. Vad kommer att hända?
Spelet kan representeras som följande tabell:
Fånge B förblir tyst | Fånge B vittnar | |
Fånge A förblir tyst | Båda får sex månader. | A får 10 år, B släpps |
Fånge A vittnar | A släpps, B får 10 års fängelse |
Båda får 2 års fängelse |
Fångens dilemma i normal form . |
Dilemmat uppstår om vi antar att båda bara bryr sig om att minimera sina egna fängelsestraff.
Föreställ dig en av fångarnas resonemang. Om partnern är tyst, är det bättre att förråda honom och gå fri (annars - sex månader i fängelse). Om en partner vittnar, är det bättre att vittna mot honom också för att få 2 år (annars - 10 år) i fängelse. Strategin "vittne" dominerar strikt strategin "håll tyst". På samma sätt kommer en annan fånge till samma slutsats.
Ur gruppens (dessa två fångar) synvinkel är det bäst att samarbeta med varandra, vara tysta och få sex månader, eftersom det kommer att minska den totala fängelsetiden. Alla andra lösningar blir mindre lönsamma. Detta visar mycket tydligt att i ett icke-nollsummespel kan Pareto-optimum vara motsatsen till Nash-jämvikten .
Samarbeta | förråda | |
Samarbeta | C, C | CD |
förråda | D, c | d, d |
The Canonical Payoff Matrix of Prisoner's Dilemma |
Du kan utöka spelschemat ytterligare, abstrahera från fångarnas undertext. En generaliserad form av spelet används ofta i experimentell ekonomi . Följande regler ger en typisk implementering av spelet:
Dessa regler fastställdes av Douglas Hofstadter och utgör den kanoniska beskrivningen av den typiska fångens dilemma.
Hofstadter [2] föreslog att människor lättare förstår problem som Fångens Dilemma när de presenteras som ett fristående spel eller handelsprocess. Ett exempel är "byte av stängda påsar":
Två personer möts och byter stängda väskor och inser att en av dem innehåller pengar, den andra - varor. Varje spelare kan respektera affären och lägga det de kommit överens om i påsen, eller lura partnern genom att ge en tom påse.
I det här spelet kommer fusk alltid att vara lösningen med den högsta kortsiktiga materiella vinsten.
Vissa spelprogram använder en liknande princip för att avgöra vinnarna av antingen omgången eller finalen. Ett exempel på dilemmat visades 2012 i det brittiska spelprogrammet The Bank Job vid finalen av varje säsong: de två spelarna som tog sig till finalen fick bestämma sig för hur de skulle göra sig av med vinsterna. Hälften av den totala jackpotten som spelades var i resväskor märkta CASH, de andra två var tidningsurklipp märkta TRASH (spelaren har en resväska av varje typ). Varje spelare fick ta en av sina resväskor och ge den till den andra. Om båda spelarna fick resväskor med KONTANTER, delade de vinsten på hälften. Om en gav resväskan till TRASH, tog han hela spelbanken. Om båda gav TRASH, lämnades båda utan pengar, och vinsterna gick till spelarna som hoppade av vid de tidigare stadierna av finalen.
Exemplen på fångar, kortspelet och utbytet av stängda väskor kan tyckas långsökta, men i själva verket finns det många exempel på interaktioner mellan människa och djur som har samma utdelningsmatris. Därför är fångens dilemma av intresse för samhällsvetenskaper som ekonomi , statsvetenskap och sociologi , samt delar av biologi - etologi och evolutionsbiologi . Många naturliga processer har generaliserats till modeller där levande varelser deltar i oändliga spel av fångsdilemma. Denna breda tillämplighet av dilemmat gör detta spel av stor betydelse.
Inom politisk realism , till exempel, används dilemmascenariot ofta för att illustrera problemet med två stater som är involverade i en kapprustning . Båda staterna kommer att förklara att de har två alternativ: antingen öka militärutgifterna eller minska upprustningen. I det här fallet är postulaten om fångens dilemma (D > C > d > c) [3] uppenbarligen uppfyllda :
Ur sida A:s synvinkel, om sida B inte armar, är valet för A mellan D och C - det är bättre att arma. Om B aktiverar, så står valet för A mellan d och c - återigen är det mer lönsamt att tillkoppla. Således, för alla val av B, är det mer lönsamt för sida A att beväpna. Situationen för sida B är exakt densamma, och båda sidor kommer så småningom att söka militär expansion .
William Poundstone beskriver i sin bok om fångens dilemma en situation i Nya Zeeland där tidningslådor lämnas öppna. Det går att ta en tidning utan att betala för det, men det är få som gör det, eftersom de flesta är medvetna om vilken skada det skulle bli om alla stal tidningar. Eftersom fångens dilemma, i sin renaste form, är samtidigt för alla spelare (ingen kan påverka andras beslut), kallas detta vanliga resonemang för " magiskt tänkande ". Som en förklaring till avsaknaden av småstölder förklarar magiskt tänkande frivillig röstning i val (där icke-väljaren anses vara en hare ). Alternativt kan detta beteende förklaras av förväntan på framtida handlingar (och kräver inte samband med "magiskt tänkande"). Att modellera framtida handlingar kräver att man lägger till en tidsdimension, vilket görs i ett återkommande dilemma.
Den teoretiska slutsatsen av dilemmat är en av anledningarna till att förhandlingar om åtal är förbjudna i många länder . Ofta upprepas dilemmatscenariot mycket exakt: det ligger i båda misstänktes intresse att erkänna och vittna mot den andra misstänkte, även om båda är oskyldiga. Det kanske värsta fallet är när bara en är skyldig, i vilket fall den oskyldige är osannolikt att erkänna någonting, och den skyldige kommer att gå vidare och vittna mot den oskyldige.
Många verkliga dilemman involverar flera spelare. Även om det är metaforiskt, kan Hardins " tragedy of the commons " ses som en generalisering av dilemmat för flera spelare. Varje invånare i samhället väljer om de vill beta nötkreatur på en gemensam betesmark och dra nytta av deras resurser , eller att begränsa deras inkomster. Det kollektiva resultatet av den allmänna (eller frekventa) maximala användningen av betesmarken är låg inkomst (vilket leder till att samhället förstörs). Ett sådant spel är dock inte formellt, eftersom det kan delas upp i en sekvens av klassiska 2-spelares spel.
I boken The Evolution of Cooperation från 1984 utforskade Robert Axelrod en förlängning av dilemmascenariot, som han kallade Repetitive Prisoner's Dilemma (RPD). I den gör deltagarna val om och om igen och minns tidigare resultat. Axelrod bjöd in akademiska kollegor från hela världen att utveckla datorstrategier för att tävla i PDD-mästerskapet. Programmen som ingick i den varierade i algoritmisk komplexitet, initial fientlighet, förmåga att förlåta och så vidare.
Axelrod upptäckte att om spelet upprepades under en lång tid bland många spelare, var och en med olika strategier, fungerade "giriga" strategier dåligt i det långa loppet, medan mer " altruistiska " strategier fungerade bättre, ur egenintressesynpunkt. Han använde detta för att visa en möjlig mekanism för utvecklingen av altruistiskt beteende från mekanismer som från början är rent själviska , genom naturligt urval .
Den bästa deterministiska strategin var Tit för Tat , som utvecklades och ställdes upp för mästerskapet av Anatoly Rapoport . Det var det enklaste av alla deltagande program, som endast bestod av 4 rader BASIC -kod . Strategin är enkel: samarbeta på den första iterationen av spelet, varefter spelaren gör samma sak som motståndaren gjorde i föregående steg. Strategin "Tit för en tat med förlåtelse" fungerar lite bättre. När en motståndare sviker, i nästa steg, samarbetar spelaren ibland, oavsett föregående steg, med en liten sannolikhet (1-5%). Detta gör att du slumpmässigt kan lämna cykeln av ömsesidigt förräderi. Det fungerar bäst när felkommunikation introduceras i spelet – när en spelares beslut meddelas en annan av misstag.
Genom att analysera de strategier som fick bäst resultat, nämnde Axelrod flera villkor som var nödvändiga för att strategin ska få ett högt resultat:
Således kom Axelrod till den utopiska slutsatsen att själviska individer, för sitt eget själviska bästa, skulle sträva efter att vara vänliga, förlåtande och icke-avundsjuka.
Tänk igen på kapprustningsmodellen. Man drog slutsatsen att den enda rationella strategin är att beväpna, även om båda länderna skulle vilja spendera sin BNP på olja snarare än vapen [4] . Intressant nog visar försök att visa att dilemmanslutning fungerar i praktiken (genom att göra en analys av "höga" och "låga" militära utgifter mellan perioder, baserat på antagandena från TPP) ofta att detta beteende inte förekommer (t.ex. grekiska och Turkiska militära utgifter förändras inte i enlighet med strategin "öga för öga", utan följer troligen en intern politik). Detta kan vara ett exempel på rationellt beteende som skiljer sig från spel med ett slag och flera rörelser.
Om svekstrategin dominerar i ett spel med ett drag i vilket fall som helst, så beror den optimala strategin i ett spel med flera drag på beteendet hos andra deltagare. Till exempel, om alla i befolkningen är otrogna mot varandra, och man beter sig enligt principen om "öga för öga", är han på en liten förlust på grund av förlusten vid första draget. I en sådan befolkning är den optimala strategin alltid att förråda. Om antalet av dem som bekänner sig till principen om "öga för öga" är större, så beror resultatet redan på deras andel i samhället.
Det finns två sätt att bestämma den optimala strategin:
Även om "tit-for-tat"-strategin ansågs vara den mest framgångsrika enkla strategin, presenterade ett team från University of Southampton under ledning av professor Nicholas Jennings [6] en ny strategi för 20-årsjubileet av PKD-mästerskapet. Den här strategin har varit mer framgångsrik än tjusig. Den förlitade sig på interaktionen mellan programmen för att få maximal poäng för ett av dem. Universitetet lade upp 60 program för mästerskapet, som kände igen varandra genom en rad åtgärder under de första 5-10 dragen. Efter att ha känt igen det andra samarbetade alltid det ena programmet, medan det andra svek, vilket gav maximal poäng till förrädaren. Om programmet förstod att motståndaren inte var från Southampton skulle det fortsätta att svika honom hela tiden för att minimera motståndarens resultat. Som ett resultat [7] tog denna strategi de tre första platserna i tävlingen, samt flera platser i rad nedan.
Även om denna evolutionärt stabila strategi visade sig vara mer effektiv i konkurrensen, uppnåddes detta till priset av att flera agenter fick delta i just den tävlingen. Om spelaren bara kan kontrollera en agent är tit för tat bäst. Hon följer också regeln om ingen kommunikation mellan spelare. Det faktum att Southampton-programmen utförde en "rituell dans" under de första 10 varven för att lära känna varandra bekräftar bara hur viktig kommunikationen är för att ändra balansen i spelet.
Om PDZ spelas exakt N gånger (någon känd konstant N), finns det ett annat intressant faktum. Nash-jämvikten är att alltid förråda. Vi bevisar genom induktion: om båda samarbetar är det lönsamt att förråda vid det sista draget, då kommer motståndaren inte att ha möjlighet att hämnas. Därför kommer båda att förråda varandra i sista draget. Eftersom motståndaren i alla fall kommer att svika på det sista draget, kommer vilken spelare som helst vilja svika på det näst sista draget, och så vidare. För att samarbetet ska förbli lönsamt måste framtiden vara oviss för båda aktörerna. En lösning är att göra siffran N slumpmässigt och beräkna resultatet med den genomsnittliga utdelningen per tur.
Fångens dilemma är grundläggande för vissa teorier om mänsklig interaktion och tillit. Från dilemmamodellens antagande att en transaktion mellan två personer kräver tillit, kan förtroendebeteende i populationer modelleras med hjälp av en iterativ version av spelet för flera spelare. Detta har inspirerat många forskare i flera år. År 1975 uppskattade Grofman och Poole antalet tidningar som ägnades åt detta ämne till cirka 2000.
Om spelare kan bedöma möjligheten av förräderi av andra spelare, påverkas deras beteende av erfarenhet. Enkel statistik visar att oerfarna spelare vanligtvis beter sig överdrivet bra eller dåligt. Om de agerar så här hela tiden kommer de att förlora för att de är för aggressiva eller för snälla. När de får mer erfarenhet, bedömer de mer realistiskt sannolikheten för svek och uppnår bättre resultat. Tidiga spel har en starkare effekt på oerfarna spelare än senare spel på erfarna. Detta är ett exempel på varför tidiga erfarenheter har en sådan inverkan på de unga, och varför de är särskilt sårbara för omotiverad aggression, ibland blir de samma själva.
Det är möjligt att minska sannolikheten för förräderi i en befolkning genom samarbete i tidiga spel, vilket gör att förtroende kan byggas [8] . Därför kan självuppoffring i vissa situationer öka gruppmoralen. Om gruppen är liten är det mer sannolikt att positivt beteende återgäldas, vilket kommer att uppmuntra individer att samarbeta ytterligare. Detta hänger ihop med ett annat dilemma, att bli behandlad väl utan anledning är överseende som kan försämra ens moraliska karaktär.
Dessa processer är det huvudsakliga intresseområdet för ömsesidig altruism , gruppurval , familjeurval och etik .
Religiösa föreställningar ökar avsevärt graden av samarbete mellan aktörer. I studier ledde även det implicita omnämnandet av religiösa ord i den preliminära uppgiften före spelet till en signifikant ökning av prosocialt beteende [9] .
Ordböcker och uppslagsverk | ||||
---|---|---|---|---|
|
Spel teori | |
---|---|
Grundläggande koncept | |
Typer av spel |
|
Lösningskoncept | |
Spelexempel | |
Beslutsteorins paradoxer | |
---|---|
|