Klustringillusionen är en kognitiv fördom, tendensen att felaktigt anta att de oundvikliga "banden" eller "klustren" av värden som förekommer i små urval från slumpmässiga fördelningar inte är slumpmässiga. Denna illusion orsakas av den mänskliga tendensen att underskatta graden av variation som kan förekomma i ett litet urval av slumpmässiga eller pseudo-slumpmässiga data.
Cluster-illusionen är den mänskliga tendensen att förvänta sig att slumpmässiga händelser verkar mer regelbundna eller enhetliga än de faktiskt är, vilket leder till antagandet att kluster eller mönster i data inte kan bero på enbart slumpmässighet.
Ett viktigt exempel på klustring är att stjärnorna på natthimlen verkar ljusare och mer trånga i vissa områden, medan det finns "tomma" fläckar i andra områden. I klusterillusionen förväntar man sig helt enkelt att det måste finnas någon fysisk förklaring till det (till exempel måste stjärnorna vara fysiskt samlade i rymden), eftersom de "inte verkar riktigt slumpmässiga." Stjärnornas position är dock slumpmässig, och vår idé om ett system är felaktig.
Thomas Gilovich , en tidig forskare i ämnet, hävdade att illusionen av klustring uppstår med olika typer av slumpmässiga varianser, inklusive tvådimensionella data som kluster vid V-1- bombplatser på kartor över London under andra världskriget ; eller när man utvärderar mönstren för kursfluktuationer på aktiemarknaden över tid [1] .
Även om Londonbor utvecklade specifika teorier om Londonbombningarnas natur, visade R. D. Clarkes statistiska analys, som först publicerades 1946 , att spridningen av bomberna var nära matematisk slumpmässighet [2] [3] [4] [5] .
Enligt den gren av matematik som kallas Ramsey-teorin är fullständig slumpmässighet inte möjlig i något fysiskt system. Det skulle dock vara mer korrekt att hävda att klustringsillusionen syftar på den naturliga mänskliga tendensen att associera något värde med vissa mönster som oundvikligen måste förekomma i vilken som helst tillräckligt stor datamängd.
De flesta hävdar till exempel att sekvensen "OXXXOXXXOXXOOOXOOXXOO" inte är slumpmässig när den i själva verket har många egenskaper som också kan vara kännetecken för vad man skulle se i en "slumpmässig" ström av värden, som att ha lika många varje värde och att det faktum att antalet angränsande kluster med samma utfall är lika för båda möjliga utfall. Med sådana sekvenser verkar folk förvänta sig att se fler förändringar än vad som skulle förutsägas statistiskt. Faktum är att i ett litet antal försök är variation och icke-slumpmässiga "kluster" ganska troliga.
Ett annat exempel är svaren från SAT , ett standardiserat flervalstest i USA , där frågorna är avsiktligt fördelade för att inte innehålla några långa sekvenser. Som ett resultat kan eleven känna press att välja fel svar.
Förekomsten av mönster i mänsklig utvärdering av en uppsättning data kan ofta bestämmas med hjälp av statistisk analys eller till och med kryptoanalystekniker.
Betrakta sekvensen "XXOXOXOOOXOXOOOXOX"; är hon slumpmässig? Svaret är nej; om du associerar positionen "X" i strängen med primtal och "O" - med sammansatta tal, börjar med nummer 2, är mönstret uppenbart. Datorprogram som läser och komprimerar data är designade, på sätt och vis, för att "leta efter mönster" i datan och skapa alternativa representationer från vilka originaldata kan rekonstrueras från den komprimerade formen. Stora datamängder som innehåller "kluster" av icke-slumpmässig karaktär kan förväntas komprimeras väl med rätt kodningsalgoritm. Å andra sidan, om det inte finns något verkligt kluster eller mönster i en viss datauppsättning, kan den förväntas komprimeras dåligt, om alls.
Illusionen av klustring har varit central i den mycket publicerade forskningen av Thomas Gilovich, Robert Vallone och Amos Tversky . Deras slutsats avslöjade "het hand"-illusionen i basket genom att fastställa att fördelningen av resultat inte går att skilja från slumpmässighet [6] . Framstående tränare, inklusive Bobby Knight, har också enligt uppgift hånat idén.
Användningen av denna kognitiva bias i studiet av orsakssamband kan leda till fel, även bland krypskyttar.
Vanligare former av mönsterigenkänningsfel är pareidolia och apoteni . Associerade fördomar är relaterade till illusionen av kontroll, som klustringsillusionen kan bidra till, och urvalsstorleksokänslighet, där människor inte förväntar sig mer förändring i små urval. En annan kognitiv bias associerad med missförståndet av slumpmässiga informationsströmmar kallas spelarens fel .
Daniel Kahneman och Amos Tversky listade ut orsakerna till denna illusion och fann att felaktig förutsägelse baserad på klustring orsakas av heuristisk representativitet (som de också var pionjärer). Den uppenbara närvaron av rader eller sekvenser i distributionen av data där det inte finns någon kan vara problematisk för investerare. Anledningen är att en investerare kan tolka en period med hög avkastning som en trend, när det i själva verket bara är en bråkdel av en normal avkastningsförändring. Illusionen av klustring skapar fällor för investerare. Kortsiktiga uppgifter om prisökningar (från flera månader till flera år) kan övertyga oss om attraktionskraften hos en viss klass av investeringar, såsom aktier, obligationer eller fastigheter.
Detta kan påverka investeringsstilen - till exempel low cap vs high cap, eller tillväxt kontra värdeinvestering. Det kan till och med övertyga en investerare om att en viss penningförvaltare är ett ofelbart geni när hans eller hennes resultat bara kan tillskrivas ren tur.
Dessutom är det nödvändigt att ta hänsyn till illusionen av klustring när man utvärderar de statistiska data som erhållits i vetenskaplig forskning. Hur relevant och korrekt ett skenbart "urval" faktiskt är beror ofta på hur stort det ursprungliga populationsurvalet var.
Till exempel, när man uppskattar prevalensen av schizofreni i en viss etnisk grupp, skulle det vara mer tillförlitligt att titta på ett urval av några tusen personer än ett av 100 personer. Genom att välja ut endast 100 personer och observera femton personer med schizofreni, kan en forskare dra slutsatsen att hela 15 % av befolkningen har schizofreni – detta skulle vara ytterligare en manifestation av clustering-illusionen. Att välja ut tusen personer skulle med största sannolikhet resultera i en sann, typisk procentandel av schizofrena, vilket är fallet för de flesta etniska människor. Ett stort populationsurval gör det lättare att extrapolera exakta siffror och undvika illusionen av klustring.