Fel av första och andra slaget

Fel av det första slaget ( α-fel, falsk positiv slutsats ) - en situation när den korrekta nollhypotesen förkastas (om frånvaron av ett samband mellan fenomen eller önskad effekt).

Fel av det andra slaget  ( β-fel, falsk negativ slutsats ) är en situation då en felaktig nollhypotes accepteras.

I matematisk statistik är dessa nyckelbegrepp för problem med statistisk hypotestestning . Dessa begrepp används ofta inom andra områden när det gäller att fatta ett ”binärt” beslut (ja/nej) utifrån något kriterium (test, verifiering, mätning), som med viss sannolikhet kan ge ett falskt resultat.

Definitioner

Låt ett urval ges från en okänd gemensam fördelning och det binära problemet med att testa statistiska hypoteser sätts:

var  är nollhypotesen och  är alternativhypotesen . Antag att ett statistiskt test ges

,

jämföra varje implementering av provet med en av de tillgängliga hypoteserna. Då är följande fyra situationer möjliga:

  1. Fördelningen av urvalet motsvarar hypotesen , och den bestäms exakt av det statistiska kriteriet, det vill säga .
  2. Urvalsfördelningen motsvarar hypotesen , men den förkastas felaktigt av det statistiska testet, det vill säga .
  3. Fördelningen av urvalet motsvarar hypotesen , och den bestäms exakt av det statistiska kriteriet, det vill säga .
  4. Urvalsfördelningen motsvarar hypotesen , men den förkastas felaktigt av det statistiska testet, det vill säga .

I det andra och fjärde fallet säger vi att ett statistiskt fel har inträffat, och det kallas ett fel av första respektive andra slaget [ 1] [2] .

  Rätt hypotes
     
Resultatet
 av att tillämpa 
kriteriet
   med rätta accepterat felaktigt mottagen 
(fel av det andra slaget)
   felaktigt avvisad  (Typ I
-fel )
med rätta avvisats

Om innebörden av fel av det första och andra slaget

Det kan ses från definitionen ovan att fel av det första och andra slaget är ömsesidigt symmetriska, det vill säga om hypoteserna och är utbytta , då kommer fel av det första slaget att förvandlas till fel av det andra slaget och vice versa. Men i de flesta praktiska situationer råder ingen förvirring, eftersom det är allmänt accepterat att nollhypotesen motsvarar "default"-tillståndet (det naturliga, mest förväntade tillståndet) - till exempel att den som undersöks är frisk, eller att en passagerare som passerar genom metalldetektorn inte har några förbjudna metallföremål. Följaktligen betecknar den alternativa hypotesen den motsatta situationen, som vanligtvis tolkas som mindre trolig, extraordinär, som kräver någon form av reaktion.

Med det sagt kallas ett typ I-fel ofta som ett falskt alarm , falskt positivt eller falskt positivt . Om till exempel ett blodprov visade närvaron av en sjukdom, även om personen i själva verket är frisk, eller om en metalldetektor gav ett larm genom att utlösa ett bältesspänne av metall, så är den accepterade hypotesen inte korrekt, och därför en typ I fel har gjorts. Ordet "falskt positivt" har i detta fall ingenting att göra med önskvärdheten eller oönskadheten av själva händelsen.

Termen används flitigt inom medicin. Till exempel ger tester utformade för att diagnostisera sjukdomar ibland ett positivt resultat (d.v.s. visar att en patient har en sjukdom) när patienten i själva verket inte lider av denna sjukdom. Ett sådant resultat kallas ett falskt positivt .

Inom andra områden brukar man använda fraser med liknande innebörd, till exempel ”falskt positivt”, ”falskt larm” etc. Inom informationsteknologin används ofta det engelska uttrycket falskt positivt utan översättning.

På grund av möjligheten till falska positiva resultat är det inte möjligt att helt automatisera kampen mot många typer av hot. Som regel korrelerar sannolikheten för ett falskt positivt med sannolikheten att missa en händelse (fel av det andra slaget). Det vill säga: ju känsligare systemet är, desto fler farliga händelser upptäcker det och förhindrar därför. Men med ökande känslighet ökar sannolikheten för falska positiva oundvikligen. Därför kan ett alltför känsligt (paranoid) konfigurerat försvarssystem urarta till sin motsats och leda till att säkerhetsskadorna från det kommer att överstiga nyttan.

Följaktligen kallas ett typ II-fel ibland som en missad händelse eller ett falskt negativt . Personen är sjuk, men blodprovet visade inte detta, eller så har passageraren ett kallt vapen, men metalldetektorramen upptäckte det inte (till exempel på grund av att ramens känslighet är justerad för att endast upptäcka mycket massiva metallföremål). Dessa exempel pekar på ett typ II-fel. Ordet "falsk negativ" har i detta fall ingenting att göra med önskvärdheten eller oönskadheten av själva händelsen.

Termen används flitigt inom medicin. Till exempel ger tester utformade för att diagnostisera sjukdomar ibland ett negativt resultat (det vill säga de visar att patienten inte har någon sjukdom) när patienten i själva verket har denna sjukdom. Ett sådant resultat kallas ett falskt negativt resultat .

Inom andra områden brukar man använda fraser med liknande innebörd, till exempel "missar en händelse" osv.

Eftersom sannolikheten för ett typ I-fel vanligtvis minskar med en ökning av sannolikheten för ett typ II-fel, och vice versa, måste inställningen av beslutsfattande systemet representera en kompromiss. Var exakt den balanspunkt som uppnås genom en sådan justering ligger beror på bedömningen av konsekvenserna av att begå båda typerna av fel.

Felsannolikheter ( signifikansnivå och effekt)

Sannolikheten för ett typ I-fel vid testning av statistiska hypoteser kallas signifikansnivån och betecknas vanligtvis med en grekisk bokstav (därav namnet fel).

Sannolikheten för ett fel av det andra slaget har inte något speciellt allmänt accepterat namn, den betecknas med en grekisk bokstav (därav namnfelet). Detta värde är dock nära relaterat till ett annat, som har stor statistisk signifikans - kriteriets kraft . Den beräknas enligt formeln . Ju högre styrka kriteriet har, desto mindre sannolikt är det att göra ett typ II-fel.

Båda dessa egenskaper beräknas vanligtvis med hjälp av den så kallade testeffektfunktionen . Speciellt är typ I-felsannolikheten en potensfunktion som beräknas under nollhypotesen. För tester baserade på ett urval av en fast storlek är sannolikheten för ett typ II-fel en minus en potensfunktion beräknad under antagande att fördelningen av observationer passar den alternativa hypotesen. För successiva kriterier gäller detta även om kriteriet slutar med sannolikhet ett (givet fördelningen från alternativet).

I statistiska tester finns det vanligtvis en avvägning mellan en acceptabel nivå av typ I- och typ II-fel . Ofta används ett tröskelvärde för att fatta ett beslut, vilket kan variera för att göra testet strängare eller omvänt mjukare. Detta tröskelvärde är den signifikansnivå som ges vid testning av statistiska hypoteser . Till exempel, i fallet med en metalldetektor, kommer ökning av enhetens känslighet att leda till en ökad risk för ett typ 1-fel (falskt larm), medan en sänkning av känsligheten ökar risken för ett typ 2-fel (saknas ett förbjudet Artikel).

Användningsexempel

Radar

I uppgiften att radardetektera luftmål, främst inom luftvärnssystemet, är fel av det första och andra slaget, med formuleringarna "falskt larm" och "missar målet" ett av huvudelementen i både teori och praktik av bygga radarstationer . Detta är förmodligen det första exemplet på en konsekvent tillämpning av statistiska metoder inom hela det tekniska området.

Datorer

Begreppen typ I- och typ II-fel används i stor utsträckning inom området datorer och mjukvara.

Datorsäkerhet

Förekomsten av sårbarheter i datorsystem leder till det faktum att det å ena sidan är nödvändigt att lösa problemet med att upprätthålla integriteten hos datordata, och å andra sidan att säkerställa normal åtkomst för lagliga användare till dessa data ( se datorsäkerhet ). I detta sammanhang är följande oönskade situationer möjliga [3] :

  • när auktoriserade användare klassificeras som lagöverträdare ( typ I-fel );
  • när lagöverträdare klassificeras som auktoriserade användare ( fel av det andra slaget ).
Skräppostfiltrering

Ett typ 1-fel uppstår när en mekanism för blockering/filtrering av skräppost av misstag klassificerar ett legitimt e -postmeddelande som skräppost och förhindrar att det levereras normalt. Medan de flesta anti-spam-algoritmer kan blockera/filtrera en stor andel av oönskade e-postmeddelanden, är det mycket viktigare att minimera antalet "falska larm" (felaktig blockering av önskade meddelanden).

Ett typ II-fel uppstår när ett anti-spam-system felaktigt släpper igenom ett oönskat meddelande och klassificerar det som "inte spam". Den låga nivån av sådana fel är en indikator på effektiviteten av anti-spam-algoritmen.

Hittills har det inte varit möjligt att skapa ett anti-spam-system utan en korrelation mellan sannolikheten för fel av den första och andra typen. Sannolikheten för att missa spam i moderna system varierar från 1 % till 30 %. Sannolikheten för att av misstag avvisa ett giltigt meddelande är från 0,001 % till 3 %. Valet av ett system och dess inställningar beror på villkoren för en viss mottagare: för vissa mottagare bedöms risken att förlora 1 % av bra post som obetydlig, för andra är förlusten på till och med 0,1 % oacceptabel.

Skadlig programvara

Konceptet med ett typ I-fel används också när antivirusprogram felklassificerar en ofarlig fil som ett virus . Felaktig upptäckt kan orsakas av heuristik eller av en felaktig virussignatur i databasen. Liknande problem kan också uppstå med antitrojan- och antispywareprogram .

Söka i datordatabaser

Vid sökning i en databas inkluderar fel av det första slaget dokument som utfärdas av sökningen, trots att de är irrelevans (inkonsekvens) med sökfrågan. Falska positiva är typiska för fulltextsökning , när sökalgoritmen analyserar hela texten i alla dokument som lagras i databasen och försöker matcha en eller flera termer som anges av användaren i frågan.

De flesta falska positiva resultat beror på komplexiteten hos naturliga språk , ords tvetydighet: till exempel kan "hem" betyda både "en persons bostad" och "rotsidan på en webbplats." Antalet sådana fel kan minskas genom att använda en speciell ordbok . Denna lösning är dock relativt dyr, eftersom sådan vokabulär och dokumentuppmärkning ( indexering ) måste skapas av en expert.

Optisk teckenigenkänning (OCR)

Olika detekteringsalgoritmer ger ofta fel av det första slaget . OCR-programvara kan känna igen bokstaven "a" i en situation där det faktiskt finns flera punkter.

Passagerar- och bagagekontroll

Typ I-fel uppstår regelbundet varje dag i datorsystem för kontroll av flygplatser. Detektorerna installerade i dem är utformade för att förhindra att vapen bärs ombord på flygplanet; dock är de ofta inställda på en så hög känslighetsnivå att de många gånger om dagen skjuter mot mindre föremål som nycklar, bältesspännen, mynt, mobiltelefoner, spikar i skosulor etc. (se Explosiva upptäckt )., metalldetektorer ).

Således är förhållandet mellan antalet falska larm (identifiering av en anständig passagerare som brottsling) och antalet korrekta larm (upptäckt av verkligt förbjudna föremål) mycket högt.

Biometri

Fel av det första och andra slaget är ett stort problem i biometriska skanningssystem som använder igenkänning av iris eller näthinna i ögat, ansiktsdrag etc. Sådana skanningssystem kan av misstag identifiera någon med en annan person "känd" för systemet, information om vem som finns lagrad i databasen (det kan till exempel vara en person med rätt att logga in, eller en misstänkt brottsling etc.). Det motsatta felet skulle vara systemets misslyckande att känna igen en legitim registrerad användare eller att identifiera en misstänkt för ett brott [4] .

Massmedicinsk diagnostik (screening)

I medicinsk praxis finns det en betydande skillnad mellan screening och testning :

  • Screening innebär relativt billiga tester som utförs på en stor grupp människor i frånvaro av några kliniska tecken på sjukdom (som ett cellprov ).
  • Testning innebär mycket dyrare , ofta invasiva, procedurer som endast utförs på de som visar kliniska tecken på sjukdomen och som främst används för att bekräfta en misstänkt diagnos.

Till exempel kräver de flesta stater i USA att nyfödda ska screenas för hydroxifenylketonuri och hypotyreos , bland andra medfödda anomalier . Trots den höga frekvensen av typ I-fel anses dessa screeningprocedurer vara värdefulla eftersom de avsevärt ökar sannolikheten för att upptäcka dessa störningar i ett mycket tidigt skede [5] .

De enkla blodprover som används för att screena potentiella donatorer för hiv och hepatit har en betydande nivå av typ I-fel ; dock har läkare mycket mer exakta (och därför dyra) tester i sin arsenal för att kontrollera om en person verkligen är infekterad med något av dessa virus.

Det kanske mest diskuterade är typ I-fel vid screening av bröstcancer ( mammografi ). I USA är typ I-felfrekvensen på mammografi så hög som 15 %, den högsta i världen [6] . Den lägsta nivån observeras i Nederländerna , 1% [7] .

Medicinsk testning

Typ II-fel är ett betydande problem vid medicinska tester . De ger patienten och läkaren den falska uppfattningen att sjukdomen inte är närvarande, när den i verkligheten är det. Detta leder ofta till olämplig eller otillräcklig behandling. Ett typiskt exempel är förtroendet för resultaten av cykelergometri för att upptäcka kranskärlsförkalkning , även om det är känt att cykelergometri endast avslöjar de hinder i blodflödet i kransartären som orsakas av stenos .

Fel av det andra slaget orsakar allvarliga och svårbegripliga problem, särskilt när det önskade tillståndet är utbrett. Om ett test med 10 % typ II-felfrekvens används på en population där sannolikheten för "sant positiva" fall är 70 %, kommer många negativa testresultat att vara falska. (Se Bayes sats ).

Typ I-fel kan också orsaka allvarliga och svårbegripliga problem. Detta inträffar när det tillstånd som söks är sällsynt. Om ett test har en typ I -felfrekvens på en av tio tusen, men i gruppen av prover (eller personer) som testas, är sannolikheten för "sant positiva" fall i genomsnitt en på en miljon, då är majoriteten av positiva resultat från det testet kommer att vara falskt [8] .

Undersökningar av det övernaturliga

Termen typ I-fel har myntats av forskare inom området paranormala och spöken för att beskriva ett fotografi eller inspelning eller något annat bevis som felaktigt tolkas som att det är av paranormalt ursprung - i detta sammanhang är ett typ I -fel  något ohållbara "mediabevis" (bild, video, ljud etc.) som har den vanliga förklaringen. [9]

Se även

Anteckningar

  1. GOST R 50779.10-2000. "Statistiska metoder. Sannolikhet och statistikbas. Termer och definitioner". — s. 26 Arkiverad 9 november 2018 på Wayback Machine
  2. Easton VJ, McColl JH Statistisk ordlista: Hypothesis Testing. Arkiverad 24 september 2011 på Wayback Machine
  3. Moulton RT nätverkssäkerhet   // Datamation . - 1983. - Vol. 29 , iss. 7 . - S. 121-127 .
  4. Detta exempel karakteriserar bara fallet när klassificeringen av fel kommer att bero på syftet med systemet: om biometrisk skanning används för att släppa in anställda ( nollhypotes : "personen som genomgår skanningen är verkligen en anställd"), då kommer felaktig identifiering att vara ett fel av det andra slaget , och "oigenkännande" - fel av det första slaget ; om skanning används för att identifiera brottslingar ( nollhypotes : "personen som skannas är inte en brottsling"), så kommer den felaktiga identifieringen att vara ett typ I-fel och "oigenkänning" kommer att vara ett typ II-fel .
  5. När det gäller screening av nyfödda har nyare studier visat att antalet fel av det första slaget är 12 gånger högre än antalet korrekta upptäckter (Gambrill, 2006. [1] )
  6. En konsekvens av denna höga frekvens av typ I-fel i USA är att under en godtycklig 10-årsperiod får hälften av de tillfrågade amerikanska kvinnorna minst ett falskt positivt mammografi. Dessa felaktiga mammografi är kostsamma, vilket resulterar i en årlig kostnad på 100 miljoner dollar i uppföljande (onödiga) behandlingar. Dessutom orsakar de onödig ångest hos kvinnor. Som ett resultat av den höga andelen typ I-fel i USA har cirka 90-95 % av kvinnorna som får ett positivt mammografi minst en gång i livet faktiskt inte sjukdomen.
  7. De lägsta nivåerna av dessa fel observeras i norra Europa, där mammografiska filmer läses två gånger och en ökad tröskel ställs in för ytterligare testning ( en hög tröskel minskar testets statistiska effektivitet ).
  8. Sannolikheten att ett testresultat är ett typ I-fel kan beräknas med Bayes sats .
  9. Vissa webbplatser ger exempel på typ I-fel, till exempel: The Atlantic Paranormal Society (TAPS) Arkiverad 28 mars 2005.  (nedlänk från 2013-05-13 [3457 dagar]) och Moorestown Ghost Research Arkiverad 2006-06-14 .  (nedlänk sedan 2013-05-13 [3457 dagar] - historik ) .