Binär klassificering

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 3 augusti 2020; verifiering kräver 1 redigering .

Binär , binär eller dikotom klassificering är uppgiften att klassificera elementen i en given mängd i två grupper (förutsäga vilken grupp varje element i mängden tillhör) baserat på klassificeringsregeln . Sammanhang där det krävs att avgöra om ett objekt har någon kvalitativ egenskap , några specifika egenskaper eller någon typisk binär klassificering inkluderar:

Binär klassificering är en dikotomisering som tillämpas i praktiska syften. I många praktiska problem med binär klassificering är de två grupperna inte symmetriska - istället för övergripande noggrannhet är de relativa proportionerna av feltyper viktiga . Till exempel, i laboratorietester anses en falsk positiv (upptäckt av en sjukdom som faktiskt inte existerar) vara särskiljbar från en falsk negativ (inte upptäckt av en sjukdom som patienten faktiskt har).

Statistisk binär klassificering

Statistisk klassificering är en uppgift som studeras inom maskininlärning . Det är en typ av övervakad inlärning , en metod för maskininlärning där kategorier är fördefinierade och används för att välja en kategori för en ny probabilistisk observation. Om det bara finns två kategorier är problemet känt som statistisk binär klassificering.

Några metoder som vanligtvis används för binär klassificering är:

Varje klassificerare presterar bäst endast i ett utvalt område, baserat på antalet observationer, dimensionen av funktionsvektorn , bruset i data och många andra faktorer. Till exempel presterar slumpmässiga skogsklassificerare bättre än stödvektormaskiner för 3D-punktmoln [1] [2] .

Binär klassificeringspoäng

Det finns många mätvärden som kan användas för att mäta prestandan hos en klassificerare eller prediktor. Olika fält har olika fördelar för specifika mätvärden på grund av olika syften. Till exempel används känslighet och specificitet ofta inom medicin , medan precision och återkallande gynnas informationssökning . En viktig skillnad i mått är om det är oberoende av prevalens (hur ofta varje kategori förekommer i befolkningen) eller beroende, och båda typerna är användbara, men de har väldigt olika egenskaper.

Givet en klassificering av en datamängd finns det fyra grundläggande kombinationer av en giltig kategori och en tilldelad kategori:

  1. korrekt tilldelade positiva klassificeringar TP
  2. korrekt tilldelade negativa klassificeringar TN
  3. falskt tilldelade positiva klassificeringar FP
  4. falskt tilldelade negativa klassificeringar FN

De kan placeras i en beredskapstabell med kolumner som motsvarar faktiska värden - villkorligt positiva ( eng. condition positiv , CP) eller villkorligt negativa ( eng. condition negativ , CN), och rader som motsvarar klassificeringsvärden - testet resultatet är positivt eller negativt. Det finns åtta basförhållanden som kan beräknas från tabellen, som delas in i fyra komplementära par (summan av varje par är 1). De erhålls genom att dividera vart och ett av de fyra talen med rad- eller kolumnsumman, vilket ger åtta tal som kan hänvisas till som en "rad av sanna positiva" eller en "kolumn med falska negativ", även om det finns vanliga termer. Det finns också två par kolumnförhållanden och två par radförhållanden, och du kan få fyra av dem genom att välja ett förhållande från varje par, de andra fyra siffrorna är deras komplement.   

Aktiekolumnen innehåller förhållandet mellan sanna positiva ( eng.  True Positive Rate , TPR, även kallat sensitivity or recall , tillägget är andelen falska negativa resultat , eng.  False Negative Rate , FNR) och andel sanna negativa resultat ( eng.  True Negative Rate , TNR, även kallad specificity , ( eng.  Specificity , SPC, komplement - andelen falska positiva , eng.  False Positive Rate , FPR) De är proportionella mot populationen med ett tillstånd (respektive utan ett tillstånd) för vilket testet är sant (eller testet är falskt) och de är inte beroende av prevalens.

Bråkraden är det positiva prediktiva värdet ( Positive Predictive Value , PPV, även kallat precision , komplementet är andelen falska avslag , False Discovery Rate , FDR) och det negativa prediktiva värdet ( sv  ... Negativt prediktivt värde , NPV, addition - andelen falska pass, eng. False Omission Rate , FOR). De är proportionella mot populationen med ett givet sant testresultat (eller falskt resultat) och de beror på prevalens.    

I laboratorietester är de huvudsakliga förhållanden som används kolumnen sanna proportioner - andelen sanna positiva och andelen sanna negativa - där dessa är kända som sensitivitet och specificitet . När man extraherar information är de huvudsakliga sambanden den sanna positiva frekvensen (rad och kolumn) - det negativa prediktiva värdet och den sanna positiva frekvensen - där dessa är kända som precision och återkallelse .

Det är möjligt att ta förhållandena för komplementära par av förhållanden, vilket ger fyra sannolikhetsförhållanden (två värden i proportionskolumnen, två värden i raden med proportioner). Detta görs i första hand för kolumnkvoter, vilket ger sannolikhetskvoter i labbtester . Om vi ​​tar kvoten i en av dessa grupper får vi det slutliga diagnostiska testoddskvoten ( Diagnostic Odds Ratio , DOR) .  Detta värde kan också definieras direkt som . Detta har en användbar tolkning som en oddskvot och är oberoende av prevalens.

Det finns flera andra mätvärden, den enklaste är Fraction Correct (FC), som mäter andelen av alla fall som är korrekt klassificerade .  Tillägget till 1 av detta värde är andelen felaktiga ( English Fraction Incorrect , FiC). F-måttet kombinerar precision och återkallelse i ett nummer genom att välja en vikt, i enklaste fall lika med vikten som i ett balanserat F-mått ( F1-mått ). Vissa mått kommer från regressionskoefficienterna - markerade och informativa och deras geometriska medelvärde , Matthews korrelationskoefficient . Andra mått inkluderar Youdens J-statistik , osäkerhetskoefficient , Phi-koefficient och Cohens kappa.  

Konvertera kontinuerliga värden till binära

Tester vars resultat är kontinuerliga värden, som de flesta blodprovsvärden , kan göras artificiellt binära genom att definiera ett cutoff-värde . Testresultatet definieras som positivt eller negativt , beroende på resultaten av jämförelsen av de resulterande och cutoff-värdena.

Denna konvertering resulterar dock i en förlust av information eftersom resultatet av den binära klassificeringen inte indikerar hur mycket högre eller lägre cutoff-värdena är. När man konverterar ett kontinuerligt värde som är nära cutoff-värdet, är det resulterande positiva eller negativa prediktiva värdet i allmänhet högre än det prediktiva värdet som erhålls direkt från det kontinuerliga värdet. I sådana fall ger ett positivt eller negativt testresultat en oacceptabelt hög säkerhet, medan själva värdet faktiskt ligger i osäkerhetsområdet. Till exempel har koncentrationen av humant koriongonadotropin (hCG) i urinen ett kontinuerligt värde. Ett uringraviditetstest med en cut-off på 50 mIU/ml med en verklig hCG-koncentration på 52 mIU/ml kan visa ett "positivt resultat". Å andra sidan har ett testresultat långt från cutoff vanligtvis ett positivt eller negativt prediktivt värde som är mindre än det prediktiva värdet som erhålls från ett kontinuerligt värde. Till exempel indikerar ett hCG-värde på 200 000 mIU/mL en mycket hög grad av graviditet, men omvandling till binära resultat ger ett "positivt" testresultat på endast 52 mIU/ml.

Se även

Anteckningar

  1. Zhang, Zakhor, 2014 .
  2. Lu, Rasmussen, 2012 .

Litteratur