ROC-kurva ( engelsk mottagares funktionskarakteristik , mottagarens funktionsegenskaper ) - en graf som låter dig utvärdera kvaliteten på binär klassificering , visar förhållandet mellan andelen objekt från det totala antalet bärare av funktionen, korrekt klassificerad som bärare av funktionen ( eng. true positive rate , TPR, kallad sensitivity classification algorithm), och andelen objekt från det totala antalet objekt som inte har en funktion, felaktigt klassificerade som att bära en funktion ( eng. false positive rate , FPR, värdet av 1-FPR kallas klassificeringsalgoritmens specificitet ) när man varierar tröskeln för beslutsregeln.
Även känd som felkurvan . Analysen av klassificeringar med hjälp av ROC-kurvor kallas ROC-analys .
Kvantitativ tolkning av ROC ger AUC ( eng. Area Under Curve , area under the curve ) - området som begränsas av ROC-kurvan och axeln för andelen falska positiva klassificeringar. Ju högre AUC, desto bättre klassificerare, medan värdet 0,5 visar olämpligheten hos den valda klassificeringsmetoden (motsvarande slumpmässig gissning). Ett värde mindre än 0,5 säger att klassificeraren fungerar precis tvärtom: om positiva kallas negativa och vice versa kommer klassificeraren att fungera bättre.
Maligna tumörer är en klassisk tillämpning av klassificeringsproblem: symtom uppträder ofta när sjukdomen har utvecklats till obotlig, och tillförlitliga tester är extremt dyra. Därför efterfrågas billiga, även om de inte är så tillförlitliga, tester - och vi kommer att förklara med exemplet med friska och sjuka människor.
Klassificeringens uppgift är att tilldela tidigare okända objekt till en viss klass. Ett exempel på en sådan uppgift kan vara att diagnostisera en sjukdom - om patienten insjuknade ( positivt resultat ) eller inte ( negativt resultat ). Sedan, som ett resultat av klassificering, kan fyra olika situationer observeras:
De fyra möjliga utgångarna kan formuleras och formateras som en 2×2 beredskapstabell .
Då kallas värdet Sen=TP/(TP+FN), algoritmens förmåga att "se" patienter, känsligheten eller frekvensen av sanna positiva , Spe=TN/(TN+FP) är specificiteten eller frekvensen av sanna negativa , förmågan hos algoritmen att inte ta friska människor för sjuka. Den ekonomiska effekten av dessa fel är annorlunda: en falsk-negativ patient kommer med en försummad sjukdom, resurser kommer att läggas på ytterligare undersökning av en falsk-positiv. Värdet 1−Spe=FP/(TN+FP) kallas för falsk positiv frekvens .
Ofta returnerar klassificeraren inte den friska-sjuka biten, utan en siffra på en kontinuerlig skala: till exempel 0="uppenbarligen frisk", 25="mest troligt frisk", 50="obestämd", 75="mest sannolikt sjuk ", 100="tydligt sjuk". Men ändå är uppsättningen beslut som fattas vanligtvis ändliga, eller till och med binära: ska patienten skickas för vidare undersökning? Ska påskjutaren fungera, tappa delen i behållaren med äktenskapet ? Genom att variera responströskeln ändrar vi egenskaperna för sensitivitet och specificitet: ju högre en, desto lägre den andra.
Som ett resultat av att man ändrar tröskeln från −∞ till ∞ och plottar punkterna X=1−Spe och Y=Sen i X,Y-koordinatutrymmet, erhålls en graf som kallas ROC-kurvan. Vid tröskeln −∞ klassificerar klassificeraren alla patienter som sjuka (1−Spe=1, Sen=1). Vid +∞-tröskeln klassificeras alla som friska (1−Spe=0, Sen=0). Därför går ROC-kurvan alltid från (0,0) till (1,1).
Klassificeringen baseras ofta på kontinuerliga slumpvariabler . I det här fallet är det bekvämt att skriva sannolikheten för att tillhöra en viss klass som en sannolikhetsfördelningsfunktion beroende på ett visst tröskelvärde (gränsvärde) för parametern i formen , och sannolikheten att inte tillhöra som . Sedan kan antalet falskt positiva (falskt positiva frekvens, FPR) lösningar uttryckas som . Samtidigt kan antalet sanna positiva beslut (true-positive rate, TPR) uttryckas som . Vid konstruktion av ROC-kurvan längs axeln och längs -axeln , erhållen vid olika värden av parametern .
Föreställ dig till exempel att nivåerna av något protein i blodet är normalfördelade med centra lika med 1 g / dL och 2 g / dL hos friska respektive sjuka personer . Ett medicinskt test kan ge en indikation på nivån av något protein i blodplasman . En proteinnivå över en viss gräns kan betraktas som ett tecken på sjukdom . Forskaren kan flytta gränsen (svart vertikal linje i figuren), vilket kommer att ändra antalet falskt positiva resultat. Den resulterande formen av ROC-kurvan beror på skärningsgraden mellan de två fördelningarna .
Om den allmänna populationen är ändlig (vilket vanligtvis händer på verkliga datamängder), då när tröskeln t flyttas från −∞ till ∞, är följande situationer möjliga:
Eftersom sannolikheten för den fjärde händelsen är liten, har ROC-kurvan för den slutliga allmänna populationen en stegform, med ett litet antal lutande segment där felen i datainsamling och bearbetning gav samma resultat på objekt av olika klasser.
Följaktligen är algoritmen för att konstruera en ROC-kurva för en ändlig allmän population som följer. Låt oss sortera objekten efter kriteriets värde. Vi tar en uppsättning objekt med lika kriteriumvärde, räknar om Sen och Spe och ritar ett segment. Vi fortsätter tills föremålen tar slut.
ROC-kurvan för en binär klassificerare som producerar 0 eller 1 (till exempel ett beslutsträd ) ser ut som två segment (0,0) → (1−Spe,Sen) → (1,1).
I det ideala fallet, när klassificeraren helt separerar de positiva och negativa medlemmarna av den allmänna befolkningen, blir först alla falska positiva sanna negativa (segment (1,1) - (0,1)), sedan blir alla sanna positiva falska negativa ( segment (0,1)—(0,0)). Det vill säga, ROC-kurvan för en ideal klassificerare, oavsett vilka tal kriteriet ger och om den allmänna populationen är finit, ser ut som två segment (0,0) - (0,1) - (1,1).
Vid de tröskelvärden t , där ROC-kurvan ligger under diagonalen 1−Spe = Sen , kan kriteriet inverteras (allt mindre än t kan förklaras positivt), och klassificeraren kommer att prestera bättre än initialt: både sensitivitet och specificitet ökar .
ROC-kurvor användes först i teorin om signalbehandling i USA under andra världskriget för att förbättra kvaliteten på igenkänningen av fiendens föremål från en radarsignal [1] . Efter attacken på Pearl Harbor 1941 började den amerikanska militären ny forskning som syftade till att försöka öka noggrannheten för att identifiera japanska flygplan från radarsignaler.
Därefter användes ROC-kurvor i stor utsträckning inom medicinsk diagnostik [2] [3] [4] . ROC-kurvor används inom epidemiologi och medicinsk forskning och benämns ofta i samma sammanhang som evidensbaserad medicin . Inom radiologi används ROC-kurvor för att validera och testa nya tekniker [5] . Inom samhällsvetenskapen används ROC-kurvor för att göra bedömningar om kvaliteten på sannolikhetsmodeller. Kurvor används också i produktkvalitetshantering och kreditvärdering .
Som redan nämnts används ROC-kurvor i stor utsträckning inom maskininlärning . De användes först i detta sammanhang i arbetet av Spakman, som visade användningen av ROC-kurvor för att jämföra flera klassificeringsalgoritmer . [6]
I ett normaliserat utrymme är arean under kurvan ( AUC - Area Under Curve, AUROC - Area Under Receiver Operating Characteristic ) ekvivalent med sannolikheten att klassificeraren kommer att tilldela en slumpmässigt vald positiv enhet mer vikt än till en slumpmässigt vald negativ. . [7] Detta kan visas på följande sätt: arean under kurvan ges av integralen (axeln roteras med ett minustecken - ett större värde på koordinaten motsvarar ett mindre värde på parametern ): . Vinkelparenteserna betecknar operationen att ta medelvärdet.
AUC har visat sig vara nära besläktat med Mann-Whitneys U-test [8] [9] , som är ett mått på om positiva poster tillmäts mer vikt än negativa. AUC-värdet är också relaterat till Wilcoxon-testet [9] och till Gini-koefficienten ( ) enligt följande: , där:
[10] .
AUC används också ofta för att jämföra modeller baserade på träningsuppsättningen [11] . Men i vissa fall är användningen av denna indikator svår eftersom AUC är känslig för brus [12] . I vissa tidningar noteras ytterligare problem som uppstår när AUC- värdet används för att jämföra modeller [13] [14] . Som noterats tidigare kan värdet på arean under kurvan användas som ett värde på sannolikheten med vilken en slumpmässigt vald positiv enhet kommer att tilldelas en vikt större än en slumpmässigt vald negativ. I ett antal arbeten [12] [13] gjordes dock antaganden om svårigheten att få tillförlitliga uppskattningar av AUC- värdena . Således har det praktiska värdet av AUC- indikatorn ifrågasatts [14] , vilket tyder på att värdet ofta kan introducera mer osäkerhet än klarhet.
Utvidgningen av ROC-kurvor till fallet med klassificeringsproblem med mer än två klasser har alltid varit behäftad med svårigheter, eftersom antalet frihetsgrader växer kvadratiskt med antalet klasser, och ROC-utrymmet har dimensioner , där är antal klasser. [15] Några praktiska tillvägagångssätt har också utvecklats för fallet när antalet klasser är tre. [16] Volymen under ROC-ytan ( VUS - Volume Under Surface ) anses vara ett kvalitetsmått för klassificerare för icke-binära klassificeringsproblem. [17] Men på grund av komplexiteten i analysen av VUS-variabeln har andra tillvägagångssätt [18] baserade på utvidgningen av VUS- konceptet utvecklats .
På grund av den framgångsrika tillämpningen av ROC-kurvor för att analysera kvaliteten på klassificerare, har utvidgningar av ROC-kurvor till andra övervakade inlärningsproblem studerats . Bland de verk som är värda att notera är de som är dedikerade till de så kallade REC-kurvorna ( regression error characteristic - REC- curve ) [19] och RROC-kurvorna ( Regressions ROC-kurvorna ) [20] . Det är värt att notera att arean under RROC-kurvan är proportionell mot regressionsmodellens felvarians .
Ordböcker och uppslagsverk | |
---|---|
I bibliografiska kataloger |