Anomali upptäckt

Anomalidetektering (även känd som outlier-detektion [1] ) är identifiering under datautvinning av sällsynta data, händelser eller observationer som är misstänkta på grund av att de skiljer sig väsentligt från huvuddelen av data [1] . Vanligtvis kännetecknar avvikande data någon form av problem, såsom bankbedrägerier en strukturell defekt, medicinska problem eller fel i text. Anomalier hänvisas också till som extremvärden , konstigheter, brus, avvikelser eller undantag [2] .

Allmän diskussion

Avvikelseupptäckt i samband med upptäckt av skadlig användning och nätverksintrång, föremål av intresse är ofta inte sällsynta , men visar en oväntad aktivitet . Detta passar inte in i den vanliga statistiska definitionen av extremvärden som sällsynta objekt, och många metoder för detektering av extremvärden (särskilt oövervakade metoder ) misslyckas med sådana data tills data grupperas på lämpligt sätt. Å andra sidan kan klusteranalysalgoritmer lägga märke till mikrokluster som bildas av sådant beteende [ 3] .

Det finns ett brett utbud av kategorier av anomalidetekteringstekniker [4] . Den oövervakade anomalidetekteringstekniken upptäcker anomalier i omärkta testdatauppsättningar, under antagandet att det mesta av datauppsättningen är normal, genom att leta efter representanter som passar mindre bra med resten av datauppsättningen. Tekniken för detektering av övervakade anomalier kräver tillhandahållande av data märkta som "normala" och "onormala" och använder klassificerareträning (en nyckelskillnad från många andra klassificeringsproblem ligger i den inneboende obalanserade naturen hos avvikande detektering). Tekniken för detektering av partiellt övervakad anomali bygger en modell som representerar normalt beteende från en given uppsättning normal träningsuppsättning och testar sedan den resulterande modellen för rimlighet.

Applikationer

Avvikelsedetektering är tillämplig på ett brett spektrum av områden som intrångsdetektering , bedrägeridetektering , feldetektering, hälsoövervakning, händelsedetektering i sensornätverk och detektering av miljöstörningar. Ofta används anomalidetektering för att förbehandla data för att ta bort anomalier. Vid övervakat lärande leder borttagning av onormala data från en uppsättning ofta till en signifikant statistisk ökning av noggrannheten [5] [6] .

Populära tekniker

Flera anomalidetekteringstekniker har föreslagits i litteraturen [7] . Här är några populära tekniker:

Prestanda för olika metoder är data- och parameterberoende och har små systematiska fördelar gentemot varandra vid jämförelse mellan flera data och parameteruppsättningar [27] [28] .

Ansökan om dataskydd

Anomalidetektering föreslogs för system för intrångsdetektering av Dorothy Denning 1986 [29] . Anomalidetektering för intrångsdetekteringssystem görs vanligtvis med ett tröskelvärde och statistik, men kan göras med soft computing och induktiv inlärning [30] . De typer av statistik som erbjöds 1999 inkluderade profiler för användare, arbetsstationer , nätverk, fjärrvärdar, användargrupper och program baserade på frekvenser, medel och varianser [31] . Motsvarigheten till avvikelsedetektering vid intrångsdetektering är upptäckt av skadlig användning .

Programvara

Dataset

Se även

Anteckningar

  1. 1 2 Zimek, Schubert, 2017 , sid. 1–5.
  2. Hodge, Austin, 2004 , sid. 85–126.
  3. Dokas, Ertoz, Kumar et al., 2002 .
  4. Chandola, Banerjee, Kumar, 2009 , sid. 1–58.
  5. Tomek, 1976 , sid. 448–452.
  6. Smith och Martinez, 2011 , sid. 2690.
  7. Zimek, Filzmoser, 2018 , sid. e1280.
  8. Knorr, Ng, Tucakov, 2000 , sid. 237–253.
  9. Ramaswamy, Rastogi, Shim, 2000 , sid. 427.
  10. Angiulli, Pizzuti, 2002 , sid. femton.
  11. Breunig, Kriegel, Ng, Sander, 2000 , sid. 93–104.
  12. Liu, Ting, Zhou, 2008 , sid. 413–422.
  13. Schubert, Zimek, Kriegel, 2012 , sid. 190–237.
  14. Kriegel, Kröger, Schubert, Zimek, 2009 , sid. 831.
  15. Kriegel, Kroger, Schubert, Zimek, 2012 , sid. 379.
  16. Zimek, Schubert, Kriegel, 2012 , sid. 363–387.
  17. Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001 , sid. 1443–71.
  18. 1 2 3 Hawkins, He, Williams, Baxter, 2002 , sid. 170–180.
  19. He, Xu, Deng, 2003 , sid. 1641–1650
  20. Campello, Moulavi, Zimek, Sander, 2015 , sid. 5:1-51.
  21. Lazarevic och Kumar 2005 , sid. 157–166.
  22. Nguyen, Ang, Gopalkrishnan, 2010 , sid. 368.
  23. Kriegel, Kröger, Schubert, Zimek, 2011 , sid. 13–24.
  24. Schubert, Wojdanowski, Zimek, Kriegel, 2012 , sid. 1047–1058.
  25. Zimek, Campello, Sander (1), 2014 , sid. 11–22.
  26. Zimek, Campello, Sander (2), 2014 , sid. ett.
  27. Campos, Zimek, Sander et al., 2016 , sid. 891.
  28. Se datauppsättningar nedan
  29. Denning, 1987 , sid. 222–232.
  30. Teng, Chen, Lu, 1990 , sid. 278–284.
  31. Jones, Sielken, 1999 .

Litteratur