Dataförbehandling

Dataförbehandling är ett viktigt steg i datautvinningsprocessen . Frasen " skräp in, skräp ut " gäller i synnerhet för datautvinning och maskininlärningsprojekt . Vad som menas här är att inte ens den mest sofistikerade analysen kommer att vara användbar om tveksamma data tas som grund [1] .

Nödvändighet

Datainsamlingsmetoder är ofta dåligt kontrollerade. Detta resulterar i ogiltiga värden (till exempel: inkomst lika med -100), datakombinationer som är omöjliga (till exempel: "man under graviditeten"), saknade värden och så vidare. Att analysera data som inte är immuna mot den här typen av problem kan leda till felaktiga slutsatser. Kvaliteten på uppgifterna är avgörande i analysen [2] . Ofta blir dataförbehandling en viktig fas i ett maskininlärningsprojekt . Detta gäller särskilt för beräkningsbiologiska processer [3] .

Under träningen av maskinen, med en stor mängd onödig information, " bullrig " och opålitlig data, blir det svårt att utvinna kunskap . Stadiet med databeredning och filtrering kan ta lång tid. Dataförberedelse inkluderar:

och annan datamanipulation.

Resultatet av dataförbearbetning är den slutliga träningsuppsättningen .

Metoder

Nedan följer en kort beskrivning av de metoder som används i dataförbehandlingsstadiet.

Se även

Anteckningar

  1. Charles Whelan. Naken statistik. — 2:a upplagan. - Moskva: Mann, Ivanov och Ferber, 2017. - S. 152-153. — 341 sid. - ISBN 978-5-00100-823-1 .
  2. Pyle, 1999 .
  3. Chicco, 2017 , sid. 1-17.
  4. Wu, 2013 .

Litteratur

Länkar