Vapnik-Chervonenkis dimension

Vapnik-Chervonenkis- dimensionen eller VC-dimensionen  är en egenskap hos en familj av algoritmer för att lösa ett klassificeringsproblem med två klasser, vilket kännetecknar komplexiteten eller kapaciteten hos denna familj. Det är ett av nyckelbegreppen i Vapnik-Chervonenkis teori om statistisk maskininlärning och är uppkallad efter Vladimir Vapnik och Alexey Chervonenkis .

Vapnik och Chervonenkis själva föredrar att kalla denna kvantitetskombinatoriska dimension , eftersom det visade sig att den var känd för algebraister redan innan upptäckten av deras teori om maskininlärning .

Definition

Låt en uppsättning och någon familj av indikatorfunktioner (klassificeringsalgoritmer, beslutsregler) ges , där  är argumentet för funktionerna,  är vektorn av parametrar som definierar funktionen. Varje sådan funktion tilldelar varje element i mängden en av de två givna klasserna. VC-dimensionen av en familj är det största antalet , så att det finns en delmängd av elementen i mängden , som fungerar från kan delas in i två klasser på alla möjliga sätt. Om sådana delmängder existerar för godtyckligt stora , antas VC-dimensionen vara lika med oändligheten.

VC-dimensionen kan också generaliseras till fallet med en familj av funktioner som tar verkliga värden. Dess VC-dimension definieras som VC-dimensionen för familjen av indikatorfunktioner , där funktionsomfånget . [ett]

Exempel

Som ett exempel, överväg problemet med att dela punkter på ett plan i två klasser med en rak linje - detta är den så kallade linjära klassificeraren . En uppsättning av tre punkter som inte ligger på en rät linje kan delas med en rät linje i två klasser på alla möjliga sätt ( sätten som visas i figuren nedan visar tre av dem), men det finns inte längre en uppsättning av fyra eller fler poäng. Därför är VC-dimensionen för den linjära klassificeraren på planet lika med tre.

Exempel på att dela upp tre
poäng i två klasser
Separation är omöjlig
för dessa fyra punkter

I det allmänna fallet är VC-dimensionen för linjära klassificerare i dimensionsrymden .

Se även

Länkar

Anteckningar

  1. Hastie, T., Tibshirani R., Friedman J. Kapitel 7.9. Vapnik–Chervonenkis dimension // Elementen för statistiskt lärande: Datautvinning, slutledning och förutsägelse . — 2:a uppl. - Springer-Verlag, 2009. - 746 sid. - ISBN 978-0-387-84857-0 . .