En linjär klassificerare är ett sätt att lösa klassificeringsproblem när ett beslut fattas baserat på en linjär operator på indata. Klassen av problem som kan lösas med hjälp av linjära klassificerare har egenskapen linjär separerbarhet .
Låt vektorn av reella tal representera indata, och y-indikatorn beräknas vid utgången av klassificeraren enligt formeln:
här är en reell vektor av vikter och f är en punktprodukttransformationsfunktion . (Med andra ord, viktvektorn är en kovariant vektor eller en linjär form av mappning i R. ) Viktvärdena för vektorn bestäms av maskininlärning på de förberedda proverna. Funktionen f är vanligtvis en enkel tröskelfunktion som skiljer en klass av objekt från en annan. I mer komplexa fall har Funktionen f innebörden av sannolikheten för ett eller annat beslut.
Funktionen av linjär klassificering för två klasser kan föreställas som en kartläggning av objekt i ett flerdimensionellt utrymme på ett hyperplan där de objekt som faller på ena sidan av skiljelinjen tillhör den första klassen ("ja"), och objekt på den andra sidan tillhör den andra klassen ("Nej").
Den linjära klassificeraren används när det är viktigt att utföra snabba beräkningar med hög hastighet. Det fungerar bra när ingångsvektorn är gles. Linjära klassificerare kan fungera bra i högdimensionellt utrymme, till exempel för att klassificera dokument efter ordförekomstmatris . I sådana här fall sägs objekten vara välregulerbara .
Det finns två tillvägagångssätt för att definiera parametrar för en linjär klassificerare - generativa eller diskriminerande modeller. [1] [2]
Den generativa modellen använder en villkorlig fördelning . Till exempel:
Diskriminerande modeller försöker förbättra kvaliteten på resultatet på en uppsättning träningsprover. Till exempel:
Diskriminerande modeller är mer korrekta, men med ofullständig information i datan är det lättare att använda en villkorlig fördelning.
Lärande när man använder diskriminerande modeller byggs upp genom " övervakat lärande ", det vill säga genom processen att optimera utdata på givna träningsexempel. Detta definierar en förlustfunktion som mäter diskrepansen mellan uteffekten och de önskade resultaten. Formellt skrivs inlärningsproblemet (som en optimering) som: [4]
var
De mest populära är den bitvis linjära funktionen och de logaritmiska ( Korsentropi ) förlustfunktionerna. Om regulariseringsfunktionen R är konvex uppstår problemet med konvex optimering [4] . Många algoritmer används för att lösa dessa problem, särskilt stokastisk gradientnedstigning, gradientnedstigning , L-BFGS , koordinatnedstigning och Newtons metod .