Linjär klassificerare

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 29 april 2022; kontroller kräver 2 redigeringar .

En linjär klassificerare är ett sätt att lösa klassificeringsproblem när ett beslut fattas baserat på en linjär operator på indata. Klassen av problem som kan lösas med hjälp av linjära klassificerare har egenskapen linjär separerbarhet .

Definition

Låt vektorn av reella tal representera indata, och y-indikatorn beräknas vid utgången av klassificeraren enligt formeln: ${\vec x}$

y=f({\vec {w}}\cdot {\vec {x}})=f\left(\summa _{j}w_{j}x_{j}\right),

här är en reell vektor av vikter och f är en punktprodukttransformationsfunktion . (Med andra ord, viktvektorn är en kovariant vektor eller en linjär form av mappning i R. ) Viktvärdena för vektorn bestäms av maskininlärning på de förberedda proverna. Funktionen f är vanligtvis en enkel tröskelfunktion som skiljer en klass av objekt från en annan. I mer komplexa fall har Funktionen f innebörden av sannolikheten för ett eller annat beslut. $\vec w$ $\vec{w}$ ${\vec x}$ $\vec w$

Funktionen av linjär klassificering för två klasser kan föreställas som en kartläggning av objekt i ett flerdimensionellt utrymme på ett hyperplan där de objekt som faller på ena sidan av skiljelinjen tillhör den första klassen ("ja"), och objekt på den andra sidan tillhör den andra klassen ("Nej").

Den linjära klassificeraren används när det är viktigt att utföra snabba beräkningar med hög hastighet. Det fungerar bra när ingångsvektorn är gles. Linjära klassificerare kan fungera bra i högdimensionellt utrymme, till exempel för att klassificera dokument efter ordförekomstmatris . I sådana här fall sägs objekten vara välregulerbara . ${\vec x}$

Generativa och diskriminerande modeller

Det finns två tillvägagångssätt för att definiera parametrar för en linjär klassificerare - generativa eller diskriminerande modeller. [1] [2] $\vec w$

Den generativa modellen använder en villkorlig fördelning . Till exempel: $P({\vec {x}}|{\rm {klass}})$

Diskriminantanalys (LDA) − Antar en Gaussisk normalfördelning . [3] :117
Naiv Bayes klassificerare med Bernoulli händelsemodell.

Diskriminerande modeller försöker förbättra kvaliteten på resultatet på en uppsättning träningsprover. Till exempel:

Logistisk regression är försöket att uppnå maximal likhet genom vektorn under antagandet att den observerade uppsättningen sampel genererades som en binomial modell från utdata. $\vec w$
Simple Perceptron är en algoritm för att korrigera alla fel på ingångsuppsättningen av sampel.
Stödvektormaskinen är en algoritm för att expandera separationszonen i hyperplanet av lösningar mellan sampel av indata.

Diskriminerande modeller är mer korrekta, men med ofullständig information i datan är det lättare att använda en villkorlig fördelning.

Diskriminerande lärande

Lärande när man använder diskriminerande modeller byggs upp genom " övervakat lärande ", det vill säga genom processen att optimera utdata på givna träningsexempel. Detta definierar en förlustfunktion som mäter diskrepansen mellan uteffekten och de önskade resultaten. Formellt skrivs inlärningsproblemet (som en optimering) som: [4]

{\underset {\mathbf {w} }{\arg \!\min }}\;R(\mathbf {w} )+C\summa _{i=1}^{N}L(y_{ i},\mathbf {w} ^{\mathsf {T}}\mathbf {x} _{i})

var

w är den sökta vektorn för klassificerarevikter,
L ( y i , w T x i ) förlustfunktion (det vill säga diskrepansen mellan klassificerarens utdata och de sanna värdena för y i för det i : te provet),
R ( w ) är en regulariseringsfunktion som inte tillåter att parametrarna går utöver rimliga gränser (på grund av överanpassning ),
C är en användardefinierad konstant för inlärningsalgoritmen för att balansera mellan regularisering och förlustfunktion.

De mest populära är den bitvis linjära funktionen och de logaritmiska ( Korsentropi ) förlustfunktionerna. Om regulariseringsfunktionen R är konvex uppstår problemet med konvex optimering [4] . Många algoritmer används för att lösa dessa problem, särskilt stokastisk gradientnedstigning, gradientnedstigning , L-BFGS , koordinatnedstigning och Newtons metod .

Se även

Anteckningar

↑ T. Mitchell, generativa och diskriminerande klassificerare: Naiva Bayes och logistisk regression. Arkiverad 24 februari 2021 på Wayback Machine Draft-versionen, 2005
↑ AY Ng och MI Jordan. Om diskriminerande vs. Generativa klassificerare: En jämförelse mellan logistisk regression och naiva Bayes. Arkiverad 4 mars 2016 på Wayback Machine i NIPS 14, 2002.
↑ RO Duda, PE Hart, DG Stork, "mönsterklassificering", Wiley, (2001). ISBN 0-471-05669-3
↑ 1 2 Guo-Xun Yuan; Chia Hua Ho; Chih Jen Lin. Senaste framstegen av storskalig linjär klassificering // Proc . IEEE : journal. - 2012. - Vol. 100 , nej. 9 .

Litteratur

Y. Yang, X. Liu, "A re-examination of text categorization", Proc. ACM SIGIR Conference, s. 42-49, (1999). paper@citeseer
R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). ISBN 0-262-08306-X