Slumpmässig skogsmetod

Random forest-metoden är en maskininlärningsalgoritm som föreslagits av Leo Breiman [1] [2] och Adele Cutler , som består i att använda en kommitté (ensemble) av beslutsträd . Algoritmen kombinerar två huvudidéer: Breiman bagging- metoden och den slumpmässiga subspace-metoden .föreslagit av Tin Kam Ho. Algoritmen används för klassificering, regression och klustringsproblem. Huvudtanken är att använda en stor ensemble av beslutsträd , som var och en i sig ger en mycket låg klassificeringskvalitet, men på grund av deras stora antal blir resultatet bra.

Inlärningsalgoritm för klassificerare

Låt träningsuppsättningen bestå av N sampel, dimensionen av funktionsutrymmet är M och parametern m (vanligtvis i klassificeringsproblem ) ges som ett ofullständigt antal funktioner för inlärning. $m\approx {\sqrt {M}}$

Det vanligaste sättet att bygga ensembleträd - bagging ( eng. bagging , förkortning för eng. bootstrap aggregation) - görs på följande sätt:

Låt oss generera ett slumpmässigt upprepat delprov av storlek från träningsprovet. Vissa prover kommer att falla in i det två eller flera gånger, medan i genomsnitt (för stora ungefär , var är basen för den naturliga logaritmen ) prover inte ingår i uppsättningen eller inte är valda ( engelska out-of-bag ). $N$ ${\displaystyle N(1-1/N)^{N))$ $N$ $N/e$ $e$
Låt oss bygga ett beslutsträd som klassificerar proverna av detta delprov, och under loppet av att skapa nästa nod i trädet kommer vi att välja en uppsättning funktioner på basis av vilka uppdelningen görs (inte från alla M funktioner , men endast från m slumpmässigt utvalda). Valet av det bästa av dessa m funktioner kan göras på olika sätt. Breimans ursprungliga metod använder Gini-kriteriet , som också används i CART- beslutsträdsalgoritmen . I vissa implementeringar av algoritmen används istället informationsvinstkriteriet . [3]
Trädet byggs tills delprovtagningen är helt uttömd och utsätts inte för beskärningsproceduren ( eng. beskärning - skära av grenar), i motsats till beslutsträden för algoritmer som CART eller C4.5 .

Klassificeringen av objekt utförs genom omröstning: varje träd i kommittén tilldelar objektet som klassificeras till en av klasserna, och den klass som har det största antalet röstade träd vinner.

Det optimala antalet träd väljs på ett sådant sätt att klassificeringsfelet på testprovet minimeras. Om den saknas minimeras feluppskattningen på prover som inte ingår i uppsättningen.

Bedöma betydelsen av variabler

Slumpmässiga skogar som erhållits med ovan beskrivna metoder kan naturligtvis användas för att utvärdera betydelsen av variabler i regressions- och klassificeringsproblem . Följande sätt för sådan uppskattning beskrevs av Breiman.

Det första steget i att utvärdera betydelsen av en variabel i en träningsuppsättning är att träna en slumpmässig skog på den uppsättningen. Under modellbyggnadsprocessen registreras ett så kallat out-of-bag-fel för varje element i träningssetet. ${\mathcal {D}}_{n}=\{(X_{i},Y_{i})\}_{i=1}^{n}$ (fel om ovalda objekt). Sedan, för varje entitet, beräknas medelvärdet av detta fel över hela den slumpmässiga skogen.

För att utvärdera vikten av den -th parametern efter träning, blandas värdena för den -th parametern för alla poster i träningsuppsättningen och out-of-bag-felet beräknas igen. Vikten av parametern uppskattas genom att medelvärdet av skillnaden i out-of-bag felfrekvens över alla träd före och efter blandning av värdena. I det här fallet är värdena för sådana fel normaliserade till standardavvikelsen . $j$ $j$

Exempelparametrar som ger större värden anses vara viktigare för träningsuppsättningen. Metoden har en potentiell nackdel - för kategoriska variabler med ett stort antal värden tenderar metoden att betrakta sådana variabler som viktigare. Partiell blandning av värden i detta fall kan minska påverkan av denna effekt. [4] [5] Från grupperna av korrelerade parametrar, vars betydelse visar sig vara densamma, väljs de mindre grupperna. [6]

Fördelar

Möjligheten att effektivt bearbeta data med ett stort antal funktioner och klasser.
Okänslighet för skalning (och i allmänhet för alla monotona transformationer) av funktionsvärden.
Både kontinuerliga och diskreta funktioner bearbetas lika bra. Det finns metoder för att konstruera träd från data med saknade funktionsvärden.
Det finns metoder för att uppskatta betydelsen av enskilda egenskaper i en modell.
Intern bedömning av modellens förmåga att generalisera (test på icke valda prover).
Hög parallelliserbarhet och skalbarhet .

Nackdelar

Den stora storleken på de resulterande modellerna. Minne krävs för att lagra modellen, där är antalet träd. $O(K)$ $K$

Användning i vetenskapliga artiklar

Algoritmen används i vetenskapliga artiklar, till exempel för att utvärdera kvaliteten på Wikipedia- artiklar [7] [8] [9] .

Anteckningar

↑ Breiman, Leo . Random Forests // Machine Learning : journal. - 2001. - Vol. 45 , nr. 1 . - S. 5-32 . - doi : 10.1023/A:1010933404324 . (engelska) (åtkomstdatum: 7 juni 2009)
↑ Algoritmbeskrivning på Leo Breimans hemsida Arkiverad 22 juni 2008. (engelska) (åtkomstdatum: 7 juni 2009)
↑ En beskrivning av trädbyggnadsproceduren som används i Apache Mahout Arkiverad 13 maj 2012 på Wayback Machine ( Åtkomst 7 juni 2009)
↑ Deng, H.; Runger, G.; Tuv, E. (2011). Bias av betydelse för attribut och lösningar med flera värden . Handlingar från den 21:a internationella konferensen om artificiella neurala nätverk (ICANN). pp. 293-300.
↑ Altmann A., Tolosi L., Sander O., Lengauer T. Permutation essential:a corrected feature important measure (engelska) // Bioinformatics: journal. - 2010. - doi : 10.1093/bioinformatics/btq134 .
↑ Tolosi L., Lengauer T. Klassificering med korrelerade egenskaper: opålitlighet i funktionsrankning och lösningar. (engelska) // Bioinformatik: tidskrift. - 2011. - doi : 10.1093/bioinformatics/btr300 .
↑ Węcel K., Lewoniewski W. Modellering av kvaliteten på attribut i Wikipedia infoboxar // Föreläsningsanteckningar i affärsinformationsbehandling: journal. - 2015. - 2 december ( vol. 228 ). - S. 308-320 . - doi : 10.1007/978-3-319-26762-3_27 .
↑ Lewoniewski W., Węcel K., Abramowicz W. Kvalitet och betydelse för Wikipedia-artiklar på olika språk // Informations- och mjukvaruteknik. ICIST 2016. Communications in Computer and Information Science: tidskrift. - 2016. - 22 september ( vol. 639 ). - s. 613-624 . - doi : 10.1007/978-3-319-46254-7_50 .
↑ Warncke-Wang M., Cosley D., Riedl J. Tell me more: An actionable quality model for wikipedia // WikiSym '13 Proceedings of the 9th International Symposium on Open Collaboration : journal. - 2013. - doi : 10.1145/2491055.2491063 .

Litteratur

Hastie, T., Tibshirani R., Friedman J. Kapitel 15. Random Forests // Elementen för statistiskt lärande: Data Mining, Inferens och Prediction . — 2:a uppl. - Springer-Verlag, 2009. - 746 sid. - ISBN 978-0-387-84857-0 . .

Länkar

Genomföranden

Författarens implementering av Breiman och Cutler i Fortran 77
RandomForest - paketet för R är en portad version av den ursprungliga författarens kod i R
Partypaketet för R innehåller en modifiering av algoritmen
Implementering av modifieringen av algoritmen på alglib.sources.ru
FastRandomForest
Apache Mahout Arkiverad 2 april 2015 på Wayback Machine .

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-Net Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG