Ensemble of Methods (maskininlärning)

En ensemble av metoder inom statistik och maskininlärning använder flera tränade algoritmer för att uppnå bättre prediktiv prestanda än vad som kunde erhållas från varje träningsalgoritm separat [1] [2] [3] . Till skillnad från den statistiska ensemblen inom statistisk mekanik, som vanligtvis är oändlig, består ensemblen av metoder inom maskininlärning av en specifik finit uppsättning alternativa modeller, men tillåter vanligtvis mycket mer flexibla strukturer att existera.

Översikt

Algoritmer för övervakad inlärning beskrivs oftast som att lösa problemet med att hitta en lämplig hypotes inom hypotesens utrymme - en som gör bra förutsägelser för ett visst problem. Men att hitta en bra hypotes kan vara en svår uppgift. En ensemble av metoder använder en kombination av flera hypoteser i hopp om att det ska bli bättre än bara hypoteserna. Termen ensemble är vanligtvis reserverad för metoder som genererar flera hypoteser med samma baslärare.[ vad? ] . Den bredare uppfattningen om ett multipelt klassificeraresystem använder också flera hypoteser, men inte genererade av samma lärare. .

Att beräkna en ensembleprediktion kräver vanligtvis mer beräkning än att förutsäga en enskild modell, så ensembler kan ses som ett sätt att kompensera för en dålig inlärningsalgoritm med ytterligare beräkningar. Ensemblemetoder använder vanligtvis snabba algoritmer som beslutsträd (t.ex. random forests ), även om långsamma algoritmer också kan dra nytta av ensemblebyggande tekniker.

I analogi används ensemblemonteringstekniken också i oövervakade inlärningsscenarier , såsom konsensusklustring anomalidetektering .

Ensembleteori

Ensemblen i sig är en övervakad inlärningsalgoritm eftersom den kan tränas och sedan användas för att göra en förutsägelse. Den tränade ensemblen representerar därför en hypotes. Denna hypotes ligger dock inte nödvändigtvis i hypotesutrymmet för de modeller som den är byggd från. Således kan ensembler ha stor flexibilitet i de funktioner de kan representera. Denna flexibilitet kan i teorin leda till att de överanpassar träningsdata snabbare än en enskild modell skulle kunna, men i praktiken tenderar vissa ensemblebyggande tekniker (särskilt påsar ) att minska problemen i samband med överanpassning av träningsdata.

Empiriskt tenderar ensembler att prestera bättre om det finns en signifikant skillnad mellan modellerna [4] [5] . Många ensembler av metoder försöker därför öka skillnaden i de modeller de kombinerar [6] [7] . Även om de kanske inte är intuitiva, kan mer slumpmässiga algoritmer (som slumpmässiga beslutsträd) användas för att producera snävare ensembler än väl genomtänkta algoritmer (som beslutsträd för entropiminskning) [8] . Användningen av olika rigorösa inlärningsalgoritmer har dock visat sig vara mer effektiv än användningen av tekniker som försöker förenkla modellerna för att ge större distinktion [9] .

Ensemblestorlek

Även om antalet klassificerare i en ensemble har stor inverkan på prediktionsnoggrannheten, finns det bara ett begränsat antal artiklar som undersöker detta problem. Att a priori bestämma storleken på ensemblen och storleken på hastigheten för stora dataströmmar gör denna faktor ännu mer kritisk för online-ensembler av klassificerare. De flesta statistiska tester har använts för att bestämma lämpligt antal komponenter. På senare tid har ett teoretiskt ramverk gett upphov till antagandet att det finns ett idealiskt antal klassificerare i en ensemble, så att antalet klassificerare större än eller mindre än detta ideala antal leder till en försämring av noggrannheten. Detta kallas "lagen om minskande avkastning vid ensemblekonstruktion". Detta teoretiska ramverk visar att användning av ett antal oberoende klassificerare lika med antalet klassetiketter ger den högsta noggrannheten [10] [11] .

Vanliga typer av ensembler

Bayesisk optimal klassificerare

Bayesian optimal klassificerare är en klassificeringsteknik. Det är en ensemble av alla hypoteser från hypotesernas utrymme. I genomsnitt kan ingen av ensemblerna överskrida det [12] . Den enkla Bayesianska optimala klassificeraren är en version som antar att data är villkorligt oberoende av klassen och utför beräkningar i mer realtid. Varje hypotes ges en röst proportionell mot sannolikheten att träningsdata skulle väljas från systemet om hypotesen var sann. För att erhålla träningsdata med ändlig storlek multipliceras rösten för varje hypotes med den tidigare sannolikheten för den hypotesen. Den Bayesianska optimala klassificeraren kan uttryckas med följande likhet:

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\summa _{h_{i}\in H}{P(c_{j}|h_{i}) P(T|h_{i})P(h_{i})}

där den förutsagda klassen, är mängden av alla möjliga klasser, är klassen av hypoteser, hänvisar till sannolikhet och är träningsdata. Som en ensemble representerar den Bayesianska optimala klassificeraren en hypotes som inte nödvändigtvis tillhör . Hypotesen som representeras av den Bayesianska optimala klassificeraren är dock den optimala hypotesen i ensemblers utrymme (utrymmet för alla möjliga ensembler som endast består av rymdhypoteser ). $y$ $C$ $H$ $P$ $T$ $H$ $H$

Formeln kan skrivas om med Bayes teorem , som säger att den bakre sannolikheten är proportionell mot den tidigare sannolikheten:

P(h_{i}|T)\propto P(T|h_{i})P(h_{i})

var

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\summa _{h_{i}\in H}{P(c_{j}|h_{i}) P(h_{i}|T)}

Bagging

Bootstrap-aggregation, ofta förkortat till bagging , ger varje modell i ensemblen samma vikt (röst). För att upprätthålla variansen tränar säckar varje modell i ensemblen med en slumpmässigt vald delmängd av träningsuppsättningen. Som ett exempel kombinerar slumpmässiga skogsalgoritmen slumpmässiga beslutsträd med påsar för att erhålla hög klassificeringsnoggrannhet [13] .

Boosting

Boosting bygger upp ensemblen i successiva steg genom att träna varje ny modell för att lyfta fram träningstillfällen som tidigare modeller har felklassificerat. I vissa fall har boosting visat sig ge bättre resultat än packning, men tenderar att överanpassa träningsdata. Den vanligaste implementeringen av boosting är AdaBoost-algoritmen , även om vissa nyare algoritmer har påståtts ge bättre resultat.

Bayesiskt medelvärde

Bayesiansk parametermedelvärde (BPA) är en ensemblebyggnadsteknik som försöker approximera en Bayesiansk optimal klassificerare genom att sampla från hypotesutrymmet och kombinera dem med Bayes lag [14] . Till skillnad från den Bayesianska optimala klassificeraren kan den Bayesianska medelvärdesmodellen implementeras praktiskt. Hypoteser väljs vanligtvis med en Monte Carlo -teknik , såsom MCMC . Till exempel kan Gibbs sampling användas för att ta prov på hypoteser som representerar en fördelning . Det har visat sig att under vissa omständigheter, om hypoteser väljs på detta sätt och medelvärdesbildas enligt Bayes lag, har denna teknik ett förväntat fel som är begränsat till två gånger det förväntade felet för den Bayesianska optimala klassificeraren [15] . Trots den teoretiska riktigheten av denna teknik, föreslogs det i tidigt arbete, baserat på experimentella data, att metoden är benägen att överanpassa och beter sig sämre än enkla ensemblemonteringstekniker som påsar [16] . Dessa slutsatser baserades dock på en missuppfattning av syftet med den Bayesianska medelvärdesmodellen för en kombination av modeller [17] . Dessutom finns det betydande fördelar i teorin och praktiken av BMA. Nya rigorösa bevis visar noggrannheten av BMA för variabelt urval och uppskattning under multivariata förhållanden [18] och ger empiriska bevis för den väsentliga rollen att tillhandahålla sparsitet i BMA för att mildra överanpassning [19] . $P(T|H)$

En kombination av Bayesianska modeller

Bayesiansk modellkombination (BMC) är en algoritmisk korrigering av Bayesiansk modellmedelvärde ( BMA ) . Istället för att välja varje modell i ensemblen individuellt, väljer algoritmen från utrymmet av möjliga ensembler (med modellvikter slumpmässigt valda från en Dirichlet-fördelning med enhetliga parametrar). Denna modifiering undviker BMU:s tendens att ge hela vikten av en modell. Även om CBM är beräkningsmässigt något mer slösaktigt än MBM, ger det betydligt bättre resultat. BMS-resultat har visat sig vara bättre i genomsnitt än BMS och påsar [20] .

Att använda Bayes lag för att beräkna modellvikter innebär oundvikligen att beräkna sannolikheten för data för varje modell. Vanligtvis har ingen av modellerna i en ensemble exakt samma fördelning som träningsdata de genererades från, så alla termer får korrekt ett värde nära noll. Detta skulle fungera bra om ensemblen var tillräckligt stor för att ta prov från hela modellutrymmet, men detta är sällan möjligt. Därför får varje medlem i träningssetet att ensemblevikten skiftar mot modellen i ensemblen som ligger närmast distributionen av träningsdata. Detta minskar avsevärt behovet av en alltför komplex modellvalsmetod.

De möjliga vikterna för ensemblen kan representeras som liggande på simplexen. Vid varje hörn av simplexen ges alla vikter av en separat ensemblemodell. BMA konvergerar till en vertex som är närmare i fördelning till träningsdatan. Däremot konvergerar KBM till den punkt där denna fördelning projicerar in i simplexen. Med andra ord, istället för att välja en modell som ligger närmast fördelningen, letar metoden efter den kombination av modeller som ligger närmast fördelningen.

BMA-resultat kan ofta uppskattas med hjälp av korsvalidering för att välja en modell från en hink med modeller. På liknande sätt kan KBM-resultat approximeras genom korsvalidering för att välja den bästa kombinationen av ensembler från ett slumpmässigt urval av möjliga vikter.

Model Bucket

Bucket of models är en ensemblebyggnadsteknik som använder en modellvalsalgoritm för att få den bästa modellen för varje problem. När endast en uppgift testas, kanske hinken med modeller inte presterar bättre än den bästa modellen i uppsättningen, men om man kör för flera uppgifter ger algoritmen vanligtvis bättre resultat än någon modell i uppsättningen.

Det vanligaste tillvägagångssättet för modellval är korssampling . Det beskrivs med följande pseudokod:

För varje modell i hinken: Kör c gånger: (där 'c' är någon konstant) Vi delar upp träningsdata slumpmässigt i två uppsättningar: A och B. Tåg m på A Kontrollerar m mot B Välj den modell som kommer att visa det högsta genomsnittliga resultatet

Korssampling kan beskrivas som: ”kör allt på träningssetet och välj det som fungerar bäst” [21] .

Gating är en generalisering av korssampling. Metoden går ut på att träna en annan inlärningsmodell för att avgöra vilken av modellerna i hinken som är bäst för att lösa problemet. Ofta används en perceptron för att isolera modellen . Den kan användas för att välja den "bästa" modellen, eller så kan den användas för att få en linjär vikt för förutsägelserna från varje modell i hinken.

När en modellskopa används med en stor uppsättning uppgifter kan det vara önskvärt att undvika att träna vissa modeller som kräver lång träningstid. Landmark learning är ett meta-lärande tillvägagångssätt som försöker lösa detta problem. Den tränar bara snabba (men felaktiga) algoritmer och använder sedan dessa algoritmers prestanda för att avgöra vilken av de långsamma (men exakta) algoritmerna som ska väljas som bäst [22] .

Stapling

Stacking (kallas ibland stackgeneralisering ) innebär att man tränar en inlärningsalgoritm för att kombinera förutsägelserna från flera andra inlärningsalgoritmer. Först tränas alla andra algoritmer med giltig data, sedan tränas de kombinerande algoritmerna för att göra en slutlig förutsägelse med alla de andra algoritmernas förutsägelser som en extra ingång. Om en godtycklig kombinationsalgoritm används kan stapling teoretiskt representera vilken som helst av ensembleteknikerna som beskrivs i denna artikel, även om i praktiken ofta en logistisk regressionsmodell används som ett verktyg för kombinationsalgoritmen.

Stapling ger generellt bättre prestanda än någon av träningsmönstren ensam [23] . Det har framgångsrikt använts både i övervakade inlärningsproblem (regression [24] , klassificering och distansundervisning [25] ) och oövervakade inlärningsproblem (densitetsuppskattning) [26] . Den har också använts för att uppskatta säckfelet [3] [27] . Metoden påstods överträffa den Bayesianska medelvärdesmodellen [28] . De två vinnarna av Netflix-tävlingen använder blending , som kan betraktas som en form av stapling [29] .

Implementering i statistikpaket

R : Minst tre paket erbjuder faciliteter för Bayesian Averaging Model [30] , inklusive BMS -paketet (förkortning för Bayesian Model Selection) [31] , BAS -paketet (förkortning för Bayesian Adaptive Sampling) [32] och BMA -paketet [33] . H2O-paketet erbjuder ett stort antal maskininlärningsmodeller, inklusive en ensemblemonteringsmodell som kan tränas med Spark .
Python : Scikit-learn , ett Python-maskininlärningspaket, erbjuder paket för ensembleinlärning, inklusive paket för packning och medelvärdesberäkningsmetoder.
MATLAB : Ensembler av klassificerare är implementerade i verktygslådan för statistik och maskininlärning [34] .

Ensemble Learning Applications

Under de senaste åren, på grund av den växande beräkningskraften som tillåter träning av stora träningsutbildningsensembler inom rimlig tid, har antalet ansökningar vuxit snabbt [35] . Några av tillämpningarna för klassificeringsensembler ges nedan.

Fjärranalys av jorden

Vegetationsreflektion

Vegetationsreflektion är en av de viktigaste tillämpningarna för jordobservation , med hjälp av fjärranalys och geografiska data för att känna igen objekt som finns på ytan av målområden. Typiskt inkluderar målmaterialklasser vägar, byggnader, floder, sjöar och vegetation [36] . Några olika tillvägagångssätt har föreslagits för träning av ensembler baserade påartificiella neurala nätverk [37] , kärnans huvudkomponentanalys ( KPCA ) [38] , förstärkta beslutsträd [ 39] , slumpmässiga skogar [36] och automatiskt skapande av flera klassificerare system [40] för effektiv igenkänning av vegetationstäckningsobjekt .

Ändringsdetektering

Ändringsdetektering är en bildanalysuppgift [ som består av att identifiera platser där vegetationstäcket har förändrats över tiden. Förändringsdetektering används ofta i områden som urban tillväxt , skog och växtlighet förändringsdynamik , markanvändning och upptäckt av naturkatastrofer [41] . Tidiga tillämpningar av ensembler av klassificerare för att bestämma förändring utvecklades med hjälp av majoritetsomröstning , Bayesian medelvärde och posterior maximal uppskattning [42] .

Datorskydd

DoS-attack

En distribuerad denial of service-attack är en av de mest hotfulla cyberattackerna som kan hända en ISP [35] . Genom att kombinera utdata från individuella klassificerare minskar en ensemble av klassificerare det övergripande felet i att upptäcka och separera sådana attacker från legitima flashmobs [43] .

Detektering av skadlig programvara

Klassificering av skadlig kod som datavirus , maskar , trojaner , ransomware och spionprogram med hjälp av maskininlärningstekniker är inspirerad av uppgiften att kategorisera dokument [44] . Ensembleinlärningssystem har visat robusta prestanda inom detta område [45] [46] .

Intrångsdetektering

Ett intrångsdetekteringssystem spårar ett eller flera datornätverk för att identifiera intrångskoder, liknande en anomalidetekteringsprocess . Ensembleträning har varit framgångsrik i att hjälpa sådana system att minska det totala antalet fel [47] [48] .

Ansiktsigenkänning

Ansiktsigenkänning , som nyligen har blivit det mest populära forskningsområdet inom mönsterigenkänning , handlar om att identifiera eller verifiera en person från hans/hennes digitala bild [49] .

Hierarkiska ensembler baserade på Gabor Fischer-klassificeraren och dataförbehandlingstekniker i oberoende komponentanalys är några tidiga ensembler som används inom detta område [50] [51] [52] .

Känsloigenkänning

Medan taligenkänning huvudsakligen är baserad på djupinlärning , eftersom de flesta branschaktörer inom detta område, såsom Google , Microsoft och IBM använder det som grunden för taligenkänningsteknik , kan konversationsbaserad känslomässig igenkänning prestera tillfredsställande . med ensembleinlärning [ 53] [54] .

Metoden har också framgångsrikt använts i ansiktsigenkänning [ 55] [56] [57] .

Bedrägeriupptäckt

Bedrägeriupptäckt handlar om identifiering av bankbedrägerier såsom penningtvätt , betalkortsbedrägerier och telekommunikationsbedrägerier. Bedrägeriupptäckt har gott om utrymme för forskning och tillämpning av maskininlärning . Eftersom ensembleinlärning förbättrar robustheten hos normalt simuleringsbeteende, har det föreslagits som en effektiv teknik för att upptäcka sådana fall av bedrägeri och misstänkt bankverksamhet i kreditkortssystem [58] [59] .

Att fatta ekonomiska beslut

Noggrannheten i att förutsäga kommersiella misslyckanden är en kritisk fråga för att fatta finansiella beslut, så olika ensembler av klassificerare har föreslagits för att förutsäga finansiella kriser och finansiella kollapser [60] . Även i det budbaserade manipulationsproblemet , där handlare försöker manipulera aktiekurser genom att köpa eller sälja, krävs en ensemble av klassificerare för att analysera förändringar i aktiemarknadsdata och identifiera symptom på misstänkt aktiekursmanipulation [ 60 ] .

Medicin

Klassificeringssystemet har framgångsrikt tillämpats inom neurovetenskap , proteomik och medicinsk diagnostik , såsom igenkänning av neurokognitiva störningar (d.v.s. Alzheimers sjukdom eller myotonisk dystrofi ) baserat på data från magnetisk resonanstomografi [61] [62] [63] eller klassificering cervikal cytologi baserad på mikroskopi [64] [65] .

Se även

Ensemblemedelvärde (maskininlärning)
Bayesian Structural Time Series (BSTS)

Anteckningar

↑ Opitz, Maclin, 1999 , sid. 169-198.
↑ Polikar, 2006 , sid. 21-45.
↑ 1 2 Rokach, 2010 , sid. 1-39.
↑ Kuncheva, Whitaker, 2003 , sid. 181-207.
↑ Sollich och Krogh 1996 , sid. 190-196, 1996.
↑ Brown, Wyatt, Harris, Yao, 2005 , sid. 5-20.
↑ Adeva, Cerviño, Calvo, 2005 .
↑ Ho, 1995 , sid. 278-282.
↑ Gashler, Giraud-Carrier, Martinez, 2008 , sid. 900-905.
↑ Bonab, Can, 2016 , sid. 2053.
↑ Bonab, Can, 2017 .
↑ Mitchell, 1997 , sid. 175.
↑ Breiman, 1996 , sid. 123-140.
↑ Hoeting, Madigan, Raftery, Volinsky, 1999 , sid. 382–401.
↑ Haussler, Kearns, Schapire, 1994 , sid. 83–113.
↑ Domingos, 2000 , sid. 223–230.
↑ Minka, 2002 .
↑ Castillo, Schmidt-Hieber, van der Vaart, 2015 , sid. 1986–2018
↑ Hernandez-Lobato, Hernandez-Lobato, Dupont, 2013 , sid. 1891–1945
↑ Monteith, Carroll, Seppi, Martinez, 2011 , sid. 2657-2663.
↑ Dzeroski, Zenko, 2004 , sid. 255-273.
↑ Bensusan, Giraud-Carrier, 2000 , sid. 325-330.
↑ Wolpert, 1992 , sid. 241-259.
↑ Breiman, 1996 .
↑ Ozay, Vural, 2013 .
↑ Smyth, Wolpert, 1999 , sid. 59-83.
↑ Wolpert, Macready, 1999 , sid. 41-55.
↑ Clarke, 2003 , sid. 683-712.
↑ Sill, Takacs, Mackey, Lin, 2009 .
↑ Amini, Parmeter, 2011 , sid. 253–287.
↑ BMS: Bayesianskt modellmedelvärdebibliotek . The Comprehensive R Archive Network . Hämtad 9 september 2016. Arkiverad från originalet 28 november 2020. (obestämd)
↑ BAS: Bayesian modellmedelvärde med Bayesian adaptiv sampling . The Comprehensive R Archive Network . Hämtad 9 september 2016. Arkiverad från originalet 7 oktober 2020. (obestämd)
↑ BMA: Bayesianskt modellmedelvärde . The Comprehensive R Archive Network . Hämtad 9 september 2016. Arkiverad från originalet 7 maj 2021. (obestämd)
↑ Klassificeringensembler . MATLAB & Simulink . Hämtad 8 juni 2017. Arkiverad från originalet 1 december 2020. (obestämd)
↑ 1 2 Woźniak, Graña, Corchado, 2014 , sid. 3–17.
↑ 1 2 Rodriguez-Galiano, Ghimire, Rogan et al., 2012 , sid. 93–104.
↑ Giacinto, Roli, 2001 , sid. 699–707.
↑ Xia, Yokoya, Iwasaki, 2017 , sid. 6185-6189.
↑ Mochizuki, Murakami, 2012 , sid. 126-133.
↑ Giacinto, Roli, Fumera, 2000 , sid. 160-163.
↑ Du, Liu, Xia, Zhao, 2013 , sid. 19–27.
↑ Bruzzone, Cossu, Vernazza, 2002 , sid. 289–297.
↑ Raj Kumar, Selvakumar, 2011 , sid. 1328–1341.
↑ Shabtai, Moskovitch, Elovici, Glezer, 2009 , sid. 16–29.
↑ Zhang, Yin, Hao, Zhang, Wang, 2007 , sid. 468-477.
↑ Menahem, Shabtai, Rokach, Elovici, 2009 , sid. 1483–1494
↑ Locasto, Wang, Keromytis, Salvatore, 2005 , sid. 82-101.
↑ Giacinto, Perdisci, Del Rio, Roli, 2008 , sid. 69–82.
↑ Mu, Lu, Watta, Hassoun, 2009 .
↑ Yu, Shan, Chen, Gao, 2006 , sid. 91-96.
↑ Yu, Shan, Chen, Gao, 2006 , sid. 528-531.
↑ Liu, Lin, Chen, 2008 , sid. 144-148.
↑ Rieger, Muraleedharan, Ramachandran, 2014 , sid. 589-593.
↑ Krajewski, Batliner, Kessel, 2010 , sid. 3716-3719.
↑ Rani, Muneeswaran, 2016 , sid. 10017–10040.
↑ Rani, Muneeswaran, 2016 , sid. 1655020.
↑ Rani, Muneeswaran, 2018 .
↑ Louzada, Ara, 2012 , sid. 11583–11592.
↑ Sundarkumar, Ravi, 2015 , sid. 368–377.
↑ 1 2 Kim och Sohn, 2012 , sid. 8986–8992.
↑ Savio, García-Sebastián, Chyzyk et al., 2011 , sid. 600–610.
↑ Ayerdi, Savio, Graña, 2013 , sid. 122-130.
↑ Gu, Ding, Zhang, 2015 , sid. 110–118.
↑ Dan Xue, Xiaomin Zhou, Chen Li, Yudong Yao, Md Mamunur Rahaman. En tillämpning av Transfer Learning och Ensemble Learning Techniques for Cervical Histopathology Image Classification // IEEE Access. - 2020. - T. 8 . — S. 104603–104618 . — ISSN 2169-3536 . - doi : 10.1109/ACCESS.2020.2999816 . Arkiverad från originalet den 31 augusti 2021.
↑ Ankur Manna, Rohit Kundu, Dmitrii Kaplun, Alexander Sinitca, Ram Sarkar. En luddig rangbaserad ensemble av CNN-modeller för klassificering av cervikal cytologi // Scientific Reports. — 2021-12. — Vol. 11 , iss. 1 . — S. 14538 . — ISSN 2045-2322 . - doi : 10.1038/s41598-021-93783-8 . Arkiverad från originalet den 31 augusti 2021.

Litteratur

Opitz D., Maclin R. Populära ensemblemetoder: En empirisk studie // Journal of Artificial Intelligence Research . - 1999. - T. 11 . - S. 169-198 . - doi : 10.1613/jair.614 .
Polikar R. Ensemblebaserade system i beslutsfattande // IEEE Circuits and Systems Magazine. - 2006. - T. 6 , nr. 3 . - S. 21-45 . - doi : 10.1109/MCAS.2006.1688199 .
Rokach L. Ensemblebaserade klassificerare // Artificial Intelligence Review. - 2010. - T. 33 , nr. 1-2 . - doi : 10.1007/s10462-009-9124-7 .
Kuncheva L., Whitaker C. Mått på mångfald i klassificerande ensembler och deras förhållande till ensemblen Precision // Machine Learning. - 2003. - T. 51 , nr. 2 .
Sollich P., Krogh A. Lärande med ensembler: Hur överanpassning kan vara användbart // Advances in Neural Information Processing Systems. - 1996. - T. 8 .
Brown G., Wyatt J., Harris R., Yao X. Metoder för att skapa mångfald: en undersökning och kategorisering // Information Fusion. - 2005. - T. 6 , nr. 1 .
JJ Garcia Adeva, Ulises Cerviño, R. Calvo. Noggrannhet och mångfald i ensembler av textkategorier // CLEI Journal. - 2005. - December ( vol. 8 , nummer 2 ). Arkiverad från originalet den 7 juli 2011.
Ho T. Random Decision Forests // Proceedings of the Third International Conference on Document Analysis and Recognition. — 1995.
Gashler M., Giraud-Carrier C., Martinez T. Decision Tree Ensemble: Small Heterogeneous Is Better Than Large Homogeneous // Den sjunde internationella konferensen om maskininlärning och tillämpningar . - 2008. - doi : 10.1109/ICMLA.2008.154 .
Hamed R. Bonab, Fazli Can. Ett teoretiskt ramverk om det ideala antalet klassificerare för onlineensembler i dataströmmar // 25:e konferensen om informations- och kunskapshantering . — USA: ACM, 2016. — doi : 10.1145/2983323.2983907 .
Hamed R. Bonab, Fazli Can. Less Is More: A Comprehensive Framework for the Number of Components of Ensemble Classifiers // IEEE Transactions on Neural Networks and Learning Systems 2017 . USA: IEEE, 2017.
Tom M. Mitchell . maskininlärning. - McGraw-Hill Science/Engineering/Math, 1997. - ISBN 0070428077 .
Breiman, L. Bagging Predictors // Machine Learning. - 1996. - T. 24 , nr. 2 .
Hoeting JA, Madigan D., Raftery AE, Volinsky CT Bayesian Model Averaging: A Tutorial // Statistical Science. - 1999. - T. 14 , nr. 4 . - doi : 10.2307/2676803 . — .
David Haussler, Michael Kearns, Robert E. Schapire. Gränser för provkomplexiteten av Bayesiansk inlärning med hjälp av informationsteori och VC-dimensionen // Machine Learning. - 1994. - T. 14 .
Pedro Domingos. Bayesiansk medelvärde av klassificerare och överanpassningsproblemet // Proceedings of the 17th International Conference on Machine Learning (ICML) . - 2000. - S. 223--230.
Thomas Minka. Bayesiansk modellmedelvärde är inte en modellkombination . – 2002.
Castillo I., Schmidt-Hieber J., van der Vaart A. Bayesisk linjär regression med glesa priors // Annals of Statistics . - 2015. - T. 43 , nr. 5 . - doi : 10.1214/15-AOS1334 . - arXiv : 1403.0735 .
Hernández-Lobato D., Hernández-Lobato JM, Dupont P. Generaliserade Spike-and-Slab Priors för Bayesian Group Feature Selection Using Expectation Propagation // Journal of Machine Learning Research. - 2013. - T. 14 .
Att förvandla Bayesiansk modellmedelvärde till Bayesiansk modellkombination // Proceedings of the International Joint Conference on Neural Networks IJCNN'11 . - 2011. - S. 2657-2663.
Saso Dzeroski, Bernard Zenko. Är det bättre att kombinera klassificerare än att välja den bästa // Machine Learning. – 2004.
Hilan Bensusan, Christophe G. Giraud-Carrier. Discovering Task Neighborhoods Through Landmark Learning Performances // PKDD '00: Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery. — Springer-Verlag, 2000.
Smyth P., Wolpert DH Linearly Combining Density Estimators via Stacking // Machine Learning Journal. - 1999. - T. 36 .
Wolpert DH, Macready WG En effektiv metod för att uppskatta Baggings generaliseringsfel // Machine Learning Journal. - 1999. - T. 35 .
Clarke B. Bayes modellmedelvärde och stapling när modellapproximationsfel inte kan ignoreras // Journal of Machine Learning Research. – 2003.
Wolpert D. Stacked Generalization // Neural Networks. - 1992. - V. 5 , nr. 2 .
Breiman L. Stacked Regression // Machine Learning. - 1996. - T. 24 . - doi : 10.1007/BF00117832 .
Ozay M., Yarman Vural FT En ny fuzzy staplad generaliseringsteknik och analys av dess prestanda. - 2013. - . - arXiv : 1204.0171 .
Sill J., Takacs G., Mackey L., Lin D. Funktionsvägd linjär stapling. - 2009. - . - arXiv : 0911.0460 .
Shahram M. Amini, Christopher F. Parmeter. Bayesiansk modell i genomsnitt i R // Journal of Economic and Social Measurement. - 2011. - T. 36 , nr. 4 .
Michał Woźniak, Manuel Graña, Emilio Corchado. En undersökning av multipla klassificeringssystem som hybridsystem // Information Fusion. - 2014. - Mars ( vol. 16 ). - doi : 10.1016/j.inffus.2013.04.006 .
Rodriguez-Galiano VF, Ghimire B., Rogan J., Chica-Olmo, M., Rigol-Sanchez JP En bedömning av effektiviteten av en slumpmässig skogklassificerare för marktäckningsklassificering // ISPRS Journal of Photogrammetry and Remote Sensing. - 2012. - T. 67 . - doi : 10.1016/j.isprsjprs.2011.11.002 . — .
Giorgio Giacinto, Fabio Roli. Design av effektiva neurala nätverksensembler för bildklassificeringsändamål // Image and Vision Computing. - 2001. - Augusti ( vol. 19 , nummer 9-10 ). - doi : 10.1016/S0262-8856(01)00045-2 .
Junshi Xia, Naoto Yokoya, Yakira Iwasaki. En ny ensembleklassificerare av hyperspektral och LiDAR-data med hjälp av morfologiska egenskaper // 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - 2017. - Mars. - doi : 10.1109/ICASSP.2017.7953345 .
Mochizuki S., Murakami T. Noggrannhetsjämförelse av kartläggning av landtäcke med den objektorienterade bildklassificeringen med maskininlärningsalgoritmer // 33rd Asian Conference on Remote Sensing 2012, ACRS 2012. - 2012. - November ( vol. 1 ).
Giacinto G., Roli F., Fumera G. Design av effektiva multipla klassificerare system genom klustring av klassificerare // Proceedings 15th International Conference on Pattern Recognition. ICPR-2000. - 2000. - September. - doi : 10.1109/ICPR.2000.906039 .
Peijun Du, Sicong Liu, Junshi Xia, Yindi Zhao. Informationsfusionstekniker för förändringsdetektering från multitemporala fjärranalysbilder // Information Fusion. - 2013. - Januari ( vol. 14 , nummer 1 ). - doi : 10.1016/j.inffus.2012.05.003 .
Lorenzo Bruzzone, Roberto Cossu, Gianni Vernazza. Kombinera parametriska och icke-parametriska algoritmer för en delvis oövervakad klassificering av multitemporala fjärravkänningsbilder // Information Fusion. - 2002. - December ( vol. 3 , nummer 4 ). - doi : 10.1016/S1566-2535(02)00091-X .
P. Arun Raj Kumar, S. Selvakumar. Distribuerad denial of service-attackdetektering med hjälp av en ensemble av neurala klassificerare // Computer Communications. - 2011. - Juli ( vol. 34 , nummer 11 ). - doi : 10.1016/j.comcom.2011.01.012 .
Asaf Shabtai, Robert Moskovitch, Yuval Elovici, Chanan Glezer. Detektering av skadlig kod genom att tillämpa maskininlärningsklassificerare på statiska funktioner: En toppmodern undersökning // Teknisk rapport för informationssäkerhet. - 2009. - Februari ( vol. 14 , nummer 1 ). - doi : 10.1016/j.istr.2009.03.003 .
Boyun Zhang, Jianping Yin, Jingbo Hao, Dingxing Zhang, Shulin Wang. Detektering av skadliga koder baserat på ensembleinlärning // Autonomic and Trusted Computing. - 2007. - doi : 10.1007/978-3-540-73547-2_48 .
Eitan Menahem, Asaf Shabtai, Lior Rokach, Yuval Elovici. Förbättra upptäckt av skadlig programvara genom att använda multi-inducer-ensemble // Computational Statistics & Data Analysis. - 2009. - Februari ( vol. 53 , nummer 4 ). - doi : 10.1016/j.csda.2008.10.015 .
Michael E. Locasto, Ke Wang, Angeles D. Keromytis, J. Stolfo Salvatore. FLIPS: Hybrid Adaptive Intrusion Prevention // Senaste framstegen inom intrångsdetektion. - 2005. - doi : 10.1007/11663812_5 .
Giorgio Giacinto, Roberto Perdisci, Mauro Del Rio, Fabio Roli. Intrångsdetektering i datornätverk av en modulär ensemble av klassificerare i en klass // Information Fusion. - 2008. - Januari ( vol. 9 , nummer 1 ). - doi : 10.1016/j.inffus.2006.10.002 .
Xiaoyan Mu, Jiangfeng Lu, Paul Watta, Mohamad H. Hassoun. Viktade röstningsbaserade ensembleklassificerare med tillämpning på ansiktsigenkänning och röstigenkänning // 2009 International Joint Conference on Neural Networks. - 2009. - Juli. - doi : 10.1109/IJCNN.2009.5178708 .
Su Yu, Shiguang Shan, Xilin Chen, Wen Gao. Hierarkisk ensemble av Gabor Fisher klassificerare för ansiktsigenkänning // Automatic Face and Gesture Recognition, 2006. FGR 2006. 7th International Conference on Automatic Face and Gesture Recognition (FGR06). - 2006. - April. - doi : 10.1109/FGR.2006.64 .
Su Yu, Shiguang Shan, Xilin Chen, Wen Gao. Patch-baserad gabor fisher klassificerare för ansiktsigenkänning // Proceedings - International Conference on Pattern Recognition. - 2006. - September ( vol. 2 ). - doi : 10.1109/ICPR.2006.917 .
Yang Liu, Yongzheng Lin, Yuehui Chen. Ensembleklassificering baserad på ICA för ansiktsigenkänning // Proceedings - 1st International Congress on Image and Signal Processing, IEEE Conference, CISP 2008. - 2008. - Juli. - doi : 10.1109/CISP.2008.581 .
Steven A. Rieger, Rajani Muraleedharan, Ravi P. Ramachandran. Talbaserad känslomässig igenkänning med hjälp av spektralfunktionsextraktion och en ensemble av kNN-klassificerare // Proceedings of the 9th International Symposium on Chinese Spoken Language Processing, ISCSLP 2014. - 2014. - doi : 10.1109/ISCSLP.2014.6936711 .
Jarek Krajewski, Anton Batliner, Silke Kessel. Jämföra flera klassificerare för talbaserad upptäckt av självförtroende - En pilotstudie // 20:e internationella konferensen om mönsterigenkänning. - 2010. - doi : 10.1109/ICPR.2010.905 .
P. Ithaya Rani, K. Muneeswaran. Känn igen ansiktskänslan i videosekvenser med hjälp av ögon och mun temporal Gabor-funktioner // Multimediaverktyg och applikationer. - 2016. - Maj ( vol. 76 , nummer 7 ). - doi : 10.1007/s11042-016-3592-y .
P. Ithaya Rani, K. Muneeswaran. Ansiktsigenkänning baserat på ögon- och munregioner // International Journal of Pattern Recognition and Artificial Intelligence. - 2016. - Augusti ( vol. 30 , nummer 07 ). - doi : 10.1142/S021800141655020X .
P. Ithaya Rani, K. Muneeswaran. Känsloigenkänning baserat på ansiktskomponenter // Sādhanā. - 2018. - Mars ( vol. 43 , nummer 3 ). - doi : 10.1007/s12046-018-0801-6 .
Francisco Louzada, Anderson Ara. Bagging k-beroende probabilistiska nätverk: Ett alternativt kraftfullt verktyg för att upptäcka bedrägerier // Expertsystem med applikationer. - 2012. - Oktober ( vol. 39 , nummer 14 ). - doi : 10.1016/j.eswa.2012.04.024 .
G. Ganesh Sundarkumar, Vadlamani Ravi. En ny hybrid undersamplingsmetod för att utvinna obalanserade datamängder inom bank och försäkring // Engineering Applications of Artificial Intelligence. - 2015. - Januari ( vol. 37 ). - doi : 10.1016/j.engappai.2014.09.019 .
Yoonseong Kim, So Young Sohn. Detektering av aktiebedrägerier med hjälp av gruppanalys // Expertsystem med applikationer. - 2012. - Augusti ( vol. 39 , nummer 10 ). - doi : 10.1016/j.eswa.2012.02.025 .
Yoonseong Kim, So Young Sohn. Detektering av aktiebedrägerier med hjälp av gruppanalys // Expertsystem med applikationer. - 2012. - Augusti ( vol. 39 , nummer 10 ). - doi : 10.1016/j.eswa.2012.02.025 .
Savio A., García-Sebastián MT, Chyzyk D., Hernandez C., Graña M., Sistiaga A., López de Munain A., Villanúa J. Detektion av neurokognitiv störning baserad på funktionsvektorer extraherade från VBM-analys av strukturell MRI // Datorer i biologi och medicin. - 2011. - Augusti ( vol. 41 , nummer 8 ). - doi : 10.1016/j.compbiomed.2011.05.010 .
Ayerdi B., Savio A., Graña M. Meta-ensembler av klassificerare för upptäckt av Alzheimers sjukdom med hjälp av oberoende ROI-funktioner // Lecture Notes in Computer Science (inklusive underserier Lecture Notes in Artificial Intelligence och Lecture Notes in Bioinformatics). - 2013. - Juni ( nummer Del 2 ). - doi : 10.1007/978-3-642-38622-0_13 .
Quan Gu, Yong-Sheng Ding, Tong-Liang Zhang. En ensembleklassificerare baserad förutsägelse av G-proteinkopplade receptorklasser i låg homologi // Neurocomputing. - 2015. - April ( vol. 154 ). - doi : 10.1016/j.neucom.2014.12.013 .

Läsning för vidare läsning

Zhou Zhihua. Ensemblemetoder: Grunder och algoritmer. - Chapman och Hall/CRC, 2012. - ISBN 978-1-439-83003-1 .
Robert Schapire, Yoav Freund. Boosting: Grunder och algoritmer. - MIT, 2012. - ISBN 978-0-262-01718-3 .

Länkar

Waffles system som innehåller implementeringar av Bagging, Boosting, Bayesian Model Averaging, Bayesian Combination of Models, Model Bucket och andra monteringstekniker.

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-nät Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG