C4.5

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 26 maj 2021; verifiering kräver 1 redigering .

C4.5  är en algoritm för att bygga beslutsträd , utvecklad av John Quinlan ( eng.  John Ross Quinlan ). C4.5 är en förbättrad version av ID3-algoritmen av samma författare. I synnerhet lades beskärning till i den nya versionen ,  möjligheten att arbeta med numeriska attribut och möjligheten att bygga ett träd från ett ofullständigt träningsprov som saknar värden för vissa attribut.

Datakrav

För att kunna bygga och tillämpa ett beslutsträd med C4.5 måste data uppfylla flera villkor.

Information om objekten som ska klassificeras bör presenteras som en ändlig uppsättning funktioner ( attribut ), som var och en har ett diskret eller numeriskt värde. Låt oss kalla en sådan uppsättning attribut för ett exempel . För alla exempel måste antalet attribut och deras sammansättning vara konstant.

Uppsättningen klasser som exemplen ska delas in i måste ha ett ändligt antal element, och varje exempel måste unikt referera till en viss klass. För fall av fuzzy logic , där exemplen tillhör en klass med viss sannolikhet, är C4.5 inte tillämpligt.

I träningsexemplet bör antalet exempel vara mycket större än antalet klasser, och varje exempel ska vara kopplat till sin klass i förväg. Av denna anledning är C4.5 en variant av övervakad maskininlärning .

Bygga ett träd

Låt oss vara ett träningsexempel  och vara  en uppsättning klasser som består av element. För varje exempel från är dess tillhörighet till någon av klasserna känd .

Konstruktionen av ett beslutsträd med C4.5-algoritmen skiljer sig inte fundamentalt från dess konstruktion i ID3 . I det första steget finns det en rot och en uppsättning kopplade till den , som måste delas upp i delmängder. För att göra detta måste du välja ett av attributen som en check. Det valda attributet har värden, vilket resulterar i delinställning. Därefter skapas avkomlingar till roten, som var och en tilldelas sin egen delmängd som erhålls genom att dela . Proceduren för att välja ett attribut och dela på det tillämpas rekursivt på alla avkomlingar och stopp i två fall:

Implementeringar

Anteckningar

  1. Weka.Classifiers.Trees:  J48 . Dokumentation hos Sourceforge . Hämtad 18 februari 2012. Arkiverad från originalet 12 september 2012.

Litteratur

Länkar