Overfitting ( overfitting , re- i betydelsen "too", engelska overfitting ) i maskininlärning och statistik är ett fenomen när den konstruerade modellen förklarar bra exempel från träningsuppsättningen, men fungerar relativt dåligt på exempel som inte deltagit i utbildningen ( på exempel från testproverna).
Detta beror på att när man bygger en modell (”i lärandeprocessen”) återfinns vissa slumpmässiga mönster i utbildningsurvalet som saknas i den allmänna befolkningen .
Modellen kommer med andra ord ihåg ett stort antal av alla möjliga exempel istället för att lära sig att lägga märke till funktioner.
Även när den tränade modellen inte har ett alltför stort antal parametrar kan det förväntas att dess prestanda på ny data kommer att vara lägre än på data som används för träning [1] . I synnerhet kommer värdet av bestämningskoefficienten att reduceras jämfört med de ursprungliga träningsdata.
Sätt att hantera övermontering beror på modelleringsmetoden och hur modellen är byggd. Till exempel, om ett beslutsträd byggs kan några av dess grenar skäras av under byggprocessen.
För att undvika övermontering måste ytterligare metoder användas, till exempel:
vilket kan indikera när vidareutbildning inte längre leder till bättre parameteruppskattningar. Dessa metoder är baserade på en explicit begränsning av modellernas komplexitet, eller testning av modellens förmåga att generalisera genom att utvärdera dess prestanda på en uppsättning data som inte användes för träning och som anses vara en approximation till den verkliga data som modellen kommer att tillämpas.