I datorseende är segmentering processen att dela upp en digital bild i flera segment ( en uppsättning pixlar , även kallade superpixlar). Syftet med segmentering är att förenkla och/eller ändra representationen av en bild så att den blir enklare och lättare att analysera. [1] Bildsegmentering används vanligtvis för att markera objekt och gränser (linjer, kurvor, etc.) i bilder. Mer exakt är bildsegmentering processen att tilldela etiketter till varje pixel i en bild så att pixlar med samma etikett delar visuella egenskaper.
Resultatet av bildsegmentering är en uppsättning segment som tillsammans täcker hela bilden, eller en uppsättning konturer som extraherats från bilden (se Kantextraktion ). Alla pixlar i ett segment är lika i någon karakteristisk eller beräknad egenskap, som färg , ljusstyrka eller struktur . Närliggande segment skiljer sig avsevärt i denna egenskap. [ett]
Några praktiska tillämpningar av bildsegmentering är:
Flera universella algoritmer och metoder har utvecklats för bildsegmentering. Eftersom det inte finns någon generell lösning på bildsegmenteringsproblemet måste ofta dessa metoder kombineras med kunskap från ämnesområdet för att effektivt lösa detta problem inom dess ämnesområde.
k-means är en iterativ metod som används för att dela upp en bild i K - kluster. Den grundläggande algoritmen visas nedan:
Här tas summan av kvadrater eller de absoluta värdena av skillnaderna mellan pixeln och mitten av klustret vanligtvis som avståndet . Skillnaden baseras vanligtvis på färg, ljusstyrka, textur och pixelplats, eller en viktad summa av dessa faktorer. K kan väljas manuellt, slumpmässigt eller heuristiskt.
Denna algoritm kommer garanterat att konvergera, men det kanske inte leder till en optimal lösning. Kvaliteten på lösningen beror på den initiala uppsättningen av kluster och värdet på K .
Histogrammetoder är mycket effektiva jämfört med andra bildsegmenteringsmetoder eftersom de bara kräver en pixelpassage. I denna metod beräknas histogrammet över alla pixlar i bilden och dess minimum och maximum används för att hitta kluster i bilden. [1] Färg eller ljusstyrka kan användas i jämförelse.
En förbättring av denna metod är att rekursivt tillämpa den på klustren i bilden för att dela upp dem i mindre kluster. Processen upprepas med mindre och mindre kluster tills inga fler kluster dyker upp. [1] [4]
En nackdel med denna metod är att det kan vara svårt att hitta signifikanta minimum och maximum i en bild. I denna bildklassificeringsmetod är avståndsmetrik och integrerad regionmatchning liknande.
Histogrambaserade tillvägagångssätt kan också snabbt anpassas till flera bildrutor samtidigt som de bibehåller sin hastighetsfördel med en gång. Histogrammet kan byggas på flera sätt när flera bildrutor beaktas. Samma tillvägagångssätt som används för en enda bildruta kan tillämpas på flera bildrutor, och när resultaten väl har kombinerats blir de låg- och toppnivåer som var svåra att välja ut mer synliga. Ett histogram kan också tillämpas per pixel, där information används för att bestämma den vanligaste färgen för en given pixelposition. Detta tillvägagångssätt använder segmentering baserad på rörliga objekt och stillbildsmiljöer, vilket ger en annan typ av segmentering användbar vid videospårning .
Kantextraktion är ett väl studerat område inom bildbehandling. Regionernas gränser och kanter är starkt förbundna, eftersom det ofta finns en stark skillnad i ljusstyrka vid regionernas gränser. Därför används kantdetekteringsmetoder som bas för en annan segmenteringsmetod.
Kanterna som hittas är ofta trasiga. Men för att välja ett objekt i bilden behövs slutna områdeskanter.
Den första var metoden att odla områden från frön. Denna metod tar bilder och en uppsättning frön som indata. Frön markerar objekt som ska väljas. Regioner växer successivt och jämför alla lediga intilliggande pixlar med regionen. Skillnaden mellan ljusstyrkan för en pixel och den genomsnittliga ljusstyrkan för ett område används som ett likhetsmått. Pixeln med den minsta skillnaden läggs till motsvarande område. Processen fortsätter tills alla pixlar har lagts till i en av regionerna.
Metoden att odla områden från frön kräver ytterligare insats. Resultatet av segmentering beror på valet av frön. Brus i bilden kan göra att fröna blir dåligt placerade. Odlingsmetoden för icke-fröregion är en modifierad algoritm som inte kräver explicita frön. Det börjar med ett område - den pixel som väljs här har liten effekt på den slutliga segmenteringen. Vid varje iteration tar den hänsyn till närliggande pixlar på samma sätt som den regionodlingsmetoden som använder frön. Men det skiljer sig genom att om minimivärdet är mindre än det angivna tröskelvärdet läggs det till motsvarande område . Annars anses pixeln vara mycket annorlunda än alla nuvarande regioner och en ny region skapas som innehåller denna pixel.
En variant av denna metod som föreslås av Haralik och Shapiro (1985) [1] är baserad på användningen av pixelljusstyrka . Medelvärdet och variansen för området och ljusstyrkan hos kandidatpixeln används för att bygga teststatistik. Om teststatistiken är tillräckligt liten läggs en pixel till området, och areamedelvärdet och variansen räknas om. Annars ignoreras pixeln och används för att skapa en ny region.
Grafskivningstekniker kan effektivt tillämpas på bildsegmentering . I dessa metoder representeras bilden som en viktad oriktad graf. Vanligtvis är en pixel eller grupp av pixlar associerad med en vertex, och kantvikter bestämmer (o)likheten hos intilliggande pixlar. Därefter skärs grafen (bilden) ut enligt det kriterium som skapats för att få "bra" kluster. Varje del av hörnen (pixlarna) som erhålls av dessa algoritmer anses vara ett objekt i bilden. Några populära algoritmer i denna kategori är normaliserade grafsnitt [5] , slumpmässig gång [6] , minimum cut [7] , isoperimetrisk partitionering [8] och minimum spännande trädsegmentering [9] .
Vattendelaresegmentering betraktar bildgradientens absoluta värde som en topografisk yta. De pixlar som har det största absoluta värdet av ljushetsgradienten motsvarar de vattendelare som representerar regionernas gränser. Vatten placerat på vilken pixel som helst inom en gemensam vattendelare rinner ner till ett gemensamt lokalt minimum av ljusstyrka. Pixlarna från vilka vattnet rinner ut till ett gemensamt minimum bildar upptagningsområdet som representerar segmentet.
Det grundläggande antagandet för detta tillvägagångssätt är att strukturerna eller organen av intresse har repetitiva geometriska former. Därför är det möjligt att hitta en probabilistisk modell för att förklara förändringar i formen av ett organ och sedan, genom att segmentera bilden, införa begränsningar med denna modell som a priori. En sådan uppgift inkluderar (i) att föra träningsexemplen till en gemensam ställning, (ii) probabilistisk representation av förändringarna i de givna proverna och (iii) statistisk slutledning för modellen och bilden. Aktuella metoder i litteraturen för kunskapsbaserad segmentering inkluderar aktiva form- och utseendemodeller, aktiva konturer, deformerbara mönster och utjämningsmetoder.
Bildsegmentering utförs i olika skalor i skalutrymme och sträcker sig ibland från små till stora skalor.
Segmenteringskriteriet kan vara godtyckligt komplext och kan ta hänsyn till både lokala och globala kriterier. Det generella kravet är att varje område ska kopplas ihop på något sätt.
Witkins framträdande arbete [10] [11] om skalutrymme innehöll idén att en endimensionell signal kan segmenteras unikt i regioner med bara en parameter som styr segmenteringsskalan.