En bildpyramid är en klass av flerskaliga hierarkiska datastrukturer utformade för användning i tillämpade problem med maskinseende , informationskomprimering , bitmappstexturanalys , etc. Sådana strukturer innehåller på varje nivå i hierarkin en reducerad version av den föregående bilden, varje varav beräknas rekursivt på basis av tidigare lager genom att tillämpa samma typ av operation (till exempel utjämning ) [1] . Samtidigt tilldelas varje nivå i hierarkin en skalparameter som är relevant för det problem som ska lösas, som beskriver bildegenskaperna av intresse [2] .
Uppkomsten av intresset hos specialister för matematisk bearbetning av bilder i hierarkiska pyramider är förknippat med behovet av att lösa vissa tillämpade problem under förhållanden av en a priori okänd skala av de önskade egenskaperna eller funktionerna. Eftersom denna karakteristiska storlek inte är definierad, är ett möjligt sätt att lösa det att dekomponera den ursprungliga bilden till ett hierarkiskt system där varje lager representeras av sin egen skala, artikulerande ett separat utbud av funktioner. Videoinformationsbehandlingssystemet för biologiska objekt är på liknande sätt anordnat [2] .
Utseendet på de första hierarkiska pyramiderna går tillbaka till slutet av 1970 -talet [3] , valet av deras namn dikterades av en rent yttre visuell association [4] . På 1980-talet började man aktivt använda hierarkiska pyramider i problemen med att blanda bilder och söka efter överensstämmelse mellan element och strukturer av olika skalor. Samtidigt slutfördes skapandet av kontinuerliga versioner av pyramidstrukturer för bearbetning i rumslig skala. Men i slutet av 1980-talet var traditionella pyramider tvungna att ge plats på grund av det aktiva införandet av wavelet- transformationer [5] .
I sin kärna kan en bildpyramid ses som en uppsättning vyer ordnade i en vertikal hierarki när den skalas ner. Vanligtvis är den ursprungliga högupplösta bilden placerad vid basen av pyramiden, och när du rör dig uppåt minskar skalan och upplösningen. Som ett resultat är den grovaste approximationen med låg kvalitet och informationsinnehåll överst [6] [7] .
Som regel, för att generera en pyramid för att underlätta dess representation, omräknas den ursprungliga bilden i dimensioner som är multiplar av potensen 2 [1] . Om den ursprungliga datan var i form av en array av pixlar , då är denna notation ekvivalent med , där [6] . I denna form spelar parametern rollen som höjden på pyramiden, uttryckt i antalet representationer av den ursprungliga bilden (lager) [8] .
Det första lagret (approximation) av pyramiden kan erhållas genom sekventiell medelvärdesberäkning av angränsande pixlar, vilket kommer att resultera i en array . Genom att tillämpa denna procedur rekursivt produceras en uppsättning bilder med exponentiellt minskande storlekar. Samtidigt innehåller pixlarna i mellanbilderna information om de kvadratiska blocken av pixlar i de underliggande lagren med högre upplösning [9] . Då kommer ett godtyckligt valt mellanlager att innehålla pixlar, där 0 ≤ j < n , och det totala antalet pixlar i pyramiden som innehåller skikt [6] :
Pyramidens mellannoder behöver inte vara ett viktat medelvärde av intensiteten från de lägre skikten. Istället för intensitet kan de lagra andra typer av information, till exempel texturdeskriptorer eller parametrar för geometriska element (linjer, kurvor, etc.) [10]
Den mest uppenbara användbara egenskapen hos flerskaliga pyramider är förmågan att minska beräkningskostnaderna för olika algoritmer genom tillämpningen av " dela och erövra "-principen. Dessutom anses fördelarna med att representera en tvådimensionell bild i form av en pyramid vara korrelationen mellan dess lokala element och egenskaper med globala. Detta gör att du kan konstruera trädliknande datastrukturer för multivariat analys, inklusive lokal och global information. Till exempel att länka värdena för enskilda pixlar med egenskaperna för de regioner som omger dem [11] .
Gaussiska pyramider och Laplacian pyramider anses vara klassiska typer av pyramidala hierarkier . På grund av deras väl studerade egenskaper används de i stor utsträckning i ett antal praktiska tillämpningar [12] .
Den Gaussiska pyramiden består av lager, som vart och ett erhålls från det föregående genom utjämning med en symmetrisk Gaussian ( lågpassfiltrering ) och efterföljande provtagning. Helheten av dessa lager kallas bildens grova skala. Användningsområdet för Gaussiska pyramider är vanligtvis problemet med bildsökning efter skala och rumslig jämförelse av olika bilder [13] [14] .
Laplacian-pyramider beräknas genom successiv utjämning och decimering av initialdata. Samtidigt är varje nivå i pyramiden en förfining av de tidigare och motsvarar ett separat frekvensband ( bandpassfiltrering ). Till skillnad från Gaussiska pyramider tillåter denna datatyp en högre grad av informationskomprimering [15] [16] . Utöver detta kan originalbilden enkelt återställas baserat på överlagring av mellanskikt, vilket gör det möjligt att inte lagra den i minnet [17] .