Histogram av riktningsgradienter

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 27 maj 2014; kontroller kräver 15 redigeringar .

Histogram of  Oriented Gradients ( HOG ) är funktionspunktdeskriptorer som används i datorseende och bildbehandling för objektigenkänning . Denna teknik är baserad på att räkna antalet gradientriktningar i lokala delar av bilden. Denna metod liknar kantriktningshistogram , SIFT-deskriptorer och formkontexter , men skiljer sig genom att den beräknas på ett tätt rutnät av likformigt fördelade celler och använder överlappande lokal kontrastnormalisering för att öka noggrannheten.

Navneet Dalal och Bill Triggs , forskare vid INRIA , beskrev först histogrammet av riktningsgradienter i sin uppsats om CVPR i juni 2005. I detta arbete använde de en algoritm för att hitta fotgängare i statiska bilder, även om de sedan utökade räckvidden för att hitta människor i video, samt olika djur och bilar i statiska bilder.

Teori

Algoritmens huvudidé är antagandet att ett objekts utseende och form i ett bildområde kan beskrivas genom fördelningen av intensitetsgradienter eller kanternas riktning. Implementeringen av dessa deskriptorer kan göras genom att dela upp bilden i små sammankopplade områden som kallas celler, och för varje cell beräkna ett histogram av gradientriktningar eller kantriktningar för pixlarna i cellen. Kombinationen av dessa histogram är deskriptorn. För att öka noggrannheten normaliseras lokala histogram i kontrast. För detta ändamål beräknas ett mått på intensiteten på ett större fragment av bilden, som kallas ett block, och det resulterande värdet används för normalisering. Normaliserade deskriptorer har bättre belysningsinvarians.

HOG-deskriptorn har flera fördelar jämfört med andra deskriptorer. Eftersom HOG arbetar lokalt, upprätthåller metoden invariansen av geometriska och fotometriska transformationer, förutom objektets orientering. Sådana förändringar kommer endast att visas i stora fragment av bilden. Dessutom, som Dalal och Triggs fann, tillåter grov utrymmesuppdelning, exakt riktningsberäkning och stark lokal fotometrisk normalisering att fotgängares rörelser ignoreras om de bibehåller en upprätt kroppsställning. HOG-deskriptorn är alltså ett bra sätt att hitta personer i bilder. [ett]

Implementering av algoritmen

Gradientberäkning

Det första beräkningssteget i många funktionspunktdetektorer är färgnormalisering och gammakorrigering. Dalal och Triggs fann att för HOG-deskriptorn kan detta steg utelämnas, eftersom efterföljande normalisering kommer att ge samma resultat. Därför, i det första steget, beräknas gradienternas värden. Den vanligaste metoden är att applicera en endimensionell differentieringsmask i horisontell och/eller vertikal riktning. Denna metod kräver att nyans- eller luma-komponenten filtreras med följande filterkärnor:

och

Dalal och Triggs använde mer komplexa masker som Sobel 3x3 ( Sobel Operator ) eller diagonala masker, men dessa masker visade sämre prestanda för den givna uppgiften. De experimenterade också med Gaussisk oskärpa innan de applicerade den differentierande masken, men fann också att att hoppa över detta steg ökade prestandan utan märkbar kvalitetsförlust. [2]

Gruppera destinationer

Nästa steg är att beräkna cellhistogram. Varje pixel i en cell deltar i en viktad röst för riktningshistogramkanalerna baserat på gradienternas värde. Cellerna kan vara rektangulära eller runda, och histogramkanalerna är jämnt fördelade från 0 till 180 eller från 0 till 360 grader, beroende på om den "signerade" eller "osignerade gradienten" beräknas. Dalal och Triggs fann att en osignerad gradient i kombination med nio histogramkanaler gav bättre resultat i mänsklig igenkänning. Vid fördelning av vikter vid röstning kan vikten av en pixel ges antingen av gradientens absoluta värde eller av någon funktion av den; i verkliga tester ger det absoluta värdet av gradienten de bästa resultaten. Andra möjliga alternativ skulle vara kvadratrot, kvadrat eller ett trimmat absolutvärde av gradienten. [3]

Descriptor Blocks

För att ta hänsyn till ljusstyrka och kontrast måste gradienter normaliseras lokalt genom att gruppera celler i större anslutna block. HOG-deskriptorn är således en vektor av komponenter i normaliserade cellhistogram från alla områden i blocket. Som regel överlappar blocken, det vill säga varje cell ingår i mer än en slutdeskriptor. Två grundläggande blockgeometrier används: rektangulär R-HOG och rund C-HOG. R-HOG-block är vanligtvis kvadratiska rutnät som kännetecknas av tre parametrar: antalet celler per block, antalet pixlar per cell och antalet band per cellhistogram. I Dalal och Triggs-experimentet är de optimala parametrarna 16x16 block, 8x8 celler och 9 kanaler per histogram. Dessutom fann de att de kunde öka beräkningshastigheten något genom att applicera ett Gaussiskt filter inom varje block före omröstning, vilket i sin tur minskar vikten av pixlarna vid blockgränserna. R-HOG-block visar sig vara mycket lika SIFT-deskriptorer ; men trots sin liknande struktur beräknas R-HOG-block på snäva rutnät med fast skala utan fast riktning, medan SIFT-deskriptorer beräknas vid glesa, skalokänsliga nyckelpunkter i bilden och använder rotation för att justera riktningen. Dessutom används R-HOG-block tillsammans för att koda information om formen på objekt, medan SIFT-deskriptorer används separat.

C-HOG-block har 2 varianter: med en solid central cell och uppdelad i sektorer. Dessa block kan beskrivas med 4 parametrar: antalet sektorer och ringar, radien för den centrala ringen och expansionskoefficienten för radierna för de återstående ringarna. Dalal och Triggs fann att båda varianterna presterade likadant och att dela upp sig i 2 ringar och 4 sektorer med en radie på 4 pixlar och en expansionsfaktor på 2 gav det bästa resultatet i deras experiment. Gaussisk viktning gav inte heller någon förbättring vid användning av C-HOG-block. Dessa block liknar formkontexter , men har en viktig skillnad: C-HOG-block innehåller celler med flera riktningskanaler, medan formsammanhang endast använder närvaron av en enda kant. [fyra]

Blockera normalisering

Dalal och Triggs utforskade fyra metoder för blocknormalisering. Låt vara  en onormaliserad vektor som innehåller alla histogrammen för ett givet block,  vara dess k -norm för och  vara någon liten konstant (det exakta värdet är inte så viktigt). Då kan normaliseringsfaktorn erhållas på något av följande sätt:

L2-norm: L2-hys: L2-normen är avgränsad ovanifrån (värden på v större än 0,2 sätts lika med 0,2) och renormaliseras som i [5] L1-norm: rot från L1-normen:

Dalal och Triggs fann att L1-normen är mindre tillförlitlig än de andra tre, som fungerar ungefär lika bra, men alla fyra metoderna är betydligt bättre än de icke-normaliserade. [fyra]

SVM-klassificerare

Det sista steget i objektigenkänning med HOG är klassificeringen av deskriptorer med hjälp av ett övervakat inlärningssystem . Dalal och Triggs använde stödvektormaskinen (SVM, Support Vector Machine).

Testar

I det ursprungliga mänskliga upptäcktsexperimentet jämförde Dalal och Triggs R-HOG- och C-HOG-deskriptorer med generaliserade Haar-vågor och formsammanhang . Generaliserade Haar-vågor är riktade Haar-vågor och användes 2001 av Mohan, Papageorgiou och Poggio i deras objektdetekteringsexperiment. PCA-SIFT-deskriptorer liknar SIFT-deskriptorer, men skiljer sig genom att huvudkomponentanalys tillämpas på normaliserade gradienter . PCA-SIFT-deskriptorerna användes först 2004 av Ke och Sukthankar; det konstaterades att de är överlägsna i sina parametrar jämfört med konventionella SIFT-deskriptorer. Slutligen, forma sammanhang, som C-HOG, använder runda papperskorgar, men räknar bara röster baserat på närvaron av en kant, inte orientering. Formkontexter dök upp 2001 i verk av Belonga, Malik och Puzich.

Testning utfördes på två olika datamängder. MIT fotgängardatabasen innehåller en träningsuppsättning med 509 bilder och en testuppsättning med 200 bilder. Setet innehåller bilder av människor endast framifrån eller bakifrån, poseringarna på bilderna är nästan desamma. Denna databas är allmänt känd och används i andra studier och kan hittas på https://web.archive.org/web/20080130190339/http://cbcl.mit.edu/cbcl/software-datasets/PedestrianData.html . Den andra uppsättningen data skapades speciellt av Dalal och Triggs för deras experiment, eftersom HOG-deskriptorerna visade nästan perfekta resultat på MIT-uppsättningen. Denna datauppsättning, känd som INRIA, innehåller 1805 mänskliga bilder. Setet innehåller bilder av människor i en mängd olika poser, innehåller bilder med svåra bakgrunder (som folksamlingar) och är mycket svårare att känna igen än MIT-setet. INRIA-databasen är för närvarande tillgänglig på http://lear.inrialpes.fr/data .

Enligt forskningsresultaten ger C-HOG- och R-HOG-deskriptorer jämförbara resultat, där C-HOG har en något lägre andel saknade bilder med en fast andel typ I-fel på båda bilduppsättningarna.

Beskrivare Bilduppsättning Andel saknade bilder Proportion av typ I-fel
GRIS MIT ≈0 10 −4
GRIS INRIA 0,1 10 −4
Generaliserade Haar wavelets MIT 0,01 10 −4
Generaliserade Haar wavelets INRIA 0,3 10 −4
PCA-SIFT, formulärsammanhang MIT 0,1 10 −4
PCA-SIFT, formulärsammanhang INRIA 0,5 10 −4

Motsvarande DET -diagram finns på följande länk . [2]

Vidareutveckling

Som en del av Pascal Visual Object Classes-workshopen 2006 presenterade Dalal och Triggs resultaten av att använda HOG-deskriptorer för att söka bilder inte bara efter människor utan också efter bilar, bussar, cyklar, hundar, katter och kor, samt optimala parametrar för att forma och normalisera block i varje enskilt fall. Klicka på länken för att se exempel för att upptäcka motorcyklar. [6]

Sedan, vid 2006 European Computer Vision Conference , arbetade Dalal och Triggs med Cordelia Schmid för att tillämpa HOG-deskriptorer på mänsklig videoigenkänning. Deras föreslagna metod består i gemensam användning av konventionella HOG-deskriptorer på varje ram och Internal Motion Histograms (IMH) på par av på varandra följande ramar. IMH-deskriptorer använder längderna av gradienterna som erhålls från den optiska strömmen mellan två på varandra följande ramar.

Se även

Anteckningar

  1. Histogram av orienterade gradienter för mänsklig upptäckt, pg. 2 . Arkiverad från originalet den 25 januari 2013.
  2. 1 2 Histograms of Oriented Gradients for Human Detection, pg. 4 . Arkiverad från originalet den 25 januari 2013.
  3. Histogram av orienterade gradienter för mänsklig upptäckt, pg. 5 . Arkiverad från originalet den 25 januari 2013.
  4. 1 2 Histograms of Oriented Gradients for Human Detection, pg. 6 . Arkiverad från originalet den 25 januari 2013.
  5. GD Lowe. Distinkta bildegenskaper från skalinvarianta nyckelpunkter. IJCV, 60(2):91-110, 2004.
  6. Objektavkänning med hjälp av histogram av orienterade gradienter . Arkiverad från originalet den 25 januari 2013.

Länkar