Mahalanobis Avstånd

Mahalanobis-avståndet är ett mått på avståndet mellan vektorer av slumpvariabler, vilket generaliserar begreppet euklidiskt avstånd.

Föreslog av den indiske statistikern Mahalanobis 1936 [1] . Med hjälp av Mahalanobis-avståndet kan man bestämma likheten mellan ett okänt och ett känt prov . Det skiljer sig från det euklidiska avståndet genom att det tar hänsyn till korrelationer mellan variabler och är skalinvariant.

Definition

Formellt definieras Mahalanobis-avståndet från en flerdimensionell vektor till en mängd med ett medelvärde och en kovariansmatris enligt följande [2] :

Mahalanobis-avståndet kan också definieras som ett mått på olikhet mellan två slumpmässiga vektorer och från en enda sannolikhetsfördelning med en kovariansmatris  :

Om kovariansmatrisen är identitetsmatrisen, blir Mahalanobis-avståndet lika med det euklidiska avståndet. Om kovariansmatrisen är diagonal (men inte nödvändigtvis enhet), så kallas det resulterande avståndsmåttet det normaliserade euklidiska avståndet :

Här är standardavvikelsen från i urvalet.

Intuitiv förklaring

Betrakta problemet med att bestämma sannolikheten för att någon punkt i ett N-dimensionellt euklidiskt rum tillhör en mängd som ges av en uppsättning punkter som definitivt tillhör denna mängd. Hitta massans centrum för uppsättningen. Intuitivt, ju närmare en given punkt är masscentrum, desto mer sannolikt är det att den tillhör mängden.

Det är dock också värt att överväga storleken på det område som uppsättningens punkter är utspridda över för att förstå hur betydande avståndet mellan en given punkt och massans centrum är. Det enklaste tillvägagångssättet är att beräkna standardavvikelsen för börvärdena från massans centrum. Om avståndet mellan den givna punkten och massans centrum är mindre än standardavvikelsen, kan vi dra slutsatsen att sannolikheten för att punkten tillhör mängden är hög. Ju längre punkten är, desto mer sannolikt är det inte i uppsättningen.

Detta intuitiva tillvägagångssätt kan definieras matematiskt i termer av avståndet mellan en given punkt och en mängd med hjälp av formeln . Genom att ersätta detta värde i normalfördelningen kan du hitta sannolikheten för att en punkt tillhör en mängd.

Nackdelen med detta tillvägagångssätt är användningen av antagandet att uppsättningens punkter är sfäriskt fördelade runt massans centrum (det vill säga enhetligt i alla dimensioner). Om fördelningen uppenbarligen inte är sfärisk (till exempel ellipsoid) skulle det vara naturligt att ta hänsyn till sannolikheten för medlemskap inte bara avståndet till massans centrum utan också riktningen till det. I riktning mot ellipsoidens korta axel måste den givna punkten vara närmare masscentrum för att tillhöra mängden, medan den i riktning mot den långa axeln kan vara längre.

För att skriva detta matematiskt kan den ellipsoid som bäst representerar mängdens sannolikhetsfördelning ges av mängdens kovariansmatris. Mahalanobis-avståndet är helt enkelt avståndet mellan den givna punkten och masscentrum dividerat med ellipsoidens bredd i den givna punktens riktning.

Applikationer

Mahalanobis-avståndet formulerades under arbetet med att identifiera likheten mellan skallar baserat på mätningar 1927 [3] .

Mahalanobis -avståndet används ofta i klusteranalys och klassificeringsmetoder . Det är nära relaterat till Hotellings T - kvadratfördelning som används i multivariat statistisk testning och Fishers linjära diskriminantanalys som används vid övervakad maskininlärning [4] .  

För att använda Mahalanobis-avståndet i problemet med att avgöra om en given punkt tillhör en av N-klasserna, måste du hitta kovariansmatriserna för alla klasser. Vanligtvis görs detta baserat på kända prover från varje klass. Sedan är det nödvändigt att beräkna Mahalanobis-avståndet från den givna punkten till varje klass och välja den klass för vilken detta avstånd är minimalt. Med hjälp av en sannolikhetstolkning kan detta visas vara likvärdigt med klassurval med maximum likelihood-metoden .

Mahalanobis-avståndet används också för att hitta extremvärden, till exempel i problemet med att konstruera en linjär regression. Den punkt som har störst Mahalanobis-avstånd till resten av mängden givna punkter anses ha störst betydelse, eftersom den har störst inflytande på krökningen och på regressionsekvationens koefficienter. Dessutom används Mahalanobis-avståndet i problemet med att bestämma multivariata extremvärden och när man arbetar med aktiva formmodeller .

Anteckningar

  1. Mahalanobis, Prasanta Chandra. Om det generaliserade avståndet i statistik  (neopr.)  // Proceedings of the National Institute of Sciences of India. - 1936. - V. 2 , nr 1 . - S. 49-55 . Arkiverad från originalet den 29 maj 2013.
  2. De Maesschalck, R.; D. Jouan-Rimbaud, D. L. Massart (2000) The Mahalanobis distance. Kemometri och intelligenta laboratoriesystem 50:1–18
  3. Mahalanobis, PC (1927). Analys av rasblandning i Bengalen. J. Proc. Asiatiska Soc. av Bengalen. 23:301-333.
  4. McLachlan, Geoffry J (1992) Diskriminantanalys och statistiskt mönsterigenkänning. Wiley Interscience. ISBN 0471691151 sid. 12