Likhetskoefficienten (även ett likhetsmått, likhetsindex) är en dimensionslös indikator på likheten mellan jämförda objekt. Även känt som associationsmått, likhetsmått, etc.
Det används inom biologin för att kvantifiera graden av likhet mellan biologiska objekt (platser, regioner, individuella fytocenoser , zoocenoser , etc.). Används även inom geografi, sociologi, mönsterigenkänning , sökmotorer , jämförande lingvistik, bioinformatik , kemoinformatik , strängjämförelse, etc.
I en vidare mening talar de om mått på närhet, som inkluderar: mått på mångfald, mått på koncentration (homogenitet), mått på inkludering , mått på likhet, mått på skillnad (inklusive avstånd), mått på händelsers kompatibilitet, mått på oförenlighet mellan händelser, mått på ömsesidigt beroende , mått på ömsesidigt oberoende. Teorin om närhetsmått är i sin linda, och därför finns det många olika idéer om formalisering av närhetsrelationer.
De flesta av koefficienterna är normaliserade och sträcker sig från 0 (ingen likhet) till 1 (fullständig likhet). Likhet och skillnad kompletterar varandra (matematiskt kan detta uttryckas på följande sätt: Likhet = 1 − Skillnad).
Likhetskoefficienter kan villkorligt delas in i tre grupper, beroende på hur många objekt som anses vara:
I studien av biologiska objekt används mått på variabiliteten av både individuella egenskaper och distributionsfrekvenserna för slumpvariabler i stor utsträckning. I det enklaste fallet kan inventeringen (inom det studerade biosystemet) mångfalden uppskattas genom artrikedom eller antalet arter.
De mest använda måtten på mångfald [1] ( variationskoefficient , index för den parametriska Renyi-familjen , inklusive Shannon-indexet ; index för Hill-familjen; index för Margalef, Gleason , etc.). Mindre ofta används koncentrationsmått som kompletterar dem (till exempel Kolmogorov- familjen av åtgärder, Rosenberg -dissonansmåttet ).
Dessa är de koefficienter som används mest inom biologi och geografi [2] . Den allra första likhetskoefficienten föreslogs av P. Jaccard 1901 [ 3 ] : och andra platser . Därefter föreslogs olika koefficienter (mått, index) av likhet inom olika vetenskapsområden. De mest använda (beteckningarna är desamma):
En alternativ notation för beredskapstabellen är känd från R. R. Sokal ( Sokal ) och P. Sneath ( Sneath ) [10] [11] :
Förekomsten av arten på 1: a platsen | Brist på sikt på 1:a sidan | |
Förekomsten av arten på den 2: a platsen | a | b |
Brist på sikt på 2: a platsen | c | d |
där a är antalet arter som finns på båda platserna; b är antalet arter som hittats på den första provtagningsplatsen, men utan hänsyn till förekomsten av vanliga arter; c är antalet arter som finns på den andra provtagningsplatsen, men utan hänsyn till förekomsten av vanliga arter.
Denna tabell skapar mycket förvirring. Den förväxlas ofta med en liknande statistisk korstabell ; notationen av Sokal-Sneath-tabellen förväxlas med den klassiska notationen (se ovan); ignorera nästan alltid det faktum att tabellen bara tar hänsyn till sannolikheter.
I processen med matematisk formalisering av objekt och relationer mellan dem uppstod en universell mängdteoretisk notation för likhetskoefficienter. För första gången dyker en sådan uppteckning upp i verk av A. S. Konstantinov [12] , M. Levandovsky och D. Winter [13] . Så Jaccards likhetskoefficient kan skrivas på följande sätt:
Den enklaste likhetskoefficienten är ett mått på absolut likhet, vilket i huvudsak är antalet gemensamma egenskaper hos två jämförda objekt: [14] . När man normaliserar detta mått är värdena för likhetsmåttet mellan 0 och 1 och koefficienten är känd som ett "mått på procentuell likhet" när man använder relativa måttenheter (i procent) och som ett skärningsmått i mellanliggande beräkningar av relativa likhetsmått (till exempel är det känt utomlands som Renkonen-måttet [15] ).
År 1973 föreslog B. I. Semkin en allmän formel baserad på Kolmogorovs medelformel , som kombinerar de flesta av de kända likhetskoefficienterna till ett kontinuerligt kontinuum av åtgärder [16] [17] :
var ; ; ; ; ; . Till exempel är värdena för ovanstående koefficienter följande: [1,-1] (Jaccard-koefficient); [0,-1] (Sorensen-koefficient); [0,1] (Kulchinsky-koefficient); [0,0] (Ochiai-koefficient); [0, ] (Shimkevich-Simpson-koefficient); [0, ] (Brun-Blanque-koefficient). Den generaliserande formeln gör det möjligt att definiera klasser av ekvivalenta och icke-ekvivalenta koefficienter [18] , samt förhindra skapandet av nya duplikatkoefficienter.
En specifik typ av likhetskoefficienter är inklusionsmått . Dessa är asymmetriska mått ( och ), som visar graden av likhet (inklusion) av ett objekt i förhållande till ett annat. Mer välbekanta (symmetriska) närhetskoefficienter kan erhållas genom att medelvärdet av två komplementära asymmetriska inklusionsmått, det vill säga varje symmetriskt likhetsmått motsvarar två specifika asymmetriska likhetsmått. Till exempel för Sørensen-måttet är detta och ), och för Jaccard-måttet är detta och . I allmänhet är två icke-symmetriska inklusionsmått bättre på att uppskatta likheten mellan objekt än ett genomsnittligt symmetriskt likhetsmått.
Frågan om att jämföra objekt efter viktindikatorer är kontroversiell och tvetydig. Inom ekologi är detta indikatorer som tar hänsyn till överflöd . De mest konsekventa formaliseringsscheman av sådana typer är B. I. Semkins schema baserat på deskriptiva mängder och A. Chaos schema med överflödsbaserade index (överflödsbaserade index) [19] . Också i utländsk litteratur har presentationen av index baserade på incidens (incidensbaserat index), det vill säga index för booleska data för närvaro/frånvaro (närvaro/frånvaro) typ av en funktion, etablerats. I själva verket kan båda beskrivas som specialfall av beskrivande uppsättningar.
Jämförelsen av slumpmässiga händelser (till exempel händelse ) och informationsindikatorer är fortfarande diskutabel. I schemat för formalisering av närhetsrelationer av B. I. Semkin föreslås att man pekar ut ett antal analytiska tolkningar för olika närhetsrelationer: multipla , beskrivande , probabilistiska , informativa . Formellt bestäms tillhörighet till likhetsmått av ett system av axiom (här är E en godtycklig mängd):
Axiomsystem för likhetsmått föreslogs av: A. Renyi [20] , Yu. A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] och andra.
Som regel presenteras en uppsättning närhetsmått i form av matriser av typen "objekt-till-objekt". Dessa är till exempel likhetsmatriser , avståndsmatriser (i vid mening - skillnader), matriser av gemensamma sannolikheter, matriser av informationsfunktioner. De flesta av dem kan byggas på basis av: absoluta eller relativa mått, och de kan i sin tur vara symmetriska eller asymmetriska (de senare kallas ofta inklusionsmått).
Sådana koefficienter används för att jämföra en serie objekt. Dessa inkluderar: Alekhines medellikhet, Kochs biotiska spridningsindex, Shennikovs spridningskoefficient (spridningskoefficient), Whittakers beta-diversitetsmått , Mirkin- Rosenbergs mått på homotonicitet och dess dubbla mått på heterotonicitet och Semkins mått likhetskoefficient för en serie beskrivningar. I utländsk litteratur återfinns mått av denna typ under namnen: multidimensionella koefficienter, n -dimensionella koefficienter, multiple-site likhetsmått, multidimensional koefficient, multipelgemenskapsmått [28] [29] [30] . Den mest kända koefficienten föreslogs av L. Koch [31] :
,där , det vill säga summan av antalet funktioner för vart och ett av objekten; , det vill säga det totala antalet funktioner; — en mängd av n mängder (objekt).
Som regel beräknas närhetsmått i programmets klusteranalysmodul . Det vanligaste är Statistica , men i motsvarande modul presenteras inte likhetsmått alls, bara avstånd. SPSS (PASW Statistics) föreslår beräkningen av ett antal likhetsmått (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, symmetriska tärningsmått). Det finns ett stort antal små program för att beräkna närhetsmått och efterföljande grafisk representation av beroenden [32] [33] . Likhetsmått presenteras ytterst sällan och främst i specialiserade program för biologer [34] : Graphs, NTSYS, BIODIV, PAST, och även där är de extremt få (vanligtvis bara Jaccard-måttet och ibland Sørensen-måttet). Vi kan också notera TurboVEG och IBIS [35] , som är baserade på en databas med bearbetningsmoduler, och IBIS-programmet implementerar det största antalet närhetsmått som för närvarande används inom biologi, geografi och andra områden.