Likhetskoefficient

Likhetskoefficienten (även ett likhetsmått, likhetsindex) är en dimensionslös indikator på likheten mellan jämförda objekt. Även känt som associationsmått, likhetsmått, etc.

Det används inom biologin för att kvantifiera graden av likhet mellan biologiska objekt (platser, regioner, individuella fytocenoser , zoocenoser , etc.). Används även inom geografi, sociologi, mönsterigenkänning , sökmotorer , jämförande lingvistik, bioinformatik , kemoinformatik , strängjämförelse, etc.

I en vidare mening talar de om mått på närhet, som inkluderar: mått på mångfald, mått på koncentration (homogenitet), mått på inkludering , mått på likhet, mått på skillnad (inklusive avstånd), mått på händelsers kompatibilitet, mått på oförenlighet mellan händelser, mått på ömsesidigt beroende , mått på ömsesidigt oberoende. Teorin om närhetsmått är i sin linda, och därför finns det många olika idéer om formalisering av närhetsrelationer.

De flesta av koefficienterna är normaliserade och sträcker sig från 0 (ingen likhet) till 1 (fullständig likhet). Likhet och skillnad kompletterar varandra (matematiskt kan detta uttryckas på följande sätt: Likhet = 1 − Skillnad).

Likhetskoefficienter kan villkorligt delas in i tre grupper, beroende på hur många objekt som anses vara:

Unära koefficienter

I studien av biologiska objekt används mått på variabiliteten av både individuella egenskaper och distributionsfrekvenserna för slumpvariabler i stor utsträckning. I det enklaste fallet kan inventeringen (inom det studerade biosystemet) mångfalden uppskattas genom artrikedom eller antalet arter.

De mest använda måtten på mångfald [1] ( variationskoefficient , index för den parametriska Renyi-familjen , inklusive Shannon-indexet ; index för Hill-familjen; index för Margalef, Gleason , etc.). Mindre ofta används koncentrationsmått som kompletterar dem (till exempel Kolmogorov- familjen av åtgärder, Rosenberg -dissonansmåttet ).

Binära odds

Dessa är de koefficienter som används mest inom biologi och geografi [2] .  Den allra första likhetskoefficienten föreslogs av P. Jaccard 1901 [ 3 ] : och  andra  platser . Därefter föreslogs olika koefficienter (mått, index) av likhet inom olika vetenskapsområden. De mest använda (beteckningarna är desamma):

En alternativ notation för beredskapstabellen är känd från R. R. Sokal ( Sokal ) och P. Sneath ( Sneath ) [10] [11] :

Förekomsten av arten på 1: a platsen Brist på sikt på 1:a sidan
Förekomsten av arten på den 2: a platsen a b
Brist på sikt på 2: a platsen c d

där a  är antalet arter som finns på båda platserna; b  är antalet arter som hittats på den första provtagningsplatsen, men utan hänsyn till förekomsten av vanliga arter; c  är antalet arter som finns på den andra provtagningsplatsen, men utan hänsyn till förekomsten av vanliga arter.

Denna tabell skapar mycket förvirring. Den förväxlas ofta med en liknande statistisk korstabell ; notationen av Sokal-Sneath-tabellen förväxlas med den klassiska notationen (se ovan); ignorera nästan alltid det faktum att tabellen bara tar hänsyn till sannolikheter. I processen med matematisk formalisering av objekt och relationer mellan dem uppstod en universell mängdteoretisk notation för likhetskoefficienter. För första gången dyker en sådan uppteckning upp i verk av A. S. Konstantinov [12] , M. Levandovsky och D. Winter [13] . Så Jaccards likhetskoefficient kan skrivas på följande sätt:

eller .

Den enklaste likhetskoefficienten är ett mått på absolut likhet, vilket i huvudsak är antalet gemensamma egenskaper hos två jämförda objekt: [14] . När man normaliserar detta mått är värdena för likhetsmåttet mellan 0 och 1 och koefficienten är känd som ett "mått på procentuell likhet" när man använder relativa måttenheter (i procent) och som ett skärningsmått i mellanliggande beräkningar av relativa likhetsmått (till exempel är det känt utomlands som Renkonen-måttet [15] ).

År 1973 föreslog B. I. Semkin en allmän formel baserad på Kolmogorovs medelformel , som kombinerar de flesta av de kända likhetskoefficienterna till ett kontinuerligt kontinuum av åtgärder [16] [17] :

,

var ; ; ; ; ; . Till exempel är värdena för ovanstående koefficienter följande: [1,-1] (Jaccard-koefficient); [0,-1] (Sorensen-koefficient); [0,1] (Kulchinsky-koefficient); [0,0] (Ochiai-koefficient); [0, ] (Shimkevich-Simpson-koefficient); [0, ] (Brun-Blanque-koefficient). Den generaliserande formeln gör det möjligt att definiera klasser av ekvivalenta och icke-ekvivalenta koefficienter [18] , samt förhindra skapandet av nya duplikatkoefficienter.

En specifik typ av likhetskoefficienter är inklusionsmått . Dessa är asymmetriska mått ( och ), som visar graden av likhet (inklusion) av ett objekt i förhållande till ett annat. Mer välbekanta (symmetriska) närhetskoefficienter kan erhållas genom att medelvärdet av två komplementära asymmetriska inklusionsmått, det vill säga varje symmetriskt likhetsmått motsvarar två specifika asymmetriska likhetsmått. Till exempel för Sørensen-måttet är detta och ), och för Jaccard-måttet är detta och . I allmänhet är två icke-symmetriska inklusionsmått bättre på att uppskatta likheten mellan objekt än ett genomsnittligt symmetriskt likhetsmått.

Frågan om att jämföra objekt efter viktindikatorer är kontroversiell och tvetydig. Inom ekologi är detta indikatorer som tar hänsyn till överflöd . De mest konsekventa formaliseringsscheman av sådana typer är B. I. Semkins schema baserat på deskriptiva mängder och A. Chaos schema med överflödsbaserade index (överflödsbaserade index) [19] . Också i utländsk litteratur har presentationen av index baserade på incidens (incidensbaserat index), det vill säga index för booleska data för närvaro/frånvaro (närvaro/frånvaro) typ av en funktion, etablerats. I själva verket kan båda beskrivas som specialfall av beskrivande uppsättningar.

Jämförelsen av slumpmässiga händelser (till exempel händelse ) och informationsindikatorer är fortfarande diskutabel. I schemat för formalisering av närhetsrelationer av B. I. Semkin föreslås att man pekar ut ett antal analytiska tolkningar för olika närhetsrelationer: multipla , beskrivande , probabilistiska , informativa . Formellt bestäms tillhörighet till likhetsmått av ett system av axiom (här är E en godtycklig mängd):

  1. (icke-negativitet);
  2. (symmetri);
  3. ("helheten är större än delen");
  4. (subadditivitet).

Axiomsystem för likhetsmått föreslogs av: A. Renyi [20] , Yu. A. Voronin [21] [22] , A. Tversky [23] , A. A. Vikentiev, G. S. Lbov [24] , G. V. Raushenbakh [25] , B. I. Semkin [26] [27] och andra.

Som regel presenteras en uppsättning närhetsmått i form av matriser av typen "objekt-till-objekt". Dessa är till exempel likhetsmatriser , avståndsmatriser (i vid mening - skillnader), matriser av gemensamma sannolikheter, matriser av informationsfunktioner. De flesta av dem kan byggas på basis av: absoluta eller relativa mått, och de kan i sin tur vara symmetriska eller asymmetriska (de senare kallas ofta inklusionsmått).

Flerplatskoefficienter

Sådana koefficienter används för att jämföra en serie objekt. Dessa inkluderar: Alekhines medellikhet, Kochs biotiska spridningsindex, Shennikovs spridningskoefficient (spridningskoefficient), Whittakers beta-diversitetsmått , Mirkin- Rosenbergs mått på homotonicitet och dess dubbla mått på heterotonicitet och Semkins mått likhetskoefficient för en serie beskrivningar. I utländsk litteratur återfinns mått av denna typ under namnen: multidimensionella koefficienter, n -dimensionella koefficienter, multiple-site likhetsmått, multidimensional koefficient, multipelgemenskapsmått [28] [29] [30] . Den mest kända koefficienten föreslogs av L. Koch [31] :

,

där , det vill säga summan av antalet funktioner för vart och ett av objekten; , det vill säga det totala antalet funktioner;  — en mängd av n mängder (objekt).

Mätningsprogram

Som regel beräknas närhetsmått i programmets klusteranalysmodul . Det vanligaste är Statistica , men i motsvarande modul presenteras inte likhetsmått alls, bara avstånd. SPSS (PASW Statistics) föreslår beräkningen av ett antal likhetsmått (Ohai, Jacquard, Sokal-Sneath, Kulchinsky, symmetriska tärningsmått). Det finns ett stort antal små program för att beräkna närhetsmått och efterföljande grafisk representation av beroenden [32] [33] . Likhetsmått presenteras ytterst sällan och främst i specialiserade program för biologer [34] : Graphs, NTSYS, BIODIV, PAST, och även där är de extremt få (vanligtvis bara Jaccard-måttet och ibland Sørensen-måttet). Vi kan också notera TurboVEG och IBIS [35] , som är baserade på en databas med bearbetningsmoduler, och IBIS-programmet implementerar det största antalet närhetsmått som för närvarande används inom biologi, geografi och andra områden.

Se även

Anteckningar

  1. Magurran A.E. Mätning av biologisk mångfald. - Oxford, Storbritannien.: Blackwell Publishing, 2004. - 256 sid.
  2. Pesenko Yu. A. Principer och metoder för kvantitativ analys i faunistisk forskning Arkivexemplar daterad 20 december 2014 på Wayback Machine . — M.: Nauka, 1982. — 287 sid.
  3. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241-272.
  4. Sörensen T. En metod för att etablera grupper med lika amplitud i växtsociologin baserat på likheter mellan artinnehåll // Kongelige Danske Videnskabernes Selskab. Biol. krifter. Bd V. nr 4. 1948. S. 1-34.
  5. Kulczinsky S. Zespoly roslin w Pienach // Bull. internera. acad. polon. sci. Lett. Cl. sci. matematik. natur. Ser. F. 1927. S. 2. S. 57-203.
  6. Ochiai A. Zoogeografiska studier på soleoidfiskarna hittade Japan och dess närliggande regioner.  (ej tillgänglig länk) II // Bull. Japan. soc. sci. fisk. 1957. V. 22. Nr 9. P. 526-530. (Sammanfattning på engelska. Huvudtexten i artikeln på japanska.)
  7. Szymkiewicz D. Une bidrag statistique a la géographie floristique // Acta Soc. Bot. Polon. 1934. T. 34. Nr 3. S. 249-265.
  8. Simpson GG Holarktiska däggdjursfaunas och kontinentala relationer under kenozoikum // Bull. geol. sci. Amerika. 1947. V. 58. S. 613-688.
  9. Braun-Blanquet J. Pflanzensoziologie Grundzüge der Vegetationsskunde. - Berlin: Verlaq von Julius springer, 1928. - 330 s.
  10. Sokal RR , Sneath PHA Principer för numerisk taxonomi Arkiverad 5 mars 2016 på Wayback Machine . - San Francisco: London: Freeman, 1963. - 359 sid.
  11. Sneath PHA, Sokal RR Numerisk taxonomi: Principerna och metoderna för numerisk klassificering Arkiverad 5 mars 2016 på Wayback Machine . - San-Francisco: Freeman, 1973. - 573 sid.
  12. Konstantinov A.S. Användningen av mängdteori i biogeografisk och ekologisk analys // Usp. modern biol. 1969. T. 67. nr. 1. C 99-108.
  13. Levandowsky M., Winter D. Avstånd mellan uppsättningar Arkiverad 5 mars 2016 på Wayback Machine // Nature. 1971. V.234. nr 5323. S. 34-35.
  14. Kovalevskaya V. B., Pogozhev I. B. , Pogozheva (Kusurgasheva) A. P. Kvantitativa metoder för att bedöma graden av närhet till monument med procentandelen massmaterial // Sovjetisk arkeologi. 1970. Nr 3. S. 26-39.
  15. Renkonen O. Statistisch-ökologische Untersuchungen über die terrestrische Käferwelt finischen Bruchmoore // Acta zool. soc. zool.-bot. fenn. Vanamo. 1938. V. 6. fasc. 1. P. 1-231.
  16. Semkin B. I. Beskrivande uppsättningar och deras tillämpningar // Studie av system. T. 1. Analys av komplexa system. Vladivostok: DVNTs AN SSSR, 1973, s. 83-94.
  17. Semkin B. I. Graph-theoretic methods in comparative floristry Arkivexemplar av 5 mars 2016 på Wayback Machine // I boken: Theoretical and methodological problems of comparative floristry: Materials of the 2nd workshop on comparative floristry. - Neringa: 1983. - S. 149-163.
  18. Semkin B. I., Dvoychenkov V. I. Om likvärdigheten mellan mått på likhet och skillnad Arkivexemplar daterad 5 mars 2016 på Wayback Machine // Systems Research. T. 1. Analys av komplexa system. Vladivostok: DVNTs AN SSSR, 1973, s. 95-104.
  19. Chao A, Chazdon RL, Colwell RK, Shen TJ. Överflödsbaserade likhetsindex och deras uppskattning när det finns osedda arter i prover Arkiverad 4 september 2012 på Wayback Machine // Biometrics. 2006. nr 62. P.361-371.
  20. Rényi A. Om mått på beroende  (länk ej tillgänglig) // Acta Math. Acad. Science. hängde. 1959.V.10. Nr 3-4. s. 441-451.
  21. Voronin Yu. A. Introduktion av likhets- och anslutningsåtgärder för att lösa geologiska och geofysiska problem // Dokl. USSR:s vetenskapsakademi. 1971. V. 139. Nr 5. S. 64-70.
  22. Voronin Yu. A. Början av likhetsteorin. - Novosibirsk: Vetenskap. Sib. Institutionen, 1991. - 128 sid.
  23. Tversky A. Likhetsdrag // Psychological Review. 1977. V.84. nr 4. s. 327-352.
  24. Vikentiev A. A., Lbov G. S. Om metriseringar av den booleska algebra av meningar och informativiteten hos expertutlåtanden // Dokl. EN. Informatik. 1998. V. 361. Nr 2. S. 174-176.
  25. Raushenbakh G.V. Mått på närhet och likhet // Analys av icke-numerisk information om sociologisk forskning. M.: Nauka, 1985. S. 169-203.
  26. Semkin B. I., Gorshkov M. V. Systemet av axiom för symmetriska funktioner för två variabler och mått som mäter förhållandet mellan likhet, skillnad, kompatibilitet och beroende för biologisk mångfaldskomponenter Arkivkopia av 16 december 2018 på Wayback Machine // Vestnik TSEU. 2008. Nr 4. S. 31-46.
  27. Semkin B. I., Gorshkov M. V. Axiomatisk introduktion av mått på likhet, skillnad, kompatibilitet och beroende för biologisk mångfaldskomponenter i ett flerdimensionellt fall // Bulletin of KrasGAU . 2009. Nr 12. S. 18-24.
  28. ↑ Chao A., Hwang WH , Chen YC , Kuo CY Uppskattning av antalet delade arter i två samhällen Sinica. 2000. Nr 10. S. 227-246.  
  29. Baselga A., Jiménez-Valverde A., Niccolini G. Ett likhetsmått på flera platser oberoende av rikedom Arkiverad 5 mars 2016 på Wayback Machine // Biol. Lett. 2007. Nr 3. P. 642-645.
  30. Diserud OH, Ødegaard F. A multiple-site likhetsmått  (länk ej tillgänglig) // Biol. Lett. 2007. Nr 3. S. 20-22.
  31. Koch LF Index av biotal dispersitet // Ekologi. 1957. V. 38. Nr 1. S. 145-148.
  32. http://www.biometrica.tomsk.ru/list/other.htm Arkiverad 16 januari 2012 på Wayback Machine Internet Statistical Resources
  33. http://evolution.genetics.washington.edu Arkiverad 18 april 2022 på Wayback Machine Programs for Phylogenetic Calculation vid University of Washington Internet Portal
  34. Novakovsky A. B. Genomgång av mjukvaruverktyg som används för analys av geobotaniska data // Rysslands vegetation. 2006. Nr 9. S. 86-95.
  35. Zverev A. A. Informationsteknik inom vegetationstäckforskning. - Tomsk: TML-Press, 2007. -304 sid.