Jaccard koefficient

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 21 september 2020; kontroller kräver 2 redigeringar .

Jaccardmått (floristisk gemenskapskoefficient, franska  coefficient de communaute , tyska  Gemeinschaftskoeffizient ) är ett binärt mått på likhet , föreslog av Paul Jaccard 1901. [1]  : , där a  är antalet arter på den första försöksytan, b  är antalet arter på den andra försöksytan, c  är antalet arter som är gemensamma för 1:a och 2:a fältet. Detta är den första kända likhetskoefficienten . Efternamnet på författaren till koefficienten i litteraturen översattes också som Jacquard eller Jacquard. Jaccard-koefficienten i olika modifieringar och register används aktivt inom ekologi, geobotanik, molekylärbiologi , bioinformatik , genomik , proteinomik, informatik och andra områden. Jaccard-måttet är ekvivalent (relaterat med ett monotont ökande beroende) med Sørensen -måttet och Sokal-Sneath-måttet för finita mängder (multipel tolkning):

Ett mått på skillnad som är 1:ans komplement till Jaccards likhetskoefficient kallas ett mått på floristisk kontrast [2] [3] . För fallet med beskrivande uppsättningar (beskrivande tolkning), i ekologi är dessa prover i överflöd , analogen till detta mått är Ruzicka-måttet [4] :

.

I ett särskilt fall, när komponenter av booleska vektorer används, det vill säga komponenter som bara tar två värden 0 och 1, är måttet känt som Tanimoto-koefficienten eller den utökade Jaccard-koefficienten [5] . Om objekt jämförs med förekomsten av arter (probabilistisk tolkning), det vill säga sannolikheterna för möten tas med i beräkningen, så kommer analogen till Jaccard-måttet att vara Iversen- sannolikhetsmåttet [6] :

.

För informativ analytisk tolkning används Raiskys mått på ömsesidigt beroende [7] [8] [9] :

Måttet på skillnaden som är lika ekvivalent med Jaccards likhetsmått är avståndet:

Se även

Litteratur

  1. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241-272.
  2. Mirkin B. M., Rosenberg G. S. Förklarande ordbok för modern fytocenologi. — M.: Nauka, 1983. — 134 sid.
  3. Mirkin B. M., Rosenberg G. S., Naumova L. G. Ordbok över begrepp och termer för modern fytocenologi. — M.: Nauka, 1989. — 223 sid.
  4. Ružička MK Anwendung mathematiseh-statistiseher Methoden in der Geobotanik (sintetischa Bearbeitung von Aufnahmen) // Biology. 1958. Roč. 13.ch. 9. S. 647-661.
  5. Tanimoto TT IBM Internal Report 17 november. 1957.
  6. Iversen J. Über die Korrelationen zwischen den Pflanzenarten in einem grönlandischen Talgebiet // Vegetation. 1954. V. 5-6. s. 238-246.
  7. Raijski C. Ett metriskt utrymme av diskreta sannolikhetsfördelningar // Information och kontroll. 1961. V. 4. Nr 4. P. 371-377.
  8. Raijski C. Entropi och metriska utrymmen // C. Cherry (red.). informationsteori. London: Butterworths, 1961, s. 41-45.
  9. Eliseeva I. I., Rukavishnikov V. O. Gruppering, korrelation, mönsterigenkänning: (statistiska metoder för att klassificera och mäta samband). — M.: Statistik, 1977. — 143 sid.