Föreningens regelutbildning

Association rule learning , eller association rule search, är en regelbaserad metod för inlärningsmaskiner för att upptäcka intresserelationer mellan variabler i en databas . En metod föreslås för att etablera starka regler som finns i en databas med hjälp av några mått på intressanta [1] . Detta regelbaserade tillvägagångssätt genererar också nya regler när mer data analyseras. Det slutliga målet, givet en tillräckligt stor uppsättning data, är att hjälpa maskinen att efterlikna mänskliga egenskapersextraktion och skapa förmågan att hitta abstrakta associationer från nya oklassificerade data [2] .

Baserat på konceptet med strikta regler, lade Rakesh Agrawal, Tomasz Imelinsky och Arun Swami [3] fram associationsregler för att upptäcka mönster mellan produkter i stora transaktioner för data som registreras av POS- system i stormarknader. Till exempel kan regeln {lök, potatis} => { hamburgare } som finns i försäljningsdata från snabbköp innebära att om en kund köper lök och potatis tillsammans, är det mer sannolikt att de köper en hamburgare också. Den här typen av information kan användas som grund för beslut om marknadsföringsåtgärder, till exempel kampanjpriser eller produktplacering .

Utöver exemplet på marknadskorganalys ovan , används nu associationsregler inom många andra områden, inklusive webbbrytning , intrångsdetektering , kontinuerlig och . Till skillnad från sekventiell mönsterdetektering tar inlärning av associationsregel vanligtvis inte hänsyn till ordningen på element inom en transaktion eller över transaktioner.

Definition

Exempeldatabas med 5 transaktioner och 5 artiklar
Transaktions ID mjölk bröd olja öl blöjor
ett ett ett 0 0 0
2 0 0 ett 0 0
3 0 0 0 ett ett
fyra ett ett ett 0 0
5 0 ett 0 0 0

Efter den ursprungliga definitionen av Agrawal, Imelinsky och Swami [4] ställs problemet med att hitta föreningsregler som följer:

Låt en uppsättning binära attribut som kallas objekt ges .

Låt en uppsättning transaktioner, som kallas en databas, ges .

Varje transaktion i har ett unikt transaktions-ID (nummer) och består av en delmängd av objekt från .

En regel definieras som en implikation av formuläret:

, var .

I artikeln av Agrawal, Imelinsky, Swami [4] definieras regeln endast mellan en uppsättning och ett enda objekt för .

Varje regel består av två olika uppsättningar av objekt, även känd som objektuppsättningar , och , där kallas den första operanden eller vänster sida , och är den andra operanden eller höger sida .

För att illustrera konceptet, låt oss använda ett litet exempel från stormarknadsområdet. Uppsättningen av objekt I är mjölk, bröd, smör, öl, blöjor, och tabellen ovan visar en liten databas som innehåller objekt, där värdet 1 betyder närvaron av objektet i motsvarande transaktion och värdet 0 betyder frånvaron av objektet i transaktionen.

Ett exempel på en regel för en stormarknad skulle vara {smör, bröd} => {mjölk}, vilket innebär att om man köper smör och bröd kommer kunden också att köpa mjölk.

Obs: Det här exemplet är extremt litet. I praktiska tillämpningar måste en regel vara uppfylld i några hundra tusen transaktioner innan den anses statistiskt signifikant, och databaser innehåller ofta tusentals eller miljoner transaktioner.

Användbara begrepp

För att välja en regel av intresse från uppsättningen av alla möjliga regler används begränsningar av olika mått på betydelse och meningsfullhet. De mest kända begränsningarna är minimigränsen för stöd och tillit.

Låt vara en uppsättning objekt, vara en associationsregel och vara en uppsättning transaktioner för den givna databasen.

Support

Support är ett mått på hur ofta en uppsättning objekt finns i databasen.

Set support against to definieras som förhållandet mellan antalet transaktioner i databasen som innehåller uppsättningen och det totala antalet transaktioner.

I vårt exempel har datamängden X={öl, blöjor} stöd eftersom den finns i 20 % av alla transaktioner (1 av 5 transaktioner). Ett funktionsargument är en uppsättning förutsättningar och blir därför mer restriktiv när det expanderar (i motsats till mer inkluderande) [5] .

Lita på

Förtroende är ett mått på hur ofta en regel är sann.

Förtroendevärdet för en regel mot en uppsättning transaktioner är förhållandet mellan antalet transaktioner som innehåller både uppsättning och uppsättning och antalet transaktioner som innehåller uppsättning .

Förtroende definieras som:

Till exempel har regeln {smör, bröd} => {mjölk} databasförtroende, vilket innebär att för 100 % av transaktionerna som involverar smör och bröd är regeln sann (i 100 % av fallen när smör och bröd köps, mjölk är också köpt).

Notera vad det innebär att stödja objekt i X och Y. Detta är något förvirrande eftersom vi vanligtvis tänker i termer av sannolikheten för händelser , inte i termer av en uppsättning objekt. Vi kan skriva om som sannolikheten , var och är de händelser som transaktionen innehåller uppsättningar och respektive. [6]

Tillit kan förstås som en uppskattning av den villkorade sannolikheten , sannolikheten att hitta den högra sidan av regeln i transaktioner, givet att transaktionerna innehåller den vänstra sidan av regeln [5] [7] .

Hiss

Hiss regeln definieras som:

eller förhållandet mellan observerat stöd och det förväntade värdet av händelsen om X och Y var oberoende . Till exempel har regeln {mjölk, bröd} => {smör} en hiss .

Om regeln har en hiss på 1 betyder det att händelsen på vänster sida är oberoende av händelsen på höger sida. Om två händelser är oberoende, kan ingen regel dras från de två händelserna.

Om lyft > 1 låter detta oss veta i vilken utsträckning händelser är relaterade till varandra och gör dessa regler potentiellt användbara för att förutsäga resultatet i framtida datamängder.

Om lyftet < 1 betyder det att föremålen ersätter varandra. Detta innebär att närvaron av ett objekt har en negativ effekt på närvaron av ett andra objekt, och vice versa.

Värdet på lyftet tar hänsyn till både regelns tillförlitlighet och allmänna data [5] .

Förtroende

Säkerheten för en regel definieras som .

Till exempel har regeln {mjölk, bröd} => {smör} säkerhet och kan förstås som förhållandet mellan den förväntade frekvensen som X inträffar utan Y (med andra ord, frekvensen som regeln missförutsäger) om X och Y var oberoende och den observerade felförutsägelsefrekvensen. I det här exemplet indikerar ett konfidensvärde på 1,2 att regeln {mjölk, bröd} => {smör} kommer att vara fel 20 % oftare (1,2 gånger oftare) om sambandet mellan X och Y var en ren slump.

Bearbeta

Föreningsregler krävs vanligtvis för att uppfylla ett användardefinierat minimistöd och ett användardefinierat minimiförtroende. Generering av associationsregel är vanligtvis uppdelad i två steg:

  1. Den lägsta stödtröskeln används för att hitta alla vanliga funktionsuppsättningar i databasen.
  2. En minsta förtroendebegränsning tillämpas på dessa uppsättningar för att bilda regeln.

Det andra steget är enkelt och tydligt, medan det första steget kräver mer uppmärksamhet.

Att hitta alla frekventa uppsättningar i en databas är svårt eftersom det handlar om att hitta alla möjliga uppsättningar (kombinationer av objekt). Uppsättningen av möjliga uppsättningar är en boolesk över och har en storlek (förutom den tomma uppsättningen , som inte är en giltig uppsättning). Även om storleken på Boolean växer exponentiellt med antalet objekt i , är effektiv sökning möjlig med hjälp av top-down support closure-egenskapen [4] (även kallad antimonotonicitet [8] ), som säkerställer att för en ofta förekommande uppsättning, alla dess delmängder förekommer också ofta och kan därför inte vara sällsynta delmängder av en ofta förekommande uppsättning. Genom att använda denna egenskap kan effektiva algoritmer (t.ex. Apriori [9] och Eclat [10] ) hitta alla ofta förekommande uppsättningar.

Historik

Föreningsregelkonceptet blev populärt med en artikel från 1993 av Agrawal, Imelinsky, Swamy [3] , som enligt Google Scholar hade över 18 000 citeringar i augusti 2015, och är en av de mest citerade tidningarna inom området Data Mining ( söka efter mönster i databaser). Det som numera kallas "association rules" introducerades dock redan i en artikel från 1966 [11] om GUHA-systemet, en allmän dataanalysmetod utvecklad av Piotr Gajek et al. [12] .

I början av (ungefär) 1989, för att söka efter minsta stöd och förtroende för att söka efter alla associationsregler, användes Feature Based Modeling-systemet ,  som hittar alla regler med värden och som är större än användarspecificerade gränser [ 13] .

Alternativa mått på intressanthet

Förutom förtroende har andra mått av intresse för regler föreslagits. Några populära åtgärder:

Flera andra mått har presenterats och jämförts av Tan, Kumar och Srivasthana [19] samt Hasler [6] . Att hitta tekniker som kan modellera vad användaren vet (och använda det som ett mått på intresse) är för närvarande en aktiv forskningstrend som kallas "Subjective Interest".

Statistiskt sunda associationer

En av begränsningarna med standardmetoden för associationsdetektering är att när man söker igenom ett stort antal möjliga associationer efter en uppsättning objekt som kan associeras, finns det en stor risk att hitta ett stort antal slumpmässiga associationer. Det är samlingar av objekt som dyker upp tillsammans med oväntad frekvens i datan, men rent av en slump. Anta till exempel att vi tittar på en uppsättning av 10 000 objekt och letar efter en regel som innehåller två objekt på vänster sida och ett objekt på höger sida. Det finns ungefär 1 000 000 000 000 sådana regler. Om vi ​​tillämpar ett statistiskt oberoendetest med en nivå på 0,05 betyder det att det bara finns 5 % chans att acceptera regeln i frånvaro av en association. Om vi ​​antar att det inte finns några föreningar bör vi ändå räkna med att hitta 50 000 000 000 regler. Statistiskt sund associationsdetektering [20] [21] kontrollerar denna risk, vilket i de flesta fall minskar risken för att hitta någon slumpmässig association för en användarspecificerad signifikansnivå .

Algoritmer

Många algoritmer har föreslagits för att generera associationsregler.

Ett fåtal algoritmer är välkända, Apriori , Eclat och FP-Growth, men de gör bara halva jobbet eftersom de är designade för att hitta ofta förekommande uppsättningar av objekt. Ytterligare ett steg måste tas efter att de ofta förekommande uppsättningarna har hittats i databasen.

Apriori-algoritm

Apriori-algoritmen [9] använder en bredd-först sökstrategi för att räkna objekt och använder en kandidatgenereringsfunktion som är baserad på stängningsegenskapen för stöd uppifrån och ned.

Eclat-algoritmen

Eclat [10] -algoritmen (eller ECLAT, från Equivalence Class Transformation ) är en djup-först-sökalgoritm baserad på uppsatt skärningspunkt. Algoritmen är lämplig för både seriell och parallell exekvering med lokala förbättringsegenskaper [22] [23] .

FP-tillväxtalgoritm

FP-algoritmen är utformad för att identifiera ofta förekommande mönster [24] .

I det första passet räknar algoritmen förekomsten av objekt (attribut-värdepar) i uppsättningarna och lagrar dem i "huvudtabellen". Vid det andra passet bygger algoritmen FP-trädstrukturen genom att infoga instanser. Objekten i varje instans måste ordnas i fallande ordning efter deras förekomstfrekvens i uppsättningen, så att trädet kan bearbetas snabbt. Objekt i varje instans som inte når minimigränsen kasseras. Om många instanser delar de objekt som oftast stöts på, ger ett FP-träd hög komprimering nära trädets rot.

Den rekursiva bearbetningen av denna version av huvuduppsättningens LOB-tillväxtkompression tilldelas direkt, snarare än att generera kandidater och sedan kontrollera mot hela basen. Tillväxten börjar från botten av rubriktabellen genom att hitta alla instanser som matchar de givna villkoren. Ett nytt träd skapas med antal härledda från det ursprungliga trädet och som motsvarar en uppsättning instanser som beror på attributet, och varje nod får summan av antalet underordnade. Den rekursiva tillväxten avbryts när det inte finns några objekt kvar som uppfyller minimistödtröskeln, och arbetet fortsätter med de återstående delarna av rubrikerna i det ursprungliga FP-trädet.

När den rekursiva processen är avslutad hittas alla stora uppsättningar av objekt med minsta täckning och skapandet av associationsregeln börjar [25] .

Andra

AprioriDP

AprioriDP [26] använder dynamisk programmering i analysen av ofta förekommande uppsättningar av objekt. Funktionsprincipen är eliminering av kandidatgenerering som i ett FP-träd, men algoritmen kommer ihåg stödräknare inte i ett träd, utan i en specifik struktur.

Kontextbaserad associationsregelsökningsalgoritm

CBPNARM är en algoritm som utvecklades 2013 för att upptäcka associerade regler baserat på sammanhang. Algoritmen använder en kontextvariabel, baserad på vilken objektuppsättningens stödvärde ändras och, baserat på denna regel, överförs till regeluppsättningen.

Algoritmer baserade på en uppsättning noder

FIN [27] , PrePost [28] och PPV [29] är tre algoritmer baserade på noduppsättningar. De använder noderna i FP-trädets kodning för att representera uppsättningar av objekt och stöder en sökstrategi för djupet först för att upptäcka ofta förekommande uppsättningar av objekt genom att "korsa" noduppsättningarna.

ASSOC-proceduren för GUHA-metoden

GUHA är en generell dataanalysteknik som har teoretiska grunder [30] .

ASSOC-proceduren [31] är en GUHA-metod som söker efter allmänna associationsregler med hjälp av snabba bitsträngsoperationer . Associationsreglerna som avslöjas med denna metod är mer generella än de som erhålls med Apriori-metoden, till exempel kan "objekt" kopplas samman med både konjunktion och disjunktion, och förhållandet mellan den vänstra sidan och den högra sidan av regeln är inte begränsad att sätta minimivärdena för stöd och förtroende som i Apriori-metoden. — en godtycklig kombination av mått av intresse kan användas.

Sök OPUS

OPUS är en effektiv algoritm för regelupptäckt som, till skillnad från många alternativ, varken kräver monotonicitet eller antimonotonicitetsbegränsningar, såsom i stödminimum [32] . OPUS sök är kärntekniken i den populära Magnum Opus föreningssökmotor.

Legends

Det finns en berömd historia om upptäckten av föreningsregler, det här är historien om "öl och blöjor". Uppenbarligen har någon genomgång av shoppingbeteendet i en stormarknad visat att shoppare (förmodligen unga) som köper blöjor ofta också köper öl. Den här novellen har blivit populär som ett exempel på hur oväntade associationsregler kan hittas i vardagsdata. Det finns många åsikter om hur sann berättelsen är [33] . Daniel Powers sa: [33]

1992 förberedde Thomas Blishock, chef för detaljhandelskonsultgruppen på Teradata Corporation , en analys av 1,2 miljoner "marknadskorgar" (dvs inköp gjorda av en enskild kund) från cirka 25 Osco-apotek. Databasfrågor har utvecklats för att upptäcka egenskaperna hos korgar. Analysen "visade att i intervallet från 17:00 till 19:00 köper köpare öl och blöjor." Oscos apotekschefer använde INTE att placera produkter närmare varandra på hyllorna för att få öl och blöjbindning.

Andra typer av upptäckt av associationsregel

Multi-Relation Association Rules ( MRAR ) är associationsregler där varje objekt kan ha flera länkar .  Dessa relationer visar indirekta relationer mellan enheter. Tänk på följande multiassociationsregel, där den första termen består av tre relationer bor i , nära och våt : "Två som bor på en plats som ligger nära en stad med fuktigt klimat och är under 20 år => deras hälsa är bra." Sådana associationsregler kan härledas från RDBMS-data eller semantiska internetdata [34] .

Kontextbaserade föreningsregler är ett slags föreningsregler. Det påstås att dessa regler är mer exakta i analysen av associationsregler och fungerar genom att överväga en latent variabel, kallad kontextvariabeln, som ändrar den slutliga uppsättningen av associationsregler beroende på kontextvariablernas värden. Till exempel speglar varukorgens orientering i marknadskorganalys udda resultat tidigt på månaden. Detta kan bero på sammanhang, som till exempel löner i början av månaden [35] .

Contrast set ären typ av associativ inlärning. Kontrastinlärninganvänder regler som skiljer sig markant i deras fördelning över delmängder [36] [37] .

Viktad klassinlärning är en annan typ av  associativ inlärning där vikter kan tilldelas klasser för att fokusera på specifika frågor av betydelse för datautvinningsresultat.

High- order mönsterupptäckt underlättar extraktion av högordningsmönster eller associationshändelser som är inneboende i komplexa verkliga data [ 38] . 

K-optimal mönsterdetektering tillhandahåller ett alternativ till standardinlärningsmetoden för associationsregel där varje mönster måste förekomma ofta i data.

Approximate Frequent Itemset mining är en svagare  version av Frequent Itemset mining som låter några av objekten i vissa rader vara lika med 0 [39] .

Generalized Association Riles -  hierarkisk klassificering

Kvantitativa associationsregler - kategoriska och kvantitativa data [ 40] [41] . 

Intervalldataassociationsregler - innehåller data uppdelade i intervall, till exempel ålder med ett intervall på 5 år . 

Sequence pattern mining hittar delsekvenser som ärminsup- sekvenser i databasen, där minsup-värdet ställs in av användaren. En sekvens är en ordnad lista över transaktioner [42] .

Subspace Clustering , en  specifik typ av högdimensionell dataklustring, är i många fall också baserad på top-down closure-egenskapen för specifika klustermodeller [43] .

Warmr levereras som en del av ACE-dataanalyssviten. Systemet tillåter inlärningsregler för relationsregler av första ordningen [44] .

Se även

Anteckningar

  1. Piatetsky-Shapiro, 1991 .
  2. Hur fungerar associationsutbildning? . deepai.org . Hämtad 11 november 2018. Arkiverad från originalet 17 februari 2019.
  3. 1 2 Agrawal, Imielinski, Swami, 1993 , sid. 207.
  4. 1 2 3 4 Tan, Steinbach, Kumar, 2005 .
  5. 123 Hahsler , 2005 .
  6. 12 Michael Hahsler (2015). En sannolikhetsjämförelse av allmänt använda intressemått för föreningsregler. http://michael.hahsler.net/research/association_rules/measures.html Arkiverad 2 augusti 2018 på Wayback Machine
  7. Hipp, Güntzer, Nakhaeizadeh, 2000 , sid. 58.
  8. Pei, Han, Lakshmanan, 2001 , sid. 433-442.
  9. 1 2 Agrawal, Srikant, 1994 , sid. 487-499.
  10. 1 2 Zaki, 2000 , sid. 372–390.
  11. Hájek, Havel, Chytil, 1966 , sid. 293-308.
  12. Hájek, Feglar, Rauch, Coufal, 2004 .
  13. Webb, 1989 , sid. 195–205.
  14. Omiecinski, 2003 , sid. 57-69.
  15. Aggarwal, Yu, 1998 , sid. 18-24.
  16. Brin, Motwani, Ullman, Tsur, 1997 , sid. 255-264.
  17. Piatetsky-Shapiro, 1991 , sid. 229-248.
  18. Brin, Motwani, Ullman, Tsur, 1997 , sid. 265-276.
  19. Tan, Kumar, Srivastava, 2004 , sid. 293-313.
  20. Webb, 2007 , sid. 1-33.
  21. Gionis, Mannila, Mielikäinen, Tsaparas, 2007 .
  22. Zaki, Parthasarathy, Ogihara, Li, 1997 .
  23. Zaki, Parthasarathy, Ogihara, Li, 1997 , sid. 343-373.
  24. HAN, PEI, YIN, MAO, 2000 , sid. 1–12.
  25. Witten, Frank, Hall: Datautvinning praktiska verktyg och tekniker för maskininlärning, 3:e upplagan
  26. Bhalodiya, Patel, Patel, 2013 .
  27. Deng, Lv, 2014 , sid. 4505–4512.
  28. Deng, Wang, Jiang, 2012 , sid. 2008-2030.
  29. Deng, Wang, 2010 , sid. 733 - 744.
  30. Rauch, 1997 , sid. 47-57.
  31. Hájek, Havranek, 1978 .
  32. Webb, 1995 , sid. 431-465.
  33. 1 2 DSS News: Vol. 3, nr. 23 . Hämtad 11 november 2018. Arkiverad från originalet 6 november 2018.
  34. Ramezani, Saraee, Nematbakhsh, 2014 , sid. 133-158.
  35. Shaheen, Shahbaz, Guergachi, 2013 , sid. 261-273.
  36. Webb, Butler, Newlands, 2003 .
  37. Menzies, Hu, 2003 , sid. 18-25.
  38. Wong och Wang 1997 , sid. 877–893.
  39. Liu, Paulsen, Sun, Wang, Nobel, Prins, 2006 .
  40. Angiulli, Ianni, Palopoli, 2003 , sid. 217–249.
  41. Salleb-Aouissi, Vrain och Nortet, 2007 , sid. 1035–1040.
  42. Zaki, 2001 , sid. 31–60.
  43. Zimek, Assent, Vreeken, 2014 , sid. 403–423.
  44. King, Srinivasan, Dehaspe, 2001 , sid. 173–81.

Litteratur

  • Gregory Piatetsky-Shapiro. Upptäckt, analys och presentation av starka regler // Knowledge Discovery in Databases / Piatetsky-Shapiro, Gregory; och Frawley, William J. - Cambridge, MA: AAAI/MIT Press, 1991.
  • Michael Hahsler. Introduktion till arules – En beräkningsmiljö för gruvföreningsregler och frekventa objektuppsättningar  // Journal of Statistical Software. — 2005.
  • Hipp J., Güntzer U., Nakhaeizadeh G. Algorithms for association rule mining --- en allmän undersökning och jämförelse // ACM SIGKDD Explorations Newsletter. - 2000. - T. 2 . - doi : 10.1145/360402.360421 .
  • Reza Ramezani, Mohamad Saraee, Mohammad Ali Nematbakhsh. MRAR: Mining Multi-Relation Association Rules // Journal of Computing and Security. - 2014. - T. 1 , nr nr. 2 .
  • Agrawal R., Imieliński T., Swami A. Gruvföreningens regler mellan uppsättningar av objekt i stora databaser // Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93. - 1993. - ISBN 0897915925 . - doi : 10.1145/170035.170072 .
  • JIAWEI HAN, JIAN PEI, YIWEN YIN, RUNYING MAO. Mining frekventa mönster utan kandidatgenerering // Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. - 2000. - T. SIGMOD '00 . — S. 1–12 . - doi : 10.1145/342009.335372 .
  • Edward R. Omiecinski. Alternativa intresseåtgärder för gruvföreningar i databaser // IEEE Transactions on Knowledge and Data Engineering. - 2003. - Jan / Feb ( vol. 15 , nummer 1 ).
  • Charu C. Aggarwal, Philip S. Yu. Ett nytt ramverk för generering av objektuppsättningar // PODS 98, Symposium on Principles of Database Systems, Seattle, WA, USA, 1998. - New York, NY, USA: ACM, 1998. - S. 18-24.
  • Sergey Brin, Rajeev Motwani, Jeffrey D. Ullman, Shalom Tsur. Dynamisk artikeluppräkning och implikationsregler för marknadskorgdata // SIGMOD 1997, Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOD 1997). — Tucson, Arizona, USA, 1997.
  • Petr Hájek, Ivan Havel, Metoděj Chytil. GUHA-metoden för automatisk hypotesbestämning // Computing. - 1966. - Utgåva. 1 .
  • Petr Hájek, Tomas Feglar, Jan Rauch, David Coufal. GUHA-metoden, dataförbearbetning och gruvdrift // Databasstöd för datautvinningsapplikationer. - Springer, 2004. - ISBN 978-3-540-22479-2 .
  • Geoffrey Webb. A Machine Learning Approach to Student Modeling // Proceedings of the Third Australian Joint Conference on Artificial Intelligence (AI 89). — 1989.
  • Pang-Ning Tan, Vipin Kumar, Jaideep Srivastava. Att välja rätt objektivt mått för associationsanalys // Informationssystem. - 2004. - T. 29 , nr. 4 .
  • Shaheen M., Shahbaz M., Guergachi A. Kontextbaserad positiv och negativ Spatio Temporal Association Rule Mining // Elsevier Knowledge-Based Systems. — 2013.
  • Jan Rauch. Logiska kalkyler för kunskapsupptäckt i databaser // Proceedings of the First European Symposium on Principles of Data Mining and Knowledge Discovery. — Springer, 1997.
  • Petr Hájek, Tomáš Havranek. Mekanisera hypotesbildning: Matematiska grunder för en allmän teori . - Springer-Verlag, 1978. - ISBN 3-540-08738-9 .
  • Geoffrey I. Webb. onlineåtkomst OPUS: An Efficient Admissible Algorithm for Unordered Search  // Journal of Artificial Intelligence Research 3. - Menlo Park, CA: AAAI Press, 1995.
  • Roberto J. Bayardo Jr., Rakesh Agrawal, Dimitrios Gunopulos. Restriktionsbaserad regelutvinning i stora, täta databaser // Data Mining and Knowledge Discovery. - 2000. - T. 4 , nr. 2 . - doi : 10.1023/A:1009895914772 .
  • Webb GI, Butler S., Newlands D. Om att upptäcka skillnader mellan grupper // KDD'03 Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . – 2003.
  • Tim Menzies, Ying Hu. Datautvinning för mycket upptagna människor // IEEE-dator. - 2003. - Oktober.
  • Andrew KC Wong, Yang Wang. Mönsterupptäckt av hög ordning från data med diskret värde // IEEE Transactions on Knowledge and Data Engineering (TKDE). — 1997.
  • Fabrizio Angiulli, Giovambattista Ianni, Luigi Palopoli. Om komplexiteten i att framkalla kategoriska och kvantitativa associationsregler  // Teoretisk datavetenskap. - 2003. - T. 314 , nr. 1-2 . - doi : 10.1016/j.tcs.2003.12.017 .
  • Ansaf Salleb-Aouissi, Christel Vrain, Cyril Nortet. QuantMiner: A Genetic Algorithm for Mining Quantitative Association Rules // International Joint Conference on Artificial Intelligence (IJCAI). – 2007.
  • Mohammed J. Zaki. SPADE: En effektiv algoritm för utvinning av frekventa sekvenser // Machine Learning Journal. - 2001. - Utgåva. 42 .
  • Geoffrey I. Webb. Effektiv sökning efter föreningsregler // Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2000) Boston, MA, New York, NY / Raghu Ramakrishnan, Sal Stolfo. - Föreningen för datormaskiner, 2000.
  • Mohammed Javeed Zaki, Srinivasan Parthasarathy, M. Ogihara, Wei Li. Nya algoritmer för snabb upptäckt av associationsregler // KDD. — 1997.
  • Arthur Zimek, Ira Assent, Jilles Vreeken. Frequent Pattern Mining Algoritmer för datakluster. - 2014. - doi : 10.1007/978-3-319-07821-2_16 .
  • King R.D., Srinivasan A., Dehaspe L. Warmr: ett datautvinningsverktyg för kemiska data. // J Comput Aided Mol Des. - 2001. - Februari ( vol. 15 , nummer 2 ). — PMID 11272703 .
  • Geoffrey I. Webb. Upptäck betydande mönster  // Machine Learning. - Nederländerna: Springer, 2007. - T. 68 , nr. 1 .
  • Aristides Gionis, Heikki Mannila, Taneli Mielikäinen, Panayiotis Tsaparas. Bedöma datautvinningsresultat via Swap Randomization // ACM Transactions on Knowledge Discovery from Data (TKDD). - 2007. - December ( vol. 1 , nummer 3 ). Artikel nummer. fjorton
  • Jinze Liu, Susan Paulsen, Xing Sun, Wei Wang, Andrew Nobel, Jin Prins. Mining ungefärliga vanliga objektuppsättningar i närvaro av buller: Algoritm och analys. // Proceedings of the 2006 SIAM International Conference on Data Mining . – 2006.
  • Mohammed Javeed Zaki, Srinivasan Parthasarathy, Mitsunori Ogihara, Wei Li. Parallella algoritmer för upptäckt av associationsregler // Data Mining och Knowledge Discovery. - 1997. - Vol. 1 , nummer. 4 .
  • Deng ZH, Lv SL Snabb brytning av frekventa objektuppsättningar med hjälp av Nodesets  // Expertsystem med applikationer. - 2014. - T. 41 , nr. 10 . — S. 4505–4512 .
  • Deng ZH, Wang Z., Jiang J. En ny algoritm för snabb gruvdrift av frekventa föremål med hjälp av N-listor // SCIENCE KINA Informationsvetenskap. - 2012. - T. 55 , nr. 9 . Arkiverad från originalet den 19 december 2013.

Deng ZH, Wang Z. En ny snabb vertikal metod för att bryta frekventa mönster  // International Journal of Computational Intelligence Systems. - 2010. - Vol. 3 , nummer. 6 .

Bibliografi