Datautvinning

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 7 maj 2022; kontroller kräver 6 redigeringar .

Data mining ( ryska data mining, data mining, data mining ) är ett samlingsnamn som används för att referera till en uppsättning metoder för att upptäcka tidigare okända, icke-triviella, praktiskt användbara och tillgängliga kunskaper i data , nödvändiga för att fatta beslut inom olika områden av mänsklig aktivitet. Termen introducerades av Grigory Pyatetsky-Shapiro 1989 [ 1] [2] [3] .

Den engelska frasen " data mining " har ännu inte en väletablerad översättning till ryska. Vid sändning på ryska används följande fraser [4] : informationssifting , datautvinning, datautvinning samt datautvinning [ 5] [6] [7] . Mer komplett och korrekt är frasen " kunskapsupptäckt i databaser " ( engelska kunskapsupptäckten i databaser , KDD).

Grunden för datautvinningsmetoder är alla typer av klassificerings-, modellerings- och prognosmetoder baserade på användningen av beslutsträd , artificiella neurala nätverk , genetiska algoritmer , evolutionär programmering , associativt minne , fuzzy logik . Data mining-metoder inkluderar ofta statistiska metoder ( deskriptiv analys , korrelations- och regressionsanalys , faktoranalys , variansanalys , komponentanalys , diskriminantanalys , tidsserieanalys , överlevnadsanalys , relationsanalys ). Sådana metoder förutsätter dock vissa a priori idéer om den analyserade datan, vilket är något i strid med målen för datautvinning (upptäcka tidigare okända icke-trivial och praktiskt användbar kunskap).

Ett av de viktigaste syftena med datautvinningsmetoder är att visualisera resultaten av beräkningar (visualisering), vilket möjliggör användning av datautvinningsverktyg av personer som inte har någon speciell matematisk utbildning.

Tillämpning av statistiska metoder för dataanalys kräver goda kunskaper i sannolikhetsteori och matematisk statistik .

Introduktion

Data mining-metoder (eller, vad är samma sak, kunskapsupptäckt i data, KDD för kort) ligger i skärningspunkten mellan databaser , statistik och artificiell intelligens [8] .

Historisk utvikning

Området för datautvinning började med ett seminarium som hölls av Grigory Pyatetsky-Shapiro 1989 [1] .

Tidigare, när han arbetade på GTE Labs, blev Grigory Pyatetsky-Shapiro intresserad av frågan: är det möjligt att automatiskt hitta vissa regler för att påskynda vissa frågor till stora databaser. Samtidigt föreslogs två termer - datautvinning (”data mining” [9] ) och kunskapsupptäckt i data (vilket ska översättas till “kunskapsupptäckt i databaser”).

1993 släpptes den första e-postlistan Knowledge Discovery Nuggets, och 1994 skapades en av de första dataminingsidorna.

Förklaring av problemet

Inledningsvis är uppgiften inställd enligt följande:

det finns en ganska stor databas;
det antas att det finns någon "dold kunskap" i databasen.

Det är nödvändigt att utveckla metoder för att upptäcka kunskap gömd i stora volymer av initial "rå" data. Under rådande globala konkurrensförhållanden är det de hittade mönstren (kunskapen) som kan vara en källa till ytterligare konkurrensfördelar.

Vad betyder "dold kunskap"? Det måste vara kunskap om:

tidigare okänd - det vill säga sådan kunskap som borde vara ny (och inte bekräfta någon tidigare mottagen information);
icke-triviala - det vill säga de som inte helt enkelt kan ses (med direkt visuell analys av data eller vid beräkning av enkla statistiska egenskaper);
praktiskt användbar - det vill säga sådan kunskap som är av värde för forskaren eller konsumenten;
tillgänglig för tolkning - det vill säga sådan kunskap som är lätt att presentera i visuell form för användaren och lätt att förklara vad gäller ämnesområdet.

Dessa krav bestämmer till stor del essensen av datautvinningsmetoder och i vilken form och i vilken proportion databashanteringssystem , statistiska analysmetoder och metoder för artificiell intelligens används inom datautvinningsteknik.

Data mining och databaser

Data mining-metoder kan tillämpas både för att arbeta med big data och för att bearbeta relativt små mängder data (erhållna t.ex. från resultat av enskilda experiment, eller vid analys av data om företagets verksamhet) . Som ett kriterium för en tillräcklig mängd data beaktas både studieområdet och den tillämpade analysalgoritmen. .

Utvecklingen av databasteknologier ledde först till skapandet av ett specialiserat språk - databasfrågespråket. För relationsdatabaser är detta SQL- språket , som gav stora möjligheter att skapa, ändra och hämta lagrad data. Sedan fanns det ett behov av att skaffa analytisk information (till exempel information om ett företags verksamhet under en viss period), och då visade det sig att traditionella relationsdatabaser, väl anpassade, till exempel för att föra verksamhetsregister på ett företag, är dåligt anpassade för analys. Detta ledde i sin tur till skapandet av den sk. " datalager ", vars själva struktur är det bästa sättet att genomföra en omfattande matematisk analys.

Data mining och artificiell intelligens

Kunskap som erhålls genom data mining-metoder representeras vanligtvis i form av mönster (mönster) . Dessa är:

Algoritmer för att söka efter sådana mönster finns i skärningspunkten mellan områden: artificiell intelligens, matematisk statistik, matematisk programmering, visualisering, OLAP .

Datautvinning och affärer

Enligt IBM är bearbetningen av "big data" "förmågan att använda information på ett nytt sätt för att generera användbara idéer eller skapa varor och tjänster av högt värde" Denna definition behandlar big data som en typ av analys , eftersom att arbeta med dem syftar till att utvinna användbar information som kan ge en konkurrensfördel [10] .

Uppgifter

Uppgifterna som löses med data mining-metoder brukar delas in i beskrivande ( English descriptive ) och predictive ( English predictive ).

I deskriptiva uppgifter är det viktigaste att ge en visuell beskrivning av de befintliga dolda mönstren, medan i prediktiva uppgifter är frågan om förutsägelse för de fall för vilka det ännu inte finns data i förgrunden.

Beskrivande uppgifter inkluderar:

söka efter associationsregler eller mönster (prover);
gruppering av objekt, klusteranalys;
bygga en regressionsmodell.

Förutsägande uppgifter inkluderar:

klassificering av objekt (för fördefinierade klasser);
regressionsanalys , tidsserieanalys .

Inlärningsalgoritmer

Klassificeringsproblem kännetecknas av " övervakat lärande ", där konstruktionen (träningen) av modellen utförs på ett prov som innehåller in- och utdatavektorer.

För klustrings- och associationsproblem används " unsupervised learning ", där modellen bygger på ett sampel som inte har en outputparameter. Värdet på utdataparametern ("refererar till ett kluster ...", "ser ut som en vektor ...") väljs automatiskt i inlärningsprocessen.

Beskrivningsreduktionsproblem kännetecknas av frånvaron av uppdelning i ingångs- och utdatavektorer . Från och med C. Pearsons klassiska arbete om principal komponentanalys ligger fokus på dataapproximation .

Stadier av lärande

Ett antal steg för att lösa problem med hjälp av datautvinningsmetoder:

Redogörelse för analysproblemet;
Datainsamling;
Databeredning (filtrering, tillägg, kodning);
Modellval (dataanalysalgoritm);
Val av modellparametrar och inlärningsalgoritm;
Modellträning (automatisk sökning efter andra modellparametrar);
Analys av utbildningens kvalitet, om analysen är otillfredsställande - gå till punkt 5 eller punkt 4;
Analys av de identifierade mönstren, om analysen är otillfredsställande - gå till steg 1, 4 eller 5.

Dataförberedelse

Innan du använder datautvinningsalgoritmer är det nödvändigt att förbereda en uppsättning analyserade data. Eftersom IAD endast kan upptäcka mönster som finns i datan, måste initialdata å ena sidan ha tillräcklig volym så att dessa mönster finns i dem, och å andra sidan vara tillräckligt kompakt så att analysen tar en acceptabel tid. Oftast fungerar datalager eller datamarts som källdata . Förberedelser krävs för att analysera flerdimensionell data innan klustring eller datautvinning.

Data filtreras sedan. Filtrering tar bort prover med brus och saknade data.

Den filtrerade datan reduceras till funktionsuppsättningar (eller vektorer om algoritmen endast kan fungera med fastdimensionella vektorer), en funktionsuppsättning per observation. Uppsättningen funktioner bildas i enlighet med hypoteserna om vilka egenskaper hos rådata som har en hög prediktiv kraft baserat på den erforderliga beräkningskraften för bearbetning. Till exempel innehåller en svartvit ansiktsbild på 100×100 pixlar 10 000 bitar av rådata. De kan omvandlas till en funktionsvektor genom att detektera ögon och munnar i bilden. Som ett resultat blir det en minskning av mängden data från 10 tusen bitar till en lista med positionskoder, vilket avsevärt minskar mängden analyserad data och därmed analystiden.

Ett antal algoritmer kan bearbeta saknad data som har prediktiv kraft (till exempel frånvaron av en viss typ av köp av en klient). Till exempel, när man använder metoden för associationsregler behandlas inte funktionsvektorer, utan uppsättningar av variabla dimensioner.

Valet av objektiv funktion kommer att bero på vad som är syftet med analysen; att välja "rätt" funktion är grundläggande för framgångsrik datautvinning.

Observationer är indelade i två kategorier - träningsset och testset. Träningssetet används för att "träna" datautvinningsalgoritmen, och testsetet används för att testa mönstren som hittas.

Se även

webbbrytning

Anteckningar

↑ 1 2 Se hans intervju Arkiverad 16 december 2010 på Wayback Machine , som han gav till tidskriften Computerra 2007.
↑ V. A. Dyuk, A. V. Flegontov, I. K. Fomina, Tillämpning av datautvinningsteknologier inom naturvetenskap, tekniska och humanitära områden.
↑ O. S. Kovalenko, Genomgång av problem och framtidsutsikter för dataanalys (otillgänglig länk) .
↑ A. A. Ezhov, S. A. Shumsky, föreläsning: Kunskapsextraktion med hjälp av neurala nätverk Arkiverad 7 april 2011 på Wayback Machine .
↑ Microsoft SQL Server 2008 R2: A New Approach to Information Management Arkiverad 15 juli 2014.
↑ Oracle Data Mining: Nutid och framtid Arkiverad 8 mars 2012 på Wayback Machine .
↑ Stepanov R.G. Data Mining Technology: Data Mining Arkivkopia daterad 11 juni 2017 på Wayback Machine .
↑ Grigory Pyatetsky-Shapiro, Data Mining and Information Overload // Introduktionsartikel till boken: Data and Process Analysis / A. A. Barseghyan, M. S. Kupriyanov, I. I. Kholod, M. D. Tess, S. I Elizarov. 3:e uppl. revideras och ytterligare St Petersburg: BHV-Peterburg, 2009. 512 sid. S. 13.
↑ Diskuterar termen: data mining / Technical Translation School Arkiverad 2 februari 2014 på Wayback Machine .
↑ Millner, Khan, 2022 , Moving to Big Data, sid. 77-78.

Litteratur

Paklin N. B., Oreshkov V. I. Affärsanalys: från data till kunskap (+ CD). - St Petersburg. : Ed. Peter, 2009. - 624 sid.

Duke V., Samoylenko A. Data Mining: utbildningskurs (+CD). - St Petersburg. : Ed. Peter, 2001. - 368 sid.

Zhuravlev Yu.I. , Ryazanov V.V., Senko O.V. IGENKÄNANDE. Matematiska metoder. Mjukvarusystem. Praktiska tillämpningar. - M. : Ed. "Phasis", 2006. - 176 sid. — ISBN 5-7036-0108-8 .

Zinoviev A. Yu Visualisering av flerdimensionell data . - Krasnoyarsk: Ed. Krasnoyarsk State Technical University, 2000. - 180 sid.

Chubukova I. A. Data Mining: en handledning . - M. : Internet University of Information Technologies: BINOM: Knowledge Laboratory, 2006. - 382 sid. — ISBN 5-9556-0064-7 .
Sitnik V. F., Krasnyuk M. T. Intellektuell dataanalys (datautvinning): Navch. hjälpare. - K .: KNEU, 2007. - 376 sid.
Ian H. Witten, Eibe Frank och Mark A. Hall. Data Mining: Praktiska verktyg och tekniker för maskininlärning . - 3:e upplagan. - Morgan Kaufmann, 2011. - S. 664 . — ISBN 9780123748560 .
Dave Millner, Nadeem Khan. HR-analys. Introduktion till People Analytics: En praktisk guide till datadriven HR. — M .: Alpina förlag , 2022. — 384 sid. — ISBN 978-5-9614-7831-0 .

Orlov A.I. Artificiell intelligens: Statistiska metoder för dataanalys: lärobok. - M .: AI Pi Ar Media, 2022. - 843 sid. — ISBN 978-5-4497-1470-1 [1]

Orlov A.I., Lutsenko E.V. Analys av data, information och kunskap i systemisk fuzzy interval-matematik: vetenskaplig monografi. - Krasnodar: KubGAU, 2022. - 405 sid. [2]

Länkar

Data Mining Software på Curlie Link Directory (dmoz)

Ordböcker och uppslagsverk	Stor katalanska stor kines stor kines Britannica (online)
I bibliografiska kataloger	GND : 4428654-5 J9U : 987007556562405171 LCCN : sh97002073 NDL : 00948240 NKC : ph165954

Kunskapsteknik
Allmänna begrepp	Data metadata Kunskap metakunskap Kunskapsrepresentation Kunskapsbas Ontologi semantisk webb
Stela modeller	Produkter Semantiska nätverk Ramar Logisk modell
Mjuka metoder	Neuralt nätverk evolutionär modellering rolig logik
Ansökningar	Expert system Data mining Informationsextraktion Virtuella samtalspartner Hybrid intelligenta system
Artificiell intelligens Maskininlärning naturlig språkbehandling

Datalagring

Skapa ett datalager
Begrepp	Databas Dimension Mätmodell Faktum OLAP Stjärnschema Snöflinga schema
alternativ	ankarmodell Mättabell _ HOLAP MOLAP ROLAP Driftslagring
Element	Data ordbok metadata datamart sjätte normalformen Surrogatnyckel
Data	Faktatabell Tidiga fakta Mät
Mått	Mättabell Långsamt ändrade dimensioner Degenererad dimension
fyllning	ETL Dataextraktion Datatransformation

Använda datalagret
Begrepp	business intelligence instrumentbräda datautvinning DSS OLAP kub
språk	Extensions MDX XMLA
Verktyg	Business Intelligence Tools Rapportgenerator Kalkylblad

Relaterade ämnen
människor	Bill Inmon Ralph Kimball
Produkter	Jämförelse av OLAP-servrar

Kategori

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-Net Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG