Data mining ( ryska data mining, data mining, data mining ) är ett samlingsnamn som används för att referera till en uppsättning metoder för att upptäcka tidigare okända, icke-triviella, praktiskt användbara och tillgängliga kunskaper i data , nödvändiga för att fatta beslut inom olika områden av mänsklig aktivitet. Termen introducerades av Grigory Pyatetsky-Shapiro 1989 [ 1] [2] [3] .
Den engelska frasen " data mining " har ännu inte en väletablerad översättning till ryska. Vid sändning på ryska används följande fraser [4] : informationssifting , datautvinning, datautvinning samt datautvinning [ 5] [6] [7] . Mer komplett och korrekt är frasen " kunskapsupptäckt i databaser " ( engelska kunskapsupptäckten i databaser , KDD).
Grunden för datautvinningsmetoder är alla typer av klassificerings-, modellerings- och prognosmetoder baserade på användningen av beslutsträd , artificiella neurala nätverk , genetiska algoritmer , evolutionär programmering , associativt minne , fuzzy logik . Data mining-metoder inkluderar ofta statistiska metoder ( deskriptiv analys , korrelations- och regressionsanalys , faktoranalys , variansanalys , komponentanalys , diskriminantanalys , tidsserieanalys , överlevnadsanalys , relationsanalys ). Sådana metoder förutsätter dock vissa a priori idéer om den analyserade datan, vilket är något i strid med målen för datautvinning (upptäcka tidigare okända icke-trivial och praktiskt användbar kunskap).
Ett av de viktigaste syftena med datautvinningsmetoder är att visualisera resultaten av beräkningar (visualisering), vilket möjliggör användning av datautvinningsverktyg av personer som inte har någon speciell matematisk utbildning.
Tillämpning av statistiska metoder för dataanalys kräver goda kunskaper i sannolikhetsteori och matematisk statistik .
Data mining-metoder (eller, vad är samma sak, kunskapsupptäckt i data, KDD för kort) ligger i skärningspunkten mellan databaser , statistik och artificiell intelligens [8] .
Området för datautvinning började med ett seminarium som hölls av Grigory Pyatetsky-Shapiro 1989 [1] .
Tidigare, när han arbetade på GTE Labs, blev Grigory Pyatetsky-Shapiro intresserad av frågan: är det möjligt att automatiskt hitta vissa regler för att påskynda vissa frågor till stora databaser. Samtidigt föreslogs två termer - datautvinning (”data mining” [9] ) och kunskapsupptäckt i data (vilket ska översättas till “kunskapsupptäckt i databaser”).
1993 släpptes den första e-postlistan Knowledge Discovery Nuggets, och 1994 skapades en av de första dataminingsidorna.
Inledningsvis är uppgiften inställd enligt följande:
Det är nödvändigt att utveckla metoder för att upptäcka kunskap gömd i stora volymer av initial "rå" data. Under rådande globala konkurrensförhållanden är det de hittade mönstren (kunskapen) som kan vara en källa till ytterligare konkurrensfördelar.
Vad betyder "dold kunskap"? Det måste vara kunskap om:
Dessa krav bestämmer till stor del essensen av datautvinningsmetoder och i vilken form och i vilken proportion databashanteringssystem , statistiska analysmetoder och metoder för artificiell intelligens används inom datautvinningsteknik.
Data mining och databaserData mining-metoder kan tillämpas både för att arbeta med big data och för att bearbeta relativt små mängder data (erhållna t.ex. från resultat av enskilda experiment, eller vid analys av data om företagets verksamhet) . Som ett kriterium för en tillräcklig mängd data beaktas både studieområdet och den tillämpade analysalgoritmen. .
Utvecklingen av databasteknologier ledde först till skapandet av ett specialiserat språk - databasfrågespråket. För relationsdatabaser är detta SQL- språket , som gav stora möjligheter att skapa, ändra och hämta lagrad data. Sedan fanns det ett behov av att skaffa analytisk information (till exempel information om ett företags verksamhet under en viss period), och då visade det sig att traditionella relationsdatabaser, väl anpassade, till exempel för att föra verksamhetsregister på ett företag, är dåligt anpassade för analys. Detta ledde i sin tur till skapandet av den sk. " datalager ", vars själva struktur är det bästa sättet att genomföra en omfattande matematisk analys.
Data mining och artificiell intelligensKunskap som erhålls genom data mining-metoder representeras vanligtvis i form av mönster (mönster) . Dessa är:
Algoritmer för att söka efter sådana mönster finns i skärningspunkten mellan områden: artificiell intelligens, matematisk statistik, matematisk programmering, visualisering, OLAP .
Datautvinning och affärerEnligt IBM är bearbetningen av "big data" "förmågan att använda information på ett nytt sätt för att generera användbara idéer eller skapa varor och tjänster av högt värde" Denna definition behandlar big data som en typ av analys , eftersom att arbeta med dem syftar till att utvinna användbar information som kan ge en konkurrensfördel [10] .
Uppgifterna som löses med data mining-metoder brukar delas in i beskrivande ( English descriptive ) och predictive ( English predictive ).
I deskriptiva uppgifter är det viktigaste att ge en visuell beskrivning av de befintliga dolda mönstren, medan i prediktiva uppgifter är frågan om förutsägelse för de fall för vilka det ännu inte finns data i förgrunden.
Beskrivande uppgifter inkluderar:
Förutsägande uppgifter inkluderar:
Klassificeringsproblem kännetecknas av " övervakat lärande ", där konstruktionen (träningen) av modellen utförs på ett prov som innehåller in- och utdatavektorer.
För klustrings- och associationsproblem används " unsupervised learning ", där modellen bygger på ett sampel som inte har en outputparameter. Värdet på utdataparametern ("refererar till ett kluster ...", "ser ut som en vektor ...") väljs automatiskt i inlärningsprocessen.
Beskrivningsreduktionsproblem kännetecknas av frånvaron av uppdelning i ingångs- och utdatavektorer . Från och med C. Pearsons klassiska arbete om principal komponentanalys ligger fokus på dataapproximation .
Ett antal steg för att lösa problem med hjälp av datautvinningsmetoder:
Innan du använder datautvinningsalgoritmer är det nödvändigt att förbereda en uppsättning analyserade data. Eftersom IAD endast kan upptäcka mönster som finns i datan, måste initialdata å ena sidan ha tillräcklig volym så att dessa mönster finns i dem, och å andra sidan vara tillräckligt kompakt så att analysen tar en acceptabel tid. Oftast fungerar datalager eller datamarts som källdata . Förberedelser krävs för att analysera flerdimensionell data innan klustring eller datautvinning.
Data filtreras sedan. Filtrering tar bort prover med brus och saknade data.
Den filtrerade datan reduceras till funktionsuppsättningar (eller vektorer om algoritmen endast kan fungera med fastdimensionella vektorer), en funktionsuppsättning per observation. Uppsättningen funktioner bildas i enlighet med hypoteserna om vilka egenskaper hos rådata som har en hög prediktiv kraft baserat på den erforderliga beräkningskraften för bearbetning. Till exempel innehåller en svartvit ansiktsbild på 100×100 pixlar 10 000 bitar av rådata. De kan omvandlas till en funktionsvektor genom att detektera ögon och munnar i bilden. Som ett resultat blir det en minskning av mängden data från 10 tusen bitar till en lista med positionskoder, vilket avsevärt minskar mängden analyserad data och därmed analystiden.
Ett antal algoritmer kan bearbeta saknad data som har prediktiv kraft (till exempel frånvaron av en viss typ av köp av en klient). Till exempel, när man använder metoden för associationsregler behandlas inte funktionsvektorer, utan uppsättningar av variabla dimensioner.
Valet av objektiv funktion kommer att bero på vad som är syftet med analysen; att välja "rätt" funktion är grundläggande för framgångsrik datautvinning.
Observationer är indelade i två kategorier - träningsset och testset. Träningssetet används för att "träna" datautvinningsalgoritmen, och testsetet används för att testa mönstren som hittas.
Ordböcker och uppslagsverk | |
---|---|
I bibliografiska kataloger |
|
Kunskapsteknik | |
---|---|
Allmänna begrepp | |
Stela modeller | |
Mjuka metoder | |
Ansökningar | |
Datalagring | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||
| ||||||||||||||
| ||||||||||||||
Kategori |
Maskininlärning och datautvinning | |
---|---|
Uppgifter | |
Att lära sig med en lärare | |
klusteranalys | |
Dimensionalitetsreduktion | |
Strukturell prognos | |
Anomali upptäckt | |
Grafisk probabilistiska modeller | |
Neurala nätverk | |
Förstärkningsinlärning |
|
Teori | |
Tidskrifter och konferenser |
|