Datautvinning

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 7 maj 2022; kontroller kräver 6 redigeringar .

Data mining ( ryska data mining, data mining, data mining ) är ett samlingsnamn som används för att referera till en uppsättning metoder för att upptäcka tidigare okända, icke-triviella, praktiskt användbara och tillgängliga kunskaper i data , nödvändiga för att fatta beslut inom olika områden av mänsklig aktivitet. Termen introducerades av Grigory Pyatetsky-Shapiro 1989 [ 1] [2] [3] .

Den engelska frasen " data mining " har ännu inte en väletablerad översättning till ryska. Vid sändning på ryska används följande fraser [4] : informationssifting , datautvinning, datautvinning samt datautvinning [ 5] [6] [7] . Mer komplett och korrekt är frasen " kunskapsupptäckt i databaser " ( engelska  kunskapsupptäckten i databaser , KDD).

Grunden för datautvinningsmetoder är alla typer av klassificerings-, modellerings- och prognosmetoder baserade på användningen av beslutsträd , artificiella neurala nätverk , genetiska algoritmer , evolutionär programmering , associativt minne , fuzzy logik . Data mining-metoder inkluderar ofta statistiska metoder ( deskriptiv analys , korrelations- och regressionsanalys , faktoranalys , variansanalys , komponentanalys , diskriminantanalys , tidsserieanalys , överlevnadsanalys , relationsanalys ). Sådana metoder förutsätter dock vissa a priori idéer om den analyserade datan, vilket är något i strid med målen för datautvinning (upptäcka tidigare okända icke-trivial och praktiskt användbar kunskap).

Ett av de viktigaste syftena med datautvinningsmetoder är att visualisera resultaten av beräkningar (visualisering), vilket möjliggör användning av datautvinningsverktyg av personer som inte har någon speciell matematisk utbildning.

Tillämpning av statistiska metoder för dataanalys kräver goda kunskaper i sannolikhetsteori och matematisk statistik .

Introduktion

Data mining-metoder (eller, vad är samma sak, kunskapsupptäckt i data, KDD för kort) ligger i skärningspunkten mellan databaser , statistik och artificiell intelligens [8] .

Historisk utvikning

Området för datautvinning började med ett seminarium som hölls av Grigory Pyatetsky-Shapiro 1989 [1] .

Tidigare, när han arbetade på GTE Labs, blev Grigory Pyatetsky-Shapiro intresserad av frågan: är det möjligt att automatiskt hitta vissa regler för att påskynda vissa frågor till stora databaser. Samtidigt föreslogs två termer - datautvinning (”data mining” [9] ) och kunskapsupptäckt i data (vilket ska översättas till “kunskapsupptäckt i databaser”).

1993 släpptes den första e-postlistan Knowledge Discovery Nuggets, och 1994 skapades en av de första dataminingsidorna.

Förklaring av problemet

Inledningsvis är uppgiften inställd enligt följande:

Det är nödvändigt att utveckla metoder för att upptäcka kunskap gömd i stora volymer av initial "rå" data. Under rådande globala konkurrensförhållanden är det de hittade mönstren (kunskapen) som kan vara en källa till ytterligare konkurrensfördelar.

Vad betyder "dold kunskap"? Det måste vara kunskap om:

Dessa krav bestämmer till stor del essensen av datautvinningsmetoder och i vilken form och i vilken proportion databashanteringssystem , statistiska analysmetoder och metoder för artificiell intelligens används inom datautvinningsteknik.

Data mining och databaser

Data mining-metoder kan tillämpas både för att arbeta med big data och för att bearbeta relativt små mängder data (erhållna t.ex. från resultat av enskilda experiment, eller vid analys av data om företagets verksamhet) . Som ett kriterium för en tillräcklig mängd data beaktas både studieområdet och den tillämpade analysalgoritmen. .

Utvecklingen av databasteknologier ledde först till skapandet av ett specialiserat språk - databasfrågespråket. För relationsdatabaser  är detta SQL- språket , som gav stora möjligheter att skapa, ändra och hämta lagrad data. Sedan fanns det ett behov av att skaffa analytisk information (till exempel information om ett företags verksamhet under en viss period), och då visade det sig att traditionella relationsdatabaser, väl anpassade, till exempel för att föra verksamhetsregister på ett företag, är dåligt anpassade för analys. Detta ledde i sin tur till skapandet av den sk. " datalager ", vars själva struktur är det bästa sättet att genomföra en omfattande matematisk analys.

Data mining och artificiell intelligens

Kunskap som erhålls genom data mining-metoder representeras vanligtvis i form av mönster (mönster) . Dessa är:

Algoritmer för att söka efter sådana mönster finns i skärningspunkten mellan områden: artificiell intelligens, matematisk statistik, matematisk programmering, visualisering, OLAP .

Datautvinning och affärer

Enligt IBM är bearbetningen av "big data" "förmågan att använda information på ett nytt sätt för att generera användbara idéer eller skapa varor och tjänster av högt värde" Denna definition behandlar big data som en typ av analys , eftersom att arbeta med dem syftar till att utvinna användbar information som kan ge en konkurrensfördel [10] .

Uppgifter

Uppgifterna som löses med data mining-metoder brukar delas in i beskrivande ( English  descriptive ) och predictive ( English  predictive ).

I deskriptiva uppgifter är det viktigaste att ge en visuell beskrivning av de befintliga dolda mönstren, medan i prediktiva uppgifter är frågan om förutsägelse för de fall för vilka det ännu inte finns data i förgrunden.

Beskrivande uppgifter inkluderar:

  • söka efter associationsregler eller mönster (prover);
  • gruppering av objekt, klusteranalys;
  • bygga en regressionsmodell.

Förutsägande uppgifter inkluderar:

Inlärningsalgoritmer

Klassificeringsproblem kännetecknas av " övervakat lärande ", där konstruktionen (träningen) av modellen utförs på ett prov som innehåller in- och utdatavektorer.

För klustrings- och associationsproblem används " unsupervised learning ", där modellen bygger på ett sampel som inte har en outputparameter. Värdet på utdataparametern ("refererar till ett kluster ...", "ser ut som en vektor ...") väljs automatiskt i inlärningsprocessen.

Beskrivningsreduktionsproblem kännetecknas av frånvaron av uppdelning i ingångs- och utdatavektorer . Från och med C. Pearsons klassiska arbete om principal komponentanalys ligger fokus på dataapproximation .

Stadier av lärande

Ett antal steg för att lösa problem med hjälp av datautvinningsmetoder:

  1. Redogörelse för analysproblemet;
  2. Datainsamling;
  3. Databeredning (filtrering, tillägg, kodning);
  4. Modellval (dataanalysalgoritm);
  5. Val av modellparametrar och inlärningsalgoritm;
  6. Modellträning (automatisk sökning efter andra modellparametrar);
  7. Analys av utbildningens kvalitet, om analysen är otillfredsställande - gå till punkt 5 eller punkt 4;
  8. Analys av de identifierade mönstren, om analysen är otillfredsställande - gå till steg 1, 4 eller 5.

Dataförberedelse

Innan du använder datautvinningsalgoritmer är det nödvändigt att förbereda en uppsättning analyserade data. Eftersom IAD endast kan upptäcka mönster som finns i datan, måste initialdata å ena sidan ha tillräcklig volym så att dessa mönster finns i dem, och å andra sidan vara tillräckligt kompakt så att analysen tar en acceptabel tid. Oftast fungerar datalager eller datamarts som källdata . Förberedelser krävs för att analysera flerdimensionell data innan klustring eller datautvinning.

Data filtreras sedan. Filtrering tar bort prover med brus och saknade data.

Den filtrerade datan reduceras till funktionsuppsättningar (eller vektorer om algoritmen endast kan fungera med fastdimensionella vektorer), en funktionsuppsättning per observation. Uppsättningen funktioner bildas i enlighet med hypoteserna om vilka egenskaper hos rådata som har en hög prediktiv kraft baserat på den erforderliga beräkningskraften för bearbetning. Till exempel innehåller en svartvit ansiktsbild på 100×100 pixlar 10 000 bitar av rådata. De kan omvandlas till en funktionsvektor genom att detektera ögon och munnar i bilden. Som ett resultat blir det en minskning av mängden data från 10 tusen bitar till en lista med positionskoder, vilket avsevärt minskar mängden analyserad data och därmed analystiden.

Ett antal algoritmer kan bearbeta saknad data som har prediktiv kraft (till exempel frånvaron av en viss typ av köp av en klient). Till exempel, när man använder metoden för associationsregler behandlas inte funktionsvektorer, utan uppsättningar av variabla dimensioner.

Valet av objektiv funktion kommer att bero på vad som är syftet med analysen; att välja "rätt" funktion är grundläggande för framgångsrik datautvinning.

Observationer är indelade i två kategorier - träningsset och testset. Träningssetet används för att "träna" datautvinningsalgoritmen, och testsetet används för att testa mönstren som hittas.

Se även

Anteckningar

  1. 1 2 Se hans intervju Arkiverad 16 december 2010 på Wayback Machine , som han gav till tidskriften Computerra 2007.
  2. V. A. Dyuk, A. V. Flegontov, I. K. Fomina, Tillämpning av datautvinningsteknologier inom naturvetenskap, tekniska och humanitära områden.
  3. O. S. Kovalenko, Genomgång av problem och framtidsutsikter för dataanalys  (otillgänglig länk) .
  4. A. A. Ezhov, S. A. Shumsky, föreläsning: Kunskapsextraktion med hjälp av neurala nätverk Arkiverad 7 april 2011 på Wayback Machine .
  5. Microsoft SQL Server 2008 R2: A New Approach to Information Management Arkiverad 15 juli 2014.
  6. Oracle Data Mining: Nutid och framtid Arkiverad 8 mars 2012 på Wayback Machine .
  7. Stepanov R.G. Data Mining Technology: Data Mining Arkivkopia daterad 11 juni 2017 på Wayback Machine .
  8. Grigory Pyatetsky-Shapiro, Data Mining and Information Overload // Introduktionsartikel till boken: Data and Process Analysis / A. A. Barseghyan, M. S. Kupriyanov, I. I. Kholod, M. D. Tess, S. I Elizarov. 3:e uppl. revideras och ytterligare St Petersburg: BHV-Peterburg, 2009. 512 sid. S. 13.
  9. Diskuterar termen: data mining / Technical Translation School Arkiverad 2 februari 2014 på Wayback Machine .
  10. Millner, Khan, 2022 , Moving to Big Data, sid. 77-78.

Litteratur

  • Paklin N. B., Oreshkov V. I. Affärsanalys: från data till kunskap (+ CD). - St Petersburg. : Ed. Peter, 2009. - 624 sid.
  • Duke V., Samoylenko A. Data Mining: utbildningskurs (+CD). - St Petersburg. : Ed. Peter, 2001. - 368 sid.
  • Zhuravlev Yu.I. , Ryazanov V.V., Senko O.V. IGENKÄNANDE. Matematiska metoder. Mjukvarusystem. Praktiska tillämpningar. - M. : Ed. "Phasis", 2006. - 176 sid. — ISBN 5-7036-0108-8 .
  • Chubukova I. A. Data Mining: en handledning . - M. : Internet University of Information Technologies: BINOM: Knowledge Laboratory, 2006. - 382 sid. — ISBN 5-9556-0064-7 .
  • Sitnik V. F., Krasnyuk M. T. Intellektuell dataanalys (datautvinning): Navch. hjälpare. - K .: KNEU, 2007. - 376 sid.
  • Ian H. Witten, Eibe Frank och Mark A. Hall. Data Mining: Praktiska verktyg och tekniker för maskininlärning . - 3:e upplagan. - Morgan Kaufmann, 2011. - S.  664 . — ISBN 9780123748560 .
  • Dave Millner, Nadeem Khan. HR-analys. Introduktion till People Analytics: En praktisk guide till datadriven HR. — M .: Alpina förlag , 2022. — 384 sid. — ISBN 978-5-9614-7831-0 .
  • Orlov A.I. Artificiell intelligens: Statistiska metoder för dataanalys: lärobok. - M .: AI Pi Ar Media, 2022. - 843 sid. — ISBN 978-5-4497-1470-1 [1]
  • Orlov A.I., Lutsenko E.V. Analys av data, information och kunskap i systemisk fuzzy interval-matematik: vetenskaplig monografi. - Krasnodar: KubGAU, 2022. - 405 sid. [2]

Länkar