Datalagring

Data Warehouse är en domänspecifik  informationsdatabas , speciellt designad och designad för rapportering och affärsanalys för att stödja beslutsfattande i en organisation. Den bygger på databashanteringssystem och beslutsstödssystem . Data som kommer in i ett datalager är vanligtvis skrivskyddad.

Data från OLTP- systemet kopieras till datalagret på ett sådant sätt att när man bygger rapporter och OLAP- analys används inte transaktionssystemets resurser och dess stabilitet kränks inte. Det finns två alternativ för att uppdatera data i lagring:

Lagringsorganisationsprinciper

Datalagerdesign

Det finns två huvudsakliga arkitektoniska riktningar - normaliserade datalager och dimensionella lager.

I normaliserade butiker lagras data i domänspecifika tabeller i tredje normalform . Normaliserade lagringar karakteriseras som lätta att skapa och hantera, nackdelarna med normaliserade lagringar är ett stort antal tabeller som ett resultat av normalisering, på grund av vilket, för att få all information, det är nödvändigt att välja från många tabeller samtidigt tid, vilket leder till en försämring av systemets prestanda. För att lösa detta problem används denormaliserade tabeller - data marts , på basis av vilka rapporteringsformulär redan visas. Med enorma mängder data kan flera nivåer av "mart" / "lagring" användas.

Butiker med dimensioner använder antingen ett stjärnschema eller ett snöflingaschema . I det här fallet är data ( faktatabell ) i mitten av "stjärnan" , och mätningarna bildar stjärnans strålar. Olika faktatabeller delar dimensionstabeller, vilket gör det mycket lättare att kombinera data från flera ämnesfaktatabeller (till exempel försäljningsfakta och produktleveranser). Datatabellerna och motsvarande dimensioner bildar "buss"-arkitekturen. Dimensioner skapas ofta i tredje normalform, inklusive för att registrera förändringar i dimensioner. Den främsta fördelen med lagringar med mätningar är enkelhet och tydlighet för utvecklare och användare, dessutom, tack vare effektivare datalagring och formaliserade mätningar, underlättas och accelereras tillgången till data, särskilt i komplexa analyser. Den största nackdelen är de mer komplexa procedurerna för att förbereda och ladda data, samt att hantera och ändra datadimensioner.

Med en tillräckligt stor mängd data medför även stjärn- och snöflingscheman prestandaförsämring vid anslutning till dimensioner.

Dataprocesser

Datakällor kan vara:

  1. Traditionella registreringssystem
  2. Separata dokument
  3. Datauppsättningar

Dataoperationer:

  1. Extraktion - flytta information från datakällor till en separat databas, föra dem till ett enda format.
  2. Transformation är att förbereda information för lagring i en optimal form för genomförandet av den begäran som krävs för beslutsfattande.
  3. Laddar - placera data i lagring, utförd atomärt, genom att lägga till nya fakta eller justera befintliga.
  4. Analys - OLAP , Data Mining , sammanfattande rapporter.
  5. Presentation av analysresultat.

All denna information används i metadataordboken . Metadataordlistan innehåller automatiskt datakällordböcker. Den beskriver också dataformaten för deras efterföljande samordning, frekvensen av datapåfyllning, konsekvens i tid. Syftet med metadataordboken är att befria utvecklaren från behovet av att standardisera datakällor. Skapandet av datalager bör inte strida mot de befintliga systemen för insamling och bearbetning av information. Särskilda komponenter i ordböcker bör säkerställa snabb extrahering av data från dem och tillhandahålla datakonvertering till ett enda format baserat på en metadataordbok.

Den logiska datastrukturen i ett datalager skiljer sig väsentligt från datastrukturen för datakällor. Att utforma en effektiv transformationsprocess kräver en väldesignad företagsdatamodell och en beslutsteknologisk modell. Det är bekvämt för användaren att presentera data i flerdimensionella databaser, där tid, pris eller geografisk region kan fungera som mått.

Förutom att extrahera data från databasen är processen att utvinna kunskap viktig för beslutsfattande, i enlighet med användarens informationsbehov . Ur användarens synvinkel, i processen att extrahera kunskap från databasen, bör följande transformationer lösas: data → information → kunskap → erhållna lösningar.

Se även