Datalagring

Data Warehouse är en domänspecifik informationsdatabas , speciellt designad och designad för rapportering och affärsanalys för att stödja beslutsfattande i en organisation. Den bygger på databashanteringssystem och beslutsstödssystem . Data som kommer in i ett datalager är vanligtvis skrivskyddad.

Data från OLTP- systemet kopieras till datalagret på ett sådant sätt att när man bygger rapporter och OLAP- analys används inte transaktionssystemets resurser och dess stabilitet kränks inte. Det finns två alternativ för att uppdatera data i lagring:

fullständig uppdatering av data i förvaret. Först raderas den gamla datan, sedan laddas den nya datan. Processen sker med en viss frekvens, medan relevansen av data kan släpa något efter OLTP-systemet;
inkrementell uppdatering - endast de data som har ändrats i OLTP-systemet uppdateras.

Lagringsorganisationsprinciper

Problem-ämnesorientering . Data kategoriseras och lagras enligt de områden de beskriver, inte applikationerna de använder.
Integration . Uppgifterna är aggregerade så att de uppfyller alla krav från företaget som helhet, inte en enda funktion i verksamheten.
Okorrigerbart . Datan i datalagret skapas inte: det vill säga, den kommer från externa källor, den är inte korrigerad eller raderad.
Beroende av tid . Datan i lagret är korrekt och korrekt endast när den är bunden till en viss period eller tidpunkt.

Datalagerdesign

Det finns två huvudsakliga arkitektoniska riktningar - normaliserade datalager och dimensionella lager.

I normaliserade butiker lagras data i domänspecifika tabeller i tredje normalform . Normaliserade lagringar karakteriseras som lätta att skapa och hantera, nackdelarna med normaliserade lagringar är ett stort antal tabeller som ett resultat av normalisering, på grund av vilket, för att få all information, det är nödvändigt att välja från många tabeller samtidigt tid, vilket leder till en försämring av systemets prestanda. För att lösa detta problem används denormaliserade tabeller - data marts , på basis av vilka rapporteringsformulär redan visas. Med enorma mängder data kan flera nivåer av "mart" / "lagring" användas.

Butiker med dimensioner använder antingen ett stjärnschema eller ett snöflingaschema . I det här fallet är data ( faktatabell ) i mitten av "stjärnan" , och mätningarna bildar stjärnans strålar. Olika faktatabeller delar dimensionstabeller, vilket gör det mycket lättare att kombinera data från flera ämnesfaktatabeller (till exempel försäljningsfakta och produktleveranser). Datatabellerna och motsvarande dimensioner bildar "buss"-arkitekturen. Dimensioner skapas ofta i tredje normalform, inklusive för att registrera förändringar i dimensioner. Den främsta fördelen med lagringar med mätningar är enkelhet och tydlighet för utvecklare och användare, dessutom, tack vare effektivare datalagring och formaliserade mätningar, underlättas och accelereras tillgången till data, särskilt i komplexa analyser. Den största nackdelen är de mer komplexa procedurerna för att förbereda och ladda data, samt att hantera och ändra datadimensioner.

Med en tillräckligt stor mängd data medför även stjärn- och snöflingscheman prestandaförsämring vid anslutning till dimensioner.

Dataprocesser

Datakällor kan vara:

Traditionella registreringssystem
Separata dokument
Datauppsättningar

Dataoperationer:

Extraktion - flytta information från datakällor till en separat databas, föra dem till ett enda format.
Transformation är att förbereda information för lagring i en optimal form för genomförandet av den begäran som krävs för beslutsfattande.
Laddar - placera data i lagring, utförd atomärt, genom att lägga till nya fakta eller justera befintliga.
Analys - OLAP , Data Mining , sammanfattande rapporter.
Presentation av analysresultat.

All denna information används i metadataordboken . Metadataordlistan innehåller automatiskt datakällordböcker. Den beskriver också dataformaten för deras efterföljande samordning, frekvensen av datapåfyllning, konsekvens i tid. Syftet med metadataordboken är att befria utvecklaren från behovet av att standardisera datakällor. Skapandet av datalager bör inte strida mot de befintliga systemen för insamling och bearbetning av information. Särskilda komponenter i ordböcker bör säkerställa snabb extrahering av data från dem och tillhandahålla datakonvertering till ett enda format baserat på en metadataordbok.

Den logiska datastrukturen i ett datalager skiljer sig väsentligt från datastrukturen för datakällor. Att utforma en effektiv transformationsprocess kräver en väldesignad företagsdatamodell och en beslutsteknologisk modell. Det är bekvämt för användaren att presentera data i flerdimensionella databaser, där tid, pris eller geografisk region kan fungera som mått.

Förutom att extrahera data från databasen är processen att utvinna kunskap viktig för beslutsfattande, i enlighet med användarens informationsbehov . Ur användarens synvinkel, i processen att extrahera kunskap från databasen, bör följande transformationer lösas: data → information → kunskap → erhållna lösningar.

Se även

Ordböcker och uppslagsverk	Stor katalanska Britannica (online)
I bibliografiska kataloger	J9U : 987007563636805171 LCCN : sh97003695 NDL : 00911488

Datalagring

Skapa ett datalager
Begrepp	Databas Dimension Mätmodell Faktum OLAP Stjärnschema Snöflinga schema
alternativ	ankarmodell Mättabell _ HOLAP MOLAP ROLAP Driftslagring
Element	Data ordbok metadata datamart sjätte normalformen Surrogatnyckel
Data	Faktatabell Tidiga fakta Mät
Mått	Mättabell Långsamt ändrade dimensioner Degenererad dimension
fyllning	ETL Dataextraktion Datatransformation

Använda datalagret
Begrepp	business intelligence instrumentbräda datautvinning DSS OLAP kub
språk	Extensions MDX XMLA
Verktyg	Business Intelligence Tools Rapportgenerator Kalkylblad

Relaterade ämnen
människor	Bill Inmon Ralph Kimball
Produkter	Jämförelse av OLAP-servrar

Kategori