Mörk data är data som automatiskt samlas in under rutinmässiga aktiviteter i datornätverk, men som inte används på något sätt för att få information eller fatta beslut [1] [2] . En organisations förmåga att samla in data kan överstiga den genomströmning med vilken den kan analysera data . I vissa fall kanske organisationen inte ens är medveten om att data samlas in [3] . IBM uppskattar att ungefär 90 procent av den data som genereras av sensorer och A/D-omvandlare aldrig används [4] .
I ett industriellt sammanhang kan mörk data innefatta information som samlas in av sensorer och telematik [5] .
Organisationer lagrar dolda data av en mängd olika anledningar, och det uppskattas att de flesta företag bara analyserar 1 % av sin data [6] . Orsaker till att oanvänd data lagras kan vara regelefterlevnad [7] och arkiv [1] . Vissa organisationer tror att dold data kan vara användbar för dem i framtiden, när mer avancerad analys- och business intelligence-teknik blir tillgänglig [3] . Eftersom lagring är billig är det enkelt att lagra data. Datalagring och dataskydd medför dock vanligtvis högre kostnader än den potentiella vinsten.
Professor David Hand från Imperial College London använder termen "mörk data" för att hänvisa till saknad data: "mörk data är data som du inte har" [8] [a] .
Mycket mörk data är ostrukturerad, vilket innebär att informationen presenteras i format som kan vara svåra att kategorisera, läsa av en dator och därmed analysera. Anledningen till att ett företag inte analyserar sina mörka data är ofta mängden resurser som det kommer att kräva och svårigheten att analysera denna data. Enligt Computer Weekly säger 60 % av organisationerna att deras egen BI-kapacitet är "otillräcklig" och 65% säger att de har "något oorganiserade tillvägagångssätt för innehållshantering" 10] .
Användbar data som har förlorat sin relevans med tiden kan också hamna i kategorin mörk data. Detta beror på otillräcklig databehandlingshastighet. Till exempel, om en kunds geolokalisering är känd för verksamheten kan företaget komma med ett erbjudande baserat på plats, men om dessa uppgifter inte behandlas omedelbart kan det inte bli aktuellt i framtiden. Enligt IBM förlorar cirka 60 procent av den data som samlas in omedelbart sitt värde [4] .
Enligt New York Times går 90 % av den energi som används av datacenter till spillo [11] . Att undvika redundant datalagring skulle spara energikostnader. Dessutom tillkommer kostnader förknippade med underutnyttjande av information och som ett resultat förlorade möjligheter. Enligt Datamation är data som lagras i EMEAs medlemsorganisationer 54 % mörk data, 32 % överflödig, föråldrad och trivial data, och endast 14 % av vilket värde som helst. Från och med 2020 kostar lagring av redundant data cirka 900 miljarder US-dollar [12 ] .
Permanent lagring av mörk data kan utsätta en organisation för risker, särskilt om uppgifterna är känsliga. Dataläckage kan leda till allvarliga konsekvenser: ekonomiska, juridiska och rykte. Till exempel kan läckande av kunders personuppgifter leda till massiv identitetsstöld . Ett annat exempel skulle vara läckage av ett företags egen känsliga information, till exempel den som rör forskning och utveckling . Dessa risker kan mildras genom att bedöma och verifiera behovet av uppgifterna för organisationen och genom att använda stark kryptering och andra säkerhetsåtgärder [13] . Radering av onödiga uppgifter bör göras på ett sådant sätt att de inte kan återställas [14] .
Det är allmänt accepterat att när mer avancerade datorsystem skapas kommer värdet av mörk data att öka. Det finns en åsikt att data och deras analys kommer att bli grunden för en ny industriell revolution [5] . Potentiellt användbar data inkluderar också vad som för närvarande anses vara "mörk data" eftersom det inte finns tillräckligt med resurser för att bearbeta det. All denna data kan användas i framtiden för att säkerställa maximal prestanda och förmågan hos organisationer att möta kundernas behov. Hälso- och utbildningsorganisationer som hanterar stora mängder data kan dra särskilt nytta av behandlingen av oanvända data i framtiden [15] .