Mörka data

Mörk data  är data som automatiskt samlas in under rutinmässiga aktiviteter i datornätverk, men som inte används på något sätt för att få information eller fatta beslut [1] [2] . En organisations förmåga att samla in data kan överstiga den genomströmning med vilken den kan analysera data . I vissa fall kanske organisationen inte ens är medveten om att data samlas in [3] . IBM uppskattar att ungefär 90 procent av den data som genereras av sensorer och A/D-omvandlare aldrig används [4] .

I ett industriellt sammanhang kan mörk data innefatta information som samlas in av sensorer och telematik [5] .

Organisationer lagrar dolda data av en mängd olika anledningar, och det uppskattas att de flesta företag bara analyserar 1 % av sin data [6] . Orsaker till att oanvänd data lagras kan vara regelefterlevnad [7] och arkiv [1] . Vissa organisationer tror att dold data kan vara användbar för dem i framtiden, när mer avancerad analys- och business intelligence-teknik blir tillgänglig [3] . Eftersom lagring är billig är det enkelt att lagra data. Datalagring och dataskydd medför dock vanligtvis högre kostnader än den potentiella vinsten.

Professor David Hand från Imperial College London använder termen "mörk data" för att hänvisa till saknad data: "mörk data är data som du inte har" [8] [a] .

Analys

Mycket mörk data är ostrukturerad, vilket innebär att informationen presenteras i format som kan vara svåra att kategorisera, läsa av en dator och därmed analysera. Anledningen till att ett företag inte analyserar sina mörka data är ofta mängden resurser som det kommer att kräva och svårigheten att analysera denna data. Enligt Computer Weekly säger 60 % av organisationerna att deras egen BI-kapacitet är "otillräcklig" och 65% säger att de har "något oorganiserade tillvägagångssätt för innehållshantering" 10] .

Relevans

Användbar data som har förlorat sin relevans med tiden kan också hamna i kategorin mörk data. Detta beror på otillräcklig databehandlingshastighet. Till exempel, om en kunds geolokalisering är känd för verksamheten kan företaget komma med ett erbjudande baserat på plats, men om dessa uppgifter inte behandlas omedelbart kan det inte bli aktuellt i framtiden. Enligt IBM förlorar cirka 60 procent av den data som samlas in omedelbart sitt värde [4] .

Lagring

Enligt New York Times går 90 % av den energi som används av datacenter till spillo [11] . Att undvika redundant datalagring skulle spara energikostnader. Dessutom tillkommer kostnader förknippade med underutnyttjande av information och som ett resultat förlorade möjligheter. Enligt Datamation är data som lagras i EMEAs medlemsorganisationer 54 % mörk data, 32 % överflödig, föråldrad och trivial data, och endast 14 % av vilket värde som helst. Från och med 2020 kostar lagring av redundant data cirka 900 miljarder US-dollar [12 ] .

Permanent lagring av mörk data kan utsätta en organisation för risker, särskilt om uppgifterna är känsliga. Dataläckage kan leda till allvarliga konsekvenser: ekonomiska, juridiska och rykte. Till exempel kan läckande av kunders personuppgifter leda till massiv identitetsstöld . Ett annat exempel skulle vara läckage av ett företags egen känsliga information, till exempel den som rör forskning och utveckling . Dessa risker kan mildras genom att bedöma och verifiera behovet av uppgifterna för organisationen och genom att använda stark kryptering och andra säkerhetsåtgärder [13] . Radering av onödiga uppgifter bör göras på ett sådant sätt att de inte kan återställas [14] .

Framtid

Det är allmänt accepterat att när mer avancerade datorsystem skapas kommer värdet av mörk data att öka. Det finns en åsikt att data och deras analys kommer att bli grunden för en ny industriell revolution [5] . Potentiellt användbar data inkluderar också vad som för närvarande anses vara "mörk data" eftersom det inte finns tillräckligt med resurser för att bearbeta det. All denna data kan användas i framtiden för att säkerställa maximal prestanda och förmågan hos organisationer att möta kundernas behov. Hälso- och utbildningsorganisationer som hanterar stora mängder data kan dra särskilt nytta av behandlingen av oanvända data i framtiden [15] .

Anteckningar

Fotnoter

  1. Hands listar 15 olika typer av mörk data, beroende på den senares natur [9]

Källor

  1. ↑ 12 Dark Data . Gartner . Hämtad 27 april 2021. Arkiverad från originalet 31 mars 2019.
  2. Titel. Farorna med mörk data och hur du minimerar din exponering . CIO (24 september 2014). Hämtad 27 april 2021. Arkiverad från originalet 15 januari 2019.
  3. ↑ 12 Brantley . The API Briefing: the Challenge of Government's Dark Data . Digitalgov.gov (17 juni 2015). Hämtad 27 april 2021. Arkiverad från originalet 16 januari 2018.
  4. 12 Johnson .  Att gräva fram mörk data: Vad placerar IBM i framkanten av insiktsekonomi ? . SiliconANGLE (30 oktober 2015). Hämtad 3 november 2015. Arkiverad från originalet 11 juli 2018.  
  5. ↑ 12 Dennies . TeradataVoice: Fabriker Of The Future: The Value Of Dark Data . Forbes (19 februari 2015). Arkiverad från originalet den 22 februari 2015.
  6. Shahzad. Stordatautmaningen med transformation för tillverkningsindustrin . IBM Big Data & Analytics Hub (3 januari 2017). Hämtad 27 april 2021. Arkiverad från originalet 6 mars 2018.
  7. Använder du din mörka data effektivt (nedlänk) . Hämtad 27 april 2021. Arkiverad från originalet 16 januari 2017. 
  8. David Hand. 10-minuters samtal: mörka data . British Academy . British Academy (18 november 2020). Hämtad 2 mars 2021. Arkiverad från originalet 27 april 2021.
  9. Hand, 2021 , sid. 17.
  10. Miles. Mörk data kan stoppa big datas väg till framgång . Computer Weekly (27 december 2013). Hämtad 3 november 2015. Arkiverad från originalet 10 april 2019.
  11. Glanz . Datacenter slösar enorma mängder energi, troende industribild , The New York Times  (22 september 2012). Arkiverad 16 maj 2019. Hämtad 2 november 2015.
  12. Hernandez. Företag hamstrar "mörka" data: Veritas . Datatisering (30 oktober 2015). Hämtad 4 november 2015. Arkiverad från originalet 4 oktober 2017.
  13. DarkShield använder maskininlärning för att hitta och maskera PII , IRI. Arkiverad från originalet den 15 januari 2019. Hämtad 14 januari 2019.
  14. Titel. Farorna med mörk data och hur du minimerar din exponering . CIO (24 september 2014). Hämtad 2 november 2015. Arkiverad från originalet 15 januari 2019.
  15. Prag.  Utnyttja mörka data : Frågor och svar med Melissa McCormack  ? . The Machine Learning Times (30 september 2014). Hämtad 4 november 2015. Arkiverad från originalet 14 april 2019.

Litteratur