Datafusion

Datafusion är processen att kombinera datakällor för att producera mer konsekvent, korrekt och användbar information än information från en enda källa [1] .

Datasammanslagningsprocesser grupperas ofta som låg, medium eller hög sammanslagning, beroende på i vilket bearbetningsstadium sammanslagningen utförs [2] . Datafusion på låg nivå kombinerar vissa källor till rådata för att producera andra rådata. Den sammanslagna datan måste vara mer informativ och syntetisk än den ursprungliga informationen.

Till exempel är insamling och sammanfattning av data från sensorer känt som (multi-sensor) datafusion och är en delmängd av informationsfusion .

Människor som exempel på datafusion

Människor är ett direkt exempel på datafusion. Som människor förlitar vi oss mycket på våra sinnen som syn, lukt , smak, ljud och fysisk rörelse. Kombinationen av alla dessa sinnen kombineras ständigt för att hjälpa oss att utföra de flesta, om inte alla, uppgifterna i vårt dagliga liv. Det vill säga, detta är ett direkt exempel på datafusion. Vi förlitar oss på blandningen av lukt, smak och beröring av mat för att se till att den är ätbar. På samma sätt förlitar vi oss på vår syn och vår förmåga att höra och kontrollera vår kropps rörelser för att gå eller köra bil och utföra de flesta uppgifterna i våra liv. I alla dessa fall smälter hjärnan samman och kontrollerar vad vi måste göra i nästa ögonblick. Vår hjärna förlitar sig på fusionen av data som samlats in från ovanstående sinnen [3] .

Geospatiala applikationer

Inom den geospatiala studiedomänen ( GIS ) är datafusion ofta synonymt med dataintegration . I dessa applikationer finns det ofta ett behov av att kombinera olika datamängder till en sammanfogad datamängd som inkluderar alla datapunkter. Sammanslagna datauppsättningar skiljer sig från en enkel sammanfogning genom att punkterna i den sammanslagna datauppsättningen innehåller attribut och metadata som punkterna i den ursprungliga datauppsättningen kanske inte har.

Ett förenklat exempel på denna process visas nedan, där dataset α slås samman med dataset β och bildar en sammanfogad dataset δ. Datapunkter i mängden α har rumsliga X- och Y-koordinater och A1- och A2-attribut. Datapunkter i uppsättningen β har rumsliga X- och Y-koordinater och B1- och B2-attribut. Den sammanslagna datamängden innehåller alla punkter och attribut.

Indatauppsättning α Indatauppsättning β Sammanfogad datauppsättning δ
Punkt X Y A1 A2
α1 tio tio M N
α2 tio trettio M N
α3 trettio tio M N
α4 trettio trettio M N
Punkt X Y B1 B2
β1 tjugo tjugo F R
β2 tjugo 40 F R
β3 40 tjugo F R
β4 40 40 F R
Punkt X Y A1 A2 B1 B2
51 tio tio M N Q? R?
52 tio trettio M N Q? R?
53 trettio tio M N Q? R?
54 trettio trettio M N Q? R?
55 tjugo tjugo M? N? F R
56 tjugo 40 M? N? F R
57 40 tjugo M? N? F R
58 40 40 M? N? F R

I det enkla fallet, när alla attribut är enhetliga i hela området, kan attribut enkelt tilldelas: M?, N?, Q?, R? i M, N, Q, R. I faktiska tillämpningar är attributen inte enhetliga och någon form av interpolation behövs vanligtvis för att korrekt tilldela attribut till datapunkter i en sammanfogad uppsättning.

I en mycket mer komplex tillämpning har havsdjursforskare använt sammansmältningen av data om djurrörelser med batymetriska och meteorologiska data, havsytans temperatur djurens livsmiljö för att se och förstå djurens beteende som svar på yttre påverkan som väder och vattentemperatur. Var och en av dessa datauppsättningar representerar olika rumsliga rutnät och samplingsfrekvens, så en enkel kombination av data skulle sannolikt ge orimliga antaganden och förstöra analysen. Men genom att slå samman data samlas alla data och attribut till en enhet, vilket skapar en mer komplett bild av miljön. Detta gör det möjligt för forskare att lokalisera viktiga platser och tider och ger nya insikter om samspelet mellan miljö och djurbeteende.

På bilden till höger studeras hummer vid Tasmanhavets stränder. Hugh Pederson från University of Tasmany använde datafusionsprogram för att sammanfoga spårningsdata för rörelser för sydlig stenhummer kodad i gult och svart för dagtid respektive natt i bilden) med batymetriska data och habitatdata till ett 4-dimensionellt mönster av hummerbeteende.

Dataintegration

I applikationer utanför geospatiala domäner skiljer sig användningen av termerna dataintegration och datafusion. Inom områden som business intelligence, till exempel, används termen "dataintegration" för att beskriva kombinationen av data, medan termen "datafusion" är en integration följt av komprimering och dataersättning. Dataintegration kan ses som en uppsättningskombination där en större uppsättning behålls, medan fusion är en uppsättningsreduktionsteknik med förbättrad tillförlitlighet.

JDL/DFIG-modell

I mitten av 1980-talet bildade Joint  Directors of Laboratories (JDL) Data Fusion Subcommittee (som senare blev känd som Data Fusion Group , DFG) .  Med tillkomsten av World Wide Web började datafusion inkludera sensorfusion och informationsfusion. JDL/DFIG-gruppen har introducerat en datafusionsmodell som bryts ner i olika processer. Det finns för närvarande sex nivåer av DFIG- modellen ( Data Fusion Information Group ):  

Nivå 0 : Källa Förbearbetning / ämnesbedömning 

Nivå 1 : Objektbedömning _ _ 

Nivå 2 : Situationsbedömning _ _ 

Nivå 3 : Konsekvensbedömning ( eller hotförfining ) _ _ _  

Nivå 4 : Processförfining _ _ 

Nivå 5 : Användarförfining eller kognitiv förfining _ _ _ _  

Även om JDL-modellen (nivåerna 1–4) fortfarande används idag, kritiseras den ofta för att kräva att nivåerna måste implementeras i angiven ordning, och för att inte representera mänskligt deltagande på ett adekvat sätt. DFIG-modellen (nivåer 0–5) tar hänsyn till effekterna av miljömedvetenhet, användarförbättringar och arbetsledning [4] . Trots sina brister är JDL/DFIG-modeller användbara för att visualisera processen för datafusion, vilket främjar diskussion och gemensam förståelse [5] , och är också viktigt för att utveckla informationsfusion på systemnivå [4] .

Applikationer

Från olika trafiksensorer på vägen

Data från olika sensorteknologier kan på ett intelligent sätt kombineras för att bestämma trafikens exakta tillstånd. Datafusionsmetoden, som använder väghärledda akustiska, bild- och sensordata, visar fördelen med att kombinera olika individuella metoder [6] .

Kombinera lösningar

I många fall är geografiskt spridda sensorer kraftigt begränsade vad gäller strömförbrukning och genomströmning. Därför reduceras rådata som hänför sig till ett visst fenomen ofta till flera bitar för varje sensor. När man sluter sig till en binär händelse (dvs. eller ), skickas i extremfallet endast den binära lösningen från sensorn till beslutspoolningscentret och kombineras för att erhålla en förbättrad klassificering [7] [8] [9] .

För att förbättra kontextuell medvetenhet

Med ett stort antal inbyggda sensorer, inklusive rörelsesensorer, miljösensorer, positionssensorer, tillåter moderna mobila enheter vanligtvis mobilapplikationer att få tillgång till en stor mängd sensordata som kan användas för att förbättra kontextuell medvetenhet. Att använda signalbehandling och datafusionstekniker såsom funktionsgenerering, genomförbarhetsbedömning och huvudkomponentanalys för att analysera sådana sensordata förbättrar avsevärt rörelseklassificeringen och enhetens kontextuella tillstånd [10] .


Anteckningar

  1. Haghighat, Abdel-Mottaleb, Alhalabi, 2016 , sid. 1984-1996.
  2. Klein, 2004 , sid. 51.
  3. Penn State WebAccess Säker inloggning:  (eng.) . ieeexplore-ieee-org.ezaccess.libraries.psu.edu . Hämtad: 27 juni 2018.
  4. 1 2 Blasch, Bosse, Lambert, 2012 .
  5. Liggins, Hall, Llinas, 2008 .
  6. Joshi, Rajamani, Takayuki, Prathapaneni, Subramaniam, 2013 .
  7. Ciuonzo, Papa, Romano, Salvo Rossi, Willett, 2013 , sid. 861–864.
  8. Ciuonzo, Salvo Rossi, 2014 , sid. 208–212.
  9. Ciuonzo, De Maio, Salvo Rossi, 2015 , sid. 1249–1253.
  10. Guiry, van de Ven, Nelson, 2014 , sid. 5687–5701.

Litteratur

Citat

Källor

Länkar

  1. Haghighat, Abdel-Mottaleb, Alhalabi, 2016 , sid. 1984-1996.