Strömningsalgoritm

En strömningsalgoritm är en algoritm för att bearbeta en sekvens av data i ett eller ett litet antal passager.

Strömalgoritmer löser problem där data anländer sekventiellt och i stora volymer. Ett exempel är analysen av nätverkstrafik på sidan av routern . Sådana problem lägger naturliga begränsningar på det tillgängliga minnet (mycket mindre än storleken på indata) och bearbetningstiden för varje element i sekvensen på strömmande algoritmer. Ofta är databehandling endast möjlig i ett pass.

Strikta begränsningar av tid och minne gör det ofta omöjligt att lösa problemet som studeras exakt. Flödesalgoritmer är vanligtvis probabilistiska och ger en approximation till det exakta svaret.

Historik

Även om sådana algoritmer övervägdes i verken under första hälften av 1980 -talet [1] [2] , formaliserades konceptet med en strömningsalgoritm först i Alon , Matias ( eng. Yossi Matias ) och Szegedi ( eng. Mario Szegedy ) 1996 [3] . År 2005 tilldelades författarna Gödelpriset för sitt grundläggande bidrag till streamingalgoritmer .

2005 introducerades konceptet med en semi-streaming-algoritm [ 4 ] som algoritmer som bearbetar den inkommande strömmen i en konstant eller logaritmisk[ förtydliga ] antal pass.

Modell

I strömdatamodellen anses det att en del av eller hela uppsättningen av indata som behöver bearbetas inte är tillgänglig för slumpmässig åtkomst : indata anländer sekventiellt och kontinuerligt i en eller flera strömmar. Dataströmmar kan representeras av en ordnad sekvens av punkter ("uppdateringar"), som kan nås i ordning och endast en gång eller ett begränsat antal gånger.

Många trådningspublikationer anser uppgiften att ha datorstatistik på en distribution av data som är för stor för effektiv lagring.[ specificera ] . För denna klass av problem antas det att vektorn (nollinitierad ) har ett visst antal "uppdateringar" i strömmen. Målet med sådana algoritmer är att beräkna funktioner för att använda betydligt mindre utrymme än vad som skulle kräva en fullständig representation av vektorn . Det finns två generella modeller för uppdatering av sådan data: " kassaregister " och "turnstile" ( sv . turnstile ). $\mathbf {a} =(a_{1},\dots ,a_{n})$ $\mathbf {0}$ ${\mathbf {a}}$ ${\mathbf {a}}$

I "cash"-modellen representeras varje "uppdatering" i formuläret och vektorn modifieras på ett sådant sätt att den ökar med något positivt heltal . Ett specialfall är fallet (endast en enhet får sättas in). $\langle i,c\rangle$ $a_{i}$ $c$ $c=1$

I "turnstile"-modellen representeras varje "uppdatering" i formen och vektorn modifieras på ett sådant sätt att den ökar med något positivt eller negativt heltal . I en strikt modell kan vid varje given tidpunkt inte vara negativ. $\langle i,c\rangle$ $a_{i}$ $c$ $a_{i}$

I ett antal källor övervägs dessutom "slide-window"-modellen. I denna modell beräknas funktionen av intresse över ett fönster med begränsad dimensionalitet från strömdata, element från slutet av fönstret beaktas inte förrän ny data från strömmen tar deras plats.

Dessa algoritmer beaktar inte bara frågor relaterade till datas frekvensegenskaper, utan också ett antal andra. Många problem på grafer löses under förutsättning att grafens närliggande matris strömladdas i någon okänd ordning i förväg. Ibland, tvärtom, är det nödvändigt att lösa problemet med att uppskatta ordningen på data, till exempel för att räkna antalet inversa värden i strömmen och hitta den största ökande sekvensen.

Jämförelse av algoritmer

De viktigaste egenskaperna hos strömmande algoritmer:

antalet tillåtna passeringar av algoritmen över data;
tillgängligt minne;
handläggningstid[ specificera ] .

Dessa algoritmer har mycket gemensamt med onlinealgoritmer , eftersom algoritmen måste fatta ett beslut innan all data är tillgänglig, men det finns skillnader. I synnerhet har in-line-algoritmer förmågan att fördröja att fatta beslut tills en grupp av punkter i en datasekvens anländer, medan onlinealgoritmer måste fatta beslut när varje ny punkt i en sekvens anländer.

Om algoritmen är ungefärlig, är noggrannheten i svaret en annan indikator. Noggrannheten hos en algoritm representeras ofta som ett värde , vilket betyder att algoritmen kommer att uppnå mindre fel med en sannolikhet på . $(\epsilon ,\delta )$ $\epsilon$ $1-\delta$

Applikation

Strömalgoritmer är av stor betydelse i uppgifterna att övervaka och hantera datornätverk, till exempel genom att de med hjälp av dem är det möjligt att snabbt förhindra bräddavlopp (spåra jätteströmmar uppskatta antalet och förväntade varaktigheten av brädden) [ ] Dessutom kan strömningsalgoritmer användas i databaser, till exempel för att uppskatta storleken efter en tabellanslutningsoperation .

Exempel på problem lösta med strömningsalgoritmer

Problem med frekvensfördelning

$k$ Det:e frekvensmomentet i vektorn definieras som . ${\mathbf {a}}$ ${\displaystyle F_{k}(\mathbf {a} )=\sum _{i=1}^{n}a_{i}^{k))$

Det första momentet är den enkla summan av frekvenserna (det vill säga det totala antalet). Den andra punkten är användbar för att beräkna statistiska parametrar för data, såsom Gini-koefficienten . definieras som frekvensen av det mest frekvent förekommande elementet. $F_{1}$ $F_{2}$ ${\displaystyle F_{\infty ))$

Frågorna om att uppskatta frekvensmoment studeras också.

Sök efter tunga element

Uppgiften är att hitta det mest frekvent förekommande elementet i dataströmmen. Följande algoritmer gäller här:

Boyer-Moores majoritetsröstalgoritm
Karp-Papadimitriou-Schenker algoritm ,
Count-Min sketch ,
klibbig samplingsalgoritm , _ _
Förlusträknealgoritm _
"sample och håll" ( eng. sample and hold ),
skiktat blomfilter ,
counting "sketch" ( eng. Count-skiss ),
sampling baserat på "outline" eng. skissguidad provtagning ,

Trendspårning

Trender i en dataström görs vanligtvis i följande ordning: de vanligaste elementen och deras frekvenser bestäms baserat på en av ovanstående algoritmer[ förtydliga ] <--algoritmer för att hitta tunga element? och om detta avsnitt flyttas lägre?-->, och då noteras den största ökningen i förhållande till föregående tidpunkt som en trend. För detta används ett exponentiellt glidande medelvärde och olika normaliseringar [6] . Den använder mellanslag O(ε² + log d) och O(1) värsta tänkbara uppdatering för en universell hashfunktion från familjen av r-smarta oberoende hashfunktioner med r = Ω(log(1/ε)/log log(1) / ε))[ specificera ] .

Entropi

En empirisk entropiuppskattning över en uppsättning frekvenser definieras som , där [7] . ${\mathbf {a}}$ $F_{k}(\mathbf {a} )=\sum _{i=1}^{n}{\frac {a_{i}}{m}}\log {\frac {a_{i} }{m}}$ $m=\sum _{i=1}^{n}a_{i}$

Maskininlärning

Huvuduppgiften för online maskininlärning är att träna en modell (till exempel en klassificerare) i ett pass genom träningsuppsättningen; prediktiv hashning och gradient för att det

Räknar antalet unika element

Att räkna antalet unika element i dataströmmen (moment ) är en annan $F_{0}$ [ förtydliga ] ett väl studerat problem. Den första algoritmen föreslogs av Flajolet och Martin [2] . 2010 hittades en asymptotiskt optimal algoritm [8] .

Anteckningar

↑ Munro & Paterson (1980 )
↑ 1 2 Flajolet & Martin (1985 )
↑ Alon, Matias & Szegedy (1996 )
↑ Feigenbaum Joan , Kannan Sampath , McGregor Andrew , Suri Siddharth , Zhang Jian. Om grafproblem i en semi-streaming modell // Teoretisk datavetenskap. - 2005. - December ( vol. 348 , nr 2-3 ). - S. 207-216 . — ISSN 0304-3975 . - doi : 10.1016/j.tcs.2005.09.013 .
↑ J. Xu En handledning om nätverksdataströmning
↑ Schubert Erich , Weiler Michael , Kriegel Hans-Peter. SigniTrend // Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '14. - 2014. - ISBN 9781450329569 . - doi : 10.1145/2623330.2623740 .
↑ Entropiuppskattningar gavs av McGregor et al., Do Ba et al., Lall et al., Chakrabarti et al.[ förtydliga ]
↑ Kane, Daniel M.; Nelson, Jelani; Woodruff, David P. (2010), "An optimal algorithm for the distinct elements problem", Proceedings of the twenty-ninth ACM SIGMOD-SIGACT-SIGART symposium on Principles of databas systems, PODS '10, New York, NY, USA: ACM, sid. 41-52, doi:10.1145/1807085.1807094, ISBN 978-1-4503-0033-9 .

Litteratur

Alon, Noga ; Matias, Yossi & Szegedy, Mario (1999), The space complexity of approximating the frequency moments , Journal of Computer and System Sciences vol. 58 (1): 137–147, ISSN 0022-0000 , DOI 10.1006/jcss.1997.1545 . Först publicerad som Alon, Noga; Matias, Yossi & Szegedy, Mario (1996), The space complexity of approximating the frequency moments , Proceedings of the 28th ACM Symposium on Theory of Computing (STOC 1996) , sid. 20–29, ISBN 0-89791-785-5 , DOI 10.1145/237814.237823 .
Babcock, Brian; Babu, Shivnath; Datar, Mayur & Motwani, Rajeev (2002), Modeller och problem i dataströmssystem , Proceedings of the 21st ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems (PODS 2002) , sid. 1–16, doi : 10.1145/543613.543615 , < http://infolab.usc.edu/csci599/Fall2002/paper/DML2_streams-issues.pdf > .
Gilbert, AC ; Kotidis, Y.; Muthukrishnan, S. & Strauss, MJ (2001), Surfing Wavelets on Streams: One-Pass Summaries for Approximate Aggregate Queries , Proceedings of the International Conference on Very Large Data Bases : 79–88 , < http://www.vldb. org/conf/2001/P079.pdf > .
Kane, Daniel M.; Nelson, Jelani & Woodruff, David P. (2010), En optimal algoritm för problem med distinkta element , PODS '10, New York, NY, USA: ACM, sid. 41-52, ISBN 978-1-4503-0033-9 , DOI 10.1145/1807085.1807094 .
Karp, R.M .; Papadimitriou, CH & Shenker, S. (2003), En enkel algoritm för att hitta frekventa element i strömmar och påsar , ACM Transactions on Database Systems vol. 28 (1): 51–55 , DOI 10.1145/762471.762473 .
Lall, Ashwin; Sekar, Vyas; Ogihara, Mitsunori & Xu, Jun (2006), Dataströmningsalgoritmer för att uppskatta entropi av nätverkstrafik , Proceedings of the Joint International Conference on Measurement and Modeling of Computer Systems (ACM SIGMETRICS 2006) , doi : 10.1145/114027ft : 11427ft /ftp.cs.rochester.edu/pub/papers/theory/05.tr886.Data_streamg_algms_for_estimating_entropy_of_network_traffic.pdf > (död länk) .
Xu, Jun (Jim) (2007), A Tutorial on Network Data Streaming , < http://www.cc.gatech.edu/%7Ejx/reprints/talks/sigm07_tutorial.pdf > .

Länkar

Princeton föreläsningsanteckningar
Strömmande algoritmer för geometriska problem , av Piotr Indyk , MIT
Dagstuhl Workshop om sublinjära algoritmer
IIT Kanpur Workshop om dataströmning
Lista över öppna problem i streaming (sammanställd av Andrew McGregor ) från diskussion vid IITK Workshop on Algorithms for Data Streams, 2006.
StreamIt - programmeringsspråk och kompileringsinfrastruktur av MIT CSAIL (inte tillgänglig länk)
IBM Spade - Stream Processing Application Declarative Engine
IBM InfoSphere-strömmar

läroböcker

Dataströmningsalgoritmer och applikationer av S. Muthu Muthukrishnan
Stanford STREAM-projektundersökning
Nätverkstillämpningar av Bloom-filter , av Broder och Mitzenmacher
Xus SIGMETRICS 2007 handledning
Föreläsningsanteckningar från kursen Dataströmmar på Barbados 2009 , av Andrew McGregor och S. Muthu Muthukrishnan

Kurser