Hadoop

Apache Hadoop

Sorts	ramverk
Författare	Doug Cutting [d]
Utvecklaren	Apache Software Foundation
Skrivet i	Java
Operativ system	plattformsoberoende och POSIX
Första upplagan	1 april 2006 [1]
Hårdvaruplattform	Java Virtual Machine
senaste versionen	3.3.3 ( 17 maj 2022 )
Licens	Apache License 2.0 och GNU GPL
Hemsida	hadoop.apache.org _
Mediafiler på Wikimedia Commons

Hadoop är ett projekt av Apache Software Foundation , en fritt distribuerad uppsättning verktyg , bibliotek och ett ramverk för att utveckla och köra distribuerade program som körs på kluster av hundratals och tusentals noder. Används för att implementera sök- och kontextuella mekanismer för många högbelastade webbplatser, inklusive Yahoo! och Facebook [2] . Utvecklad i Java inom ramen för beräkningsparadigmet MapReduce , enligt vilket applikationen är uppdelad i ett stort antal identiska elementära uppgifter som är körbara på klusternoderna och naturligt reduceras till slutresultatet.

Från och med 2014 består projektet av fyra moduler - Hadoop Common ( mellanprogramvara - en uppsättning infrastrukturprogramvarubibliotek och verktyg som används för andra moduler och relaterade projekt), HDFS ( distribuerat filsystem ), YARN (ett system för att schemalägga uppgifter och hantera ett kluster) och Hadoop MapReduce (en plattform för programmering och exekvering av distribuerade MapReduce-beräkningar), tidigare inkluderade Hadoop ett antal andra projekt som blev självständiga inom projektsystemet Apache Software Foundation.

Det anses vara en av de grundläggande teknikerna för " big data ". Ett helt ekosystem av relaterade projekt och teknologier har bildats runt Hadoop, av vilka många ursprungligen utvecklades som en del av projektet och senare blev oberoende. Sedan andra hälften av 2000-talet har det skett en process av aktiv kommersialisering av tekniken , flera företag bygger sin verksamhet helt och hållet på skapandet av kommersiella distributioner av Hadoop- och ekosystemtekniska supporttjänster, och nästan all viktig informationsteknologi leverantörer för organisationer i en eller annan form inkluderar Hadoop i produktstrategier och produktlinjer.

Historik

Utvecklingen initierades i början av 2005 av Doug Cutting med syftet att bygga en distribuerad mjukvaruinfrastruktur för Nutch- projektet , en gratis sökmotor för programvara i Java , dess ideologiska grund var publiceringen av Googles anställda Jeffrey Dean och Sanjay Gemawat [3] om beräkningskoncept för MapReduce [4] . Det nya projektet fick sitt namn efter grundarens leksaksbabyelefant [5] .

Under 2005-2006 utvecklades Hadoop av två utvecklare - Cutting och Mike Cafarella ( Mike Cafarella ) i deltidsläge [4] , först som en del av Nutch-projektet, sedan - Lucene- projektet . I januari 2006 bjöds Cutting in av Yahoo att leda ett dedikerat team för utvecklingen av en distribuerad datorinfrastruktur, som även inkluderar uppdelningen av Hadoop i ett separat projekt. I februari 2008 lanserade Yahoo en klustersökmotor med 10 000 kärnor som drivs av Hadoop.

I januari 2008 blir Hadoop toppnivåprojektet i projektsystemet Apache Software Foundation . I april 2008 slog Hadoop världsrekordet i det standardiserade datasorteringsriktmärket och bearbetade 1 TB på 209 sekunder. på ett kluster av 910 noder [6] . Från det ögonblicket började Hadoop användas i stor utsträckning utanför Yahoo - Last.fm , Facebook , The New York Times [7] implementerar tekniken för sina webbplatser och anpassningar genomförs för att köra Hadoop i Amazon EC2- moln .

I april 2010 beviljade Google Apache Software Foundation rättigheterna att använda MapReduce-teknologin, tre månader efter att den försvarades i det amerikanska patentverket , och därigenom avlastade organisationen av eventuella patentanspråk [8] .

Sedan 2010 har Hadoop upprepade gånger karakteriserats som en viktig " big data "-teknik, dess utbredda användning för massivt parallell databehandling förutspås, och tillsammans med Cloudera har en serie teknikstartuper dykt upp som helt är fokuserade på kommersialiseringen av Hadoop [9] [10] . Under 2010 blev flera delprojekt av Hadoop - Avro , HBase , Hive , Pig , Zookeeper - successivt toppnivåprojekten för Apache-stiftelsen, som fungerade som början på bildandet av ett ekosystem runt Hadoop . I mars 2011 tilldelades Hadoop Guardian Media Groups årliga innovationspris , där tekniken utsågs till " det 21:a århundradets schweiziska armékniv " [11] .

Implementeringen av YARN-modulen i Hadoop 2.0, som släpptes hösten 2013, bedöms som ett betydande steg som tar Hadoop bortom MapReduce-paradigmet och sätter tekniken på nivån av en universell lösning för att organisera distribuerad databehandling [12] .

Hadoop Common

Hadoop Common inkluderar bibliotek för hantering av filsystem som stöds av Hadoop, och skript för att skapa den nödvändiga infrastrukturen och hantera distribuerad bearbetning, för bekvämligheten av vilken en specialiserad förenklad kommandoradstolk ( FS-skal , filsystemskal ) har skapats, lanserad från operativsystemet systemskal med ett kommando av formen: , där är ett tolkkommando, och är en lista över resurser med prefixet den filsystemtyp som stöds, till exempel eller . De flesta tolkkommandon implementeras i analogi med motsvarande Unix-kommandon (till exempel, , , , , , , , , , , dessutom stöds vissa nycklar för liknande Unix-kommandon, till exempel den rekursiva nyckeln för , , ) , det finns kommandon som är specifika för Hadoop (t.ex. räknar antalet kataloger, filer och byte i en given sökväg, tömmer papperskorgen och ändrar replikeringsfaktorn för en given resurs). hdfs dfs -command URIcommandURIhdfs://example.com/file1file:///tmp/local/file2cat chmod chown chgrp cp du ls mkdir mv rm tail-Rchmodchownchgrpcountexpungesetrep

HDFS

HDFS ( Hadoop Distributed File System ) är ett filsystem utformat för att lagra stora filer distribuerade block för block mellan noderna i ett datorkluster. Alla block i HDFS (förutom det sista blocket i en fil) har samma storlek, och varje block kan placeras på flera noder, blockstorleken och replikeringsfaktorn (antal noder som varje block ska placeras på) definieras i inställningarna på filnivå. Tack vare replikering säkerställs stabiliteten hos ett distribuerat system mot fel i enskilda noder. Filer kan bara skrivas till HDFS en gång (ändring stöds inte), och endast en process kan skriva till en fil åt gången. Organisationen av filer i namnutrymmet är traditionell hierarkisk : det finns en rotkatalog, kapsling av kataloger stöds och filer och andra kataloger kan finnas i samma katalog.

Att distribuera en HDFS-instans tillhandahåller en central namnnod ( eng. name node ), som lagrar filsystemmetadata och metainformation om distributionen av block, och en serie datanoder ( eng. data node ), som direkt lagrar filblock. Namnnoden är ansvarig för att bearbeta operationer på fil- och katalognivå - öppna och stänga filer, manipulera kataloger, datanoder bearbetar direkt dataskrivning och läsoperationer. Namnnoden och datanoderna är försedda med webbservrar som visar nodernas aktuella status och låter dig se innehållet i filsystemet. Administrativa funktioner är tillgängliga från kommandoradsgränssnittet.

HDFS är en integrerad del av projektet, dock stöder Hadoop arbete med andra distribuerade filsystem utan att använda HDFS, stöd för Amazon S3 och CloudStore är implementerat i huvuddistributionen. Å andra sidan kan HDFS användas inte bara för att köra MapReduce-jobb, utan också som ett allmänt distribuerat filsystem, i synnerhet är en distribuerad NoSQL DBMS HBase implementerad ovanpå den, och Apache Mahout skalbar maskininlärningssystem körs i sin miljö .

GARN

YARN ( engelska Yet Another Resource Negotiator - " another resource intermediary ") är en modul som dök upp med version 2.0 (2013), som ansvarar för att hantera klusterresurser och schemalägga uppgifter. Om den här funktionen i tidigare utgåvor integrerades i MapReduce -modulen , där den implementerades av en enda komponent ( JobTracker ), så finns det i YARN en logiskt oberoende demon - resursplaneraren ( ResourceManager ), som abstraherar alla datorresurser i kluster och hanterar deras tillhandahållande till distribuerade behandlingsapplikationer. Både MapReduce-program och andra distribuerade applikationer som stöder lämpliga programmeringsgränssnitt kan fungera under kontroll av YARN; YARN ger möjlighet till parallellt utförande av flera olika uppgifter inom klustret och deras isolering (enligt principerna för multitenancy ). En distribuerad applikationsutvecklare behöver implementera en speciell applikationshanteringsklass ( ApplicationMaster ) som är ansvarig för att koordinera uppgifter inom de resurser som tillhandahålls av resursplaneraren; resursplaneraren är ansvarig för att skapa instanser av applikationskontrollklassen och interagera med den genom lämpligt nätverksprotokoll.

YARN kan betraktas som ett klusteroperativsystem i den meningen att det fungerar som ett gränssnitt mellan klustrets hårdvaruresurser och en bred klass av applikationer som använder dess kraft för att utföra beräkningsbehandling [13] .

Hadoop MapReduce

Hadoop MapReduce är ett mjukvaruramverk för programmering av distribuerad datoranvändning inom MapReduce- paradigmet . En applikationsutvecklare för Hadoop MapReduce behöver implementera en bashanterare som, på varje beräkningsnod i klustret, säkerställer omvandlingen av de initiala nyckel-värde- paren till en mellanliggande uppsättning nyckel-värde-par (klassen som implementerar gränssnittet Mapperär uppkallad efter den högre ordningens funktionen Map ), och hanteraren , som reducerar den mellanliggande uppsättningen av par till den slutliga, reducerade uppsättningen ( fold , klass som implementerar gränssnittet Reducer). Ramverket skickar de sorterade utgångarna från bashanterarna till ingången av faltningen, minskningen består av tre faser - shuffle ( shuffle , val av önskad sektion av utgången), sortering ( sortering , gruppering efter nycklar av utgångar från distributörer - ytterligare sortering, vilket krävs när olika atomprocessorer returnerar set med samma nycklar, samtidigt kan sorteringsreglerna i denna fas ställas in programmatiskt och använda alla funktioner i nycklarnas interna struktur) och reducera sig själv ( listvikning ) - erhålla resultatuppsättningen. För vissa typer av bearbetning krävs inte vikning, och ramverket returnerar i detta fall en uppsättning sorterade par som tas emot av basprocessorerna.

Hadoop MapReduce låter dig skapa jobb med både bashanterare och veck skrivna utan att använda Java: Hadoop streamingverktyg låter dig använda vilken körbar fil som helst som fungerar med standardoperativsystem I/O (till exempel UNIX- skalverktyg) som bashanterare och foldningar ), finns det också ett SWIG- kompatibelt C ++ Hadoop pipes API . Hadoop-distributioner inkluderar också implementeringar av olika specifika basprocessorer och sammanslagningar som oftast används i distribuerad bearbetning.

I de första versionerna av Hadoop MapReduce inkluderade en jobbschemaläggare ( JobTracker ), sedan version 2.0 har denna funktion flyttats till YARN , och sedan denna version är Hadoop MapReduce-modulen implementerad ovanpå YARN. Programmeringsgränssnitt är för det mesta bevarade, men det finns ingen fullständig bakåtkompatibilitet (det vill säga för att köra program skrivna för tidigare versioner av API , för att fungera i YARN, i allmänhet krävs deras modifiering eller omstrukturering , och endast med vissa begränsningar är bakåt binära kompatibilitetsalternativ möjliga [14] ).

Skalbarhet

Ett av Hadoops huvudmål var initialt att tillhandahålla horisontell klusterskalbarhet genom att lägga till billiga noder (massklassig utrustning, engelsk råvaruhårdvara ), utan att tillgripa kraftfulla servrar och dyra lagringsnätverk . Fungerande kluster med tusentals noder i storlek bekräftar genomförbarheten och kostnadseffektiviteten för sådana system, till exempel från och med 2011 är stora Hadoop-kluster kända i Yahoo (mer än 4 tusen noder med en total lagringskapacitet på 15 PB), Facebook (cirka 2 tusen noder per 21 PB) och Ebay (700 noder per 16 PB) [15] . Man tror dock att horisontell skalbarhet i Hadoop-system är begränsad, för Hadoop före version 2.0 uppskattades det maximala möjliga till 4 tusen noder vid användning av 10 MapReduce-jobb per nod [16] . På många sätt underlättades denna begränsning av koncentrationen i MapReduce-modulen av funktioner för att övervaka livscykeln för jobb, man tror att med dess borttagande till YARN-modulen i Hadoop 2.0 och decentralisering - fördelningen av en del av övervakningsfunktionerna till bearbetningsnoder - horisontell skalbarhet har ökat.

En annan begränsning av Hadoop-system är storleken på RAM på namnnoden ( NameNode ), som lagrar hela klustrets namnutrymme för bearbetningsdistribution, dessutom är det totala antalet filer som namnnoden kan bearbeta 100 miljoner [17] . För att övervinna denna begränsning pågår ett arbete med att fördela namnnoden, som är vanlig i den nuvarande arkitekturen för hela klustret, i flera oberoende noder. Ett annat alternativ för att övervinna denna begränsning är att använda distribuerad DBMS ovanpå HDFS, såsom HBase , där rollen som filer och kataloger spelas av poster i en stor databastabell från applikationens synvinkel.

Från och med 2011 byggdes ett typiskt kluster från ensocket multi-core x86-64 - noder som kör Linux med 3-12 disklagringsenheter anslutna till ett 1Gb/s-nätverk. Det finns trender både att minska nodernas beräkningskraft och använda lågeffektprocessorer ( ARM , Intel Atom ) [18] och användningen av högpresterande beräkningsnoder samtidigt med nätverkslösningar med hög bandbredd ( InfiniBand i Oracle Big Data Appliance , högpresterande 10 Gb/s Fibre Channel och Ethernet SAN i FlexPod big data mallkonfigurationer).

Skalbarheten hos Hadoop-system beror till stor del på egenskaperna hos de data som behandlas, först och främst deras interna struktur och funktioner för att extrahera nödvändig information från dem, och komplexiteten i bearbetningsuppgiften, som i sin tur dikterar organisationen av bearbetningscykler, beräkningsintensiteten för atomära operationer och, slutligen, nivån av parallellitet och klusterbelastning. Hadoop-manualen (första versionerna, före 2.0) angav att en acceptabel nivå av parallellitet är användningen av 10-100 instanser av grundläggande processorer per klusternod, och för uppgifter som inte kräver betydande CPU-tid - upp till 300; för faltningar ansågs det vara optimalt att använda dem med antalet noder multiplicerat med en koefficient från intervallet 0,95 till 1,75 och en konstant mapred.tasktracker.reduce.tasks.maximum. Med ett större koefficientvärde kommer de snabbaste noderna, efter att ha slutfört den första konvergensomgången, att ta emot den andra delen av mellanpar för bearbetning tidigare, vilket ökar koefficienten överbelastas klustret, men ger samtidigt mer effektiv lastbalansering . YARN använder istället konfigurationskonstanter som bestämmer värdena för tillgängligt RAM och virtuella processorkärnor tillgängliga för resursplaneraren [19] , baserat på vilken nivån av parallellitet bestäms.

Ekosystem

Kommersialisering

Mot bakgrund av populariseringen av Hadoop 2008 och rapporter om att bygga Hadoop-kluster i Yahoo och Facebook, skapades Cloudera i oktober 2008, ledd av Michael Olson, den tidigare VD:n för Sleepycat (företaget som skapade Berkeley DB ), helt inriktat på kommersialiseringen av Hadoop-teknologier. I september 2009 flyttade den huvudsakliga Hadoop-utvecklaren Doug Cutting till Cloudera från Yahoo, och tack vare denna övergång beskrev kommentatorer Cloudera som "den nya fanbäraren av Hadoop", trots att huvuddelen av projektet fortfarande skapades av anställda på Facebook och Yahoo [20] . MapR grundades 2009 med målet att skapa en högpresterande version av Hadoop-distributionen och leverera den som proprietär programvara. I april 2009 lanserade Amazon Elastic MapReduce, en molntjänst som gör det möjligt för abonnenter att skapa Hadoop-kluster och köra jobb på dem på en tidsbaserad basis. Senare, som ett alternativ, fick Amazon Elastic MapReduce-prenumeranter ett val mellan den klassiska distributionen från Apache och distributioner från MapR.

År 2011 klippte Yahoo av divisionen som utvecklade och använde Hadoop till ett oberoende företag - Hortonworks , snart lyckades det nya företaget sluta ett avtal med Microsoft om att gemensamt utveckla Hadoop-distributionen för Windows Azure och Windows Server [21] . Samma år, med framväxten av Hadoop som en av kärnteknologierna för big data, inkluderade praktiskt taget alla stora teknologiprogramvaruleverantörer för organisationer Hadoop-teknologier i en eller annan form i sina strategier och produktlinjer. Så, Oracle släppte Big Data-apparaten hårdvaru-mjukvarukomplex (förmonterat i en telekommunikationsgarderob och förkonfigurerat Hadoop-kluster med ett distributionskit från Cloudera) [22] , IBM skapade BigInsights-produkten baserad på Apache-distributionssatsen [ 23] , licensierade EMC från MapR deras högpresterande Hadoop för integration i produkter från det nyligen förvärvade Greenplum [24] (denna affärsenhet delades senare av till ett fristående företag Pivotal , och den flyttade till en helt oberoende Hadoop-distribution baserat på Apache-kod [25] ), slöt Teradata ett avtal med Hortonworks om att integrera Hadoop i Aster Big Analytics-apparaten [26] . 2013 skapade Intel sin egen distribution av Hadoop [27] , ett år senare övergav sin utveckling till förmån för lösningar från Cloudera, där man förvärvade 18 % av aktierna [28] .

Volymen av mjukvaru- och tjänstemarknaden kring Hadoop-ekosystemet för 2012 uppskattas till 540 miljoner dollar med en tillväxtprognos till 1,6 miljarder dollar 2017, marknadsledarna är kaliforniska startups Cloudera, MapR och Hortonworks [29] . Utöver dem noteras även Hadapt (övertagen i juli 2014 av Teradata [30] ), Datameer , Karmasphere och Platfora som bygger hela sin verksamhet på att skapa produkter för att förse Hadoop-system med analytiska möjligheter [31] .

Kritik

Anteckningar

↑ https://archive.apache.org/dist/hadoop/common/
↑ Vance, 2009 , Den styr de bästa sökmotorerna och bestämmer vilka annonser som visas bredvid resultaten. Det bestämmer vad folk ser på Yahoos hemsida och hittar sedan länge förlorade vänner på Facebook.
↑ Dean, Jeffrey och Ghemawat, Sanjay. MapReduce: Förenklad databehandling på stora kluster // OSDI '04: 6:e symposiet om design och implementering av operativsystem. - USENIX , 2004. - S. 137-149 . - doi : 10.1145/1327452.1327492 . Arkiverad från originalet den 14 december 2011.
↑ 12 Cutting , Doug. Hadoop: en kort historia (engelska) (länk ej tillgänglig) . Yahoo! (24 mars 2008). Hämtad 25 december 2011. Arkiverad från originalet 11 mars 2012.
↑ Vance, 2009 , Doug Cutting med den uppstoppade elefanten som inspirerade namnet Hadoop.
↑ White, 2013 , I april 2008 slog Hadoop ett världsrekord för att bli det snabbaste systemet att sortera en terabyte data. Hadoop kördes på ett 910-nodskluster och sorterade en terabyte på 209 sekunder, s. 10-11.
↑ White, 2013 , vid den här tiden användes Hadoop av många andra företag, förutom Yahoo!, som Last.fm, Facebook och New York Times, sid. tio.
↑ Metz, Cade Google välsignar Hadoop med MapReduce-patentlicens (eng.) (länk ej tillgänglig) . Registret (27 april 2010). Hämtad 30 december 2011. Arkiverad från originalet 11 mars 2012.
↑ Metz, 2011 , Men det var väldigt uppenbart, mycket snabbt att att kunna hantera 'Big Data' är det största problemet som CIO:er måste lösa ... Det var tydligt att Hadoop var det sätt de ville lösa problemet på”.
↑ Morrison, Alan et al. Big Data: Hur man extraherar information från den (länk ej tillgänglig) . Teknisk prognos. Kvartalstidskrift, rysk upplaga, 2010 nummer 3 . PricewaterhouseCoopers (17 december 2010). "I början av 2010 drev Hadoop, MapReduce och deras associerade teknologier för öppen källkod ett helt nytt fenomen som O'Reilly Media, The Economist och andra har kallat big data." Hämtad 12 november 2011. Arkiverad från originalet 11 mars 2012. (ryska)
↑ Winckler, Marie. Apache Hadoop vinner högsta pris på Media Guardian Innovation Awards (engelska) (länk ej tillgänglig) . The Guardian (25 mars 2011). — "Apache Hadoop, som beskrevs av domarpanelen som en "det 21:a århundradets schweiziska armékniv", fick priset för årets innovatör för att ha potential att förändra medieinnovationers ansikte. Hämtad 25 december 2011. Arkiverad från originalet 11 mars 2012.
↑ Serdar Yegulalp. Hadoop 2: Big datas stora steg framåt . Hadoop 2.0 går längre än MapReduce för att skapa ett allmänt ramverk för distribuerade databehandlingsapplikationer . infovärlden . IDG (16 oktober 2013) . Hämtad 1 januari 2014. Arkiverad från originalet 16 december 2013.
↑ Toby Wolpe. Hortonworks grundare: YARN är Hadoops datacenter OS . Som lead på MapReduce och en del av Hadoop från starten ger Arun Murthy sin syn på YARNs betydelse för projekt- och företagsdataarkitekturen med öppen källkod . ZDNet (31 oktober 2013) . "Det var systemet att ta applikationen från användaren och köra den. Så det är typ operativsystemet"". Hämtad 1 januari 2014. Arkiverad från originalet 2 januari 2014.
↑ Apache Hadoop MapReduce - Migrerar från Apache Hadoop 1.x till Apache Hadoop 2.x. Apache Software Foundation (7 oktober 2013). Hämtad 1 januari 2014. Arkiverad från originalet 2 januari 2014. (obestämd)
↑ Shvachko, 2011 ,Originaltext (engelska)[ visaDölj] Yahoo körde enligt uppgift ett flertal kluster med 4000+ noder med fyra 1 TB-enheter per nod, 15 PB total lagringskapacitet, 70 miljoner filer och 80 miljoner block med 50 GB NameNode-hög. Facebooks lagerkluster med 2000 noder tillhandahålls för 21 PB total lagringskapacitet. Om man extrapolerar den aviserade tillväxttakten, borde dess namnområde ha nära 200 miljoner objekt (filer + block) vid det här laget, men en enorm 108 GB hög bör ge plats för nära 400 miljoner objekt. eBay kör ett kluster med 700 noder. Varje nod har 24 TB lokal disklagring, 72 GB RAM och en 12-kärnig CPU. Total klusterstorlek är 16 PB .
↑ Shvachko, 2011 , Apache Hadoop MapReduce-ramverket har enligt uppgift nått sin skalbarhetsgräns vid 40 000 klienter som körs samtidigt på klustret. Detta motsvarar ett kluster med 4 000 noder med 10 MapReduce-klienter—slots, i Hadoop-terminologi—per nod.
↑ Shvachko, 2011 , För att effektivt kunna behandla metadataförfrågningar från tusentals klienter, behåller NameNode hela namnområdet i minnet. Mängden RAM som allokeras för NameNode begränsar storleken på klustret <...> Den nuvarande namnutrymmesgränsen är 100 miljoner filer.
↑ Derek Harris. Big data på mikroservrar? Du slår vad . Onlinedejtingtjänsten eHarmony använder SeaMicros specialiserade Intel Atom-drivna servrar som grunden för sin Hadoop-infrastruktur, vilket visar att big data-applikationer som Hadoop kan vara en mördande app för lågdrivna mikroservrar . Gigaom (13 juni 2011) . Hämtad 4 januari 2014. Arkiverad från originalet 22 december 2013.
↑ yarn.nodemanager.resource.memory-mb och yarn.nodemanager.resource.cpu-vcoresföljaktligen i YARN-konfigurationsfilen
↑ Handy, Alex. Hadoop-skaparen går till Cloudera (engelska) (nedlänk) . SD Times (9 oktober 2009). "Jag har sagt ett tag nu att Cloudera är företaget med Hadoop-bannern stadigt i sitt grepp, trots att Yahoo och Facebook båda bidrar med berg av kod för projektet." Hämtad 25 december 2011. Arkiverad från originalet 11 mars 2012.
↑ Mary Jo Foley. Hortonworks levererar beta av Hadoop big-data-plattform för Windows . En helt öppen källkodsversion av Hortonworks Data Platform för Windows, byggd med bidrag från Microsoft, är tillgänglig för betatestare. (engelska) . ZDNet (17 februari 2013) . - "2011 meddelade Microsoft att de samarbetar med Hortonworks för att skapa både en Windows Azure- och Windows Server-implementering av Hadoop big data-ramverket." Hämtad 2 januari 2014. Arkiverad från originalet 3 januari 2014.
↑ Timothy Prickett Morgan. Oracle rullar sin egen NoSQL och Hadoop . En ytterst självsäker Ellison kliver upp på Big Data-elefanten . Registret (3 oktober 2011) . — "Det råder ingen brist på ego hos Oracle, vilket framgår av utgjutningen av förtroende bakom företagets OpenWorld-meddelande om den inte så ödmjukt namngivna Big Data Appliance." Hämtad 2 januari 2014. Arkiverad från originalet 7 juli 2017.
↑ Doug Henschen. IBM slår Oracle, Microsoft med Big Data Leap . Den Hadoop-baserade InfoSphere BigInsights-plattformen går live på SmartCloud-infrastrukturen och slår Oracle och Microsoft på marknaden . Informationsvecka (2011-14-10) . Hämtad 2 januari 2014. Arkiverad från originalet 3 januari 2014.
↑ Derek Harris. Startup MapR underbygger EMC:s Hadoop-satsning . Kalifornien-baserad lagringsstart MapR, som tillhandahåller ett högpresterande alternativ för Hadoop Distributed File System, kommer att fungera som lagringskomponent för EMC:s kommande Greenplum HD Enterprise Edition Hadoop- distribution . Gigaom (25 maj 2011) . Datum för åtkomst: 2 januari 2014. Arkiverad från originalet 2 januari 2014.
↑ Timothy Pricket Morgan. Pivotal ships eponymous Hadoop distro till massorna . En nyfiken HAWQ rider på big data-elefanten . Registret (17 juli 2013) . "I kölvattnet av att EMC förvärvade den parallella databasen Greenplum och relaterad datalagerverksamhet för några år sedan, gick EMC ihop med MapR Technologies för att ändra namnet på sin egen version av Hadoop för att göra sin Greenplum HD-variant. Men med Pivotal HD 1.0-distributionen har EMC- och VMware-spinoffen gått tillbaka till Apache Hadoop med öppen källkod." Hämtad 2 januari 2014. Arkiverad från originalet 3 januari 2014.
↑ Jaikumar Vijayan. Teradata samarbetar med Hortonworks på Hadoop . Två företag går samman för att utveckla produkter och implementeringstjänster . Computerworld (21 februari 2012) . Hämtad 2 januari 2014. Arkiverad från originalet 3 januari 2014.
↑ Stacey Higginbotham. Cloudera vem? Intel tillkännager sin egen Hadoop-distribution . Intel går in i branschen för öppen källkod med sin egen version av Hadoop. Det går med en mängd nystartade företag och EMC Greenplum i att bygga en distribution för big data . Gigaom (26 februari 2013) . Hämtad 3 januari 2014. Arkiverad från originalet 2 januari 2014.
↑ Harris, Dereck Intel kastar bort sin Hadoop-distro och sätter miljoner bakom Cloudera . Gigaom (27 mars 2014). Hämtad 1 april 2014. Arkiverad från originalet 30 mars 2014.
↑ John Furier. Hadoop Pure-Play affärsmodeller förklaras . Forbes (19 december 2013). Hämtad 2 januari 2014. Arkiverad från originalet 3 januari 2014.
↑ Doug Henschen. Teradata förvärvar Hadapt, Revelytix för Big Data Boost . Teradata lägger till dataförberedande, datahanterings- och dataanalysfunktioner genom att köpa två anmärkningsvärda oberoende i big data-arenan . Informationsvecka (22 juli 2014) . Hämtad 1 november 2014. Arkiverad från originalet 1 november 2014. (obestämd)
↑ Doug Henschen. 13 Big Data-leverantörer att titta på under 2013 . Från Amazon till Splunk, här är en titt på big data-innovatörerna som nu driver Hadoop, NoSQL och big data-analys till nästa nivå . Informationsvecka (10 december 2012) . — "Hadapt ger relationsanalys till Hadoop <...> Hadapt är i gott sällskap, med Cloudera (Impala), Datameer, Karmasphere, Platfora och andra som alla arbetar på olika sätt att möta samma analytics-on-Hadoop-utmaning." Hämtad 2 januari 2014. Arkiverad från originalet 3 januari 2014. (obestämd)

Litteratur

Vit, Tom. Hadoop. Detaljerad guide. - 2:a. - St Petersburg. : Piter , 2013. - 672 sid. - 1000 exemplar. - ISBN 978-5-496-00662-0 .
Lam, Chuck. Hadoop i aktion. - DMK Press, 2012. - 424 sid. - 500 exemplar. - ISBN 978-5-97060-156-3 , 978-5-94074-785-7.
Vance, Ashlee . Hadoop, ett gratisprogram, Finds Uses Beyond Search (engelska) (HTML), N. Y. : The New York Times (17 mars 2009), s. B3. Hämtad 25 december 2011.
Prickett Morgan, Timothy Cloudera svävar kommersiell Hadoop-distro (engelska) (länk ej tillgänglig) . Registret (16 mars 2009). Hämtad 25 december 2011. Arkiverad från originalet 11 mars 2012.
Metz, Cade. Hur Yahoo skapade Hadoop, the Future of Big Data (engelska) (länk ej tillgänglig) . Wired (18 oktober 2011). Hämtad 25 december 2011. Arkiverad från originalet 11 mars 2012.
Shvachko, Konstantin. Apache Hadoop. Skalbarhetsuppdateringen . _ - 2011. - Vol. 36 , nr. 3 . - S. 7-13 . - ISSN 1044-6397 .