Data science ( engelska data science ; ibland datalogy - datalogy [1] ) är ett avsnitt inom datavetenskap som studerar problemen med att analysera , bearbeta och presentera data i digital form. Kombinerar metoder för att bearbeta data under förhållanden med stora volymer och hög grad av parallellitet, statistiska metoder , metoder för datautvinning och artificiell intelligens applikationer för att arbeta med data, samt metoder för att designa och utveckla databaser .
Anses som en akademisk disciplin [2] , och sedan början av 2010-talet, till stor del på grund av populariseringen av begreppet " big data " [3] , - och som ett praktiskt branschöverskridande verksamhetsområde, dessutom specialiseringen of a scientistdata -talet [4] [5] .
Början av bildandet av en dedikerad disciplin anses vara 1966 , då Kommittén för data för vetenskap och teknik (CODATA) [6] inrättades , och den första introduktionen av termen datavetenskap hänvisar till Peter Naurs bok i 1974, där han uttryckligen definierade datavetenskap som en disciplin, som studerar digital datas livscykel - från utseende till transformation för presentation inom andra kunskapsområden [7] (det finns en åsikt att Naur använde termen "datavetenskap" i slutet av 1960-talet [8] ).
Men först på 1990-talet blev termen som betecknar disciplin allmänt använd [9] [6] , och först i början av 2000-talet blev det allmänt accepterat, främst på grund av en artikel av Bell Labs statistiker William Cleveland (från och med 2012) professor i statistik vid Purdue University ), där han publicerade en plan för utveckling av de tekniska aspekterna av statistisk forskning och identifierade datavetenskap som en separat akademisk disciplin där dessa tekniska aspekter bör koncentreras [10] [11] .
År 2002 lanserade kommittén för data för vetenskap och teknik publiceringen av CODATA Data Science Journal, som innehåller namnet på disciplinen i titeln, och i januari 2003 var det första numret av The Journal of Data Science vid Columbia University publicerade .
En annan ökning av det breda intresset för datavetenskap hänvisar till framväxten av " big data "-paradigmet, som fokuserar på nya tekniska möjligheter för att bearbeta data av stora volymer och mångfald, inklusive genom tillämpning av metoder som utvecklades på 2000-talet inom datavetenskap. Sedan 2011 har O'Reilly hållit en serie stora datavetenskapskonferenser - Strata [12] , EMC har hållit ett årligt datavetenskapstoppmöte sedan 2011 [13] . McKinsey förutspådde 2011 en efterfrågan i USA på 440-490 tusen nya specialister med "djupa analytiska färdigheter i att arbeta med big data" till 2018 och en brist på 50% - 60% på sådana specialister samtidigt som utbildningstrenderna bibehålls [14] , i I samband med denna prognos drevs till stor del intresset för att skapa läroplaner [15] .
Under 2012 noteras datavetaryrket upprepade gånger som en av de mest attraktiva ( eng. sexig ) och lovande i den moderna världen, det hävdas att sådana specialister kommer att spela en nyckelroll i organisationer, på grund av möjligheterna att få konkurrensfördelar genom analys, snabb bearbetning och extraktion av mönster i data, främst inom teknikbranscher [16] [5] .
Sedan läsåret 2013 har University of Dundee , University of Auckland , University of Southern California lanserat masterprogram i datavetenskap, och Business School vid Imperial College London har lanserat ett program för förberedelse av "Masters of Science i Data Science and Management" ( eng. MSc Data Science & Management ) [17] . Samma år fick University of Washington , University of California i Berkeley och New York University ett anslag på 37,8 miljoner dollar för att främja datavetenskap, som under fem år bland annat kommer att bygga läroplaner och skapa möjligheter för en akademiker karriär inom området [18] .
Det huvudsakliga praktiska målet för professionell verksamhet inom datavetenskap är att upptäcka mönster i data [19] , extrahera kunskap från data i en generaliserad form [20] . För att förklara de färdigheter som krävs för aktiviteter inom detta område används ofta Venn-diagrammet [21] , där de färdigheter som krävs av en specialist återspeglas i skärningspunkten mellan områden med allmän ämneserfarenhet ( engelska substantive expertise ), praktisk erfarenhet av information teknik ( hacking skills ) och kunskap matematisk statistik [22] .
Som ett epistemologiskt inslag i disciplinen anges prioriteringen av resultatens praktiska tillämpbarhet, det vill säga framgången för förutsägelser, framför deras kausalitet, medan det inom traditionella forskningsområden är väsentligt att förklara fenomenets natur [23] . I jämförelse med klassisk statistik , på de metoder som datavetenskapen till stor del är baserad på, innebär det studiet av superstora heterogena uppsättningar av digital information och en oupplöslig länk med informationsteknologier som tillhandahåller deras bearbetning [24] . I jämförelse med verksamhet inom området design och arbete med databaser, där det antas att den preliminära utformningen av en datamodell som speglar förhållandet mellan ämnesområdet och den efterföljande studien av den laddade datan med relativt enkla (arithmetiska) metoder, datavetenskap förutsätter att man är beroende av apparaten för matematisk statistik, artificiell intelligens, maskininlärning, ofta utan att först ladda data i modellen. Jämfört med yrket som en analytiker, vars huvudsakliga mål är att beskriva fenomen baserat på ackumulerad data med relativt enkla användarverktyg (som kalkylblad eller Business Intelligence -klassverktyg ), kräver profilen för en datavetare mindre fokus på innehållet i ämnesområden, men kräver djupare kunskaper inom matematisk statistik, maskininlärning, programmering och i allmänhet en högre utbildningsnivå ( masters , kandidater för vetenskaper , Ph.D i jämförelse med kandidater och specialister ) [25] .
University of Washington Introduction to Data Science-kurs , publicerad på Coursera , har följande avsnitt [26] :
Datavetenskapsblocket i masterprogrammet i datavetenskap och management vid Imperial College London inkluderar en förberedande kurs för avancerad statistik . Följande discipliner ingår direkt i datavetenskapskursen:
Efter kurser i datavetenskap och grunderna i management ger programmet en tillämpad kurs, uppdelad i två strömmar, riskhantering , kapitalförvaltning och derivata finansiella instrument ingår i den finansiella och tekniska strömmen och bearbetning av stora datamängder ingår i rådgivningen ström , nätverksanalys, ekonometrisk analys, tillämpningar inom tjänster och rådgivning, energi , sjukvård , politik . [17]
University of Dundee- programmet betonar " big data ", i första hand i motsats till "kalkylbladsbehandling", och fokuserar på datautvinning , databas- och lagringsmodellering , statistik och språken SQL , MDX , R , Erlang , Java studeras inom programmet , Hadoop och NoSQL- verktygen [27] .