Datavetenskap

Data science ( engelska  data science ; ibland datalogy  - datalogy [1] ) är ett avsnitt inom datavetenskap som studerar problemen med att analysera , bearbeta och presentera data i digital form. Kombinerar metoder för att bearbeta data under förhållanden med stora volymer och hög grad av parallellitet, statistiska metoder , metoder för datautvinning och artificiell intelligens applikationer för att arbeta med data, samt metoder för att designa och utveckla databaser .

Anses som en akademisk disciplin [2] , och sedan början av 2010-talet, till stor del på grund av populariseringen av begreppet " big data " [3] , - och som ett praktiskt branschöverskridande verksamhetsområde, dessutom specialiseringen of  a scientistdata -talet  [4] [5] .

Historik

Början av bildandet av en dedikerad disciplin anses vara 1966 , då Kommittén för data för vetenskap och teknik (CODATA) [6] inrättades , och den första introduktionen av termen datavetenskap hänvisar till Peter Naurs bok i 1974, där han uttryckligen definierade datavetenskap som en disciplin, som studerar digital datas livscykel - från utseende till transformation för presentation inom andra kunskapsområden [7] (det finns en åsikt att Naur använde termen "datavetenskap" i slutet av 1960-talet [8] ).

Men först på 1990-talet blev termen som betecknar disciplin allmänt använd [9] [6] , och först i början av 2000-talet blev det allmänt accepterat, främst på grund av en artikel av Bell Labs statistiker William Cleveland (från och med 2012) professor i statistik vid Purdue University ), där han publicerade en plan för utveckling av de tekniska aspekterna av statistisk forskning och identifierade datavetenskap som en separat akademisk disciplin där dessa tekniska aspekter bör koncentreras [10] [11] .

År 2002 lanserade kommittén för data för vetenskap och teknik publiceringen av CODATA Data Science Journal, som innehåller namnet på disciplinen i titeln, och i januari 2003 var det första numret av The Journal of Data Science vid Columbia University publicerade .

En annan ökning av det breda intresset för datavetenskap hänvisar till framväxten av " big data "-paradigmet, som fokuserar på nya tekniska möjligheter för att bearbeta data av stora volymer och mångfald, inklusive genom tillämpning av metoder som utvecklades på 2000-talet inom datavetenskap. Sedan 2011 har O'Reilly hållit en serie stora datavetenskapskonferenser - Strata [12] , EMC har hållit ett årligt datavetenskapstoppmöte sedan 2011 [13] . McKinsey förutspådde 2011 en efterfrågan i USA på 440-490 tusen nya specialister med "djupa analytiska färdigheter i att arbeta med big data" till 2018 och en brist på 50% - 60% på sådana specialister samtidigt som utbildningstrenderna bibehålls [14] , i I samband med denna prognos drevs till stor del intresset för att skapa läroplaner [15] .

Under 2012 noteras datavetaryrket upprepade gånger som en av de mest attraktiva ( eng.  sexig ) och lovande i den moderna världen, det hävdas att sådana specialister kommer att spela en nyckelroll i organisationer, på grund av möjligheterna att få konkurrensfördelar genom analys, snabb bearbetning och extraktion av mönster i data, främst inom teknikbranscher [16] [5] .

Sedan läsåret 2013 har University of Dundee , University of Auckland , University of Southern California lanserat masterprogram i datavetenskap, och Business School vid Imperial College London har lanserat ett program för  förberedelse av "Masters of Science i Data Science and Management" ( eng.  MSc Data Science & Management ) [17] . Samma år fick University of Washington , University of California i Berkeley och New York University ett anslag på 37,8 miljoner dollar för att främja datavetenskap, som under fem år bland annat kommer att bygga läroplaner och skapa möjligheter för en akademiker karriär inom området [18] .

Innehåll

Det huvudsakliga praktiska målet för professionell verksamhet inom datavetenskap är att upptäcka mönster i data [19] , extrahera kunskap från data i en generaliserad form [20] . För att förklara de färdigheter som krävs för aktiviteter inom detta område används ofta Venn-diagrammet [21] , där de färdigheter som krävs av en specialist återspeglas i skärningspunkten mellan områden med allmän ämneserfarenhet ( engelska  substantive expertise ), praktisk erfarenhet av information teknik ( hacking skills ) och kunskap matematisk statistik [22] .

Som ett epistemologiskt inslag i disciplinen anges prioriteringen av resultatens praktiska tillämpbarhet, det vill säga framgången för förutsägelser, framför deras kausalitet, medan det inom traditionella forskningsområden är väsentligt att förklara fenomenets natur [23] . I jämförelse med klassisk statistik , på de metoder som datavetenskapen till stor del är baserad på, innebär det studiet av superstora heterogena uppsättningar av digital information och en oupplöslig länk med informationsteknologier som tillhandahåller deras bearbetning [24] . I jämförelse med verksamhet inom området design och arbete med databaser, där det antas att den preliminära utformningen av en datamodell som speglar förhållandet mellan ämnesområdet och den efterföljande studien av den laddade datan med relativt enkla (arithmetiska) metoder, datavetenskap förutsätter att man är beroende av apparaten för matematisk statistik, artificiell intelligens, maskininlärning, ofta utan att först ladda data i modellen. Jämfört med yrket som en analytiker, vars huvudsakliga mål är att beskriva fenomen baserat på ackumulerad data med relativt enkla användarverktyg (som kalkylblad eller Business Intelligence -klassverktyg ), kräver profilen för en datavetare mindre fokus på innehållet i ämnesområden, men kräver djupare kunskaper inom matematisk statistik, maskininlärning, programmering och i allmänhet en högre utbildningsnivå ( masters , kandidater för vetenskaper , Ph.D i jämförelse med kandidater och specialister ) [25] .

Akademiska program

University of Washington Introduction to Data Science-kurs , publicerad på Coursera , har följande avsnitt [26] :

Datavetenskapsblocket i masterprogrammet i datavetenskap och management vid Imperial College London inkluderar en förberedande kurs för avancerad statistik .  Följande discipliner ingår direkt i datavetenskapskursen:

Efter kurser i datavetenskap och grunderna i management ger programmet en tillämpad kurs, uppdelad i två strömmar, riskhantering , kapitalförvaltning och derivata finansiella instrument ingår i den finansiella och tekniska strömmen och  bearbetning av stora datamängder ingår i rådgivningen ström , nätverksanalys, ekonometrisk analys, tillämpningar inom tjänster och rådgivning, energi , sjukvård , politik . [17] 

University of Dundee- programmet betonar " big data ", i första hand i motsats till "kalkylbladsbehandling", och fokuserar på datautvinning , databas- och lagringsmodellering , statistik och språken SQL , MDX , R , Erlang , Java studeras inom programmet , Hadoop och NoSQL- verktygen [27] .

Anteckningar

  1. Press, 2012 , Termen "datavetenskap" (tillsammans med "Datalogi")...
  2. Smith, 2006 .
  3. Dhar, 2013 .
  4. Davenport, 2012 .
  5. 1 2 Press, 2012 .
  6. 12 Smith , 2006 , sid. 164.
  7. Naur, 1974 , "Datavetenskap är vetenskapen om att hantera data, när de väl har etablerats, medan relationen mellan data och vad de representerar delegeras till andra områden och vetenskaper".
  8. Press, 2012 , Termen "datavetenskap" (tillsammans med "Datalogi") föreslogs först av Peter Naur i slutet av 1960-talet.
  9. Zhuravleva, 2012 , "Enligt F. D. Smith hade datavetenskap inget namn förrän 1990, men började utvecklas sedan 1966, då International Council of Sciences tvärvetenskapliga kommitté för data för vetenskap och teknik inrättades."
  10. Cleveland, 2001 .
  11. Press, 2012 , Termen "datavetenskap" ... föreslogs av William S. Cleveland 2001 som en ny akademisk disciplin, som utökar statistikområdet till att inkludera "framsteg i datoranvändning med data".
  12. ↑ Arkiv över tidigare O'Reilly-konferenser  . O'Reilly Media (2012). Hämtad 2 januari 2013. Arkiverad från originalet 26 januari 2013.
  13. Simon Piff. Anteckningar från Data Science Summit: Making Sense of Big Data  (engelska)  (länk ej tillgänglig) . Dokument i ett ögonkast . IDC (1 juli 2012). Datum för åtkomst: 8 december 2012. Arkiverad från originalet den 26 januari 2013.
  14. Manyika, James et al. Big data: Nästa gräns för innovation, konkurrens och produktivitet  (engelska) (PDF). McKinsey Global Institute, juni 2011 . McKinsey (9 augusti 2011). Hämtad 12 november 2011. Arkiverad från originalet 11 december 2012.
  15. Steven Overly. I takt med att efterfrågan på big data-analytiker ökar skyndar skolor att ta examen studenter med nödvändiga kunskaper  (engelska) . Washington Post (16 september 2013). — "Denna efterfrågan förklarades i en rapport från juni 2011 från McKinsey Global Institute." Hämtad 31 december 2013. Arkiverad från originalet 13 mars 2016.
  16. Davenport, 2012 , "Goldman är ett bra exempel på en ny nyckelspelare i organisationer: 'datavetaren'. Det är en högt uppsatt proffs med utbildning och nyfikenhet att göra upptäckter i världen av big data".
  17. 1 2 MSc Data Science & Management  . handelsskola . Imperial College (1 januari 2013). Datum för åtkomst: 18 januari 2013. Arkiverad från originalet 29 januari 2013.
  18. ↑ UW, Berkeley, NYU samarbetar om 37,8 miljoner dollar datavetenskapsinitiativ  . University of Washington (12 november 2013). Datum för åtkomst: 31 december 2013. Arkiverad från originalet den 25 december 2013.
  19. Zjukov, 2013 , sid. 5.
  20. Dhar, 2013 , Datavetenskap är studiet av det generaliserbara utdraget av kunskap från data.
  21. Först publicerad av Drew Conway 2010
  22. Zjukov, 2013 .
  23. Dhar, 2013 , Ett vanligt epistemiskt krav för att bedöma om ny kunskap är användbar för beslutsfattande är dess förutsägande kraft, inte bara dess förmåga att förklara det förflutna.
  24. Dhar, 2013 , Det korta svaret är att datavetenskap skiljer sig från statistik <...> på flera viktiga sätt <...> Till att börja med är råmaterialet, "data", en del av datavetenskap, alltmer heterogent och ostrukturerat - text, bilder, video - ofta härrörande från nätverk med komplexa relationer mellan deras enheter. <...> de flesta data som genereras av människor och datorer idag är för konsumtion av datorer; det vill säga datorer gör allt mer bakgrundsarbete åt varandra och fattar beslut automatiskt. Denna skalbarhet i beslutsfattande har blivit möjlig på grund av big data som fungerar som råmaterial för att skapa ny kunskap.
  25. Zjukov, 2013 , sid. åtta.
  26. Bill Howe. Introduktion till datavetenskap . Coursera (8 december 2012). Hämtad 8 december 2012. Arkiverad från originalet 5 november 2012.
  27. MSc i datavetenskap  (eng.)  (otillgänglig länk) . School of Computing . Dundee University (1 januari 2013). "En datavetare är en person som utmärker sig på att manipulera och analysera data, särskilt stora datamängder som inte lätt passar in i tabellstrukturer (så kallade "Big Data")." Datum för åtkomst: 18 januari 2013. Arkiverad från originalet 22 januari 2013.

Litteratur