Datauppsättning (IBM)

Datauppsättning ( rus. Dataset , även ibland translittererad "Datauppsättning" ) är termen som används för stordatorfilsystemet från IBM ; en samling logiska poster lagrade som en tupel . En datamängd kan jämföras med en fil , men till skillnad från en fil är en datamängd både en katalog och en fil i filsystemet och kan inte innehålla andra uppsättningar.

I praktiken kan man ofta hitta skrivning i ett ord ( dataset ), vilket strängt taget är fel, men acceptabelt. Denna praxis uppstod från det faktum att ordet måste användas i sammanhanget med namnet på själva uppsättningen, som inte stöder mellanslag mellan tecken.

Beskrivning

Stordatorfilsystemet är fokuserat på att lagra poster , som är odelbara lagringsenheter . En uppsättning poster kombineras till grupper, som kallas datamängder. Utanför någon uppsättning kan posten inte lagras. Poster i datauppsättningar används av applikationer, till exempel som indata, eller så kan en applikation generera poster som en produkt av sitt arbete. Så, datamängdsposter kan vara textdata (till exempel programkällkoder), objektfiler , laddningsbara moduler, poster med konfigurationsvariabler, etc.

En datamängd kan refereras till genom att ange den exakta platsen där den lagras, eller, om ett filsystemnamn tidigare reserverats för uppsättningen, genom namn. Datauppsättningar med unika namn kallas katalogiserade . Datauppsättningar kan inte kapsla in i varandra, så ett kvalificeringssystem används för namn: namnet är sammansatt av kvalificerare med åtta tecken separerade från varandra med en punkt, medan uppsättningens namn inte kan överstiga 44 tecken, till exempel . Fysiskt kan set lagras på olika typer av media (magnetskivor eller bandkassetter), dessutom kan set placeras i virtuellt minne . USER.MYDIR.PROJ.SOURCE

I stordatorer använder lagringsenheter som stöder direkt dataåtkomst termen DASD ( Direct Access Storage Device ) . En DASD-enhet är logiskt uppdelad i volymer ( engelska volymer ) som lagrar olika typer av set. För att systemet ska veta vilka uppsättningar som är lagrade på en given DASD-enhet, upprätthåller det en speciell "huvudkatalog", eller med andra ord en lista med katalogiserade uppsättningar.

Datauppsättningen i sig kombinerar inte bara posterna, utan definierar också reglerna för dessa poster (lagringsformat). Lagringsformatparametrarna inkluderar postblockstorleken (blocktyp), den maximala storleken för en uppsättningspost. Typen av själva datamängden måste också definieras, på vilken det beror på hur det kommer att presenteras logiskt (som en kontinuerlig sekvens av poster, som medlemmar separerade från varandra ( engelska Members ), etc.).

Sätt att placera uppsättningar

Volymerna för en enda DASD-enhet kan innehålla många uppsättningar av olika typer. Uppsättningsnamn måste vara unika inom samma lagringsenhet. Varje volym på enheten är uppdelad i spår . I nollspåret, nollcylindern, lagras DASD-etiketten, som anger platsen för VTOC-volymens innehållsförteckning ( English Volume Table of Contents ) - någon analog av MBR och GPT samtidigt. VTOC lagrar namnen på alla uppsättningar som är lagrade i volymen, spårnumren från vilka varje uppsättning börjar, storlekar och åtkomstbegränsningar. Eftersom uppsättningar är bundna till sina volymer, när man söker efter en uppsättning, tittar operativsystemet först igenom listan över synliga volymer, och sedan, när den önskade volymen hittas, kommer det åt sin VTOC.

Den minsta enheten i uppsättningen, som tidigare nämnts, är den logiska posten, begränsad av storleken LRECL. De sammanhängande spåren av en volym som innehåller en uppsättning bildar en utsträckning . Vanligtvis försöker lagringsenhetsstyrenheten allokera omfattningsuppsättningar, eftersom detta gör åtkomsten till dem snabbare. För att möjliggöra denna strategi, upprätthåller VTOC register över angränsande fria körfält.

Stordatorfilsystemet, när det läser en datamängd, förlitar sig inte på själva databyten, utan använder information om uppsättningsformatet ( RECFM). Formatet avgör hur många byte data som kan skrivas i ett uppsättningsblock av storlek BLKSIZE. IBM stordatorer använder följande format:

F (Fast) - fast, där ett fysiskt block motsvarar en logisk post, d.v.s. BLKSIZE = LRECL.
FB (Fixed Blocked) - fix, block, där n logiska poster kombineras till ett fysiskt block ( BLKSIZE = n · LRECL).
V (Variabel) - variabel, där ett fysiskt block motsvarar en logisk post, men de första fyra byten i blocket är reserverade för dess beskrivning. Två av de fyra byten kodar blockstorleken, så att storleken på varje post i uppsättningen LRECLkan variera från 4 till 32 760 byte ( LRECL = 4 + <размер данных>).
VB (Variable Blocked) - variabel, block, där flera logiska block av variabel längd placeras i ett fysiskt, eller med andra ord, ett fysiskt block lagrar flera V-block. För att beskriva den fysiska blockstorleken för V-boxar är 4 byte reserverade för beskrivningen ( BLKSIZE = 4 + n · LRECL).
U (Odefinierad) - obestämd, där både logiska poster och fysiska block är av variabel längd. Detta format används till exempel i körbara moduler.

Poster av uppsättningar som mappas till virtuellt minne (så kallade VSAM-uppsättningar) lagras också på DASD-enheten, men separat från icke-VSAM-uppsättningar, i omfattningar som kallas Control Intervals (CI) och katalogiseras separat. CI är lite mer komplicerat och är analogt med ett block: det representeras av ett område där poster placeras efter varandra, följt av RDF-fält av antalet poster ( Record Definition Fields ) och ett CIDF-fält ( Control Interval Definition Fält ) . Det kan finnas ett blanksteg mellan det första RDF-fältet och den sista posten. RDF-fält beskriver posterna för en uppsättning individuellt, medan CIDF beskriver kontrollintervallet som helhet. VSAM används internt av applikationer.

Rekryteringsorganisation

En annan egenskap hos en uppsättning är dess organisation DSORG, vilket föreslår i vilken ordning den ska läsas och uppdateras. Det finns följande typer av organisationer:

PS (Physical Sequential) - poster placeras sekventiellt och läses sekventiellt. Denna organisation är typisk för set som lagras på magnetband.
PO (Partitioned Organization) - en uppsättning kan fragmenteras på media i många delar, som var och en kan nås separat.
DA (Direct Access) - uppsättningsposter kan placeras i valfri ordning. Varje post nås av relativa adresser.
IX (Indexed Sequential) - poster i uppsättningen skrivs och hämtas med nyckel.

För varje typ av organisation är en eller flera av de åtkomstmetoder som tillhandahålls av operativsystemet tillämpliga. Till exempel, för uppsättningar med PS-organisation, är åtkomstmetoderna BSAM (Basic Sequential Access Method) och QSAM (Queued Sequential Access Method) tillämpliga; PO-uppsättningar använder BPAM (Basic partitioned access method) och DA-set använder BDAM (Basic Direct Access Method) metod.

Med tillkomsten av virtuellt minne fanns det uppsättningar organiserade specifikt för det, till exempel KSDS, LDS, RRDS, etc., för vilka deras egen åtkomstmetod används - VSAM (Virtual storage access method).

Litteratur

Mike Ebbers , John Kettner , Wayne O'Brien , Bill Ogden Introduktion till den nya stordatorn: z/OS Basics. - 2011. - S. 792. - ISBN 0738435341 .
z/OS DFSMS: Använda datamängder. - 2017. - S. 704.