Feltolerans

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 2 april 2020; kontroller kräver 15 redigeringar .

Feltolerans är egenskapen hos ett tekniskt system att bibehålla sin prestanda efter fel på en eller flera av dess komponenter [1] .

Konceptet med feltolerans inom teknik

Feltolerans bestäms av antalet enstaka fel i komponentdelarna (elementen) i systemet, efter det att driften av systemet som helhet upprätthålls. Den grundläggande feltoleransnivån innebär skydd mot fel på ett element. Därför är det främsta sättet att förbättra feltoleransen redundans . Redundans implementeras mest effektivt i hårdvara, genom redundans . Inom ett antal teknikområden är feltolerans med hjälp av redundans ett obligatoriskt krav som ställs av statliga tillsynsmyndigheter på tekniska system [2] .

För tekniska system med hög risk är ett speciellt fall av feltolerans felsäkerhet - förmågan hos ett system, i händelse av fel på några av dess komponenter, att växla till ett driftläge som inte utgör en fara för människor, miljö eller egendom. I verkliga system kan dessa två egenskaper betraktas tillsammans.

Feltoleransegenskaper

Feltoleransegenskapen är förknippad med följande tekniska egenskaper:

tillgänglighetsfaktor , som visar hur stor andel av den totala livslängden som systemet är i fungerande skick;
systemtillförlitlighetsindikatorer som bestämmer sannolikheten för felfri drift eller sannolikheten för vissa typer av fel i systemet eller dess delar under en viss tidsperiod.

Feltolerant arkitektur ur ingenjörssynpunkt är ett sätt att bygga feltoleranta system som förblir i drift (eventuellt med minskad effektivitet) när element misslyckas [3] . Termen används ofta vid skapandet av datorsystem som fortsätter att fungera med en eventuell minskning av genomströmning eller ökad svarstid vid fel på en del av systemelementen (problem med hårdvara eller mjukvara ). Den feltoleranta arkitekturen i datorer används till exempel i replikeringsprocessen .

På samma sätt använder bärande strukturer strukturer som behåller sin integritet och bärande förmåga när de skadas av korrosion eller utmattning , tillverkningsfel eller oavsiktlig skada.

Åtgärder avseende feltolerans kan också genomföras på nivåerna av systemelement. Till exempel, på en bil som är utformad för att inte tappa kontrollen när ett av däcken går sönder, innehåller varje däck en gummikärna så att de kan fungera under en begränsad tid och med reducerad hastighet.

Redundans

Redundans kallas funktionalitet, vilket inte är nödvändigt för att systemet ska fungera problemfritt [4] .

Exempel är reservdelar som automatiskt tas i drift om den huvudsakliga går sönder. Särskilt stora lastbilar kan tappa ett däck utan allvarliga konsekvenser. De har många däck installerade, och att tappa ett är inte kritiskt (förutom det främre paret, som används för kurvtagning). Idén om att inkludera redundanta delar för att öka systemets tillförlitlighet föreslogs först av John von Neumann på 1950 -talet [5] .

Det finns två typer av redundans [6] : rumslig och tidsmässig. Rymdredundans implementeras genom att ytterligare komponenter, funktioner eller data introduceras som inte behövs för problemfri drift. Ytterligare (redundanta) komponenter kan vara hårdvara, mjukvara och information . Temporell redundans implementeras genom att räkna om eller skicka data, varefter resultatet jämförs med en sparad kopia av den föregående.

Resiliens beslutskriterier

Att designa felsäkra strukturer har en kostnad: ökad vikt, kostnad, strömförbrukning, kostnad och tid som går åt till att designa, kontrollera och testa. För att avgöra vilka delar av systemet som ska utformas för att vara feltoleranta finns det ett antal kriterier [7] :

Hur viktigt är elementet? Till exempel i en privat bil är radion inte en väsentlig del av körningen, så den behöver inte vara feltålig.
Hur sannolikt är det att elementet misslyckas? Vissa strukturella element, till exempel kardanaxeln på en bil, går sönder extremt sällan och behöver därför inte feltolerans.
Hur dyrt blir failover? Att tillhandahålla feltolerans för motorsystem för personbilar är till exempel inte motiverat av kostnaderna för skapandet och driften (storlek, vikt, kontroller, pris, kontroller och inspektioner i driftstadiet).

Ett exempel på ett föremål som har passerat hela vägen är säkerhetsbälten . Den primära metoden för att hålla kvar människor i alla fordon är gravitationen , men vid vältning eller andra g-kraftsförhållanden kanske den primära metoden för fasthållning inte fungerar. Ett sekundärt system som håller människor på plats under sådana förhållanden ökar deras säkerhet - därmed bekräftas den första punkten. Fall av utstötning av personer i en olycka, till exempel en bil, var vanliga före införandet av säkerhetsbälten, vilket bekräftar den andra punkten. Priset för att installera säkerhetsbälten är lågt både vad gäller kostnader och när det gäller tillverkningsbarhet, vilket bekräftar den tredje punkten. Som ett resultat kan vi dra slutsatsen att montering av säkerhetsbälten på alla fordon är en rimlig åtgärd.

Ibland kräver hårdvaran att defekta delar tas bort och ersätts med nya medan systemet fortsätter att fungera (känd i datorvärlden som hot swapping ). I sådana system måste medeltiden mellan felen vara tillräckligt lång för att reparationer ska kunna slutföras innan den redundanta delen också misslyckas.

Nackdelar med feltoleranta system

Fördelarna med feltåliga tekniska lösningar är uppenbara, men de har också nackdelar.

Svårigheter att upptäcka latenta fel i redundanta element. Till exempel kanske en bilförare inte märker att ett däck är punkterat om något felsäkert system används. Problemet kan lösas genom att lägga till ett speciellt system för att upptäcka fel (vid ett däck övervakar systemet trycket i kamrarna och varnar föraren om det sjunker). Ett alternativ skulle vara att schemalägga inspektioner och kontroller för att upptäcka och förhindra dolda fel och skador, såsom förarinspektioner av däck vid varje fordonsstopp.
Svårigheter att kontrollera flera misslyckanden. Feltoleransen för ett element kan störa upptäckten av fel i ett annat. Till exempel, om del B utför någon operation baserad på data från del A , kan arbetsdel B dölja problemet som uppstod i A . Om del B därefter byts ut mot en mindre pålitlig, kan systemet plötsligt misslyckas, medan det verkar som att problemet ligger i den nya delen B. Och först efter en noggrann kontroll av systemet kommer det att stå klart att problemet var i del A.
Ökade risker för att ignorera kända misslyckanden. Även om operatören är medveten om förekomsten av ett fel i det överflödiga elementet i det feltoleranta systemet, kan han vara långsam med att eliminera det, eftersom systemet fungerar. Detta kommer så småningom att leda till ett fullständigt systemfel när alla redundanselement misslyckas.
Svårighet att verifiera. För vissa kritiska felsäkra system, såsom en kärnreaktor , finns det inget enkelt sätt att säkerställa att redundanta element är i drift. Ett ökänt exempel är Tjernobylolyckan , då operatörer testade nödkylsystemet genom att stänga av huvud- och hjälpsystemen. Nödsystemet tålde det inte, vilket resulterade i överhettning av reaktorn och ett stort utsläpp av strålning.
Stigande kostnader. Åtgärder inom feltoleransen ökar kostnaden för systemets livscykel på grund av ökade utvecklings- och testkostnader, ökad massa- och materialförbrukning, systempris, ytterligare underhålls- och reparationskostnader etc. Till exempel har bemannade rymdfarkoster mer redundanta system och element, vilket ökar deras vikt jämfört med obemannade fordon som inte kräver denna nivå av felsäker.
Risk för att använda element av låg kvalitet. En feltolerant arkitektur kan tillåta användning av komponenter av låg kvalitet som annars skulle göra systemet oanvändbart. Även om denna praxis kan användas för att begränsa kostnadsökningar, kan användning av flera sådana delar minska systemets tillförlitlighet och orsaka oplanerade kostnader per steg.

Se även

Anteckningar

↑ GOST R 56111-2014 Integrerat logistikstöd för exporterade militära produkter. Nomenklatur för indikatorer för operativa och tekniska egenskaper . Standardinform (2015). Hämtad 16 maj 2020. Arkiverad från originalet 21 januari 2022. (obestämd)
↑ Egor Sergeevich Sogomonyan. Självkontrollerande enheter och feltoleranta system . - Radio och kommunikation, 1989. - 207 sid. — ISBN 9785256003081 .
↑ Johnson, BW "Fault-Tolerant Microprocessor-Based Systems", IEEE Micro (1984), vol. 4, nr. 6, sid. 6-21
↑ Laprie, JC (1985). "Dependable Computing and Fault Tolerance: Concepts and Terminology", Proceedings of 15th International Symposium on Fault-Tolerant Computing (FTSC-15), s. 2-11
↑ von Neumann, J. (1956). "Probabilistisk logik och syntes av pålitliga organismer från opålitliga komponenter", i Automata Studies, red. C. Shannon och J. McCarthy, Princeton University Press, sid. 43-98
↑ Avizienis, A. (1976). Fault-Tolerant Systems, IEEE Transactions on Computers, vol. 25, nr. 12, sid. 1304-1312
↑ Dubrova, E. (2013). "Fault-Tolerant Design", Springer, 2013, ISBN 978-1-4614-2112-2

Länkar

Implementering och utvärdering av felsäkra datorstyrda system
Seminarium om självläkande system
Intervju med Robert Hanmer om hans bok Patterns for Fault Tolerant Software ( Part One , Part Two ) (Podcast)

Litteratur

Dictionary of Cybernetics / Redigerad av akademiker V. S. Mikhalevich . - 2:a. - Kiev: Huvudupplagan av den ukrainska sovjetiska encyklopedin uppkallad efter M. P. Bazhan, 1989. - 751 s. - (C48). — 50 000 exemplar. - ISBN 5-88500-008-5 .

Ordböcker och uppslagsverk	Stor norsk