Hagelgevärssekvensering är en teknik som används för att sekvensera långa DNA- sträckor . Kärnan i metoden är att erhålla ett slumpmässigt massivt prov av klonade DNA-fragment av en given organism, på basis av vilket den ursprungliga DNA-sekvensen kan återställas [1] .
Förutsättningen för uppkomsten av hagelgevärsmetoden var det faktum att de första sekvenseringsmetoderna kunde återvinna endast små DNA-sekvenser i storleksordningen 1000 nukleotider [2] , därför krävdes ett nytt tillvägagångssätt för att sekvensera längre sekvenser. Vid hagelgevärssekvensering fragmenteras DNA slumpmässigt i små sektioner, som sedan sekvenseras med valfri tillgänglig metod, såsom Sanger-sekvensering . De erhållna överlappande slumpmässiga DNA-fragmenten sätts sedan ihop med hjälp av speciell programvara till en hel sekvens [1] .
Hagelgevärsmetoden användes för att erhålla de första kompletta genomen av organismer [1] .
Låt oss till exempel säga att vi har två slumpmässiga hagelgevärsfragment:
Kedja | Efterföljd |
---|---|
Första | AGCATGCTGCAGTCATGCTTAGGCTA |
Första fragmentet | AGCATGCTGCAGTCATGCT------- -------------------TAGGCTA |
Andra fragmentet | AGCATG-------------------- ------CTGCAGTCATGCTTAGGCTA |
Återställd sekvens | AGCATGCTGCAGTCATGCTTAGGCTA |
Detta exempel är extremt förenklat. Det återspeglar dock en av de viktigaste funktionerna i hagelgevärssekvenseringsprocessen. Ingen av de fyra avläsningarna som presenteras i tabellen täcker nämligen fullständigt hela den ursprungliga sekvensen. Den ursprungliga sekvensen kan emellertid återställas baserat på det faktum att varje nukleotid från den ursprungliga sekvensen förekommer i minst en läsning, och på grund av partiell överlappning av läsningar, i mer än en. [1] .
Hagelgevärssekvensering av verkliga DNA-molekyler producerar miljontals avläsningar [3] , av vilka några kan innehålla fel, som sedan måste sättas ihop till den ursprungliga sekvensen. Naturligtvis kan arbete av denna storleksordning inte göras manuellt, så speciell programvara används för att sammanställa DNA-sekvensen från avläsningarna . Uppgiften kompliceras av att DNA ofta innehåller repeterande sekvenser , vilket gör att liknande avläsningar kan erhållas från delar av DNA som ligger på avstånd från varandra [4] .
För att hantera detta problem utförs sekvensering vanligtvis på ett sådant sätt att varje nukleotid i den ursprungliga sekvensen inte förekommer i en, utan i många läsningar på en gång. Till exempel, vid sekvensering av det mänskliga genomet användes en 12-faldig täckning, det vill säga varje nukleotid hittades i genomsnitt i 12 läsningar [5] .
Idén att använda hagelgevärsmetoden för att sekvensera små genom (4000–7000 kb) föreslogs 1979 [1] . Och två år senare, 1981, användes hagelgevärsmetoden först i praktiken för att sekvensera hela genomet av blomkålsmosaikviruset [6] [7] .
Hagelgevärssekvenseringsprocessen består av flera steg. Först genomgår DNA:t som ska sekvenseras amplifiering . De resulterande DNA-kopiorna skärs till fragment med användning av platsspecifika nukleaser. Plats-icke-specificitet är viktig för att erhålla överlappande fragment [8] [9] . Ett genomiskt bibliotek byggs upp från de erhållna fragmenten genom att bädda in fragmenten i någon vektor . En viss delmängd av fragment väljs slumpmässigt från det resulterande genomiska biblioteket, som vart och ett sekvenseras, till exempel med Sanger-metoden . Sedan, med hjälp av speciell programvara , sammanställs nukleotidsekvensen för det ursprungliga DNA:t från de erhållna nukleotidsekvenserna av fragmenten, så kallade reads [1] .
Under monteringsprocessen av den ursprungliga DNA-sekvensen, sammanfogas överlappande läsningar till större sekvenser som kallas contigs. Contigs är sammanhängande delar av DNA-sekvensen som rekonstrueras. Contigs kombineras i sin tur till ännu större sekvenser - byggnadsställningar - som inte längre nödvändigtvis är kontinuerliga delar av det ursprungliga DNA:t och kan innehålla luckor. Om sekvensering utfördes med hjälp av metoden för parade läsningar , kan avståndet mellan kontiger i ställningen härledas baserat på information om positionen för parade läsningar [10] . Beroende på avståndet mellan contigs kan olika metoder användas för att fylla luckor i ställningar. Om gapet är litet (5–20 kb) amplifieras regionen med PCR och sekvenseras sedan. Om gapet är stort (> 20 kb), så klonas det saknade fragmentet in i speciella vektorer, såsom den bakteriella artificiella kromosomen , följt av vektorsekvensering [11] .
När allt längre DNA-sekvenser började sekvenseras blev det tydligt att det var användbart att sekvensera båda DNA-strängarna. För det första finns det fall då det är extremt svårt att bestämma en nukleotid i en viss position på en av kedjorna på grund av DNA-konformationens egenheter, medan nukleotiden i samma position lätt kan bestämmas på den andra strängen. För det andra kan information om den relativa positionen för parade avläsningar användas för att bestämma avståndet mellan kontiger i ställningen. En modifiering av hagelgevärsmetoden som sekvenserar båda DNA-strängarna kallas parad lässekvensering eller den "dubbelpipiga" hagelgevärsmetoden. Denna metod har blivit utbredd och har använts i synnerhet vid sekvensering av det mänskliga genomet [5] .
I parvis avläst sekvensering skärs DNA till slumpmässiga fragment, som sedan grupperas efter vikt (vanligtvis 2, 10, 50 och 150 kb) och klonas in i vektorer . Kloner sekvenseras i båda ändarna med användning av kedjetermineringsmetoden , vilket resulterar i två korta sekvenser. Varje sekvens kallas en sista läsning eller helt enkelt en läsning, och två lässekvenser från samma klon är parade terminaler. Eftersom längden på läsningar när man använder kedjeavslutningsmetoden vanligtvis inte överstiger 1000 baspar, i alla utom de minsta klonerna, kommer de parade ändarna sällan att överlappa [12] .
Den första publicerade beskrivningen av användningen av den parade sekvenseringsmetoden går tillbaka till 1990 [13] . Detta arbete fokuserade på sekvenseringen av genen för humant hypoxantin-guanin-fosforibosyltransferas , men de parade ändarna användes endast för att korrigera luckor i sekvensen efter att ha tillämpat den klassiska hagelgevärsmetoden. 1991 publicerades den första teoretiska beskrivningen av sekvensering av parad ände i dess fulla form [14] , som involverade användningen av fragment av konstant längd. På den tiden trodde man att vid sekvensering av parade ändar är det optimalt att använda fragment vars längd är tre gånger längden på läsningarna. 1995 visades [12] att det är möjligt att använda fragment av olika storlekar vid sekvensering av parade ändar, vilket visar att detta tillvägagångssätt kan användas för att sekvensera långa DNA-sekvenser. Därefter användes detta tillvägagångssätt aktivt för att sekvensera arvsmassan från olika organismer: genomet av Haemophilus influenzae 1995 [15] , Drosophila-genomet ( fruktflugan ) 2000 [16] och slutligen det mänskliga genomet [5] 2001.
Täckning är det genomsnittliga antalet avläsningar som täcker en position i den rekonstruerade sekvensen. Det kan beräknas från den ursprungliga genomets längd ( ), antal läsningar ( ) och genomsnittlig läslängd ( ), som: . Täckning kallas också ibland för andelen genompositioner som täcks av läsningar. Hög täckning i hagelgevärsmetoden är nödvändig eftersom den låter dig bli av med monteringsfel associerade med närvaron av repetitiva sekvenser i DNA [17] .
Teoretiskt sett kan hagelgevärsmetoden tillämpas på genom av vilken storlek som helst, men till en början ifrågasattes möjligheten av dess verkliga tillämpning för helgenomsekvensering både på grund av de tekniska svårigheter som uppstår vid bearbetning av stora mängder data, och på grund av de ytterligare svårigheter som uppstår på grund av närvaron av ett enormt antal repeterande regioner i stora genom [18] . Tillkomsten av hierarkisk sekvensering gjorde det möjligt att tillämpa hagelgevärsmetoden på stora genom i praktiken.
Det amplifierade genomet skärs först i stora bitar (50–200 kb) och klonas in i en bakterievärd med hjälp av en konstgjord bakteriell kromosom . Eftersom flera kopior av arvsmassan klipptes ut slumpmässigt har fragmenten, även kallade BAC-kontiger, som finns i dessa kloner olika ändar, vilket gör att man kan hitta en ställning som har tillfredsställande täckning och täcker hela arvsmassan. En sådan ställning kallas en täckande bana [19] .
När en täckande väg har hittats skärs BAC-kontigerna som bildar denna väg slumpmässigt i mindre fragment, som sedan sekvenseras med hjälp av hagelgevärsmetoden. Även om nukleotidsekvenserna för BAC-kontiger är okända, kan deras relativa positioner bestämmas, och denna information kan sedan användas för att konstruera en täckande väg [19] .
Överlappande kloner kan identifieras på flera sätt. Ett sätt är att använda en liten radioaktivt eller kemiskt märkt DNA-sekvens (STS). En sådan sekvens hybridiserar på en mikroarray , på vilken kloner reproduceras [19] . Således identifieras alla kloner som innehåller den märkta sekvensen. Änden av en av dessa kloner sekvenseras och används som en ny STS-sekvens. Denna iterativa process kallas kromosomvandring [20] .
Ett annat sätt att identifiera korsande kloner är genom användning av restriktionsenzymer . En viss del av genomet bearbetas av en uppsättning restriktionsnukleaser, varefter storleken på de resulterande DNA-fragmenten jämförs. Detta gör att du kan bygga en restriktionskarta, som anger positionen för varje restriktionsplats i förhållande till andra platser [19] . Denna metod för genomisk kartläggning kallas restriktionsmapping eftersom den identifierar uppsättningen av restriktionsställen som finns i varje klon [21] .
Behovet av att bygga ett omfattande BAC-bibliotek och välja en täckande väg gör hierarkisk sekvensering mycket långsammare och mer mödosam än genomsekvensering av hagelgevär. Och nu, när teknologier gör det möjligt att utföra de nödvändiga beräkningsvolymerna tillräckligt snabbt, och data har blivit ganska tillförlitliga, ersätter shotgun-omfattande genomsekvensering hierarkisk sekvensering, eftersom den är mer effektiv både ur hastighets- och kostnadsöverväganden [18] .
Den klassiska hagelgevärsmetoden baserades på Sanger-metoden och var den mest avancerade metoden för genomsekvensering fram till omkring 2005. Hagelgevärsmetoden används fortfarande idag, men den har ersatts av nya sekvenseringsteknologier, ofta kallade nästa generations sekvenseringsteknik . Dessa teknologier ger kortare avläsningar (i storleksordningen 25-500 bp), men med en mycket hög hastighet (i storleksordningen en miljon avläsningar per dag) [3] . Som ett resultat ökar täckningen , men processen att sammanställa genomet från avläsningar blir mer beräkningsmässigt tidskrävande. Sammantaget kräver nästa generations sekvenseringsmetoder, i jämförelse med hagelgevärsmetoden, stora beräkningsresurser, men de gör det möjligt att erhålla en komplett genomsekvens på kortare tid [22] .