Hagelgevärsmetod

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 15 maj 2019; kontroller kräver 5 redigeringar .

Hagelgevärssekvensering är en teknik som används för att  sekvensera långa DNA- sträckor . Kärnan i metoden är att erhålla ett slumpmässigt massivt prov av klonade DNA-fragment av en given organism, på basis av vilket den ursprungliga DNA-sekvensen kan återställas [1] .

Förutsättningen för uppkomsten av hagelgevärsmetoden var det faktum att de första sekvenseringsmetoderna kunde återvinna endast små DNA-sekvenser i storleksordningen 1000 nukleotider [2] , därför krävdes ett nytt tillvägagångssätt för att sekvensera längre sekvenser. Vid hagelgevärssekvensering fragmenteras DNA slumpmässigt i små sektioner, som sedan sekvenseras med valfri tillgänglig metod, såsom Sanger-sekvensering . De erhållna överlappande slumpmässiga DNA-fragmenten sätts sedan ihop med hjälp av speciell programvara till en hel sekvens [1] .

Hagelgevärsmetoden användes för att erhålla de första kompletta genomen av organismer [1] .

Exempel

Låt oss till exempel säga att vi har två slumpmässiga hagelgevärsfragment:

Kedja Efterföljd
Första AGCATGCTGCAGTCATGCTTAGGCTA
Första fragmentet AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Andra fragmentet AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Återställd sekvens AGCATGCTGCAGTCATGCTTAGGCTA

Detta exempel är extremt förenklat. Det återspeglar dock en av de viktigaste funktionerna i hagelgevärssekvenseringsprocessen. Ingen av de fyra avläsningarna som presenteras i tabellen täcker nämligen fullständigt hela den ursprungliga sekvensen. Den ursprungliga sekvensen kan emellertid återställas baserat på det faktum att varje nukleotid från den ursprungliga sekvensen förekommer i minst en läsning, och på grund av partiell överlappning av läsningar, i mer än en. [1] .

Hagelgevärssekvensering av verkliga DNA-molekyler producerar miljontals avläsningar [3] , av vilka några kan innehålla fel, som sedan måste sättas ihop till den ursprungliga sekvensen. Naturligtvis kan arbete av denna storleksordning inte göras manuellt, så speciell programvara används för att sammanställa DNA-sekvensen från avläsningarna . Uppgiften kompliceras av att DNA ofta innehåller repeterande sekvenser , vilket gör att liknande avläsningar kan erhållas från delar av DNA som ligger på avstånd från varandra [4] .

För att hantera detta problem utförs sekvensering vanligtvis på ett sådant sätt att varje nukleotid i den ursprungliga sekvensen inte förekommer i en, utan i många läsningar på en gång. Till exempel, vid sekvensering av det mänskliga genomet användes en 12-faldig täckning, det vill säga varje nukleotid hittades i genomsnitt i 12 läsningar [5] .

Hagelgevärssekvensering av hela genomet

Historik

Idén att använda hagelgevärsmetoden för att sekvensera små genom (4000–7000 kb) föreslogs 1979 [1] . Och två år senare, 1981, användes hagelgevärsmetoden först i praktiken för att sekvensera hela genomet av blomkålsmosaikviruset [6] [7] .

Metod

Hagelgevärssekvenseringsprocessen består av flera steg. Först genomgår DNA:t som ska sekvenseras amplifiering . De resulterande DNA-kopiorna skärs till fragment med användning av platsspecifika nukleaser. Plats-icke-specificitet är viktig för att erhålla överlappande fragment [8] [9] . Ett genomiskt bibliotek byggs upp från de erhållna fragmenten genom att bädda in fragmenten i någon vektor . En viss delmängd av fragment väljs slumpmässigt från det resulterande genomiska biblioteket, som vart och ett sekvenseras, till exempel med Sanger-metoden . Sedan, med hjälp av speciell programvara , sammanställs nukleotidsekvensen för det ursprungliga DNA:t från de erhållna nukleotidsekvenserna av fragmenten, så kallade reads [1] .

Montering

Under monteringsprocessen av den ursprungliga DNA-sekvensen, sammanfogas överlappande läsningar till större sekvenser som kallas contigs. Contigs är sammanhängande delar av DNA-sekvensen som rekonstrueras. Contigs kombineras i sin tur till ännu större sekvenser - byggnadsställningar - som inte längre nödvändigtvis är kontinuerliga delar av det ursprungliga DNA:t och kan innehålla luckor. Om sekvensering utfördes med hjälp av metoden för parade läsningar , kan avståndet mellan kontiger i ställningen härledas baserat på information om positionen för parade läsningar [10] . Beroende på avståndet mellan contigs kan olika metoder användas för att fylla luckor i ställningar. Om gapet är litet (5–20 kb) amplifieras regionen med PCR och sekvenseras sedan. Om gapet är stort (> 20 kb), så klonas det saknade fragmentet in i speciella vektorer, såsom den bakteriella artificiella kromosomen , följt av vektorsekvensering [11] .

Parad lässekvens

När allt längre DNA-sekvenser började sekvenseras blev det tydligt att det var användbart att sekvensera båda DNA-strängarna. För det första finns det fall då det är extremt svårt att bestämma en nukleotid i en viss position på en av kedjorna på grund av DNA-konformationens egenheter, medan nukleotiden i samma position lätt kan bestämmas på den andra strängen. För det andra kan information om den relativa positionen för parade avläsningar användas för att bestämma avståndet mellan kontiger i ställningen. En modifiering av hagelgevärsmetoden som sekvenserar båda DNA-strängarna kallas parad lässekvensering eller den "dubbelpipiga" hagelgevärsmetoden. Denna metod har blivit utbredd och har använts i synnerhet vid sekvensering av det mänskliga genomet [5] .

I parvis avläst sekvensering skärs DNA till slumpmässiga fragment, som sedan grupperas efter vikt (vanligtvis 2, 10, 50 och 150 kb) och klonas in i vektorer . Kloner sekvenseras i båda ändarna med användning av kedjetermineringsmetoden , vilket resulterar i två korta sekvenser. Varje sekvens kallas en sista läsning eller helt enkelt en läsning, och två lässekvenser från samma klon är parade terminaler. Eftersom längden på läsningar när man använder kedjeavslutningsmetoden vanligtvis inte överstiger 1000 baspar, i alla utom de minsta klonerna, kommer de parade ändarna sällan att överlappa [12] .

Den första publicerade beskrivningen av användningen av den parade sekvenseringsmetoden går tillbaka till 1990 [13] . Detta arbete fokuserade på sekvenseringen av genen för humant hypoxantin-guanin-fosforibosyltransferas , men de parade ändarna användes endast för att korrigera luckor i sekvensen efter att ha tillämpat den klassiska hagelgevärsmetoden. 1991 publicerades den första teoretiska beskrivningen av sekvensering av parad ände i dess fulla form [14] , som involverade användningen av fragment av konstant längd. På den tiden trodde man att vid sekvensering av parade ändar är det optimalt att använda fragment vars längd är tre gånger längden på läsningarna. 1995 visades [12] att det är möjligt att använda fragment av olika storlekar vid sekvensering av parade ändar, vilket visar att detta tillvägagångssätt kan användas för att sekvensera långa DNA-sekvenser. Därefter användes detta tillvägagångssätt aktivt för att sekvensera arvsmassan från olika organismer: genomet av Haemophilus influenzae 1995 [15] , Drosophila-genomet ( fruktflugan ) 2000 [16] och slutligen det mänskliga genomet [5] 2001.

Täckning

Täckning är det genomsnittliga antalet avläsningar som täcker en position i den rekonstruerade sekvensen. Det kan beräknas från den ursprungliga genomets längd ( ), antal läsningar ( ) och genomsnittlig läslängd ( ), som: . Täckning kallas också ibland för andelen genompositioner som täcks av läsningar. Hög täckning i hagelgevärsmetoden är nödvändig eftersom den låter dig bli av med monteringsfel associerade med närvaron av repetitiva sekvenser i DNA [17] .

Hierarkisk hagelgevärssekvensering

Motivation

Teoretiskt sett kan hagelgevärsmetoden tillämpas på genom av vilken storlek som helst, men till en början ifrågasattes möjligheten av dess verkliga tillämpning för helgenomsekvensering både på grund av de tekniska svårigheter som uppstår vid bearbetning av stora mängder data, och på grund av de ytterligare svårigheter som uppstår på grund av närvaron av ett enormt antal repeterande regioner i stora genom [18] . Tillkomsten av hierarkisk sekvensering gjorde det möjligt att tillämpa hagelgevärsmetoden på stora genom i praktiken.

Metod

Det amplifierade genomet skärs först i stora bitar (50–200 kb) och klonas in i en bakterievärd med hjälp av en konstgjord bakteriell kromosom . Eftersom flera kopior av arvsmassan klipptes ut slumpmässigt har fragmenten, även kallade BAC-kontiger, som finns i dessa kloner olika ändar, vilket gör att man kan hitta en ställning som har tillfredsställande täckning och täcker hela arvsmassan. En sådan ställning kallas en täckande bana [19] .

När en täckande väg har hittats skärs BAC-kontigerna som bildar denna väg slumpmässigt i mindre fragment, som sedan sekvenseras med hjälp av hagelgevärsmetoden. Även om nukleotidsekvenserna för BAC-kontiger är okända, kan deras relativa positioner bestämmas, och denna information kan sedan användas för att konstruera en täckande väg [19] .

Överlappande kloner kan identifieras på flera sätt. Ett sätt är att använda en liten radioaktivt eller kemiskt märkt DNA-sekvens (STS). En sådan sekvens hybridiserar på en mikroarray , på vilken kloner reproduceras [19] . Således identifieras alla kloner som innehåller den märkta sekvensen. Änden av en av dessa kloner sekvenseras och används som en ny STS-sekvens. Denna iterativa process kallas kromosomvandring [20] .

Ett annat sätt att identifiera korsande kloner är genom användning av restriktionsenzymer . En viss del av genomet bearbetas av en uppsättning restriktionsnukleaser, varefter storleken på de resulterande DNA-fragmenten jämförs. Detta gör att du kan bygga en restriktionskarta, som anger positionen för varje restriktionsplats i förhållande till andra platser [19] . Denna metod för genomisk kartläggning kallas restriktionsmapping eftersom den identifierar uppsättningen av restriktionsställen som finns i varje klon [21] .

Behovet av att bygga ett omfattande BAC-bibliotek och välja en täckande väg gör hierarkisk sekvensering mycket långsammare och mer mödosam än genomsekvensering av hagelgevär. Och nu, när teknologier gör det möjligt att utföra de nödvändiga beräkningsvolymerna tillräckligt snabbt, och data har blivit ganska tillförlitliga, ersätter shotgun-omfattande genomsekvensering hierarkisk sekvensering, eftersom den är mer effektiv både ur hastighets- och kostnadsöverväganden [18] .

Shotgun-metoden och nästa generations sekvenseringsmetoder

Den klassiska hagelgevärsmetoden baserades på Sanger-metoden och var den mest avancerade metoden för genomsekvensering fram till omkring 2005. Hagelgevärsmetoden används fortfarande idag, men den har ersatts av nya sekvenseringsteknologier, ofta kallade  nästa generations sekvenseringsteknik . Dessa teknologier ger kortare avläsningar (i storleksordningen 25-500 bp), men med en mycket hög hastighet (i storleksordningen en miljon avläsningar per dag) [3] . Som ett resultat ökar täckningen , men processen att sammanställa genomet från avläsningar blir mer beräkningsmässigt tidskrävande. Sammantaget kräver nästa generations sekvenseringsmetoder, i jämförelse med hagelgevärsmetoden, stora beräkningsresurser, men de gör det möjligt att erhålla en komplett genomsekvens på kortare tid [22] .

Anteckningar

  1. 1 2 3 4 5 6 Staden R. En strategi för DNA-sekvensering med hjälp av datorprogram  //  Nucleic Acids Research. - 1979. - Vol. 6 , nr. 7 . Arkiverad från originalet den 5 mars 2016.
  2. Sanger F., Nicklen S., Coulson AR DNA-sekvensering med kedjeavslutande inhibitorer   // PNAS . - 1977. - Vol. 74 , nr. 12 . - P. 5463-5467 . Arkiverad från originalet den 2 april 2017.
  3. 1 2 Voelkerding KV, Dames SA, Durtschi JD Nästa generations sekvensering: Från grundforskning till diagnostik  //  Klinisk kemi. - 2009. - Vol. 55 , nr. 4 . - S. 41-47 . Arkiverad från originalet den 14 maj 2016.
  4. Jason de Koning AP, Gu W., Casttoe TA et al. Repetitiva element kan omfatta över två tredjedelar av det mänskliga genomet  //  PLoS-genetik. - 2011. - Vol. 7 , nr. 12 . Arkiverad från originalet den 2 juli 2017.
  5. 1 2 3 Lander ES, Linton LM, Birren B. et al. Initial sekvensering och analys av det mänskliga genomet   // Nature . - 2001. - Vol. 409 , nr. 6822 . - P. 860-921 . Arkiverad från originalet den 15 juni 2018.
  6. Gardner RC, Howarth AJ, Hahn P., Brown-Luedi M., Shepherd RJ, Messing J. Den kompletta nukleotidsekvensen av en infektiös klon av blomkålsmosaikvirus genom M13mp7 hagelgevärssekvensering  //  Nucleic Acids Research. - 1981. - Vol. 9 , nej. 12 . - P. 2871-2888 . Arkiverad från originalet den 15 september 2019.
  7. Doctrow B. Profil av Joachim Messing  //  PNAS. - 2016. - Vol. 113 , nr. 29 . - P. 7935-7937 . Arkiverad från originalet den 26 maj 2018.
  8. Staden R. En strategi för DNA-sekvensering med hjälp av datorprogram  //  Nucleic Acids Research. - 1979. - Vol. 6 , nr. 7 . - P. 2601-2610 . Arkiverad 1 december 2020.
  9. Anderson S. Shotgun DNA-sekvensering med användning av klonade DNas I-genererade fragment  //  Nucleic Acids Research. - 1981. - Vol. 9 , nej. 13 . - P. 3015-3027 . Arkiverad från originalet den 22 december 2015.
  10. Fullwood MJ, Wei CL, Liu ET et al. Nästa generations DNA-sekvensering av paired-end tags (PET) för transkriptom- och genomanalyser  //  Genome Research. - 2009. - Vol. 19 , nr. 4 . - s. 521-532 . Arkiverad från originalet den 20 maj 2016.
  11. Gregory S. Contig församling  //  Encyclopedia of Life Sciences. - 2005. Arkiverad 24 juli 2017.
  12. 1 2 Roach JC, Boysen C., Wang K., Hood L. Parvis slutsekvensering: en enhetlig metod för genomisk kartläggning och sekvensering   // Genomics . - 1995. - Vol. 26 , nr. 2 . - s. 345-353 . Arkiverad från originalet den 2 oktober 2016.
  13. Edwards A., Caskey T. Stängningsstrategier för slumpmässig DNA-sekvensering  //  A Companion to Methods in Enzymology. - 1991. - Vol. 3 , nr. 1 . - S. 41-47 . Arkiverad från originalet den 24 september 2015.
  14. Edwards A., Voss H., Rice P., Civitello A., Stegemann J., Schwager C., Zimmerman J., Erfle H., Caskey T., Ansorge W. Automatiserad DNA-sekvensering av det mänskliga HPRT-lokuset   // Genomik. - 1990. - Vol. 6 , nr. 4 . - s. 593-608 . Arkiverad från originalet den 24 december 2013.
  15. Fleischmann R. D. et al. Helgenom slumpmässig sekvensering och sammansättning av Haemophilus influenzae Rd   // Science . - 1995. - Vol. 269 , nr. 5223 . - s. 496-512 . Arkiverad från originalet den 7 mars 2016.
  16. Adams M.D. et al. Genomsekvensen för Drosophila melanogaster  (engelska)  // Science. - 2000. - Vol. 287 , nr. 5461 . - P. 2185-2195 . Arkiverad från originalet den 12 april 2016.
  17. Meyerson M., Gabriel S., Getz G. Framsteg i förståelsen av cancergenom genom andra generationens sekvensering.  (engelska)  // Nature Reviews Genetics. - 2010. - Vol. 11 , nr. 10 . - s. 685-696 . Arkiverad från originalet den 14 december 2015.
  18. ↑ 1 2 Venter JC Shotgunning the Human Genome: A Personal View  //  Encyclopedia of Life Sciences. – 2006.
  19. ↑ 1 2 3 4 Dear PH Genome Mapping  //  Encyclopedia of Life Sciences. - 2005. Arkiverad 3 juni 2016.
  20. Chinault AC, Carbon J. Överlappande hybridiseringsscreening: Isolering och karakterisering av överlappande DNA-fragment som omger leu2-genen på jästkromosom III   // Gen. - 1979. - Vol. 5 , nej. 2 . - S. 111-126 .
  21. Gibson G., Muse SV A Primer of Genome Science. (engelska)  // Encyclopedia of Life Sciences. - 2006. - Vol. 3:a , nej. 84 .
  22. Metzker ML sekvenseringsteknologier - nästa generation  //  Nature Reviews Genetics. - 2010. - Vol. 11 , nr. 1 . - S. 31-46 . Arkiverad från originalet den 4 mars 2016.

Länkar