Nästa generations sekvensering (NGS ) är en grupp metoder för att bestämma nukleotidsekvensen för DNA och RNA för att få en formell beskrivning av dess primära struktur . Tekniken för den nya generationens sekvenseringsmetoder gör att du kan "läsa" flera sektioner av genomet samtidigt , vilket är den största skillnaden från tidigare sekvenseringsmetoder. NGS åstadkoms genom upprepade cykler av polymerasinducerad kedjeförlängning eller multipel ligering av oligonukleotider . Under NGS kan upp till hundratals megabaser och gigabaser av nukleotidsekvenser genereras i en arbetscykel [1] .
Det första konceptet med sekvensering föreslogs av Senger 1977 [2] . Tekniken kallas "chain break method" . Samma år föreslog Maxam och Gilbert en alternativ metod, kallad " kemisk nedbrytningsmetod " - den är baserad på klyvning av ett DNA-fragment märkt i ena änden under inverkan av specifika reagenser. Bestämning av nukleotidsekvensen utförs genom polyakrylamidgelelektrofores följt av autoradiografi . Behovet av massa, högkvalitativ och snabb sekvensering har stimulerat många modifieringar och alla typer av förbättringar av dessa metoder. I varierande grad har nästan alla komponenter i denna process genomgått förändringar. Vändpunkten i teknikutvecklingen var framväxten av PCR (mitten av 1980-talet) och automatiseringen av huvudstadierna av DNA-"läsning", vilket gav upphov till nästa generations sekvenseringsmetoder. Plattformar för nästa generationsmetoder är baserade på parallellisering av processen att "läsa" DNA, och därför är det i en körning av sekvenseraren möjligt att bestämma de primära strukturerna för flera sektioner av genomet. Ny generation sequencers har blivit mycket billigare och mycket effektivare än sina föregångare. Hittills har prestandan hos vissa sekvenserare redan uppmätts i hundratals miljarder baspar , vilket till exempel gör att sådana enheter kan skanna ett individuellt mänskligt genom på bara några dagar [3] .
Följande är NGS-metoderna i kronologisk ordning. De första metoderna, till exempel, baserade på pyrosekvensering, gav upphov till utvecklingen av NGS, men används praktiskt taget inte för tillfället. Resten av metoderna som diskuteras nedan används i stor utsträckning för tillfället, varje metod har sina egna fördelar och tillämpningsspecifikationer [4] [5] [6] .
metod | princip | maximal läslängd, baspar | kostnad för sekvensering 1 Mbp | sequencer kostnad | cykeltid | antal avläsningar per cykel | Fördelar | begränsningar |
---|---|---|---|---|---|---|---|---|
454 Livsvetenskap | pyrosekvensering och luciferas | 1000 | 10 USD | 500 000 USD | klockan 7 | 1 000 000 | längden av de avlästa genomiska regionerna; fart | pris; fel |
Illumina SOLEXA | nukleotider med fluorofor och borttagbara terminatorer | 300 | 0,05–0,15 USD | 1 000 000 $ -(NovaSeq 6000)
100 000 $ -(MiSeq) |
4 timmar - 55 timmar | upp till 5 000 000 000 | effektivitet, kostnad | fart |
Fast | ligering av oligonukleotidsonder med en fluorofor | 75 | 0,13 USD | 595 000 USD | upp till 10 dagar | upp till 2 400 000 000 | pris | fart |
Helicos | nukleotider med fluorofor och borttagbara terminatorer | 2900 | $2 | 1 350 000 USD | 1 timme | 35 000—75 000 | längden av de avlästa genomiska regionerna; fart | låg produktivitet med det önskade lilla felet; pris |
IonTorrent | förändring i pH under tillsatsen av nukleotider | 600 | $1 | 100 000 USD | 3 timmar | upp till 5 000 000 | pris; fart | fel |
Pac Bio uppföljare [9] | nukleotider med fluorofor | 20 000 | $2 | 600 000 USD | 20-30 timmar | Upp till 500 000 | läslängd, noggrannhet | materialmängd, pris |
MinION Mk1B [10] [11] | förändring i strömstyrka när kretsen passerar genom nanoporen | längden på hela NK, upp till 2 000 000 | 0,47–0,90 USD | 1 000 USD | 1 min - 2 dagar | — | avläs längd, kostnad, brist på amplifiering och komplexa kemiska transformationer | fel |
På grund av den snabba utvecklingen av sekvenseringsmetoder kan parametrarna för metoderna, såsom kostnaden för sequencers och deras arbete, tiden och längden på läsavsnitten ändras [5] .
Massivt parallell signatursekvensering (MPSS ) är en av de första NGS-teknologierna som utvecklades på 1990-talet av Lynx Therapeutics för mRNA - transkriptsekvensering och genuttrycksbedömning baserat på individuella mRNA-nivåer i en enda cell [12] . I MPSS-metoden fångas transkript på individuella mikropärlor med en DNA-mall; mRNA läses genom hybridisering med en fluorescerande märkning och tas sedan bort, och så vidare flera gånger i rad. Resultatet är sekvenser som sträcker sig i längd från 17 till 20 baspar (bp). Antalet transkript som indikerar uttrycksnivån bestäms av antalet transkriptioner per miljon molekyler. Denna metod kräver inte identifiering av gener innan analysen påbörjas, och dess känslighet är flera mRNA-molekyler per cell [13] .
Den första kommersiellt effektiva NGS-plattformen. 454 Life Sciences grundades 2000 av Jonathan Rothberg (lanserades 2005). Denna teknologi är en sekventiell syntes av emulsions- PCR och pyrosekvenseringsmetoder [14] .
DNA- amplifiering sker i droppar vatten i en oljeemulsion. Varje droppe vatten innehåller en enkelsträngad DNA-mall bunden till en primer på en pärla. Därefter placeras varje pärla på ett chip, som är en optisk fiber . De enzymer som är nödvändiga för sekvensering är också placerade där: DNA-polymeras, luciferas , ATP-sulfurylas . I den sista monteringen sker sekvenseringsreaktionen i celler med en volym av 3,4·10 6 pl, på vars väggar det finns en speciell metallbeläggning som jämnar ut buller [15] .
Författarna till metoden är de brittiska kemisterna Shankar Balasubramanian och David Klenerman. Denna sekvenseringsmetod använder enstaka DNA-molekyler fästa vid mikrosfärer. 2006 lanserades Solexa Genome Analyzer 1G, den första plattformen som genererade korta genomsegment. Sedan den förvärvades av Illumina använder Genome Analyzer optiskt klara celler med 8 individuella ytor (ibland färre: 4, 2 eller till och med 1) där oligonukleotider binder . I motsats till pyrosekvensering sker förlängningen av sekvensen gradvis, vilket gör det möjligt att ta bort stora DNA-chips åt gången med hjälp av en kamera [16] .
SOLiD-plattformen (Supported Oligonucleotide Ligation and Detection System 2.0) utvecklad av Applied Biosystems är en kortläst sekvenseringsteknologi baserad på ligering . Metoden föreslogs i George Churchs laboratorium och publicerades 2005. Kärnan i metoden är att bestämma nukleotidsekvensen för små fragment (25-75 bp) av genomiskt DNA; adaptrar ligeras till båda ändarna av det förfragmenterade DNA:t , vilket är nödvändigt för emulsions-PCR på magnetiska pärlor och efterföljande sekvensering på en flödescell [17] .
NGS-teknologi utan elektroforetisk separation, vilket gör att miljontals korta immobiliserade DNA- sekvenser kan läsas . Huvudidén med metoden är genereringen av ett stort antal unika "polonier" (molekylära kolonier genererade av polymeras), som sekvenseras i en slumpmässig ordning. Polonysekvensering utförs för ett bibliotek av parade ändtaggar (parade ändtaggar): varje DNA-molekyl har en längd på 135 baspar (bp), innehåller två taggar 17–18 bp långa, separerade och flankerade av en gemensam sekvens [ 18 ] [19] .
Den första metoden för sekvensering av en enda molekyl utvecklad av HeliScope (Helicos BioSciences) har en genomströmning på cirka 1 Gb/dag. Funktionsprincip: efter klonal amplifiering av provet sker DNA-fragmentering, följt av polyadenylering vid 3'-änden, följt av sekvensering alternerande med tvättning av proverna med fluorescensmärkta nukleotider [20] . 2012 försattes företaget i konkurs och upphörde att existera [21] , men företaget SeqLL, grundat 2013, fick licens för tekniken [22] .
I denna metod introduceras 4 adaptrar sekventiellt i DNA-fragmentet som ska sekvenseras, tack vare vilket, under ytterligare replikering av Phi29 genom DNA-polymeras ( rullande cirkelreplikation ), den syntetiserade DNA-molekylen viks till DNA-nanobollar. Sedan deponeras nanoballongerna på ett substrat som har många ~300-nm-fält för DNA-bindning, arrangerade i ett gitter. Organisationen av dessa fält gör det möjligt att passa in mer DNA på substratet och öka tätheten av information i bilden jämfört med slumpmässig applicering av DNA på substratet (till exempel som vid polonysekvensering) [23] .
Kombinatorisk sondförankringsligering är en kombinerad sekvenseringsmetod som använder en kombination av probepoolhybridisering och ligering. Varje sond består av nio baser som är degenererade (det vill säga de kan vara vilken som helst av de fyra) i alla utom en position som är på väg att läsas. Positionen av intresse är märkt med en av fyra färgämnen som motsvarar varje kvävehaltig bas. En ankarsekvens som är komplementär till adaptern och proberna hybridiseras på mallen. Prober hybridiserade mittemot en av ändarna av ankarsekvensen ligeras sedan. Efter hybridisering och ligering tvättas överskottsproberna bort och en bild tas. Sedan tvättas hela ankarsondkomplexet bort och processen upprepas med prober för andra positioner. Efter avläsning av 5 sammanhängande baser upprepas processen med ankare med ytterligare fem degenererade baser, vilket gör att upp till 10 baser kan sekvenseras på varje sida av adaptern. Totalt 70 basavläsningar från det ursprungliga fragmentet sekvenseras, 35 baser i varje ände av adaptern. På grund av avståndet mellan adaptrarna är dessa 35 bassekvenser inte sammanhängande eftersom de innehåller ett gap på två baser och ett gap på fem baser [24] .
Metoden bygger på förhållandet mellan kemisk och digital information; denna teknik kallas även pH -inducerad sekvensering. Processen bygger på detektering av protoner, som erhålls under syntesen av en DNA-kedja som en biprodukt. Som en konsekvens ändras lösningens pH, vilket kan detekteras [25] .
Ion Torrent-plattformen skiljer sig från andra sekvenseringsteknologier genom att den inte använder modifierade nukleotider eller optiska metoder. Ion Torrent-metoden låter dig studera transkriptomer , små RNA:n och utföra ChIP-seq . Dessutom kan den användas för att studera genomen av mikrobiella samhällen [25] .
Tillkomsten av SMRT-metoden (Single Molecule Real Time Sequencing) gjorde det möjligt att observera arbetet med DNA-polymeras, som bygger upp den syntetiserade kedjan, i realtid. Kärnan i metoden är att bestämma nukleotidsekvensen för genomiska DNA-fragment med specifika DNA-adaptrar ligerade till deras ändar, vilka är nödvändiga för efterföljande sekvensering. Innebörden av SMRT-sekvensering liknar de tidigare beskrivna NGS-metoderna - DNA-polymeras fullbordar den andra strängen av den studerade DNA-molekylen med hjälp av nukleotider märkta med olika fluorescerande etiketter, som registreras med högupplöst konfokalmikroskopi [26] .
Metoden bygger på att mäta jonströmmen genom en enda nanopor i ett icke-ledande membran . När nukleotider passerar genom denna por minskar strömmen. Tiden för vilken jonströmmen ändras och storleken på detta fall beror på vilken nukleotid som för närvarande finns inuti poren [27] .
Snabbheten och låga kostnaderna för NGS-metoder, som tidigare inte var tillgängliga, provocerade fram en boom i branschen för genomisk forskning. Tack vare NGS blev det möjligt att utföra tidigare tekniskt otillgängliga experiment [28] [29] . Tillämpningen av NGS är inte begränsad till bestämning av genomiska sekvenser, utan sträcker sig till studiet av transkriptomet, kromatinstrukturen och andra områden inom molekylär och cellulär biologi. Nedan är de viktigaste exemplen på tillämpningsområden för NGS-metoder [30] .
Försämringen och spridningen av NGS gjorde det möjligt att bestämma protein-DNA-bindningsställen ( ChIP-seq ), interagerande DNA-regioner ( bestämning av kromosomkonformation ) och öppna kromatinregioner i hela genomet, samt att implementera ENCODE- och modENCODE- projekten [31] .
ChiP-seq används för att kartlägga bindningsställena för DNA-bindande proteiner, vilket tidigare uppnåddes genom kromatinimmunoutfällning och hybridisering utan mikroarray- sekvensering [32] .
Genomen av levande system av varierande komplexitet, från mikroorganismer till människor, har blivit tillgängliga, inklusive genomet av cytogenetiskt normala myeloid leukemiceller . Att öka längden på läsningarna påskyndade sammansättningen av hela genom [33] .
Sekvensering av vissa regioner i genom används för att identifiera polymorfismer (särskilt enkelnukleotidpolymorfismer ) och mutationer i gener involverade i utvecklingen av tumörer och andra sjukdomar. Ett exempel på ett sådant storskaligt arbete är projektet 1000 genom [34] .
NGS används flitigt i studier av mångfalden av mikroorganismer i olika prover (till exempel mikrobiella populationer i havet och marken, identifiering av nya virus i transplanterbara organ, karakterisering av mikrofloran som är karakteristisk för mag-tarmkanalen , etc.) [35] .
Baserat på NGS har en ny metod för RNA-sekvensering (RNA-seq) utvecklats för kartläggning och uppräkning av transkript i biologiska prover. Denna metod har fördelar jämfört med den tidigare använda DNA-mikroarraymetoden . Till exempel beror DNA-matriser på överlappningen av genomiska sekvenser, medan RNA-seq tillåter karakterisering av transkription utan förkunskaper om transkriptionsstartstället [36] .
Inom en snar framtid kommer sekvenseringstekniker att bli snabbare och billigare, vilket gör att de kan användas för att identifiera mål för läkemedelsbehandling hos cancerpatienter. Redan 2013 tog nästa generations sekvensanalys mindre än 100 dagar från biopsi till slutförande av NGS. Helgenomsekvensering (WGS) och heltranskriptomsekvensering (WTS) tar samma tid [37] .