Parad-end-sekvensering är en av den nya generationens DNA-sekvenseringsmetoder som bygger på att erhålla och sekvensera ett bibliotek av parade -end-taggar (PET ), i vilka korta 5'- och 3'-terminala regioner av DNA/cDNA-fragment är kopplade till varje andra med en vän.
Det finns två huvudmetoder för att skapa bibliotek av parade ändfragment: genom kloning och utan kloning [1] .
Genomiskt DNA genomgår fragmentering (med vilken metod som helst: med användning av restriktionsendonukleaser, ultraljud, nebulisering). Adaptrar som innehåller restriktionsställen för speciella endonukleaser, såsom Mmel eller EcoP15I, ligeras till DNA- fragment . Fragment med adaptrar ligeras in i en bakteriell vektor . E. coli-cellerna transformeras sedan med ligeringsblandningen. Separata plasmider renas från de erhållna bakteriekolonierna, behandlade med ett av de speciella restriktionsendonukleaserna, vars ställen finns i adaptrarna. Dessa endonukleaser skär ut den centrala delen av de klonade DNA-fragmenten och lämnar ändsektionerna. Efter ligering av dessa sektioner med varandra bildas parade ändfragment. Dessa parade ändfragment klyvs med ett standardrestriktionsendonukleas vars ställen är vid kanterna av de klonade adaptrarna. Beroende på valet av efterföljande sekvenseringsteknik kan sekvenser av parade ändfragment användas som monomerer, dimerer eller konkatemerer (flera fragment sammanfogade).
DNA-fragmentet metyleras för att skydda mot verkan av restriktionsendonukleaser . Ändarna av fragmentet är "trubbade" och fosforylerar 5'-änden. Dessa manipulationer är nödvändiga för att sy adaptrar (ometylerade) till ändarna av DNA-fragmentet. Dessa adaptrar innehåller ett restriktionsställe och kan även biotinyleras. De resulterande DNA-fragmenten flankerade av adaptrar är cirkuläriserade. Om adaptrarna inte har biotinylerats kan en biotinylerad "intern" adapter läggas till under cyklisering. Biotin används för att isolera målparade ändfragment på en sorbent med streptavidin. Den cirkulära DNA-molekylen bearbetas av endonukleaset Mmel eller EcoP15I, vars bindningsställen finns i adaptrarna. Gratis PET bildas. Före sekvensering sys adaptrar till dessa parade ändfragment, som innehåller sekvenser för hybridisering av PCR -primrarna . Polymeraskedjereaktion (PCR) används för att amplifiera PET [2] .
Fördelen med att skapa ett bibliotek genom kloning är bevarandet av de ursprungliga cDNA-fragmenten av full längd. Kloning är dock en lång och mödosam process. Den mest populära metoden har fått metoden utan användning av kloning. Längden på märkningssekvenserna för de parade ändfragmenten kan vara olika. Längre taggar gör det lättare att kartlägga läsningar . Endonukleaserna som användes för att skapa de fragment som beskrivits ovan (Mmel eller EcoP15I) ger 18/20 bp taggar. respektive 25/27 bp [3] . Det speciella med dessa endonukleaser är att de introducerar ett brott i DNA-kedjan under deras bindningsställe. De resulterande parade ändfragmenten används för nästa generations sekvensering ( SOLiD , Illumina, 454 Life Sciences). Längre taggar kan erhållas med andra DNA-lineariseringsmetoder efter DNA-fragmentets cykliseringssteget. De huvudsakliga fördelarna med matchad-end-sekvensering jämfört med enkel-tag-tillvägagångssätt (d.v.s. tag bara ena änden av ett DNA-fragment) är reducerad kostnad, ökad read-mapping specificitet och förmågan att bestämma genomets strukturella egenskaper.
Användningen av parade ändfragment för de novo genomsekvensering har ett antal fördelar. Denna typ av sekvensering kallas parvis slutsekvensering, eller "dubbelpips hagelgevärssekvensering". Det mest populära tillvägagångssättet föreslogs 1995 [4] , vilket var en förbättring av den sekvenseringsstrategi som beskrevs 1991 [5] .
Nästa generations sekvenseringsteknologier gör det möjligt att läsa ett DNA-prov mycket snabbt och ekonomiskt, men längden på de resulterande läsningarna är mycket kortare jämfört med de som erhålls genom sekvensering med Sanger -metoden . Sammansättningen av genom, i synnerhet så komplexa som eukaryota genom , från korta fragment är ett komplext problem. Med ett stort antal korta sekvenser uppstår frågan om hur man orienterar dem i rätt riktning och kopplar ihop dem för att få ett komplett genom. Närvaron av upprepningar i genomet komplicerar denna uppgift ytterligare. Lösningen på detta problem kan vara användningen av parade ändfragment.
Genom att variera längden på DNA-fragmentet, och därmed avståndet mellan taggarna, kan man välja ett avstånd som skulle vara större än det upprepande avsnittet. Som ett resultat blir läsmapping entydig. Parad-end-sekvenseringsteknologi tillåter användning av "tvetydiga" läsningar (det vill säga de som mappar till mer än en plats i genomet) för genomsammansättning. Detta ökar effektiviteten samtidigt som kostnaden för sekvensering minskar, eftersom dessa tvetydiga sekvenser eller avläsningar vanligtvis kasseras och inte beaktas under montering.
Metoden för att sekvensera de parade ändarna av DNA gör det möjligt att detektera strukturella variationer som har inträffat i genomet: insertioner, deletioner , inversioner och transpositioner. När ett bibliotek av parade ändfragment skapas, väljs DNA-fragment av samma längd, till exempel 3 kb. [6] . Efter att ha slutfört de återstående standardstegen (se ovan) får vi biblioteket. Vi sekvenserar och kartlägger de resulterande läsningarna. Vid kartläggning till referensgenomet bör taggar härledda från ett enda DNA-fragment överlappa referensgenomet på ett avstånd av cirka 3 kb. (detta avstånd ställs in när biblioteket är konstruerat) från varandra och i en specifik orientering. Så, om avståndet mellan taggar är mindre än 3 kb, indikerar detta närvaron av en deletion i det sekvenserade genomet, om mer, då en insättning. Mer komplexa exempel på strukturell variation i genomet kan erhållas genom att överväga "inkonsekventa" tag-kartläggningsställen (t.ex. infogning av en sekvens från ett annat lokus) [2] [6] .
Jämförelse av de strukturella variationerna av genomet hos två personer (en representant för den afrikanska rasen och kaukasiska) visade närvaron av cirka 50% av de totala strukturella variationerna. "Hot spots" av strukturell variation är ofta lokaliserade på platser i genomet som är associerade med vissa sjukdomar. Strukturella variationer påverkar genomets organisation, eftersom de tillhandahåller förflyttning av exoner, "fusion" av gener, en förändring av genens orientering eller dess amplifiering [6] .
Metoden för att sekvensera de parade ändarna av DNA har också använts för att kartlägga genomiska omarrangemang av cancerceller [7] .
Metoden används för att identifiera fullängds- mRNA genom att sekvensera 5'- och 3'-ändarna av motsvarande cDNA- bibliotek [8] [9] . På fig. 3. Det allmänna schemat för metoden presenteras. Att erhålla ett bibliotek av parade ändfragment med PCR utan cDNA-kloning tillåter inkludering av svårklonat mRNA eller mRNA med en mycket låg koncentration i analysen. Därefter sekvenseras biblioteket med hjälp av moderna sekvenserare som Illumina GA eller SOLiD v4.
Sekvensering av de parade ändarna av RNA används för kvalitativ och kvantitativ analys av transkriptomet : bestämning av alternativa transkriptionsstarter , polyadenyleringsställen och bestämning av genuttrycksprofilen. Metoden kan också användas för att identifiera chimära gener och fall av transsplicing , men dessa data kräver ytterligare experimentell verifiering.
Fördelen med sekvensering av parade RNA-ändar jämfört med andra metoder för att identifiera 5'- och 3'-ändarna av mRNA, såsom CAGE , SAGE och SuperSAGE , är detektionen av båda ändarna av mRNA samtidigt, vilket ger ökad noggrannhet vid kartläggning av motsvarande mRNA på genomet. Till skillnad från metoden för helgenom-RNA-sekvensering , som analyserar ett bibliotek av slumpmässigt erhållna RNA-fragment, bestämmer RNA-parad-end-sekvensering sekvenserna för endast ändarna av RNA-molekyler, vilket avsevärt minskar kostnaden för kvantitativ analys av transkriptomen, men inte ge information om den interna strukturen av mRNA, till exempel om positionen för polymorfismer eller exon - intronstruktur . Dessutom kan stabila mRNA-sekundära strukturer komplicera framställningen av fullängds-cDNA och följaktligen mRNA-identifiering.
Chromatin Interaction Analysis by Paired-End Tag Sequencing (ChIA-PET) är en molekylärbiologisk metod som låter dig bestämma interaktionen (spatial närhet) mellan kromatinregioner belägna på avsevärt avstånd från varandra från en vän i genomet. Denna metod gör det möjligt att de novo bestämma det rumsliga arrangemanget av kromatinregioner i förhållande till varandra. Sådana interaktioner är av intresse för att definiera regulatoriska element (t.ex. cis-regulatoriska element, transregulatoriska element, isolatorer , förstärkare , ljuddämpare ). I sin tur är informationen som erhålls viktig för att förstå mekanismerna för reglering av genuttryck .