Human Genome Project ( HGP ) var ett internationellt forskningsprojekt vars huvudsakliga mål var att fastställa basparen som utgör mänskligt DNA , samt att identifiera, kartlägga och sekvensera alla gener i det mänskliga genomet både från det fysiska och från en funktionell synvinkel [1] . Detta projekt är fortfarande det största internationella biologiska projektet som någonsin genomförts inom biologi [2] . År 2003 hade endast 85 % av det mänskliga genomet sekvenserats, projektet avslutades 2022, då fullständig sekvensering av det mänskliga genomet uppnåddes.
Projektet startade 1990 under ledning av James Watson under överinseende av US National Health Organization . År 2000 släpptes ett arbetsutkast av genomstrukturen, ett komplett genom 2003 , men ännu idag har ytterligare analys av vissa sektioner ännu inte slutförts. Det privata företaget Celera Corporation lanserade ett liknande parallellt projekt, avslutat något tidigare än det internationella. Huvuddelen av sekvenseringen utfördes vid tjugo universitet och forskningscentra i USA, Storbritannien, Japan, Frankrike, Tyskland och Kina. [3] Förutom dess uppenbara grundläggande betydelse är att bestämma strukturen för mänskliga gener ett viktigt steg för utvecklingen av nya läkemedel och utvecklingen av andra aspekter av folkhälsan.
Medan målet för Human Genome Sequencing Project var att förstå strukturen av den mänskliga artens genom , fokuserade projektet också på flera andra organismer, inklusive bakterier som Escherichia coli , insekter som fruktflugan och däggdjur som musen. .
Från början var det planerat att sekvensera de mer än tre miljarder nukleotider som finns i det haploida mänskliga genomet. Varje individs "genom" är unikt; kartläggning av det "mänskliga genomet" involverade sekvensering av ett litet antal personer och sedan återmontering för att erhålla den fullständiga sekvensen för varje kromosom. Därför är det färdiga "mänskliga genomet" en mosaik som inte representerar en enda individ. Nyttan med projektet ligger i att den stora majoriteten av det mänskliga arvsmassan är lika för alla människor.
Genomet för varje enskild organism (exklusive enäggstvillingar och klonade djur) är unikt, så sekvensering av det mänskliga genomet bör i princip innefatta sekvensering av flera variationer av varje gen. Syftet med Human Genome Project var dock inte att bestämma sekvensen av allt DNA som finns i mänskliga celler: vissa heterokromatinregioner (cirka 8 % totalt) förblev osekvenserade. Det var först i april 2022 som det rapporterades att ett internationellt team av forskare hade sekvenserat de sista 8 % av det mänskliga genomet [4]
Projektet var kulmen på flera års arbete som stöddes av USA:s energidepartement , i synnerhet workshops som hölls 1984 [5] och 1986, och efterföljande aktiviteter [6] av energidepartementet [7] . En rapport från 1987 säger: "Det slutliga målet med denna strävan är att förstå det mänskliga genomet" och "Kunskapen om det mänskliga genomet är lika viktigt för framstegen inom medicin och andra hälsovetenskaper som kunskap om anatomi var nödvändig för att nå dess nuvarande tillstånd. " Sökandet efter teknologier som är lämpliga för att lösa det föreslagna problemet började under andra hälften av 1980 -talet [8] .
Från och med 1988 var chefen för National Center for Human Genome Research vid United States National Health Organization (NIH) James Watson . 1992 tvingades han avgå, främst på grund av oenighet med sin ledares, Bernadine Healys ståndpunkt om genpatentering . Han ersattes i april 1993 av Francis Collins och 1997 ändrades centrets namn till National Human Genome Research Institute NHGRI
Projektet på 3 miljarder dollar lanserades formellt 1990 av det amerikanska energidepartementet och National Institutes of Health och förväntades pågå i 15 år. Förutom USA inkluderade det internationella konsortiet genetiker från Kina , Frankrike , Tyskland , Japan och Storbritannien .
På grund av omfattande internationellt samarbete och nya framsteg inom genomik (särskilt inom sekvensering), samt betydande framsteg inom datorteknik, slutfördes "utkastet" av genomet 2000 (vilket tillkännagavs gemensamt av USA:s president Bill Clinton och Storbritanniens premiärminister Tony Blair 26 juni 2000 [9] ). Fortsatt sekvensering ledde till tillkännagivandet i april 2003 om nästan färdigställande, två år tidigare än planerat [10] . I maj 2006 passerades ytterligare en milstolpe på vägen till slutförandet av projektet, då sekvensen för den sista kromosomen, kromosom 1 , publicerades i tidskriften Nature [11] .
Det finns många definitioner av "fullständig sekvensering av det mänskliga genomet". Enligt vissa av dem har genomet redan sekvenserats fullständigt, och enligt andra har detta ännu inte uppnåtts. Det fanns många artiklar i populärpressen som rapporterade om "fullbordandet" av genomet. För närvarande fullbordas stadiet av genomsekvensering, det vill säga bestämma nukleotidernas ordning i nukleinkedjorna av mänskligt DNA. Egentligen pågår arbetet med tolkningen av resultaten av sekvenseringen fortfarande. Detta kommer att vara avkodningen eller avläsningen av genomet. Projektets dechiffreringshistoria visar att det mesta av sekvenseringen av det mänskliga genomet slutfördes i slutet av 2003. Det finns dock fortfarande flera regioner som anses oavslutade:
Det mesta av det kvarvarande DNA:t är mycket repetitivt och innehåller sannolikt inte gener, men detta kommer att förbli okänt tills de är helt sekvenserade. Att förstå alla geners funktioner och deras reglering är fortfarande långt ifrån komplett. Skräp-DNA :s roll , genomets utveckling, skillnader mellan individer och många andra frågor är fortfarande föremål för intensiv forskning i laboratorier runt om i världen.
Sekvensen av mänskligt DNA lagras i databaser som är tillgängliga för alla användare via Internet . US National Center for Biotechnology Information (och dess partners i Europa och Japan) upprätthåller genomiska sekvenser i en databas som kallas GenBank , tillsammans med kända och hypotetiska gen- och proteinsekvenser. Andra organisationer som UC Santa Cruz12] Ensembl [ 13] upprätthåller ytterligare data och anteckningar, såväl som kraftfulla verktyg för att visualisera och söka i dessa databaser Datorprogram har utvecklats för dataanalys eftersom själva data är nästan omöjliga att tolka utan sådana program.
Processen att identifiera gengränser och andra motiv i råa DNA- kallas och hör till området bioinformatik Människor gör det här arbetet med datorer, men de gör det långsamt, och för att möta de höga genomströmningskraven för genomsekvenseringsprojekt används även speciella datorprogram i allt större utsträckning här. Dagens bästa annoteringsteknologier använder statistiska modeller baserade på parallellerna mellan DNA-sekvenser och mänskligt språk , och drar fördel av datavetenskapliga begrepp som formella grammatiker .
Ett annat ofta förbisett mål med Human Genome Project är att utforska de etiska, juridiska och sociala konsekvenserna av att sekvensera genomet. Det är viktigt att utforska dessa frågor och hitta de lämpligaste lösningarna innan de blir en grogrund för kontroverser och politiska frågor.
Alla människor har, i en eller annan grad, unika genomiska sekvenser. Därför innehåller data som publicerats av Human Genome Project inte den exakta sekvensen av genomen för varje enskild person. Detta är det kombinerade genomet av ett litet antal anonyma donatorer. Den resulterande genomiska sekvensen är grunden för framtida arbete med att identifiera skillnader mellan individer. Huvudinsatsen här är inriktad på att identifiera enstaka nukleotidpolymorfier .
Nästan alla mål som projektet satte upp nåddes snabbare än förväntat. Projektet för sekvensering av det mänskliga genomet avslutades två år tidigare än planerat. Projektet satte ett rimligt, uppnåeligt mål att sekvensera 95 % av DNA. Forskarna uppnådde inte bara det, utan överträffade också sina egna förutsägelser och kunde sekvensera 99,99 % av mänskligt DNA. Projektet har inte bara överträffat alla mål och tidigare utvecklade standarder, utan fortsätter också att förbättra de resultat som redan uppnåtts.
Projektet finansierades av den amerikanska regeringen genom National Institutes of Health och av den brittiska välgörenhetsorganisationen Wellcome Trust , som finansierade Sanger Institute , samt många andra grupper runt om i världen. Finansieringen delades mellan flera stora sekvenseringscenter inklusive Whitehead Institute Institute Washington University i St. Louis och Baylor College
Genomet delades in i små sektioner, cirka 150 000 baspar långa. Dessa bitar infogas sedan i en vektor som kallas den artificiella bakteriekromosomen eller BAC. Dessa vektorer skapas från genetiskt modifierade bakteriella kromosomer . Vektorer som innehåller generna kan sedan infogas i bakterier, där de replikeras av bakteriella replikationsmekanismer . Var och en av delarna av genomet sekvenserades sedan separat med hagelgevärsmetoden , och sedan sattes alla resulterande sekvenser samman i form av en datortext. Storleken på de resulterande stora bitarna av DNA, som samlats in för att återskapa strukturen av hela kromosomen, var cirka 150 000 baspar. Ett sådant system är känt som den "hierarkiska hagelgevärsmetoden" eftersom genomet först bryts upp i bitar av olika storlekar, vars position i kromosomen måste vara känd i förväg.
1998 lanserade den amerikanske forskaren Craig Venter och hans företag Celera Corporation en liknande privatfinansierad studie. I början av 1990-talet, när Human Genome Project precis hade börjat, arbetade Venter också på US National Institutes of Health . Målet med hans eget Celera-projekt på 300 miljoner dollar var snabbare och billigare sekvensering av det mänskliga genomet än regeringsprojektet på 3 miljarder dollar.
Celera använde en mer riskabel variant av genomfragmenteringsmetoden (hagelgevärsmetoden) som tidigare hade använts för att sekvensera bakteriegenom upp till sex miljoner baspar långa, men aldrig för något så stort som det mänskliga genomet på tre miljarder baspar, nukleotider.
Celera tillkännagav först att de skulle söka patentskydd för "så lite som 200 eller 300" gener, men ändrade senare att de sökte "skydd för immateriella rättigheter" för "fullständiga beskrivningar av kritiska strukturer" som utgör cirka 100-300 mål. Slutligen lämnade företaget [14] provisoriska patentansökningar för 6500 hela eller partiella gener. Celera lovade också att publicera resultaten av sitt arbete under villkoren i Statement från och nya data kvartalsvis (Human Genome Project släppte nya data dagligen), men till skillnad från det offentligt finansierade projektet ger företaget
I mars 2000 förklarade USA:s president Bill Clinton att genomsekvensen inte kunde patenteras och borde vara fritt tillgänglig för alla forskare. Efter presidentens tillkännagivande föll Celeras aktie kraftigt, vilket drog ner hela Nasdaqs biotekniksektor , som förlorade cirka 50 miljarder dollar i börsvärde på två dagar.
Även om en fungerande version av genomet tillkännagavs i juni 2000, släppte Celera och forskarna som arbetade på Human Genome Project inte detaljer om sitt arbete förrän i februari 2001. Specialnummer av tidskriften Nature (som publicerade vetenskapliga artiklar från regeringsprojektet [15] ) och tidskriften Science (som publicerade tidningen "Celera" [16] ) beskrev metoderna som användes för att ta fram ett utkast till sekvensen och erbjöd en analys av det. Dessa utkast täckte cirka 83 % av genomet (90 % av de eukromatiska regionerna med 150 000 luckor, och innehöll även ordningen och orienteringen för många av de fortfarande ofullständiga segmenten). I februari 2001, under utarbetandet av gemensamma publikationer, gavs pressmeddelanden ut om att projektet hade slutförts av båda grupperna. 2003 och 2005 förbättrade utkast tillkännagavs innehållande cirka 92 % sekvens.
Tävlingen fungerade mycket bra för projektet, vilket tvingade de statliga projektdeltagarna att ändra sin strategi för att påskynda arbetets framsteg. Konkurrenterna gick först med på att slå samman resultaten, men alliansen föll sönder efter att Celera vägrade att göra sina resultat tillgängliga via en offentlig GenBank-databas med obegränsad tillgång till alla användare. Celera inkluderade Human Genome Project-data i sin egen sekvens, men förbjöd försök att använda dess data för alla tredjepartsanvändare.
The Human Genome är det mest kända av de många internationella genomiska projekt som syftar till att sekvensera DNA från en specifik organism. För närvarande ger kunskap om sekvensen av mänskligt DNA de mest påtagliga fördelarna. Dessutom förväntas viktiga framsteg inom biologi och medicin från sekvenseringen av modellorganismer , som inkluderar möss, fruktflugor , Danio rerio , jästsvampar , nematoder , vissa växter och en mängd olika mikrober och parasiter .
År 2004 tillkännagav forskare från International Human Genome Sequencing Consortium ( IHGSC ) från Human Genome Project en ny uppskattning av antalet gener i det mänskliga genomet, som varierade från 20 till 25 tusen [17] Tidigare förutspått från 3 upp till 40 tusen, och i början av projektet var uppskattningarna uppemot 2 miljoner. Denna siffra fortsätter att fluktuera, och det förväntas för närvarande att det under många år inte kommer att vara möjligt att komma överens om det exakta antalet gener i det mänskliga genomet.
År 1976 identifierade Walter Fiers och hans team vid universitetet i Gent ( Gent , Belgien ) det första kompletta genomet av ett virus , bakteriofag MS2 [18] . Idén till DNA-fragmenteringstekniken ( engelsk shotgun ) kom från att använda en algoritm som kombinerade sekvensinformation från många små DNA-fragment för att rekonstruera genomet. Denna teknik introducerades av Sanger för att sekvensera genomet av fagen Phi-X174 , ett virus som infekterar bakterier ( bakteriofag ); det var det första helt sekvenserade genomet (DNA-sekvensen) redan 1977 [19] . Tekniken har kallats "shotgun sequencing" eftersom arvsmassan splittras i många bitar, som om den hade skjutits med ett hagelgevär. För att skala metoden måste både sekvensering och genomsamling automatiseras, vilket skedde på 1980 -talet .
1995 visade sig denna teknik vara tillämpbar på sekvenseringen av det första bakteriegenomet (1,8 miljoner baspar) av den fritt levande organismen Haemophilus influenzae [20] och det första djurgenomet (~100 miljoner baspar) [21] . Metoden involverar användning av automatiserade sekvenserare, vilket gör att längre individuella sekvenser kan bestämmas (vid den tidpunkten erhölls ungefär 500 baspar en gång). Överlappande sekvenser på cirka 2 000 baspar "lästes" i två riktningar, dessa var de kritiska elementen som ledde till utvecklingen av de första genomsammansättningsdatorprogrammen som behövdes för att rekonstruera stora DNA-regioner som kallas "contigs".
Tre år senare, 1998, möttes tillkännagivandet av det nystartade Celera Corporation att det skulle skala DNA-fragmentering till det mänskliga genomet av skepsis i vissa kretsar . Fragmenteringstekniken bryter upp DNA:t i fragment av olika storlekar, från 2 till 300 kb i längd, och bildar vad som kallas ett "DNA-bibliotek". DNA:t "läses" sedan med hjälp av en automatisk sekvenserare i bitar om 800 baspar långa från båda ändarna av varje fragment. Med hjälp av en komplex sammansättningsalgoritm och en superdator sätts delarna ihop, varefter genomet kan rekonstrueras från miljontals korta fragment av 800 baspar. Framgången för både offentliga och privata projekt berodde på en ny, mer automatiserad kapillär DNA-sekvenseringsmaskin kallad Applied Biosystems 3700 . Hon körde DNA-strängar genom ett ovanligt tunt kapillärrör , snarare än genom en platt gel, som gjordes i tidiga modeller av sekvenserare. En ännu mer kritisk faktor var utvecklingen av ett nytt, större genommonteringsprogram , en assembler som kunde bearbeta de 30-50 miljoner sekvenser som krävs för att sekvensera hela det mänskliga genomet. Vid den tiden fanns inget sådant program. Ett av de första stora projekten på Celera var utvecklingen av denna assembler, som skrevs parallellt med skapandet av en stor, högautomatiserad genomsekvenseringsfabrik. Utvecklingen av assemblern leddes av Brian Ramos ( eng. Brian Ramos ). Den första versionen dök upp år 2000 när Celera Corporation -teamet slog sig samman med professor Gerald Rubin arvsmassan hos fruktflugan melanogaster med hjälp av genomfragmentering [22] Programmet samlade in 130 miljoner baspar och bearbetade minst 10 gånger mer data än någon tidigare insamlad från resultaten av genomfragmenteringsmetoden. Ett år senare publicerade Celera Corporation -teamet sin sammanställning av de tre miljarder basparen i det mänskliga genomet.
IHGSC använde spetssekvensering kombinerad med kartläggning av stora (ca 100 kb) genomfragmenteringsplasmidkloner för att målinrikta och validera sammansättningen av sekvensen för varje mänsklig kromosom, och använde även fragmenteringsmetoden för mindre subkloner av samma plasmider, samt många andra uppgifter [15] .
Celera Corporation förstod vikten av genomfragmenteringsmetoden och använde även själva sekvensen för att orientera och hitta den korrekta platsen för de sekvenserade fragmenten i kromosomen. Men företaget använde också allmänt tillgängliga data från Human Genome Project för att kontrollera monterings- och orienteringsprocessen, vilket ifrågasatte oberoendet för dess data [16] [23] [24] .
I Interstate Human Genome Project (HGP) tog forskare vid IHGSC blod (kvinnliga) och sperma (manliga) prover från ett stort antal donatorer. Av de insamlade proverna var det bara ett fåtal som blev källan till DNA. Således gömdes donatorernas identiteter så att varken donatorerna eller forskarna kunde veta vems DNA som sekvenserades. Många DNA-kloner från olika bibliotek användes under De flesta av dessa bibliotek skapades av Dr. Pieter J. de Jong . Det har informellt rapporterats, och är välkänt inom genetiksamhället, att det mesta av DNA:t i regeringsprojektet kommer från en enda anonym givare, en buffelhane ( kodnamn RP11) [25] .
HGP-forskarna använde vita blodkroppar från blodet från två manliga och två kvinnliga donatorer (slumpmässigt utvalda från 20 prover av varje kön) - varje donator blev källan till ett separat DNA-bibliotek. Ett av dessa bibliotek (RP11) användes betydligt mer än de andra av kvalitetsskäl. En liten teknisk nyans är att de manliga proverna endast innehöll hälften av mängden DNA som kom från X- och Y-kromosomerna jämfört med de andra 22 kromosomerna ( autosomer ); detta beror på att varje manlig cell (spermier) bara innehåller en X- och en Y-kromosom , och inte två som andra celler.
Även om den huvudsakliga sekvenseringsfasen av Human Genome Project har slutförts, fortsätter forskningen om DNA-variation i det internationella HapMap-projektet, som syftar till att identifiera strukturen av enkelnukleotidpolymorfism (SNP) grupper (kallade haplotyper ). DNA-proverna för HapMap kommer från totalt 270 personer: Yorubafolket i Ibadan ( Nigeria ), japanerna från Tokyo , kineserna från Peking och den franska källan Centre d'Etude du Polymorphisms Humain ( CEPH ), som består av invånare i USA som kommer från västra och norra Europa .
Celera Genomics - projektet använde DNA från fem individer för sekvensering. Craig Venter , företagets grundare, som vid den tidpunkten också var Celeras chief scientific officer, rapporterade senare (i ett offentligt brev till tidningen Science ) att hans DNA, som är ett av 21 prover i poolen, var ett av fem som valts ut för användning i projektet [26] [27] .
Den 4 september 2007 publicerade ett team under ledning av Craig Venter den fullständiga sekvensen av hans eget DNA [28] och avmystifierade sex miljarder nukleotidsekvenser i ett enda mänskligt genom för första gången.
Arbetet med tolkningen av genomdata är fortfarande i ett tidigt skede. Detaljerad kunskap om det mänskliga genomet förväntas öppna nya vägar till framsteg inom medicin och bioteknik . Tydliga praktiska resultat av projektet visades redan innan arbetet slutförts. Flera företag, som Myriad Genetics , har börjat erbjuda enkla sätt att utföra genetiska tester som kan visa mottaglighet för en mängd olika sjukdomar, inklusive bröstcancer , blödningsrubbningar , cystisk fibros , leversjukdom och mer. Det förväntas också att information om det mänskliga genomet kommer att hjälpa till i sökandet efter orsakerna till cancer , Alzheimers sjukdom och andra områden av klinisk betydelse, och kan möjligen leda till betydande framsteg i behandlingen av dem i framtiden.
Många användbara resultat för biologer förväntas också. Till exempel kan en forskare som studerar en viss form av cancer begränsa sin sökning till en enda gen. Genom att besöka en onlinedatabas för mänskligt genom kan den här forskaren kontrollera vad andra forskare har skrivit om den här genen, inklusive den (potentiellt) tredimensionella strukturen av dess härledda protein, dess funktion, dess evolutionära relation med andra mänskliga gener eller med gener i möss eller jäst- eller fruktflugor, möjliga skadliga mutationer, associationer till andra gener, kroppsvävnader där genen är aktiverad, sjukdomar associerade med den genen eller andra data.
Dessutom kan en djup förståelse av sjukdomsprocessen på molekylärbiologinivå erbjuda nya terapeutiska procedurer. Med tanke på DNA:s etablerade enorma roll i molekylärbiologin och dess centrala roll för att bestämma de grundläggande principerna för hur cellulära processer fungerar , är det troligt att kunskapsexpansionen inom detta område kommer att bidra till medicinska framsteg inom olika områden av klinisk betydelse som inte skulle har varit möjligt utan dem.
Analysen av likheter i olika organismers DNA-sekvenser öppnar också nya vägar i studiet av evolutionsteorin . I många fall kan frågor om evolution nu ställas i termer av molekylärbiologi . Faktum är att många av de viktigaste milstolparna i evolutionens historia (utseendet av ribosomen och organellerna , utvecklingen av embryot , immunsystemet hos ryggradsdjur ) kan spåras på molekylär nivå. Det förväntas att detta projekt kommer att belysa många frågor om likheter och skillnader mellan människor och våra närmaste släktingar ( primater , och faktiskt alla däggdjur ).
Human Genome Diversity Project , en fristående studie som syftar till att kartlägga regioner av DNA som skiljer sig mellan etniska grupper . [29] I framtiden kommer HGDP sannolikt att kunna erhålla nya data inom områdena sjukdomskontroll, mänsklig utveckling och antropologi. HGDP kan låsa upp hemligheterna kring etniska gruppers sårbarhet för specifikasjukdomar och föreslå nya strategier för att övervinna dem se Ras och hälsaDet kan också visa hur mänskliga populationer har anpassat sig till dessa sjukdomar.
Den nya generationens sekvenseringsmetoder öppnar upp för speciella möjligheter för studier av det mänskliga genomet . I samband med utvecklingen av nya metoder har processen för genomsekvensering avsevärt förenklats och påskyndats . Detta möjliggör sekvensering av ett stort antal mänskliga genom för att bestämma enkelnukleotidpolymorfism (projekt 1000 genom). Dessutom gjorde nästa generations sekvensering det möjligt att starta ett projekt för kartläggning av genomelement (regulatoriska och andra sekvenser) - ENCODE .
Billigare sekvenseringsmetoder gör det redan möjligt att sekvensera en individs genom för terapeutiska ändamål.
Tematiska platser | ||||
---|---|---|---|---|
Ordböcker och uppslagsverk | ||||
|
Genetik | ||
---|---|---|
Nyckelbegrepp | ||
Genetikens områden | ||
mönster | ||
Relaterade ämnen |