"Gene Ontology" ( Eng. Gene Ontology , eller GO ) är ett bioinformatikprojekt tillägnat skapandet av en enhetlig terminologi för annotering av gener och genprodukter från alla biologiska arter [1] .
Målet med projektet är att upprätthålla och fylla på en viss lista med attribut för gener och deras produkter, sammanställa kommentarer av gener och produkter, utveckla verktyg för att arbeta med projektdatabasen , samt för att analysera nya experimentella data, i synnerhet analysera representationen av funktionella grupper av gener . Det är värt att notera att GO-projektet skapade ett märkningsspråk för att klassificera data (information om gener och deras produkter, det vill säga RNA och proteiner, samt deras funktioner), vilket gör att du snabbt kan hitta systematisk information om genprodukter [2 ] [3] [4] .
"Gene Ontology" är en del av ett större klassificeringsprojekt - "Open Biomedical Ontologies" ( OBO ) [5] .
Ontologier inom datavetenskap används för att formalisera vissa kunskapsområden med hjälp av ett system av data om verkliga objekt och relationer mellan dem (den så kallade kunskapsbasen ). Inom biologi och närliggande discipliner har problemet med avsaknaden av en universell standard för terminologi uppstått. Termer som uttrycker liknande begrepp , men som används för olika biologiska arter , olika forskningsområden, eller till och med inom olika grupper av forskare, kan ha fundamentalt olika betydelser, vilket gör datautbytet svårt. I detta avseende var uppgiften för Gene Ontology-projektet att skapa en ontologi av termer som återspeglar egenskaperna hos gener och deras produkter och är tillämpliga på alla organismer [2] [3] [4] .
"Gene Ontology" skapades 1998 av ett konsortium av forskare som studerade genomen av tre modellorganismer : Drosophila melanogaster (fruktfluga), Mus musculus (mus) och Saccharomyces cerevisiae (bagerijäst) [6] . Sedan dess har många databaser för andra modellorganismer anslutit sig till GO-konsortiet, och bidragit därmed inte bara till utbyggnaden av anteckningsdatabasen, utan också till skapandet av tjänster för visning och tillämpning av data.
GO Consortium ( GOC ) är en uppsättning biologiska databaser och forskargrupper som är aktivt involverade i Gene Ontology-projektet [7] . Den innehåller flera databaser för olika modellorganismer, allmänna proteindatabaser, mjukvaruutvecklingsteam och Gene Ontology-redaktörer.
Gene Ontology är ett storskaligt och snabbt utvecklande projekt. Från och med september 2011 innehöll Gene Ontology mer än 33 tusen termer och cirka 12 miljoner anteckningar av genprodukter tillämpliga på mer än 360 tusen levande organismer [2] . Efter 2016 översteg antalet termer 44 tusen exemplar, medan antalet organismer som kommenterades i denna kunskapsbas översteg 460 tusen individer [3]
Under de senaste åren har GO-konsortiet implementerat ett antal ontologiförändringar för att öka kvantiteten, kvaliteten och specificiteten hos GO-anteckningar. År 2013 översteg antalet anteckningar 96 miljoner. Kvaliteten på anteckningar har förbättrats genom automatiska kvalitetskontroller. Anteckningen av data som presenteras i GO-databasen har också förbättrats, nya termer har lagts till. [4] . 2007 skapades en ny tjänst InterMine [8] , som syftar till att integrera genomisk data från ett stort antal olika källor, och underlätta beräkningsuppgifter som att söka efter specifika genomiska regioner och utföra statistiska tester. Projektet skapades ursprungligen för att integrera data för Drosophila, men omfattar nu ett stort antal modellorganismer. Under de senaste åren har utvecklingen av LEGO-tjänsten (Linked Expressions using the Gene Ontology) pågått, som låter dig utforska interaktionen mellan olika anteckningar i GO-databasen, kombinera dem till mer allmänna modeller av gener och deras funktioner [3 ] .
Det bör förstås att "genontologi" beskriver komplexa biologiska fenomen, och inte specifika biologiska objekt. Gene Ontology-databasen innehåller tre oberoende ordböcker [1] [9] :
Varje term i "Gene Ontology" har ett antal attribut: en unik digital identifierare, ett namn, en ordbok som termen tillhör och en definition. Termer kan ha synonymer, som är uppdelade i exakt motsvarande betydelsen av termen, bredare, smalare och har någon relation till termen. Attribut som länkar till källor, andra databaser och kommentarer om betydelsen och användningen av termen [1] [9] kan också förekomma .
Ontologin bygger på principen om en riktad acyklisk graf : varje term är kopplad till en eller flera andra termer genom en annan typ av relation . Det finns följande typer av relationer [1] :
Ett exempel på en av GO-projekttermerna [10] :
id: GO:0043417 namn: negativ reglering av skelettmuskelvävnadsregenerering namnutrymme: biologisk_process def: "Varje process som stoppar, förhindrar eller minskar frekvensen, hastigheten eller omfattningen av skelettmuskelregenerering." [GOC:jl] synonym: "nedreglering av skelettmuskelregenerering" EXAKT [] synonym: "nedreglering av skelettmuskelregenerering" EXAKT [] synonym: "nedreglering av skelettmuskelregenerering" EXAKT [] synonym: "hämning av skelettmuskelregenerering" SMAL [] is_a:GO:0043416 ! reglering av skelettmuskelvävnadsregenerering is_a: GO:0048640 ! negativ reglering av utvecklingstillväxt relation: negativt_reglerar GO:0043403 ! regenerering av skelettmuskelvävnadGene Ontology-databasen modifieras och kompletteras ständigt av både curatorerna för GO-projektet och andra forskare. Föreslagna användarändringar granskas av projektredaktörer och tillämpas om ändringarna godkänns [9] .
Filen som innehåller hela databasen [10] kan erhållas i olika format från den officiella Gene Ontology-webbplatsen, och termerna är också tillgängliga online med hjälp av webbläsaren AmiGO Gene Ontology. Dessutom kan den användas för att extrahera en datamatris av genprodukter relaterade till en viss term. På webbplatsen kan du också ladda ner kartor över GO-termernas överensstämmelse med andra klassificeringssystem [11] .
Genomannotering syftar till att få information om genprodukters egenskaper. GO-anteckningar använder termerna "Gene Ontology" för detta. Medlemmar i GO-konsortiet publicerar sina kommentarer på Gene Ontology-webbplatsen, där annoteringarna är tillgängliga för direkt nedladdning eller för visning i AmiGO-webbläsaren [12] .
Genanteckningen innehåller följande data: namn och identifierare för genprodukten; motsvarande GO-term; vilken typ av data anteckningen är baserad på ( beviskod ); länk till källan; och skaparen och datumet då anteckningen skapades. För datatyper som indikerar giltigheten av en annotering ( beviskod ) finns en speciell ontologi relaterad till OBO- projektet [13] . Den innehåller olika anteckningsmetoder, både manuella och automatiska. Till exempel [1] :
Från och med september 2012 erhölls mer än 99% av alla Gene Ontology-anteckningar automatiskt [4] . Eftersom sådana kommentarer inte verifieras manuellt anses de vara mindre tillförlitliga av GO-konsortiet och endast en bråkdel av dem är tillgängliga i AmiGO-webbläsaren. Hela databasen med kommentarer kan laddas ner från Gene Ontologys webbplats.
AmiGO [9] är en webbapplikation (GO-tjänst) som tillåter användare att fråga, hitta och visualisera GO-termer och genproduktkommentarer. Dessutom innehåller applikationen verktyget BLAST (tillgängligt i AmiGO 1, togs bort i AmiGO 2), tjänster som låter dig analysera stora datamängder och ett gränssnitt för att söka direkt i GO-databasen [14] . AmiGO kan användas online på Gene Ontology-webbplatsen för att komma åt data som tillhandahålls av GO-konsortiet, eller så kan den laddas ner och installeras för lokal applikation till vilken GO-liknande databas som helst. AmiGO 2 är öppen källkod och fri programvara .
Visualisering ger användaren möjlighet att bygga en graf som karakteriserar genontologin för en specifik GO-term. Det finns två inmatningsformat [15] :
JSON-inmatningsexempel:
{"GO:0002244":{"title": "foo", "body": "bar", "fill": "#ccccf", "font": "#0000ff", "border":"röd"}, "GO:0005575":{"title":"ensam", "kropp":""}, "GO:0033060":{}}Koda en relation med färg:
Attityd | Färg |
---|---|
är en | blå |
del av | ljusblå |
utvecklas_från | brun |
reglerar | svart |
negativt_reglerar | röd |
positivt_reglerar | grön |
Termvisualisering består av att bygga en graf från en nod som representerar den ursprungliga GO-termen till en rotnod, som representeras av namnet på en av de tre huvudvokabulärerna: biologiska processer , molekylära funktioner och cellulära komponenter [1] [9] .
DataöversiktFörutom möjligheten att skapa grafer som visar GO-genontologin för en term, implementerar AmiGO även flera verktyg som kan ge användaren en uppfattning om projektets GO-data. Bland dem [14] :
GOOSE [16] är en SQL - frågemiljö online tillgänglig för användare av AmiGO-tjänsten för att skapa datamängder. Den här tjänsten använder SQL-syntax för att göra olika frågor till GO-databasen. EBI (UK, Cambridge), Berkeley BOP och Berkeley BOP (lite) speglar (båda belägna i Berkeley, Kalifornien) finns också tillgängliga för att minska systembelastningen.
Förutom att direkt skriva en fråga manuellt är det möjligt att använda mallar för att delvis förenkla denna uppgift. En typisk databasfråga visas nedan (sök efter maximalt träddjup för en cellulär komponent) [16] :
VÄLJ avstånd som max från graph_path, term WHERE graph_path.term2_id =term.id och term.term_type = 'cellulär_komponent' BESTÄLL PÅ avstånd besk limit1;Databasen i GO har en komplex struktur och består av många tabeller. Huvuddatabaser [16] :
Följande dataexportformat är möjliga som ett resultat av en fråga [16] :
PANTHER ( P rotein Analysis TH rough Evolutionary R elationships ) är en enorm databas med gen/proteinfamiljer och underfamiljer som är funktionellt lika dem, som kan användas för att klassificera det funktionella spektrumet av genprodukter [ 17] . PANTHER är en del av GO-projektet, vars huvudmål är klassificeringen av proteiner och deras gener.
I PANTHER redigeras databasen inte bara av projektpersonalen utan också av klassificeringsalgoritmerna. Proteiner klassificeras enligt deras familj (och underfamilj), molekylär funktion eller biologisk process [17] .
Den huvudsakliga tillämpningen av PANTHER är att belysa funktionerna hos oförklarade gener i alla organismer baserat på deras evolutionära relationer med gener vars funktioner är kända i databasen. Med hjälp av genfunktioner, ontologi och statistiska analysmetoder tillåter PANTHER biologer att analysera stora data, hela genom erhållna genom sekvensering eller genuttrycksstudier [18] .
De viktigaste verktygen som finns tillgängliga på PANTHER-webbplatsen [18] är:
GO Slimmer [19] är ett verktyg för att kartlägga detaljerade genuppsättningsannoteringar till en eller flera föräldratermer på högre nivå (GO slim-termer). GO slim-termer är trunkerade versioner av GO-ontologin som innehåller en delmängd av termerna för hela GO utan en detaljerad beskrivning av specifika lågnivåtermer.
Användningen av GO Slimmer gör det möjligt att presentera GO-genomnoteringar, analysera resultaten av expressionsmikroarrayer eller kompletterande DNA-samlingar när en omfattande klassificering av genproduktfunktioner behövs [19] .
Resultatet av denna algoritm representeras av tre kolumner [19] :
AmiGO-versionen av detta verktyg är skriven i Perl -skriptet map2slim [19] . Kuratorerna för projektet noterar att GO slimer-tjänsten för närvarande är laddad och indata av imponerande storlek kan påverka dess funktion negativt. Drifttiden för tjänsten för bearbetning av inmatningssekvenser är begränsad.
BLASTBLAST ( Basic L local Alignment Search Tool ) är en familj av datorprogram som används för att söka efter homologer av proteiner eller nukleinsyror för vilka sekvensen är känd, med hjälp av anpassning. Med hjälp av BLAST kan forskaren jämföra sekvensen han har med sekvenser från databasen och hitta den som liknar den givna, vilket kommer att vara de förmodade homologerna.
Implementeringen av detta verktyg i AmiGO 1 presenteras i form av WU-BLAST-paketet utvecklat av Washington University i St. Louis (Washington University i St. Louis). [tjugo]
I AmiGO 2 har detta verktyg (GO BLAST) tagits bort, men du kan använda sökningen i AmiGO 1 . Verktyget låter dig filtrera sökresultat efter genprodukt, databas, taxonomisk tillhörighet, GO-ordbok, OBO-anteckning.
TermmatrisTermmatris [21] (en matris av termer) är ett AmiGO-verktyg för att studera information om likheten mellan genproduktionen av termer. Resultatet av hans arbete är en matris, vars beståndsdelar är antalet genprodukter som kommenteras för ett visst par GO-termer. För att använda funktionen [21] måste du ange en lista med GO-identifierare för att se gemensamma annoteringar - antalet vanliga genprodukter annoterade av termpar. Det är möjligt att specificera specifika arter eller taxa. Färgläggningen av värmekartan kan göras i form av en gradering från svart till vitt, eller med hjälp av kartans standardpalett.
OBO-Edit [22] är en ontologiredigerare med öppen källkod utvecklad och underhållen av GO Consortium. Den är implementerad i Java och använder en grafbaserad metod för att visualisera och redigera ontologier. OBO-Edit har ett användarvänligt sök- och filtergränssnitt som låter dig visualisera och separera delmängder av GO-termer. Gränssnittet kan anpassas efter användarens preferenser. OBO-Edit låter dig också automatiskt skapa nya relationer baserat på befintliga relationer och deras egenskaper. Även om OBO-Edit utvecklades för biomedicinska ontologier, kan den användas för att visa och redigera vilken ontologi som helst.
PAINT [23] ( P hylogenetic Annotation and IN ference Tool ) är en JAVA- applikation som är en del av Reference Genome Annotation Project och är baserad på principen " transitiv annotering". Konceptet med transitiv annotering består i att tilldela den experimentellt etablerade funktionen av en gen till en annan, på grund av likheten mellan deras nukleotidsekvenser.
Med PAINT kan användaren utforska experimentella kommentarer för gener från en viss familj och använda denna information för att sluta sig till nya kommentarer för genfamiljemedlemmar som ännu inte har utforskats tillräckligt [3] . Med PAINT-verktyget kan du bygga en modell som skulle förklara arvet eller förlusten av en viss genfunktionalitet inom enskilda grenar av fylogenetiska träd . Nya anteckningar som genereras av denna modell kallas Inferred from Biological Ancestry (IBA) [1] .
Denna applikation är gratis tillgänglig för nedladdning på Github.