Genontologi

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 30 september 2017; kontroller kräver 15 redigeringar .

"Gene Ontology" ( Eng.  Gene Ontology , eller GO ) är ett bioinformatikprojekt tillägnat skapandet av en enhetlig terminologi för annotering av gener och genprodukter från alla biologiska arter [1] .

Målet med projektet är att upprätthålla och fylla på en viss lista med attribut för gener och deras produkter, sammanställa kommentarer av gener och produkter, utveckla verktyg för att arbeta med projektdatabasen , samt för att analysera nya experimentella data, i synnerhet analysera representationen av funktionella grupper av gener . Det är värt att notera att GO-projektet skapade ett märkningsspråk för att klassificera data (information om gener och deras produkter, det vill säga RNA och proteiner, samt deras funktioner), vilket gör att du snabbt kan hitta systematisk information om genprodukter [2 ] [3] [4] .

"Gene Ontology" är en del av ett större klassificeringsprojekt - "Open Biomedical Ontologies" ( OBO ) [5] .

Historik och nuvarande tillstånd

Ontologier inom datavetenskap används för att formalisera vissa kunskapsområden med hjälp av ett system av data om verkliga objekt och relationer mellan dem (den så kallade kunskapsbasen ). Inom biologi och närliggande discipliner har problemet med avsaknaden av en universell standard för terminologi uppstått. Termer som uttrycker liknande begrepp , men som används för olika biologiska arter , olika forskningsområden, eller till och med inom olika grupper av forskare, kan ha fundamentalt olika betydelser, vilket gör datautbytet svårt. I detta avseende var uppgiften för Gene Ontology-projektet att skapa en ontologi av termer som återspeglar egenskaperna hos gener och deras produkter och är tillämpliga på alla organismer [2] [3] [4] .

"Gene Ontology" skapades 1998 av ett konsortium av forskare som studerade genomen av tre modellorganismer : Drosophila melanogaster (fruktfluga), Mus musculus (mus) och Saccharomyces cerevisiae (bagerijäst) [6] . Sedan dess har många databaser för andra modellorganismer anslutit sig till GO-konsortiet, och bidragit därmed inte bara till utbyggnaden av anteckningsdatabasen, utan också till skapandet av tjänster för visning och tillämpning av data.

GO Consortium ( GOC ) är en uppsättning biologiska databaser och forskargrupper som är aktivt involverade i Gene Ontology-projektet [7] . Den innehåller flera databaser för olika modellorganismer, allmänna proteindatabaser, mjukvaruutvecklingsteam och Gene Ontology-redaktörer.

Gene Ontology är ett storskaligt och snabbt utvecklande projekt. Från och med september 2011 innehöll Gene Ontology mer än 33 tusen termer och cirka 12 miljoner anteckningar av genprodukter tillämpliga på mer än 360 tusen levande organismer [2] . Efter 2016 översteg antalet termer 44 tusen exemplar, medan antalet organismer som kommenterades i denna kunskapsbas översteg 460 tusen individer [3]

Under de senaste åren har GO-konsortiet implementerat ett antal ontologiförändringar för att öka kvantiteten, kvaliteten och specificiteten hos GO-anteckningar. År 2013 översteg antalet anteckningar 96 miljoner. Kvaliteten på anteckningar har förbättrats genom automatiska kvalitetskontroller. Anteckningen av data som presenteras i GO-databasen har också förbättrats, nya termer har lagts till. [4] . 2007 skapades en ny tjänst InterMine [8] , som syftar till att integrera genomisk data från ett stort antal olika källor, och underlätta beräkningsuppgifter som att söka efter specifika genomiska regioner och utföra statistiska tester. Projektet skapades ursprungligen för att integrera data för Drosophila, men omfattar nu ett stort antal modellorganismer. Under de senaste åren har utvecklingen av LEGO-tjänsten (Linked Expressions using the Gene Ontology) pågått, som låter dig utforska interaktionen mellan olika anteckningar i GO-databasen, kombinera dem till mer allmänna modeller av gener och deras funktioner [3 ] .

Struktur och termer

Det bör förstås att "genontologi" beskriver komplexa biologiska fenomen, och inte specifika biologiska objekt. Gene Ontology-databasen innehåller tre oberoende ordböcker [1] [9] :

Varje term i "Gene Ontology" har ett antal attribut: en unik digital identifierare, ett namn, en ordbok som termen tillhör och en definition. Termer kan ha synonymer, som är uppdelade i exakt motsvarande betydelsen av termen, bredare, smalare och har någon relation till termen. Attribut som länkar till källor, andra databaser och kommentarer om betydelsen och användningen av termen [1] [9] kan också förekomma .

Ontologin bygger på principen om en riktad acyklisk graf : varje term är kopplad till en eller flera andra termer genom en annan typ av relation . Det finns följande typer av relationer [1] :

Ett exempel på en av GO-projekttermerna [10] :

id: GO:0043417 namn: negativ reglering av skelettmuskelvävnadsregenerering namnutrymme: biologisk_process def: "Varje process som stoppar, förhindrar eller minskar frekvensen, hastigheten eller omfattningen av skelettmuskelregenerering." [GOC:jl] synonym: "nedreglering av skelettmuskelregenerering" EXAKT [] synonym: "nedreglering av skelettmuskelregenerering" EXAKT [] synonym: "nedreglering av skelettmuskelregenerering" EXAKT [] synonym: "hämning av skelettmuskelregenerering" SMAL [] is_a:GO:0043416 ! reglering av skelettmuskelvävnadsregenerering is_a: GO:0048640 ! negativ reglering av utvecklingstillväxt relation: negativt_reglerar GO:0043403 ! regenerering av skelettmuskelvävnad

Gene Ontology-databasen modifieras och kompletteras ständigt av både curatorerna för GO-projektet och andra forskare. Föreslagna användarändringar granskas av projektredaktörer och tillämpas om ändringarna godkänns [9] .

Filen som innehåller hela databasen [10] kan erhållas i olika format från den officiella Gene Ontology-webbplatsen, och termerna är också tillgängliga online med hjälp av webbläsaren AmiGO Gene Ontology. Dessutom kan den användas för att extrahera en datamatris av genprodukter relaterade till en viss term. På webbplatsen kan du också ladda ner kartor över GO-termernas överensstämmelse med andra klassificeringssystem [11] .

Anteckningar

Genomannotering syftar till att få information om genprodukters egenskaper. GO-anteckningar använder termerna "Gene Ontology" för detta. Medlemmar i GO-konsortiet publicerar sina kommentarer på Gene Ontology-webbplatsen, där annoteringarna är tillgängliga för direkt nedladdning eller för visning i AmiGO-webbläsaren [12] .

Genanteckningen innehåller följande data: namn och identifierare för genprodukten; motsvarande GO-term; vilken typ av  data anteckningen är baserad på ( beviskod ); länk till källan; och skaparen och datumet då anteckningen skapades. För datatyper som indikerar giltigheten av en annotering ( beviskod ) finns en speciell ontologi relaterad till OBO- projektet [13] . Den innehåller olika anteckningsmetoder, både manuella och automatiska. Till exempel [1] :

Från och med september 2012 erhölls mer än 99% av alla Gene Ontology-anteckningar automatiskt [4] . Eftersom sådana kommentarer inte verifieras manuellt anses de vara mindre tillförlitliga av GO-konsortiet och endast en bråkdel av dem är tillgängliga i AmiGO-webbläsaren. Hela databasen med kommentarer kan laddas ner från Gene Ontologys webbplats.

AmiGO

AmiGO [9]  är en webbapplikation (GO-tjänst) som tillåter användare att fråga, hitta och visualisera GO-termer och genproduktkommentarer. Dessutom innehåller applikationen verktyget BLAST (tillgängligt i AmiGO 1, togs bort i AmiGO 2), tjänster som låter dig analysera stora datamängder och ett gränssnitt för att söka direkt i GO-databasen [14] . AmiGO kan användas online på Gene Ontology-webbplatsen för att komma åt data som tillhandahålls av GO-konsortiet, eller så kan den laddas ner och installeras för lokal applikation till vilken GO-liknande databas som helst. AmiGO 2 är öppen källkod och fri programvara .

Datautforskning

Visualisering

Visualisering ger användaren möjlighet att bygga en graf som karakteriserar genontologin för en specifik GO-term. Det finns två inmatningsformat [15] :

  • Standardformatet är en lista med id GO-termer (till exempel GO:1234567) separerade med ett mellanslag.
  • Avancerat format - beskrivning av noder i en graf i JSON-format (JavaScript Object Notation). Beroende på det föreskrivna formatet kan innehållet i noden ändras (lägga till ytterligare kommentarer, ändra färger, etc.)

JSON-inmatningsexempel:

{"GO:0002244":{"title": "foo", "body": "bar", "fill": "#ccccf", "font": "#0000ff", "border":"röd"}, "GO:0005575":{"title":"ensam", "kropp":""}, "GO:0033060":{}}

Koda en relation med färg:

Attityd Färg
är en blå
del av ljusblå
utvecklas_från brun
reglerar svart
negativt_reglerar röd
positivt_reglerar grön

Termvisualisering består av att bygga en graf från en nod som representerar den ursprungliga GO-termen till en rotnod, som representeras av namnet på en av de tre huvudvokabulärerna: biologiska processer , molekylära funktioner och cellulära komponenter [1] [9] .

Dataöversikt

Förutom möjligheten att skapa grafer som visar GO-genontologin för en term, implementerar AmiGO även flera verktyg som kan ge användaren en uppfattning om projektets GO-data. Bland dem [14] :

  • Grundläggande statistik - information om GO-data i form av olika histogram (till exempel fördelningen av annoteringar och deras natur (experimentell / icke-experimentell) i förhållande till olika typer av levande organismer). Implementerat med hjälp av tjänsten Plotly.
  • Drill-down webbläsare - låter dig utforska ontologier och kommentarer, flytta genom hierarkin, från en hög nivå. Detta verktyg låter dig använda olika filter.
  • Sökmallar - ett gränssnitt som är rutor för att mata in data och utföra typiska frågor till GO-databasen för dem.

GÅS

GOOSE [16] är en SQL - frågemiljö online tillgänglig för användare av AmiGO-tjänsten för att skapa datamängder. Den här tjänsten använder SQL-syntax för att göra olika frågor till GO-databasen. EBI (UK, Cambridge), Berkeley BOP och Berkeley BOP (lite) speglar (båda belägna i Berkeley, Kalifornien) finns också tillgängliga för att minska systembelastningen.

Förutom att direkt skriva en fråga manuellt är det möjligt att använda mallar för att delvis förenkla denna uppgift. En typisk databasfråga visas nedan (sök efter maximalt träddjup för en cellulär komponent) [16] :

VÄLJ avstånd som max från graph_path, term WHERE graph_path.term2_id =term.id och term.term_type = 'cellulär_komponent' BESTÄLL PÅ avstånd besk limit1;

Databasen i GO har en komplex struktur och består av många tabeller. Huvuddatabaser [16]  :

  • termdb är en databas som innehåller information om GO-termer och relationer mellan dem.
  • assocdb är en databas som innehåller GO-ordförråd och kommentarer mellan GO-termer och genprodukter. Denna databas är beroende av termdb.
  • seqdb är en databas som innehåller GO-termer, genprodukter och sekvenser som är kommenterade med dessa genprodukter. Beror på termdb och assocdb. Dessutom har databasen seqbdlite implementerats, där det inte finns några IEA-kommentarer.

Följande dataexportformat är möjliga som ett resultat av en fråga [16] :

  • .rdf-xml
  • .obo-xml
  • .owl-OWL
  • .tabeller
  • .sql

Dataanalys

PANTHER

PANTHER ( P rotein  Analysis TH rough Evolutionary R elationships ) är en enorm databas med gen/proteinfamiljer och underfamiljer som är funktionellt lika dem, som kan användas för att klassificera det funktionella spektrumet av genprodukter [ 17] . PANTHER är en del av GO-projektet, vars huvudmål är klassificeringen av proteiner och deras gener.

I PANTHER redigeras databasen inte bara av projektpersonalen utan också av klassificeringsalgoritmerna. Proteiner klassificeras enligt deras familj (och underfamilj), molekylär funktion eller biologisk process [17] .

Den huvudsakliga tillämpningen av PANTHER är att belysa funktionerna hos oförklarade gener i alla organismer baserat på deras evolutionära relationer med gener vars funktioner är kända i databasen. Med hjälp av genfunktioner, ontologi och statistiska analysmetoder tillåter PANTHER biologer att analysera stora data, hela genom erhållna genom sekvensering eller genuttrycksstudier [18] .

De viktigaste verktygen som finns tillgängliga på PANTHER-webbplatsen [18] är:

  • Genlistaanalys:
    • Funktionsanalys av gener och deras klassificering - inkluderar information om geners familj och underfamilj, deras molekylära funktion, de biologiska processer som de är involverade i, om de cellulära komponenterna där de kan hittas. Dessa data kan presenteras både i form av en lista och i form av ett cirkeldiagram.
    • Statistiska tester (överrepresentationstest och anrikningstest) är utformade för att hitta de allmänna biologiska funktionerna hos gener som skickas in för inmatning av användaren.
  • Studie av dataontologi, annoteringar mellan termer och familjer, PANTHER-underfamiljer.
  • Sök efter proteinsekvenser i PANTHER-bibliotek
  • Analys av singelnukleotidpolymorfismer (cSNP) är en bedömning av sannolikheten för en icke-synonym singelnukleotidmutation att ändra den funktionella aktiviteten hos en gen.
GO Slimmer

GO Slimmer [19]  är ett verktyg för att kartlägga detaljerade genuppsättningsannoteringar till en eller flera föräldratermer på högre nivå (GO slim-termer). GO slim-termer är trunkerade versioner av GO-ontologin som innehåller en delmängd av termerna för hela GO utan en detaljerad beskrivning av specifika lågnivåtermer.

Användningen av GO Slimmer gör det möjligt att presentera GO-genomnoteringar, analysera resultaten av expressionsmikroarrayer eller kompletterande DNA-samlingar när en omfattande klassificering av genproduktfunktioner behövs [19] .

Resultatet av denna algoritm representeras av tre kolumner [19] :

  • GO Slim sikt
  • Antalet genprodukter som hittas i frågan som matchar den givna smala termen.
  • Termens placering i de tre huvuddelarna av GO-ontologin: biologisk process (P), cellulär komponent (C) och molekylär funktion (F).

AmiGO-versionen av detta verktyg är skriven i Perl -skriptet map2slim [19] . Kuratorerna för projektet noterar att GO slimer-tjänsten för närvarande är laddad och indata av imponerande storlek kan påverka dess funktion negativt. Drifttiden för tjänsten för bearbetning av inmatningssekvenser är begränsad.

BLAST

BLAST ( Basic L local  Alignment Search Tool ) är en familj av datorprogram som används för att söka efter homologer av proteiner eller nukleinsyror för vilka sekvensen är känd, med hjälp av anpassning. Med hjälp av BLAST kan forskaren jämföra sekvensen han har med sekvenser från databasen och hitta den som liknar den givna, vilket kommer att vara de förmodade homologerna.

Implementeringen av detta verktyg i AmiGO 1 presenteras i form av WU-BLAST-paketet utvecklat av Washington University i St. Louis (Washington University i St. Louis). [tjugo]

I AmiGO 2 har detta verktyg (GO BLAST) tagits bort, men du kan använda sökningen i AmiGO 1 . Verktyget låter dig filtrera sökresultat efter genprodukt, databas, taxonomisk tillhörighet, GO-ordbok, OBO-anteckning.

Termmatris

Termmatris [21] (en matris av termer) är ett AmiGO-verktyg för att studera information om likheten mellan genproduktionen av termer. Resultatet av hans arbete är en matris, vars beståndsdelar är antalet genprodukter som kommenteras för ett visst par GO-termer. För att använda funktionen [21] måste du ange en lista med GO-identifierare för att se gemensamma annoteringar - antalet vanliga genprodukter annoterade av termpar. Det är möjligt att specificera specifika arter eller taxa. Färgläggningen av värmekartan kan göras i form av en gradering från svart till vitt, eller med hjälp av kartans standardpalett.

OBO-Redigera

OBO-Edit [22]  är en ontologiredigerare med öppen källkod utvecklad och underhållen av GO Consortium. Den är implementerad i Java och använder en grafbaserad metod för att visualisera och redigera ontologier. OBO-Edit har ett användarvänligt sök- och filtergränssnitt som låter dig visualisera och separera delmängder av GO-termer. Gränssnittet kan anpassas efter användarens preferenser. OBO-Edit låter dig också automatiskt skapa nya relationer baserat på befintliga relationer och deras egenskaper. Även om OBO-Edit utvecklades för biomedicinska ontologier, kan den användas för att visa och redigera vilken ontologi som helst.

PAINT

PAINT [23] ( P hylogenetic  Annotation and IN ference Tool ) är en JAVA- applikation som är en del av Reference Genome Annotation Project och är baserad på principen " transitiv annotering". Konceptet med transitiv annotering består i att tilldela den experimentellt etablerade funktionen av en gen till en annan, på grund av likheten mellan deras nukleotidsekvenser.

Med PAINT kan användaren utforska experimentella kommentarer för gener från en viss familj och använda denna information för att sluta sig till nya kommentarer för genfamiljemedlemmar som ännu inte har utforskats tillräckligt [3] . Med PAINT-verktyget kan du bygga en modell som skulle förklara arvet eller förlusten av en viss genfunktionalitet inom enskilda grenar av fylogenetiska träd . Nya anteckningar som genereras av denna modell kallas Inferred from Biological Ancestry (IBA) [1] .

Denna applikation är gratis tillgänglig för nedladdning på Github.

Se även

Anteckningar

  1. 1 2 3 4 5 6 7 du Plessis L., Skunca N., Dessimoz C. Genontologins vad, var, hur och varför — en primer för bioinformatiker  //  Brief Bioinform. : journal. - 2011. - November ( vol. 12 , nr 6 ). - s. 723-735 . doi : 10.1093 / bib/bbr002 . — PMID 21330331 .
  2. 1 2 3 Genontologikonsortiet. The Gene Ontology: förbättringar för 2011.  //  Nucleic Acids Res. : journal. - 2012. - Januari ( vol. 40 , nr Databasnummer ). - P. D559-64 . doi : 10.1093 / nar/gkr1028 . — PMID 22102568 .
  3. 1 2 3 4 5 Gene Ontology Consortium. Utvidgning av Gene Ontology kunskapsbas och resurser  // Nucleic Acids Res  . : journal. - 2017. - Januari ( vol. 45 , nr D1 ). - P. D331-D338 . - doi : 10.1093/nar/gkw1108 .
  4. 1 2 3 4 Gene Ontology Consortium. Gene Ontology annotationer och resurser  // Nucleic Acids Res  . : journal. - 2013. - Januari ( vol. 41 , nr Databasnummer ). - P. D530-5 . - doi : 10.1093/nar/gks1050 . — PMID 23161678 .
  5. Smith B., Ashburner M., Rosse C., Bard J., Bug W., Ceusters W., Goldberg LJ, Eilbeck K., Ireland A., Mungall CJ, Leontis N., Rocca-Serra P., Ruttenberg A., Sansone SA, Scheuermann RH, Shah N., Whetzel PL, Lewis S. OBO Foundry: koordinerad utveckling av ontologier för att stödja biomedicinsk dataintegration  // Nature Biotechnology  : journal  . - Nature Publishing Group , 2007. - November ( vol. 25 , nr 11 ). - P. 1251-1255 . - doi : 10.1038/nbt1346 . — PMID 17989687 .
  6. Ashburner M., Ball CA, Blake JA, Botstein D., Butler H., Cherry JM, Davis AP, Dolinski K., Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L., Kasarskis A. , Lewis S., Matese JC, Richardson JE, Ringwald M., Rubin GM, Sherlock G. Genontologi: verktyg för enande av biologi. The Gene Ontology Consortium  (engelska)  // Nat. Genet.  : journal. - 2000. - Maj ( vol. 25 , nr 1 ). - S. 25-9 . - doi : 10.1038/75556 . — PMID 10802651 .
  7. GO-konsortiet . Tillträdesdatum: 9 maj 2014. Arkiverad från originalet 2 juli 2014.
  8. Richard N. Smith, Jelena Aleksic, Daniela Butano, Adrian Carr, Sergio Contrino. InterMine: ett flexibelt datalagersystem för integration och analys av heterogena biologiska data   // Bioinformatik . — 2012-12-01. — Vol. 28 , iss. 23 . - s. 3163-3165 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/bts577 . Arkiverad från originalet den 19 april 2018.
  9. 1 2 3 4 5 Carbon S., Ireland A., Mungall CJ, Shu S., Marshall B., Lewis S; AmiGO Hub; Arbetsgrupp för webbnärvaro. AmiGO: Onlineåtkomst till ontologi och anteckningsdata. (engelska)  // Bioinformatik: tidskrift. - 2008. - Januari ( vol. 25 , nr 2 ). - s. 288-289 . - doi : 10.1093/bioinformatics/btn615 . — PMID 19033274 .
  10. 1 2 GO-konsortiet. Gene Ontology-databas i .obo-format (OBO 1.2 platt fil). Hämtad 9 maj 2014. Arkiverad från originalet 6 oktober 2015.
  11. GO-konsortiet. Mappningar av externa klassificeringssystem till GO. (inte tillgänglig länk) . Hämtad 9 maj 2014. Arkiverad från originalet 25 juni 2014. 
  12. GO-konsortiet. sök annoteringar. . Hämtad 9 maj 2014. Arkiverad från originalet 16 mars 2014.
  13. De öppna biologiska och biomedicinska ontologierna: beviskoder. . Arkiverad från originalet den 26 november 2009.
  14. 1 2 AmiGO-guide. . Hämtad 9 maj 2014. Arkiverad från originalet 13 mars 2014.
  15. GO-konsortiet. Manuell visualisering . Hämtad 10 mars 2017. Arkiverad från originalet 12 mars 2017.
  16. 1 2 3 4 GO-konsortiet. Manuell GOOSE (nedlänk) . Hämtad 15 mars 2017. Arkiverad från originalet 6 juni 2017. 
  17. 1 2 Huaiyu Mi, Xiaosong Huang, Anushya Muruganujan, Haiming Tang, Caitlin Mills, Diane Kang och Paul D. Thomas. PANTHER version 11: utökad annoteringsdata från Gene Ontology och Reactome-vägar, och förbättringar av verktyg för dataanalys  //  Nucleic Acids Research : journal. - 2016. - 28 november ( vol. 45 , nr Databas ). - P. D183-D189 . - doi : 10.1093/nar/gkw1138 .
  18. 1 2 GO-konsortiet. Manuell PANTER . Hämtad 28 maj 2017. Arkiverad från originalet 28 juni 2017.
  19. 1 2 3 4 GO-konsortiet. Manuell GO Slimmer . Hämtad 28 mars 2017. Arkiverad från originalet 29 mars 2017.
  20. GO-konsortiet. Manuell GO BLAST . Hämtad 28 maj 2017. Arkiverad från originalet 12 september 2016.
  21. ↑ 1 2 Genontologikonsortium. AmiGO 2: Matrix  (engelska) . amigo2.berkeleybop.org. Tillträdesdatum: 4 april 2018.
  22. Day-Richter J., Harris MA, Haendel M., Gene Ontology OBO-Edit Working Group, Lewis S. OBO-Edit – en ontologiredaktör för biologer. (neopr.)  // Bioinformatik. - 2007. - Augusti ( vol. 23 , nr 16 ). - S. 2198-2200 . - doi : 10.1093/bioinformatics/btm112 . — PMID 17545183 .
  23. GO-konsortiet. Manuell PAINT . Hämtad 28 mars 2017. Arkiverad från originalet 29 mars 2017.

Länkar

  • Gene Ontology  är den officiella webbplatsen för projektet. (Engelsk)
  • AmiGO  är Gene Ontology Browser. (Engelsk)
  • PAINT  är en gratis applikation på Github. (Engelsk)
  • Term Matrix  är ett AmiGO-verktyg. (Engelsk)
  • BLAST  är ett AmiGO-verktyg. (Engelsk)
  • GO slimer  är ett AmiGO-verktyg. (Engelsk)
  • map2slim  - GO smalare skript. (Engelsk)
  • GO dataschema  - GO databasschema. (Engelsk)
  • Plotly  är en infografisk tjänst. (Engelsk)
  • Visualisering  är ett AmiGO-verktyg. (Engelsk)
  • Annotation Database  är en komplett annotationsdatabas. (Engelsk)