Proteinfamilj

En proteinfamilj  är en grupp av evolutionärt besläktade proteiner som delar en homolog aminosyrasekvens . Denna term är nästan synonym med termen "genfamilj", eftersom om proteiner har homologa aminosyrasekvenser, så måste generna som kodar för dem också visa en betydande grad av homologi i DNA - nukleotidsekvenserna . Denna term bör inte förväxlas med termen " familj " i taxonomin för arter av levande organismer .


Användning av terminologi

Som med många andra biologiska termer är användningen av en proteinfamilj starkt kontextberoende: den kan hänvisa till en stor grupp av proteiner med subtil primär sekvenshomologi, eller en mycket smal grupp av proteiner med nästan samma primära struktur, funktion och tredimensionell organisation eller något annat mellanliggande fall. För att skilja mellan dessa två extrema situationer introducerade Dyhoff konceptet med en proteinsuperfamilj [1] [2] [3] . Med tiden myntades sådana begrepp som klass , grupp , klan och underfamilj , men de led alla samma tvetydiga öde. I vanlig användning förstås en superfamilj (strukturell homologi) innehålla familjer (primär sekvenshomologi) som innehåller subfamiljer. Därför har en superfamilj såsom PA-proteasklanen en lägre nivå av konserverade sekvenser än en av dess medlemsfamiljer, såsom C04-familjen. Det verkar osannolikt att en exakt definition med tydliga kriterier kommer att dyka upp inom en snar framtid, och därför måste läsaren själv bestämma hur man exakt ska förstå dessa termer i varje specifikt sammanhang.

.

Proteindomäner och motiv

Konceptet med en proteinfamilj uppstod vid en tidpunkt då det fortfarande fanns väldigt få proteiner med en känd primär och tertiär struktur; huvudsakligen små, endomänproteiner som myoglobin , hemoglobin och cytokrom c har undersökts . Sedan dess har många proteiner visat sig innehålla många strukturellt och funktionellt oberoende enheter eller domäner . På grund av rekombinationen av gener som inträffade under evolutionen utvecklades olika domäner oberoende av varandra. Av denna anledning har under senare år mer och mer uppmärksamhet ägnats åt proteindomänfamiljer. Ett antal onlineresurser ägnas åt att definiera och katalogisera sådana domäner (se listan i slutet av artikeln).

Delarna av varje protein har olika strukturella begränsningar (det vill säga strukturella egenskaper som är nödvändiga för att upprätthålla proteinets struktur och funktion). Till exempel, för funktionen av det aktiva stället för ett enzym , är det nödvändigt att vissa aminosyrarester är mycket exakt lokaliserade i förhållande till varandra i tredimensionellt utrymme. Å andra sidan kan interaktion mellan protein och protein ske över en stor yta och begränsas av aminosyrornas hydrofobicitet eller hydrofilicitet . Funktionellt viktiga delar av proteiner utvecklas långsammare än icke-konserverade regioner såsom ytslingor och ger upphov till block av konserverade sekvenser. Sådana block brukar kallas motiv . Liksom i det föregående fallet ägnas ett antal onlineresurser åt deras definition och katalogisering.

Utveckling av proteinfamiljer

Enligt nuvarande idéer kan proteinfamiljer bildas på två sätt. I det första fallet är föräldraarten uppdelad i två genetiskt isolerade efterkommande arter, vilket tillåter genen/proteinet att oberoende ackumulera variationer ( mutationer ) i dessa två linjer. Som ett resultat bildas en familj av ortologa proteiner, vanligtvis med ett gemensamt konserverat motiv. Det andra sättet är genduplicering och utseendet på en paralog . Eftersom den första kopian av genen fortfarande kan utföra sin funktion är duplikatet fritt att förändras och förvärva nya funktioner (genom slumpmässiga mutationer). Vissa familjer av gener/proteiner, särskilt i eukaryoter , genomgår betydande kopiering eller reduktion under evolutionen, ibland tillsammans med en fördubbling av hela genomet.

Betydelsen av proteinfamiljer

När det totala antalet proteiner med en känd struktur ökar, och när intresset för proteomisk analys ökar, görs försök att organisera proteiner i familjer och beskriva deras domäner och motiv. Tillförlitlig identifiering av proteinfamiljer är avgörande för fylogenetisk analys, bestämning av proteinfunktion och studie av mångfalden av proteinfunktioner i en given fylogenetisk grupp. Enzyme Function Initiative (EFI) använder proteinfamiljer och superfamiljer som grund för att skapa en strategi för storskalig taxonomisk distribution av enzymer med okänd funktion [4] .

Algoritmiska metoder för att etablera en proteinfamilj är baserade på konceptet likhet. För det mesta är den enda likheten vi har tillgång till primär strukturhomologi.

Resurser för proteinfamiljer

Det finns många biologiska databaser dedikerade till proteinfamiljer som gör att du snabbt kan avgöra om ett nyupptäckt och identifierat protein är medlem i en redan känd proteinfamilj. Särskilt:

Det finns också specialiserade sökmotorer:

Se även

Anteckningar

  1. Dayhoff MO Datoranalys av proteinsekvenser.  (engelska)  // Federation procedures. - 1974. - Vol. 33, nr. 12 . - P. 2314-2316. — PMID 4435228 .
  2. Dayhoff MO , McLaughlin PJ , Barker WC , Hunt LT Utveckling av sekvenser inom proteinsuperfamiljer  // Die Naturwissenschaften. - 1975. - April ( vol. 62 , nr 4 ). - S. 154-161 . — ISSN 0028-1042 . - doi : 10.1007/BF00608697 .
  3. Dayhoff MO Ursprunget och utvecklingen av proteinsuperfamiljer.  (engelska)  // Federation procedures. - 1976. - Vol. 35, nr. 10 . - s. 2132-2138. — PMID 181273 .
  4. Gerlt John A. , Allen Karen N. , Almo Steven C. , Armstrong Richard N. , Babbitt Patricia C. , Cronan John E. , Dunaway-Mariano Debra , Imker Heidi J. , Jacobson Matthew P. , Minor Wladek , Poulter C. Dale , Raushel Frank M. , Sali Andrej , Shoichet Brian K. , Sweedler Jonathan V. The Enzyme Function Initiative  //Biochemistry. - 2011. - 22 november ( vol. 50 , nr 46 ). - S. 9950-9962 . — ISSN 0006-2960 . doi : 10.1021 / bi201312u .
  5. Gandhimathi A. , Nair AG , Sowdhamini R. PASS2 version 4: en uppdatering av databasen med strukturbaserade sekvensanpassningar av strukturella domänsuperfamiljer.  (engelska)  // Nukleinsyraforskning. - 2012. - Vol. 40.-P. D531-534. doi : 10.1093 / nar/gkr1096 . — PMID 22123743 .