SMILES ( Simplified Molecular Input Line Entry System , från engelska - "a system of simplified representation of molecules in the input line") är ett system av regler (specifikation) för en entydig beskrivning av en kemisk molekyls sammansättning och struktur med hjälp av en ASCII teckensträng . Namnet på engelska är en homonym för ordet smiles ( smiles ), men det skrivs bara med versaler. Den har ingen entydig analog på ryska, det rekommenderas att använda den på originalspråket. Uttalas som "smiley".
En sträng av tecken, sammanställd enligt reglerna för SMILES, kan konverteras av många molekylära redaktörer till en tvådimensionell eller tredimensionell strukturformel för en molekyl .
Den ursprungliga SMILES-specifikationen utvecklades av Arthur Weininger och David Weininger i slutet av 1980-talet [1] . Standarden har sedan dess modifierats och utökats; Daylight Chemical Information Systems, Inc. tog den mest aktiva delen i detta arbete . .
Andra radnotationer inkluderar Wiswesser (WLN), SMARTS , ROSDAL och Sybyl Line Notation ( Tripos Inc. ). Nyligen föreslog IUPAC InChI som en standard för linjär representation av formler. SMILES har fördelar jämfört med InChI, i synnerhet en bättre uppfattning om formler av en person, samt enklare mjukvarustöd på grund av närvaron av en omfattande teoretisk basgrafteori .
Den ursprungliga SMILES-specifikationen saknade regler för hur notationen konstruerades och hur de rumsliga isomererna av molekyler särskiljdes. För att lösa dessa problem har tillägg till standarden utvecklats:
I termer av grafteorin är SMILES en sträng som erhålls genom att skriva ut symbolerna för hörn av en molekylär graf i den ordning som motsvarar deras genomgång av djupet-första . Den initiala bearbetningen av grafen inkluderar avlägsnande av väteatomer och enkelbindningar, och bryta upp cyklerna så att den resulterande grafen är en spännande skog . Platserna där grafen är delad tilldelas nummer som indikerar närvaron av en bindning i den ursprungliga molekylen. Parenteser används för att indikera grenpunkterna för en molekyl .
Atomer betecknas med symbolerna för kemiska grundämnen inom hakparenteser , till exempel betecknas guld[Au] som . För organogena grundämnen ( B , C , N , O , P , S , F , Cl , Br , I ) kan parentesen utelämnas. I detta fall kan väteatomer explicit utelämnas om deras antal motsvarar den minsta normalvalensen i enlighet med explicit specificerade bindningar. Atomer i aromatiska ringar skrivs vanligtvis med små bokstäver istället för stora bokstäver, även om vissa dialekter av SMILES använder en explicit växling av dubbel- och enkelbindningar (som i Kekules strukturformel för bensen ). Om det är nödvändigt att ange partikelns formella laddning skrivs väteatomerna och laddningssymbolen explicit [3] . Isotoper skrivs inom hakparenteser med atomvikten framför atomsymbolen, till exempel skulle 13 C-isotopen skrivas som . [13C]
Till exempel skulle SMILES-posten för vatten vara O, för etanol skulle det vara CCO. Hydroxylanjonen skrivs , och järn(II)[OH-] jonen som . [Fe+2]
En enkel kemisk bindning kan skrivas med symbolen -mellan de bundna atomerna, men i praktiken används inte detta, bindestrecket utelämnas. Den aromatiska bindningsbeteckningen ( : ) är också vanligtvis utelämnad. En dubbelbindning betecknas med likhetstecken , till exempel skrivs koldioxid som O=C=O. En trippelbindning betecknas med en octotorpe , till exempel skrivs cyanväte som C#N.
Molekylens sidokedjor är inneslutna inom parentes . Till exempel skrivs propionsyraCCC(=O)O som . Den kanoniska formen av trifluormetan ser ut som C(F)(F)F, men en sådan notation är obekväm att läsa på grund av dess överbelastning av parenteser, så samma molekyl kan skrivas i en icke-kanonisk form som FC(F)F.
Atomerna som finns i ändarna av bindningen som bryts under byggandet av den spännande skogen betecknas med samma nummer. Till exempel skrivs cyklohexanC1CCCCC1 som , och bensen skrivs som c1ccccc1.
Dubbelbindningskonfiguration skrivs med / och \ . Till exempel F/C=C/Fmotsvarar trans - difluoretylen , och F/C=C\Feller F\C=C/Fmotsvarar cis -difluoreten (se fig.).
SMARTS är en modifiering av SMILES som tillåter användning av en oordnad struktur av atomer och bindningar. Används i stor utsträckning i sökmotorer i databaser över ämnen. Användningen av tillämpningen har orsakat en vanlig missuppfattning att i datorsökning efter strukturer jämförs kedjeposter, medan en mycket mer produktiv jämförelse av grafer byggda på basis av SMILES-formler utförs.
SMILES-formeln kan konverteras till en tvådimensionell strukturformel med hjälp av Structure Diagram Generation-algoritmerna utvecklade av Helson [4] . Förvandlingen ger inte alltid ett entydigt resultat. Omvandlingen till en tredimensionell strukturformel utförs med hjälp av principen om minsta energi för ämnesbildning.
Molekylär visualisering | |||||
---|---|---|---|---|---|
Kemiska formler |
| ||||
Molekylära modeller |
| ||||
Övrig |
Strukturkemi | |
---|---|
kemisk bindning | |
Strukturdisplay | |
Elektroniska egenskaper | |
Stereokemi |