Trigram är ett specialfall av n-gram , där n är lika med 3. De används ofta i naturlig språkbehandling för att utföra statistisk analys av texter, och i kryptografi för att kontrollera och utnyttja chiffer och koder.
Sammanhanget är mycket viktigt, variation i rangordningar och procentandelar av analys kan lätt utläsas från olika urvalsstorlekar, olika författare; eller olika typer av dokument: poesi, science fiction, teknisk dokumentation; och skrivarnivåer: berättelser för barn mot vuxna, militära order och recept. [1] [2]
En typisk kryptoanalytisk frekvensanalys visar att de 16 vanligaste teckennivåtrigrammen på engelska är:
Plats [2] | trigram | Frekvens [3] (olika källor) |
---|---|---|
ett | de | 1,81 % |
2 | och | 0,73 % |
3 | tha | 0,33 % |
fyra | ent | 0,42 % |
5 | ing | 0,72 % |
6 | Jon | 0,42 % |
7 | tio | 0,31 % |
åtta | för | 0,34 % |
9 | nde | |
tio | har | |
elva | nce | |
12 | edt | |
13 | tis | |
fjorton | ofta | 0,22 % |
femton | sth | 0,21 % |
16 | män |
Eftersom krypterade telegrafmeddelanden ofta utelämnar skiljetecken och mellanslag, inkluderar kryptografisk frekvensanalys av sådana meddelanden trigram som korsar ordgränser. Detta gör att trigram som "edt" förekommer ofta, även om de kanske aldrig förekommer i något av orden i dessa meddelanden. [fyra]
Meningen " Den snabba rödräven hoppar över den lata bruna hunden " har följande trigram på ordnivå:
snabb röd snabb rödräv rödräv hoppa räv hoppa över hoppa över över de lata den lata bruna lat brun hundOch trigram på ordnivå "den snabba röda" har följande trigram på teckennivå (där understrecket "_" står för mellanslag):
de han_ e_q _qu qui uic ick ck_ k_r _re rödnaturlig språkbehandling | |
---|---|
Allmänna definitioner | |
Textanalys |
|
Refererar |
|
Maskinöversätta |
|
Identifiering och datainsamling | |
Tematisk modell | |
Peer review |
|
Naturligt språkgränssnitt |