En textgenerator är ett datorprogram som genererar texter (slang för en liten flicka ), korrekt ur de flesta språknormers synvinkel , men som regel utan mening (i samband med vilka sådana program ibland kallas "vanföreställningar" generatorer", "generatorer av schizofasi ").
Ibland har läsaren genererat en sådan programtext (till exempel med hjälp av en Markov-kedja ) att det kan ge intryck av att denna text är meningsfull, särskilt om den har ett ämne som läsaren inte är bekant med. En del människor förstår till exempel inte filosofi och anser att någon filosofisk text som innehåller ett stort antal specifika termer är nonsens , så de kan inte avgöra den artificiella karaktären hos den pseudofilosofiska text som skrivits av programmet.
Det finns olika typer av textgeneratorer som skiljer sig åt i sina möjligheter (till exempel kan vissa av dem bilda nya ord på egen hand).
Jonathan Swift beskrev i Gullivers resor , medan han parodierade Raymond Lulls Ars magna , satiriskt en maskin från Lagado som genererade texter.
Textgenerering genom att komponera från helt slumpmässiga ord ger ett skräpresultat: meningslöst för en person och lätt att känna igen av textanalysatorer, och används därför inte. Generering baseras vanligtvis på manuellt skrivna mallfraser.
I de fall betydelsen av den genererade texten inte är viktig, är den sammansatt av en "blandning" av meningar från olika källtexter, eller från delar av meningar. Denna metod, tillsammans med mallar och synonymisering, används i chattbots och kommentarbots i sociala nätverk och bloggar. Sådana bots kopierar till samtalspartners fraser inspelade från andra chattar eller webbplatser. Mer avancerade chatbots sorterar fraser efter nyckelord , så deras svar ligger närmare ämnet för dialogen.
Ofta kombineras textgeneratorer med synonymiseringsprogram som automatiskt ändrar ord till synonymer för att skriva om och göra fraser unika. Ord som behöver ersättas i mallen med synonymer ersätts av makron .
Ju längre texten är, desto mer märkbar är onaturligheten i autoföreslagna synonymer. Därför, i texter "made for people" ( MDL ), kan synonymiserare endast användas för att skapa unika korta texter: titlar och ankare med nyckelord , kommentarer och stycken. Synonymiserare används mer framgångsrikt på engelska, som, till skillnad från ryska, har en enkel morfologi .
Synonymiseringstyper:
Dörröppningar "flyger ut" snabbt från sökresultaten på grund av den dåliga kvaliteten på deras texter. Därför försöker dörröppningsarbetare att generera text till ett minimum. Endast små fraser genereras slumpmässigt i olika delar av sidan, lämpliga i betydelse. Och textstycken tolkas i sin helhet från andra webbplatser med samma ämne, och eventuellt synonymiseras de, eller så används en "mash".
Ett antal företag utvecklar mer sofistikerad teknik. Syntaktiska strukturer skapas av orddelar och medlemmar i meningar, ord i ordböcker kategoriseras efter semantik, med deras ytterligare automatiska substitution i meningar. Men på grund av den extrema komplexiteten och volymen av arbetet, upphovsrätten till dessa utvecklingar och affärshemligheter (sådana system gör det i princip möjligt att skapa mycket lönsamma kommersiella projekt), kan vi knappast förvänta oss utseendet av kommunicerande robotar och översättningsrobotar under de kommande åren.
På denna utvecklingsnivå av datorteknik finns inga fritt tillgängliga textgeneratorer med relativt meningsfull text. Generatorer med en uppsättning nonsens ord eller formelfraser har en snäv räckvidd.
En av textgeneratorerna kan kallas den senaste nyheten i Yandex - Balaboba, som kan komplettera en given fras med högkvalitativa och läsbara fraser och till och med hela texter.
Många webbplatser förklarar i detalj hur denna tjänst fungerar.
Textgeneratorer används i stor utsträckning vid utveckling och sökmotoroptimering av webbplatser : för att generera titlar, beskrivningar och innehåll på hela webbplatser med hjälp av dorgens ( dörröppningsgeneratorer ).
Det finns stora engelskspråkiga sajter som tjänar pengar på reklam, där allt innehåll inte är skrivet av journalister, utan av bots - artiklar skrivs automatiskt om från andra källor. Exempel på sådana webbplatser: Demand Media och Associated Content [1] . Det ryska språket, till skillnad från engelska, har en komplex morfologi, så utseendet på sådana rewriter-bots i Runet är mycket komplicerat.
Material som skapas med hjälp av en textgenerator och används för sökmotoroptimering kräver ett obligatoriskt noggrant urval enligt unikhetskriteriet.[ förtydliga ] Detta val görs med hjälp av specialiserad programvara som har en annan verifieringsalgoritm.
Virtuella samtalspartners ( chatbots) är program utformade för att imitera kommunikation i chattrum . De används i stor utsträckning för att skicka spam på sociala nätverk (spam bots), såväl som autosvar som kan svara på många sökord i olika scenarier.
Eftersom personen samtidigt inte ser sin samtalspartner kan han få intrycket att han korresponderar med en levande person. Men ingen chatbot har ännu klarat Turing-testet , och program som använder textgeneratorer har det ännu svårare.
Masspropaganda och trolling i sociala nätverkI samband med utvecklingen av internetpropaganda och "cyberkrig" används bots i sociala nätverk för att massivt imitera den allmänna opinionen. När du skapar botar genereras deras namn och internetadresser automatiskt, och när de svarar, texten med kommentarer, vanligtvis provocerande, propaganda eller stötande innehåll.
Relativt allmänt känd på det rysktalande Internet var den sällsynta textgeneratorn, designad i form av ett php- skript . Under en tid användes den som en del av det satiriska internetprojektet "Gavgav Center", och sedan blev den utbredd som en robot för livetidningar, bloggar etc. Här är exempel på sekventiell generering av meddelanden av samma typ av denna robot:
Alla dina inlägg är en typisk kliché av falska insinuationer som försöker misskreditera och förlöjliga alla som börjar se klart och öppet tala om brottsligheten från den kriminella regimen. Sanningen om deras omänsklighet och det fascistiska väsen av den blodiga Kreml-regimen sticker ögonen på de blodiga Kreml-ghoulens idioter! Ett intressant inslag i detta forum är att Putinister huvudsakligen är engagerade i översvämningar eller diskussioner om personligheter, och ämnen om fördelarna med Rysslands problem, som detta, är rädda som fan. Det finns tillräckligt med utrymme i lögnaren där NKVD-fascister som du kan spendera sin tid , utan att vara tyngda av sanningen och analysen av Stalin- Putinismen . Det är därför jag tror att ni Putinister är moraliska degenererade. När allt kommer omkring förekommer inte den här typen av "diskussionsdeltagare" på de "tjetjenska" lögnarwebbplatserna som kontrolleras av Kreml och Yastrzembsky. Puti-Put och hans blodtörstiga daglönare kommer att svara för allt.
Dessa exempel visar att även en läsare som är insatt i de frågor som diskuteras kan ta meddelanden från en robot mot meddelanden från en riktig levande person, om än något upphöjd. Roboten i dessa meddelanden ges endast ut av en typisk struktur för att konstruera meningar och kombinera dem.
Det finns fall där textgeneratorer framgångsrikt har använts för att upptäcka dålig kvalitet (och ibland fullständig avsaknad) av peer review i vetenskapliga tidskrifter . SCIgen - programmet är särskilt känt i detta avseende .
naturlig språkbehandling | |
---|---|
Allmänna definitioner | |
Textanalys |
|
Refererar |
|
Maskinöversätta |
|
Identifiering och datainsamling | |
Tematisk modell | |
Peer review |
|
Naturligt språkgränssnitt |