Plagiatanalys (definition av plagiat, upptäckt av plagiat) är datormetoder för att söka och upptäcka plagiat [1] .
Plagiat ( engelska plagiat ) är att använda, parafrasera och sammanfatta verket i någon form utan bekräftelse genom hänvisningar till källor och presentera det som eget verk [2] .
Plagiat är att låna någon annans arbete, vare sig det är avsiktligt eller oavsiktligt, som om det vore ens eget, för egen vinning [3] .
För närvarande finns det ett ganska stort antal tjänster och program som gör att du på något sätt kan upptäcka plagiat . Det finns också ett antal datorbaserade metoder för att upptäcka plagiat .
Plagiat har blivit ett allvarligt problem med tillkomsten av Internet . Väl på Internet blir kunskap allas egendom, det blir allt svårare och till och med omöjligt att respektera upphovsrätten [4] . Det blir gradvis svårare att identifiera den ursprungliga författaren.
Internets snabba utveckling, tillsammans med ökande datorkunskaper, bidrar till att plagiat tränger in på olika områden av mänsklig verksamhet: plagiat är ett akut problem inom utbildning, industri och vetenskapssamhället [5] .
Plagiat är ett brott. Detta vilseleder läsarna, skadar författaren och ger oförtjänta fördelar för plagiatören [6] .
Bred tillgång till inhemsk och utländsk litteratur, en flerfaldig ökning av antalet professionella publikationer, publikationer på Internet - allt detta omintetgör praktiskt taget alla redaktionella ambitioner att "verifiera" eller "etablera" äktheten och originaliteten hos de argument och fakta som används i manuskript föreslagna för publicering [7] .
Illustrationen visar klassificeringen av metoder för upptäckt av datorplagiat ur teknisk synvinkel.
Metoder kännetecknas av typen av likhetsbedömning.Global poängsättning använder stora delar av text eller ett dokument för att hitta övergripande likheter, medan lokala inmatningsmetoder kontrollerar ett begränsat textsegment.
För närvarande är det vanligaste tillvägagångssättet Fingerprinting :Från ett antal dokument väljs en uppsättning av flera delsträngar, som är "fingeravtrycken". Dokumentet i fråga kommer att jämföras med fingeravtryck för alla dokument i samlingen. Hittade matchningar med andra dokument indikerar vanliga delar av texten [8] .
Att kontrollera ett dokument med ordagrant textöverlappning är en klassisk strängjämförelse.Skanna efter misstänkta dokument i denna situation kräver att man beräknar och lagrar effektivt jämförbara representationer av alla dokument i referenssamlingen, som jämförs parvis. Vanligtvis används modeller som suffixträd eller suffixarray som har anpassats för att utföra denna uppgift i samband med upptäckt av datorplagiat. Delsträngsmatchning är dock inte en användbar lösning för att kontrollera stora samlingar av dokument (algoritmen utför i genomsnitt 2 timmars jämförelser, där h är längden på strängen som söks igenom) [9] .
Analys av "många ord"är en förenkling av representationen som används vid naturlig språkbehandling och informationssökning. I denna modell representeras texten som en oordnad uppsättning ord. Dokument representeras som en eller flera vektorer, som används för parvis likhetsberäkning [10] [11] [12] .
Citation är en datoriserad plagiatdetekteringsmetod designad för användning i vetenskapliga artiklar, som tillåter användning av citat och referensmaterial. Identifierar vanliga citat för två vetenskapliga artiklar.Ett citeringsmönster är en undersekvens som inte bara innehåller vanliga citat för två dokument, utan också liknande ordning och likhet med citat i texten, som är huvudkriterierna för att bestämma ett citeringsmönster [13] [14] [15] [16] .
Stylometri , eller studiet av språkstilar , är en statistisk metod för att identifiera författarskapet till anonyma dokument och för datoriserade kontroller av plagiat.Stylometriska modeller är byggda för olika fragment av text , passager som skiljer sig stilistiskt från andra. Och genom att jämföra modeller kan plagiat upptäckas [17] .
Till exempel analys baserad på sekvenser av orddelar . En metod för att dela upp texten i fragment av homogenitet övervägs. Olika sekvenser av delar av tal tas som partitioneringsparametrar. Nästa steg är att analysera fragmenten. Och som ett resultat, för texten, hittas sekvenser som extraherar fragment från texterna, det vill säga algoritmen väljer fragment av heterogenitet från texten som har olika förekomstfrekvenser av den valda sekvensen av orddelar, vilket indikerar en ev. plagiat på denna plats [18] .
För närvarande finns det ett ganska stort antal tjänster och program som gör att du på något sätt kan identifiera lån. [19] Bland dessa är: Antiplagiarism-systemet , Advego Plagiatus, Unplag , miratools.ru, istio.com, Praide Unique Content Analyzer II, Plagiatinform, Copyscape .
System mot plagiatSystemet utvecklades av Forexis [20] . Systemet gör en onlinesökning genom ett stort antal dokument lagrade i systemets egen databas, genom partnerdatabaser, inklusive: Ryska statsbiblioteket, Scientific Electronic Library ELibrary.ru, Lexpro, samt genom användarens databas. "Anti-plagiat" söker på Internet med sina egna medel och är därför mindre effektivt än system som använder Yandex. xml. I den fria versionen av systemet finns endast en förkortad form av rapporten.
Advego Plagiatus-programmetProgrammet utför onlineverifiering med hjälp av sökmotorer [21] . Till skillnad från liknande system använder inte Advego Plagiatus Yandex.XML (en gratistjänst som låter dig göra automatiska sökfrågor för Yandex och publicera dess utdata på din resurs).
Programmet ger procentandelen textmatchning och visar de hittade källorna. Programmet konverterar inte bokstäver, det vill säga det finns ingen kasuskonvertering , ingen bearbetning och ändring av latinska bokstäver i ryska ord till liknande bokstäver i det ryska alfabetet för texter på ryska.
Det finns heller inget stöd för att söka i din egen databas; på grund av arbetets art uppstår situationer då resultatet av kontrollen skiljer sig från tid till annan.
Unplag serviceTjänsten Unplag plagiatkontroll [22] kan söka efter plagiat både i realtid online och jämföra dokumentet med den sparade dokumentdatabasen i användarens bibliotek. Stöder arbete med olika typer av dokument. Det finns personliga och företagsprogram. Fungerar även med kurshanteringssystem Moodle , Canvas, Blackboard, Sakai .
Tjänst www.miratools.ruTjänsten låter dig kontrollera texten för plagiat online [23] . Systemet använder resultaten av utfärdandet av sökmotorer. Det är möjligt att ersätta engelska bokstäver med ryska. Det är också möjligt att ändra längden och stigningen på singeln som används för verifiering. Baserat på resultatet av kontrollen anges andelen matchningar och de hittade källorna. Systemet fungerar inte med en egen databas, det finns en begränsning på längden på texten på 3000 tecken och en begränsning på antalet kontroller per dag.
Tjänst www.istio.comTjänsten kontrollerar texten för förekomst av lånat innehåll med hjälp av sökmotorerna Yandex.XML och Yahoo.com. [24] . Baserat på resultatet av kontrollen visas ett meddelande om huruvida texten är unik eller inte, och en lista med liknande webbplatssidor visas. Tjänsten tillhandahåller ytterligare verktyg för textanalys, såsom stavningskontroll, analys av de vanligaste orden etc. Systemet har inte bokstavskonvertering och sökning i en egen databas.
Praide Unique Content Analyzer IIProgrammet kontrollerar texter med hjälp av sökmotorer [25] . Det är möjligt att välja sökmotorer som används, innehåller möjligheten att lägga till nya sökmotorer. Kontrollen utförs av bältros, vars längd kan ändras. Du kan ställa in antalet överlappande shingelord. En detaljerad rapport om kontrollen i varje sökmotor visas. Programmet ersätter inte bokstäver, bearbetar stoppord och stöder inte arbete med sin egen databas.
Plagiatinforma systemSystemet kontrollerar dokument för lån både i den lokala databasen och på Internet [26] . Systemet kan upptäcka plagiat i form av dokument sammansatta av "blandade" textstycken från flera källor. Kontroll kan göras med snabb eller djupsökning. Testresultaten presenteras i form av en visuell rapport. Det finns ingen bokstavsomvandling. Det finns ingen möjlighet till fri användning eller testning av systemet.
Copyscape tjänstCopyscape -systemet låter dig söka efter kopior av webbsidor på Internet [27] . Systemet returnerar en lista över webbsidor som har text som liknar innehållet. Tjänsten söker efter lånat innehåll med hjälp av Google och Yahoo!
Endast innehållet på webbsidan kontrolleras, det vill säga för att bestämma textens unikhet är det nödvändigt att publicera texten på webbplatsen och ange sidadressen i systemet. Utan registrering finns det en gräns för antalet kontroller per månad och antalet resultat som visas - 10 webbplatser. För registrerade användare finns det inga gränser för antalet kontroller och resultat, men varje förfrågan kostar 5 cent.
Upptäckten av plagiat (särskilt omskrivet) är ett aktivt studerat tekniskt och vetenskapligt problem. Tävlingar för automatisk upptäckt av plagiat hålls regelbundet inom ramen för PAN-initiativet [28] . Den första tävlingen för att identifiera plagiat i ryskspråkiga dokument hölls 2017 som en del av dialogkonferensen om beräkningslingvistik [29] .