Plagiat upptäckt

Plagiatanalys (definition av plagiat, upptäckt av plagiat) är datormetoder för att söka och upptäcka plagiat [1] .

Plagiat ( engelska  plagiat ) är att använda, parafrasera och sammanfatta verket i någon form utan bekräftelse genom hänvisningar till källor och presentera det som eget verk [2] .

Plagiat  är att låna någon annans arbete, vare sig det är avsiktligt eller oavsiktligt, som om det vore ens eget, för egen vinning [3] .

För närvarande finns det ett ganska stort antal tjänster och program som gör att du på något sätt kan upptäcka plagiat . Det finns också ett antal datorbaserade metoder för att upptäcka plagiat .

Problemet med plagiat

Plagiat har blivit ett allvarligt problem med tillkomsten av Internet . Väl på Internet blir kunskap allas egendom, det blir allt svårare och till och med omöjligt att respektera upphovsrätten [4] . Det blir gradvis svårare att identifiera den ursprungliga författaren.

Internets snabba utveckling, tillsammans med ökande datorkunskaper, bidrar till att plagiat tränger in på olika områden av mänsklig verksamhet: plagiat är ett akut problem inom utbildning, industri och vetenskapssamhället [5] .

Plagiat är ett brott. Detta vilseleder läsarna, skadar författaren och ger oförtjänta fördelar för plagiatören [6] .

Bred tillgång till inhemsk och utländsk litteratur, en flerfaldig ökning av antalet professionella publikationer, publikationer på Internet - allt detta omintetgör praktiskt taget alla redaktionella ambitioner att "verifiera" eller "etablera" äktheten och originaliteten hos de argument och fakta som används i manuskript föreslagna för publicering [7] .

Metoder för upptäckt av plagiat

Illustrationen visar klassificeringen av metoder för upptäckt av datorplagiat ur teknisk synvinkel.

Metoder kännetecknas av typen av likhetsbedömning.

Global poängsättning använder stora delar av text eller ett dokument för att hitta övergripande likheter, medan lokala inmatningsmetoder kontrollerar ett begränsat textsegment.

För närvarande är det vanligaste tillvägagångssättet Fingerprinting :

Från ett antal dokument väljs en uppsättning av flera delsträngar, som är "fingeravtrycken". Dokumentet i fråga kommer att jämföras med fingeravtryck för alla dokument i samlingen. Hittade matchningar med andra dokument indikerar vanliga delar av texten [8] .

Att kontrollera ett dokument med ordagrant textöverlappning är en klassisk strängjämförelse.

Skanna efter misstänkta dokument i denna situation kräver att man beräknar och lagrar effektivt jämförbara representationer av alla dokument i referenssamlingen, som jämförs parvis. Vanligtvis används modeller som suffixträd eller suffixarray som har anpassats för att utföra denna uppgift i samband med upptäckt av datorplagiat. Delsträngsmatchning är dock inte en användbar lösning för att kontrollera stora samlingar av dokument (algoritmen utför i genomsnitt 2 timmars jämförelser, där h är längden på strängen som söks igenom) [9] .

Analys av "många ord"är en förenkling av representationen som används vid naturlig språkbehandling och informationssökning. I denna modell representeras texten som en oordnad uppsättning ord. Dokument representeras som en eller flera vektorer, som används för parvis likhetsberäkning [10] [11] [12] .

Citation  är en datoriserad plagiatdetekteringsmetod designad för användning i vetenskapliga artiklar, som tillåter användning av citat och referensmaterial. Identifierar vanliga citat för två vetenskapliga artiklar.

Ett citeringsmönster är en undersekvens som inte bara innehåller vanliga citat för två dokument, utan också liknande ordning och likhet med citat i texten, som är huvudkriterierna för att bestämma ett citeringsmönster [13] [14] [15] [16] .

Stylometri , eller studiet av språkstilar ,  är en statistisk metod för att identifiera författarskapet till anonyma dokument och för datoriserade kontroller av plagiat.

Stylometriska modeller är byggda för olika fragment av text , passager som skiljer sig stilistiskt från andra. Och genom att jämföra modeller kan plagiat upptäckas [17] .

Till exempel analys baserad på sekvenser av orddelar . En metod för att dela upp texten i fragment av homogenitet övervägs. Olika sekvenser av delar av tal tas som partitioneringsparametrar. Nästa steg är att analysera fragmenten. Och som ett resultat, för texten, hittas sekvenser som extraherar fragment från texterna, det vill säga algoritmen väljer fragment av heterogenitet från texten som har olika förekomstfrekvenser av den valda sekvensen av orddelar, vilket indikerar en ev. plagiat på denna plats [18] .

Översikt över befintliga system

För närvarande finns det ett ganska stort antal tjänster och program som gör att du på något sätt kan identifiera lån. [19] Bland dessa är: Antiplagiarism-systemet , Advego Plagiatus, Unplag , miratools.ru, istio.com, Praide Unique Content Analyzer II, Plagiatinform, Copyscape .

System mot plagiat

Systemet utvecklades av Forexis [20] . Systemet gör en onlinesökning genom ett stort antal dokument lagrade i systemets egen databas, genom partnerdatabaser, inklusive: Ryska statsbiblioteket, Scientific Electronic Library ELibrary.ru, Lexpro, samt genom användarens databas. "Anti-plagiat" söker på Internet med sina egna medel och är därför mindre effektivt än system som använder Yandex. xml. I den fria versionen av systemet finns endast en förkortad form av rapporten.

Advego Plagiatus-programmet

Programmet utför onlineverifiering med hjälp av sökmotorer [21] . Till skillnad från liknande system använder inte Advego Plagiatus Yandex.XML (en gratistjänst som låter dig göra automatiska sökfrågor för Yandex och publicera dess utdata på din resurs).

Programmet ger procentandelen textmatchning och visar de hittade källorna. Programmet konverterar inte bokstäver, det vill säga det finns ingen kasuskonvertering , ingen bearbetning och ändring av latinska bokstäver i ryska ord till liknande bokstäver i det ryska alfabetet för texter på ryska.

Det finns heller inget stöd för att söka i din egen databas; på grund av arbetets art uppstår situationer då resultatet av kontrollen skiljer sig från tid till annan.

Unplag service

Tjänsten Unplag plagiatkontroll [22] kan söka efter plagiat både i realtid online och jämföra dokumentet med den sparade dokumentdatabasen i användarens bibliotek. Stöder arbete med olika typer av dokument. Det finns personliga och företagsprogram. Fungerar även med kurshanteringssystem Moodle , Canvas, Blackboard, Sakai .

Tjänst www.miratools.ru

Tjänsten låter dig kontrollera texten för plagiat online [23] . Systemet använder resultaten av utfärdandet av sökmotorer. Det är möjligt att ersätta engelska bokstäver med ryska. Det är också möjligt att ändra längden och stigningen på singeln som används för verifiering. Baserat på resultatet av kontrollen anges andelen matchningar och de hittade källorna. Systemet fungerar inte med en egen databas, det finns en begränsning på längden på texten på 3000 tecken och en begränsning på antalet kontroller per dag.

Tjänst www.istio.com

Tjänsten kontrollerar texten för förekomst av lånat innehåll med hjälp av sökmotorerna Yandex.XML och Yahoo.com. [24] . Baserat på resultatet av kontrollen visas ett meddelande om huruvida texten är unik eller inte, och en lista med liknande webbplatssidor visas. Tjänsten tillhandahåller ytterligare verktyg för textanalys, såsom stavningskontroll, analys av de vanligaste orden etc. Systemet har inte bokstavskonvertering och sökning i en egen databas.

Praide Unique Content Analyzer II

Programmet kontrollerar texter med hjälp av sökmotorer [25] . Det är möjligt att välja sökmotorer som används, innehåller möjligheten att lägga till nya sökmotorer. Kontrollen utförs av bältros, vars längd kan ändras. Du kan ställa in antalet överlappande shingelord. En detaljerad rapport om kontrollen i varje sökmotor visas. Programmet ersätter inte bokstäver, bearbetar stoppord och stöder inte arbete med sin egen databas.

Plagiatinforma system

Systemet kontrollerar dokument för lån både i den lokala databasen och på Internet [26] . Systemet kan upptäcka plagiat i form av dokument sammansatta av "blandade" textstycken från flera källor. Kontroll kan göras med snabb eller djupsökning. Testresultaten presenteras i form av en visuell rapport. Det finns ingen bokstavsomvandling. Det finns ingen möjlighet till fri användning eller testning av systemet.

Copyscape tjänst

Copyscape -systemet låter dig söka efter kopior av webbsidor på Internet [27] . Systemet returnerar en lista över webbsidor som har text som liknar innehållet. Tjänsten söker efter lånat innehåll med hjälp av Google och Yahoo!

Endast innehållet på webbsidan kontrolleras, det vill säga för att bestämma textens unikhet är det nödvändigt att publicera texten på webbplatsen och ange sidadressen i systemet. Utan registrering finns det en gräns för antalet kontroller per månad och antalet resultat som visas - 10 webbplatser. För registrerade användare finns det inga gränser för antalet kontroller och resultat, men varje förfrågan kostar 5 cent.

Plagiattävling

Upptäckten av plagiat (särskilt omskrivet) är ett aktivt studerat tekniskt och vetenskapligt problem. Tävlingar för automatisk upptäckt av plagiat hålls regelbundet inom ramen för PAN-initiativet [28] . Den första tävlingen för att identifiera plagiat i ryskspråkiga dokument hölls 2017 som en del av dialogkonferensen om beräkningslingvistik [29] .

Se även

Anteckningar

  1. Stein, Koppel, 2011 .
  2. LAG BSSS, 2011 .
  3. Johnston, 2008 .
  4. Aushra, 2006 .
  5. Diaghilev, Tskhai, Butakov, 2011 , s. 23.
  6. Bouville, 2008 , s. 331.
  7. Ushakin, 2001 .
  8. Brin, Davis, Garcia-Molina, 2001 , s. 36-41.
  9. Monostori, Zaslavsky, Schmidt, 2000 , s. 226–227.
  10. Leong, Lau, Rynson, 1997 , s. 70-77.
  11. Dreher, 2007 , s. 601-614.
  12. Muhr, Zechner, 2009 , s. 47-55.
  13. Gipp, Beel, 2009 , s. 571–575.
  14. Gipp, Beel, 2010 , s. 273–274.
  15. Gipp, Meuschke, Beel, 2011 , s. 255–258.
  16. Gipp, Meuschke, 2011 , s. 249–258.
  17. Meyer zu Eissen, Stein, 2006 , s. 565–569.
  18. Sedov, Rogov, 2013 .
  19. Sharapov, Sharapova, 2011 .
  20. antiplagiat.ru - Anti-plagiat Arkiverad kopia av 13 oktober 2012 på Wayback Machine
  21. advego.ru - kontrollerar textens unika karaktär . Hämtad 9 december 2012. Arkiverad från originalet 11 december 2012.
  22. ↑ Plagiat Checker Unplag förser dig med realtidsrapportering  . unplag.com. Hämtad 21 juli 2016. Arkiverad från originalet 14 juli 2016.
  23. miratools.ru - Tjänst för att kontrollera innehållets unika karaktär Arkiverad 9 december 2012 på Wayback Machine
  24. istio.com - Tjänst för att analysera texter och webbplatser . Hämtad 9 december 2012. Arkiverad från originalet 9 december 2012.
  25. Praide unik innehållsanalysator - Kontrollerar textens unika karaktär på Internet (nedlänk) . Datum för åtkomst: 9 december 2012. Arkiverad från originalet den 20 november 2012. 
  26. plagiatinform.ru - System för att upptäcka plagiat i dokument Arkiverat 29 juli 2012 på Wayback Machine
  27. copyscape.com - Copyscape Plagiat Checker . Hämtad 9 december 2012. Arkiverad från originalet 8 december 2012.
  28. PAN är en serie vetenskapliga händelser och delade uppgifter om digital textforensik (nedlänk) . Hämtad 5 september 2017. Arkiverad från originalet 15 september 2017. 
  29. Tävling om att hitta lån i ryska texter . Hämtad 5 september 2017. Arkiverad från originalet 5 september 2017.

Litteratur

på ryska på andra språk