Wiktionary | |
---|---|
engelsk Wiktionary | |
URL | wikitionary.org |
Kommersiell | Inte |
Webbplatstyp | Nätverksordbok |
Registrering | Frivillig |
Språk) | 170 |
Serverns plats | Miami |
Ägare | Wikimedia Foundation |
Författare | Jimmy Wales |
Början av arbetet | 12 december 2002 |
Mediafiler på Wikimedia Commons |
Wiktionary är en fritt uppdaterad multifunktionell flerspråkig ordbok och synonymordbok baserad på en wikimotor . Ett av projekten i Wikimedia Foundation . Uppträdde ursprungligen på engelska den 12 december 2002 .
Ordboken innehåller grammatiska beskrivningar, tolkningar och översättningar av ord. Dessutom kan artiklarna återspegla information om ordens etymologi , fonetiska egenskaper och semantiska samband. Således är Wiktionary ett försök att kombinera grammatik , förklarande , etymologiska och flerspråkiga ordböcker, såväl som en synonymordbok, i en produkt.
Wiktionary-data används aktivt för att lösa olika problem relaterade till maskinell bearbetning av text och tal .
Genom det inbördes förhållandet mellan de olika språksektionerna av Wiktionary, och mellan bidragsgivare till Wikimedia Foundations ordförråd och andra projekt , kan bidragsgivare till varje projekt använda begreppen, verktygen och lexikografiska material som skapats av sina andra talare på andra språk. Under arbetet med olika språksektioner i ordboken bildades ett komplext koncept av en universell lexikografisk resurs, vilket blev möjligt för första gången tack vare elektronisk teknik. Konceptet förutsätter i slutändan en fullständig, omfattande beskrivning av alla lexikaliska enheter av alla naturliga (och grundläggande konstgjorda) språk som har ett skriftspråk. Beskrivningens fullständighet innebär tillgången på information om fonetik, morfologi, syntaktiska och semantiska egenskaper hos den lexikala enheten, dess etymologi, kompatibilitet och frasologi. Fullständigheten och graden av konsekvens i implementeringen av detta koncept kan variera i olika språksektioner av projektet.
I varje språksektion är det "titulära" språket centralt - alla artiklar skrivs uteslutande i det, dessutom är målet att ge översättningar av ord och andra enheter av detta språk till så många andra språk som möjligt. Orden på andra språk översätts som regel endast till detta "titulära" språk. Så i den ryska Wiktionary för ryska ord ges tolkningar och översättningar till främmande språk, för främmande ord, istället för tolkningar, ges översättningar till ryska .
Vid beskrivning av morfologin görs ett försök att ge den mest fullständiga bilden av böjningen, inklusive en indikation av böjningsklassen. I synnerhet ges morfologisk information om ryska lexem i enlighet med klassificeringen som föreslagits av A. A. Zaliznyak .
För att fylla på Wiktionary har en omfattande bibliografi skapats och den engelska Wiktionary har tagit fram regler för att inkludera en term i ordboken (se Kriterier för inkludering ). Till skillnad från ryska Wikipedia , där prioritet i valet av material ges till auktoritativa källor [Not 1] , i Ryska Wiktionary, råder analysen av ordanvändning som utförs av redaktören för artikeln [Not 2] .
Wiktionary innehåller följande semantiska relationer: synonymer , antonymer , hypernyms , hyponymer , samhyponymer , holonymer , meronymer , paronymer .
Wiktionary innehåller inte detaljerade beskrivningar av fakta och encyklopedisk information. Däremot tillhandahåller Wiktionary unik information som inte finns på Wikipedia: kollokationer, talesätt, förkortningar, akronymer, beskrivningar av stavfel, förenklade/förvanskade stavningar/uttal av ord, kontroversiella användningsfall, protologismer , onomatopoei , olika stilar (t.ex. vardagligt) och ämne områden [1] . Därmed kompletterar Wikipedia och Wiktionary varandra.
Wiktionary liknar Wikipedia genom att (1) det finns interna länkar till inlägg om ord inom Wiktionary, (2) det finns kategorier, (3) det finns interwikis som länkar till poster om samma ord i en främmande språkordbok [1] .
Den ryska delen av Wiktionary skapades våren 2004 . I ett och ett halvt år utvecklades det praktiskt taget inte, och fyllde på sig själv på måfå, främst med material av låg kvalitet. Situationen började förändras i slutet av 2005 - början av 2006 .
2006 utsågs den första administratören av Schwallex , volymen av artiklar ökade nästan fyra gånger jämfört med föregående år, kraftfulla verktyg för att beskriva morfologi skapades och ett utvecklat system av semantiska kategorier började ta form.
På hösten 2006 hade antalet inlägg i den ryska Wiktionary nått 10 000; sedan, tack vare skapandet av en bot som använder ordböcker från andra delar av Wiktionary för att generera tomma artiklar i den ryska delen, lades omkring 70 000 fler artiklar till på en och en halv månad. Den 7 november 2006 passerade Wiktionary 80 000-strecket och den 10 december 2006 togs milstolpen med 100 000 bidrag. Den 17 december 2018 passerade antalet artiklar 1 000 000. Antalet aktiva deltagare var cirka 230 stycken.
I motsats till situationen med traditionella ordböcker, kan Wiktionarys fullständighet inte bedömas tillräckligt med en formell indikator på antalet poster. Den automatiska räknaren skiljer inte mellan halvtomma skivor och verkligt informativa artiklar, dessutom tar den inte hänsyn till intralingual och interlingual homonymi. Till exempel är ordboksposten boron listad som en post, under tiden beskriver denna artikel flera homonyma lexem av det ryska språket, såväl som lexem med samma namn på andra språk (bulgariska, tatariska), - i traditionella ordböcker detta material skulle ordnas och beaktas i form av flera bidrag.
Från och med augusti 2008 kom den ryska Wiktionary ut i topp när det gäller databasstorlek bland alla Wiktionaries [3] . Samtidigt är antalet poster i den ryska Wiktionary inte det största [4] . Detta beror delvis på att för projekt som har fler artiklar än i den ryska Wiktionary kan artiklarna ha en genomsnittlig storlek på en mindre storlek, vilket kan ses på statistikwebbplatsen [5] .
Dessutom innehåller den ryska Wiktionary, jämfört med andra delar av Wiktionary, en större mängd hjälpinformation, inklusive uppslagstabeller, listor med vanliga ord, etc. (till skillnad från ordboksposter som utgör den så kallade huvudnamnrymden, är sådan information placeras i avsnitten ”, ”Indeks” etc.). Ett betydande antal poster i den ryska Wiktionary är fortfarande tomma som genereras av bots. Även om man ibland kan stöta på kritik av ett stort antal tomma artiklar, har en sådan pre-markup många fördelar. För det första hjälper det att skapa artiklar snabbare genom att i förväg inkludera viss information, till exempel orddelen av ordet som beskrivs. För det andra standardiseras artiklarnas struktur. På grund av den utbredda användningen av mallar (som vanligtvis omedelbart läggs ner av botar när artiklar skapas automatiskt) blir det möjligt att centralt ändra utseendet på många artiklar samtidigt. Förekomsten av ett stort antal mallar hjälper också till att utföra ytterligare automatiserad redigering av redan skapade artiklar - till exempel automatiskt lägga ner översättningen enligt förberedda ordböcker (eftersom det är lättare för bots att navigera i strukturen av en artikel redan märkt med specialiserade strukturer, snarare än mänskligt språk). Ett utmärkande drag för den ryska Wiktionary är ett välutvecklat koncept för utveckling (som finns på huvudsidan). På grund av det välutvecklade konceptet och den breda användningen av mallar ser artiklar i den ryska Wiktionary mer ut av samma typ än i många andra projekt (antalet avsnitt, ordningen i vilka de visas, designen av varje avsnitt är i princip samma).
Författarna beräknade antalet ordboksposter om ryska ord, antalet poster med och utan tolkningar i två Wiktionarys (illustrerade). Policyn för redaktörerna för den engelska Wiktionary (att inte skapa tomma artiklar) bekräftades: det finns bara 5,57% av ordboksposterna om ryska ord utan tolkning. I den ryska Wiktionary finns 60,39 % av sådana artiklar. Men i den ryska Wiktionary (från och med 2011) finns det nästan 3,4 gånger fler poster med tolkningar för ryska ord än i den engelska Wiktionary: 53,6 tusen mot 15,7 tusen [2] .
För att använda Wiktionary lexikografiska data för att lösa problem med automatisk text- och talbehandling, är det nödvändigt att konvertera texterna i ordboksposter ( semi-strukturerade data [6] ) till ett maskinläsbart format [7] [8] [9] .
Att extrahera data från Wiktionaries är inte en lätt uppgift. Följande svårigheter kan identifieras [10] : (1) regelbundna och frekventa förändringar i både data och själva strukturen för artiklar, (2) olika wiktionärer har olika struktur och format för artiklar [Not 3] , (3) wikiteknologi är initialt fokuserat på användarvänlighet, inte maskintillverkat.
Det finns flera analyser för olika Wiktionaries [11] :
Wiktionärer används för att lösa olika uppgifter relaterade till text- och talbehandling [19] :
Wikipedia-artiklar måste baseras på publicerade auktoritativa källor .
Om det finns meningsskiljaktigheter om någon av de beskrivna egenskaperna hos någon språkenhet, prioriteras (bevismässigt) till korpuskällor.
I sociala nätverk | |
---|---|
Ordböcker och uppslagsverk |
Wikimedia Foundation | ||||||
---|---|---|---|---|---|---|
människor |
| |||||
Projekt |
| |||||
Övrig |
| |||||
Relaterad |
|