Tatoeba-projektet | |
---|---|
URL | tatoeba.org |
Kommersiell | Inte |
Webbplatstyp | Öppna flerspråkig online-frasordbok |
Registrering | Krävs endast för redigering |
Språk) | 19 gränssnittsspråk, inklusive ryska ; innehåll på 130 språk (maj 2013) |
Ägare | Trang Ho |
Författare | Trang Ho |
Början av arbetet | 2006 |
Nuvarande status | Faktisk [1] |
Mediafiler på Wikimedia Commons |
Tatoeba- projektet (från det japanska ordet tatoeba ( jap. 例えば, "till exempel") är en sida för att utbyta exempel på fraser på alla tillgängliga språk i världen. Till skillnad från onlineordböcker som lagrar ordöversättningar, fokuserar projektet på solida semantiska konstruktioner - fraser, meningar, ordspråk, etc., deras ackumulerade motsvarigheter på olika språk jämförs med varandra manuellt eller automatiskt.En egenskap hos projektet är dess öppenhet och allmänna tillgänglighet: Tatoeba deklareras som en icke-kommersiell projekt [2] , och alla som önskar, oavsett specialisering och språktillhörighet kan göra ändringar i projektdatabasen (lägga till och i vissa fall redigera befintliga fraser, rätta fel).
Med dessa egenskaper vinner Tatoeba-projektet sakta erkännande som ett unikt medium för självstyrt lärande [3] . I december 2010 stödde projektet 81 språk och gav 11 språkgränssnittsalternativ; i november 2011 var dessa siffror 94 respektive 17; i januari 2014—132 och 19.
Skaparen och ledaren av projektet är Chang Ho ( Trang Ho ), en fransyska av vietnamesiskt ursprung [4] . De första exemplen på platsen är daterade 30 september 2007 [5] . Mening #1 är från användaren sysko: det är den kinesiska frasen "Låt oss se!" [6] .
Principen för projektet är att samla in och länka översättningar av en viss fras på ett givet språk. Systemet analyserar all mottagen data. Om konstruktion A översätts till ett annat språk som konstruktion B, och det i sin tur som konstruktion C, kommer alla tre att visas som en kedja av direkta eller indirekta översättningar, som som standard kommer att visas när du söker efter något av fragmenten av motsvarande fraser A, B och C (antalet visade språk kan begränsas av enskilda användare).
Alla kan se det ackumulerade materialet, endast registrerade deltagare kan lägga till och redigera det. Medlemmar med erfarenhet kan få statusen "betrodd" ("betrodd användare"). Det ger tillgång till taggar och låter dig även länka lämpliga översättningar till varandra eller "klippa bort" otillräckliga. En begränsad krets av projektdeltagare har status som "väktare" (korpusupprätthållare), som har administrativa befogenheter.
Till skillnad från läroböcker, onlineordböcker och forum är Tatoeba-projektet inte inriktat på en specifik språkpublik eller professionell användarbas. Alla med grundläggande läskunnighet kan registrera och fylla i exempel på fraser på sitt modersmål eller målspråk [2] . För arbete erbjuds användare hela utbudet av tillgängliga språk eller möjligheten att selektivt läsa med en indikation på originalspråket och/eller översättningen. Samtidigt, för dina egna översättningar till Tatoeba, rekommenderas att du bara fokuserar på originalet, eftersom relaterade översättningar kan vara felaktiga [2] . Diskussion om nyanserna i översättningen är möjlig just där i kommentarerna till vart och ett av förslagen.
Materialet som samlats på detta sätt kan distribueras gratis för alla typer av användning, inklusive kommersiellt, när det skickas till källan under CC-BY-licensen [7] . Webbplatsen har länkar för att ladda ner hela materialsamlingen [8] eller delar av den [9] . Den enda innehållsbegränsningen är förbudet mot fraser som är upphovsrättsskyddade enligt fransk lag.
Varje fras tilldelas ett serienummer när den skickas till plattformen, men vissa bidrag (maskinöversättning, dubbletter, ofullbordade fraser, etc.) raderas därefter. Borttagningsprocenten kan beräknas genom att jämföra det senaste serienumret (öppna den översta frasen i listan över senaste bidrag på framsidan) med frasräknaren på framsidan. Till exempel den 12 dec. 2011 var de 1295340 respektive 1241274.
Grammatiskt korrekta fraser som inte matchar bra som översättningar kan brytas isär (sluta visas som en sträng), men inte tas bort. De sparas i projektbasen som utgångspunkter för nya översättningar. Historiken för ändringar av var och en av fraserna, såväl som kopplingar/bortkopplingar mellan dem, är bifogad till varje fras och är synlig för alla användare.
Från och med juli 2019 har webbplatsen tekniskt stöd för 342 språk. [10] Den första resursen för webbplatsen var den engelsk-japanska Corpus of Language Exemples av Prof. Yasuhiro Tanaka . I december 2010 innehöll Tatoeba över 648 000 meningar; i april 2012 nådde denna siffra nästan 1,5 miljoner, den 12 januari var den 2 037 379. Det största antalet fraser (i fallande ordning, februari 2013):
Dessutom finns det över tusen meningar på följande språk: arabiska , isländska , hindi , uiguriska , vietnamesiska , norska ( bokmål ), vitryska , Shanghainesiska och kantonesiska kinesiska.
Tillsammans med naturliga språk förekommer konstgjorda språk i projektet : Esperanto , Klingon , Interlingua , CycL , Tokipona .
Till en början, för att introducera ett nytt språk, räckte det bara med att kontakta administratörerna och ange fem exempel på det. Därefter blev certifiering av det införda språket enligt standarden ISO 639-3 ett nödvändigt krav . När du ansöker om tillägg av en ny språksektion kan du erbjuda en flaggsymbol som betecknar den på webbplatsen; detta grafiska tecken krävs inte för att representera ett specifikt tillstånd från modern eller redan existerande [11] .
Förutom den skriftliga överföringen av meningar, samlar Tatoeba-plattformen deras uttal. (Därför får deltagarna inte ange meningar med varianter av grammatiska och lexikala former inom parentes som skulle kräva mer än ett läsalternativ). För att delta i påfyllningen av ljudsektionen måste du klara en ackreditering som bevisar kvaliteten på de inspelade exemplen. [1] Av denna anledning är Tatoebas ljudsektioner relativt långsamma att slutföra.
Öppenheten och tillgängligheten i kombination med sajtens användarvänlighet har lett till en stadig ökning av populariteten. (Webbplatsens aktivitetsdiagram [12] registrerar antalet nya språkexempel sedan 30 september 2007). I december 2010 var antalet dagliga besökare ca. 1 800 [13] som lade upp till ett och ett halvt till två tusen exempel om dagen. År 2013 hade den andra siffran stigit till 2,5-3 tusen.
Tatoeba främjar Internets öppenhet och frihet i Mozilla Drumbeat- projektet , bland flera hundra andra deltagande projekt.
Tatoeba bidrar till många elektroniska ordböcker och översättare, såsom den japanska elektroniska ordboken WWWJDIC [14] . Tatoeba samarbetar med Shtooka -projektet , en gratis samling ljudinspelningar av ord, fraser, ordspråk etc. på olika språk [15] . Plattformsmaterialet används i Glosbe elektroniska ordböcker [16] .
På basis av Tatoeba utvecklades en applikation för självstudier av språk med hjälp av datorminneskort TaToTen [ 17] .
Korpuslingvistik | |
---|---|
engelska korpus |
|
Ryskspråkiga korpus |
|
Corpora på andra språk |
|
Organisationer |