Tatoeba

Tatoeba-projektet
URL tatoeba.org
Kommersiell Inte
Webbplatstyp Öppna flerspråkig online-frasordbok
Registrering Krävs endast för redigering
Språk) 19 gränssnittsspråk, inklusive ryska ; innehåll på 130 språk (maj 2013)
Ägare Trang Ho
Författare Trang Ho
Början av arbetet 2006
Nuvarande status Faktisk [1]
 Mediafiler på Wikimedia Commons

Tatoeba- projektet (från det japanska ordet tatoeba ( jap. 例えば, "till exempel")  är en sida för att utbyta exempel på fraser på alla tillgängliga språk i världen. Till skillnad från onlineordböcker som lagrar ordöversättningar, fokuserar projektet på solida semantiska konstruktioner - fraser, meningar, ordspråk, etc., deras ackumulerade motsvarigheter på olika språk jämförs med varandra manuellt eller automatiskt.En egenskap hos projektet är dess öppenhet och allmänna tillgänglighet: Tatoeba deklareras som en icke-kommersiell projekt [2] , och alla som önskar, oavsett specialisering och språktillhörighet kan göra ändringar i projektdatabasen (lägga till och i vissa fall redigera befintliga fraser, rätta fel).

Med dessa egenskaper vinner Tatoeba-projektet sakta erkännande som ett unikt medium för självstyrt lärande [3] . I december 2010 stödde projektet 81 språk och gav 11 språkgränssnittsalternativ; i november 2011 var dessa siffror 94 respektive 17; i januari 2014—132 och 19.

Skaparen och ledaren av projektet är Chang Ho ( Trang Ho ), en fransyska av vietnamesiskt ursprung [4] . De första exemplen på platsen är daterade 30 september 2007 [5] . Mening #1 är från användaren sysko: det är den kinesiska frasen "Låt oss se!" [6] .

Hur det fungerar

Principen för projektet är att samla in och länka översättningar av en viss fras på ett givet språk. Systemet analyserar all mottagen data. Om konstruktion A översätts till ett annat språk som konstruktion B, och det i sin tur som konstruktion C, kommer alla tre att visas som en kedja av direkta eller indirekta översättningar, som som standard kommer att visas när du söker efter något av fragmenten av motsvarande fraser A, B och C (antalet visade språk kan begränsas av enskilda användare).

Alla kan se det ackumulerade materialet, endast registrerade deltagare kan lägga till och redigera det. Medlemmar med erfarenhet kan få statusen "betrodd" ("betrodd användare"). Det ger tillgång till taggar och låter dig även länka lämpliga översättningar till varandra eller "klippa bort" otillräckliga. En begränsad krets av projektdeltagare har status som "väktare" (korpusupprätthållare), som har administrativa befogenheter.

Till skillnad från läroböcker, onlineordböcker och forum är Tatoeba-projektet inte inriktat på en specifik språkpublik eller professionell användarbas. Alla med grundläggande läskunnighet kan registrera och fylla i exempel på fraser på sitt modersmål eller målspråk [2] . För arbete erbjuds användare hela utbudet av tillgängliga språk eller möjligheten att selektivt läsa med en indikation på originalspråket och/eller översättningen. Samtidigt, för dina egna översättningar till Tatoeba, rekommenderas att du bara fokuserar på originalet, eftersom relaterade översättningar kan vara felaktiga [2] . Diskussion om nyanserna i översättningen är möjlig just där i kommentarerna till vart och ett av förslagen.

Materialet som samlats på detta sätt kan distribueras gratis för alla typer av användning, inklusive kommersiellt, när det skickas till källan under CC-BY-licensen [7] . Webbplatsen har länkar för att ladda ner hela materialsamlingen [8] eller delar av den [9] . Den enda innehållsbegränsningen är förbudet mot fraser som är upphovsrättsskyddade enligt fransk lag.

Varje fras tilldelas ett serienummer när den skickas till plattformen, men vissa bidrag (maskinöversättning, dubbletter, ofullbordade fraser, etc.) raderas därefter. Borttagningsprocenten kan beräknas genom att jämföra det senaste serienumret (öppna den översta frasen i listan över senaste bidrag på framsidan) med frasräknaren på framsidan. Till exempel den 12 dec. 2011 var de 1295340 respektive 1241274.

Grammatiskt korrekta fraser som inte matchar bra som översättningar kan brytas isär (sluta visas som en sträng), men inte tas bort. De sparas i projektbasen som utgångspunkter för nya översättningar. Historiken för ändringar av var och en av fraserna, såväl som kopplingar/bortkopplingar mellan dem, är bifogad till varje fras och är synlig för alla användare.

Språk som stöds

Från och med juli 2019 har webbplatsen tekniskt stöd för 342 språk. [10] Den första resursen för webbplatsen var den engelsk-japanska Corpus of Language Exemples av Prof. Yasuhiro Tanaka . I december 2010 innehöll Tatoeba över 648 000 meningar; i april 2012 nådde denna siffra nästan 1,5 miljoner, den 12 januari var den 2 037 379. Det största antalet fraser (i fallande ordning, februari 2013):

Dessutom finns det över tusen meningar på följande språk: arabiska , isländska , hindi , uiguriska , vietnamesiska , norska ( bokmål ), vitryska , Shanghainesiska och kantonesiska kinesiska.

Tillsammans med naturliga språk förekommer konstgjorda språk i projektet : Esperanto , Klingon , Interlingua , CycL , Tokipona .

Till en början, för att introducera ett nytt språk, räckte det bara med att kontakta administratörerna och ange fem exempel på det. Därefter blev certifiering av det införda språket enligt standarden ISO 639-3 ett nödvändigt krav . När du ansöker om tillägg av en ny språksektion kan du erbjuda en flaggsymbol som betecknar den på webbplatsen; detta grafiska tecken krävs inte för att representera ett specifikt tillstånd från modern eller redan existerande [11] .

Ljud

Förutom den skriftliga överföringen av meningar, samlar Tatoeba-plattformen deras uttal. (Därför får deltagarna inte ange meningar med varianter av grammatiska och lexikala former inom parentes som skulle kräva mer än ett läsalternativ). För att delta i påfyllningen av ljudsektionen måste du klara en ackreditering som bevisar kvaliteten på de inspelade exemplen. [1] Av denna anledning är Tatoebas ljudsektioner relativt långsamma att slutföra.

Aktivitet och samarbetsformer

Öppenheten och tillgängligheten i kombination med sajtens användarvänlighet har lett till en stadig ökning av populariteten. (Webbplatsens aktivitetsdiagram [12] registrerar antalet nya språkexempel sedan 30 september 2007). I december 2010 var antalet dagliga besökare ca. 1 800 [13] som lade upp till ett och ett halvt till två tusen exempel om dagen. År 2013 hade den andra siffran stigit till 2,5-3 tusen.

Tatoeba främjar Internets öppenhet och frihet i Mozilla Drumbeat- projektet , bland flera hundra andra deltagande projekt.

Tatoeba bidrar till många elektroniska ordböcker och översättare, såsom den japanska elektroniska ordboken WWWJDIC [14] . Tatoeba samarbetar med Shtooka -projektet  , en gratis samling ljudinspelningar av ord, fraser, ordspråk etc. på olika språk [15] . Plattformsmaterialet används i Glosbe elektroniska ordböcker [16] .

På basis av Tatoeba utvecklades en applikation för självstudier av språk med hjälp av datorminneskort TaToTen [ 17] .

Länkar

Se även

Anteckningar

  1. tatoeba.org - Trafikinformation från Alexa . Alexa Internet , Inc. Arkiverad från originalet den 6 juli 2012.
  2. 1 2 3 Trang. Hur man är en bra bidragsgivare i Tatoeba . Hämtad 27 december 2019. Arkiverad från originalet 3 september 2011.
  3. Tatoeba (var man kan lära sig) (nedlänk) . Lärarlös (1 november 2010). Hämtad 27 december 2019. Arkiverad från originalet 14 juli 2012. 
  4. TRANG - Tatoeba . tatoeba.org. Hämtad 27 december 2019. Arkiverad från originalet 18 september 2020.
  5. Tidslinje för aktivitet - Tatoeba . tatoeba.org. Hämtad 27 december 2019. Arkiverad från originalet 27 december 2019.
  6. 我們試試看! - Mandarinkinesiska exempelmening - Tatoeba . tatoeba.org. Hämtad 27 december 2019. Arkiverad från originalet 6 januari 2020.
  7. Regel 8. Lägg inte till meningar från upphovsrättsskyddat  innehåll
  8. Ladda ner meningar - Tatoeba . tatoeba.org. Hämtad 27 december 2019. Arkiverad från originalet 20 december 2019.
  9. Alla offentliga listor (1 232) - Tatoeba . tatoeba.org. Hämtad 27 december 2019. Arkiverad från originalet 20 december 2019.
  10. Erbjudanden till det okända - Tatoeba (otillgänglig länk) . tatoeba.org. Hämtad 27 december 2019. Arkiverad från originalet 20 juni 2013. 
  11. Vanliga frågor . en.wiki.tatoeba.org. Hämtad 27 december 2019. Arkiverad från originalet 20 december 2019.
  12. Aktivitetsschema: - Tatoeba . tatoeba.org. Hämtad: 27 december 2019.
  13. Om Tatoeba.org var ett land skulle det vara större än Niue med sina 1 809 dagliga besökare!  (länk ner)  (länk nere sedan 2013-05-13 [3462 dagar]  )
  14. WWWJDIC . users.monash.edu. Hämtad 27 december 2019. Arkiverad från originalet 27 december 2019.
  15. Shtooka Project Download Arkiverad 1 december 2010 på Wayback Machine 
  16. ↑ Onlineordbok med över 1 000 språk och 40 000 000 översättningar  . Glosbe. Hämtad 27 december 2019. Arkiverad från originalet 22 juni 2020.
  17. tatoten - TaToTen (nedlänk) . tatoten.com. Hämtad 27 december 2019. Arkiverad från originalet 27 december 2019.