Korankorpus av arabiska

Korankorpus av arabiska
URL corpus.quran.com
Kommersiell GNU General Public License
Webbplatstyp korpus av texter
Språk) Arabiska / engelska
Serverns plats Storbritannien
Ägare Leeds University
Början av arbetet 2009
Nuvarande status fungerar och utvecklas

Arabic Qur'anic Corpus  är en sökbar elektronisk korpus online av korantexter som innehåller 77 430 arabiska ord. Syftet med projektet är att tillhandahålla morfologiska och syntaktiska data för forskare som vill studera klassisk arabiska [1] [2] [3] [4] [5] .

Funktioner

Grammatiktextanalys hjälper användare att avslöja de avsedda betydelserna av varje vers och mening. Varje ord i texten i Koranen tillskrivs med en indikation på dess orddel och flera morfologiska egenskaper. Till skillnad från andra arabiska korpus är grammatiken som används av Koranens korpus den traditionella arabiska grammatiken Irab (إعراب). The Qur'anic Corpus of Arabic är ett forskningsprojekt som leds av datavetaren Kays Dukes från University of Leeds [4] och är en del av det arabiska språkstudieprojektet vid School of Computing som leds av Eric Atwell [6] .

Den kommenterade korpusen inkluderar [1] [7] :

Talordsuppmärkning tilldelar varje ord i korpusen en orddeltagg och morfologiska egenskaper  - till exempel en indikation på om det givna ordet är ett substantiv eller ett verb , är i maskulinum eller femininum . I projektets första skede användes automatisk delmärkning. Egenskaperna för vart och ett av de 77 430 orden i Koranen förfinas sedan steg för steg av två kommentatorer, och förfiningarna fortsätter till idag.

Språklig forskning som använder Koranens korpus inkluderar undervisning i en dold Markov -modell av arabisk ordspråksuppmärkning [8] , automatisk kategorisering av kapitel i Koranen [9] och prosodisk textanalys [10] .

Dessutom tillhandahåller projektet en bokstavlig översättning av Koranen baserad på accepterade engelska källor istället för en ny översättning av Koranen [4] .

Se även

Anteckningar

  1. 1 2 K. Dukes, E. Atwell och N. Habash (2011). Övervakat samarbete för syntaktisk anteckning av koranarabiska. Arkiverad 10 maj 2012 på Wayback Machine Language Resources and Evaluation Journal (LREJ) . Specialnummer om samarbetsbyggda språkresurser.
  2. Övervakat samarbete för syntaktisk annotering av koranarabiska Arkiverad 6 april 2018 på Wayback MachineResearchGate . Uppladdad av Nizar Habash, Columbia University .
  3. K. Dukes och T. Buckwalter (2010). En Dependency Treebank of the Quran med traditionell arabisk grammatik. Arkiverad 10 maj 2012 på Wayback Machine In Proceedings av den 7:e internationella konferensen om informatik och system (INFOS). Kairo, Egypten.
  4. 1 2 3 The Quranic Arabic Corpus Arkiverad 23 februari 2013 på Wayback Machine på The Muslim Tribune. 20 juni 2011
  5. Eric Atwell, Claire Brierley, Kais Dukes, Majdi Sawalha och Abdul-Baquee Sharaf. En artificiell intelligens-inställning till arabiskt och islamiskt innehåll på internet  (länk ej tillgänglig) , sid. 2. Riyadh : King Saud University , 2011.
  6. Teknisk profil för Dr Eric Atwell - School of Computing - University of Leeds . www.comp.leeds.ac.uk . Hämtad 6 april 2018. Arkiverad från originalet 9 augusti 2017.
  7. K. Dukes och N. Habash (2011). Statistisk analys i ett steg av syntaktiska representationer av hybridberoende-valkrets. Arkiverad 10 maj 2012 på Wayback Machine International Conference on Parsing Technologies (IWPT) . Dublin, Irland.
  8. M. Albared, N. Omar och M. Ab Aziz (2011). Utveckla en konkurrenskraftig HMM Arabic POS Tagger med hjälp av Small Training Corpora.  (ej tillgänglig länk) Intelligenta informations- och databassystem. Springer Berlin, Heidelberg.
  9. A. M. Sharaf och E. Atwell (2011). Automatisk kategorisering av korankapitlen. Arkiverad 8 januari 2014 på Wayback Machine 7th International Computing Conference in Arabic (ICCA11) . Riyadh, Saudiarabien.
  10. C. Brierley, M. Sawalha och E. Atwell (2012). Gränskommentarerad Korankorpus för arabisk frasavbrottsprediktion. Arkiverad 15 december 2018 på Wayback Machine IVACS Annual Symposium. Cambridge.

Länkar