Hamshahri-korpusen ( persiska پیکره همشهری ) är en korpus av texter på persiska baserad på innehållet i den iranska tidningen Hamshahri , en av de första onlinepublikationerna på persiska . Ursprungligen insamlad och sammanställd av Ehsan Darrudi från DBRG-gruppen [1] , baserad på Teherans universitet . Senare skapade en grupp ledd av Ali Ahmad [2] baserad på denna korpus den första databasen med persiska texter som lämpade sig för uppgifter för informationssökning.
Hamshahri-korpusen skapades genom att skanna nyhetsartiklar från Hamshahris tidningswebbplats och sedan bearbeta HTML-sidor för att skapa en standardtextkorpus som lämpar sig för standardinformationshämtning.
Den här versionen innehöll över 160 000 artiklar som täckte följande ämneskategorier: Politik, Stadsnyheter, Ekonomi, Rapporter, Ledare, Litteratur, Vetenskap, Samhälle, Utländska nyheter, Sport, etc. Dokument varierar i storlek från korta nyheter (mindre än 1 KB) till ganska långa artiklar (ca 140 KB) med ett snitt på 1,8 KB.
Korpusen är tillgänglig i flera nedladdningsformat [2] :
Den här versionen lanserades den 20 oktober 2008, jämfört med den tidigare, den har flera nya funktioner:
Korpusen finns tillgänglig för nedladdning i XML-format .
Korpuslingvistik | |
---|---|
engelska korpus |
|
Ryskspråkiga korpus |
|
Corpora på andra språk |
|
Organisationer |