Hamshahri Corps

Hamshahri-korpusen ( persiska پیکره همشهری ‎) är en korpus av texter på persiska baserad på innehållet i den iranska tidningen Hamshahri , en av de första onlinepublikationernapersiska . Ursprungligen insamlad och sammanställd av Ehsan Darrudi från DBRG-gruppen [1] , baserad på Teherans universitet . Senare skapade en grupp ledd av Ali Ahmad [2] baserad på denna korpus den första databasen med persiska texter som lämpade sig för uppgifter för informationssökning.

Hamshahri-korpusen skapades genom att skanna nyhetsartiklar från Hamshahris tidningswebbplats och sedan bearbeta HTML-sidor för att skapa en standardtextkorpus som lämpar sig för standardinformationshämtning.

Version 1.0

Den här versionen innehöll över 160 000 artiklar som täckte följande ämneskategorier: Politik, Stadsnyheter, Ekonomi, Rapporter, Ledare, Litteratur, Vetenskap, Samhälle, Utländska nyheter, Sport, etc. Dokument varierar i storlek från korta nyheter (mindre än 1 KB) till ganska långa artiklar (ca 140 KB) med ett snitt på 1,8 KB.

Korpusen är tillgänglig i flera nedladdningsformat [2] :

Version 2.0

Den här versionen lanserades den 20 oktober 2008, jämfört med den tidigare, den har flera nya funktioner:

Korpusen finns tillgänglig för nedladdning i XML-format .

Anteckningar

  1. DBRG News Arkiverad 15 maj 2017 på Wayback Machine Database Research Group
  2. 1 2 Hamshahri Arkiverad 14 maj 2017 på Wayback Machine Database Research Group

Länkar