Hamshahri Corps

Hamshahri-korpusen ( persiska پیکره همشهری ‎) är en korpus av texter på persiska baserad på innehållet i den iranska tidningen Hamshahri , en av de första onlinepublikationerna på persiska . Ursprungligen insamlad och sammanställd av Ehsan Darrudi från DBRG-gruppen [1] , baserad på Teherans universitet . Senare skapade en grupp ledd av Ali Ahmad [2] baserad på denna korpus den första databasen med persiska texter som lämpade sig för uppgifter för informationssökning.

Hamshahri-korpusen skapades genom att skanna nyhetsartiklar från Hamshahris tidningswebbplats och sedan bearbeta HTML-sidor för att skapa en standardtextkorpus som lämpar sig för standardinformationshämtning.

Version 1.0

Den här versionen innehöll över 160 000 artiklar som täckte följande ämneskategorier: Politik, Stadsnyheter, Ekonomi, Rapporter, Ledare, Litteratur, Vetenskap, Samhälle, Utländska nyheter, Sport, etc. Dokument varierar i storlek från korta nyheter (mindre än 1 KB) till ganska långa artiklar (ca 140 KB) med ett snitt på 1,8 KB.

Korpusen är tillgänglig i flera nedladdningsformat [2] :

text med taggar: 560 MB
I SQL Server 2000 -tabeller : 712 MB.

Version 2.0

Den här versionen lanserades den 20 oktober 2008, jämfört med den tidigare, den har flera nya funktioner:

I andra nyheter: 323 616 textberättelser i 3 206 XML-filer (fil för varje dag);
Förlängning av publiceringsperioden: från 22 juni 1996 till 13 maj 2007;
Större kapacitet: 1,42 GB okomprimerad;
Standardkodning: Unicode XML;
Inkluderade bilder: bilder har extraherats från nyheterna och sparats (tillgängliga i ett valfritt paket), vilket gör dem lämpliga för bildsökningsuppgifter;
Kategoriserade nyheter: Nyheter klassificerades halvautomatiskt (för textklassificering och kategoriseringsuppgifter).

Korpusen finns tillgänglig för nedladdning i XML-format .

Anteckningar

↑ DBRG News Arkiverad 15 maj 2017 på Wayback Machine Database Research Group
↑ 1 2 Hamshahri Arkiverad 14 maj 2017 på Wayback Machine Database Research Group

Länkar

Hamshahri Corpus hemsida
irBlogs Collection Hemsida

Korpuslingvistik
engelska korpus	National Corpus of American English Bank of English Bergen Corpus of London Teenage Language brittiska nationella kåren Brun Corpus Buckeye Corpus Cambridge English Corpus Corpus of Modern American English Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus Prop Bank Talat engelska korpus TID VerbNet Wellington Corpus of Spoken New Zealand English
Ryskspråkiga korpus	Allmänt internetkorpus för det ryska språket Ryska nationalkorpus Öppen korpus av det ryska språket SinTagRus Tübingen Corpus of the Russian Language Uppsala korpus av ryska texter Helsingfors kommenterad korpus av det ryska språket
Corpora på andra språk	Bijankhan Corpus BARN Korpus av kroatiska Kroatiska nationella korpus Europarl Corpus Mannheim Corpus tyska Hamshahri Corps Polsk National Corpus Neo-assyriska textkorpusprojekt Koranens korpus Scottish National Corpus Sloveniens nationella korpus samtalsbank Tatoeba Teheran Monolingual Corpus Textaro de Esperanto Tesaurus Linguae Graecae
Organisationer	BNC-konsortiet SAMBYGGA