Informationsinhämtning

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 25 mars 2019; kontroller kräver 12 redigeringar .

Informationsinhämtning är processen att söka efter ostrukturerad dokumentär information som tillfredsställer informationsbehov [ 1] , och vetenskapen kring denna sökning .

Historik

Termen "informationssökning" introducerades först av Calvin Muers 1948 i sin doktorsavhandling, publicerad och använt i litteraturen sedan 1950 .

Till en början användes automatiserade IP-system, eller informationshämtningssystem (IPS), endast för att söka efter vetenskaplig information och litteratur. Många universitet och offentliga bibliotek har börjat använda IRS för att ge tillgång till böcker, tidskrifter och andra dokument. IPS blev utbredd med tillkomsten av Internet och utvecklingen av World Wide Web . Bland rysktalande användare är de populäraste [2] sökmotorerna Yandex , Google .

Informationshämtning som en process

Informationssökning är processen att identifiera i en viss uppsättning dokument ( texter ) alla de som är ägnade åt ett specifikt ämne (ämne), uppfyller ett förutbestämt sökvillkor ( förfrågan ) eller innehåller nödvändiga (motsvarande informationsbehov) fakta , information , data .

Sökprocessen innefattar en sekvens av operationer som syftar till att samla in, bearbeta och tillhandahålla information.

I allmänhet består sökningen efter information av fyra steg:

fastställande (förtydligande) av informationsbehov och formulering av en informationsbegäran;
fastställande av helheten av möjliga innehavare av informationsmatriser (källor);
extrahera information från de identifierade informationsuppsättningarna;
bekantskap med mottagen information och utvärdering av sökresultaten.

Söktyper

Fulltextsökning - sök igenom hela innehållet i dokumentet. Ett exempel på en fulltextsökning är valfri sökmotor på Internet, till exempel www.yandex.ru , www.google.com . Vanligtvis använder fulltextsökningar förbyggda index för att påskynda sökningar . Den vanligaste tekniken för fulltextsökningsindex är inverterade index .

Sökning på metadata är en sökning på vissa dokumentattribut som stöds av systemet - dokumenttitel, datum för skapande, storlek, författare, etc. Ett exempel på sökning på attribut är en sökdialog i filsystemet (till exempel MS Windows ).

Bildsökning - Sök efter bildinnehåll. Sökmotorn känner igen innehållet i fotot (laddat upp av användaren eller lagt till av bildens URL). I sökresultaten får användaren liknande bilder. Så här fungerar sökmotorer: Polar Rose , Picollator , etc.

Sökmetoder

Adresssökning

Processen att söka efter handlingar på rent formella grunder som anges i begäran.
Följande villkor krävs för implementering:

Har dokumentet en exakt adress?
Säkerställa ett strikt arrangemang av dokument i en lagringsenhet eller i systemlagringen.

Adresserna till dokument kan vara adresserna till webbservrar och webbsidor och delar av en bibliografisk post , och adresserna till lagring av dokument i arkivet.

Semantisk sökning

Processen att söka efter dokument efter deras innehåll .

Villkor:

Översättning av innehållet i dokument och frågor från naturligt språk till informationssökningsspråk och sammanställning av sökbilder av dokumentet och frågan.
Sammanställning av en sökbeskrivning som anger ytterligare ett sökvillkor.

Den grundläggande skillnaden mellan adresssökning och semantisk sökning är att vid adresssökning betraktas dokumentet som ett objekt i form av form, medan i semantisk sökning, i termer av innehåll.

Semantisk sökning hittar många dokument utan att ange adresser.

Detta är den grundläggande skillnaden mellan kataloger och arkivskåp .

Bibliotek - en samling bibliografiska poster utan adresser.

Dokumentärsökning

Processen att söka i lagringen av ett informationshämtningssystem efter primära dokument eller en databas med sekundära dokument som matchar användarens begäran.

Tre typer av dokumentär sökning:

Bibliotek, som syftar till att hitta primära dokument.
Bibliografisk, syftar till att hitta information om dokument som presenteras i form av bibliografiska register.
Arkivsökning [3]

Faktasökning

Processen att hitta fakta som matchar en informationsförfrågan.
Faktauppgifter inkluderar information som extraherats från dokument, både primära och sekundära, och som erhållits direkt från källorna till deras förekomst.

Det finns två typer:

Dokumentärt-faktiskt, består i att söka efter fragment av text som innehåller fakta i dokument.
Fakta (beskrivning av fakta), vilket innebär att nya faktabeskrivningar skapas i sökprocessen genom logisk bearbetning av den hittade faktainformationen.

Informationsinhämtning som vetenskap

Informationssökning är ett stort tvärvetenskapligt vetenskapsområde som står i skärningspunkten mellan kognitiv psykologi , datavetenskap , informationsdesign , lingvistik , semiotik och biblioteksvetenskap .

Informationssökning är processen att identifiera poster i informationsuppsättningen som uppfyller ett förutbestämt sökvillkor eller förfrågan.

IP överväger att söka information i dokument , söka efter dokument själva, extrahera metadata från dokument, söka efter text, bilder, video och ljud i lokala relationsdatabaser, i hypertextdatabaser som Internet och lokala intranätsystem .

Det råder viss förvirring kring begreppen datahämtning, dokumenthämtning, informationshämtning och texthämtning. Men vart och ett av dessa forskningsområden har sina egna metoder, praxis och litteratur.

För närvarande är IP ett snabbt växande vetenskapsområde, vars popularitet beror på den exponentiella tillväxten av informationsvolymer, särskilt på Internet . Det finns en stor litteratur och många konferenser som ägnas åt IP. En av de mest kända är TREC , som organiserades 1992 av det amerikanska försvarsdepartementet i samarbete med Institute of Standards and Technology ( NIST ) i syfte att konsolidera forskarsamhället och utveckla metoder för att bedöma kvaliteten på IP.

Begär och begär objekt

När man talar om IP-system använder de termerna request och request object .

En begäran är ett formaliserat sätt att uttrycka en systemanvändares informationsbehov. Sökfrågespråk används för att uttrycka informationsbehov , syntaxen varierar från system till system. Förutom ett speciellt frågespråk låter moderna sökmotorer dig skriva in en fråga på naturligt språk .

Förfrågningsobjektet är en informationsenhet som lagras i databasen i ett automatiserat söksystem. Även om det vanligaste förfrågningsobjektet är ett textdokument finns det inga grundläggande begränsningar. I synnerhet är det möjligt att söka efter bilder, musik och annan multimediainformation . Processen att mata in sökobjekt i IPS kallas indexering . Långt ifrån alltid lagrar IPS en exakt kopia av objektet, ofta lagras istället ett surrogat .

Uppgifter för informationshämtning

IP:s centrala uppgift är att hjälpa användaren att tillfredsställa sitt informationsbehov. Eftersom det är tekniskt svårt att beskriva användarens informationsbehov är de formulerade som en fråga, vilket är en uppsättning nyckelord som kännetecknar det användaren söker.

Det klassiska UI-problemet som startade utvecklingen av detta fält är sökningen efter dokument som uppfyller en fråga inom en viss statisk samling av dokument. Men listan över IP-uppgifter utökas ständigt och inkluderar nu:

Modelleringsfrågor;
Klassificering av dokument ;
Dokumentfiltrering ;
Dokumentklustring ;
Designa sökmotorarkitekturer och användargränssnitt ;
Utdrag av information, särskilt anteckningar och sammanfattningar av dokument;
Fråga språk osv.

Vissa uppgifter ställs också inför IP-motorer för bearbetning av naturliga språk , vilket inkluderar morfologisk analys , upplösning av lexikal polysemi , och så vidare.

Effektivitetsbetyg

Det finns många sätt att utvärdera hur väl de dokument som hittas av IPS matchar en fråga. Tyvärr är konceptet med graden av matchning av en fråga, eller med andra ord relevans , ett subjektivt koncept, och graden av matchning beror på den specifika personen som utvärderar resultatet av frågan.

Precision

Det definieras som förhållandet mellan antalet relevanta dokument som hittats av IPS och det totala antalet dokument som hittats:

{\mbox{Precision}}={\frac {|D_{{rel}}\cap \ D_{{retr}}|}{|D_{{retr}}|}}

var är uppsättningen relevanta dokument i databasen, och är uppsättningen dokument som hittas av systemet. $D_{{rel}}$ $D_{{retr}}$

Fullständighet (återkallelse)

Förhållandet mellan antalet relevanta dokument som hittats och det totala antalet relevanta dokument i databasen:

{\mbox{Recall}}={\frac {|D_{{rel}}\cap \ D_{{retr}}|}{|D_{{rel}}|}}

var är uppsättningen relevanta dokument i databasen, och är uppsättningen dokument som hittas av systemet. $D_{{rel}}$ $D_{{retr}}$

Fall-out

Bortfallet kännetecknar sannolikheten att hitta en irrelevant resurs och definieras som förhållandet mellan antalet irrelevanta dokument som hittats och det totala antalet irrelevanta dokument i databasen:

{\mbox{Fall-out}}={\frac {|D_{{nrel}}\cap \ D_{{retr}}|}{|D_{{nrel}}|}}

var är uppsättningen av irrelevanta dokument i databasen, och är uppsättningen dokument som hittas av systemet. $D_{{nrel}}$ $D_{{retr}}$

F-mått (F-mått, Van Riesbergen-mått)

Ibland är det användbart att kombinera precision och återkallelse till ett enda medelvärde. För detta ändamål är det aritmetiska medelvärdet inte lämpligt, eftersom det till exempel räcker för en sökmotor att returnera alla dokument i allmänhet för att säkerställa ett återkallande lika med ett med en noggrannhet nära noll, och det aritmetiska medelvärdet av precision och återkallelse kommer att vara minst 1/2. Det harmoniska medelvärdet har inte denna nackdel, eftersom det med en stor skillnad i medelvärden närmar sig ett minimum av dem.

Därför är ett bra mått för att gemensamt bedöma precision och återkallelse F-måttet , som definieras som det viktade harmoniska medelvärdet av precision P och återkallande R :

F={\frac {1}{\alpha {\frac {1}{P}}+(1-\alpha ){\frac {1}{R}}}},\qquad \alpha \in [0, ett].

F -måttet skrivs vanligtvis som

F={\frac {(\beta ^{2}+1)PR}{\beta ^{2}P+R)),\qquad \beta ^{2}={\frac {(1-\alpha ) }{\alpha )),\quad \beta ^{2}\i [0,\infty ].

För båda ger F - måttet samma vikt åt noggrannhet och återkallelse och kallas ett balanserat eller -mått (det är vanligt att ange värdet i sänkningen ), uttrycket för det är förenklat $\alfa =1/2$ $\beta=1$ $F_{1}$ $\beta$

F_{1}={\frac {2PR}{P+R}}.

Användningen av ett balanserat F -mått är inte obligatoriskt: noggrannhet är att föredra med mer vikt, och fullständighet får mer vikt. $0<\beta<1$ $\beta>1$

Se även

Anteckningar

↑ Manning et al, 2011 , s. 23.
↑ Övergångar - ANALYZETHIS.RU . Datum för åtkomst: 12 oktober 2013. Arkiverad från originalet 14 oktober 2013. (obestämd)
↑ Sök efter dokument efter detaljer | Federal Archival Agency . archives.ru. Hämtad 1 december 2019. Arkiverad från originalet 2 december 2019. (obestämd)

Litteratur

Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. - Addison-Wesley, 1999. - ISBN 0-201-39829-X .
Manning C., Raghavan P., Schütze H. Introduktion till informationssökning . - Cambridge University Press , 2008. - ISBN 0-521-86571-9 . Översättning: Manning K., Raghavan P., Schütze H. Introduktion till informationssökning. - Williams, 2011. - ISBN 978-5-8459-1623-5 .
Lande D.V., Snarsky A. A. , Bezsudnov I. V. Internet: Navigation i komplexa nätverk: modeller och algoritmer . — M.: Librokom (Redaktionell URSS), 2009. — 264 sid. — ISBN 978-5-397-00497-8 .

Länkar

ru_ir - "Informationssökning"-gemenskap i "LiveJournal"
Yuri Lifshits. Föreläsningskurs "Algorithms for the Internet"
Kuralenok I. E., Nekrestyanov I. S. Recension "Uppskattning av textsöksystem"

Ordböcker och uppslagsverk

I bibliografiska kataloger
BNE : XX535604 BNF : 122132635 GND : 4072803-1 J9U : 987007550614905171 LCCN : sh85066148 NDL : 00575010 NKC : ph163856