Informationsinhämtning är processen att söka efter ostrukturerad dokumentär information som tillfredsställer informationsbehov [ 1] , och vetenskapen kring denna sökning .
Termen "informationssökning" introducerades först av Calvin Muers 1948 i sin doktorsavhandling, publicerad och använt i litteraturen sedan 1950 .
Till en början användes automatiserade IP-system, eller informationshämtningssystem (IPS), endast för att söka efter vetenskaplig information och litteratur. Många universitet och offentliga bibliotek har börjat använda IRS för att ge tillgång till böcker, tidskrifter och andra dokument. IPS blev utbredd med tillkomsten av Internet och utvecklingen av World Wide Web . Bland rysktalande användare är de populäraste [2] sökmotorerna Yandex , Google .
Informationssökning är processen att identifiera i en viss uppsättning dokument ( texter ) alla de som är ägnade åt ett specifikt ämne (ämne), uppfyller ett förutbestämt sökvillkor ( förfrågan ) eller innehåller nödvändiga (motsvarande informationsbehov) fakta , information , data .
Sökprocessen innefattar en sekvens av operationer som syftar till att samla in, bearbeta och tillhandahålla information.
I allmänhet består sökningen efter information av fyra steg:
Fulltextsökning - sök igenom hela innehållet i dokumentet. Ett exempel på en fulltextsökning är valfri sökmotor på Internet, till exempel www.yandex.ru , www.google.com . Vanligtvis använder fulltextsökningar förbyggda index för att påskynda sökningar . Den vanligaste tekniken för fulltextsökningsindex är inverterade index .
Sökning på metadata är en sökning på vissa dokumentattribut som stöds av systemet - dokumenttitel, datum för skapande, storlek, författare, etc. Ett exempel på sökning på attribut är en sökdialog i filsystemet (till exempel MS Windows ).
Bildsökning - Sök efter bildinnehåll. Sökmotorn känner igen innehållet i fotot (laddat upp av användaren eller lagt till av bildens URL). I sökresultaten får användaren liknande bilder. Så här fungerar sökmotorer: Polar Rose , Picollator , etc.
Processen att söka efter handlingar på rent formella grunder som anges i begäran.
Följande villkor krävs för implementering:
Adresserna till dokument kan vara adresserna till webbservrar och webbsidor och delar av en bibliografisk post , och adresserna till lagring av dokument i arkivet.
Processen att söka efter dokument efter deras innehåll .
Villkor:
Den grundläggande skillnaden mellan adresssökning och semantisk sökning är att vid adresssökning betraktas dokumentet som ett objekt i form av form, medan i semantisk sökning, i termer av innehåll.
Semantisk sökning hittar många dokument utan att ange adresser.
Detta är den grundläggande skillnaden mellan kataloger och arkivskåp .
Bibliotek - en samling bibliografiska poster utan adresser.
Processen att söka i lagringen av ett informationshämtningssystem efter primära dokument eller en databas med sekundära dokument som matchar användarens begäran.
Tre typer av dokumentär sökning:
Processen att hitta fakta som matchar en informationsförfrågan.
Faktauppgifter inkluderar information som extraherats från dokument, både primära och sekundära, och som erhållits direkt från källorna till deras förekomst.
Det finns två typer:
Informationssökning är ett stort tvärvetenskapligt vetenskapsområde som står i skärningspunkten mellan kognitiv psykologi , datavetenskap , informationsdesign , lingvistik , semiotik och biblioteksvetenskap .
Informationssökning är processen att identifiera poster i informationsuppsättningen som uppfyller ett förutbestämt sökvillkor eller förfrågan.
IP överväger att söka information i dokument , söka efter dokument själva, extrahera metadata från dokument, söka efter text, bilder, video och ljud i lokala relationsdatabaser, i hypertextdatabaser som Internet och lokala intranätsystem .
Det råder viss förvirring kring begreppen datahämtning, dokumenthämtning, informationshämtning och texthämtning. Men vart och ett av dessa forskningsområden har sina egna metoder, praxis och litteratur.
För närvarande är IP ett snabbt växande vetenskapsområde, vars popularitet beror på den exponentiella tillväxten av informationsvolymer, särskilt på Internet . Det finns en stor litteratur och många konferenser som ägnas åt IP. En av de mest kända är TREC , som organiserades 1992 av det amerikanska försvarsdepartementet i samarbete med Institute of Standards and Technology ( NIST ) i syfte att konsolidera forskarsamhället och utveckla metoder för att bedöma kvaliteten på IP.
När man talar om IP-system använder de termerna request och request object .
En begäran är ett formaliserat sätt att uttrycka en systemanvändares informationsbehov. Sökfrågespråk används för att uttrycka informationsbehov , syntaxen varierar från system till system. Förutom ett speciellt frågespråk låter moderna sökmotorer dig skriva in en fråga på naturligt språk .
Förfrågningsobjektet är en informationsenhet som lagras i databasen i ett automatiserat söksystem. Även om det vanligaste förfrågningsobjektet är ett textdokument finns det inga grundläggande begränsningar. I synnerhet är det möjligt att söka efter bilder, musik och annan multimediainformation . Processen att mata in sökobjekt i IPS kallas indexering . Långt ifrån alltid lagrar IPS en exakt kopia av objektet, ofta lagras istället ett surrogat .
IP:s centrala uppgift är att hjälpa användaren att tillfredsställa sitt informationsbehov. Eftersom det är tekniskt svårt att beskriva användarens informationsbehov är de formulerade som en fråga, vilket är en uppsättning nyckelord som kännetecknar det användaren söker.
Det klassiska UI-problemet som startade utvecklingen av detta fält är sökningen efter dokument som uppfyller en fråga inom en viss statisk samling av dokument. Men listan över IP-uppgifter utökas ständigt och inkluderar nu:
Vissa uppgifter ställs också inför IP-motorer för bearbetning av naturliga språk , vilket inkluderar morfologisk analys , upplösning av lexikal polysemi , och så vidare.
Det finns många sätt att utvärdera hur väl de dokument som hittas av IPS matchar en fråga. Tyvärr är konceptet med graden av matchning av en fråga, eller med andra ord relevans , ett subjektivt koncept, och graden av matchning beror på den specifika personen som utvärderar resultatet av frågan.
Det definieras som förhållandet mellan antalet relevanta dokument som hittats av IPS och det totala antalet dokument som hittats:
,var är uppsättningen relevanta dokument i databasen, och är uppsättningen dokument som hittas av systemet.
Förhållandet mellan antalet relevanta dokument som hittats och det totala antalet relevanta dokument i databasen:
,var är uppsättningen relevanta dokument i databasen, och är uppsättningen dokument som hittas av systemet.
Bortfallet kännetecknar sannolikheten att hitta en irrelevant resurs och definieras som förhållandet mellan antalet irrelevanta dokument som hittats och det totala antalet irrelevanta dokument i databasen:
,var är uppsättningen av irrelevanta dokument i databasen, och är uppsättningen dokument som hittas av systemet.
Ibland är det användbart att kombinera precision och återkallelse till ett enda medelvärde. För detta ändamål är det aritmetiska medelvärdet inte lämpligt, eftersom det till exempel räcker för en sökmotor att returnera alla dokument i allmänhet för att säkerställa ett återkallande lika med ett med en noggrannhet nära noll, och det aritmetiska medelvärdet av precision och återkallelse kommer att vara minst 1/2. Det harmoniska medelvärdet har inte denna nackdel, eftersom det med en stor skillnad i medelvärden närmar sig ett minimum av dem.
Därför är ett bra mått för att gemensamt bedöma precision och återkallelse F-måttet , som definieras som det viktade harmoniska medelvärdet av precision P och återkallande R :
F -måttet skrivs vanligtvis som
För båda ger F - måttet samma vikt åt noggrannhet och återkallelse och kallas ett balanserat eller -mått (det är vanligt att ange värdet i sänkningen ), uttrycket för det är förenklat
Användningen av ett balanserat F -mått är inte obligatoriskt: noggrannhet är att föredra med mer vikt, och fullständighet får mer vikt.
Ordböcker och uppslagsverk | ||||
---|---|---|---|---|
|