Informationsextraktion

Informationsextraktion är uppgiften att  automatiskt extrahera (bygga) strukturerad data från ostrukturerade eller semi - strukturerade maskinläsbara dokument.

Informationsextraktion är en typ av informationsinhämtning förknippad med textbehandling på naturligt språk . Ett exempel på att extrahera information kan vara sökandet efter affärsbesök - formellt skrivs det så här: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) - från nyhetsflöden , såsom: "Igår, 1 april 2007, besökte representanter för Pepelac International Corporation kontoret för Gravitsap Productions." Huvudmålet med en sådan transformation är förmågan att analysera initialt "kaotisk" information med hjälp av standarddatabehandlingsmetoder . [1] Ett snävare mål kan till exempel vara uppgiften att identifiera logiska mönster i de händelser som beskrivs i texten. [2]

I modern informationsteknik ökar rollen för ett sådant förfarande som att extrahera information mer och mer - på grund av den snabba ökningen av mängden ostrukturerad (utan metadata ) information, särskilt på Internet . Denna information kan göras mer strukturerad genom att konvertera den till relationsform eller genom att lägga till XML -uppmärkning. [3] När du övervakar nyhetsflöden med intelligenta agenter behöver du metoder för att extrahera information och omvandla den till en form som kommer att vara mer bekväm att arbeta med senare.

En typisk uppgift att extrahera information är att skanna en uppsättning dokument på naturligt språk och fylla i en databas med extraherad användbar information. Moderna metoder för informationsinhämtning använder naturliga språkbehandlingsmetoder som endast tar upp en mycket begränsad uppsättning ämnen (frågor, problem) - ofta bara ett ämne. Till exempel är Message Understanding Conference (MUC ) en konkurrenskraftig konferens och har tidigare fokuserat på:

Texter på naturligt språk kan kräva någon form av preliminär omvandling till ett språk (till exempel RDF  - Resource Description Framework) som är begripligt för en dator.

Typiska deluppgifter för informationsutvinning:

Anteckningar

  1. Databehandling kan bland annat förstås och helt enkelt deras ackumulering i en databas .
  2. Data mining hanterar denna uppgift .
  3. Konceptet med utvecklingen av Internet, där en fil med metadata i XML-format bifogas varje dokument , kallas den semantiska webben och anses vara mycket lovande; men det är värt att notera: detta är inte samma sak som att transformera själva dokumentet.

Se även

Länkar

främmande språk