Informationsextraktion

Informationsextraktion är uppgiften att automatiskt extrahera (bygga) strukturerad data från ostrukturerade eller semi - strukturerade maskinläsbara dokument.

Informationsextraktion är en typ av informationsinhämtning förknippad med textbehandling på naturligt språk . Ett exempel på att extrahera information kan vara sökandet efter affärsbesök - formellt skrivs det så här: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) - från nyhetsflöden , såsom: "Igår, 1 april 2007, besökte representanter för Pepelac International Corporation kontoret för Gravitsap Productions." Huvudmålet med en sådan transformation är förmågan att analysera initialt "kaotisk" information med hjälp av standarddatabehandlingsmetoder . [1] Ett snävare mål kan till exempel vara uppgiften att identifiera logiska mönster i de händelser som beskrivs i texten. [2]

I modern informationsteknik ökar rollen för ett sådant förfarande som att extrahera information mer och mer - på grund av den snabba ökningen av mängden ostrukturerad (utan metadata ) information, särskilt på Internet . Denna information kan göras mer strukturerad genom att konvertera den till relationsform eller genom att lägga till XML -uppmärkning. [3] När du övervakar nyhetsflöden med intelligenta agenter behöver du metoder för att extrahera information och omvandla den till en form som kommer att vara mer bekväm att arbeta med senare.

En typisk uppgift att extrahera information är att skanna en uppsättning dokument på naturligt språk och fylla i en databas med extraherad användbar information. Moderna metoder för informationsinhämtning använder naturliga språkbehandlingsmetoder som endast tar upp en mycket begränsad uppsättning ämnen (frågor, problem) - ofta bara ett ämne. Till exempel är Message Understanding Conference (MUC ) en konkurrenskraftig konferens och har tidigare fokuserat på:

MUC-1 (1987), MUC-2 (1989): Sjöoperationer.
MUC-3 (1991), MUC-4 (1992): Terrorism i latinamerikanska länder.
MUC-5 (1993): Microelectronics Venture Operations.
MUC-6 (1995): Nyhetsartiklar om förändringar i ledningsprocesser.
MUC-7 (1998): Satellituppskjutningsrapporter.

Texter på naturligt språk kan kräva någon form av preliminär omvandling till ett språk (till exempel RDF - Resource Description Framework) som är begripligt för en dator.

Typiska deluppgifter för informationsutvinning:

Erkännande av namngivna element ( enheter ), till exempel: namn på personer, namn på organisationer, geografiska namn, evenemang, tillfälliga och monetära beteckningar, etc.
Upplösning av anafora och coreferences : letar efter anslutningar som refererar till samma objekt. Ett typiskt fall av sådana referenser är den pronominala anaforan.
Identifiering av terminologi: hitta nyckelord och fraser ( samlokaliseringar ) för en given text.
Autoabstrahering : urval av semantisk, emotionell, utvärderande, etc. information från texten. Det kan vara generativt och deklarativt.

Anteckningar

↑ Databehandling kan bland annat förstås och helt enkelt deras ackumulering i en databas .
↑ Data mining hanterar denna uppgift .
↑ Konceptet med utvecklingen av Internet, där en fil med metadata i XML-format bifogas varje dokument , kallas den semantiska webben och anses vara mycket lovande; men det är värt att notera: detta är inte samma sak som att transformera själva dokumentet.

Se även

Länkar

främmande språk

https://web.archive.org/web/20110718185816/http://extraccioninformacion.iespana.es/ Extracción informacion (spansk webbplats)
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ MUC
http://projects.ldc.upenn.edu/ace/ Arkiverad 25 september 2013 på Wayback Machine ACE (LDC)
https://web.archive.org/web/20060308054306/http://www.itl.nist.gov/iad/894.01/tests/ace/ ACE (NIST)
http://lcl2.di.uniroma1.it (inte tillgänglig länk) - TermExtractor
TermFinder , on-line terminologiextraktor för EN, FR & IT - webbapplikation
Videotutorials, föredrag, föreläsningar Videolectures.net
Automatisera extrahering av metadata för företagssökning och mashups (Apache UIMA)

Kunskapsteknik
Allmänna begrepp	Data metadata Kunskap metakunskap Kunskapsrepresentation Kunskapsbas Ontologi semantisk webb
Stela modeller	Produkter Semantiska nätverk Ramar Logisk modell
Mjuka metoder	Neuralt nätverk evolutionär modellering rolig logik
Ansökningar	Expert system Data mining Informationsextraktion Virtuella samtalspartner Hybrid intelligenta system
Artificiell intelligens Maskininlärning naturlig språkbehandling

naturlig språkbehandling
Allmänna definitioner	Korpus av texter talkorpus Stoppa ord påse med ord AI fullständighet N-gram Bigram chiffer trigram
Textanalys	Textsegmentering Delvis markering Ytanalys Sammansatt ordbehandling Extrahera samlokaliseringar härrörande Lematisering Named Entity Recognition Coreference resolution Textsentimentanalys Konceptextraktion analysera Upplösning av lexikal polysemi Extrahera terminologi Informationsextraktion Språkidentifiering Falldefinition
Refererar	Extrahera meningar Abstrakt generation Referens till flera dokument Textförenkling
Maskinöversätta	automatiserad Hybrid Interlingual Regelbaserad Baserat på exempel Ordboksbaserad Baserat på transformation neural Statistisk Synkron
Identifiering och datainsamling	Taligenkänning talsyntes Optisk teckenigenkänning Textgenerering
Tematisk modell	Pachinko placering Latent Dirichlet placering Latent semantisk analys
Peer review	Automatiserad bedömning av uppsatser Konkordansör Automatisk textinmatning Grammatikkontroll Stavningskontroll Syntax gissning
Naturligt språkgränssnitt	virtuell assistent Virtuell samtalspartner Fråge- och svarsystem Röstgränssnitt Interaktiv litteratur