Fråge- och svarsystem

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 6 september 2019; kontroller kräver 4 redigeringar .

Frågesvarssystem ( QA-system ; från engelska QA - English Question-answering system ) är ett informationssystem som kan ta emot frågor och besvara dem på naturligt språk , med andra ord är det ett system med ett naturligt språkgränssnitt.

Klassificering

Frågesvarssystem kan delas in i:

Högt specialiserade QA-system fungerar inom specifika områden (till exempel medicin eller bilunderhåll).
Allmänt QA-system arbetar med information inom alla kunskapsområden, därmed blir det möjligt att söka inom närliggande områden.

Arkitektur

De första QA-systemen [1] utvecklades på 1960 -talet och var naturliga språkskal för domänspecifika expertsystem . Moderna system är utformade för att söka efter svar på frågor i tillhandahållna dokument med hjälp av NLP-tekniker ( natural language processing ).

Moderna QA-system inkluderar vanligtvis en speciell modul - frågeklassificerare , som bestämmer typen av fråga och följaktligen det förväntade svaret. Efter denna analys tillämpar systemet gradvis mer och mer komplexa och subtila NLP-metoder på de tillhandahållna dokumenten, vilket kasserar onödig information. Den grovaste metoden, dokumentsökningar , innebär att man använder ett informationshämtningssystem för att välja delar av text som potentiellt innehåller ett svar. Filtret markerar sedan fraser som liknar det förväntade svaret (till exempel för frågan "Vem ..." kommer filtret att returnera bitar av text som innehåller personers namn). Och slutligen kommer svarsmarkeringsmodulen att hitta det korrekta svaret bland dessa fraser.

Arbetsschema

Prestandan hos ett fråge-svar-system beror på effektiviteten hos de textanalysmetoder som används och på textbasens kvalitet - om det inte finns några svar på frågor i det kommer QA-systemet inte att kunna hitta mycket. Ju större databasen är, desto bättre, men bara om den innehåller nödvändig information. Stora arkiv (som Internet) innehåller mycket redundant information [2] . Detta leder till följande punkter:

Eftersom informationen presenteras i olika former är informationens fullständighet högre. Ett QA-system är mer benägna att hitta ett svar.
Rätt information upprepas oftare, så felen i att hitta svar kan minimeras.
Noggrannheten i informationsinhämtningen beror avsevärt på tillförlitligheten hos information i lagringar, såväl som på effektiviteten hos metoder för att analysera information och generera svar.

Problem

2002 skrev en grupp forskare en forskningsplan för frågesvarssystem [3] . Det föreslogs att ta upp följande frågor:

Frågetyper Olika frågor kräver olika metoder för att hitta svar. Därför är det nödvändigt att sammanställa eller förbättra metodologiska listor över typer av möjliga frågor. Frågehantering Samma information kan begäras på olika sätt. Det krävs för att skapa effektiva metoder för att förstå och bearbeta meningens semantik (betydelse). Det är viktigt att programmet känner igen frågor som är likvärdiga i betydelse, oavsett stil , ord, syntaktiska relationer och idiom som används . Jag skulle vilja att QA-systemet delar upp komplexa frågor i flera enkla, och korrekt tolkar sammanhangskänsliga fraser, eventuellt förtydligar dem med användaren under dialogen. Kontextuella frågor Frågor ställs i ett specifikt sammanhang . Kontext kan förfina en fråga, ta bort oklarheter eller följa användarens tankegångar genom en rad frågor. Kunskapskällor för ett QA-system Innan du svarar på frågan skulle det vara trevligt att fråga om de tillgängliga textbaserna. Vilka textbehandlingsmetoder som än används kommer vi inte att hitta rätt svar om det inte finns i databaserna. Markera svar Det korrekta utförandet av denna procedur beror på frågans komplexitet, dess typ, sammanhang, kvaliteten på de tillgängliga texterna, sökmetoden etc. - ett stort antal faktorer. Därför är det nödvändigt att närma sig studiet av textbehandlingsmetoder med all försiktighet, och detta problem förtjänar särskild uppmärksamhet. Svarsformulering Svaret bör vara så naturligt som möjligt. I vissa fall räcker det att bara markera det från texten. Till exempel, om ett namn krävs (namn på en person, namn på en enhet, sjukdom), värde (valutakurs, längd, storlek) eller datum ("När föddes Ivan the Terrible?") - det räcker med ett direkt svar . Men ibland måste du hantera komplexa frågor, och här behöver du speciella algoritmer för att slå samman svar från olika dokument. Svara på frågor i realtid Det är nödvändigt att skapa ett system som kan hitta svar i arkiv på några sekunder, oavsett frågans komplexitet och oklarhet, storleken och viddigheten av dokumentbasen. Flerspråkiga frågor Utveckling av system för att arbeta och söka på andra språk (inklusive automatisk översättning ). interaktivitet Ofta är informationen som ett QA-system erbjuder som svar ofullständig. Kanske har systemet felidentifierat frågetypen eller missuppfattat den. I det här fallet kanske användaren inte bara vill omformulera sin begäran, utan också "förklara" med programmet med hjälp av en dialog. Resonemangsmekanism (inferens) Vissa användare vill ha ett svar som går utöver de tillgängliga texterna. För att göra detta är det nödvändigt att till QA-systemet lägga till kunskap som är gemensam för de flesta områden (se Allmänna ontologier inom datavetenskap ), samt verktyg för att automatiskt härleda ny kunskap. Användarprofiler för QA-system Information om användaren, såsom intresseområde, sätt att tala och resonemang, standardfakta, kan avsevärt öka systemets prestanda.

Anvisningar för utveckling av frågesvarssystem

Sedan uppkomsten av de första prototyperna av frågesvarssystem har deras omfattning utökats avsevärt [4] . De används till exempel i svar på frågor relaterade till tid, geolokaliseringsfrågor, definitionsfrågor, bibliografiska, flerspråkiga frågor, frågor relaterade till multimedia (visuell, ljud- och videoinformation). Närliggande områden studeras, såsom att bygga interaktiva QA-system (förtydliga frågor som krävs för att förtydliga originalet), återanvända svar och representera kunskap, använda slutsatser från tillgänglig information för att få svar på frågor, etc., förutsäga vilka frågor som kan ställas, sentiment analys.

Bedömning av kvaliteten på frågesvarssystem

Frågesvarssystem diskuteras löpande inom ramen för projekt: TREC [5] , CLEF[6] , NTCIR [7] , ROMIP [8] .

Anteckningar

↑ Hirschman, L. & Gaizauskas, R. (2001) Svara på naturliga språkfrågor. The View from Here Arkiverad 29 januari 2012 på Wayback Machine . Natural Language Engineering (2001), 7:4:275-300 Cambridge University Press.
↑ Lin, J. (2002). Webben som en resurs för att besvara frågor: Perspektiv och utmaningar. I Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002).
↑ Burger, J., Cardie, C., Chaudhri, V., Gaizauskas, R., Harabagiu, S., Israel, D., Jacquemin, C., Lin, CY., Maiorano, S., Miller, G. , Moldavan, D., Ogden, B., Prager, J., Riloff, E., Singhal, A., Shrihari, R., Strzalkowski, T., Voorhees, E., Weishedel, R. Issues, Tasks and Program Strukturer för färdplansforskning i fråga om svar (QA) Arkiverad 25 april 2012 på Wayback Machine .
↑ Maybury, MT-redaktör. 2004. Nya anvisningar i fråga om svar. Arkiverad 3 mars 2021 på Wayback Machine AAAI/MIT Press.
↑ TREC-tävling Arkiverad 24 juni 2007 på Wayback Machine
↑ CLEF utvärderingskampanj Arkiverad 23 juni 2007 på Wayback Machine
↑ NTCIR-projektet Arkiverad 1 juli 2007 på Wayback Machine
↑ ROMIP . Hämtad 4 juni 2014. Arkiverad från originalet 18 juni 2014. (obestämd)

Litteratur

Dragomir R. Radev, John Prager och Valerie Samn. Rangordna misstänkta svar på naturliga språkfrågor med hjälp av prediktiv annotering . I Proceedings of the 6th Conference on Applied Natural Language Processing, Seattle, WA, maj 2000.
Hovy, E., Gerber, L., Hermjakob, U., Junk, M. & Lin, C. (2000) Question Answering in Webclopedia. I: 9:e texthämtningskonferensen.
Huettner, A. (2000) Frågesvar. I: 5:e sökmotormötet.
John Prager, Eric Brown, Anni Coden och Dragomir Radev. Frågesvar genom prediktiv anteckning . In Proceedings, 23:e årliga internationella ACM SIGIR-konferensen om forskning och utveckling inom informationssökning, Aten, Grekland, juli 2000.
Katz, B., Felshin, S. & Lin, J. (2002) START Multimedia Information System: Aktuell teknik och framtida riktningar. I: International Workshop on Multimedia Information Systems.
Wong, W. (2005) Praktiskt tillvägagångssätt för kunskapsbaserade frågesvar med naturlig språkförståelse och avancerad resonemang . I: Mästare; National Technical University College i Malaysia.

Länkar

QA-system och demos

Ett av de första START -fråga-svar-systemen som publicerades på Internet på MIT :s webbplats .
AskNet Search frågesvarssystem på asknet.ru ( ursprungligen Stocona Search).
BrainBoost fråge-och-svar-system på Answers.com(ursprungligen BrainBoost.com).
QA-system inbyggt i Ask.com -sökmotorn .
Fråge- och svarsystem OpenEphyra öppen källkod.
Flerspråkigt QA-system askEd!m ( engelska , japanska (nedlänk sedan 2013-05-13 [3451 dagar] - historik ) , kinesiska (nedlänk sedan 2013-05-13 [3451 dagar] - historia ) , ryska (nedlänk från 13/05 /2013 [3451 dagar] - historia ) och svenska (länk ej tillgänglig från 2013-05-13 [3451 dagar] - historia ) ).
Project Evi av True Knowledge.

Specialiserade QA-system

EAGLi : MEDLINE frågesvarsmotor .

naturlig språkbehandling
Allmänna definitioner	Korpus av texter talkorpus Stoppa ord påse med ord AI fullständighet N-gram Bigram chiffer trigram
Textanalys	Textsegmentering Delvis markering Ytanalys Sammansatt ordbehandling Extrahera samlokaliseringar härrörande Lematisering Named Entity Recognition Coreference resolution Textsentimentanalys Konceptextraktion analysera Upplösning av lexikal polysemi Extrahera terminologi Informationsextraktion Språkidentifiering Falldefinition
Refererar	Extrahera meningar Abstrakt generation Referens till flera dokument Textförenkling
Maskinöversätta	automatiserad Hybrid Interlingual Regelbaserad Baserat på exempel Ordboksbaserad Baserat på transformation neural Statistisk Synkron
Identifiering och datainsamling	Taligenkänning talsyntes Optisk teckenigenkänning Textgenerering
Tematisk modell	Pachinko placering Latent Dirichlet placering Latent semantisk analys
Peer review	Automatiserad bedömning av uppsatser Konkordansör Automatisk textinmatning Grammatikkontroll Stavningskontroll Syntax gissning
Naturligt språkgränssnitt	virtuell assistent Virtuell samtalspartner Fråge- och svarsystem Röstgränssnitt Interaktiv litteratur

Webb och hemsidor
globalt	World Wide Web Webb 1.0 Webb 2.0 Webb 3.0 semantisk webb Neuronet
Lokalt	Hemsida Portal Sida Service Ringa
Typer av webbplatser och tjänster	Virtuell atlas banner nätverk Bibliotek Blogg ( plattform ) Videohosting Wiki Visitkortsajt Fråga Svar Bokmärken dejtingtjänster webbläsarspel Resurskatalog Webbutik mikroblogg nyhetssajt Söksystem porrsajt Webbmail Socialt nätverk Tumblelog BitTorrent tracker Filvärd Forum Service Bildtavla Fotovärd Chatt
Skapande och underhåll	Bemästra Utveckling Design Layout Programmering användbarhet Interaktionsupplevelse Webbsida marknadsföring Sökmotoroptimering (SEO) Värdskap Systemadministratör moderator konto Tillstånd
Typer av layouter, sidor, webbplatser	Statisk Dynamisk Fast Sudd dynamiskt elastisk Adaptiv
Teknisk	webbserver Webbläsare DNS CMF CMS HTTP ( svar rubriker ) SPDY QUIC CGI HTML XHTML css PHP JavaScript DHTML kaka DOM XML AJAX JSON Blixt RSS atom angivare Mikroformat favicon.ico _ robots.txt Webbplatskartor webbplatsens karta .htaccess
Marknadsföring	Internet marknadsföring Internetreklam Baner kontextuell reklam Förhandstitt Cybersquatting
Samhälle och kultur	Bloggsfären Internetgemenskap ( distrikt ) Nätverkslitteratur