Textutvinning

Text mining ( IAT , engelsk  text mining ) är en riktning inom artificiell intelligens , vars syfte är att få information från samlingar av textdokument , baserat på användningen av praktiska metoder för maskininlärning och naturlig språkbehandling . Namnet "text mining" har något gemensamt med begreppet " data mining " ( IAD , eng.  data mining), som uttrycker likheten mellan deras mål, tillvägagångssätt för informationsbehandling och användningsområden; skillnaden visar sig endast i de slutliga metoderna, och även i det faktum att IAD behandlar arkiv och databaser , och inte elektroniska bibliotek och textkorpus .

IAT Task Groups

Nyckelgrupperna för IAT-uppgifter är: textkategorisering, informationsextraktion och informationshämtning , bearbetning av ändringar i textsamlingar och utveckling av sätt att presentera information för användaren. [ett]

Kategorisering av dokument består i att tilldela dokument från en samling till en eller flera grupper (klasser, kluster) av liknande texter (till exempel efter ämne eller stil). Kategorisering kan ske med deltagande av en person och utan honom. I det första fallet, kallat klassificering av dokument , måste IAT-systemet tillskriva texter till redan definierade (bekvämt för det) klasser. När det gäller maskininlärning kräver detta övervakad inlärning , för vilken användaren måste förse IAT-systemet med både en uppsättning klasser och exempel på dokument som hör till dessa klasser.

Det andra fallet med kategorisering kallas dokumentklustring . Samtidigt måste IAT-systemet självt bestämma uppsättningen av kluster över vilka texter kan distribueras - i maskininlärning kallas motsvarande uppgift för oövervakad inlärning . I det här fallet måste användaren informera IAT-systemet om antalet kluster i vilka han vill dela upp samlingen som bearbetas (det antas att proceduren för att välja funktioner redan ingår i programalgoritmen ).

Applikation

På senare tid har textanalys väckt mer och mer uppmärksamhet inom olika områden som säkerhet, handel och vetenskap.

Säker

Många textanalyspaket, som Aerotext och Attensity , riktar sig till marknaden för säkerhetsapplikationer, särskilt analys av vanliga textkällor som nyhetssajter.

I programvaran

Forsknings- och utvecklingsdivisioner av stora företag som IBM , Apple och Microsoft undersöker textanalystekniker med målet att framtida automatisering av dataanalys och extraheringsprocesser.

Anteckningar

  1. Berry, 2003 , sid. xi.

Litteratur

På ryska:

På engelska: