Att lära sig rangordna ( lära sig att rangordna eller maskininlärt rangordning, MLR ) [1] är en klass av övervakade maskininlärningsuppgifter som består i att automatiskt välja en rangordningsmodell från en träningsuppsättning som består av en uppsättning listor och givna delordningar på element inom varje lista. Delordning anges vanligtvis genom att ange en poäng för varje objekt (t.ex. "relevant" eller "icke relevant", fler än två graderingar är möjliga). Målet med en rankningsmodell är att bäst (i någon mening) approximera och generalisera rankningsmetoden i träningsuppsättningen till ny data.
Rankinginlärning är fortfarande ett ganska ungt forskningsfält i snabb utveckling, som uppstod på 2000-talet i och med att intresset för informationsinhämtning växte fram för att tillämpa maskininlärningsmetoder på rankningsproblem.
När det gäller sökmotorer är varje lista en uppsättning dokument som uppfyller vissa sökfrågor.
Utbildningsexemplet består av ett urval av sökfrågor, en delmängd av dokument som motsvarar dem och uppskattningar av varje dokuments relevans för frågan. De kan förberedas både manuellt, av specialutbildade personer (utvärderare av sökkvalitet eller bedömare ), eller automatiskt, baserat på analys av användarklick [2] eller sökmotorverktyg såsom SearchWiki- systemet i Googles sökmotor .
Under träningen av rankningsmodellen och under dess drift översätts varje dokument-begäran-par till en numerisk vektor av rankningsfunktioner (även kallade rankningsfaktorer eller signaler) som kännetecknar dokumentets egenskaper, frågan och deras relation. Dessa tecken kan delas in i tre grupper:
Följande är några exempel på rankningsfunktioner som används i den välkända LETOR -datauppsättningen inom detta forskningsområde : [5]
Det finns flera mätvärden som utvärderar och jämför prestandan för rankningsalgoritmer på ett urval med peer reviews. Ofta tenderar parametrarna för rankningsmodellen att justeras på ett sådant sätt att värdet av en av dessa mätvärden maximeras.
Exempel på mätvärden:
I sin artikel "Learning to Rank for Information Retrieval" [1] och presentationer vid tematiska konferenser analyserade Tai-Yan Liu från Microsoft Research Asia de metoder som för närvarande finns tillgängliga för att lösa problemet med att lära sig rangordna och föreslog deras klassificering i tre tillvägagångssätt, beroende på på använd indatarepresentation och strafffunktion:
I det punktvisa tillvägagångssättet antas det att varje fråge-dokumentpar tilldelas en numerisk poäng. Uppgiften att lära sig rangordna reduceras till att bygga en regression : för varje enskilt fråge-dokumentpar är det nödvändigt att förutsäga dess poäng.
Inom detta tillvägagångssätt kan många maskininlärningsalgoritmer tillämpas på regressionsproblem. När poängen bara kan ta ett fåtal värden kan algoritmer för ordinalregression och klassificering också användas.
I det parvisa tillvägagångssättet handlar det om att lära sig rangordna att bygga en binär klassificerare, som tar emot två dokument som motsvarar samma fråga som indata, och det krävs för att avgöra vilken som är bättre.
Exempel på algoritmer: [1] RankNet, FRank, RankBoost, RankSVM, IR-SVM.
Det listmässiga tillvägagångssättet består i att bygga en modell, vars ingång omedelbart är alla dokument som matchar frågan, och resultatet är deras permutation . Modellparameteranpassning utförs för att direkt maximera en av ovanstående rankningsmått. Men detta är ofta svårt, eftersom rankningsmåtten vanligtvis inte är kontinuerliga och icke-differentierade med avseende på parametrarna för rankningsmodellen, så de tar till att maximera några av sina approximationer eller lägre uppskattningar.
Exempel på algoritmer: [1] SoftRank, SVM map , AdaRank, RankGP, ListNet, ListMLE.
Sökmotorer för många moderna sökmotorer på Internet, inklusive Yandex , Yahoo [7] och Bing , använder rankningsmodeller byggda av maskininlärningsmetoder. Bings sökning använder RankNet- algoritmen . [8] Den senaste rankningsalgoritmen för maskininlärning som utvecklats och används i Yandex sökmotor kallas MatrixNet; [9] Yandex sponsrade själv tävlingen Internet Mathematics 2009 [10] för att bygga en rankningsalgoritm baserad på dess egen datamängd.
I en intervju i början av 2008 sa Peter Norvig , forskningschef på Google , att deras sökmotor ännu inte var redo att helt anförtro rankningen till maskininlärningsalgoritmer, med hänvisning till det faktum att, för det första, automatiskt genererade modeller kan bete sig oförutsägbart på nya klasser av frågor som inte liknar frågor från utbildningsprovet, jämfört med modeller skapade av mänskliga experter. För det andra är skaparna av den nuvarande Googles rankningsalgoritm övertygade om att deras modell också kan lösa problem mer effektivt än maskininlärning. [11] Det första skälet är av mycket mer betydande intresse för oss, eftersom det inte bara går tillbaka till ett så välkänt problem inom induktiv logik, formulerat av den tyske matematikern C.G. Hempel och i konflikt med intuitionen (påståendet "alla korpar är svarta" motsvarar logiskt "alla icke-svarta föremål är inte korpar"), men får oss också att återvända till ett antal olösta frågor om F. Rosenblatt, som skapade världens första neurala nätverk som kan perception och bildandet av ett svar på den upplevda stimulansen - en enkellagersperceptron. [12] Baserat på kritiken av Rosenblatts elementära perceptron kan vi förstå hela sårbarheten i denna klassificeringsmodell, som Googles experter berättar om: är artificiella system som kan generalisera sin individuella upplevelse till en bred klass av situationer för vilka svaret var inte meddelat dem i förväg? Nej, den individuella upplevelsen av konstgjorda system i praktiken är alltid begränsad och aldrig komplett. På ett eller annat sätt låter maskininlärningsverktyg dig lösa problemet med spamdexing med en ganska hög grad av effektivitet. [13]
Maskininlärning och datautvinning | |
---|---|
Uppgifter | |
Att lära sig med en lärare | |
klusteranalys | |
Dimensionalitetsreduktion | |
Strukturell prognos | |
Anomali upptäckt | |
Grafisk probabilistiska modeller | |
Neurala nätverk | |
Förstärkningsinlärning |
|
Teori | |
Tidskrifter och konferenser |
|