Ranking utbildning

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 2 augusti 2019; kontroller kräver 4 redigeringar .

Att lära sig rangordna ( lära sig att rangordna eller maskininlärt rangordning, MLR ) [1] är en klass av övervakade maskininlärningsuppgifter som består i att automatiskt välja en rangordningsmodell från en träningsuppsättning som består av en uppsättning listor och givna delordningar på element inom varje lista. Delordning anges vanligtvis genom att ange en poäng för varje objekt (t.ex. "relevant" eller "icke relevant", fler än två graderingar är möjliga). Målet med en rankningsmodell är att bäst (i någon mening) approximera och generalisera rankningsmetoden i träningsuppsättningen till ny data.

Rankinginlärning är fortfarande ett ganska ungt forskningsfält i snabb utveckling, som uppstod på 2000-talet i och med att intresset för informationsinhämtning växte fram för att tillämpa maskininlärningsmetoder på rankningsproblem.

Applikation i informationssökning

När det gäller sökmotorer är varje lista en uppsättning dokument som uppfyller vissa sökfrågor.

Utbildningsexemplet består av ett urval av sökfrågor, en delmängd av dokument som motsvarar dem och uppskattningar av varje dokuments relevans för frågan. De kan förberedas både manuellt, av specialutbildade personer (utvärderare av sökkvalitet eller bedömare ), eller automatiskt, baserat på analys av användarklick [2] eller sökmotorverktyg såsom SearchWiki- systemet i Googles sökmotor .

Ranking funktioner

Under träningen av rankningsmodellen och under dess drift översätts varje dokument-begäran-par till en numerisk vektor av rankningsfunktioner (även kallade rankningsfaktorer eller signaler) som kännetecknar dokumentets egenskaper, frågan och deras relation. Dessa tecken kan delas in i tre grupper:

Frågeoberoende eller statiska funktioner - endast beroende av dokumentet, men inte på begäran. Till exempel, PageRank eller dokumentlängd. Sådana funktioner beräknas vanligtvis vid dokumentindexering och används ofta för att konstruera ett statiskt dokumentkvalitetspoäng som används för att förbättra sökmotorernas prestanda. [3] [4]
Funktioner som endast beror på begäran. Till exempel "begäran om porr eller inte."
Frågeberoende eller dynamiska funktioner - beroende på både dokumentet och begäran. Till exempel TF-IDF- måttet för dokumentkompatibilitet med en fråga.

Följande är några exempel på rankningsfunktioner som används i den välkända LETOR -datauppsättningen inom detta forskningsområde : [5]

Värden för åtgärderna TF, TF-IDF , BM25 och språkmodellen för att matcha begäran från olika zoner i dokumentet (titel, URL , brödtext, länktext);
Längder och IDF - summor av zoner i dokumentet;
Dokumentrankningar som erhålls av olika varianter av länkrankningsalgoritmer som PageRank och HITS .

Rankning kvalitetsmått

Det finns flera mätvärden som utvärderar och jämför prestandan för rankningsalgoritmer på ett urval med peer reviews. Ofta tenderar parametrarna för rankningsmodellen att justeras på ett sådant sätt att värdet av en av dessa mätvärden maximeras.

Exempel på mätvärden:

DCG och NDCG _
Noggrannhet @ n , NDCG@ n (@ n betyder att det metriska värdet endast beaktas för de n bästa emissionsdokumenten);
KARTA ;
medelvärde omvänd rang ;
pfound är utvecklat av Yandex . [6]

Klassificering av algoritmer

I sin artikel "Learning to Rank for Information Retrieval" [1] och presentationer vid tematiska konferenser analyserade Tai-Yan Liu från Microsoft Research Asia de metoder som för närvarande finns tillgängliga för att lösa problemet med att lära sig rangordna och föreslog deras klassificering i tre tillvägagångssätt, beroende på på använd indatarepresentation och strafffunktion:

Pointwise approach

I det punktvisa tillvägagångssättet antas det att varje fråge-dokumentpar tilldelas en numerisk poäng. Uppgiften att lära sig rangordna reduceras till att bygga en regression : för varje enskilt fråge-dokumentpar är det nödvändigt att förutsäga dess poäng.

Inom detta tillvägagångssätt kan många maskininlärningsalgoritmer tillämpas på regressionsproblem. När poängen bara kan ta ett fåtal värden kan algoritmer för ordinalregression och klassificering också användas.

Parvis tillvägagångssätt

I det parvisa tillvägagångssättet handlar det om att lära sig rangordna att bygga en binär klassificerare, som tar emot två dokument som motsvarar samma fråga som indata, och det krävs för att avgöra vilken som är bättre.

Exempel på algoritmer: [1] RankNet, FRank, RankBoost, RankSVM, IR-SVM.

Listansats

Det listmässiga tillvägagångssättet består i att bygga en modell, vars ingång omedelbart är alla dokument som matchar frågan, och resultatet är deras permutation . Modellparameteranpassning utförs för att direkt maximera en av ovanstående rankningsmått. Men detta är ofta svårt, eftersom rankningsmåtten vanligtvis inte är kontinuerliga och icke-differentierade med avseende på parametrarna för rankningsmodellen, så de tar till att maximera några av sina approximationer eller lägre uppskattningar.

Exempel på algoritmer: [1] SoftRank, SVM map , AdaRank, RankGP, ListNet, ListMLE.

Praktisk tillämpning

I stora sökmotorer

Sökmotorer för många moderna sökmotorer på Internet, inklusive Yandex , Yahoo [7] och Bing , använder rankningsmodeller byggda av maskininlärningsmetoder. Bings sökning använder RankNet- algoritmen . [8] Den senaste rankningsalgoritmen för maskininlärning som utvecklats och används i Yandex sökmotor kallas MatrixNet; [9] Yandex sponsrade själv tävlingen Internet Mathematics 2009 [10] för att bygga en rankningsalgoritm baserad på dess egen datamängd.

I en intervju i början av 2008 sa Peter Norvig , forskningschef på Google , att deras sökmotor ännu inte var redo att helt anförtro rankningen till maskininlärningsalgoritmer, med hänvisning till det faktum att, för det första, automatiskt genererade modeller kan bete sig oförutsägbart på nya klasser av frågor som inte liknar frågor från utbildningsprovet, jämfört med modeller skapade av mänskliga experter. För det andra är skaparna av den nuvarande Googles rankningsalgoritm övertygade om att deras modell också kan lösa problem mer effektivt än maskininlärning. [11] Det första skälet är av mycket mer betydande intresse för oss, eftersom det inte bara går tillbaka till ett så välkänt problem inom induktiv logik, formulerat av den tyske matematikern C.G. Hempel och i konflikt med intuitionen (påståendet "alla korpar är svarta" motsvarar logiskt "alla icke-svarta föremål är inte korpar"), men får oss också att återvända till ett antal olösta frågor om F. Rosenblatt, som skapade världens första neurala nätverk som kan perception och bildandet av ett svar på den upplevda stimulansen - en enkellagersperceptron. [12] Baserat på kritiken av Rosenblatts elementära perceptron kan vi förstå hela sårbarheten i denna klassificeringsmodell, som Googles experter berättar om: är artificiella system som kan generalisera sin individuella upplevelse till en bred klass av situationer för vilka svaret var inte meddelat dem i förväg? Nej, den individuella upplevelsen av konstgjorda system i praktiken är alltid begränsad och aldrig komplett. På ett eller annat sätt låter maskininlärningsverktyg dig lösa problemet med spamdexing med en ganska hög grad av effektivitet. [13]

Anteckningar

↑ 1 2 3 4 Tie-Yan Liu (2009), Lära sig att rangordna för informationssökning , grunder och trender inom informationssökning: Vol. 3: Nr 3, sid. 225-331, ISBN 978-1-60198-244-5 , DOI 10.1561/1500000016 . Bilder tillgängliga Arkiverade 31 mars 2010. från T. Lews tal vid WWW 2009-konferensen.
↑ Optimera sökmotorer med hjälp av klickdata . Hämtad 18 november 2009. Arkiverad från originalet 29 december 2009. (obestämd)
↑ Statiska kvalitetspoäng och beställning . Hämtad 18 november 2009. Arkiverad från originalet 7 juli 2009. (obestämd)
↑ Richardson, M.; Prakash, A. och Brill, E. (2006). "Beyond PageRank: Machine Learning for Static Ranking" (PDF) . Proceedings of the 15th International World Wide Web Conference . pp. 707–715. Arkiverad (PDF) från originalet 2009-08-15. Utfasad parameter används |deadlink=( hjälp )
↑ LETOR 3.0. En benchmarksamling för att lära sig rangordna för informationssökning . Hämtad 18 november 2009. Arkiverad från originalet 16 februari 2012. (obestämd)
↑ Gulin A., Karpovich P., Raskovalov D., Segalovich I. Yandex på ROMIP'2009. Optimering av rankningsalgoritmer genom maskininlärningsmetoder. Arkiverad 22 november 2009 på Wayback Machine
↑ Yahoo lanserar världens största Hadoop-produktionsapplikation arkiverad 21 december 2009 på Wayback Machine
↑ Bing Search Blog: Användarbehov, funktioner och vetenskapen bakom Bing Arkiverad 25 november 2009 på Wayback Machine
↑ Roem.ru: Yandex lanserade en ny Snezhinsk-formel, nu finns det tusen variabler istället för 250. . Hämtad 20 november 2009. Arkiverad från originalet 13 november 2009. (obestämd)
↑ Internet Mathematics 2009 (otillgänglig länk) . Hämtad 20 november 2009. Arkiverad från originalet 15 november 2009. (obestämd)
↑ Är maskinlärda modeller benägna att drabbas av katastrofala fel? Arkiverad från originalet den 18 september 2010. (Engelsk)
↑ Perceptrons: An Associative Learning Network Arkiverad 9 augusti 2011 på Wayback Machine
↑ Sökmotorspamdetektering. Del 15: Tillämpning av artificiella neurala nätverk arkiverad 10 mars 2013 på Wayback Machine (ryska)

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-Net Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG