Dimensionens förbannelse

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 28 april 2021; kontroller kräver 4 redigeringar .

The Curse of Dimensionality (CU) är en term som används i relation till ett antal egenskaper hos högdimensionella utrymmen och kombinatoriska problem . Först och främst handlar detta om den exponentiella tillväxten av nödvändiga experimentella data beroende på rummets dimension vid lösning av problem med probabilistisk-statistisk mönsterigenkänning , maskininlärning , klassificering och diskriminantanalys . Detta gäller även den exponentiella ökningen av antalet alternativ i kombinatoriska problem beroende på storleken på initialdata, vilket leder till en motsvarande ökning av komplexiteten i uppräkningsalgoritmer. "Förbannelsen" påverkar också kontinuerliga optimeringsmetoder på grund av komplexiteten i den flerdimensionella objektivfunktionen. I en vidare mening tillämpas termen på alla "obekväma" eller ovanliga egenskaper hos högdimensionella utrymmen och på svårigheterna med deras studier. I kombinatorik menar de ofta inte dimensionen av rymden, utan storleken på de initiala data. Speciellt i problem med Ramsey-teorin skulle det vara mer korrekt att tala om "förbannelsen av storlek" för de initiala data även i fallet med problem med minimal dimension - antalet parametrar som definierar problemet. Termen introducerades först av Richard Bellman i relation till det allmänna problemet med dynamisk programmering [1] [2] . Detta uttryck fortsätter att användas i arbeten om teknisk kybernetik, maskininlärning och analys av komplexa system, inklusive i titlarna på vetenskapliga artiklar [3] .

Typiska exempel

I igenkänningsproblem

I probabilistiska igenkänningsproblem finns det två situationer där dimensionalitetens förbannelse kan övervinnas med hjälp av allmänna tillvägagångssätt.

  1. En situation är möjlig när fördelningen av en vektor av inbördes beroende slumpvariabler är koncentrerad i ett delrum med lägre dimension, det vill säga vektorn kan väl approximeras av en linjär funktion av ett mindre antal variabler. I det här fallet tillåter huvudkomponentmetoden en att minska dimensionen. Vidare kan de uppsatta uppgifterna om erkännande (diskriminering) lösas redan i ett rum av låg dimension.
  2. En situation är möjlig när de slumpmässiga variablerna för de studerade vektorerna är oberoende eller, mer realistiskt, svagt beroende av varandra. I detta fall kan man återställa endimensionella fördelningar av slumpvariabler och konstruera multivariata distributioner som deras produkter. Vidare, genom att använda samma träningsprov i glidundersökningsläget, kan man återställa den endimensionella fördelningen av förhållandet mellan sannolikhetsfunktionerna för differentierbara klasser, vilket eliminerar biasen som är förknippad med ömsesidigt beroende i beslutsregeln.

Vanligtvis, för analys av flerdimensionell data, föreslås det att använda den metriska närmaste grannemetoden [4] [5] . Fördelen med metoden är att den formellt sett kan tillämpas på prover av vilken storlek som helst, oavsett dimensionen på vektorerna. Men det fundamentalt tillämpade problemet med PR är att det i ett begränsat urval av data inte finns tillräckligt med information om ett objekt som beskrivs av ett stort antal signifikanta parametrar. Och om denna beskrivning verkligen är komplex och flerdimensionell, och lösningen av problemet kräver en analys av hela komplexet av parametrar, så visar sig problemet vara svårt och kan inte lösas med allmänna metoder.

Optimeringsproblem

I optimeringsproblem finns det även metoder som underlättar lösningen av storskaliga problem.

Alla dessa kampmetoder löser inte problemet med PR radikalt och är endast effektiva i speciella fall.

I Ramseys teori

Även om Ramsey-teoriproblem vanligtvis tillåter flerdimensionella generaliseringar, är de svåra även med minimala dimensioner och små indatastorlekar.

I kombinatorisk geometri

Inom kombinatorisk geometri finns det flera svåra strikt matematiska problem som är direkt relaterade till rummets dimension.

Några "ovanliga" egenskaper hos flerdimensionella utrymmen

Anteckningar

  1. Richard Ernest Bellman; rand bolag. Dynamisk programmering  (obestämd tid) . - Princeton University Press , 1957. - ISBN 978-0-691-07951-6 . ,
    Återpublicerad: Richard Ernest Bellman. Dynamisk programmering  (obestämd tid) . — Courier Dover Publications , 2003. — ISBN 978-0-486-42809-3 .
  2. Richard Ernest Bellman. Adaptiva kontrollprocesser : en guidad tur  . — Princeton University Press , 1961.
  3. Powell, Warren B. 2007. Ungefärlig dynamisk programmering: Lösning av dimensionalitetens förbannelser. Wiley, ISBN 0-470-17155-3 .
  4. Marimont, R. B.; Shapiro, MB Nearest Neighbor Searches and the Curse of Dimensionality  // IMA J Appl  Math : journal. - 1979. - Vol. 24 , nr. 1 . - S. 59-70 . - doi : 10.1093/imamat/24.1.59 .
  5. Radovanovic, Miloš; Nanopoulos, Alexandros; Ivanovic, Mirjana. Nav i rymden: Populära närmaste grannar i högdimensionell data  //  Journal of Machine Learning Research  : tidskrift. - 2010. - Vol. 11 . - P. 2487-2531 .
  6. KÄNNA INTUIT | Föreläsning | Den brantaste nedstigningsmetoden. Davidon-Fletcher-Powell-metoden. Ravinproblemet. Problemet med multi-extremalitet . Hämtad 26 april 2022. Arkiverad från originalet 27 december 2016.
  7. Joel H. Spencer (1994), Tio föreläsningar om den probabilistiska metoden , SIAM , sid. 4, ISBN 978-0-89871-325-1 
  8. Aubrey D.N.J. D.E. Grey. Planets kromatiska nummer är minst 5  // math.CO. — 2018. Arkiverad 12 juli 2018.