Urval (matematisk statistik)

Sampling är ett generaliserat namn i matematisk statistik för metoder för att kontrollera det initiala urvalet med ett känt modelleringsmål, som tillåter att utföra den strukturella-parametriska identifieringen av den bästa statistiska modellen av en stationär ergodisk slumpmässig process.

Beskrivning

Den vetenskapliga nyheten med samplingsmetoden ligger i det faktum att den är en effektiv teknik för logisk semantisk koppling av provets statistiska egenskaper och syftet med modellering. Samtidigt ökar sampling dimensionen av kriterieutrymmet, och fungerar samtidigt som ett sätt att lösa problemet med Pareto-optimalitet genom att separera specifika kriterier och rangordna dem (ett strukturellt kriterium har en högre rang än ett parametriskt , så dessa kriterier strider inte mot varandra). N. N. Chubukov ger följande exempel [1] . Låt den slumpmässiga processen representeras av ett urval av storlek : . Tre uppgifter måste lösas:

  1. Kör en villkorligt långtidsprognos för ;
  2. Kör en villkorligt kortsiktig prognos för ;
  3. Definiera en funktion för att återställa värdet när som helst inom urvalet.

Om vi ​​tar det traditionella tillvägagångssättet för modellering, fokuserat på det unika i beskrivningen av processens statistiska egenskaper, blir resultatet tre helt identiska funktioner. Faktum är att regeln för beräkning av modellens kvalitetskriterium inte tog hänsyn till väsentliga detaljer: prognoshorisonten, arten av de statistiska trenderna för den slumpmässiga processen som representeras av provdata och målspecificiteten för uppgifterna var helt ignoreras .

Mångfaldsprincipen

Vägen ut ur denna svårighet kan vara användningen av mångfaldsprincipen inom sampling , som är känd och används för att lösa tekniska problem genom att tillämpa metoden för korsvalidering av data, till exempel bootstrap-analys [2] , metoden för gruppredovisning av argument [3] etc. Manifestation av mångfaldsprincipen vid lösning av statistiska problem är att algoritmen svarar på okunnighet om de probabilistiska egenskaperna hos initialdata med en mängd olika genererade modellstrukturer, som var och en utsätts för korsning -kontroll av optimalitet enligt ett visst schema som är gemensamt för alla modeller.

Uppgifter

Sampling är en modern metod som kan vara praktiskt användbar för att lösa problem med matematisk statistik, inklusive inversa och illa ställda problem [4] . Sampling implementerar principen om mångfald och kan generalisera hela utbudet av statistiska analysverktyg baserat på hanteringen av källdata. Provtagning förstås som en uppsättning tekniker för att dela upp det initiala provet i arbets- och kontrollsektioner enligt de regler som motsvarar målen för modellering. På arbetssektionerna beräknas parametrarna för "konkurrerande" modeller, på kontrollmodellerna utvärderas deras förmåga att återställa värden som inte användes för att beräkna parametrarna.

Sampling metodiskt korrekt "förbikopplar" det huvudsakliga hindret som objektivt finns i omvända problem. Dess skäl ligger i omöjligheten att upprätta ett strikt matematiskt samband mellan variabelparametern och det numeriska värdet av modelloptimitetskriteriet. Samtidigt överför sampling algoritmen för strukturell-parametrisk identifiering av modellen från kategorin strikt matematisk till klassen av heuristik, och gör den lovande för att skapa artificiella intelligenssystem .

I förhållande till ovanstående exempel , motsvarar det första fallet  - "lång" extrapolering utanför provet, samplingsvarianten med undantag för de tio senaste provvärdena i rad från beräkningen av modellparametrarna. Den tionde räkningen kommer att vara kontrollen. Det fungerande delprovet kommer att omfatta alla värden utom dessa tio. Sedan, genom alternativ uppräkning, bestäms den bästa modellen, som mest exakt förutspådde kontrollpunkten. Genom att ändra positionen för de exkluderade proverna, utan att kränka deras antal och kontinuitet, bildas reststatistik som är tillämplig för att beräkna kriteriet och "röret" för statistisk stabilitet för att utvärdera resultatets tillförlitlighet. Algoritmen, så att säga, "undersöker" modellerna genom att extrapolera till ett givet djup och väljer från dem den som mest exakt fångar "långa" trender som innehåller information om värden på en tio-samplingsfördröjning. I det här fallet kommer "short-shooting"-modeller att diskrimineras.

Den andra uppgiften kommer att motsvara provtagning med undantag från beräkningarna av en kontrollpunkt, med en kombination av antalet och ordningen för de tidigare värdena som beaktas för prognosen. I det här fallet kommer "långtrends"-modeller att "undertryckas", och modeller som ger korrekta prognoser på kort sikt, tvärtom, kommer att ges företräde.

I den tredje uppgiften kommer uppdelningen av provet i interpenetrerande block att motiveras, när kontrollvärdena är "insprängda" mellan arbetarna. Längden på sådana block och djupet av deras inträngning måste ta hänsyn till intervallen mellan angränsande punkter i området, den erforderliga stabiliteten och noggrannheten hos uppskattningarna. Den tredje uppgiften kan således motsvara uteslutningen från beräkningarna av vart tredje provprov och användningen av de exkluderade data för kontroll med en cyklisk omtilldelning av kontroll- och arbetsdelprov.

Typer av provtagning

Se även

Anteckningar

  1. Chubukov N. N. Algoritmisering av kalibreringar av mekatroniska system med hjälp av provtagning // Mechatronika, avtomatizatsiya, upravlenie. 2013. Nr 7.
  2. Efron B. Icke-traditionella metoder för multivariat statistisk analys: lör. artiklar: Per. från engelska / Förord ​​av Yu. P. Adler, Yu. A. Koshevnik. - M .: Finans och statistik, 1988. - 263 sid. sjuk.
  3. Ivakhnenko, 1971 .
  4. Tikhonov A.N., Arsenin V.Ya. Metoder för att lösa illa ställda problem. - M .: Nauka, 1979. - S. 283 sid.

Litteratur