Egenskaper för operationer för beräkning av kvantitativa egenskaper hos slumpvariabler. Grundläggande egenskaper hos slumpvariabler Dispersion och standardavvikelse

Syftet med korrelationsanalysär att identifiera en uppskattning av styrkan i sambandet mellan slumpvariabler (egenskaper) som kännetecknar någon verklig process.
Problem med korrelationsanalys:
a) Mätning av graden av koherens (närhet, styrka, svårighetsgrad, intensitet) av två eller flera fenomen.
b) Val av faktorer som har den mest betydande inverkan på det resulterande attributet, baserat på mätning av graden av koppling mellan fenomen. Faktorer som är signifikanta i denna aspekt används vidare i regressionsanalys.
c) Detektering av okända orsakssamband.

Formerna för manifestation av relationer är mycket olika. De vanligaste typerna är funktionella (kompletta) och korrelation (ofullständig) anslutning.
Korrelation manifesterar sig i genomsnitt för massobservationer, när de givna värdena för den beroende variabeln motsvarar en viss serie probabilistiska värden för den oberoende variabeln. Sambandet kallas korrelation, om varje värde på faktorkaraktäristiken motsvarar ett väldefinierat icke-slumpmässigt värde för den resulterande karakteristiken.
En visuell representation av en korrelationstabell är korrelationsfältet. Det är en graf där X-värden plottas på abskissaxeln, Y-värden plottas på ordinataaxeln och kombinationer av X och Y visas med prickar. Genom prickarnas placering kan man bedöma närvaron av en anslutning.
Indikatorer på anslutningsnärhet göra det möjligt att karakterisera beroendet av variationen av den resulterande egenskapen av variationen av faktoregenskapen.
En mer avancerad indikator på graden av trängsel korrelationskopplingär linjär korrelationskoefficient. Vid beräkning av denna indikator tas inte bara hänsyn till avvikelser av individuella värden för en egenskap från genomsnittet, utan också själva storleken på dessa avvikelser.

Nyckelfrågorna i detta ämne är ekvationerna för regressionsförhållandet mellan den effektiva egenskapen och den förklarande variabeln, minsta kvadratmetoden för att uppskatta parametrarna för regressionsmodellen, analysera kvaliteten på den resulterande regressionsekvationen, konstruera konfidensintervall för att förutsäga värden för den effektiva egenskapen med hjälp av regressionsekvationen.

Exempel 2


System av normala ekvationer.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
För våra data har ekvationssystemet formen
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Från den första ekvationen uttrycker vi A och ersätt i den andra ekvationen:
Vi får b = -3,46, a = 1379,33
Regressions ekvation:
y = -3,46 x + 1379,33

2. Beräkning av parametrar för regressionsekvationen.
Prov betyder.



Exempelavvikelser:


Standardavvikelse


1.1. Korrelationskoefficient
Kovarians.

Vi beräknar indikatorn för anslutningsnärhet. Denna indikator är provets linjära korrelationskoefficient, som beräknas med formeln:

Den linjära korrelationskoefficienten tar värden från –1 till +1.
Samband mellan egenskaper kan vara svaga och starka (nära). Deras kriterier bedöms på Chaddock-skalan:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
I vårt exempel är förhållandet mellan egenskap Y och faktor X hög och omvänd.
Dessutom kan den linjära parets korrelationskoefficient bestämmas genom regressionskoefficienten b:

1.2. Regressions ekvation(uppskattning av regressionsekvationen).

Den linjära regressionsekvationen är y = -3,46 x + 1379,33

Koefficient b = -3,46 visar den genomsnittliga förändringen i den effektiva indikatorn (i måttenheter y) med en ökning eller minskning av värdet på faktor x per måttenhet. I det här exemplet, med en ökning med 1 enhet, minskar y med -3,46 i genomsnitt.
Koefficienten a = 1379,33 visar formellt den förutsagda nivån för y, men bara om x = 0 är nära sampelvärdena.
Men om x=0 är långt ifrån urvalsvärdena för x, kan en bokstavlig tolkning leda till felaktiga resultat, och även om regressionslinjen beskriver de observerade urvalsvärdena ganska exakt, finns det ingen garanti för att detta också kommer att vara fallet när man extrapolerar vänster eller höger.
Genom att ersätta de lämpliga x-värdena i regressionsekvationen kan vi bestämma de justerade (förutspådda) värdena för prestandaindikatorn y(x) för varje observation.
Relationen mellan y och x bestämmer tecknet för regressionskoefficienten b (om > 0 - direkt samband, annars - invers). I vårt exempel är kopplingen omvänd.
1.3. Elasticitetskoefficient.
Det är inte tillrådligt att använda regressionskoefficienter (i exempel b) för att direkt bedöma faktorers inverkan på en resulterande egenskap om det finns en skillnad i måttenheterna för den resulterande indikatorn y och faktorkarakteristiken x.
För dessa ändamål beräknas elasticitetskoefficienter och betakoefficienter.
Den genomsnittliga elasticitetskoefficienten E visar med hur många procent i genomsnitt resultatet kommer att förändras i aggregatet från dess medelvärde när faktorn ändras x med 1 % av dess genomsnittliga värde.
Elasticitetskoefficienten hittas av formeln:


Elasticitetskoefficienten är mindre än 1. Därför, om X ändras med 1 %, kommer Y att ändras med mindre än 1 %. Med andra ord, påverkan av X på Y är inte signifikant.
Betakoefficient visar med vilken del av värdet av dess standardavvikelse medelvärdet för den resulterande egenskapen kommer att förändras när faktorkarakteristiken ändras med värdet av dess standardavvikelse med värdet av de återstående oberoende variablerna fastställda på en konstant nivå:

De där. en ökning av x med standardavvikelsen S x kommer att leda till en minskning av medelvärdet för Y med 0,74 standardavvikelse S y .
1.4. Approximationsfel.
Låt oss utvärdera kvaliteten på regressionsekvationen med hjälp av felet för absolut approximation. Genomsnittligt approximationsfel - genomsnittlig avvikelse av beräknade värden från faktiska:


Eftersom felet är mindre än 15 % kan denna ekvation användas som regression.
Variansanalys.
Syftet med variansanalys är att analysera variansen för den beroende variabeln:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Var
∑(y i - y cp) 2 - total summa av kvadrerade avvikelser;
∑(y(x) - y cp) 2 - summan av kvadrerade avvikelser på grund av regression ("förklarad" eller "faktoriell");
∑(y - y(x)) 2 - restsumma av kvadrerade avvikelser.
Teoretisk korrelationsförhållande för en linjär förbindelse är lika med korrelationskoefficienten r xy .
För någon form av beroende bestäms tätheten av anslutningen med hjälp av multipel korrelationskoefficient:

Denna koefficient är universell, eftersom den återspeglar relationens närhet och modellens noggrannhet, och kan även användas för alla former av samband mellan variabler. När man konstruerar en enfaktorkorrelationsmodell är mlika med parkorrelationskoefficienten rxy.
1.6. Bestämningskoefficient.
Kvadraten på (multipel)korrelationskoefficienten kallas bestämningskoefficienten, som visar andelen variation i det resulterande attributet som förklaras av variationen i faktorattributet.
Oftast, när man tolkar bestämningskoefficienten, uttrycks den i procent.
R2 = -0,742 = 0,5413
de där. i 54,13 % av fallen leder förändringar i x till förändringar i y. Med andra ord är noggrannheten för att välja regressionsekvationen genomsnittlig. De återstående 45,87 % av förändringen i Y förklaras av faktorer som inte tagits med i modellen.

Bibliografi

  1. Ekonometri: Lärobok / Ed. I.I. Eliseeva. – M.: Finans och statistik, 2001, sid. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometri. Nybörjarkurs. Handledning. – 2:a uppl., rev. – M.: Delo, 1998, sid. 17..42.
  3. Workshop om ekonometri: Proc. bidrag / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko och andra; Ed. I.I. Eliseeva. – M.: Finans och statistik, 2001, sid. 5..48.

Företaget sysselsätter 10 personer. Tabell 2 visar uppgifter om deras arbetslivserfarenhet och

månadslön.

Beräkna med dessa data

  • - värdet av provets kovariansuppskattning;
  • - värdet av stickprovets Pearson-korrelationskoefficient;
  • - uppskatta anslutningens riktning och styrka från de erhållna värdena;
  • - bestämma hur legitimt det är att säga att detta företag använder den japanska ledningsmodellen, som utgår ifrån att ju mer tid en anställd spenderar i ett visst företag, desto högre lön ska hans lön vara.

Baserat på korrelationsfältet kan vi anta (för populationen) att sambandet mellan alla möjliga värden på X och Y är linjärt.

För att beräkna regressionsparametrarna kommer vi att bygga en beräkningstabell.

Prov betyder.

Exempelavvikelser:

Den uppskattade regressionsekvationen blir

y = bx + a + e,

där ei är de observerade värdena (uppskattningar) av felen ei, a respektive b, uppskattningar av parametrar b och i den regressionsmodell som ska hittas.

För att uppskatta parametrarna b och c används minsta kvadratmetoden (minsta kvadratmetoden).

System av normala ekvationer.

a?x + b?x2 = ?y*x

För våra data har ekvationssystemet formen

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Låt oss multiplicera ekvation (1) av systemet med (-30,7), vi får ett system som vi löser med metoden för algebraisk addition.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Vi får:

1432,1 b = 105390

Var kommer b = 73,5912 ifrån?

Låt oss nu hitta koefficienten "a" från ekvation (1):

  • 10a + 307 b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

Vi får empiriska regressionskoefficienter: b = 73,5912, a = 1070,7492

Regressionsekvation (empirisk regressionsekvation):

y = 73,5912 x + 1070,7492

Kovarians.

I vårt exempel är sambandet mellan egenskap Y och faktor X hög och direkt.

Därför kan vi lugnt säga att ju mer tid en anställd arbetar i ett visst företag, desto högre lön har han.

4. Testa statistiska hypoteser. När man löser detta problem är det första steget att formulera en testbar hypotes och en alternativ.

Kontroll av jämställdheten för allmänna aktier.

En studie genomfördes om studentprestationer vid två fakulteter. Resultaten för alternativen ges i tabell 3. Är det möjligt att säga att båda fakulteterna har samma andel utmärkta studenter?

Enkelt aritmetiskt medelvärde

Vi testar hypotesen om jämlikheten mellan de allmänna aktierna:

Låt oss hitta det experimentella värdet av studentens kriterium:

Antal frihetsgrader

f = nх + nу - 2 = 2 + 2 - 2 = 2

Bestäm tkp-värdet med hjälp av elevdistributionstabellen

Med hjälp av elevens tabell hittar vi:

Ttabell(f;b/2) = Ttabell(2;0,025) = 4,303

Med hjälp av tabellen över kritiska punkter för Studentfördelningen på en signifikansnivå b = 0,05 och ett givet antal frihetsgrader finner vi tcr = 4,303

Därför att tob > tcr, då förkastas nollhypotesen, de allmänna andelarna för de två proverna är inte lika.

Kontrollera enhetligheten i den allmänna fördelningen.

Universitetstjänstemän vill ta reda på hur populariteten för den humanistiska institutionen har förändrats över tid. Antalet sökande som sökte till denna fakultet analyserades i förhållande till det totala antalet sökande under motsvarande år. (Data ges i tabell 4). Om vi ​​anser att antalet sökande är ett representativt urval av det totala antalet akademiker under året, kan vi säga att skolbarnens intresse för denna fakultets specialiteter inte förändras över tiden?

Alternativ 4

Lösning: Tabell för beräkning av indikatorer.

Mitten av intervallet, xi

Ackumulerad frekvens, S

Frekvens, fi/n

För att utvärdera distributionsserien hittar vi följande indikatorer:

Vägt genomsnitt

Variationsintervallet är skillnaden mellan maximi- och minimivärdena för den primära seriekarakteristiken.

R = 2008 - 1988 = 20 Dispersion - karakteriserar spridningsmåttet runt dess medelvärde (ett mått på spridning, d.v.s. avvikelse från genomsnittet).

Standardavvikelse (genomsnittligt urvalsfel).

Varje värde i serien skiljer sig från medelvärdet 2002,66 med i genomsnitt 6,32

Testar hypotesen om befolkningens enhetliga fördelning.

För att testa hypotesen om den enhetliga fördelningen av X, dvs. enligt lagen: f(x) = 1/(b-a) i intervallet (a,b) är det nödvändigt:

Uppskatta parametrarna a och b - ändarna av intervallet där möjliga värden på X observerades, med hjälp av formlerna (tecknet * anger parameteruppskattningar):

Hitta sannolikhetstätheten för den förväntade fördelningen f(x) = 1/(b* - a*)

Hitta teoretiska frekvenser:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Jämför empiriska och teoretiska frekvenser med hjälp av Pearson-kriteriet, med antalet frihetsgrader k = s-3, där s är antalet initiala samplingsintervall; om en kombination av små frekvenser, och därför själva intervallen, utfördes, så är s antalet intervall som återstår efter kombinationen. Låt oss hitta uppskattningar för parametrarna a* och b* för den enhetliga fördelningen med hjälp av formlerna:

Låt oss hitta densiteten för den antagna enhetliga fördelningen:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Låt oss hitta de teoretiska frekvenserna:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013.62-2008) = 0.2

ns = n*f(x)(xi - xi-1)

Eftersom Pearson-statistiken mäter skillnaden mellan den empiriska och teoretiska fördelningen, desto större är dess observerade värde Kob, desto starkare argument mot huvudhypotesen.

Därför är den kritiska regionen för denna statistik alltid högerhänt: ) kan skilja sig väsentligt från motsvarande egenskaper hos det ursprungliga (oförvrängda) schemat (, l) - Så till exempel nedan (se avsnitt 1.1.4) visas det att påläggandet av slumpmässiga normala fel på den ursprungliga tvådimensionella normalschemat (, m) alltid minskar det absoluta värdet av regressionskoefficienten Ql i relation (B. 15), och även försvagar graden av närhet av sambandet mellan det (dvs det minskar det absoluta värdet av korrelationskoefficienten r).

Mätfelens inverkan på korrelationskoefficientens värde. Låt oss uppskatta graden av närhet av korrelationen mellan komponenterna i en tvådimensionell normal slumpvariabel (, TJ), men vi kan observera dem endast med några slumpmässiga mätfel es respektive e (se diagram av D2 beroende i inledningen). Därför experimentella data (xit i/i), i = 1, 2,. .., l, är praktiskt taget exempelvärden för den förvrängda tvådimensionella slumpvariabeln (, r)), där =

Metod R.a. består i att härleda en regressionsekvation (inklusive skattning av dess parametrar), med hjälp av vilken medelvärdet av en slumpvariabel hittas om värdet på en annan (eller andra vid multipel eller multivariat regression) är känt. (Däremot används korrelationsanalys för att hitta och uttrycka styrkan i samband mellan slumpvariabler71.)

I studien av korrelationen av tecken som inte är förknippade med en konsekvent förändring över tid, förändras varje tecken under inverkan av många skäl, taget som slumpmässigt. I dynamikserien läggs förändringen i tiden för varje serie till dem. Denna förändring leder till den så kallade autokorrelationen - påverkan av förändringar i nivåerna av tidigare serier på efterföljande. Därför visar korrelationen mellan nivåerna av tidsserier korrekt det nära sambandet mellan fenomenen som reflekteras i tidsserien endast om det inte finns någon autokorrelation i var och en av dem. Dessutom leder autokorrelation till en förvrängning av värdet av medelkvadratfelen för regressionskoefficienter, vilket gör det svårt att konstruera konfidensintervall för regressionskoefficienter, samt att testa deras signifikans.

De teoretiska och provkorrelationskoefficienter som bestäms av relationerna (1.8) respektive (1.8) kan formellt beräknas för vilket tvådimensionellt observationssystem som helst, de är mått på graden av närhet av det linjära statistiska sambandet mellan de analyserade egenskaperna. Endast vid en gemensam normalfördelning av de undersökta slumpvariablerna och q har emellertid korrelationskoefficienten r en tydlig betydelse som kännetecknande för graden av närhet av sambandet dem emellan. Speciellt i detta fall bekräftar förhållandet r - 1 ett rent funktionellt linjärt förhållande mellan de studerade kvantiteterna, och ekvationen r = 0 indikerar deras fullständiga ömsesidiga oberoende. Dessutom utgör korrelationskoefficienten, tillsammans med medelvärden och varianser för stokastiska variabler och TJ, de fem parametrar som ger heltäckande information om

Efter att ha bestämt ekvationen för den teoretiska regressionslinjen är det nödvändigt att kvantifiera närheten av förhållandet mellan två serier av observationer. Regressionslinjerna ritade i fig. 4.1, b, c, är desamma, men i fig. 4.1, b är punkterna mycket närmare (närmare) regressionslinjen än i fig. 4.1, c.

Vid korrelationsanalys antas det att faktorer och svar är slumpmässiga till sin natur och följer en normalfördelningslag.

Närheten till sambandet mellan stokastiska variabler kännetecknas av korrelationsförhållandet p xy. Låt oss uppehålla oss mer detaljerat om den fysiska innebörden av denna indikator. För att göra detta introducerar vi nya koncept.

Den kvarvarande dispersionen 5^res karakteriserar spridningen experimentellt

observerade punkter i förhållande till regressionslinjen och representerar en indikator på felet i att förutsäga parametern y enligt regressionsekvationen (Fig. 4.6):



s2 =f)