Vetitë e veprimeve për llogaritjen e karakteristikave sasiore të ndryshoreve të rastit. Karakteristikat kryesore të variablave të rastësishëm Dispersioni dhe devijimi standard

Qëllimi i analizës së korrelacionitështë të identifikojë një vlerësim të fuqisë së lidhjes midis variablave (veçorive) të rastësishme që karakterizon një proces real.
Problemet e analizës së korrelacionit:
a) Matja e shkallës së lidhjes (ngurtësia, forca, ashpërsia, intensiteti) i dy ose më shumë dukurive.
b) Përzgjedhja e faktorëve që kanë ndikimin më të rëndësishëm në atributin që rezulton, bazuar në matjen e shkallës së lidhjes ndërmjet dukurive. Faktorë të rëndësishëm në këtë aspekt përdoren më tej në analizën e regresionit.
c) Zbulimi i marrëdhënieve shkakësore të panjohura.

Format e manifestimit të marrëdhënieve janë shumë të ndryshme. Si llojet e tyre më të zakonshme, funksionale (të plota) dhe lidhje korrelacioni (e paplotë)..
korrelacioni manifestohet mesatarisht, për vëzhgimet masive, kur vlerat e dhëna të ndryshores së varur korrespondojnë me një numër të caktuar vlerash probabilistike të ndryshores së pavarur. Lidhja quhet korrelacion, nëse secila vlerë e atributit faktor korrespondon me një vlerë të mirëpërcaktuar jo të rastësishme të atributit rezultant.
Fusha e korrelacionit shërben si një paraqitje vizuale e tabelës së korrelacionit. Është një grafik ku vlerat X janë paraqitur në boshtin e abshisës, vlerat Y janë paraqitur përgjatë boshtit të ordinatave dhe kombinimet e X dhe Y tregohen me pika. Prania e një lidhjeje mund të gjykohet nga vendndodhja e pikat.
Treguesit e ngushtësisë bëjnë të mundur karakterizimin e varësisë së variacionit të tiparit që rezulton nga variacioni i faktorit tipar.
Një tregues më i mirë i shkallës së ngushtësisë korrelacioniështë koeficienti linear i korrelacionit. Gjatë llogaritjes së këtij treguesi, merren parasysh jo vetëm devijimet e vlerave individuale të atributit nga mesatarja, por edhe madhësia e këtyre devijimeve.

Çështjet kryesore të kësaj teme janë ekuacionet e marrëdhënies së regresionit midis tiparit rezultues dhe ndryshores shpjeguese, metoda e katrorëve më të vegjël për vlerësimin e parametrave të modelit të regresionit, analizimi i cilësisë së ekuacionit të regresionit që rezulton, ndërtimi i intervaleve të besimit për parashikimin e vlerat e veçorisë që rezulton duke përdorur ekuacionin e regresionit.

Shembulli 2


Sistemi i ekuacioneve normale.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Për të dhënat tona, sistemi i ekuacioneve ka formën
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Nga ekuacioni i parë shprehim A dhe zëvendësojeni në ekuacionin e dytë:
Marrim b = -3.46, a = 1379.33
Ekuacioni i regresionit:
y = -3,46 x + 1379,33

2. Llogaritja e parametrave të ekuacionit të regresionit.
Mjetet e mostrës.



Ndryshimet e mostrës:


devijimi standard


1.1. Koeficienti i korrelacionit
kovarianca.

Ne llogarisim treguesin e afërsisë së komunikimit. Një tregues i tillë është një koeficient linear korrelacioni selektiv, i cili llogaritet me formulën:

Koeficienti linear i korrelacionit merr vlera nga -1 në +1.
Marrëdhëniet ndërmjet veçorive mund të jenë të dobëta ose të forta (të afërta). Kriteret e tyre vlerësohen në shkallën Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Në shembullin tonë, marrëdhënia midis veçorisë Y dhe faktorit X është e lartë dhe e anasjelltë.
Për më tepër, koeficienti i korrelacionit të çiftit linear mund të përcaktohet në terma të koeficientit të regresionit b:

1.2. Ekuacioni i regresionit(vlerësimi i ekuacionit të regresionit).

Ekuacioni i regresionit linear është y = -3,46 x + 1379,33

Koeficienti b = -3.46 tregon ndryshimin mesatar të treguesit efektiv (në njësi y) me një rritje ose ulje të vlerës së faktorit x për njësi të matjes së tij. Në këtë shembull, me një rritje prej 1 njësi, y zvogëlohet me një mesatare prej -3.46.
Koeficienti a = 1379.33 tregon zyrtarisht nivelin e parashikuar të y, por vetëm nëse x=0 është afër vlerave të mostrës.
Por nëse x=0 është larg vlerave të mostrës x, atëherë një interpretim i fjalëpërfjalshëm mund të çojë në rezultate të pasakta, dhe edhe nëse vija e regresionit përshkruan me saktësi vlerat e kampionit të vëzhguar, nuk ka asnjë garanci se kjo do të jetë gjithashtu rasti kur ekstrapolohet majtas ose djathtas.
Duke zëvendësuar vlerat përkatëse të x në ekuacionin e regresionit, është e mundur të përcaktohen vlerat e përafruara (të parashikuara) të treguesit efektiv y(x) për çdo vëzhgim.
Marrëdhënia midis y dhe x përcakton shenjën e koeficientit të regresionit b (nëse > 0 - marrëdhënie direkte, përndryshe - inverse). Në shembullin tonë, marrëdhënia është e kundërt.
1.3. koeficienti i elasticitetit.
Është e padëshirueshme të përdoren koeficientët e regresionit (në shembullin b) për një vlerësim të drejtpërdrejtë të ndikimit të faktorëve në atributin efektiv në rast se ka një ndryshim në njësitë e matjes së treguesit efektiv y dhe atributit të faktorit x.
Për këto qëllime, llogariten koeficientët e elasticitetit dhe koeficientët beta.
Koeficienti mesatar i elasticitetit E tregon se sa përqind rezultati do të ndryshojë mesatarisht në agregat nga vlera mesatare e tij gjatë ndryshimit të faktorit x 1% e vlerës mesatare të saj.
Koeficienti i elasticitetit gjendet me formulën:


Koeficienti i elasticitetit është më i vogël se 1. Prandaj, nëse X ndryshon me 1%, Y do të ndryshojë me më pak se 1%. Me fjalë të tjera, ndikimi i X në Y nuk është i rëndësishëm.
Koeficienti beta tregon se nga cila pjesë e vlerës së devijimit të tij standard do të ndryshojë mesatarisht vlera e atributit efektiv kur atributi i faktorit ndryshon me vlerën e devijimit standard të tij me vlerën e variablave të pavarur të mbetur të fiksuar në një nivel konstant:

ato. një rritje në x me vlerën e devijimit standard S x do të çojë në një ulje të vlerës mesatare të Y me 0.74 devijimi standard S y.
1.4. Gabim përafrimi.
Le të vlerësojmë cilësinë e ekuacionit të regresionit duke përdorur gabimin absolut të përafrimit. Gabimi mesatar i përafrimit është devijimi mesatar i vlerave të llogaritura nga ato aktuale:


Meqenëse gabimi është më pak se 15%, ky ekuacion mund të përdoret si regresion.
Analiza e dispersionit.
Detyra e analizës së variancës është të analizojë variancën e ndryshores së varur:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Ku
∑(y i - y cp) 2 - shuma totale e devijimeve në katror;
∑(y(x) - y cp) 2 - shuma e devijimeve në katror për shkak të regresionit ("shpjeguar" ose "faktorial");
∑(y - y(x)) 2 - shuma e mbetur e devijimeve në katror.
Raporti teorik i korrelacionit sepse një marrëdhënie lineare është e barabartë me koeficientin e korrelacionit r xy.
Për çdo formë varësie, ngushtësia e lidhjes përcaktohet duke përdorur koeficienti i korrelacionit të shumëfishtë:

Ky koeficient është universal, pasi pasqyron ngushtësinë e lidhjes dhe saktësinë e modelit, si dhe mund të përdoret për çdo formë lidhjeje midis variablave. Kur ndërtohet një model korrelacioni me një faktor, koeficienti i korrelacionit të shumëfishtë është i barabartë me koeficientin e korrelacionit të çiftit r xy.
1.6. Koeficienti i përcaktimit.
Katrori i koeficientit të korrelacionit (i shumëfishtë) quhet koeficienti i përcaktimit, i cili tregon proporcionin e variacionit të atributit rezultant të shpjeguar me variacionin e atributit të faktorit.
Më shpesh, duke dhënë një interpretim të koeficientit të përcaktimit, ai shprehet në përqindje.
R 2 \u003d -0,74 2 \u003d 0,5413
ato. në 54.13% të rasteve, ndryshimet në x çojnë në një ndryshim në y. Me fjalë të tjera, saktësia e përzgjedhjes së ekuacionit të regresionit është mesatare. Pjesa e mbetur prej 45.87% e ndryshimit në Y është për shkak të faktorëve që nuk janë marrë parasysh në model.

Bibliografi

  1. Ekonometria: Teksti mësimor / Ed. I.I. Eliseeva. - M.: Financa dhe statistika, 2001, f. 34..89.
  2. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Ekonometria. Kursi fillestar. Tutorial. - Botimi i 2-të, Rev. – M.: Delo, 1998, f. 17..42.
  3. Workshop mbi ekonometrinë: Proc. shtesa / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko dhe të tjerët; Ed. I.I. Eliseeva. - M.: Financa dhe statistika, 2001, f. 5..48.

Kompania punëson 10 persona. Tabela 2 tregon të dhëna për përvojën e tyre të punës dhe

pagë mujore.

Llogaritni nga këto të dhëna

  • - vlera e vlerësimit të kovariancës së mostrës;
  • - vlera e mostrës së koeficientit të korrelacionit Pearson;
  • - të vlerësojë drejtimin dhe forcën e lidhjes sipas vlerave të marra;
  • - të përcaktojë se sa legjitime është deklarata se kjo kompani përdor modelin japonez të menaxhimit, i cili konsiston në supozimin se sa më shumë kohë të kalojë një punonjës në këtë kompani, aq më e lartë duhet të jetë paga e tij.

Bazuar në fushën e korrelacionit, mund të hipotezohet (për popullatën e përgjithshme) se marrëdhënia midis të gjitha vlerave të mundshme të X dhe Y është lineare.

Për të llogaritur parametrat e regresionit, ne do të ndërtojmë një tabelë llogaritëse.

Mjetet e mostrës.

Ndryshimet e mostrës:

Ekuacioni i vlerësuar i regresionit do të duket si

y = bx + a + e,

ku ei janë vlerat e vëzhguara (vlerësimet) e gabimeve ei, a dhe b, respektivisht, vlerësimet e parametrave b dhe në modelin e regresionit që duhet gjetur.

Për të vlerësuar parametrat b dhe c - përdorni LSM (katroret më të vegjël).

Sistemi i ekuacioneve normale.

a?x + b?x2 = ?y*x

Për të dhënat tona, sistemi i ekuacioneve ka formën

  • 10a + 307b = 33300
  • 307 a + 10857 b = 1127700

Ekuacionin (1) të sistemit e shumëzojmë me (-30.7), marrim një sistem që e zgjidhim me metodën e mbledhjes algjebrike.

  • -307a -9424.9 b = -1022310
  • 307 a + 10857 b = 1127700

Ne marrim:

1432.1b = 105390

Ku b = 73,5912

Tani gjejmë koeficientin "a" nga ekuacioni (1):

  • 10a + 307b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707.49

Ne marrim koeficientët e regresionit empirik: b = 73.5912, a = 1070.7492

Ekuacioni i regresionit (ekuacioni empirik i regresionit):

y = 73,5912 x + 1070,7492

kovarianca.

Në shembullin tonë, marrëdhënia midis veçorisë Y dhe faktorit X është e lartë dhe e drejtpërdrejtë.

Prandaj, mund të themi me siguri se sa më shumë kohë që një punonjës punon në një kompani të caktuar, aq më e lartë është paga e tij.

4. Testimi i hipotezave statistikore. Kur zgjidhet ky problem, hapi i parë është formulimi i një hipoteze të testueshme dhe një hipoteze alternative.

Kontrollimi i barazisë së aksioneve të përgjithshme.

Është kryer një studim për performancën e studentëve në dy fakultete. Rezultatet për variantet janë paraqitur në tabelën 3. A mund të argumentohet se të dy fakultetet kanë të njëjtën përqindje të studentëve ekselentë?

mesatare e thjeshtë aritmetike

Ne testojmë hipotezën për barazinë e aksioneve të përgjithshme:

Le të gjejmë vlerën eksperimentale të kriterit të Studentit:

Numri i shkallëve të lirisë

f \u003d nx + ny - 2 \u003d 2 + 2 - 2 \u003d 2

Përcaktoni vlerën e tkp sipas tabelës së shpërndarjes së Studentit

Sipas tabelës së Studentit gjejmë:

Ttabl(f;b/2) = Ttabl(2;0.025) = 4.303

Sipas tabelës së pikave kritike të shpërndarjes së Studentit në një nivel të rëndësisë b = 0,05 dhe një numër të caktuar të shkallëve të lirisë, gjejmë tcr = 4,303

Sepse tobs > tcr, atëherë hipoteza zero hidhet poshtë, pjesët e përgjithshme të dy mostrave nuk janë të barabarta.

Kontrollimi i uniformitetit të shpërndarjes së përgjithshme.

Menaxhmenti i universitetit dëshiron të zbulojë se si ka ndryshuar popullariteti i Fakultetit të Shkencave Humane me kalimin e kohës. Numri i aplikantëve që aplikuan për këtë fakultet u analizua në raport me numrin total të aplikantëve në vitin përkatës. (Të dhënat janë dhënë në tabelën 4). Nëse e konsiderojmë numrin e aplikantëve si mostër përfaqësuese të numrit total të maturantëve të vitit, a mund të argumentohet se interesi i nxënësve për specialitetet e këtij fakulteti nuk ndryshon me kalimin e kohës?

Opsioni 4

Zgjidhje: Tabela për llogaritjen e treguesve.

Mesi i intervalit, xi

Frekuenca kumulative, S

Frekuenca, fi/n

Për të vlerësuar serinë e shpërndarjes, gjejmë treguesit e mëposhtëm:

mesatare e ponderuar

Gama e variacionit është ndryshimi midis vlerave maksimale dhe minimale të atributit të serisë primare.

R = 2008 - 1988 = 20 Dispersion - karakterizon masën e përhapjes rreth vlerës mesatare të saj (masa e dispersionit, d.m.th. devijimi nga mesatarja).

Devijimi standard (gabimi mesatar i kampionimit).

Çdo vlerë e serisë ndryshon nga vlera mesatare e vitit 2002.66 me një mesatare prej 6.32

Testimi i hipotezës për shpërndarjen uniforme të popullsisë së përgjithshme.

Për të testuar hipotezën për shpërndarjen uniforme të X, d.m.th. sipas ligjit: f(x) = 1/(b-a) në intervalin (a,b) është e nevojshme:

Vlerësoni parametrat a dhe b - skajet e intervalit në të cilin janë vërejtur vlerat e mundshme të X, sipas formulave (* tregon vlerësimet e parametrave):

Gjeni densitetin e probabilitetit të shpërndarjes së vlerësuar f(x) = 1/(b* - a*)

Gjeni frekuencat teorike:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Krahasoni frekuencat empirike dhe teorike duke përdorur testin Pearson, duke supozuar numrin e shkallëve të lirisë k = s-3, ku s është numri i intervaleve fillestare të kampionimit; megjithatë, nëse është bërë një kombinim i frekuencave të vogla, dhe rrjedhimisht edhe vetë intervaleve, atëherë s është numri i intervaleve që mbeten pas kombinimit. Le të gjejmë vlerësimet e parametrave a* dhe b* të shpërndarjes uniforme sipas formulave:

Le të gjejmë densitetin e shpërndarjes uniforme të supozuar:

f(x) = 1/(b* - a*) = 1/(2013.62 - 1991.71) = 0.0456

Le të gjejmë frekuencat teorike:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456 (1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0.77 * 0.0456(2013.62-2008) = 0.2

ns = n*f(x)(xi - xi-1)

Meqenëse statistika e Pearson mat ndryshimin midis shpërndarjeve empirike dhe teorike, sa më e madhe të jetë vlera e vëzhguar e Kobs, aq më i fortë është argumenti kundër hipotezës kryesore.

Prandaj, rajoni kritik për këtë statistikë është gjithmonë i djathtë: ) mund të ndryshojë ndjeshëm nga karakteristikat përkatëse të skemës origjinale (të pashtrembëruara) (, n). skema normale (, m) gjithmonë zvogëlon vlerën absolute të koeficientit të regresionit Ql në relacion (B. 15), dhe gjithashtu dobëson shkallën e afërsisë së marrëdhënies ndërmjet um (dmth. zvogëlon vlerën absolute të koeficientit të korrelacionit r).

Ndikimi i gabimeve të matjes në vlerën e koeficientit të korrelacionit. Le të duam të vlerësojmë shkallën e afërsisë së korrelacionit midis përbërësve të një ndryshoreje normale të rastësishme dydimensionale (, TJ), por ne mund t'i vëzhgojmë ato vetëm me disa gabime të rastësishme të matjes, përkatësisht, es dhe e (shih varësinë D2 diagrami në hyrje). Prandaj, të dhënat eksperimentale janë (xit i/i), i = 1, 2,. .., n, janë praktikisht vlera të mostrës së ndryshores së rastësishme dydimensionale të shtrembëruar (, r)), ku =

Metoda R.a. konsiston në nxjerrjen e një ekuacioni të regresionit (duke përfshirë një vlerësim të parametrave të tij), me ndihmën e të cilit gjendet vlera mesatare e një ndryshoreje të rastësishme, nëse dihet vlera e një tjetri (ose të tjerëve në rastin e regresionit të shumëfishtë ose shumëvariar). (Në të kundërt, analiza e korrelacionit përdoret për të gjetur dhe shprehur forcën e marrëdhënies midis variablave të rastësishëm71.)

Në studimin e korrelacionit të shenjave që nuk lidhen me një ndryshim të qëndrueshëm në kohë, çdo shenjë ndryshon nën ndikimin e shumë shkaqeve, të marra si të rastësishme. Në serinë e dinamikës, atyre u shtohet një ndryshim gjatë kohës së çdo serie. Ky ndryshim çon në të ashtuquajturin autokorrelacion - ndikimin e ndryshimeve në nivelet e serive të mëparshme në ato pasuese. Prandaj, korrelacioni midis niveleve të serive kohore tregon saktë ngushtësinë e lidhjes midis dukurive të pasqyruara në seritë kohore, vetëm nëse nuk ka autokorrelacion në secilën prej tyre. Për më tepër, autokorrelacioni çon në një shtrembërim të gabimeve mesatare katrore të koeficientëve të regresionit, gjë që e bën të vështirë ndërtimin e intervaleve të besimit për koeficientët e regresionit, si dhe kontrollimin e rëndësisë së tyre.

Koeficientët e korrelacionit teorik dhe të mostrës të përcaktuar nga relacionet (1.8) dhe (1.8), përkatësisht, mund të llogariten zyrtarisht për çdo sistem vëzhgimi dydimensional; ata janë matës të shkallës së ngushtësisë së marrëdhënies statistikore lineare midis veçorive të analizuara. Megjithatë, vetëm në rastin e një shpërndarjeje normale të përbashkët të variablave të rastësishëm në studim dhe u, koeficienti i korrelacionit r ka një kuptim të qartë si karakteristikë e shkallës së afërsisë së lidhjes ndërmjet tyre. Në veçanti, në këtë rast, raporti r - 1 konfirmon një marrëdhënie lineare thjesht funksionale midis sasive në studim, dhe ekuacioni r = 0 tregon pavarësinë e tyre të plotë reciproke. Për më tepër, koeficienti i korrelacionit, së bashku me mesataret dhe variancat e variablave të rastit dhe TJ, përbëjnë ato pesë parametra që ofrojnë informacion të plotë rreth

Pas përcaktimit të ekuacionit të vijës së regresionit teorik, është e nevojshme të përcaktohet sasia e afërsisë së marrëdhënies midis dy serive të vëzhgimeve. Vijat e regresionit të vizatuara në fig. 4.1, b, c, janë të njëjta, por në fig. 4.1, b, pikat janë shumë më afër (më afër) vijës së regresionit sesa në Fig. 4.1, c.

Analiza e korrelacionit supozon se faktorët dhe përgjigjet janë të rastësishme dhe i binden ligjit të shpërndarjes normale.

Afërsia e marrëdhënies ndërmjet variablave të rastit karakterizohet nga raporti i korrelacionit pxy. Le të ndalemi më në detaje në kuptimin fizik të këtij treguesi. Për ta bërë këtë, ne prezantojmë koncepte të reja.

Dispersioni i mbetur

pikat e vëzhguara në lidhje me vijën e regresionit dhe është një tregues i gabimit në parashikimin e parametrit y sipas ekuacionit të regresionit (Fig. 4.6):



s2=f)