Proprietăţi ale operaţiilor pentru calcularea caracteristicilor cantitative ale variabilelor aleatoare. Caracteristicile de bază ale variabilelor aleatoare Dispersia și abaterea standard

Scopul analizei corelației este de a identifica o estimare a puterii conexiunii dintre variabilele aleatoare (trăsături) care caracterizează un proces real.
Probleme de analiză a corelației:
a) Măsurarea gradului de coerență (apropiere, forță, severitate, intensitate) a două sau mai multe fenomene.
b) Selectarea factorilor care au cel mai semnificativ impact asupra atributului rezultat, pe baza măsurării gradului de conectivitate între fenomene. Factorii care sunt semnificativi în acest aspect sunt utilizați în continuare în analiza de regresie.
c) Detectarea relaţiilor cauzale necunoscute.

Formele de manifestare a relațiilor sunt foarte diverse. Cele mai comune tipuri sunt funcționale (complete) și conexiune de corelare (incompletă)..
Corelație se manifestă în medie pentru observațiile de masă, când valorile date ale variabilei dependente corespund unei anumite serii de valori probabilistice ale variabilei independente. Relația se numește corelație, dacă fiecare valoare a caracteristicii factorului corespunde unei valori non-aleatoare bine definite a caracteristicii rezultante.
O reprezentare vizuală a unui tabel de corelare este câmpul de corelație. Este un grafic în care valorile X sunt reprezentate pe axa absciselor, valorile Y sunt reprezentate pe axa ordonatelor, iar combinațiile de X și Y sunt afișate prin puncte. După locația punctelor, se poate judeca prezența a unei conexiuni.
Indicatori de apropiere a conexiunii fac posibilă caracterizarea dependenței variației trăsăturii rezultate de variația trăsăturii factorului.
Un indicator mai avansat al gradului de aglomerare conexiunea de corelare este coeficient de corelație liniară. La calcularea acestui indicator, se iau în considerare nu numai abaterile valorilor individuale ale unei caracteristici față de medie, ci și magnitudinea acestor abateri.

Întrebările cheie ale acestui subiect sunt ecuațiile relației de regresie dintre caracteristica efectivă și variabila explicativă, metoda celor mai mici pătrate pentru estimarea parametrilor modelului de regresie, analiza calității ecuației de regresie rezultată, construirea intervalelor de încredere pentru prezicerea valorile caracteristicii efective folosind ecuația de regresie.

Exemplul 2


Sistem de ecuații normale.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Pentru datele noastre, sistemul de ecuații are forma
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Din prima ecuație pe care o exprimăm Ași înlocuiți în a doua ecuație:
Obținem b = -3,46, a = 1379,33
Ecuația de regresie:
y = -3,46 x + 1379,33

2. Calculul parametrilor ecuației de regresie.
Eșantion înseamnă.



Variante de eșantion:


Deviație standard


1.1. Coeficient de corelație
Covarianta.

Calculăm indicatorul de apropiere a conexiunii. Acest indicator este coeficientul de corelație liniară al eșantionului, care este calculat prin formula:

Coeficientul de corelație liniară ia valori de la –1 la +1.
Conexiunile dintre caracteristici pot fi slabe și puternice (strânse). Criteriile lor sunt evaluate pe scara Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
În exemplul nostru, relația dintre trăsătura Y și factorul X este mare și inversă.
În plus, coeficientul de corelație liniară a perechii poate fi determinat prin coeficientul de regresie b:

1.2. Ecuația de regresie(estimarea ecuației de regresie).

Ecuația de regresie liniară este y = -3,46 x + 1379,33

Coeficientul b = -3,46 arată modificarea medie a indicatorului efectiv (în unități de măsură y) cu o creștere sau scădere a valorii factorului x pe unitatea de măsură a acestuia. În acest exemplu, cu o creștere de 1 unitate, y scade în medie cu -3,46.
Coeficientul a = 1379,33 arată în mod formal nivelul prezis al lui y, dar numai dacă x = 0 este aproape de valorile eșantionului.
Dar dacă x=0 este departe de valorile eșantionului lui x, atunci o interpretare literală poate duce la rezultate incorecte și chiar dacă linia de regresie descrie valorile eșantionului observate destul de precis, nu există nicio garanție că acest lucru va fi cazul extrapolării la stânga sau la dreapta.
Prin înlocuirea valorilor x corespunzătoare în ecuația de regresie, putem determina valorile aliniate (prevăzute) ale indicatorului de performanță y(x) pentru fiecare observație.
Relația dintre y și x determină semnul coeficientului de regresie b (dacă > 0 - relație directă, în caz contrar - inversă). În exemplul nostru, conexiunea este inversă.
1.3. Coeficientul de elasticitate.
Nu este recomandabil să se utilizeze coeficienți de regresie (în exemplul b) pentru a evalua direct influența factorilor asupra unei caracteristici rezultante dacă există o diferență între unitățile de măsură ale indicatorului rezultat y și caracteristica factorului x.
În aceste scopuri, se calculează coeficienții de elasticitate și coeficienții beta.
Coeficientul mediu de elasticitate E arată cu ce procent în medie se va modifica rezultatul în agregat la din valoarea sa medie atunci când factorul se modifică X cu 1% din valoarea sa medie.
Coeficientul de elasticitate se gaseste prin formula:


Coeficientul de elasticitate este mai mic de 1. Prin urmare, dacă X se modifică cu 1%, Y se va modifica cu mai puțin de 1%. Cu alte cuvinte, influența lui X asupra lui Y nu este semnificativă.
Coeficientul beta arată cu ce parte din valoarea abaterii sale standard se va modifica valoarea medie a caracteristicii rezultate atunci când caracteristica factorului se modifică cu valoarea abaterii sale standard cu valoarea variabilelor independente rămase fixată la un nivel constant:

Acestea. o creştere a lui x cu abaterea standard S x va duce la o scădere a valorii medii a lui Y cu 0,74 abaterea standard S y .
1.4. Eroare de aproximare.
Să evaluăm calitatea ecuației de regresie folosind eroarea de aproximare absolută. Eroare medie de aproximare - abaterea medie a valorilor calculate de la cele reale:


Deoarece eroarea este mai mică de 15%, această ecuație poate fi folosită ca regresie.
Analiza variatiei.
Scopul analizei varianței este de a analiza varianța variabilei dependente:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Unde
∑(y i - y cp) 2 - suma totală a abaterilor pătrate;
∑(y(x) - y cp) 2 - suma abaterilor pătrate datorate regresiei („explicate” sau „factoriale”);
∑(y - y(x)) 2 - suma reziduală a abaterilor pătrate.
Relația de corelație teoretică pentru o legătură liniară este egală cu coeficientul de corelație r xy .
Pentru orice formă de dependență, etanșeitatea conexiunii se determină folosind coeficient de corelație multiplă:

Acest coeficient este universal, deoarece reflectă apropierea conexiunii și acuratețea modelului și poate fi folosit și pentru orice formă de conexiune între variabile. Atunci când se construiește un model de corelație cu un singur factor, coeficientul de corelație multiplă este egal cu coeficientul de corelație de pereche r xy.
1.6. Coeficient de determinare.
Pătratul coeficientului de corelație (multiplu) se numește coeficient de determinare, care arată proporția de variație a atributului rezultat explicată de variația atributului factorului.
Cel mai adesea, atunci când se interpretează coeficientul de determinare, acesta este exprimat ca procent.
R2 = -0,742 = 0,5413
acestea. în 54,13% din cazuri, modificările în x conduc la modificări în y. Cu alte cuvinte, acuratețea selectării ecuației de regresie este medie. Restul de 45,87% din modificarea lui Y se explică prin factori neluați în considerare în model.

Bibliografie

  1. Econometrie: Manual / Ed. I.I. Eliseeva. – M.: Finanțe și Statistică, 2001, p. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Econometrie. Curs pentru incepatori. Tutorial. – Ed. a II-a, rev. – M.: Delo, 1998, p. 17..42.
  3. Atelier de econometrie: Proc. indemnizatie / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko și alții; Ed. I.I. Eliseeva. – M.: Finanțe și Statistică, 2001, p. 5..48.

Compania are 10 angajați. Tabelul 2 prezintă date despre experiența lor de muncă și

salariu lunar.

Calculați folosind aceste date

  • - valoarea estimării covarianței eșantionului;
  • - valoarea coeficientului de corelație Pearson al eșantionului;
  • - se estimează direcția și rezistența conexiunii din valorile obținute;
  • - determinați cât de legitim este să spunem că această companie folosește modelul de management japonez, care presupune că cu cât un angajat petrece mai mult timp într-o anumită companie, cu atât salariul său ar trebui să fie mai mare.

Pe baza câmpului de corelație, putem emite ipoteza (pentru populație) că relația dintre toate valorile posibile ale lui X și Y este liniară.

Pentru a calcula parametrii de regresie, vom construi un tabel de calcul.

Eșantion înseamnă.

Variante de eșantion:

Ecuația de regresie estimată va fi

y = bx + a + e,

unde ei sunt valorile (estimările) observate ale erorilor ei, a și b, respectiv, estimările parametrilor b și în modelul de regresie care ar trebui găsite.

Pentru estimarea parametrilor b și c se utilizează metoda celor mai mici pătrate (metoda celor mai mici pătrate).

Sistem de ecuații normale.

a?x + b?x2 = ?y*x

Pentru datele noastre, sistemul de ecuații are forma

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Să înmulțim ecuația (1) a sistemului cu (-30.7), obținem un sistem pe care îl rezolvăm prin metoda adunării algebrice.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Primim:

1432,1 b = 105390

De unde provine b = 73,5912?

Acum să găsim coeficientul „a” din ecuația (1):

  • 10a + 307 b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

Obținem coeficienți de regresie empiric: b = 73,5912, a = 1070,7492

Ecuație de regresie (ecuație de regresie empirică):

y = 73,5912 x + 1070,7492

Covarianta.

În exemplul nostru, legătura dintre trăsătura Y și factorul X este ridicată și directă.

Prin urmare, putem spune cu siguranță că cu cât un angajat lucrează mai mult timp într-o anumită companie, cu atât salariul său este mai mare.

4. Testarea ipotezelor statistice. La rezolvarea acestei probleme, primul pas este formularea unei ipoteze testabile și a uneia alternative.

Verificarea egalitatii actiunilor generale.

A fost realizat un studiu asupra performanței studenților la două facultăți. Rezultatele opțiunilor sunt prezentate în tabelul 3. Se poate spune că ambele facultăți au același procent de studenți excelenți?

Media aritmetică simplă

Testăm ipoteza privind egalitatea acțiunilor generale:

Să găsim valoarea experimentală a criteriului Studentului:

Numărul de grade de libertate

f = nх + nу - 2 = 2 + 2 - 2 = 2

Determinați valoarea tkp utilizând tabelul de distribuție Student

Folosind tabelul Studentului găsim:

Ttabel(f;b/2) = Ttabel(2;0,025) = 4,303

Folosind tabelul punctelor critice ale distribuției Student la un nivel de semnificație b = 0,05 și un număr dat de grade de libertate, găsim tcr = 4,303

Deoarece tob > tcr, atunci ipoteza nulă este respinsă, cotele generale ale celor două eșantioane nu sunt egale.

Verificarea uniformității distribuției generale.

Oficialii universității doresc să afle cum s-a schimbat popularitatea departamentului de științe umaniste de-a lungul timpului. Numărul de solicitanți care au aplicat la această facultate a fost analizat în raport cu numărul total de solicitanți din anul corespunzător. (Datele sunt date în Tabelul 4). Dacă considerăm că numărul de solicitanți este un eșantion reprezentativ din numărul total de absolvenți de școală al anului, putem spune că interesul școlarilor pentru specialitățile acestei facultăți nu se modifică în timp?

Opțiunea 4

Soluție: Tabel pentru calcularea indicatorilor.

Mijlocul intervalului, xi

Frecvența acumulată, S

Frecvență, fi/n

Pentru a evalua seria de distribuție, găsim următorii indicatori:

Medie ponderată

Intervalul de variație este diferența dintre valorile maxime și minime ale caracteristicii seriei primare.

R = 2008 - 1988 = 20 Dispersia - caracterizează măsura dispersiei în jurul valorii sale medii (o măsură a dispersiei, adică abaterea de la medie).

Abatere standard (eroare medie de eșantionare).

Fiecare valoare a seriei diferă de valoarea medie 2002,66 cu o medie de 6,32

Testarea ipotezei despre distribuția uniformă a populației.

Pentru a testa ipoteza despre distribuția uniformă a lui X, i.e. conform legii: f(x) = 1/(b-a) în intervalul (a,b) este necesar:

Estimați parametrii a și b - capetele intervalului în care au fost observate posibile valori ale lui X, folosind formulele (semnul * indică estimările parametrilor):

Aflați densitatea de probabilitate a distribuției așteptate f(x) = 1/(b* - a*)

Găsiți frecvențele teoretice:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Comparați frecvențele empirice și teoretice folosind criteriul Pearson, luând numărul de grade de libertate k = s-3, unde s este numărul de intervale inițiale de eșantionare; dacă a fost efectuată o combinație de frecvențe mici și, prin urmare, intervalele în sine, atunci s este numărul de intervale rămase după combinație. Să găsim estimări pentru parametrii a* și b* ai distribuției uniforme folosind formulele:

Să găsim densitatea distribuției uniforme presupuse:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Să găsim frecvențele teoretice:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013.62-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Deoarece statistica Pearson măsoară diferența dintre distribuțiile empirice și teoretice, cu cât valoarea sa observată Kob este mai mare, cu atât argumentul împotriva ipotezei principale este mai puternic.

Prin urmare, regiunea critică pentru această statistică este întotdeauna dreptaci: ) poate diferi semnificativ de caracteristicile corespunzătoare ale schemei originale (nedistorsionate) (, l) - Deci, de exemplu, mai jos (a se vedea secțiunea 1.1.4) este prezentat că impunerea erorilor normale aleatoare asupra schemei normale bidimensionale inițiale (, m) reduce întotdeauna valoarea absolută a coeficientului de regresie Ql în relație (B. 15) și, de asemenea, slăbește gradul de apropiere a conexiunii dintre acesta. (adică reduce valoarea absolută a coeficientului de corelație r).

Influența erorilor de măsurare asupra valorii coeficientului de corelație. Să presupunem că dorim să estimăm gradul de apropiere a corelației dintre componentele unei variabile aleatoare normale bidimensionale (, TJ), dar le putem observa doar cu unele erori aleatoare de măsurare es și respectiv e (vezi diagrama D2). dependenţă în introducere). Prin urmare, datele experimentale (xit i/i), i = 1, 2,. .., l, sunt practic valori de eșantion ale variabilei aleatoare bidimensionale distorsionate (, r)), unde =

Metoda R.a. constă în derivarea unei ecuaţii de regresie (inclusiv estimarea parametrilor acesteia), cu ajutorul căreia se află valoarea medie a unei variabile aleatoare dacă se cunoaşte valoarea alteia (sau altele în cazul regresiei multiple sau multivariate). (În contrast, analiza corelației este utilizată pentru a găsi și exprima puterea relațiilor dintre variabile aleatoare71.)

În studiul corelației semnelor care nu sunt asociate cu o schimbare consistentă în timp, fiecare semn se modifică sub influența mai multor motive, luate ca aleatoriu. În seriile de dinamică, la acestea se adaugă modificarea timpului fiecărei serii. Această modificare duce la așa-numita autocorelare - influența modificărilor nivelurilor din seriile anterioare asupra celor ulterioare. Prin urmare, corelația dintre nivelurile seriilor temporale arată corect legătura strânsă dintre fenomenele reflectate în seria temporală doar dacă nu există autocorelație în fiecare dintre ele. În plus, autocorelarea conduce la o denaturare a valorii erorilor pătratice medii ale coeficienților de regresie, ceea ce face dificilă construirea intervalelor de încredere pentru coeficienții de regresie, precum și testarea semnificației acestora.

Coeficienții teoretici și de corelație de eșantion determinati de relațiile (1.8) și respectiv (1.8), pot fi calculați formal pentru orice sistem de observare bidimensional, sunt măsuri ale gradului de apropiere a relației statistice liniare dintre caracteristicile analizate. Totuși, numai în cazul unei distribuții normale comune a variabilelor aleatoare studiate și q coeficientul de corelație r are o semnificație clară ca caracteristică a gradului de apropiere a conexiunii dintre ele. În special, în acest caz, raportul r - 1 confirmă o relație liniară pur funcțională între mărimile studiate, iar ecuația r = 0 indică independența lor reciprocă completă. În plus, coeficientul de corelație, împreună cu mediile și variațiile variabilelor aleatoare și TJ, constituie cei cinci parametri care oferă informații cuprinzătoare despre

După ce s-a determinat ecuația dreptei teoretice de regresie, este necesar să se cuantifice gradul de apropiere a relației dintre două serii de observații. Liniile de regresie desenate în Fig. 4.1, b, c sunt aceleași, dar în Fig. 4.1, b punctele sunt mult mai aproape (mai aproape) de dreapta de regresie decât în ​​Fig. 4.1, c.

În analiza corelației, se presupune că factorii și răspunsurile sunt de natură aleatorie și se supun unei legi de distribuție normală.

Apropierea relației dintre variabilele aleatoare este caracterizată de raportul de corelație p xy. Să ne oprim mai în detaliu asupra semnificației fizice a acestui indicator. Pentru a face acest lucru, introducem concepte noi.

Dispersia reziduală 5^res caracterizează împrăștierea experimental

punctele observate în raport cu linia de regresie și reprezintă un indicator al erorii în prezicerea parametrului y conform ecuației de regresie (Fig. 4.6):



s2 =f)