Propriétés des opérations de calcul des caractéristiques quantitatives de variables aléatoires. Caractéristiques de base des variables aléatoires Dispersion et écart type

Le but de l’analyse de corrélation consiste à identifier une estimation de la force de la connexion entre des variables aléatoires (caractéristiques) qui caractérisent un processus réel.
Problèmes d'analyse de corrélation:
a) Mesurer le degré de cohérence (proximité, force, gravité, intensité) de deux ou plusieurs phénomènes.
b) Sélection des facteurs qui ont l'impact le plus significatif sur l'attribut résultant, sur la base de la mesure du degré de connectivité entre les phénomènes. Les facteurs significatifs à cet égard sont utilisés plus en détail dans l'analyse de régression.
c) Détection de relations causales inconnues.

Les formes de manifestation des relations sont très diverses. Les types les plus courants sont fonctionnels (complets) et connexion de corrélation (incomplète).
Corrélation se manifeste en moyenne pour les observations de masse, lorsque les valeurs données de la variable dépendante correspondent à une certaine série de valeurs probabilistes de la variable indépendante. La relation est appelée corrélation, si chaque valeur de la caractéristique factorielle correspond à une valeur non aléatoire bien définie de la caractéristique résultante.
Une représentation visuelle d'une table de corrélation est le champ de corrélation. Il s'agit d'un graphique où les valeurs X sont tracées sur l'axe des abscisses, les valeurs Y sont tracées sur l'axe des ordonnées et les combinaisons de X et Y sont représentées par des points. Par l'emplacement des points, on peut juger de la présence d'une connexion.
Indicateurs de proximité de la connexion permettent de caractériser la dépendance de la variation du trait résultant sur la variation du trait facteur.
Un indicateur plus avancé du degré d’encombrement connexion de corrélation est coefficient de corrélation linéaire. Lors du calcul de cet indicateur, non seulement les écarts des valeurs individuelles d'une caractéristique par rapport à la moyenne sont pris en compte, mais également l'ampleur même de ces écarts.

Les questions clés de ce sujet sont les équations de la relation de régression entre la caractéristique effective et la variable explicative, la méthode des moindres carrés pour estimer les paramètres du modèle de régression, l'analyse de la qualité de l'équation de régression résultante, la construction d'intervalles de confiance pour prédire le valeurs de la caractéristique effective à l'aide de l'équation de régression.

Exemple 2


Système d'équations normales.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Pour nos données, le système d’équations a la forme
30a + 5763b = 21460
5763 une + 1200261 b = 3800360
A partir de la première équation on exprime UN et remplacez dans la deuxième équation :
On obtient b = -3,46, a = 1379,33
Équation de régression:
y = -3,46 x + 1379,33

2. Calcul des paramètres de l'équation de régression.
Échantillon signifie.



Exemples d'écarts :


Écart-type


1.1. Coefficient de corrélation
Covariance.

Nous calculons l'indicateur de proximité de la connexion. Cet indicateur est un exemple de coefficient de corrélation linéaire, calculé par la formule :

Le coefficient de corrélation linéaire prend des valeurs de –1 à +1.
Les liens entre les caractéristiques peuvent être faibles et forts (étroits). Leurs critères sont évalués sur l'échelle de Chaddock :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Dans notre exemple, la relation entre le trait Y et le facteur X est élevée et inverse.
De plus, le coefficient de corrélation linéaire des paires peut être déterminé grâce au coefficient de régression b :

1.2. Équation de régression(estimation de l'équation de régression).

L'équation de régression linéaire est y = -3,46 x + 1379,33

Le coefficient b = -3,46 montre l'évolution moyenne de l'indicateur effectif (en unités de mesure y) avec une augmentation ou une diminution de la valeur du facteur x par unité de sa mesure. Dans cet exemple, avec une augmentation de 1 unité, y diminue de -3,46 en moyenne.
Le coefficient a = 1379,33 montre formellement le niveau prédit de y, mais seulement si x = 0 est proche des valeurs de l'échantillon.
Mais si x=0 est loin des valeurs d'échantillon de x, alors une interprétation littérale peut conduire à des résultats incorrects, et même si la droite de régression décrit assez précisément les valeurs d'échantillon observées, rien ne garantit que cela le sera également. être le cas lors d’une extrapolation à gauche ou à droite.
En remplaçant les valeurs x appropriées dans l'équation de régression, nous pouvons déterminer les valeurs alignées (prévues) de l'indicateur de performance y(x) pour chaque observation.
La relation entre y et x détermine le signe du coefficient de régression b (si > 0 - relation directe, sinon - inverse). Dans notre exemple, la connexion est inversée.
1.3. Coefficient d'élasticité.
Il n'est pas conseillé d'utiliser des coefficients de régression (dans l'exemple b) pour évaluer directement l'influence de facteurs sur une caractéristique résultante s'il existe une différence dans les unités de mesure de l'indicateur résultant y et de la caractéristique factorielle x.
À ces fins, des coefficients d'élasticité et des coefficients bêta sont calculés.
Le coefficient d'élasticité moyen E montre de quel pourcentage en moyenne le résultat changera dans l'ensemble à de sa valeur moyenne lorsque le facteur change X de 1% de sa valeur moyenne.
Le coefficient d'élasticité est trouvé par la formule :


Le coefficient d'élasticité est inférieur à 1. Par conséquent, si X change de 1 %, Y changera de moins de 1 %. Autrement dit, l’influence de X sur Y n’est pas significative.
Coefficient bêta montre de quelle partie de la valeur de son écart type la valeur moyenne de la caractéristique résultante changera lorsque la caractéristique factorielle change de la valeur de son écart type avec la valeur des variables indépendantes restantes fixées à un niveau constant :

Ceux. une augmentation de x de l'écart type S x entraînera une diminution de la valeur moyenne de Y de 0,74 écart type S y .
1.4. Erreur d'approximation.
Évaluons la qualité de l'équation de régression en utilisant l'erreur d'approximation absolue. Erreur d'approximation moyenne - écart moyen des valeurs calculées par rapport aux valeurs réelles :


L’erreur étant inférieure à 15 %, cette équation peut être utilisée comme régression.
Analyse de variance.
Le but de l'analyse de variance est d'analyser la variance de la variable dépendante :
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2

∑(y i - y cp) 2 - somme totale des écarts au carré ;
∑(y(x) - y cp) 2 - la somme des carrés des écarts dus à la régression (« expliquée » ou « factorielle ») ;
∑(y - y(x)) 2 - somme résiduelle des carrés des écarts.
Relation de corrélation théorique pour une connexion linéaire est égal au coefficient de corrélation r xy .
Pour toute forme de dépendance, l'étanchéité de la connexion est déterminée à l'aide de coefficient de corrélation multiple:

Ce coefficient est universel, car il reflète l'étroitesse de la relation et la précision du modèle, et peut également être utilisé pour toute forme de connexion entre variables. Lors de la construction d'un modèle de corrélation à un facteur, le coefficient de corrélation multiple est égal au coefficient de corrélation de paire r xy.
1.6. Coefficient de détermination.
Le carré du coefficient de corrélation (multiple) est appelé coefficient de détermination, qui montre la proportion de variation de l'attribut résultant expliquée par la variation de l'attribut facteur.
Le plus souvent, lors de l'interprétation du coefficient de détermination, celui-ci est exprimé en pourcentage.
R2 = -0,742 = 0,5413
ceux. dans 54,13 % des cas, les modifications de x entraînent des modifications de y. En d’autres termes, la précision du choix de l’équation de régression est moyenne. Les 45,87 % restants de la variation de Y s’expliquent par des facteurs non pris en compte dans le modèle.

Bibliographie

  1. Économétrie : Manuel / Ed. I.I. Eliseeva. – M. : Finances et Statistiques, 2001, p. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Économétrie. Cours débutant. Didacticiel. – 2e éd., rév. – M. : Delo, 1998, p. 17..42.
  3. Atelier d'économétrie : Proc. allocation / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko et autres ; Éd. I.I. Eliseeva. – M. : Finances et Statistiques, 2001, p. 5..48.

L'entreprise emploie 10 personnes. Le tableau 2 présente des données sur leur expérience de travail et

salaire mensuel.

Calculer en utilisant ces données

  • - la valeur de l'estimation de la covariance de l'échantillon ;
  • - la valeur du coefficient de corrélation de Pearson de l'échantillon ;
  • - estimer la direction et la force de la connexion à partir des valeurs obtenues ;
  • - déterminer dans quelle mesure il est légitime de dire que cette entreprise utilise le modèle de management japonais, qui suppose que plus un salarié passe de temps dans une entreprise donnée, plus son salaire doit être élevé.

Sur la base du champ de corrélation, on peut émettre l'hypothèse (pour la population) que la relation entre toutes les valeurs possibles de X et Y est linéaire.

Pour calculer les paramètres de régression, nous allons construire une table de calcul.

Échantillon signifie.

Exemples d'écarts :

L'équation de régression estimée sera

y = bx + a + e,

où ei sont les valeurs observées (estimations) des erreurs ei, a et b, respectivement, estimations des paramètres b et dans le modèle de régression qu'il faut trouver.

Pour estimer les paramètres b et c, la méthode des moindres carrés (méthode des moindres carrés) est utilisée.

Système d'équations normales.

a?x + b?x2 = ?y*x

Pour nos données, le système d’équations a la forme

  • 10a + 307b = 33300
  • 307a + 10857b = 1127700

Multiplions l'équation (1) du système par (-30,7), nous obtenons un système que l'on résout par la méthode d'addition algébrique.

  • -307a -9424,9b = -1022310
  • 307a + 10857b = 1127700

On a:

1432,1 b = 105390

D’où vient b = 73,5912 ?

Trouvons maintenant le coefficient « a » de l’équation (1) :

  • 10a + 307b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

On obtient des coefficients de régression empiriques : b = 73,5912, a = 1070,7492

Équation de régression (équation de régression empirique) :

y = 73,5912 x + 1070,7492

Covariance.

Dans notre exemple, le lien entre le trait Y et le facteur X est élevé et direct.

Par conséquent, nous pouvons affirmer avec certitude que plus un employé travaille longtemps dans une entreprise donnée, plus son salaire est élevé.

4. Tester des hypothèses statistiques. Pour résoudre ce problème, la première étape consiste à formuler une hypothèse testable et une alternative.

Vérification de l'égalité des parts générales.

Une étude a été menée sur les performances des étudiants dans deux facultés. Les résultats pour les options sont donnés dans le tableau 3. Peut-on dire que les deux facultés ont le même pourcentage d’excellents étudiants ?

Moyenne arithmétique simple

Nous testons l'hypothèse d'égalité des parts générales :

Trouvons la valeur expérimentale du critère de Student :

Nombre de degrés de liberté

f = nх + nу - 2 = 2 + 2 - 2 = 2

Déterminez la valeur tkp à l'aide de la table de distribution Student

En utilisant la table de Student on trouve :

Ttable(f;b/2) = Ttable(2;0,025) = 4,303

En utilisant le tableau des points critiques de la distribution de Student à un niveau de signification b = 0,05 et un nombre de degrés de liberté donné, on trouve tcr = 4,303

Parce que tob > tcr, alors l'hypothèse nulle est rejetée, les parts générales des deux échantillons ne sont pas égales.

Vérification de l'uniformité de la répartition générale.

Les responsables de l’université veulent savoir comment la popularité du département de sciences humaines a évolué au fil du temps. Le nombre de candidats ayant postulé à cette faculté a été analysé par rapport au nombre total de candidats de l'année correspondante. (Les données sont données dans le tableau 4). Si l'on considère le nombre de candidats comme un échantillon représentatif du nombre total de bacheliers de l'année, peut-on dire que l'intérêt des écoliers pour les spécialités de cette faculté n'évolue pas dans le temps ?

Option 4

Solution : Tableau de calcul des indicateurs.

Milieu de l'intervalle, xi

Fréquence accumulée, S

Fréquence, fi/n

Pour évaluer les séries de distribution, on retrouve les indicateurs suivants :

Moyenne pondérée

La plage de variation est la différence entre les valeurs maximales et minimales de la caractéristique de la série primaire.

R = 2008 - 1988 = 20 Dispersion - caractérise la mesure de dispersion autour de sa valeur moyenne (une mesure de dispersion, c'est-à-dire un écart par rapport à la moyenne).

Écart type (erreur d’échantillonnage moyenne).

Chaque valeur de la série diffère de la valeur moyenne 2002,66 d'une moyenne de 6,32

Tester l'hypothèse de la répartition uniforme de la population.

Afin de tester l'hypothèse de la distribution uniforme de X, c'est-à-dire d'après la loi : f(x) = 1/(b-a) dans l'intervalle (a,b) il faut :

Estimez les paramètres a et b - les extrémités de l'intervalle dans lequel les valeurs possibles de X ont été observées, à l'aide des formules (le signe * désigne les estimations des paramètres) :

Trouver la densité de probabilité de la distribution attendue f(x) = 1/(b* - a*)

Trouver les fréquences théoriques :

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Comparez les fréquences empiriques et théoriques en utilisant le critère de Pearson, en prenant le nombre de degrés de liberté k = s-3, où s est le nombre d'intervalles d'échantillonnage initiaux ; si une combinaison de petites fréquences, et donc des intervalles eux-mêmes, a été réalisée, alors s est le nombre d'intervalles restant après la combinaison. Trouvons des estimations des paramètres a* et b* de la distribution uniforme à l'aide des formules :

Trouvons la densité de la distribution uniforme supposée :

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Retrouvons les fréquences théoriques :

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013,62-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Puisque la statistique de Pearson mesure la différence entre les distributions empiriques et théoriques, plus sa valeur Kob observée est élevée, plus l'argument contre l'hypothèse principale est fort.

Par conséquent, la région critique pour ces statistiques est toujours à droite : ) peut différer considérablement des caractéristiques correspondantes du schéma original (non déformé) (, l) - Ainsi, par exemple, ci-dessous (voir section 1.1.4), il est montré que l'imposition d'erreurs normales aléatoires sur le schéma normal bidimensionnel original (, m) réduit toujours la valeur absolue du coefficient de régression Ql par rapport (B. 15), et affaiblit également le degré d'étroitesse de la connexion entre celui-ci (c'est-à-dire qu'il réduit la valeur absolue du coefficient de corrélation r).

L'influence des erreurs de mesure sur la valeur du coefficient de corrélation. Voulons estimer le degré de proximité de la corrélation entre les composantes d'une variable aléatoire normale bidimensionnelle (, TJ), mais nous ne pouvons les observer qu'avec quelques erreurs de mesure aléatoires es et e, respectivement (voir schéma du D2 dépendance dans l’introduction). Par conséquent, les données expérimentales (xit i/i), i = 1, 2,. .., l, sont pratiquement des valeurs d'échantillon de la variable aléatoire bidimensionnelle déformée (, r)), où =

Méthode R.a. consiste à dériver une équation de régression (y compris l'estimation de ses paramètres), à l'aide de laquelle on trouve la valeur moyenne d'une variable aléatoire si la valeur d'une autre (ou d'autres dans le cas d'une régression multiple ou multivariée) est connue. (En revanche, l’analyse de corrélation est utilisée pour trouver et exprimer la force des relations entre des variables aléatoires71.)

Dans l'étude de la corrélation de signes qui ne sont pas associés à une évolution constante dans le temps, chaque signe change sous l'influence de nombreuses raisons, considérées comme aléatoires. Dans les séries dynamiques, le changement de temps de chaque série leur est ajouté. Ce changement conduit à ce qu'on appelle l'autocorrélation - l'influence des changements dans les niveaux des séries précédentes sur les suivantes. Par conséquent, la corrélation entre les niveaux des séries chronologiques ne montre correctement le lien étroit entre les phénomènes reflétés dans les séries chronologiques que s'il n'y a pas d'autocorrélation dans chacun d'eux. De plus, l'autocorrélation conduit à une distorsion de la valeur des erreurs quadratiques moyennes des coefficients de régression, ce qui rend difficile la construction d'intervalles de confiance pour les coefficients de régression, ainsi que le test de leur signification.

Les coefficients de corrélation théoriques et d'échantillon déterminés respectivement par les relations (1.8) et (1.8) peuvent être formellement calculés pour tout système d'observation bidimensionnel ; ce sont des mesures du degré de proximité de la relation statistique linéaire entre les caractéristiques analysées. Cependant, ce n'est que dans le cas d'une distribution normale conjointe des variables aléatoires étudiées et de q que le coefficient de corrélation r a une signification claire en tant que caractéristique du degré d'étroitesse du lien entre elles. En particulier, dans ce cas, le rapport r - 1 confirme une relation linéaire purement fonctionnelle entre les grandeurs étudiées, et l'équation r = 0 indique leur totale indépendance mutuelle. De plus, le coefficient de corrélation, ainsi que les moyennes et les variances des variables aléatoires et du TJ, constituent les cinq paramètres qui fournissent des informations complètes sur

Après avoir déterminé l’équation de la droite de régression théorique, il est nécessaire de quantifier l’étroitesse de la relation entre deux séries d’observations. Les droites de régression tracées sur la Fig. 4.1, b, c, sont les mêmes, mais sur la Fig. 4.1, b les points sont beaucoup plus proches (plus proches) de la droite de régression que sur la Fig. 4.1, ch.

Dans l’analyse de corrélation, on suppose que les facteurs et les réponses sont de nature aléatoire et obéissent à une loi de distribution normale.

L'étroitesse de la relation entre les variables aléatoires est caractérisée par le rapport de corrélation p xy. Arrêtons-nous plus en détail sur la signification physique de cet indicateur. Pour ce faire, nous introduisons de nouveaux concepts.

La dispersion résiduelle 5^res caractérise expérimentalement la diffusion

points observés par rapport à la droite de régression et représente un indicateur de l'erreur de prédiction du paramètre y selon l'équation de régression (Fig. 4.6) :



s2 =f)