Eigenschaften von Operationen zur Berechnung quantitativer Merkmale von Zufallsvariablen. Hauptmerkmale von Zufallsvariablen Streuung und Standardabweichung

Der Zweck der Korrelationsanalyse besteht darin, eine Schätzung der Stärke der Verbindung zwischen Zufallsvariablen (Merkmalen) zu ermitteln, die einen realen Prozess charakterisiert.
Probleme der Korrelationsanalyse:
a) Messung des Zusammenhangsgrades (Festigkeit, Stärke, Schwere, Intensität) zweier oder mehrerer Phänomene.
b) Die Auswahl der Faktoren, die den größten Einfluss auf das resultierende Attribut haben, basierend auf der Messung des Grades der Konnektivität zwischen Phänomenen. Signifikante Faktoren in diesem Aspekt werden in der Regressionsanalyse weiter verwendet.
c) Erkennung unbekannter Kausalzusammenhänge.

Die Erscheinungsformen von Zusammenhängen sind sehr vielfältig. Als ihre häufigsten Typen sind funktionale (vollständige) und Korrelation (unvollständiger) Zusammenhang.
Korrelation manifestiert sich im Durchschnitt bei Massenbeobachtungen, wenn die gegebenen Werte der abhängigen Variablen einer bestimmten Anzahl von Wahrscheinlichkeitswerten der unabhängigen Variablen entsprechen. Den Zusammenhang nennt man Korrelation, wenn jeder Wert des Faktorattributs einem wohldefinierten, nicht zufälligen Wert des resultierenden Attributs entspricht.
Das Korrelationsfeld dient als visuelle Darstellung der Korrelationstabelle. Es handelt sich um ein Diagramm, in dem X-Werte auf der Abszissenachse, Y-Werte auf der Ordinatenachse und Kombinationen von X und Y durch Punkte dargestellt sind. Das Vorhandensein einer Verbindung kann anhand der Position beurteilt werden die Punkte.
Dichtheitsindikatoren ermöglichen es, die Abhängigkeit der Variation des resultierenden Merkmals von der Variation des Merkmalsfaktors zu charakterisieren.
Ein besserer Indikator für den Grad der Dichtheit Korrelation Ist linearer Korrelationskoeffizient. Bei der Berechnung dieses Indikators werden nicht nur die Abweichungen der einzelnen Werte des Attributs vom Durchschnitt berücksichtigt, sondern auch die Größe dieser Abweichungen.

Die Hauptthemen dieses Themas sind die Gleichungen der Regressionsbeziehung zwischen dem resultierenden Merkmal und der erklärenden Variablen, die Methode der kleinsten Quadrate zur Schätzung der Parameter des Regressionsmodells, die Analyse der Qualität der resultierenden Regressionsgleichung und die Erstellung von Konfidenzintervallen zur Vorhersage der Werte des resultierenden Merkmals mithilfe der Regressionsgleichung.

Beispiel 2


System normaler Gleichungen.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Für unsere Daten hat das Gleichungssystem die Form
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Aus der ersten Gleichung drücken wir aus A und setze in die zweite Gleichung ein:
Wir erhalten b = -3,46, a = 1379,33
Regressionsgleichung:
y = -3,46 x + 1379,33

2. Berechnung der Parameter der Regressionsgleichung.
Beispielmittel.



Stichprobenvarianzen:


Standardabweichung


1.1. Korrelationskoeffizient
Kovarianz.

Wir berechnen den Indikator für die Nähe der Kommunikation. Ein solcher Indikator ist ein selektiver linearer Korrelationskoeffizient, der nach folgender Formel berechnet wird:

Der lineare Korrelationskoeffizient nimmt Werte von –1 bis +1 an.
Beziehungen zwischen Merkmalen können schwach oder stark (eng) sein. Ihre Kriterien werden auf der Chaddock-Skala bewertet:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
In unserem Beispiel ist die Beziehung zwischen Merkmal Y und Faktor X hoch und invers.
Darüber hinaus kann der Koeffizient der linearen Paarkorrelation anhand des Regressionskoeffizienten b bestimmt werden:

1.2. Regressionsgleichung(Auswertung der Regressionsgleichung).

Die lineare Regressionsgleichung lautet y = -3,46 x + 1379,33

Der Koeffizient b = -3,46 zeigt die durchschnittliche Änderung des effektiven Indikators (in Einheiten von y) mit einer Zunahme oder Abnahme des Wertes des Faktors x pro Einheit seiner Messung. In diesem Beispiel verringert sich y bei einer Erhöhung um 1 Einheit um durchschnittlich -3,46.
Der Koeffizient a = 1379,33 zeigt formal das vorhergesagte Niveau von y, jedoch nur, wenn x=0 nahe an den Stichprobenwerten liegt.
Wenn x=0 jedoch weit von den x-Werten der Stichprobe entfernt ist, kann eine wörtliche Interpretation zu falschen Ergebnissen führen, und selbst wenn die Regressionsgerade die Werte der beobachteten Stichprobe genau beschreibt, gibt es keine Garantie dafür, dass dies auch der Fall ist Fall bei der Extrapolation nach links oder rechts.
Durch Einsetzen der entsprechenden Werte von x in die Regressionsgleichung ist es möglich, die ausgerichteten (vorhergesagten) Werte des effektiven Indikators y(x) für jede Beobachtung zu bestimmen.
Die Beziehung zwischen y und x bestimmt das Vorzeichen des Regressionskoeffizienten b (wenn > 0 - direkte Beziehung, andernfalls - inverse). In unserem Beispiel ist der Zusammenhang umgekehrt.
1.3. Elastizitätskoeffizient.
Es ist unerwünscht, Regressionskoeffizienten (im Beispiel b) zur direkten Bewertung des Einflusses von Faktoren auf das Effektivmerkmal zu verwenden, wenn ein Unterschied in den Maßeinheiten des Effektivindikators y und des Faktorattributs x besteht.
Zu diesem Zweck werden Elastizitätskoeffizienten und Betakoeffizienten berechnet.
Der durchschnittliche Elastizitätskoeffizient E gibt an, um wie viel Prozent sich das Ergebnis im Durchschnitt im Aggregat ändert bei von seinem Durchschnittswert bei Änderung des Faktors X 1 % seines Durchschnittswertes.
Der Elastizitätskoeffizient wird durch die Formel ermittelt:


Der Elastizitätskoeffizient ist kleiner als 1. Wenn sich also X um 1 % ändert, ändert sich Y um weniger als 1 %. Mit anderen Worten: Der Einfluss von X auf Y ist nicht signifikant.
Beta-Koeffizient zeigt, um welchen Teil des Wertes seiner Standardabweichung sich der Wert des effektiven Attributs im Durchschnitt ändert, wenn sich das Faktorattribut um den Wert seiner Standardabweichung ändert und der Wert der verbleibenden unabhängigen Variablen auf einem konstanten Niveau festgelegt wird:

Diese. Eine Erhöhung von x um den Wert der Standardabweichung S x führt zu einer Verringerung des Durchschnittswerts von Y um 0,74 Standardabweichung S y .
1.4. Näherungsfehler.
Bewerten wir die Qualität der Regressionsgleichung anhand des absoluten Näherungsfehlers. Der durchschnittliche Näherungsfehler ist die durchschnittliche Abweichung der berechneten Werte von den tatsächlichen:


Da der Fehler weniger als 15 % beträgt, kann diese Gleichung als Regression verwendet werden.
Ausbreitungsanalyse.
Die Aufgabe der Varianzanalyse besteht darin, die Varianz der abhängigen Variablen zu analysieren:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Wo
∑(y i - y cp) 2 - Gesamtsumme der quadratischen Abweichungen;
∑(y(x) - y cp) 2 – Summe der quadratischen Abweichungen aufgrund der Regression („erklärt“ oder „faktoriell“);
∑(y - y(x)) 2 - Restsumme der quadratischen Abweichungen.
Theoretisches Korrelationsverhältnis für eine lineare Beziehung ist gleich dem Korrelationskoeffizienten r xy .
Für jede Form der Abhängigkeit wird die Dichtheit der Verbindung anhand von ermittelt multipler Korrelationskoeffizient:

Dieser Koeffizient ist universell, da er die Enge des Zusammenhangs und die Genauigkeit des Modells widerspiegelt und auch für jede Form des Zusammenhangs zwischen Variablen verwendet werden kann. Bei der Erstellung eines Ein-Faktor-Korrelationsmodells ist der Mehrfachkorrelationskoeffizient gleich dem Paarkorrelationskoeffizienten r xy .
1.6. Bestimmungskoeffizient.
Das Quadrat des (multiplen) Korrelationskoeffizienten wird Bestimmtheitsmaß genannt und gibt den Anteil der Variation des resultierenden Attributs an, die durch die Variation des Faktorattributs erklärt wird.
Am häufigsten wird das Bestimmtheitsmaß bei der Interpretation als Prozentsatz ausgedrückt.
R 2 \u003d -0,74 2 \u003d 0,5413
diese. in 54,13 % der Fälle führen Änderungen in x zu einer Änderung in y. Mit anderen Worten: Die Genauigkeit der Auswahl der Regressionsgleichung ist durchschnittlich. Die restlichen 45,87 % der Y-Änderung sind auf Faktoren zurückzuführen, die im Modell nicht berücksichtigt wurden.

Referenzliste

  1. Ökonometrie: Lehrbuch / Ed. I.I. Eliseeva. - M.: Finanzen und Statistik, 2001, S. 34..89.
  2. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Ökonometrie. Erstkurs. Lernprogramm. - 2. Aufl., Rev. – M.: Delo, 1998, S. 17..42.
  3. Workshop zur Ökonometrie: Proc. Zulage / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko und andere; Ed. I.I. Eliseeva. - M.: Finanzen und Statistik, 2001, S. 5..48.

Das Unternehmen beschäftigt 10 Mitarbeiter. Tabelle 2 zeigt Daten zu ihrer Berufserfahrung und

monatliches Gehalt.

Berechnen Sie aus diesen Daten

  • - der Wert der Kovarianzschätzung der Stichprobe;
  • - der Wert des Pearson-Korrelationskoeffizienten der Stichprobe;
  • - Bewerten Sie die Richtung und Stärke der Verbindung anhand der erhaltenen Werte.
  • - festzustellen, wie legitim die Aussage ist, dass dieses Unternehmen das japanische Managementmodell anwendet, das in der Annahme besteht, dass sein Gehalt umso höher sein sollte, je mehr Zeit ein Mitarbeiter in diesem Unternehmen verbringt.

Basierend auf dem Korrelationsfeld kann man (für die allgemeine Bevölkerung) die Hypothese aufstellen, dass die Beziehung zwischen allen möglichen Werten von X und Y linear ist.

Zur Berechnung der Regressionsparameter erstellen wir eine Berechnungstabelle.

Beispielmittel.

Stichprobenvarianzen:

Die geschätzte Regressionsgleichung sieht so aus

y = bx + a + e,

wobei ei die beobachteten Werte (Schätzungen) der Fehler ei, a und b bzw. die Schätzungen der Parameter b und im Regressionsmodell sind, die gefunden werden sollten.

Um die Parameter b und c abzuschätzen, verwenden Sie LSM (kleinste Quadrate).

System normaler Gleichungen.

a?x + b?x2 = ?y*x

Für unsere Daten hat das Gleichungssystem die Form

  • 10a + 307b = 33300
  • 307 a + 10857 b = 1127700

Multiplizieren wir die Gleichung (1) des Systems mit (-30,7), erhalten wir ein System, das wir mit der Methode der algebraischen Addition lösen.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Wir bekommen:

1432,1b = 105390

Wobei b = 73,5912

Nun ermitteln wir den Koeffizienten „a“ aus Gleichung (1):

  • 10a + 307b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

Wir erhalten empirische Regressionskoeffizienten: b = 73,5912, a = 1070,7492

Regressionsgleichung (empirische Regressionsgleichung):

y = 73,5912 x + 1070,7492

Kovarianz.

In unserem Beispiel ist der Zusammenhang zwischen Merkmal Y und Faktor X hoch und direkt.

Daher können wir mit Sicherheit sagen, dass sein Gehalt umso höher ist, je länger ein Mitarbeiter in einem bestimmten Unternehmen arbeitet.

4. Testen statistischer Hypothesen. Bei der Lösung dieses Problems besteht der erste Schritt darin, eine überprüfbare Hypothese und eine Alternativhypothese zu formulieren.

Überprüfung der Gleichheit der allgemeinen Anteile.

An zwei Fakultäten wurde eine Studie zu den Studierendenleistungen durchgeführt. Die Ergebnisse für die Varianten sind in Tabelle 3 dargestellt. Kann man argumentieren, dass beide Fakultäten den gleichen Anteil exzellenter Studierender haben?

einfaches arithmetisches Mittel

Wir testen die Hypothese über die Gleichheit der allgemeinen Anteile:

Lassen Sie uns den experimentellen Wert des Student-Kriteriums ermitteln:

Anzahl der Freiheitsgrade

f \u003d nx + ny - 2 \u003d 2 + 2 - 2 \u003d 2

Bestimmen Sie den Wert von tkp anhand der Verteilungstabelle des Schülers

Gemäß der Tabelle des Studenten finden wir:

Ttabl(f;b/2) = Ttabl(2;0,025) = 4,303

Gemäß der Tabelle der kritischen Punkte der Student-Verteilung bei einem Signifikanzniveau von b = 0,05 und einer gegebenen Anzahl von Freiheitsgraden finden wir tcr = 4,303

Weil tobs > tcr, dann wird die Nullhypothese verworfen, die allgemeinen Anteile der beiden Stichproben sind nicht gleich.

Überprüfung der Gleichmäßigkeit der allgemeinen Verteilung.

Die Universitätsleitung möchte herausfinden, wie sich die Beliebtheit der Fakultät für Geisteswissenschaften im Laufe der Zeit verändert hat. Die Anzahl der Bewerber, die sich für diese Fakultät beworben haben, wurde im Verhältnis zur Gesamtzahl der Bewerber im entsprechenden Jahr analysiert. (Daten sind in Tabelle 4 angegeben). Wenn wir die Zahl der Bewerber als repräsentative Stichprobe der Gesamtzahl der Schulabsolventen eines Jahrgangs betrachten, lässt sich dann argumentieren, dass sich das Interesse der Schüler an den Fachgebieten dieser Fakultät im Laufe der Zeit nicht ändert?

Option 4

Lösung: Tabelle zur Berechnung von Indikatoren.

Intervallmittelpunkt, xi

Kumulierte Häufigkeit, S

Häufigkeit, fi/n

Zur Auswertung der Verteilungsreihe finden wir folgende Indikatoren:

gewichteter Durchschnitt

Der Variationsbereich ist die Differenz zwischen den Maximal- und Minimalwerten des Attributs der Primärreihe.

R = 2008 - 1988 = 20 Streuung – charakterisiert das Maß der Streuung um seinen Mittelwert (Maß der Streuung, d. h. Abweichung vom Mittelwert).

Standardabweichung (mittlerer Stichprobenfehler).

Jeder Wert der Reihe weicht um durchschnittlich 6,32 vom Durchschnittswert des Jahres 2002,66 ab

Testen der Hypothese über die gleichmäßige Verteilung der Gesamtbevölkerung.

Um die Hypothese über die Gleichverteilung von X zu testen, d.h. nach dem Gesetz: f(x) = 1/(b-a) im Intervall (a,b) ist es notwendig:

Schätzen Sie die Parameter a und b – die Enden des Intervalls, in dem die möglichen Werte von X beobachtet wurden, gemäß den Formeln (das * bezeichnet die Schätzungen der Parameter):

Finden Sie die Wahrscheinlichkeitsdichte der geschätzten Verteilung f(x) = 1/(b* - a*)

Finden Sie theoretische Frequenzen:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Vergleichen Sie empirische und theoretische Häufigkeiten mithilfe des Pearson-Tests unter der Annahme, dass die Anzahl der Freiheitsgrade k = s-3 ist, wobei s die Anzahl der anfänglichen Abtastintervalle ist. Wenn jedoch eine Kombination kleiner Frequenzen und damit der Intervalle selbst erstellt wurde, dann ist s die Anzahl der nach der Kombination verbleibenden Intervalle. Lassen Sie uns die Schätzungen der Parameter a* und b* der Gleichverteilung anhand der Formeln ermitteln:

Ermitteln wir die Dichte der angenommenen Gleichverteilung:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Finden wir die theoretischen Frequenzen:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013,62-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Da die Pearson-Statistik den Unterschied zwischen der empirischen und der theoretischen Verteilung misst, ist das Argument gegen die Haupthypothese umso stärker, je größer der beobachtete Wert Kobs ist.

Daher ist der kritische Bereich für diese Statistik immer rechtshändig: ) kann erheblich von den entsprechenden Eigenschaften des ursprünglichen (unverzerrten) Schemas (, n) abweichen. Das normale Schema (, m) verringert immer den Absolutwert des Regressionskoeffizienten Ql in Beziehung (B. 15) und schwächt auch den Grad der Nähe der Beziehung zwischen um (dh verringert den Absolutwert des Korrelationskoeffizienten r).

Einfluss von Messfehlern auf den Wert des Korrelationskoeffizienten. Wir möchten den Grad der Nähe der Korrelation zwischen den Komponenten einer zweidimensionalen normalen Zufallsvariablen (, TJ) abschätzen, können sie jedoch nur mit einigen zufälligen Messfehlern bzw. es und e beobachten (siehe die D2-Abhängigkeit). Diagramm in der Einleitung). Daher sind die experimentellen Daten (xit i/i), i = 1, 2,. .., n, sind praktisch Beispielwerte der verzerrten zweidimensionalen Zufallsvariablen (, r)), wobei =

Methode R.a. besteht darin, eine Regressionsgleichung (einschließlich einer Schätzung ihrer Parameter) abzuleiten, mit deren Hilfe der Durchschnittswert einer Zufallsvariablen ermittelt wird, wenn der Wert einer anderen (oder anderer im Fall einer multiplen oder multivariaten Regression) bekannt ist. (Im Gegensatz dazu wird die Korrelationsanalyse verwendet, um die Stärke der Beziehung zwischen Zufallsvariablen zu ermitteln und auszudrücken71.)

Bei der Untersuchung der Korrelation von Zeichen, die nicht durch eine konsistente zeitliche Änderung verbunden sind, ändert sich jedes Zeichen unter dem Einfluss vieler Ursachen, die als zufällig angesehen werden. In der Dynamikreihe wird ihnen im Laufe der Zeit jeder Reihe eine Veränderung hinzugefügt. Diese Änderung führt zur sogenannten Autokorrelation – dem Einfluss von Niveauänderungen früherer Serien auf nachfolgende. Daher zeigt die Korrelation zwischen den Ebenen der Zeitreihen nur dann korrekt die Enge der Beziehung zwischen den in der Zeitreihe widergespiegelten Phänomenen, wenn in jedem von ihnen keine Autokorrelation besteht. Darüber hinaus führt die Autokorrelation zu einer Verzerrung der mittleren quadratischen Fehler der Regressionskoeffizienten, was es schwierig macht, Konfidenzintervalle für die Regressionskoeffizienten zu erstellen und ihre Signifikanz zu überprüfen.

Die durch die Beziehungen (1.8) bzw. (1.8) definierten theoretischen Korrelationskoeffizienten und Stickönnen für jedes zweidimensionale Beobachtungssystem formal berechnet werden; sie sind Maße für den Grad der Enge der linearen statistischen Beziehung zwischen den analysierten Merkmalen. Allerdings hat der Korrelationskoeffizient r nur bei einer gemeinsamen Normalverteilung der untersuchten Zufallsvariablen und u eine klare Bedeutung als Merkmal für den Grad der Nähe des Zusammenhangs zwischen ihnen. Insbesondere in diesem Fall bestätigt das Verhältnis r - 1 einen rein funktionalen linearen Zusammenhang zwischen den untersuchten Größen und die Gleichung r = 0 zeigt deren vollständige gegenseitige Unabhängigkeit an. Darüber hinaus stellt der Korrelationskoeffizient zusammen mit den Mittelwerten und Varianzen von Zufallsvariablen und TJ jene fünf Parameter dar, die umfassende Informationen darüber liefern

Nachdem die Gleichung der theoretischen Regressionsgeraden ermittelt wurde, muss die Nähe der Beziehung zwischen den beiden Beobachtungsreihen quantifiziert werden. Die in Abb. eingezeichneten Regressionslinien. 4.1, b, c, sind gleich, aber in Abb. In Abb. 4.1, b liegen die Punkte viel näher (näher) an der Regressionsgeraden als in Abb. 4.1, c.

Bei der Korrelationsanalyse wird davon ausgegangen, dass die Faktoren und Reaktionen zufällig sind und dem Normalverteilungsgesetz gehorchen.

Die Nähe der Beziehung zwischen Zufallsvariablen wird durch das Korrelationsverhältnis pxy charakterisiert. Lassen Sie uns näher auf die physikalische Bedeutung dieses Indikators eingehen. Dazu führen wir neue Konzepte ein.

Reststreuung

beobachtete Punkte relativ zur Regressionsgeraden und ist ein Indikator für den Fehler bei der Vorhersage des Parameters y gemäß der Regressionsgleichung (Abb. 4.6):



s2=f)