Властивості операцій обчислення кількісних характеристик випадкових змінних. Основні характеристики випадкових величин Дисперсія та середньоквадратичне відхилення

Метою кореляційного аналізує виявлення оцінки сили зв'язку між випадковими величинами (ознаками), що характеризує певний реальний процес.
Завдання кореляційного аналізу:
а) Вимір ступеня зв'язності (тісноти, сили, строгості, інтенсивності) двох і більше явищ.
б) Відбір факторів, що найбільш істотно впливають на результативну ознаку, на підставі вимірювання ступеня зв'язності між явищами. Істотні в цьому аспекті фактори використовують далі в регресійному аналізі.
в) Виявлення невідомих причинних зв'язків.

Форми прояви взаємозв'язків дуже різноманітні. Як найзагальніші їх види виділяють функціональну (повну) і кореляційний (неповний) зв'язок.
Кореляційний зв'язокпроявляється в середньому для масових спостережень, коли заданим значенням залежної змінної відповідає деякий ряд ймовірнісних значень незалежної змінної. Зв'язок називається кореляційнимякщо кожному значенню факторної ознаки відповідає цілком певне невипадкове значення результативної ознаки.
Наочним зображенням кореляційної таблиці служить кореляційне поле. Воно є графік, де на осі абсцис відкладаються значення X, по осі ординат - Y, а точками показуються поєднання X і Y. За розташуванням точок можна судити про наявність зв'язку.
Показники тісноти зв'язкудають можливість охарактеризувати залежність варіації результативної ознаки від варіації ознаки-фактора.
Більш досконалим показником ступеня тісноти кореляційного зв'язкує лінійний коефіцієнт кореляції. При розрахунку цього показника враховуються як відхилення індивідуальних значень ознаки від середньої, а й сама величина цих відхилень.

Ключовими питаннями даної теми є рівняння регресійного зв'язку між результативною ознакою та пояснювальною змінною, метод найменших квадратів для оцінки параметрів регресійної моделі, аналіз якості отриманого рівняння регресії, побудова довірчих інтервалів прогнозу значень результативної ознаки рівняння регресії.

Приклад 2


Система звичайних рівнянь.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для наших даних система рівнянь має вигляд
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
З першого рівняння виражаємо аі підставимо на друге рівняння:
Отримуємо b = -3.46, a = 1379.33
Рівняння регресії:
y = -3.46 x + 1379.33

2. Розрахунок параметрів рівняння регресії.
Вибіркові середні.



Вибіркові дисперсії:


Середньоквадратичне відхилення


1.1. Коефіцієнт кореляції
Коваріація.

Розраховуємо показник тісноти зв'язку. Таким показником є ​​вибірковий лінійний коефіцієнт кореляції, який розраховується за такою формулою:

Лінійний коефіцієнт кореляції набуває значення від –1 до +1.
Зв'язки між ознаками можуть бути слабкими та сильними (тісними). Їхні критерії оцінюються за шкалою Чеддока:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
У нашому прикладі зв'язок між ознакою Y фактором X висока та зворотна.
Крім того, коефіцієнт лінійної парної кореляції може бути визначений через коефіцієнт регресії b:

1.2. Рівняння регресії(Оцінка рівняння регресії).

Лінійне рівняння регресії має вигляд y = -3.46 x + 1379.33

p align="justify"> Коефіцієнт b = -3.46 показує середня зміна результативного показника (в одиницях вимірювання у) з підвищенням або зниженням величини фактора х на одиницю його вимірювання. У цьому прикладі із збільшенням на 1 одиницю y знижується загалом на -3.46.
Коефіцієнт a = 1379.33 формально показує прогнозований рівень у, але у разі, якщо х=0 перебуває близько з вибірковими значеннями.
Але якщо х=0 знаходиться далеко від вибіркових значень х, то буквальна інтерпретація може призвести до невірних результатів, і навіть якщо лінія регресії досить точно описує значення вибірки, що спостерігається, немає гарантій, що також буде при екстраполяції вліво або вправо.
Підставивши в рівняння регресії відповідні значення x, можна визначити вирівняні (передбачені) значення результативного показника y(x) для кожного спостереження.
Зв'язок між у них визначає знак коефіцієнта регресії b (якщо > 0 - прямий зв'язок, інакше - зворотний). У нашому прикладі зв'язок зворотний.
1.3. Коефіцієнт еластичності.
Коефіцієнти регресії (у прикладі b) небажано використовувати для безпосередньої оцінки впливу факторів на результативну ознаку в тому випадку, якщо існує відмінність одиниць вимірювання результативного показника у факторної ознаки х.
З цією метою обчислюються коефіцієнти еластичності і бета - коефіцієнти.
Середній коефіцієнт еластичності E показує, наскільки відсотків у середньому за сукупністю зміниться результат увід своєї середньої величини за зміни фактора xна 1% від середнього значення.
Коефіцієнт еластичності знаходиться за формулою:


p align="justify"> Коефіцієнт еластичності менше 1. Отже, при зміні Х на 1%, Y зміниться менш ніж на 1%. Іншими словами - вплив Х на Y не суттєво.
Бета – коефіцієнтпоказує, яку частину величини свого середнього квадратичного відхилення зміниться у середньому значення результативного ознаки при зміні факторного ознаки на величину його середньоквадратичного відхилення при фіксованому постійному значенні інших незалежних змінних:

Тобто. збільшення x на величину середньоквадратичного відхилення S x призведе до зменшення середнього значення Y на 0.74 середньоквадратичного відхилення S y.
1.4. Помилка апроксимації.
Оцінимо якість рівняння регресії за допомогою помилки абсолютної апроксимації. Середня помилка апроксимації - середнє відхилення розрахункових значень від фактичних:


Оскільки помилка менше 15%, то дане рівняння можна використовувати як регресію.
Дисперсійний аналіз.
Завдання дисперсійного аналізу полягає в аналізі дисперсії залежною змінною:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
де
∑(y i - y cp) 2 - загальна сума квадратів відхилень;
∑(y(x) - y cp) 2 - сума квадратів відхилень, обумовлена ​​регресією («пояснена» або «факторна»);
∑(y - y(x)) 2 - залишкова сума квадратів відхилень.
Теоретичне кореляційне відношеннядля лінійного зв'язку дорівнює коефіцієнту кореляції r xy.
Для будь-якої форми залежності тіснота зв'язку визначається за допомогою множинного коефіцієнта кореляції:

Даний коефіцієнт є універсальним, тому що відображає тісноту зв'язку та точність моделі, а також може використовуватися за будь-якої форми зв'язку змінних. При побудові однофакторної кореляційної моделі коефіцієнт множинної кореляції дорівнює коефіцієнту парної кореляції r xy.
1.6. Коефіцієнт детермінації.
Квадрат (множинного) коефіцієнта кореляції називається коефіцієнтом детермінації, який показує частку варіації результативної ознаки, пояснену варіацією факторної ознаки.
Найчастіше, даючи інтерпретацію коефіцієнта детермінації, його виражають у відсотках.
R 2 = -0.74 2 = 0.5413
тобто. у 54.13% випадків зміни х призводять до зміни y. Іншими словами – точність підбору рівняння регресії – середня. Інші 45.87 % зміни Y пояснюються факторами, не врахованими у моделі.

Список літератури

  1. Економетрика: Підручник/За ред. І.І. Єлісєєвої. - М.: Фінанси та статистика, 2001, с. 34..89.
  2. Магнус Я.Р., Катишев П.К., Пересецький А.А. Економетрики. Початковий курс Навчальний посібник. - 2-ге вид., Випр. - М.: Справа, 1998, с. 17..42.
  3. Практикум з економетрики: Навч. посібник/І.І. Єлісєєва, С.В. Куришева, Н.М. Гордєєнко та ін; За ред. І.І. Єлісєєвої. - М.: Фінанси та статистика, 2001, с. 5..48.

У компанії працюють 10 людей. У табл.2 наведено дані щодо стажу їх роботи та

місячному окладу.

Розрахуйте за цими даними

  • - величину оцінки вибіркової коваріації;
  • - значення вибіркового коефіцієнта кореляції Пірсона;
  • - оцініть за отриманими значеннями напрямок та силу зв'язку;
  • - визначте, наскільки правомірним є твердження про те, що дана компанія використовує японську модель управління, яка полягає в припущенні, що чим більше часу співробітник проводить у даній компанії, тим вище має бути у нього оклад.

З поля кореляції можна висунути гіпотезу (для генеральної сукупності) у тому, що зв'язок між усіма можливими значеннями X і Y носить лінійний характер.

Для розрахунку параметрів регресії збудуємо розрахункову таблицю.

Вибіркові середні.

Вибіркові дисперсії:

Оціночне рівняння регресії матиме вигляд

y = bx + a + е,

де ei - значення (оцінки) помилок еi, що спостерігаються, а і b відповідно оцінки параметрів б і в регресійній моделі, які слід знайти.

Для оцінки параметрів б і - використовують МНК (метод найменших квадратів).

Система звичайних рівнянь.

a?x + b?x2 = ?y*x

Для наших даних система рівнянь має вигляд

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Домножимо рівняння (1) системи (-30.7), отримаємо систему, яку вирішимо методом алгебраїчного складання.

  • -307a -9424.9 b = -1022310
  • 307 a + 10857 b = 1127700

Отримуємо:

1432.1 b = 105390

Звідки b = 73.5912

Тепер знайдемо коефіцієнт «a» із рівняння (1):

  • 10a + 307 b = 33300
  • 10a + 307*73.5912 = 33300
  • 10a = 10707.49

Отримуємо емпіричні коефіцієнти регресії: b = 73.5912, a = 1070.7492

Рівняння регресії (емпіричне рівняння регресії):

y = 73.5912 x + 1070.7492

Коваріація.

У прикладі зв'язок між ознакою Y чинником X висока і пряма.

Отже, можна сміливо стверджувати, що чим більше часу співробітник працює в цій компанії, тим вищий у нього оклад.

4. Перевірка статистичних гіпотез. При вирішенні цього завдання першим кроком необхідно сформулювати гіпотезу, що перевіряється, і альтернативну їй

Перевірка рівності генеральних часток.

Проведено дослідження з питань успішності студентів на двох факультетах. Результати за варіантами наведено у табл.3. Чи можна стверджувати, що на обох факультетах є однаковий відсоток відмінників?

Проста середня арифметична

Проводимо перевірку гіпотези про рівність генеральних часток:

Знайдемо експериментальне значення критерію Стьюдента:

Число ступенів свободи

f = nх + nу - 2 = 2 + 2 - 2 = 2

Визначаємо значення tkp за таблицею розподілу Стьюдента

За таблицею Стьюдента знаходимо:

Tтабл(f;б/2) = Tтабл(2;0.025) = 4.303

По таблиці критичних точок розподілу Стьюдента при рівні значимості б = 0.05 і даному числу ступенів свободи знаходимо tкр = 4.303

Т.к. tнабл > tкр, то нульова гіпотеза відкидається, генеральні частки двох вибірок не рівні.

Перевірка рівномірності генерального розподілу.

Керівництво університету хоче з'ясувати, як згодом змінювалася популярність гуманітарного факультету. Аналізувалася кількість абітурієнтів, які подали заяву на цей факультет, стосовно загальної кількості абітурієнтів у відповідному році. (Дані наведені у табл.4). Якщо вважати кількість абітурієнтів репрезентативною вибіркою із загальної кількості випускників шкіл року, чи можна стверджувати, що інтерес школярів до спеціальностей цього факультету не змінюється з часом?

Варіант 4

Рішення: Таблиця до розрахунку показників.

Середина інтервалу, xi

Накопичена частота, S

Частота fi/n

Для оцінки низки розподілів знайдемо такі показники:

Середня виважена

Розмах варіації - різниця між максимальним та мінімальним значеннями ознаки первинного ряду.

R = 2008 - 1988 = 20 Дисперсія - характеризує міру розкиду у її середнього значення (захід розсіювання, тобто відхилення від середнього).

Середнє квадратичне відхилення (середня помилка вибірки).

Кожне значення ряду відрізняється від середнього значення 2002.66 у середньому на 6.32

Перевірка гіпотези про рівномірний розподіл генеральної сукупності.

Щоб перевірити гіпотезу про рівномірному розподілі X, тобто. за законом: f(x) = 1/(b-a) в інтервалі (a,b) треба:

Оцінити параметри a та b - кінці інтервалу, в якому спостерігалися можливі значення X, за формулами (через знак * позначені оцінки параметрів):

Знайти густину ймовірності передбачуваного розподілу f(x) = 1/(b* - a*)

Знайти теоретичні частоти:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n * 1/(b * - a *) * (xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Порівняти емпіричні та теоретичні частоти за допомогою критерію Пірсона, прийнявши число ступенів свободи k = s-3, де s – число початкових інтервалів вибірки; якщо ж було здійснено об'єднання нечисленних частот, отже, і самих інтервалів, то s - кількість інтервалів, що залишилися після об'єднання. Знайдемо оцінки параметрів a* та b* рівномірного розподілу за формулами:

Знайдемо щільність передбачуваного рівномірного розподілу:

f(x) = 1/(b* - a*) = 1/(2013.62 - 1991.71) = 0.0456

Знайдемо теоретичні частоти:

n1 = n * f (x) (x1 - a *) = 0.77 * 0.0456 (1992-1991.71) = 0.0102

n5 = n * f (x) (b * - x4) = 0.77 * 0.0456 (2013.62-2008) = 0.2

ns = n * f (x) (xi - xi-1)

Оскільки статистика Пірсона вимірює різницю між емпіричним і теоретичним розподілами, чим більше її спостерігається значення Kнабл, тим більше доказ проти основний гіпотези.

Тому критична область для цієї статистики завжди правостороння: ) можуть суттєво відрізнятися від відповідних характеристик вихідної (неспотвореної) схеми (, л)- Так, наприклад, нижче (див. п. 1.1.4) показано, що накладення випадкових нормальних помилок на вихідну нормальну схему (, т) завжди зменшує абсолютну величину коефіцієнта регресії Ql у співвідношенні (ст. 15), а також послаблює ступінь тісноти зв'язку між іт (тобто зменшує абсолютну величину коефіцієнта кореляції г).

Вплив помилок виміру на величину коефіцієнта кореляції. Нехай ми хочемо оцінити ступінь тісноти кореляційного зв'язку між компонентами двовимірної нормальної випадкової величини (, TJ), проте ми їх можемо спостерігати лише з деякими випадковими помилками вимірювання відповідно es і е (див. схему залежності D2 у введенні). Тому експериментальні дані (xit i/i), i = 1, 2,. .., л, - це практично вибіркові значення перекрученої двовимірної випадкової величини (, г)), де =

Метод Р.а. полягає у висновку рівняння регресії (включаючи оцінку його параметрів), за допомогою якого знаходиться середня величина випадкової змінної, якщо величина іншої (або інших у разі множинної або багатофакторної регресії) відома. (На відміну від цього кореляційний аналіз застосовується для знаходження та вираження тісноти зв'язку між випадковими величинами71.)

У вивченні кореляції ознак, не пов'язаних злагодженим зміною у часі, кожна ознака змінюється під впливом багатьох причин, що приймаються за випадкові. У рядах динаміки до них додається зміна вчас кожного ряду. Ця зміна призводить до так званої автокореляції – впливу змін рівнів попередніх рядів на наступні. Тому кореляція між рівнями динамічних рядів правильно показує тісноту зв'язку між явищами, що відображаються в рядах динаміки, лише в тому випадку, якщо в кожному з них немає автокореляції. Крім того, автокореляція призводить до спотворення величини середньоквадратичних помилок коефіцієнтів регресії, що ускладнює побудову довірчих інтервалів для коефіцієнтів регресії, а також перевірки їхньої значущості.

Визначені співвідношеннями (1.8) та (1.8) відповідно теоретичний та вибірковий коефіцієнти кореляції можуть бути формально обчислені для будь-якої двовимірної системи спостережень, вони є вимірювачами ступеня тісності лінійного статистичного зв'язку між аналізованими ознаками. Однак тільки у випадку спільної нормальної розподіленості досліджуваних випадкових величин і коефіцієнт кореляції г має чіткий зміст як характеристика ступеня тісноти зв'язку між ними. Зокрема, у цьому випадку співвідношення г - 1 підтверджує суто функціональну лінійну залежність між досліджуваними величинами, а рівняння г = 0 свідчить про їхню повну взаємну незалежність. Крім того, коефіцієнт кореляції разом із середніми та дисперсіями випадкових величин і TJ становить ті п'ять параметрів, які дають вичерпні відомості про

Визначивши рівняння теоретичної лінії регресії, необхідно дати кількісну оцінку тісноти зв'язку між двома рядами спостережень. Лінії регресії, проведені на рис. 4.1 б, в однакові, проте на рис. 4.1 б точки значно ближче (тісніше) розташовані до лінії регресії, ніж на рис. 4.1 ст.

При кореляційному аналізі передбачається, що й відгуки носять випадковий характері і підпорядковуються нормальному закону розподілу.

Тісноту зв'язку між випадковими величинами характеризують кореляційним ставленням р ху. Зупинимося докладніше на фізичному сенсі цього показника. Для цього введемо нові поняття.

Залишкова дисперсія 5^ ост характеризує розкид експериментально

спостережуваних точок щодо лінії регресії і є показником помилки передбачення параметра у за рівнянням регресії (рис. 4.6):



s2 = f)