Свойства на операциите за изчисляване на количествени характеристики на случайни величини. Основни характеристики на случайните величини. Дисперсия и стандартно отклонение

Целта на корелационния анализе да се идентифицира оценка на силата на връзката между случайни променливи (характеристики), която характеризира някакъв реален процес.
Проблеми на корелационния анализ:
а) Измерване на степента на връзка (плътност, сила, тежест, интензивност) на две или повече явления.
б) Избор на фактори, които оказват най-значимо влияние върху резултантния атрибут, въз основа на измерване на степента на свързаност между явленията. Значимите фактори в този аспект се използват по-нататък в регресионния анализ.
в) Откриване на неизвестни причинно-следствени връзки.

Формите на проявление на взаимовръзките са много разнообразни. Като най-често срещаните им видове, функционални (пълни) и корелационна (непълна) връзка.
корелациясе проявява средно за масови наблюдения, когато дадените стойности на зависимата променлива съответстват на определен брой вероятностни стойности на независимата променлива. Връзката се нарича корелация, ако всяка стойност на факторния атрибут съответства на добре дефинирана неслучайна стойност на резултантния атрибут.
Корелационното поле служи като визуално представяне на корелационната таблица. Това е графика, където стойностите на X са нанесени по абсцисната ос, стойностите на Y са нанесени по ординатната ос, а комбинациите от X и Y са показани с точки.Наличието на връзка може да се прецени по местоположението на точките.
Индикатори за плътностпозволяват да се характеризира зависимостта на вариацията на резултантния признак от вариацията на фактора на чертата.
По-добър показател за степента на стегнатост корелацияе коефициент на линейна корелация. При изчисляването на този показател се вземат предвид не само отклоненията на отделните стойности на атрибута от средната стойност, но и големината на тези отклонения.

Ключовите въпроси на тази тема са уравненията на регресионната връзка между резултантната характеристика и обяснителната променлива, методът на най-малките квадрати за оценка на параметрите на регресионния модел, анализ на качеството на полученото регресионно уравнение, изграждане на доверителни интервали за прогнозиране на стойности на получената характеристика, използвайки регресионното уравнение.

Пример 2


Система от нормални уравнения.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
За нашите данни системата от уравнения има формата
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
От първото уравнение изразяваме Аи заместваме във второто уравнение:
Получаваме b = -3,46, a = 1379,33
Регресионно уравнение:
y = -3,46 x + 1379,33

2. Изчисляване на параметрите на регресионното уравнение.
Примерни средства.



Примерни отклонения:


стандартно отклонение


1.1. Коефициент на корелация
ковариация.

Ние изчисляваме индикатора за близост на комуникацията. Такъв индикатор е селективен линеен коефициент на корелация, който се изчислява по формулата:

Коефициентът на линейна корелация приема стойности от –1 до +1.
Връзките между характеристиките могат да бъдат слаби или силни (близки). Техните критерии се оценяват по скалата на Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашия пример връзката между характеристика Y и фактор X е висока и обратна.
В допълнение, коефициентът на корелация на линейната двойка може да се определи по отношение на коефициента на регресия b:

1.2. Регресионно уравнение(оценка на регресионното уравнение).

Уравнението на линейната регресия е y = -3,46 x + 1379,33

Коефициентът b = -3,46 показва средното изменение на ефективния показател (в единици y) с увеличаване или намаляване на стойността на фактора x за единица от неговото измерване. В този пример, с увеличение от 1 единица, y намалява средно с -3,46.
Коефициентът a = 1379.33 формално показва прогнозираното ниво на y, но само ако x=0 е близо до стойностите на извадката.
Но ако x=0 е далеч от стойностите на x на извадката, тогава буквалното тълкуване може да доведе до неправилни резултати и дори ако регресионната линия точно описва стойностите на наблюдаваната извадка, няма гаранция, че това също ще бъде случай при екстраполиране наляво или надясно.
Чрез заместване на съответните стойности на x в регресионното уравнение е възможно да се определят подравнените (прогнозирани) стойности на ефективния индикатор y(x) за всяко наблюдение.
Връзката между y и x определя знака на регресионния коефициент b (ако > 0 - пряка връзка, в противен случай - обратна). В нашия пример връзката е обратна.
1.3. коефициент на еластичност.
Не е желателно да се използват регресионни коефициенти (в пример b) за пряка оценка на влиянието на факторите върху ефективния атрибут, в случай че има разлика в мерните единици на ефективния показател y и факторния атрибут x.
За тези цели се изчисляват коефициентите на еластичност и бета коефициентите.
Средният коефициент на еластичност E показва с колко процента средно ще се промени резултатът в съвкупността приот средната му стойност при промяна на фактора х 1% от средната му стойност.
Коефициентът на еластичност се намира по формулата:


Коефициентът на еластичност е по-малък от 1. Следователно, ако X се промени с 1%, Y ще се промени с по-малко от 1%. С други думи, влиянието на X върху Y не е значително.
Бета коефициентпоказва с каква част от стойността на стандартното си отклонение стойността на ефективния атрибут ще се промени средно, когато факторният атрибут се промени със стойността на стандартното си отклонение със стойността на останалите независими променливи, фиксирани на постоянно ниво:

Тези. увеличение на x със стойността на стандартното отклонение S x ще доведе до намаляване на средната стойност на Y с 0,74 стандартно отклонение S y .
1.4. Грешка в приближението.
Нека оценим качеството на регресионното уравнение, като използваме абсолютната грешка на приближението. Средната апроксимационна грешка е средното отклонение на изчислените стойности от действителните:


Тъй като грешката е по-малка от 15%, това уравнение може да се използва като регресия.
Дисперсионен анализ.
Задачата на дисперсионния анализ е да се анализира дисперсията на зависимата променлива:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Където
∑(y i - y cp) 2 - общата сума на квадратите на отклоненията;
∑(y(x) - y cp) 2 - сума на квадратите на отклоненията, дължащи се на регресия („обяснена“ или „факториална“);
∑(y - y(x)) 2 - остатъчна сума на квадратите на отклоненията.
Теоретично съотношение на корелацияза линейна зависимост е равен на коефициента на корелация r xy .
За всяка форма на зависимост плътността на връзката се определя с помощта на коефициент на множествена корелация:

Този коефициент е универсален, тъй като отразява плътността на връзката и точността на модела и може да се използва за всякакви форми на връзка между променливи. При конструиране на еднофакторен корелационен модел коефициентът на множествена корелация е равен на коефициента на двойна корелация r xy .
1.6. Коефициент на определяне.
Квадратът на (множествения) коефициент на корелация се нарича коефициент на определяне, който показва съотношението на вариацията на резултантния атрибут, обяснена с вариацията на факторния атрибут.
Най-често, давайки тълкуване на коефициента на детерминация, той се изразява като процент.
R 2 \u003d -0,74 2 \u003d 0,5413
тези. в 54,13% от случаите промените в x водят до промяна в y. С други думи, точността на избора на регресионното уравнение е средна. Останалите 45,87% от промяната на Y се дължат на фактори, които не са взети предвид в модела.

Библиография

  1. Иконометрия: Учебник / Ред. И.И. Елисеева. - М.: Финанси и статистика, 2001, стр. 34..89.
  2. Магнус Я.Р., Катишев П.К., Пересецки А.А. Иконометрия. Първоначален курс. Урок. - 2-ро изд., Рев. – М.: Дело, 1998, с. 17..42.
  3. Семинар по иконометрия: Proc. помощ / I.I. Елисеева, С.В. Куришева, Н.М. Гордеенко и др.; Изд. И.И. Елисеева. - М.: Финанси и статистика, 2001, стр. 5..48.

Във фирмата работят 10 човека. Таблица 2 показва данни за техния трудов стаж и

месечна заплата.

Изчислете от тези данни

  • - стойността на примерната ковариационна оценка;
  • - стойността на извадковия коефициент на корелация на Пиърсън;
  • - оценяват посоката и силата на връзката според получените стойности;
  • - определете колко легитимно е твърдението, че тази компания използва японския модел на управление, който се състои в предположението, че колкото повече време служителят прекарва в тази компания, толкова по-висока трябва да бъде заплатата му.

Въз основа на корелационното поле може да се предположи (за общата популация), че връзката между всички възможни стойности на X и Y е линейна.

За да изчислим регресионните параметри, ще изградим изчислителна таблица.

Примерни средства.

Примерни отклонения:

Изчисленото регресионно уравнение ще изглежда така

y = bx + a + e,

където ei са наблюдаваните стойности (оценки) на грешките ei, a и b, съответно, оценките на параметрите b и в регресионния модел, които трябва да бъдат намерени.

За оценка на параметрите b и c - използвайте LSM (най-малки квадрати).

Система от нормални уравнения.

a?x + b?x2 = ?y*x

За нашите данни системата от уравнения има формата

  • 10a + 307b = 33300
  • 307 a + 10857 b = 1127700

Умножаваме уравнението (1) на системата по (-30,7), получаваме система, която решаваме по метода на алгебричното събиране.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Получаваме:

1432.1b = 105390

Където b = 73,5912

Сега намираме коефициента "а" от уравнение (1):

  • 10a + 307b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10а = 10707,49

Получаваме емпирични регресионни коефициенти: b = 73.5912, a = 1070.7492

Регресионно уравнение (емпирично регресионно уравнение):

y = 73,5912 x + 1070,7492

ковариация.

В нашия пример връзката между функция Y и фактор X е висока и директна.

Затова смело можем да кажем, че колкото повече време работи един служител в дадена компания, толкова по-висока е заплатата му.

4. Проверка на статистически хипотези. При решаването на този проблем първата стъпка е да се формулира тествана хипотеза и алтернативна.

Проверка на равенството на общите дялове.

Проведено е изследване на представянето на студентите в два факултета. Резултатите за вариантите са показани в таблица 3. Може ли да се твърди, че и двата факултета имат еднакъв процент отличници?

просто аритметично средно

Тестваме хипотезата за равенството на общите дялове:

Нека намерим експерименталната стойност на критерия на Стюдънт:

Брой степени на свобода

f \u003d nx + ny - 2 \u003d 2 + 2 - 2 \u003d 2

Определете стойността на tkp според таблицата за разпределение на Стюдънт

Според таблицата на Студент намираме:

Ttabl(f;b/2) = Ttabl(2;0,025) = 4,303

Според таблицата на критичните точки на разпределението на Стюдънт при ниво на значимост b = 0,05 и даден брой степени на свобода намираме tcr = 4,303

защото tobs > tcr, тогава нулевата хипотеза се отхвърля, общите дялове на двете извадки не са равни.

Проверка на равномерността на общото разпределение.

Ръководството на университета иска да разбере как се е променила популярността на Факултета по хуманитарни науки във времето. Броят на кандидатите, които са кандидатствали за този факултет, е анализиран спрямо общия брой кандидати през съответната година. (Данните са дадени в таблица 4). Ако разгледаме броя на кандидатите като представителна извадка от общия брой завършили училище през годината, може ли да се твърди, че интересът на учениците към специалностите на този факултет не се променя с течение на времето?

Вариант 4

Решение: Таблица за изчисляване на показатели.

Средна точка на интервал, xi

Кумулативна честота, S

Честота, fi/n

За да оценим серията на разпространение, намираме следните показатели:

среднопретеглена стойност

Диапазонът на вариация е разликата между максималните и минималните стойности на атрибута на първичната серия.

R = 2008 - 1988 = 20 Дисперсия - характеризира мярката за разпространение около нейната средна стойност (мярка за дисперсия, т.е. отклонение от средната стойност).

Стандартно отклонение (средна грешка на извадката).

Всяка стойност от серията се различава от средната стойност от 2002,66 със средно 6,32

Проверка на хипотезата за равномерното разпределение на генералната съвкупност.

За да се провери хипотезата за равномерното разпределение на X, т.е. съгласно закона: f(x) = 1/(b-a) в интервала (a,b) е необходимо:

Оценете параметрите a и b - краищата на интервала, в който са наблюдавани възможните стойности на X, съгласно формулите (* означава оценките на параметрите):

Намерете плътността на вероятността на изчисленото разпределение f(x) = 1/(b* - a*)

Намерете теоретичните честоти:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Сравнете емпиричните и теоретичните честоти, като използвате теста на Pearson, като приемете броя на степените на свобода k = s-3, където s е броят на началните интервали на вземане на проби; ако обаче е направена комбинация от малки честоти и следователно самите интервали, тогава s е броят на интервалите, оставащи след комбинацията. Нека намерим оценките на параметрите a* и b* на равномерното разпределение по формулите:

Нека намерим плътността на предполагаемото равномерно разпределение:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Нека намерим теоретичните честоти:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013.62-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Тъй като статистиката на Pearson измерва разликата между емпиричните и теоретичните разпределения, колкото по-голяма е нейната наблюдавана стойност на Kobs, толкова по-силен е аргументът срещу основната хипотеза.

Следователно, критичната област за тази статистика винаги е дясна: ) може да се различава значително от съответните характеристики на оригиналната (неизкривена) схема (, n). нормалната схема (, m) винаги намалява абсолютната стойност на регресионния коефициент Ql във връзка (Б. 15), а също така отслабва степента на близост на връзката между um (т.е. намалява абсолютната стойност на коефициента на корелация r).

Влияние на грешките при измерване върху стойността на корелационния коефициент. Нека искаме да оценим степента на близост на корелацията между компонентите на двумерна нормална случайна променлива (, TJ), но можем да ги наблюдаваме само с някои случайни грешки на измерване, съответно, es и e (вижте зависимостта D2 диаграма във въведението). Следователно експерименталните данни са (xit i/i), i = 1, 2,. .., n, са практически примерни стойности на изкривената двумерна случайна променлива (, r)), където =

Метод R.a. се състои в извеждане на регресионно уравнение (включително оценка на неговите параметри), с помощта на което се намира средната стойност на случайна променлива, ако е известна стойността на друга (или други в случай на множествена или многовариантна регресия). (За разлика от това, корелационният анализ се използва за намиране и изразяване на силата на връзката между случайни променливи71.)

При изследване на корелацията на признаци, които не са свързани с последователна промяна във времето, всеки знак се променя под влиянието на много причини, взети като случайни. В сериите от динамика към тях се добавя промяна по време на всяка серия. Тази промяна води до така наречената автокорелация - влиянието на промените в нивата на предишни серии върху следващите. Следователно корелацията между нивата на динамичните редове правилно показва тясността на връзката между явленията, отразени във времевия ред, само ако няма автокорелация във всеки от тях. Освен това автокорелацията води до изкривяване на средните квадратични грешки на регресионните коефициенти, което затруднява изграждането на доверителни интервали за регресионните коефициенти, както и проверката на тяхната значимост.

Теоретичните и извадковите коефициенти на корелация, определени съответно от отношения (1.8) и (1.8), могат да бъдат формално изчислени за всяка двумерна система за наблюдение; те са мерки за степента на плътност на линейната статистическа връзка между анализираните характеристики. Но само в случай на съвместно нормално разпределение на изследваните случайни величини и u коефициентът на корелация r има ясен смисъл като характеристика на степента на близост на връзката между тях. По-специално, в този случай съотношението r - 1 потвърждава чисто функционална линейна връзка между изследваните величини, а уравнението r = 0 показва тяхната пълна взаимна независимост. В допълнение, коефициентът на корелация, заедно със средните стойности и дисперсиите на случайните променливи и TJ, представлява тези пет параметъра, които предоставят изчерпателна информация за

След като се определи уравнението на теоретичната регресионна линия, е необходимо да се определи количествено близостта на връзката между двете серии от наблюдения. Регресионните линии, начертани на фиг. 4.1, b, c, са същите, но на фиг. 4.1, b, точките са много по-близо (по-близо) до линията на регресия, отколкото на фиг. 4.1, c.

Корелационният анализ предполага, че факторите и отговорите са случайни и се подчиняват на нормалния закон за разпределение.

Тясността на връзката между случайните променливи се характеризира с корелационния коефициент pxy. Нека се спрем по-подробно на физическото значение на този показател. За целта въвеждаме нови концепции.

Остатъчна дисперсия

наблюдавани точки спрямо линията на регресия и е индикатор за грешката при прогнозиране на параметъра y съгласно уравнението на регресията (фиг. 4.6):



s2=f)