LSM за функция на две променливи. Апроксимация на експериментални данни. Метод на най-малките квадрати. Практическа реализация на LSM за линейна зависимост от непрограмируем калкулатор

Пример.

Експериментални данни за стойностите на променливите хИ приса дадени в таблицата.

В резултат на тяхното подреждане функцията

Използвайки метод на най-малките квадрати, апроксимирайте тези данни с линейна зависимост y=ax+b(намерете параметри АИ b). Разберете коя от двете линии по-добре (в смисъл на метода на най-малките квадрати) подравнява експерименталните данни. Направете рисунка.

Същността на метода на най-малките квадрати (МНК).

Проблемът е да се намерят коефициентите на линейна зависимост, за които функцията на две променливи АИ b приема най-малката стойност. Това е предвид данните АИ bсумата от квадратите на отклоненията на експерименталните данни от намерената права линия ще бъде най-малка. Това е целият смисъл на метода на най-малките квадрати.

Така решението на примера се свежда до намиране на екстремума на функция на две променливи.

Извеждане на формули за намиране на коефициенти.

Съставя се и се решава система от две уравнения с две неизвестни. Намиране на частни производни на функция по променливи АИ b, ние приравняваме тези производни на нула.

Решаваме получената система от уравнения по произволен метод (напр метод на заместванеили ) и получете формули за намиране на коефициентите с помощта на метода на най-малките квадрати (LSM).

С данни АИ bфункция приема най-малката стойност. Дадено е доказателство за този факт.

Това е целият метод на най-малките квадрати. Формула за намиране на параметъра асъдържа сумите , , , и параметъра н- количество експериментални данни. Стойностите на тези суми се препоръчват да се изчисляват отделно. Коефициент bнамерени след изчисление а.

Време е да си припомним оригиналния пример.

Решение.

В нашия пример n=5. Попълваме таблицата за удобство при изчисляване на сумите, които са включени във формулите на необходимите коефициенти.

Стойностите в четвъртия ред на таблицата се получават чрез умножаване на стойностите на 2-ри ред по стойностите на 3-ти ред за всяко число аз.

Стойностите в петия ред на таблицата се получават чрез повдигане на квадрат на стойностите на 2-ри ред за всяко число аз.

Стойностите на последната колона на таблицата са сумите от стойностите в редовете.

Използваме формулите на метода на най-малките квадрати, за да намерим коефициентите АИ b. Заменяме в тях съответните стойности от последната колона на таблицата:

следователно y=0,165x+2,184е желаната апроксимираща права линия.

Остава да разберем коя от линиите y=0,165x+2,184или по-добре приближава оригиналните данни, т.е. да направи оценка с помощта на метода на най-малките квадрати.

Оценка на грешката на метода на най-малките квадрати.

За да направите това, трябва да изчислите сумите на квадратите на отклоненията на оригиналните данни от тези редове И , по-малка стойност съответства на линия, която по-добре приближава оригиналните данни по отношение на метода на най-малките квадрати.

Тъй като , тогава линията y=0,165x+2,184приближава по-добре оригиналните данни.

Графична илюстрация на метода на най-малките квадрати (LSM).

Всичко изглежда страхотно в класациите. Червената линия е намерената линия y=0,165x+2,184, синята линия е , розовите точки са оригиналните данни.

За какво е, за какво са всички тези приближения?

Аз лично използвам за решаване на проблеми с изглаждане на данни, проблеми с интерполация и екстраполация (в оригиналния пример може да бъдете помолени да намерите стойността на наблюдаваната стойност гпри х=3или кога х=6по метода MNC). Но ще говорим повече за това по-късно в друг раздел на сайта.

Доказателство.

Така че, когато се намери АИ bфункция приема най-малката стойност, необходимо е в тази точка матрицата на квадратната форма на диференциала от втори ред за функцията беше положително категоричен. Нека го покажем.

Има много приложения, тъй като позволява приблизително представяне на дадена функция от други по-прости. LSM може да бъде изключително полезен при обработката на наблюдения и се използва активно за оценка на някои количества от резултатите от измервания на други, съдържащи случайни грешки. В тази статия ще научите как да прилагате изчисления на най-малките квадрати в Excel.

Постановка на проблема на конкретен пример

Да предположим, че има два индикатора X и Y. Освен това Y зависи от X. Тъй като OLS представлява интерес за нас от гледна точка на регресионния анализ (в Excel неговите методи се изпълняват с помощта на вградени функции), трябва незабавно да продължим за разглеждане на конкретен проблем.

И така, нека X е търговската площ на магазин за хранителни стоки, измерена в квадратни метри, а Y е годишният оборот, определен в милиони рубли.

Изисква се да се направи прогноза какъв оборот (Y) ще има магазинът, ако има една или друга търговска площ. Очевидно функцията Y = f (X) нараства, тъй като хипермаркетът продава повече стоки от щанда.

Няколко думи за коректността на първоначалните данни, използвани за прогнозиране

Да кажем, че имаме изградена таблица с данни за n магазина.

Според математическата статистика резултатите ще бъдат повече или по-малко верни, ако се изследват данните за поне 5-6 обекта. Освен това не могат да се използват "аномални" резултати. По-специално, елитен малък бутик може да има оборот многократно по-голям от оборота на големите магазини от класа „masmarket“.

Същността на метода

Данните от таблицата могат да бъдат показани в декартовата равнина като точки M 1 (x 1, y 1), ... M n (x n, y n). Сега решението на задачата ще се сведе до избора на апроксимираща функция y = f (x), която има графика, минаваща възможно най-близо до точките M 1, M 2, .. M n .

Разбира се, можете да използвате полином с висока степен, но тази опция е не само трудна за изпълнение, но и просто неправилна, тъй като няма да отразява основната тенденция, която трябва да бъде открита. Най-разумното решение е да се търси права линия y = ax + b, която най-добре приближава експерименталните данни и по-точно коефициентите - a и b.

Резултат за точност

За всяка апроксимация оценката на нейната точност е от особено значение. Означаваме с e i разликата (отклонението) между функционалните и експерименталните стойности за точката x i, т.е. e i = y i - f (x i).

Очевидно е, че за да оцените точността на приближението, можете да използвате сумата от отклонения, т.е. когато избирате права линия за приблизително представяне на зависимостта на X от Y, трябва да се даде предпочитание на тази, която има най-малката стойност на сумата e i във всички разглеждани точки. Не всичко обаче е толкова просто, тъй като наред с положителните отклонения на практика ще има отрицателни.

Можете да решите проблема, като използвате модулите за отклонение или техните квадрати. Последният метод е най-широко използван. Използва се в много области, включително регресионен анализ (в Excel внедряването му се извършва с помощта на две вградени функции) и отдавна е доказано, че е ефективен.

Метод на най-малките квадрати

В Excel, както знаете, има вградена функция за автоматично събиране, която ви позволява да изчислявате стойностите на всички стойности, разположени в избрания диапазон. Така нищо няма да ни попречи да изчислим стойността на израза (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

В математическа нотация това изглежда така:

Тъй като първоначално беше взето решение за приблизително използване на права линия, имаме:

По този начин задачата за намиране на права линия, която най-добре описва специфична връзка между X и Y, се свежда до изчисляване на минимума на функция от две променливи:

Това изисква приравняване на нула частни производни по отношение на нови променливи a и b и решаване на примитивна система, състояща се от две уравнения с 2 неизвестни от вида:

След прости трансформации, включително деление на 2 и манипулиране на сумите, получаваме:

Решавайки го, например, по метода на Крамер, получаваме стационарна точка с определени коефициенти a * и b * . Това е минимумът, т.е., за да се предвиди какъв оборот ще има магазинът за определен район, е подходяща правата линия y = a * x + b *, която е регресионен модел за въпросния пример. Разбира се, това няма да ви позволи да намерите точния резултат, но ще ви помогне да получите представа дали закупуването на магазин на кредит за определен район ще се изплати.

Как да приложим метода на най-малките квадрати в Excel

Excel има функция за изчисляване на стойността на най-малките квадрати. Има следната форма: ТЕНДЕНЦИЯ (известни Y стойности; известни X стойности; нови X стойности; константа). Нека приложим формулата за изчисляване на OLS в Excel към нашата таблица.

За да направите това, в клетката, в която трябва да се покаже резултатът от изчислението по метода на най-малките квадрати в Excel, въведете знака "=" и изберете функцията "TREND". В прозореца, който се отваря, попълнете съответните полета, като маркирате:

  • диапазон от известни стойности за Y (в този случай данни за оборот);
  • диапазон x 1 , …x n , т.е. размерът на търговската площ;
  • и известни и неизвестни стойности на x, за които трябва да разберете размера на оборота (за информация относно тяхното местоположение в работния лист вижте по-долу).

Освен това във формулата има логическа променлива "Const". Ако въведете 1 в полето, съответстващо на него, това ще означава, че трябва да се извършат изчисления, като се приеме, че b \u003d 0.

Ако трябва да знаете прогнозата за повече от една стойност x, тогава след въвеждане на формулата не трябва да натискате "Enter", а трябва да въведете комбинацията "Shift" + "Control" + "Enter" ("Enter" ) на клавиатурата.

Някои функции

Регресионният анализ може да бъде достъпен дори за манекени. Формулата на Excel за прогнозиране на стойността на масив от неизвестни променливи - "TREND" - може да се използва дори от тези, които никога не са чували за метода на най-малките квадрати. Достатъчно е само да знаете някои характеристики на работата му. В частност:

  • Ако поставите диапазона от известни стойности на променливата y в един ред или колона, тогава всеки ред (колона) с известни стойности на x ще се възприема от програмата като отделна променлива.
  • Ако диапазонът с известен x не е посочен в прозореца TREND, тогава в случай на използване на функцията в Excel, програмата ще го разглежда като масив, състоящ се от цели числа, чийто брой съответства на диапазона с дадените стойности на променливата y.
  • За да изведете масив от „предсказани“ стойности, изразът на тренда трябва да бъде въведен като формула за масив.
  • Ако не са посочени нови x стойности, тогава функцията TREND ги счита за равни на известните. Ако те не са посочени, тогава масив 1 се приема като аргумент; 2; 3; 4;…, което е съизмеримо с диапазона с вече зададени параметри y.
  • Диапазонът, съдържащ новите x стойности, трябва да има същите или повече редове или колони като диапазона с дадените y стойности. С други думи, трябва да е пропорционален на независимите променливи.
  • Масив с известни x стойности може да съдържа множество променливи. Ако обаче говорим само за един, тогава се изисква диапазоните с дадените стойности на x и y да са съизмерими. В случай на няколко променливи е необходимо диапазонът с дадените стойности на y да се побере в една колона или един ред.

Функция ПРОГНОЗА

Реализира се с помощта на няколко функции. Една от тях се нарича „ПРЕДСКАЗАНЕ“. Той е подобен на TREND, т.е. дава резултат от изчисления, използвайки метода на най-малките квадрати. Но само за един X, за който стойността на Y е неизвестна.

Вече знаете формулите на Excel за манекени, които ви позволяват да предскажете стойността на бъдещата стойност на индикатор според линейна тенденция.

Методът на най-малките квадрати е един от най-разпространените и най-разработените поради своята простота и ефективност на методите за оценка на параметрите на линейни. В същото време трябва да се спазва известно внимание при използването му, тъй като моделите, изградени с него, може да не отговарят на редица изисквания за качеството на техните параметри и в резултат на това да не отразяват „добре“ моделите на развитие на процеса.

Нека разгледаме по-подробно процедурата за оценка на параметрите на линеен иконометричен модел с помощта на метода на най-малките квадрати. Такъв модел в общ вид може да бъде представен чрез уравнение (1.2):

y t = a 0 + a 1 x 1 t +...+ a n x nt + ε t.

Първоначалните данни при оценяване на параметрите a 0 , a 1 ,..., a n е векторът на стойностите на зависимата променлива г= (y 1, y 2, ..., y T)" и матрицата от стойности на независими променливи

в която първата колона, състояща се от единици, съответства на коефициента на модела .

Методът на най-малките квадрати получи името си въз основа на основния принцип, че оценките на параметрите, получени на негова основа, трябва да удовлетворяват: сумата от квадратите на грешката на модела трябва да бъде минимална.

Примери за решаване на задачи по метода на най-малките квадрати

Пример 2.1.Търговското предприятие разполага с мрежа от 12 магазина, информация за дейността на които е представена в табл. 2.1.

Ръководството на компанията би искало да знае как размерът на годишния зависи от търговската площ на магазина.

Таблица 2.1

Номер на магазин

Годишен оборот, милиони рубли

Търговска площ, хиляди m 2

Решение на най-малките квадрати.Нека посочим - годишният оборот на -тия магазин, милиони рубли; - търговска площ на -тия магазин, хиляди m 2.

Фиг.2.1. Точкова диаграма за пример 2.1

Да се ​​определи формата на функционалната връзка между променливите и да се изгради диаграма на разсейване (фиг. 2.1).

Въз основа на диаграмата на разсейване можем да заключим, че годишният оборот зависи положително от търговската площ (т.е. y ще се увеличи с нарастването на ). Най-подходящата форма на функционална връзка е − линеен.

Информация за допълнителни изчисления е представена в табл. 2.2. Използвайки метода на най-малките квадрати, ние оценяваме параметрите на линейния еднофакторен иконометричен модел

Таблица 2.2

По този начин,

Следователно, с увеличаване на търговската площ с 1 хил. м 2, при равни други условия, средният годишен оборот се увеличава с 67,8871 милиона рубли.

Пример 2.2.Ръководството на предприятието забеляза, че годишният оборот зависи не само от търговската площ на магазина (вижте пример 2.1), но и от средния брой посетители. Съответната информация е представена в табл. 2.3.

Таблица 2.3

Решение.Означава - средният брой посетители на ти магазин на ден, хиляди души.

Да се ​​определи формата на функционалната връзка между променливите и да се изгради диаграма на разсейване (фиг. 2.2).

Въз основа на диаграмата на разсейване можем да заключим, че годишният оборот е положително свързан със средния брой посетители на ден (т.е. y ще се увеличи с нарастването на ). Формата на функционалната зависимост е линейна.

Ориз. 2.2. Точкова диаграма например 2.2

Таблица 2.4

Като цяло е необходимо да се определят параметрите на двуфакторния иконометричен модел

y t \u003d a 0 + a 1 x 1 t + a 2 x 2 t + ε t

Информацията, необходима за по-нататъшни изчисления, е представена в табл. 2.4.

Нека оценим параметрите на линеен двуфакторен иконометричен модел, използвайки метода на най-малките квадрати.

По този начин,

Оценката на коефициента = 61,6583 показва, че при равни други условия, с увеличаване на търговската площ с 1 хил. м 2, годишният оборот ще се увеличи средно с 61,6583 милиона рубли.

Метод на най-малките квадрати

Метод на най-малките квадрати ( MNK, OLS, обикновени най-малки квадрати) - един от основните методи за регресионен анализ за оценка на неизвестни параметри на регресионни модели от извадкови данни. Методът се основава на минимизиране на сумата от квадратите на регресионните остатъци.

Трябва да се отбележи, че самият метод на най-малките квадрати може да се нарече метод за решаване на проблем във всяка област, ако решението се състои от или удовлетворява определен критерий за минимизиране на сумата от квадратите на някои функции на неизвестните променливи. Следователно методът на най-малките квадрати може да се използва и за приблизително представяне (апроксимация) на дадена функция от други (по-прости) функции, когато се намира набор от величини, които отговарят на уравнения или ограничения, чийто брой надвишава броя на тези величини и т.н.

Същността на МНК

Нека някакъв (параметричен) модел на вероятностна (регресионна) зависимост между (обяснената) променлива ги много фактори (обяснителни променливи) х

където е векторът на неизвестните параметри на модела

- Случайна грешка в модела.

Нека има и примерни наблюдения на стойностите на посочените променливи. Нека е номерът на наблюдение (). След това са стойностите на променливите в -тото наблюдение. След това, за дадени стойности на параметрите b, е възможно да се изчислят теоретичните (моделни) стойности на обяснената променлива y:

Стойността на остатъците зависи от стойностите на параметрите b.

Същността на LSM (обикновен, класически) е да се намерят такива параметри b, за които сумата от квадратите на остатъците (англ. Остатъчен сбор от квадрати) ще бъде минимален:

В общия случай този проблем може да бъде решен чрез числени методи за оптимизация (минимизация). В този случай се говори за нелинейни най-малки квадрати(NLS или NLLS - английски. Нелинейни най-малки квадрати). В много случаи може да се получи аналитично решение. За да се реши задачата за минимизиране, е необходимо да се намерят стационарните точки на функцията чрез диференцирането й по отношение на неизвестните параметри b, приравняването на производните към нула и решаването на получената система от уравнения:

Ако случайните грешки на модела са нормално разпределени, имат една и съща вариация и не са корелирани една с друга, оценките на параметрите на най-малките квадрати са същите като оценките на метода на максималната вероятност (MLM).

LSM в случай на линеен модел

Нека регресионната зависимост е линейна:

Позволявам г- колонен вектор на наблюденията на обяснената променлива и - матрица на наблюденията на факторите (редове на матрицата - вектори на стойностите на факторите в дадено наблюдение, по колони - вектор на стойностите на даден фактор във всички наблюдения) . Матричното представяне на линейния модел има формата:

Тогава векторът на оценките на обяснената променлива и векторът на регресионните остатъци ще бъдат равни на

съответно сумата от квадратите на регресионните остатъци ще бъде равна на

Диференцирайки тази функция по отношение на вектора на параметъра и приравнявайки производните на нула, получаваме система от уравнения (в матрична форма):

.

Решението на тази система от уравнения дава общата формула за оценки на най-малките квадрати за линейния модел:

За аналитични цели последното представяне на тази формула се оказва полезно. Ако данните в регресионния модел центриран, тогава в това представяне първата матрица има значението на примерната ковариационна матрица на факторите, а втората е векторът на ковариациите на факторите със зависима променлива. Ако в допълнение данните също са нормализиранв SKO (тоест в крайна сметка стандартизиран), тогава първата матрица има значението на извадковата корелационна матрица на факторите, вторият вектор - векторът на извадковите корелации на факторите със зависимата променлива.

Важно свойство на оценките на LLS за модели с константа- линията на построената регресия минава през центъра на тежестта на извадковите данни, т.е. равенството е изпълнено:

По-специално, в краен случай, когато единственият регресор е константа, откриваме, че OLS оценката на един параметър (самата константа) е равна на средната стойност на обясняваната променлива. Тоест средната аритметична стойност, известна с добрите си свойства от законите на големите числа, също е оценка на най-малките квадрати - тя удовлетворява критерия за минимална сума на квадратите на отклонения от нея.

Пример: проста (по двойки) регресия

В случай на сдвоена линейна регресия, формулите за изчисление са опростени (можете да правите без матрична алгебра):

Свойства на оценките на OLS

Първо, отбелязваме, че за линейните модели оценките на най-малките квадрати са линейни оценки, както следва от горната формула. За безпристрастни оценки на OLS е необходимо и достатъчно да се изпълни най-важното условие на регресионния анализ: математическото очакване на случайна грешка, зависима от факторите, трябва да бъде равно на нула. Това условие е изпълнено, по-специално, ако

  1. математическото очакване на случайни грешки е нула и
  2. факторите и случайните грешки са независими случайни променливи.

Основно е второто условие – състоянието на екзогенни фактори. Ако това свойство не е изпълнено, тогава можем да приемем, че почти всички оценки ще бъдат изключително незадоволителни: те дори няма да бъдат последователни (тоест дори много голямо количество данни не позволява получаването на качествени оценки в този случай). В класическия случай се прави по-силно предположение за детерминизма на факторите, за разлика от случайната грешка, което автоматично означава, че екзогенното условие е изпълнено. В общия случай за последователност на оценките е достатъчно да се изпълни условието за екзогенност заедно с конвергенцията на матрицата към някаква неособена матрица с увеличаване на размера на извадката до безкрайност.

За да бъдат, в допълнение към последователността и безпристрастността, оценките на (обичайния) LSM също ефективни (най-добрите в класа на линейните непредубедени оценки), е необходимо да се изпълнят допълнителни свойства на случайна грешка:

Тези предположения могат да бъдат формулирани за ковариационната матрица на вектора на случайната грешка

Линеен модел, който отговаря на тези условия, се нарича класически. Оценителите на най-малките квадрати за класическа линейна регресия са безпристрастни, последователни и най-ефективните оценители в класа на всички линейни безпристрастни оценители (съкращението син (Най-добрият линеен небазиран оценител) е най-добрата линейна безпристрастна оценка; в местната литература по-често се цитира теоремата на Гаус-Марков). Както е лесно да се покаже, ковариационната матрица на вектора на оценките на коефициента ще бъде равна на:

Обобщени най-малки квадрати

Методът на най-малките квадрати позволява широко обобщение. Вместо да се минимизира сумата от квадрати на остатъците, може да се минимизира някаква положително определена квадратна форма на остатъчния вектор, където е някаква симетрична положително определена матрица на тегло. Обикновените най-малки квадрати са специален случай на този подход, когато матрицата на теглото е пропорционална на матрицата на идентичността. Както е известно от теорията на симетричните матрици (или оператори), за такива матрици има декомпозиция. Следователно посоченият функционал може да бъде представен по следния начин, тоест този функционал може да бъде представен като сбор от квадратите на някои трансформирани "остатъци". По този начин можем да разграничим клас от методи на най-малките квадрати - LS-методи (Least Squares).

Доказва се (теорема на Ейткен), че за обобщен линеен регресионен модел (в който не се налагат ограничения върху ковариационната матрица на случайните грешки), най-ефективни (в класа на линейните непредубедени оценки) са оценките на т.нар. обобщени OLS (OMNK, GLS - обобщени най-малки квадрати)- LS-метод с тегловна матрица, равна на обратната ковариационна матрица на случайните грешки: .

Може да се покаже, че формулата за GLS-оценките на параметрите на линейния модел има формата

Ковариационната матрица на тези оценки съответно ще бъде равна на

Всъщност същността на OLS се състои в определена (линейна) трансформация (P) на оригиналните данни и прилагането на обичайните най-малки квадрати към трансформираните данни. Целта на тази трансформация е, че за трансформираните данни случайните грешки вече отговарят на класическите допускания.

Претеглени най-малки квадрати

В случай на диагонална матрица на тегло (и оттам ковариационната матрица на случайните грешки) имаме така наречените претеглени най-малки квадрати (WLS - Weighted Least Squares). В този случай претеглената сума от квадрати на остатъците на модела е сведена до минимум, т.е. всяко наблюдение получава "тегло", което е обратно пропорционално на дисперсията на случайната грешка в това наблюдение: . Всъщност данните се трансформират чрез претегляне на наблюденията (разделяне на количество, пропорционално на приетото стандартно отклонение на случайните грешки), а нормалните най-малки квадрати се прилагат към претеглените данни.

Някои частни случаи на приложение на LSM в практиката

Линейна апроксимация

Разгледайте случая, когато в резултат на изследване на зависимостта на определено скаларно количество от определено скаларно количество (Това може да бъде например зависимостта на напрежението от силата на тока: , където е постоянна стойност, съпротивлението на проводника ), тези количества бяха измерени, в резултат на което стойностите и и съответните им стойности. Данните от измерванията трябва да се записват в таблица.

Таблица. Резултати от измерването.

номер на измерване
1
2
3
4
5
6

Въпросът звучи така: каква стойност на коефициента може да се избере, за да опише най-добре зависимостта? Според най-малките квадрати тази стойност трябва да бъде такава, че сумата от квадратните отклонения на стойностите от стойностите

беше минимален

Сумата от квадратите на отклоненията има един екстремум - минимум, което ни позволява да използваме тази формула. Нека намерим стойността на коефициента от тази формула. За да направим това, трансформираме лявата му страна, както следва:

Последната формула ни позволява да намерим стойността на коефициента , която беше необходима в задачата.

История

До началото на XIX век. учените не са имали определени правила за решаване на система от уравнения, в която броят на неизвестните е по-малък от броя на уравненията; Дотогава се използваха определени методи, в зависимост от вида на уравненията и от изобретателността на калкулаторите, и следователно различните калкулатори, започвайки от едни и същи данни от наблюдения, стигаха до различни заключения. На Гаус (1795) се приписва първото приложение на метода, а Лежандре (1805) независимо го открива и публикува под съвременното му име (фр. Methode des moindres quarres ) . Лаплас свързва метода с теорията на вероятностите, а американският математик Адрейн (1808) разглежда неговите вероятностни приложения. Методът е широко разпространен и подобрен с по-нататъшни изследвания на Encke, Bessel, Hansen и други.

Алтернативно използване на MNC

Идеята за метода на най-малките квадрати може да се използва и в други случаи, които не са пряко свързани с регресионния анализ. Факт е, че сумата от квадрати е една от най-често срещаните мерки за близост за вектори (Евклидова метрика в крайномерни пространства).

Едно приложение е „решаване“ на системи от линейни уравнения, в които броят на уравненията е по-голям от броя на променливите

където матрицата не е квадратна, а правоъгълна.

Такава система от уравнения в общия случай няма решение (ако рангът действително е по-голям от броя на променливите). Следователно тази система може да бъде "решена" само в смисъл на избор на такъв вектор, за да се минимизира "разстоянието" между векторите и . За да направите това, можете да приложите критерия за минимизиране на сумата от квадратите на разликите на лявата и дясната част на уравненията на системата, т.е. Лесно е да се покаже, че решението на този проблем за минимизиране води до решението на следната система от уравнения

Пример.

Експериментални данни за стойностите на променливите хИ приса дадени в таблицата.

В резултат на тяхното подреждане функцията

Използвайки метод на най-малките квадрати, апроксимирайте тези данни с линейна зависимост y=ax+b(намерете параметри АИ b). Разберете коя от двете линии по-добре (в смисъл на метода на най-малките квадрати) подравнява експерименталните данни. Направете рисунка.

Същността на метода на най-малките квадрати (МНК).

Проблемът е да се намерят коефициентите на линейна зависимост, за които функцията на две променливи АИ b приема най-малката стойност. Това е предвид данните АИ bсумата от квадратите на отклоненията на експерименталните данни от намерената права линия ще бъде най-малка. Това е целият смисъл на метода на най-малките квадрати.

Така решението на примера се свежда до намиране на екстремума на функция на две променливи.

Извеждане на формули за намиране на коефициенти.

Съставя се и се решава система от две уравнения с две неизвестни. Намиране на частни производни на функции по променливи АИ b, ние приравняваме тези производни на нула.

Решаваме получената система от уравнения по произволен метод (напр метод на заместванеили Методът на Крамер) и получете формули за намиране на коефициентите с помощта на метода на най-малките квадрати (LSM).

С данни АИ bфункция приема най-малката стойност. Дадено е доказателство за този факт под текста в края на страницата.

Това е целият метод на най-малките квадрати. Формула за намиране на параметъра асъдържа сумите ,,, и параметъра н- количество експериментални данни. Стойностите на тези суми се препоръчват да се изчисляват отделно. Коефициент bнамерени след изчисление а.

Време е да си припомним оригиналния пример.

Решение.

В нашия пример n=5. Попълваме таблицата за удобство при изчисляване на сумите, които са включени във формулите на необходимите коефициенти.

Стойностите в четвъртия ред на таблицата се получават чрез умножаване на стойностите на 2-ри ред по стойностите на 3-ти ред за всяко число аз.

Стойностите в петия ред на таблицата се получават чрез повдигане на квадрат на стойностите на 2-ри ред за всяко число аз.

Стойностите на последната колона на таблицата са сумите от стойностите в редовете.

Използваме формулите на метода на най-малките квадрати, за да намерим коефициентите АИ b. Заменяме в тях съответните стойности от последната колона на таблицата:

следователно y=0,165x+2,184е желаната апроксимираща права линия.

Остава да разберем коя от линиите y=0,165x+2,184или по-добре приближава оригиналните данни, т.е. да направи оценка с помощта на метода на най-малките квадрати.

Оценка на грешката на метода на най-малките квадрати.

За да направите това, трябва да изчислите сумите на квадратите на отклоненията на оригиналните данни от тези редове И , по-малка стойност съответства на линия, която по-добре приближава оригиналните данни по отношение на метода на най-малките квадрати.

Тъй като , тогава линията y=0,165x+2,184приближава по-добре оригиналните данни.

Графична илюстрация на метода на най-малките квадрати (LSM).

Всичко изглежда страхотно в класациите. Червената линия е намерената линия y=0,165x+2,184, синята линия е , розовите точки са оригиналните данни.

На практика при моделиране на различни процеси - по-специално икономически, физически, технически, социални - широко се използва един или друг метод за изчисляване на приблизителните стойности на функциите от техните известни стойности в някои фиксирани точки.

Често възникват проблеми с апроксимацията на функции от този вид:

    при конструиране на приблизителни формули за изчисляване на стойностите на характерните количества на изследвания процес според табличните данни, получени в резултат на експеримента;

    при числено интегриране, диференциране, решаване на диференциални уравнения и др.;

    ако е необходимо да се изчислят стойностите на функциите в междинните точки на разглеждания интервал;

    при определяне на стойностите на характерните количества на процеса извън разглеждания интервал, по-специално при прогнозиране.

Ако, за да се моделира определен процес, определен от таблица, се конструира функция, която приблизително описва този процес въз основа на метода на най-малките квадрати, тя ще се нарича апроксимираща функция (регресия) и самата задача за конструиране на апроксимиращи функции ще бъде проблем с приближението.

В тази статия се разглеждат възможностите на пакета MS Excel за решаване на такива проблеми, освен това са дадени методи и техники за конструиране (създаване) на регресии за таблично зададени функции (което е в основата на регресионния анализ).

Има две възможности за изграждане на регресии в Excel.

    Добавяне на избрани регресии (линии на тренд) към диаграма, изградена на базата на таблица с данни за изследваната характеристика на процеса (достъпно само ако е изградена диаграма);

    Използване на вградените статистически функции на работния лист на Excel, което ви позволява да получавате регресии (линии на тренд) директно от таблицата с изходни данни.

Добавяне на трендови линии към диаграма

За таблица с данни, описваща определен процес и представена чрез диаграма, Excel разполага с ефективен инструмент за регресионен анализ, който ви позволява да:

    изградете на базата на метода на най-малките квадрати и добавете към диаграмата пет вида регресии, които моделират изследвания процес с различна степен на точност;

    добавете уравнение на построената регресия към диаграмата;

    определяне на степента на съответствие на избраната регресия с данните, показани на диаграмата.

Въз основа на данните от диаграмата, Excel ви позволява да получите линейни, полиномиални, логаритмични, експоненциални, експоненциални видове регресии, които са дадени от уравнението:

y = y(x)

където x е независима променлива, която често приема стойностите на последователност от естествени числа (1; 2; 3; ...) и произвежда, например, обратно броене на времето на процеса, който се изследва (характеристики) .

1 . Линейната регресия е добра при моделиране на характеристики, които нарастват или намаляват с постоянна скорост. Това е най-простият модел на изследвания процес. Изгражда се по уравнението:

y=mx+b

където m е тангенса на наклона на линейната регресия спрямо оста x; b - координата на пресечната точка на линейната регресия с оста y.

2 . Полиномиалната тренд линия е полезна за описване на характеристики, които имат няколко различни крайности (високи и ниски). Изборът на степента на полинома се определя от броя на екстремумите на изследваната характеристика. По този начин полином от втора степен може добре да опише процес, който има само един максимум или минимум; полином от трета степен - не повече от два екстремума; полином от четвърта степен - не повече от три екстремума и т.н.

В този случай тренд линията се изгражда в съответствие с уравнението:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

където коефициентите c0, c1, c2,... c6 са константи, чиито стойности се определят по време на конструирането.

3 . Логаритмичната тренд линия се използва успешно при моделиране на характеристики, чиито стойности се променят бързо в началото и след това постепенно се стабилизират.

y = c ln(x) + b

4 . Линията на тренда на мощността дава добри резултати, ако стойностите на изследваната зависимост се характеризират с постоянна промяна в скоростта на растеж. Пример за такава зависимост може да служи като графика на равномерно ускорено движение на автомобила. Ако има нулеви или отрицателни стойности в данните, не можете да използвате тренд линия на мощност.

Изгражда се в съответствие с уравнението:

y = cxb

където коефициентите b, c са константи.

5 . Трябва да се използва експоненциална тренд линия, ако скоростта на промяна в данните непрекъснато нараства. За данни, съдържащи нулеви или отрицателни стойности, този вид приближение също не е приложим.

Изгражда се в съответствие с уравнението:

y=cebx

където коефициентите b, c са константи.

При избор на линия на тенденция Excel автоматично изчислява стойността на R2, която характеризира точността на приближението: колкото по-близка е стойността на R2 до единица, толкова по-надеждно линията на тенденция приближава изследвания процес. Ако е необходимо, стойността на R2 винаги може да бъде показана на диаграмата.

Определя се по формулата:

За да добавите линия на тенденция към серия от данни:

    активирайте диаграмата, изградена въз основа на серията данни, т.е. щракнете в областта на диаграмата. Елементът Графика ще се появи в главното меню;

    след като щракнете върху този елемент, на екрана ще се появи меню, в което трябва да изберете командата Добавяне на тренд линия.

Същите действия се изпълняват лесно, ако задържите курсора на мишката над графиката, съответстваща на една от сериите данни, и щракнете с десния бутон на мишката; в контекстното меню, което се показва, изберете командата Добавяне на линия на тенденция. На екрана ще се появи диалоговият прозорец Trendline с отворен раздел Type (фиг. 1).

След това имате нужда от:

В раздела Тип изберете необходимия тип линия на тренда (Линеен е избран по подразбиране). За тип Полином в полето Степен посочете степента на избрания полином.

1 . Полето Създаден върху серия изброява всички серии от данни във въпросната диаграма. За да добавите линия на тенденция към конкретна серия от данни, изберете нейното име в полето Изградено върху серия.

Ако е необходимо, като отидете в раздела Параметри (фиг. 2), можете да зададете следните параметри за линията на тренда:

    променете името на тренд линията в полето Име на апроксимиращата (изгладена) крива.

    задайте броя на периодите (напред или назад) за прогнозата в полето Прогноза;

    показване на уравнението на тренд линията в областта на диаграмата, за което трябва да активирате квадратчето за отметка показване на уравнението на диаграмата;

    покажете стойността на апроксимационната надеждност R2 в областта на диаграмата, за която трябва да активирате отметката, поставете стойността на апроксимационната надеждност (R^2) на диаграмата;

    задайте точката на пресичане на линията на тренда с оста Y, за което трябва да активирате отметката за пресичане на кривата с оста Y в точка;

    щракнете върху бутона OK, за да затворите диалоговия прозорец.

Има три начина да започнете да редактирате вече изградена тренд линия:

    използвайте командата Selected trend line от меню Format, след като изберете тренд линията;

    изберете командата Format Trendline от контекстното меню, което се извиква чрез щракване с десния бутон върху линията на тренда;

    чрез двукратно щракване върху тренд линията.

На екрана ще се появи диалоговият прозорец Format Trendline (Фиг. 3), съдържащ три раздела: View, Type, Parameters, като съдържанието на последните два напълно съвпада с подобни раздели на диалоговия прозорец Trendline (фиг. 1-2). ). В раздела Изглед можете да зададете вида на линията, нейния цвят и дебелина.

За да изтриете вече изградена тренд линия, изберете тренд линията за изтриване и натиснете клавиша Delete.

Предимствата на разглеждания инструмент за регресионен анализ са:

    относителната лекота на начертаване на тренд линия върху диаграми, без да се създава таблица с данни за нея;

    доста широк списък от видове предложени линии на тренд, като този списък включва най-често използваните видове регресия;

    възможността за прогнозиране на поведението на изследвания процес за произволен (в рамките на здравия разум) брой стъпки напред, както и назад;

    възможността за получаване на уравнението на линията на тренда в аналитична форма;

    възможността, ако е необходимо, да се получи оценка на надеждността на приближението.

Недостатъците включват следните точки:

    изграждането на тренд линия се извършва само ако има диаграма, изградена върху серия от данни;

    процесът на генериране на серия от данни за изследваната характеристика въз основа на уравненията на тренд линията, получени за нея, е донякъде претрупан: желаните регресионни уравнения се актуализират с всяка промяна в стойностите на оригиналната серия от данни, но само в областта на диаграмата , докато серията данни, формирана на базата на тенденцията на старото уравнение на линията, остава непроменена;

    В отчетите с обобщена диаграма, когато промените изгледа на диаграмата или свързания отчет с обобщена таблица, съществуващите линии на тенденции не се запазват, така че трябва да се уверите, че оформлението на отчета отговаря на вашите изисквания, преди да начертаете линии на тенденция или да форматирате по друг начин отчета с обобщена диаграма.

Линиите на тренда могат да се добавят към серии от данни, представени на диаграми като графика, хистограма, плоски диаграми с ненормализирани площи, лентови, точкови, балонни и борсови диаграми.

Не можете да добавяте линии на тенденции към серии от данни на 3-D, стандартни, радарни, кръгови и кръгови диаграми.

Използване на вградени функции на Excel

Excel също така предоставя инструмент за регресионен анализ за начертаване на линии на тенденции извън областта на диаграмата. За тази цел могат да се използват редица функции на статистически работен лист, но всички те ви позволяват да изграждате само линейни или експоненциални регресии.

Excel има няколко функции за изграждане на линейна регресия, по-специално:

    ТЕНДЕНЦИЯ;

  • НАКЛОН и РЕЗ.

Както и няколко функции за конструиране на експоненциална тренд линия, по-специално:

    LGRFPприбл.

Трябва да се отбележи, че техниките за конструиране на регресии с помощта на функциите TREND и GROWTH са практически еднакви. Същото може да се каже и за двойката функции LINEST и LGRFPRIBL. За тези четири функции, когато създавате таблица със стойности, се използват функции на Excel като формули за масиви, което донякъде затруднява процеса на изграждане на регресии. Също така отбелязваме, че конструкцията на линейна регресия според нас е най-лесна за изпълнение с помощта на функциите SLOPE и INTERCEPT, където първата от тях определя наклона на линейната регресия, а втората определя сегмента, отрязан от регресията по оста у.

Предимствата на инструмента за вградени функции за регресионен анализ са:

    сравнително прост процес на формиране на серии от данни на изследваната характеристика за всички вградени статистически функции, които задават линии на тенденция;

    стандартна техника за конструиране на трендови линии въз основа на генерираните серии от данни;

    способността да се предвиди поведението на изследвания процес за необходимия брой стъпки напред или назад.

А недостатъците включват факта, че Excel няма вградени функции за създаване на други (освен линейни и експоненциални) типове линии на тренд. Това обстоятелство често не позволява да се избере достатъчно точен модел на изследвания процес, както и да се получат прогнози, близки до реалността. Освен това, когато използвате функциите TREND и GROW, уравненията на линиите на тренда не са известни.

Трябва да се отбележи, че авторите не са поставили за цел статията да представят хода на регресионния анализ с различна степен на пълнота. Основната му задача е да покаже на конкретни примери възможностите на пакета Excel при решаване на апроксимационни задачи; демонстрират какви ефективни инструменти има Excel за изграждане на регресии и прогнозиране; илюстрират колко сравнително лесно подобни проблеми могат да бъдат решени дори от потребител, който няма задълбочени познания за регресионния анализ.

Примери за решаване на конкретни проблеми

Обмислете решението на конкретни проблеми с помощта на изброените инструменти на пакета Excel.

Задача 1

С таблица с данни за печалбата на автотранспортно предприятие за 1995-2002 г. трябва да направите следното.

    Изградете диаграма.

    Добавете линейни и полиномни (квадратични и кубични) трендови линии към диаграмата.

    Използвайки уравненията на тренд линията, получете таблични данни за печалбата на предприятието за всяка тренд линия за 1995-2004 г.

    Направете прогноза за печалбата на предприятието за 2003 и 2004 г.

Решението на проблема

    В диапазона от клетки A4:C11 на работния лист на Excel въвеждаме работния лист, показан на фиг. 4.

    След като избрахме диапазона от клетки B4:C11, изграждаме диаграма.

    Активираме изградената диаграма и, като използваме описания по-горе метод, след като изберем вида на линията на тренда в диалоговия прозорец Линия на тренда (виж Фиг. 1), последователно добавяме линейни, квадратни и кубични линии на тренд към графиката. В същия диалогов прозорец отворете раздела Параметри (вижте фиг. 2), в полето Име на апроксимиращата (изгладена) крива въведете името на тенденцията, която ще добавите, а в полето Прогноза напред за: периоди задайте стойността 2, тъй като се планира да се направи прогноза за печалба за две години напред. За да покажете уравнението на регресията и стойността на надеждността на приближението R2 в областта на диаграмата, активирайте квадратчетата за отметка Показване на уравнението на екрана и поставете стойността на надеждността на приближението (R^2) върху диаграмата. За по-добро визуално възприятие променяме вида, цвета и дебелината на изчертаните трендови линии, за което използваме раздела Изглед на диалоговия прозорец Формат на трендовата линия (виж Фиг. 3). Получената диаграма с добавени трендови линии е показана на фиг. 5.

    Да се ​​получат таблични данни за печалбата на предприятието за всяка тренд линия за 1995-2004 г. Нека използваме уравненията на трендовите линии, представени на фиг. 5. За да направите това, в клетките на диапазона D3:F3 въведете текстова информация за вида на избраната тренд линия: Линеен тренд, Квадратичен тренд, Кубичен тренд. След това въведете формулата за линейна регресия в клетка D4 и, като използвате маркера за запълване, копирайте тази формула с относителни препратки към диапазона от клетки D5:D13. Трябва да се отбележи, че всяка клетка с формула за линейна регресия от диапазона от клетки D4:D13 има съответстваща клетка от диапазона A4:A13 като аргумент. По същия начин, за квадратична регресия се запълва диапазонът от клетки E4:E13, а за кубична регресия се запълва диапазонът от клетки F4:F13. Така е направена прогноза за печалбата на предприятието за 2003 и 2004 г. с три тенденции. Получената таблица със стойности е показана на фиг. 6.

Задача 2

    Изградете диаграма.

    Добавете логаритмични, експоненциални и експоненциални тренд линии към диаграмата.

    Изведете уравненията на получените трендови линии, както и стойностите на апроксимационната надеждност R2 за всяка от тях.

    Използвайки уравненията на тренд линията, получете таблични данни за печалбата на предприятието за всяка тренд линия за 1995-2002 г.

    Направете прогноза за печалбата за бизнеса за 2003 и 2004 г., като използвате тези линии на тенденция.

Решението на проблема

Следвайки методологията, дадена при решаването на задача 1, получаваме диаграма с добавени логаритмични, експоненциални и експоненциални тренд линии (фиг. 7). Освен това, използвайки получените уравнения на тренд линията, попълваме таблицата със стойности за печалбата на предприятието, включително прогнозираните стойности за 2003 и 2004 г. (фиг. 8).

На фиг. 5 и фиг. се вижда, че моделът с логаритмичен тренд отговаря на най-ниската стойност на надеждността на апроксимацията

R2 = 0,8659

Най-високите стойности на R2 съответстват на модели с полиномен тренд: квадратичен (R2 = 0,9263) и кубичен (R2 = 0,933).

Задача 3

С таблица с данни за печалбата на автомобилно транспортно предприятие за 1995-2002 г., дадена в задача 1, трябва да изпълните следните стъпки.

    Вземете серии от данни за линейни и експоненциални трендови линии с помощта на функциите TREND и GROW.

    Използвайки функциите TREND и GROWTH, направете прогноза за печалбата на предприятието за 2003 и 2004 г.

    За изходните данни и получените серии от данни построете диаграма.

Решението на проблема

Нека използваме работния лист от задача 1 (виж фиг. 4). Да започнем с функцията TREND:

    изберете диапазона от клетки D4: D11, който трябва да бъде попълнен със стойностите на функцията TREND, съответстващи на известните данни за печалбата на предприятието;

    извикайте командата Функция от менюто Вмъкване. В диалоговия прозорец на съветника за функции, който се появява, изберете функцията TREND от категорията Statistical и след това щракнете върху бутона OK. Същата операция може да се извърши чрез натискане на бутона (функция Вмъкване) на стандартната лента с инструменти.

    В диалоговия прозорец Аргументи на функцията, който се появява, въведете диапазона от клетки C4:C11 в полето Known_values_y; в поле Известни_стойности_x - диапазонът от клетки B4:B11;

    за да направите въведената формула формула за масив, използвайте клавишната комбинация + + .

Формулата, която въведохме в лентата с формули, ще изглежда така: =(ТРЕНД(C4:C11;B4:B11)).

В резултат на това диапазонът от клетки D4:D11 се запълва със съответните стойности на функцията TREND (фиг. 9).

Да се ​​направи прогноза за печалбата на дружеството за 2003 и 2004г. необходимо:

    изберете диапазона от клетки D12:D13, където ще бъдат въведени стойностите, предвидени от функцията TREND.

    извикайте функцията TREND и в появилия се диалогов прозорец Arguments на функцията въведете в полето Known_values_y - диапазона от клетки C4:C11; в поле Известни_стойности_x - диапазонът от клетки B4:B11; а в полето New_values_x - диапазона от клетки B12:B13.

    превърнете тази формула във формула за масив, като използвате клавишната комбинация Ctrl + Shift + Enter.

    Въведената формула ще изглежда така: =(TREND(C4:C11;B4:B11;B12:B13)), а диапазонът от клетки D12:D13 ще бъде запълнен с прогнозираните стойности на функцията TREND (вижте фиг. 9).

По същия начин серия от данни се попълва с помощта на функцията GROWTH, която се използва при анализа на нелинейни зависимости и работи точно по същия начин като нейния линеен аналог TREND.

Фигура 10 показва таблицата в режим на показване на формула.

За първоначалните данни и получените серии от данни, диаграмата, показана на фиг. единадесет.

Задача 4

С таблица с данни за получаване на заявления за услуги от диспечерската служба на автотранспортно предприятие за периода от 1 до 11 число на текущия месец трябва да се извършат следните действия.

    Получаване на серии от данни за линейна регресия: използване на функциите SLOPE и INTERCEPT; с помощта на функцията LINEST.

    Извлечете серия от данни за експоненциална регресия с помощта на функцията LYFFPRIB.

    Използвайки горните функции, направете прогноза за получаването на заявления в диспечерската служба за периода от 12-ия до 14-ия ден на текущия месец.

    За оригиналната и получената серия от данни постройте диаграма.

Решението на проблема

Обърнете внимание, че за разлика от функциите TREND и GROW, нито една от изброените по-горе функции (SLOPE, INTERCEPTION, LINEST, LGRFPRIB) не е регресия. Тези функции играят само спомагателна роля, определяйки необходимите регресионни параметри.

За линейни и експоненциални регресии, изградени с помощта на функциите SLOPE, INTERCEPT, LINEST, LGRFINB, външният вид на техните уравнения винаги е известен, за разлика от линейните и експоненциалните регресии, съответстващи на функциите TREND и GROWTH.

1 . Нека изградим линейна регресия, която има уравнението:

y=mx+b

чрез функциите SLOPE и INTERCEPT, като наклонът на регресията m се определя от функцията SLOPE, а константният член b - от функцията INTERCEPT.

За да направим това, извършваме следните действия:

    въведете изходната таблица в диапазона от клетки A4:B14;

    стойността на параметъра m ще бъде определена в клетка C19. Изберете от категорията Statistical функцията Slope; въведете диапазона от клетки B4:B14 в полетоknown_values_y и диапазона от клетки A4:A14 в полетоknown_values_x. Формулата ще бъде въведена в клетка C19: =SLOPE(B4:B14;A4:A14);

    с помощта на подобен метод се определя стойността на параметъра b в клетка D19. И съдържанието му ще изглежда така: = INTERCEPT(B4:B14;A4:A14). По този начин стойностите на параметрите m и b, необходими за конструиране на линейна регресия, ще бъдат съхранени съответно в клетки C19, D19;

    след това въвеждаме формулата за линейна регресия в клетка C4 във формата: = $ C * A4 + $ D. В тази формула клетки C19 и D19 са записани с абсолютни препратки (адресът на клетката не трябва да се променя при евентуално копиране). Абсолютният референтен знак $ може да бъде въведен или от клавиатурата, или с помощта на клавиша F4, след поставяне на курсора върху адреса на клетката. С помощта на манипулатора за попълване копирайте тази формула в диапазона от клетки C4:C17. Получаваме желаната поредица от данни (фиг. 12). Поради факта, че броят на заявките е цяло число, трябва да зададете числовия формат в раздела Число на прозореца Формат на клетката с броя на десетичните знаци на 0.

2 . Сега нека изградим линейна регресия, дадена от уравнението:

y=mx+b

с помощта на функцията LINEST.

За това:

    въведете функцията LINEST като формула за масив в диапазона от клетки C20:D20: =(LINEST(B4:B14;A4:A14)). В резултат на това получаваме стойността на параметъра m в клетка C20 и стойността на параметъра b в клетка D20;

    въведете формулата в клетка D4: =$C*A4+$D;

    копирайте тази формула с помощта на маркера за запълване в диапазона от клетки D4:D17 и вземете желаната поредица от данни.

3 . Изграждаме експоненциална регресия, която има уравнението:

с помощта на функцията LGRFPRIBL се изпълнява по подобен начин:

    в диапазона от клетки C21:D21 въведете функцията LGRFPRIBL като формула за масив: =( LGRFPRIBL (B4:B14;A4:A14)). В този случай стойността на параметъра m ще бъде определена в клетка C21, а стойността на параметъра b ще бъде определена в клетка D21;

    формулата се въвежда в клетка E4: =$D*$C^A4;

    използвайки маркера за запълване, тази формула се копира в диапазона от клетки E4:E17, където ще бъдат разположени серията данни за експоненциална регресия (вижте Фиг. 12).

На фиг. 13 показва таблица, в която можем да видим функциите, които използваме с необходимите диапазони от клетки, както и формули.

Стойност Р 2 Наречен коефициент на детерминация.

Задачата за изграждане на регресионна зависимост е да се намери векторът на коефициентите m на модела (1), при който коефициентът R приема максимална стойност.

За оценка на значимостта на R се използва F-тест на Фишер, изчислен по формулата

Където н- размер на извадката (брой експерименти);

k е броят на коефициентите на модела.

Ако F надвиши някаква критична стойност за данните нИ ки приетото ниво на доверие, тогава стойността на R се счита за значима. Таблици с критични стойности на F са дадени в справочници по математическа статистика.

По този начин значимостта на R се определя не само от неговата стойност, но и от съотношението между броя на експериментите и броя на коефициентите (параметрите) на модела. Наистина, съотношението на корелация за n=2 за прост линеен модел е 1 (през 2 точки на равнината винаги можете да начертаете една права линия). Въпреки това, ако експерименталните данни са случайни променливи, на такава стойност на R трябва да се вярва много внимателно. Обикновено, за да се получи значително R и надеждна регресия, се цели да се гарантира, че броят на експериментите значително надвишава броя на коефициентите на модела (n>k).

За да изградите линеен регресионен модел, трябва:

1) подгответе списък от n реда и m колони, съдържащи експерименталните данни (колона, съдържаща изходната стойност Yтрябва да е първи или последен в списъка); например, нека вземем данните от предишната задача, като добавим колона, наречена "номер на период", номерирайки номерата на периодите от 1 до 12. (това ще бъдат стойностите х)

2) отидете в меню Данни/Анализ на данни/Регресия

Ако елементът "Анализ на данни" в менюто "Инструменти" липсва, тогава трябва да отидете в елемента "Добавки" от същото меню и да поставите отметка в квадратчето "Пакет за анализ".

3) в диалоговия прозорец "Регресия" задайте:

входен интервал Y;

входен интервал X;

изходен интервал - горната лява клетка на интервала, в който ще бъдат поставени резултатите от изчислението (препоръчително е да го поставите на нов работен лист);

4) щракнете върху "Ok" и анализирайте резултатите.