Inti dari metode kuadrat terkecil adalah. Di mana metode kuadrat terkecil diterapkan? Contoh penyelesaian masalah dengan metode kuadrat terkecil

Ini memiliki banyak aplikasi, karena memungkinkan representasi perkiraan dari fungsi yang diberikan oleh fungsi lain yang lebih sederhana. LSM bisa sangat berguna dalam memproses pengamatan, dan secara aktif digunakan untuk memperkirakan beberapa besaran dari hasil pengukuran orang lain yang mengandung kesalahan acak. Pada artikel ini, Anda akan mempelajari cara menerapkan perhitungan kuadrat terkecil di Excel.

Pernyataan masalah pada contoh spesifik

Misalkan ada dua indikator X dan Y. Selain itu, Y bergantung pada X. Karena OLS menarik bagi kami dari sudut pandang analisis regresi (di Excel, metodenya diimplementasikan menggunakan fungsi bawaan), kami harus segera melanjutkan untuk mempertimbangkan masalah tertentu.

Jadi, misalkan X adalah area penjualan toko kelontong, diukur dalam meter persegi, dan Y adalah omset tahunan, yang ditentukan dalam jutaan rubel.

Diperlukan untuk membuat perkiraan berapa omset (Y) yang akan dimiliki toko jika memiliki satu atau beberapa ruang ritel. Jelas, fungsi Y = f (X) meningkat, karena hypermarket menjual lebih banyak barang daripada kios.

Beberapa kata tentang kebenaran data awal yang digunakan untuk prediksi

Katakanlah kita memiliki tabel yang dibangun dengan data untuk n toko.

Menurut statistik matematika, hasilnya kurang lebih akan benar jika data pada setidaknya 5-6 objek diperiksa. Juga, hasil "anomali" tidak dapat digunakan. Secara khusus, butik kecil elit bisa memiliki omzet berkali-kali lipat dibandingkan omzet gerai besar sekelas “masmarket”.

Inti dari metode ini

Data tabel dapat ditampilkan pada bidang Cartesian sebagai titik M 1 (x 1, y 1), ... M n (x n, y n). Sekarang solusi dari masalah tersebut akan direduksi menjadi pemilihan fungsi aproksimasi y = f (x), yang memiliki grafik yang melewati sedekat mungkin dengan titik M 1, M 2, .. M n .

Tentu saja, Anda dapat menggunakan polinomial tingkat tinggi, tetapi opsi ini tidak hanya sulit diterapkan, tetapi juga salah, karena tidak akan mencerminkan tren utama yang perlu dideteksi. Solusi paling masuk akal adalah mencari garis lurus y = ax + b, yang paling mendekati data eksperimen, atau lebih tepatnya, koefisien - a dan b.

Skor akurasi

Untuk perkiraan apa pun, penilaian keakuratannya sangat penting. Dilambangkan dengan ei perbedaan (penyimpangan) antara nilai fungsional dan eksperimental untuk titik x i , yaitu ei = y i - f (x i).

Jelas, untuk menilai keakuratan perkiraan, Anda dapat menggunakan jumlah penyimpangan, yaitu, ketika memilih garis lurus untuk representasi perkiraan ketergantungan X pada Y, preferensi harus diberikan kepada yang memiliki nilai terkecil dari jumlah e i di semua titik yang dipertimbangkan. Namun, tidak semuanya sesederhana itu, karena seiring dengan penyimpangan positif, praktis akan ada penyimpangan negatif.

Anda dapat memecahkan masalah menggunakan modul deviasi atau kuadratnya. Metode yang terakhir adalah yang paling banyak digunakan. Ini digunakan di banyak bidang, termasuk analisis regresi (di Excel, penerapannya dilakukan dengan menggunakan dua fungsi bawaan), dan telah lama terbukti efektif.

Metode kuadrat terkecil

Di Excel, seperti yang Anda ketahui, ada fungsi autosum bawaan yang memungkinkan Anda menghitung nilai dari semua nilai yang terletak di rentang yang dipilih. Jadi, tidak ada yang menghalangi kita untuk menghitung nilai ekspresi (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

Dalam notasi matematika, ini terlihat seperti:

Karena keputusan awalnya dibuat untuk mendekati menggunakan garis lurus, kami memiliki:

Jadi, tugas untuk menemukan garis lurus yang paling menggambarkan hubungan spesifik antara X dan Y sama dengan menghitung minimum fungsi dua variabel:

Ini membutuhkan persamaan dengan turunan parsial nol sehubungan dengan variabel baru a dan b, dan menyelesaikan sistem primitif yang terdiri dari dua persamaan dengan 2 bentuk yang tidak diketahui:

Setelah transformasi sederhana, termasuk membaginya dengan 2 dan memanipulasi jumlahnya, kita mendapatkan:

Memecahkannya, misalnya dengan metode Cramer, kita memperoleh titik stasioner dengan koefisien tertentu a * dan b * . Ini minimum, yaitu untuk memprediksi berapa omset toko untuk area tertentu, garis lurus y = a * x + b * cocok, yang merupakan model regresi untuk contoh yang dimaksud. Tentu saja, ini tidak akan memungkinkan Anda menemukan hasil yang pasti, tetapi ini akan membantu Anda mendapatkan gambaran apakah membeli toko secara kredit untuk area tertentu akan terbayar.

Cara menerapkan metode kuadrat terkecil di Excel

Excel memiliki fungsi untuk menghitung nilai kuadrat terkecil. Ini memiliki bentuk berikut: TREND (nilai Y yang diketahui; nilai X yang diketahui; nilai X baru; konstanta). Mari terapkan rumus untuk menghitung OLS di Excel ke tabel kita.

Untuk melakukan ini, di sel di mana hasil perhitungan menggunakan metode kuadrat terkecil di Excel harus ditampilkan, masukkan tanda "=" dan pilih fungsi "TREND". Di jendela yang terbuka, isi kolom yang sesuai, sorot:

  • rentang nilai yang diketahui untuk Y (dalam hal ini data untuk turnover);
  • rentang x 1 , …x n , yaitu ukuran ruang ritel;
  • dan nilai x yang diketahui dan tidak diketahui, yang perlu Anda ketahui ukuran omsetnya (untuk informasi tentang lokasinya di lembar kerja, lihat di bawah).

Selain itu, ada variabel logis "Const" di dalam rumus. Jika Anda memasukkan 1 di bidang yang sesuai dengannya, ini berarti bahwa perhitungan harus dilakukan, dengan asumsi bahwa b \u003d 0.

Jika Anda perlu mengetahui ramalan lebih dari satu nilai x, maka setelah memasukkan rumus, Anda tidak boleh menekan "Enter", tetapi Anda perlu mengetikkan kombinasi "Shift" + "Control" + "Enter" ("Enter" ) pada keyboard.

Beberapa Fitur

Analisis regresi dapat diakses bahkan oleh boneka. Rumus Excel untuk memprediksi nilai array variabel yang tidak diketahui - "TREND" - dapat digunakan bahkan oleh mereka yang belum pernah mendengar metode kuadrat terkecil. Cukup mengetahui beberapa fitur pekerjaannya. Secara khusus:

  • Jika Anda menempatkan rentang nilai variabel y yang diketahui dalam satu baris atau kolom, maka setiap baris (kolom) dengan nilai x yang diketahui akan dianggap oleh program sebagai variabel terpisah.
  • Jika rentang dengan x yang diketahui tidak ditentukan di jendela TREND, maka jika menggunakan fungsi di Excel, program akan menganggapnya sebagai larik yang terdiri dari bilangan bulat, yang jumlahnya sesuai dengan rentang dengan nilai yang diberikan. dari variabel y.
  • Untuk menampilkan larik nilai "prediksi", ekspresi tren harus dimasukkan sebagai rumus larik.
  • Jika tidak ada nilai x baru yang ditentukan, maka fungsi TREND menganggapnya sama dengan yang diketahui. Jika tidak ditentukan, maka larik 1 diambil sebagai argumen; 2; 3; 4;…, yang sepadan dengan rentang dengan parameter yang sudah diberikan y.
  • Rentang yang berisi nilai x baru harus memiliki baris atau kolom yang sama atau lebih sebagai rentang dengan nilai y yang diberikan. Dengan kata lain, itu harus proporsional dengan variabel independen.
  • Array dengan nilai x yang diketahui dapat berisi banyak variabel. Namun, jika kita hanya berbicara tentang satu, maka rentang dengan nilai x dan y yang diberikan harus sepadan. Dalam kasus beberapa variabel, rentang dengan nilai y yang diberikan harus sesuai dengan satu kolom atau satu baris.

fungsi PERKIRAAN

Ini diimplementasikan menggunakan beberapa fungsi. Salah satunya disebut "PREDIKSI". Ini mirip dengan TREND, yaitu memberikan hasil perhitungan menggunakan metode kuadrat terkecil. Namun, hanya untuk satu X, yang nilai Y tidak diketahui.

Sekarang Anda mengetahui rumus Excel untuk boneka yang memungkinkan Anda memprediksi nilai nilai masa depan suatu indikator menurut tren linier.

Masalahnya adalah menemukan koefisien ketergantungan linier yang merupakan fungsi dari dua variabel A Dan B mengambil nilai terkecil. Artinya, mengingat datanya A Dan B jumlah simpangan kuadrat dari data eksperimen dari garis lurus yang ditemukan akan menjadi yang terkecil. Ini adalah inti dari metode kuadrat terkecil.

Dengan demikian, solusi dari contoh tersebut direduksi menjadi mencari nilai ekstrem dari suatu fungsi dari dua variabel.

Penurunan rumus untuk mencari koefisien. Sistem dua persamaan dengan dua yang tidak diketahui dikompilasi dan diselesaikan. Menemukan turunan parsial dari fungsi oleh variabel A Dan B, kita samakan turunan ini dengan nol.

Kami menyelesaikan sistem persamaan yang dihasilkan dengan metode apa pun (misalnya, metode substitusi atau metode Cramer) dan mendapatkan rumus untuk menemukan koefisien menggunakan metode kuadrat terkecil (LSM).

Dengan data A Dan B fungsi mengambil nilai terkecil.

Itulah keseluruhan metode kuadrat terkecil. Rumus untuk menemukan parameter A berisi jumlah , , , dan parameter N- jumlah data percobaan. Nilai jumlah ini direkomendasikan untuk dihitung secara terpisah. Koefisien B ditemukan setelah perhitungan A.

Area utama penerapan polinomial tersebut adalah pemrosesan data eksperimen (pembuatan rumus empiris). Faktanya adalah bahwa polinomial interpolasi yang dibangun dari nilai-nilai fungsi yang diperoleh dengan bantuan percobaan akan sangat dipengaruhi oleh "noise eksperimental", terlebih lagi, selama interpolasi, node interpolasi tidak dapat diulang, mis. Anda tidak dapat menggunakan hasil percobaan berulang dalam kondisi yang sama. Polinomial root-mean-square menghaluskan kebisingan dan memungkinkan untuk menggunakan hasil dari beberapa eksperimen.

Integrasi dan diferensiasi numerik. Contoh.

Integrasi numerik- perhitungan nilai integral tertentu (sebagai aturan, perkiraan). Integrasi numerik dipahami sebagai sekumpulan metode numerik untuk menemukan nilai integral tertentu.

Diferensiasi numerik– sekumpulan metode untuk menghitung nilai turunan dari fungsi yang diberikan secara diskrit.

Integrasi

Perumusan masalah. Pernyataan matematis dari masalah: perlu untuk menemukan nilai integral tertentu

di mana a, b berhingga, f(x) kontinu di [а, b].

Saat memecahkan masalah praktis, sering terjadi bahwa integral tidak nyaman atau tidak mungkin diambil secara analitik: mungkin tidak dinyatakan dalam fungsi elementer, integral dapat diberikan dalam bentuk tabel, dll. Dalam kasus seperti itu, metode integrasi numerik adalah digunakan. Metode integrasi numerik menggunakan penggantian luas trapesium lengkung dengan jumlah terbatas luas bentuk geometris sederhana yang dapat dihitung dengan tepat. Dalam pengertian ini orang berbicara tentang penggunaan rumus kuadratur.

Sebagian besar metode menggunakan representasi integral sebagai jumlah terbatas (rumus kuadratur):

Rumus kuadratur didasarkan pada gagasan untuk mengganti grafik integral pada interval integrasi dengan fungsi bentuk yang lebih sederhana, yang dapat dengan mudah diintegrasikan secara analitik dan, dengan demikian, mudah dihitung. Tugas paling sederhana untuk menyusun rumus kuadrat direalisasikan untuk model matematika polinomial.

Tiga kelompok metode dapat dibedakan:

1. Metode dengan pembagian segmen integrasi menjadi interval yang sama. Pembagian interval dilakukan terlebih dahulu, biasanya interval dipilih sama (agar lebih mudah menghitung fungsi di ujung interval). Hitung luas dan jumlahkan (metode persegi panjang, trapesium, Simpson).

2. Metode partisi segmen integrasi menggunakan titik khusus (metode Gauss).

3. Perhitungan integral dengan menggunakan bilangan acak (metode Monte Carlo).

Metode persegi panjang. Biarkan fungsi (menggambar) diintegrasikan secara numerik pada segmen . Kami membagi segmen menjadi N interval yang sama. Luas masing-masing trapesium lengkung N dapat diganti dengan luas persegi panjang.

Lebar semua persegi panjang adalah sama dan sama dengan:

Sebagai pilihan tinggi persegi panjang, Anda dapat memilih nilai fungsi di tepi kiri. Dalam hal ini, tinggi persegi panjang pertama adalah f(a), yang kedua adalah f(x 1),…, N-f(N-1).

Jika kita mengambil nilai fungsi di batas kanan sebagai pilihan tinggi persegi panjang, maka dalam hal ini tinggi persegi panjang pertama adalah f (x 1), yang kedua - f (x 2), . .., N - f (x N).

Seperti dapat dilihat, dalam hal ini salah satu rumus memberikan perkiraan integral dengan kelebihan, dan yang kedua dengan kekurangan. Ada cara lain - menggunakan nilai fungsi di tengah segmen integrasi untuk perkiraan:

Estimasi kesalahan absolut dari metode persegi panjang (tengah)

Estimasi kesalahan absolut dari metode persegi panjang kiri dan kanan.

Contoh. Hitung untuk seluruh interval dan membagi interval menjadi empat bagian

Larutan. Perhitungan analitis dari integral ini menghasilkan I=arctg(1)–arctg(0)=0,7853981634. Dalam kasus kami:

1) jam = 1; xo = 0; x1 = 1;

2) jam = 0,25 (1/4); x0 = 0; x1 = 0,25; x2 = 0,5; x3 = 0,75; x4 = 1;

Kami menghitung dengan metode persegi panjang kiri:

Kami menghitung dengan metode persegi panjang kanan:

Hitung dengan metode persegi panjang rata-rata:

Metode trapesium. Menggunakan polinomial tingkat pertama untuk interpolasi (garis lurus yang ditarik melalui dua titik) mengarah ke rumus trapesium. Ujung segmen integrasi diambil sebagai node interpolasi. Dengan demikian, trapesium lengkung diganti dengan trapesium biasa, yang luasnya dapat ditemukan sebagai produk dari setengah jumlah alas dan tingginya

Dalam kasus N segmen integrasi untuk semua node, kecuali untuk titik ekstrem segmen, nilai fungsi akan dimasukkan dalam jumlah total dua kali (karena trapesium tetangga memiliki satu sisi yang sama)

Rumus trapesium dapat diperoleh dengan mengambil setengah dari jumlah rumus persegi panjang di sepanjang tepi kanan dan kiri segmen:

Memeriksa stabilitas larutan. Sebagai aturan, semakin pendek panjang setiap interval, mis. semakin besar jumlah interval ini, semakin kecil perbedaan antara perkiraan dan nilai pasti dari integral tersebut. Ini berlaku untuk sebagian besar fungsi. Dalam metode trapesium, kesalahan dalam menghitung integral ϭ kira-kira sebanding dengan kuadrat langkah integrasi (ϭ ~ h 2) Jadi, untuk menghitung integral suatu fungsi dalam batas a, b, perlu bagi segmen menjadi interval N 0 dan temukan jumlah luas trapesium. Kemudian Anda perlu menambah jumlah interval N 1, hitung lagi jumlah trapesium dan bandingkan nilai yang dihasilkan dengan hasil sebelumnya. Ini harus diulang sampai (N i) sampai akurasi hasil yang ditentukan (kriteria konvergensi) tercapai.

Untuk metode persegi panjang dan trapesium, biasanya pada setiap langkah iterasi, jumlah interval bertambah dengan faktor 2 (N i +1 = 2N i).

Kriteria konvergensi:

Keuntungan utama dari aturan trapesium adalah kesederhanaannya. Namun, jika integrasi membutuhkan presisi tinggi, metode ini mungkin membutuhkan terlalu banyak iterasi.

Kesalahan mutlak dari metode trapesium dinilai sebagai
.

Contoh. Hitunglah integral kira-kira tertentu dengan menggunakan rumus trapesium.

a) Membagi segmen integrasi menjadi 3 bagian.
b) Membagi segmen integrasi menjadi 5 bagian.

Larutan:
a) Dengan syarat, segmen integrasi harus dibagi menjadi 3 bagian, yaitu.
Hitung panjang setiap segmen partisi: .

Dengan demikian, rumus umum trapesium direduksi menjadi ukuran yang menyenangkan:

Akhirnya:

Saya mengingatkan Anda bahwa nilai yang dihasilkan adalah nilai perkiraan dari luas tersebut.

b) Kami membagi segmen integrasi menjadi 5 bagian yang sama, yaitu . dengan menambah jumlah segmen, kami meningkatkan keakuratan perhitungan.

Jika , maka rumus trapesium berbentuk sebagai berikut:

Mari temukan langkah mempartisi:
, yaitu panjang setiap ruas antara adalah 0,6.

Saat menyelesaikan tugas, akan lebih mudah untuk menyusun semua perhitungan dengan tabel perhitungan:

Di baris pertama kita tulis "counter"

Sebagai akibat:

Nah, memang ada klarifikasi, dan yang serius!
Kalau untuk partisi 3 ruas, maka untuk 5 ruas. Jika Anda mengambil lebih banyak segmen => akan lebih akurat.

rumus simpson. Rumus trapesium memberikan hasil yang sangat bergantung pada ukuran langkah h, yang memengaruhi keakuratan penghitungan integral tertentu, terutama dalam kasus fungsi nonmonotonik. Seseorang dapat mengasumsikan peningkatan keakuratan perhitungan jika, alih-alih segmen garis lurus yang menggantikan fragmen kurvalinier dari grafik fungsi f(x), kami menggunakan, misalnya, fragmen parabola yang diberikan melalui tiga titik tetangga dari grafik . Penafsiran geometris serupa mendasari metode Simpson untuk menghitung integral tertentu. Seluruh interval integrasi a,b dibagi menjadi N segmen, panjang segmen juga akan sama dengan h=(b-a)/N.

Rumus Simpson adalah:

istilah sisa

Dengan bertambahnya panjang segmen, akurasi rumus menurun, oleh karena itu untuk meningkatkan akurasi digunakan rumus komposit Simpson. Seluruh interval integrasi dibagi menjadi sejumlah genap segmen identik N, panjang segmen juga akan sama dengan h=(b-a)/N. Rumus komposit Simpson adalah:

Dalam rumus, ekspresi dalam tanda kurung adalah jumlah nilai integral, masing-masing, di ujung segmen internal ganjil dan genap.

Suku sisa dari rumus Simpson sudah sebanding dengan pangkat empat langkah:

Contoh: Hitung integralnya menggunakan aturan Simpson. (Solusi tepat - 0,2)

metode Gauss

Rumus kuadrat dari Gauss. Prinsip dasar rumus kuadrat dari varietas kedua terlihat dari Gambar 1.12: titik-titik harus ditempatkan sedemikian rupa X 0 dan X 1 di dalam segmen [ A;B] sehingga luas total "segitiga" sama dengan luas "ruas". Saat menggunakan rumus Gauss, segmen awal [ A;B] dikurangi menjadi interval [-1;1] dengan mengubah variabel X pada

0.5∙(BA)∙T+ 0.5∙(B + A).

Kemudian , Di mana .

Pergantian ini dimungkinkan jika A Dan B berhingga, dan fungsinya F(X) kontinu pada [ A;B]. rumus Gauss untuk N poin x saya, Saya=0,1,..,N-1 di dalam segmen [ A;B]:

, (1.27)

Di mana t i Dan aku untuk berbagai N diberikan dalam buku referensi. Misalnya, kapan N=2 A 0 =A 1=1; pada N=3: T 0 = t 2" 0,775, T 1 =0, A 0 =A 2" 0,555, A 1" 0,889.

Rumus kuadrat dari Gauss

diperoleh dengan fungsi bobot sama dengan satu p(x)= 1 dan node x saya, yang merupakan akar dari polinomial Legendre

Kemungkinan aku mudah dihitung dengan rumus

Saya=0,1,2,...N.

Nilai simpul dan koefisien untuk n=2,3,4,5 diberikan dalam tabel

Memesan Simpul Kemungkinan
N=2 x 1=0 x 0 =-x2=0.7745966692 A 1=8/9 A 0 = A 2=5/9
N=3 x 2 =-x 1=0.3399810436 x 3 =-x0=0.8611363116 A1 = A2=0.6521451549 A 0 = A 3=0.6521451549
n=4 X 2 = 0 X 3 = -X 1 = 0.5384693101 X 4 =-X 0 =0.9061798459 A 0 =0.568888899 A 3 =A 1 =0.4786286705 A 0 =A 4 =0.2869268851
N=5 X 5 = -X 0 =0.9324695142 X 4 = -X 1 =0.6612093865 X 3 = -X 2 =0.2386191861 A 5 =A 0 =0.1713244924 A 4 =A 1 =0.3607615730 A 3 =A 2 =0.4679139346

Contoh. Hitung nilainya menggunakan rumus Gauss untuk N=2:

Nilai yang tepat: .

Algoritme untuk menghitung integral menurut rumus Gauss menyediakan bukan untuk menggandakan jumlah mikrosegmen, tetapi untuk menambah jumlah koordinat dengan 1 dan membandingkan nilai integral yang diperoleh. Keunggulan dari rumus Gauss adalah akurasi yang tinggi dengan jumlah ordinat yang relatif kecil. Kekurangan: tidak nyaman untuk perhitungan manual; harus disimpan dalam memori komputer t i, aku untuk berbagai N.

Kesalahan rumus quadrature Gauss pada segmen akan pada saat yang sama Untuk rumus suku sisa akan di mana koefisien α N menurun dengan cepat seiring dengan pertumbuhan N. Di Sini

Rumus Gauss memberikan akurasi tinggi dengan jumlah simpul yang kecil (dari 4 hingga 10) Dalam hal ini, dalam perhitungan praktis, jumlah simpul berkisar dari beberapa ratus hingga beberapa ribu. Kami juga mencatat bahwa bobot kuadratur Gaussian selalu positif, yang memastikan stabilitas algoritme untuk menghitung penjumlahan

Metode kuadrat terkecil (LSM) memungkinkan Anda memperkirakan berbagai kuantitas menggunakan hasil dari banyak pengukuran yang mengandung kesalahan acak.

MNC karakteristik

Gagasan utama dari metode ini adalah bahwa jumlah kesalahan kuadrat dianggap sebagai kriteria keakuratan solusi dari masalah, yang diupayakan untuk diminimalkan. Saat menggunakan metode ini, pendekatan numerik dan analitik dapat diterapkan.

Secara khusus, sebagai implementasi numerik, metode kuadrat terkecil menyiratkan membuat sebanyak mungkin pengukuran variabel acak yang tidak diketahui. Selain itu, semakin banyak perhitungan, semakin akurat solusinya. Pada set perhitungan ini (data awal), satu set solusi yang diusulkan diperoleh, dari mana yang terbaik dipilih. Jika himpunan solusi diparametrikan, maka metode kuadrat terkecil akan direduksi untuk menemukan nilai optimal dari parameter.

Sebagai pendekatan analitis implementasi LSM pada himpunan data awal (pengukuran) dan himpunan solusi yang diusulkan, beberapa (fungsional) didefinisikan, yang dapat dinyatakan dengan rumus yang diperoleh sebagai hipotesis tertentu yang perlu dikonfirmasi. Dalam hal ini, metode kuadrat terkecil direduksi menjadi menemukan minimum fungsional ini pada himpunan kesalahan kuadrat dari data awal.

Perhatikan bahwa bukan kesalahan itu sendiri, tetapi kuadrat dari kesalahan tersebut. Mengapa? Faktanya adalah bahwa sering kali penyimpangan pengukuran dari nilai pastinya bersifat positif dan negatif. Saat menentukan rata-rata, penjumlahan sederhana dapat mengarah pada kesimpulan yang salah tentang kualitas estimasi, karena saling membatalkan nilai positif dan negatif akan mengurangi kekuatan pengambilan sampel dari kumpulan pengukuran. Dan, akibatnya, keakuratan penilaian.

Untuk mencegah hal ini terjadi, simpangan kuadrat dijumlahkan. Bahkan lebih dari itu, untuk menyetarakan dimensi nilai terukur dan perkiraan akhir, digunakan penjumlahan kesalahan kuadrat untuk mengekstraksi

Beberapa aplikasi MNC

MNC banyak digunakan di berbagai bidang. Misalnya, dalam teori probabilitas dan statistik matematika, metode ini digunakan untuk menentukan karakteristik variabel acak seperti standar deviasi, yang menentukan lebar rentang nilai variabel acak.

Perkiraan data eksperimen adalah metode yang didasarkan pada penggantian data yang diperoleh secara eksperimental dengan fungsi analitik yang paling dekat melewati atau bertepatan pada titik nodal dengan nilai awal (data diperoleh selama eksperimen atau eksperimen). Saat ini ada dua cara untuk mendefinisikan fungsi analitik:

Dengan membangun polinomial interpolasi n-derajat yang lolos langsung melalui semua titik array data yang diberikan. Dalam hal ini, fungsi pendekatan direpresentasikan sebagai: polinomial interpolasi dalam bentuk Lagrange atau polinomial interpolasi dalam bentuk Newton.

Dengan membangun polinomial mendekati n-derajat yang lolos dekat dengan poin dari array data yang diberikan. Dengan demikian, fungsi perkiraan memuluskan semua gangguan acak (atau kesalahan) yang mungkin terjadi selama percobaan: nilai terukur selama percobaan bergantung pada faktor acak yang berfluktuasi menurut hukum acaknya sendiri (kesalahan pengukuran atau instrumen, ketidakakuratan atau kesalahan eksperimental). kesalahan). Dalam hal ini, fungsi pendekatan ditentukan dengan metode kuadrat terkecil.

Metode kuadrat terkecil(dalam literatur Inggris Ordinary Least Squares, OLS) adalah metode matematika yang didasarkan pada definisi fungsi perkiraan, yang dibangun paling dekat dengan titik-titik dari larik data eksperimen yang diberikan. Kedekatan fungsi awal dan fungsi aproksimasi F(x) ditentukan dengan ukuran numerik, yaitu: jumlah deviasi kuadrat dari data eksperimen dari kurva aproksimasi F(x) harus yang terkecil.

Kurva pas dibangun dengan metode kuadrat terkecil

Metode kuadrat terkecil digunakan:

Untuk menyelesaikan sistem persamaan overdetermined ketika jumlah persamaan melebihi jumlah yang tidak diketahui;

Untuk mencari solusi dalam kasus sistem persamaan nonlinear biasa (tidak overdetermined);

Untuk perkiraan nilai titik oleh beberapa fungsi perkiraan.

Fungsi aproksimasi dengan metode kuadrat terkecil ditentukan dari kondisi jumlah minimum simpangan kuadrat dari fungsi aproksimasi yang dihitung dari larik data eksperimen tertentu. Kriteria metode kuadrat terkecil ini ditulis sebagai ekspresi berikut:

Nilai dari fungsi perkiraan yang dihitung pada titik nodal ,

Susunan data eksperimen yang ditentukan pada titik nodal .

Kriteria kuadrat memiliki sejumlah sifat yang "baik", seperti kemampuan membedakan, memberikan solusi unik untuk masalah pendekatan dengan fungsi pendekatan polinomial.

Bergantung pada kondisi soal, fungsi yang mendekati adalah polinomial berderajat m

Derajat fungsi aproksimasi tidak bergantung pada jumlah titik nodal, tetapi dimensinya harus selalu lebih kecil dari dimensi (jumlah titik) dari larik data eksperimen yang diberikan.

∙ Jika derajat dari fungsi yang mendekati adalah m=1, maka kita mengaproksimasikan tabel fungsi dengan garis lurus (regresi linier).

∙ Jika derajat dari fungsi yang mendekati adalah m=2, maka kita mengaproksimasikan tabel fungsi tersebut dengan parabola kuadrat (aproksimasi kuadrat).

∙ Jika derajat dari fungsi yang mendekati adalah m=3, maka kita mengaproksimasikan tabel fungsi tersebut dengan parabola kubik (perkiraan kubik).

Dalam kasus umum, ketika diperlukan untuk membangun polinomial yang mendekati derajat m untuk nilai tabel yang diberikan, kondisi untuk jumlah minimum kuadrat simpangan dari semua titik nodal ditulis ulang dalam bentuk berikut:

- koefisien yang tidak diketahui dari polinomial yang mendekati derajat m;

Jumlah nilai tabel yang ditentukan.

Kondisi yang diperlukan untuk keberadaan minimum suatu fungsi adalah persamaan turunan parsialnya dengan nol sehubungan dengan variabel yang tidak diketahui . Hasilnya, kami memperoleh sistem persamaan berikut:

Mari kita ubah sistem persamaan linier yang dihasilkan: buka tanda kurung dan pindahkan suku bebasnya ke sisi kanan ekspresi. Akibatnya, sistem ekspresi aljabar linier yang dihasilkan akan ditulis dalam bentuk berikut:

Sistem ekspresi aljabar linier ini dapat ditulis ulang dalam bentuk matriks:

Hasilnya, diperoleh sistem persamaan linier berdimensi m + 1, yang terdiri dari m + 1 yang tidak diketahui. Sistem ini dapat diselesaikan dengan menggunakan metode apa pun untuk menyelesaikan persamaan aljabar linier (misalnya, metode Gauss). Sebagai hasil dari solusi, parameter yang tidak diketahui dari fungsi pendekatan akan ditemukan yang memberikan jumlah minimum kuadrat deviasi dari fungsi pendekatan dari data asli, yaitu. pendekatan kuadrat terbaik. Harus diingat bahwa jika bahkan satu nilai dari data awal berubah, semua koefisien akan mengubah nilainya, karena semuanya ditentukan oleh data awal.

Perkiraan data awal dengan ketergantungan linier

(regresi linier)

Sebagai contoh, pertimbangkan metode untuk menentukan fungsi hampiran, yang diberikan sebagai hubungan linier. Sesuai dengan metode kuadrat terkecil, syarat jumlah simpangan kuadrat minimum ditulis sebagai berikut:

Koordinat titik nodal tabel;

Koefisien tak diketahui dari fungsi perkiraan, yang diberikan sebagai hubungan linier.

Kondisi yang diperlukan untuk keberadaan minimum suatu fungsi adalah persamaan turunan parsialnya dengan nol sehubungan dengan variabel yang tidak diketahui. Hasilnya, kami memperoleh sistem persamaan berikut:

Mari kita ubah sistem persamaan linear yang dihasilkan.

Kami memecahkan sistem persamaan linier yang dihasilkan. Koefisien fungsi perkiraan dalam bentuk analitik ditentukan sebagai berikut (metode Cramer):

Koefisien ini memberikan konstruksi fungsi aproksimasi linier sesuai dengan kriteria untuk meminimalkan jumlah kuadrat dari fungsi aproksimasi dari nilai tabular yang diberikan (data eksperimen).

Algoritma untuk menerapkan metode kuadrat terkecil

1. Data awal:

Diberi array data eksperimen dengan jumlah pengukuran N

Derajat polinomial yang mendekati (m) diberikan

2. Algoritma perhitungan:

2.1. Koefisien ditentukan untuk membangun sistem persamaan dengan dimensi

Koefisien sistem persamaan (sisi kiri persamaan)

- indeks nomor kolom matriks kuadrat dari sistem persamaan

Anggota bebas dari sistem persamaan linear (sisi kanan persamaan)

- indeks nomor baris matriks kuadrat dari sistem persamaan

2.2. Pembentukan sistem persamaan linier dengan dimensi .

2.3. Solusi dari sistem persamaan linier untuk menentukan koefisien yang tidak diketahui dari polinomial yang mendekati derajat m.

2.4 Penentuan jumlah simpangan kuadrat dari polinomial yang mendekati dari nilai awal pada semua titik nodal

Nilai yang ditemukan dari jumlah simpangan kuadrat adalah seminimal mungkin.

Perkiraan dengan Fungsi Lain

Perlu dicatat bahwa ketika mendekati data awal sesuai dengan metode kuadrat terkecil, fungsi logaritma, fungsi eksponensial, dan fungsi pangkat kadang-kadang digunakan sebagai fungsi perkiraan.

Perkiraan log

Pertimbangkan kasus ketika fungsi perkiraan diberikan oleh fungsi logaritmik dari bentuk:

Metode kuadrat terkecil

Metode kuadrat terkecil ( MNK, OLS, Kuadrat Terkecil Biasa) - salah satu metode dasar analisis regresi untuk memperkirakan parameter model regresi yang tidak diketahui dari data sampel. Metode ini didasarkan pada meminimalkan jumlah kuadrat residu regresi.

Perlu dicatat bahwa metode kuadrat terkecil itu sendiri dapat disebut sebagai metode untuk menyelesaikan masalah di area mana pun, jika solusinya terdiri dari atau memenuhi kriteria tertentu untuk meminimalkan jumlah kuadrat dari beberapa fungsi dari variabel yang tidak diketahui. Oleh karena itu, metode kuadrat terkecil juga dapat digunakan untuk perkiraan representasi (perkiraan) dari fungsi yang diberikan oleh fungsi lain (lebih sederhana), ketika menemukan sekumpulan besaran yang memenuhi persamaan atau batasan, yang jumlahnya melebihi jumlah besaran tersebut. , dll.

Inti dari MNC

Biarkan beberapa model (parametrik) ketergantungan probabilistik (regresi) antara variabel (dijelaskan). y dan banyak faktor (variabel penjelas) X

di mana adalah vektor dari parameter model yang tidak diketahui

- Kesalahan model acak.

Biarlah ada juga sampel pengamatan dari nilai-nilai variabel yang ditunjukkan. Membiarkan menjadi nomor observasi (). Kemudian adalah nilai-nilai variabel pada pengamatan ke -th. Kemudian, untuk nilai parameter b yang diberikan, dimungkinkan untuk menghitung nilai teoritis (model) dari variabel yang dijelaskan y:

Nilai residual tergantung dari nilai parameter b.

Inti dari LSM (biasa, klasik) adalah menemukan parameter b yang jumlah kuadrat dari residunya (eng. Jumlah Sisa Kuadrat) akan minimal:

Dalam kasus umum, masalah ini dapat diselesaikan dengan metode numerik optimasi (minimisasi). Dalam hal ini, seseorang berbicara tentang kuadrat terkecil nonlinier(NLS atau NLLS - Bahasa Inggris. Kuadrat Terkecil Non Linear). Dalam banyak kasus, solusi analitik dapat diperoleh. Untuk menyelesaikan masalah minimisasi, perlu untuk menemukan titik stasioner dari fungsi dengan membedakannya sehubungan dengan parameter yang tidak diketahui b, menyamakan turunannya dengan nol, dan menyelesaikan sistem persamaan yang dihasilkan:

Jika kesalahan acak model terdistribusi normal, memiliki varians yang sama, dan tidak berkorelasi satu sama lain, estimasi parameter kuadrat terkecil sama dengan estimasi metode kemungkinan maksimum (MLM).

LSM dalam kasus model linier

Biarkan ketergantungan regresi menjadi linier:

Membiarkan y- vektor kolom pengamatan dari variabel yang dijelaskan, dan - matriks pengamatan faktor (baris matriks - vektor nilai faktor dalam pengamatan tertentu, dengan kolom - vektor nilai faktor tertentu dalam semua pengamatan) . Representasi matriks dari model linier memiliki bentuk:

Kemudian vektor estimasi variabel yang dijelaskan dan vektor residu regresi akan sama

karenanya, jumlah kuadrat dari residu regresi akan sama dengan

Membedakan fungsi ini sehubungan dengan vektor parameter dan menyamakan turunannya dengan nol, kami memperoleh sistem persamaan (dalam bentuk matriks):

.

Solusi dari sistem persamaan ini memberikan rumus umum untuk perkiraan kuadrat terkecil untuk model linier:

Untuk tujuan analitis, representasi terakhir dari rumus ini ternyata bermanfaat. Jika data dalam model regresi terpusat, maka dalam representasi ini matriks pertama memiliki arti matriks kovarians sampel faktor, dan yang kedua adalah vektor kovarians faktor dengan variabel dependen. Jika, selain itu, datanya juga dinormalisasi di SKO (yaitu, pada akhirnya terstandarisasi), maka matriks pertama memiliki arti matriks korelasi sampel faktor, vektor kedua - vektor korelasi sampel faktor dengan variabel dependen.

Properti penting estimasi LLS untuk model dengan konstanta- garis regresi yang dibangun melewati pusat gravitasi data sampel, yaitu persamaan terpenuhi:

Secara khusus, dalam kasus ekstrim, ketika satu-satunya regressor adalah konstanta, kami menemukan bahwa estimasi OLS dari parameter tunggal (konstanta itu sendiri) sama dengan nilai rata-rata dari variabel yang dijelaskan. Yaitu, rata-rata aritmatika, yang dikenal karena sifat baiknya dari hukum bilangan besar, juga merupakan perkiraan kuadrat terkecil - memenuhi kriteria untuk jumlah minimum penyimpangan kuadrat darinya.

Contoh: regresi sederhana (berpasangan).

Dalam kasus regresi linier berpasangan, rumus perhitungan disederhanakan (Anda dapat melakukannya tanpa aljabar matriks):

Properti perkiraan OLS

Pertama-tama, kami mencatat bahwa untuk model linier, perkiraan kuadrat terkecil adalah perkiraan linier, sebagai berikut dari rumus di atas. Untuk estimasi OLS yang tidak bias, perlu dan cukup untuk memenuhi syarat terpenting analisis regresi: ekspektasi matematis dari kesalahan acak yang tergantung pada faktor harus sama dengan nol. Kondisi ini terpenuhi, khususnya jika

  1. ekspektasi matematis dari kesalahan acak adalah nol, dan
  2. faktor dan kesalahan acak adalah variabel acak independen.

Kondisi kedua - kondisi faktor eksogen - bersifat fundamental. Jika sifat ini tidak terpenuhi, maka kita dapat berasumsi bahwa hampir semua perkiraan akan sangat tidak memuaskan: perkiraan tersebut bahkan tidak akan konsisten (yaitu, bahkan jumlah data yang sangat besar tidak memungkinkan untuk memperoleh perkiraan kualitatif dalam kasus ini). Dalam kasus klasik, asumsi yang lebih kuat dibuat tentang determinisme faktor, berbeda dengan kesalahan acak, yang secara otomatis berarti kondisi eksogen terpenuhi. Dalam kasus umum, untuk konsistensi perkiraan, cukup untuk memenuhi kondisi eksogen bersama dengan konvergensi matriks ke beberapa matriks non-singular dengan peningkatan ukuran sampel hingga tak terhingga.

Agar, selain konsistensi dan ketidakberpihakan, estimasi kuadrat terkecil (biasa) juga efektif (yang terbaik di kelas estimasi tak bias linier), properti tambahan dari kesalahan acak harus dipenuhi:

Asumsi ini dapat dirumuskan untuk matriks kovarians dari vektor kesalahan acak

Model linear yang memenuhi kondisi ini disebut klasik. Estimasi OLS untuk regresi linier klasik adalah estimasi yang tidak bias, konsisten, dan paling efisien di kelas semua estimasi tidak bias linier (dalam literatur bahasa Inggris, singkatan terkadang digunakan biru (Estimator Unbaised Linear Terbaik) adalah estimasi tak bias linier terbaik; dalam literatur domestik, teorema Gauss-Markov lebih sering dikutip). Seperti yang mudah ditunjukkan, matriks kovarian dari vektor estimasi koefisien akan sama dengan:

Kuadrat terkecil yang digeneralisasikan

Metode kuadrat terkecil memungkinkan generalisasi yang luas. Alih-alih meminimalkan jumlah kuadrat dari residu, seseorang dapat meminimalkan beberapa bentuk kuadrat pasti positif dari vektor residu , di mana beberapa matriks bobot pasti positif simetris. Kuadrat terkecil biasa adalah kasus khusus dari pendekatan ini, ketika matriks bobot sebanding dengan matriks identitas. Seperti diketahui dari teori matriks simetris (atau operator), ada dekomposisi untuk matriks tersebut. Oleh karena itu, fungsional yang ditentukan dapat direpresentasikan sebagai berikut, yaitu, fungsional ini dapat direpresentasikan sebagai jumlah kuadrat dari beberapa "residu" yang diubah. Dengan demikian, kita dapat membedakan kelas metode kuadrat terkecil - metode LS (Kuadrat Terkecil).

Terbukti (teorema Aitken) bahwa untuk model regresi linier umum (di mana tidak ada batasan yang dikenakan pada matriks kovarian kesalahan acak), yang paling efektif (dalam kelas estimasi tak bias linier) adalah estimasi yang disebut. OLS umum (OMNK, GLS - Kuadrat Terkecil Umum)- Metode LS dengan matriks bobot sama dengan matriks kovarians terbalik dari kesalahan acak: .

Dapat ditunjukkan bahwa rumus estimasi GLS dari parameter model linier memiliki bentuk

Matriks kovarian dari perkiraan ini, masing-masing, akan sama dengan

Faktanya, inti dari OLS terletak pada transformasi (linier) tertentu (P) dari data asli dan penerapan kuadrat terkecil biasa ke data yang diubah. Tujuan dari transformasi ini adalah agar data yang ditransformasikan, kesalahan acak sudah memenuhi asumsi klasik.

Kuadrat terkecil tertimbang

Dalam kasus matriks bobot diagonal (dan karenanya matriks kovarian kesalahan acak), kita memiliki apa yang disebut kuadrat terkecil tertimbang (WLS - Kuadrat Terkecil Tertimbang). Dalam hal ini, jumlah kuadrat tertimbang dari residual model diminimalkan, yaitu, setiap pengamatan menerima "bobot" yang berbanding terbalik dengan varian kesalahan acak dalam pengamatan ini: . Faktanya, data diubah dengan memberi bobot pada pengamatan (dibagi dengan jumlah yang sebanding dengan standar deviasi yang diasumsikan dari kesalahan acak), dan kuadrat terkecil normal diterapkan pada data yang diberi bobot.

Beberapa kasus khusus penerapan LSM dalam praktek

Perkiraan Linear

Pertimbangkan kasus ketika, sebagai hasil dari mempelajari ketergantungan kuantitas skalar tertentu pada kuantitas skalar tertentu (Ini dapat berupa, misalnya, ketergantungan tegangan pada kekuatan arus: , di mana adalah nilai konstan, resistansi konduktor ), besaran-besaran ini diukur, sebagai akibatnya nilai dan nilai yang sesuai. Data pengukuran harus dicatat dalam sebuah tabel.

Meja. Hasil pengukuran.

Pengukuran No.
1
2
3
4
5
6

Pertanyaannya berbunyi seperti ini: nilai koefisien apa yang dapat dipilih untuk menggambarkan ketergantungan dengan paling baik? Menurut kuadrat terkecil, nilai ini harus sedemikian rupa sehingga jumlah kuadrat penyimpangan nilai dari nilai

sangat minim

Jumlah simpangan kuadrat memiliki satu ekstrem - minimum, yang memungkinkan kita menggunakan rumus ini. Mari kita cari nilai koefisien dari rumus ini. Untuk melakukan ini, kami mengubah sisi kirinya sebagai berikut:

Rumus terakhir memungkinkan kita menemukan nilai koefisien , yang diperlukan dalam soal.

Cerita

Sampai awal abad XIX. ilmuwan tidak memiliki aturan tertentu untuk menyelesaikan sistem persamaan di mana jumlah yang tidak diketahui kurang dari jumlah persamaan; Sampai saat itu, metode tertentu digunakan, bergantung pada jenis persamaan dan kecerdikan kalkulator, dan oleh karena itu kalkulator yang berbeda, mulai dari data pengamatan yang sama, menghasilkan kesimpulan yang berbeda. Gauss (1795) dikreditkan dengan penerapan pertama metode ini, dan Legendre (1805) secara mandiri menemukan dan menerbitkannya dengan nama modernnya (fr. Methode des moindres quarres ) . Laplace menghubungkan metode tersebut dengan teori probabilitas, dan matematikawan Amerika Adrain (1808) mempertimbangkan penerapan probabilistiknya. Metode ini tersebar luas dan diperbaiki dengan penelitian lebih lanjut oleh Encke, Bessel, Hansen dan lain-lain.

Alternatif penggunaan MNC

Ide metode kuadrat terkecil juga dapat digunakan dalam kasus lain yang tidak terkait langsung dengan analisis regresi. Faktanya adalah bahwa jumlah kuadrat adalah salah satu ukuran kedekatan yang paling umum untuk vektor (metrik Euclidean dalam ruang berdimensi hingga).

Salah satu penerapannya adalah "menyelesaikan" sistem persamaan linier di mana jumlah persamaan lebih besar daripada jumlah variabel

dimana matriksnya bukan bujur sangkar, melainkan persegi panjang.

Sistem persamaan seperti itu, dalam kasus umum, tidak memiliki solusi (jika peringkat sebenarnya lebih besar dari jumlah variabel). Oleh karena itu, sistem ini dapat "diselesaikan" hanya dalam artian memilih vektor sedemikian untuk meminimalkan "jarak" antara vektor dan . Untuk melakukan ini, Anda dapat menerapkan kriteria untuk meminimalkan jumlah perbedaan kuadrat dari bagian kiri dan kanan dari persamaan sistem, yaitu . Mudah untuk menunjukkan bahwa solusi dari masalah minimisasi ini mengarah ke solusi dari sistem persamaan berikut