Properti operasi untuk menghitung karakteristik kuantitatif dari variabel acak. Karakteristik utama dari variabel acak Dispersi dan standar deviasi

Tujuan analisis korelasi adalah untuk mengidentifikasi perkiraan kekuatan koneksi antara variabel acak (fitur) yang mencirikan beberapa proses nyata.
Masalah analisis korelasi:
a) Pengukuran derajat keterkaitan (keketatan, kekuatan, keparahan, intensitas) dari dua fenomena atau lebih.
b) Pemilihan faktor yang memiliki pengaruh paling signifikan terhadap atribut yang dihasilkan, berdasarkan pengukuran tingkat keterhubungan antar fenomena. Faktor signifikan dalam aspek ini digunakan lebih lanjut dalam analisis regresi.
c) Deteksi hubungan sebab akibat yang tidak diketahui.

Bentuk manifestasi interelasi sangat beragam. Sebagai tipe yang paling umum, fungsional (lengkap) dan koneksi korelasi (tidak lengkap)..
korelasi memanifestasikan dirinya rata-rata, untuk pengamatan massal, ketika nilai yang diberikan dari variabel dependen sesuai dengan sejumlah nilai probabilistik dari variabel independen. Hubungan itu disebut korelasi, jika setiap nilai dari atribut faktor sesuai dengan nilai non-acak yang terdefinisi dengan baik dari atribut yang dihasilkan.
Bidang korelasi berfungsi sebagai representasi visual dari tabel korelasi. Ini adalah grafik di mana nilai X diplot pada sumbu absis, nilai Y diplot sepanjang sumbu ordinat, dan kombinasi X dan Y ditunjukkan oleh titik-titik.Keberadaan koneksi dapat dinilai dari lokasi titik.
Indikator sesak memungkinkan untuk mengkarakterisasi ketergantungan variasi sifat yang dihasilkan pada variasi faktor sifat.
Indikator tingkat keketatan yang lebih baik korelasi adalah koefisien korelasi linier. Saat menghitung indikator ini, tidak hanya penyimpangan nilai individu atribut dari rata-rata yang diperhitungkan, tetapi juga besarnya penyimpangan tersebut.

Isu utama dari topik ini adalah persamaan hubungan regresi antara fitur yang dihasilkan dan variabel penjelas, metode kuadrat terkecil untuk memperkirakan parameter model regresi, menganalisis kualitas persamaan regresi yang dihasilkan, membangun interval kepercayaan untuk memprediksi nilai fitur yang dihasilkan menggunakan persamaan regresi.

Contoh 2


Sistem persamaan normal.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Untuk data kami, sistem persamaan memiliki bentuk
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Dari persamaan pertama kita nyatakan A dan substitusikan ke persamaan kedua:
Kami mendapatkan b = -3,46, a = 1379,33
persamaan regresi:
y = -3,46 x + 1379,33

2. Perhitungan parameter persamaan regresi.
Contoh berarti.



Variasi sampel:


standar deviasi


1.1. Koefisien korelasi
kovarians.

Kami menghitung indikator kedekatan komunikasi. Indikator semacam itu adalah koefisien korelasi linier selektif, yang dihitung dengan rumus:

Koefisien korelasi linier mengambil nilai dari –1 hingga +1.
Hubungan antar fitur bisa lemah atau kuat (dekat). Kriteria mereka dievaluasi pada skala Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Dalam contoh kita, hubungan antara fitur Y dan faktor X adalah tinggi dan terbalik.
Selain itu, koefisien korelasi pasangan linier dapat ditentukan dengan koefisien regresi b:

1.2. Persamaan Regresi(evaluasi persamaan regresi).

Persamaan regresi liniernya adalah y = -3,46 x + 1379,33

Koefisien b = -3,46 menunjukkan rata-rata perubahan indikator efektif (dalam satuan y) dengan kenaikan atau penurunan nilai faktor x per satuan pengukurannya. Dalam contoh ini, dengan kenaikan 1 unit, y berkurang rata-rata -3,46.
Koefisien a = 1379,33 secara formal menunjukkan tingkat prediksi y, tetapi hanya jika x=0 mendekati nilai sampel.
Tetapi jika x=0 jauh dari nilai sampel x, maka interpretasi literal dapat menyebabkan hasil yang salah, dan bahkan jika garis regresi secara akurat menggambarkan nilai sampel yang diamati, tidak ada jaminan bahwa ini juga akan menjadi kasus ketika mengekstrapolasi ke kiri atau ke kanan.
Dengan mengganti nilai x yang sesuai ke dalam persamaan regresi, dimungkinkan untuk menentukan nilai yang selaras (diprediksi) dari indikator efektif y(x) untuk setiap pengamatan.
Hubungan antara y dan x menentukan tanda koefisien regresi b (jika > 0 - hubungan langsung, jika tidak - terbalik). Dalam contoh kita, hubungannya terbalik.
1.3. koefisien elastisitas.
Tidak diinginkan untuk menggunakan koefisien regresi (dalam contoh b) untuk penilaian langsung pengaruh faktor-faktor pada atribut efektif jika terdapat perbedaan dalam unit pengukuran indikator efektif y dan atribut faktor x.
Untuk tujuan ini, koefisien elastisitas dan koefisien beta dihitung.
Koefisien elastisitas rata-rata E menunjukkan berapa persen hasilnya akan berubah secara rata-rata secara agregat pada dari nilai rata-ratanya saat mengubah faktor X 1% dari nilai rata-ratanya.
Koefisien elastisitas ditemukan dengan rumus:


Koefisien elastisitas kurang dari 1. Oleh karena itu, jika X berubah sebesar 1%, Y akan berubah kurang dari 1%. Dengan kata lain pengaruh X terhadap Y tidak signifikan.
Koefisien beta menunjukkan berapa bagian dari nilai standar deviasinya nilai atribut efektif akan berubah rata-rata ketika atribut faktor berubah sebesar nilai standar deviasinya dengan nilai variabel independen yang tersisa tetap pada tingkat yang konstan:

Itu. peningkatan x sebesar nilai simpangan baku S x akan menyebabkan penurunan nilai rata-rata Y sebesar 0,74 simpangan baku S y .
1.4. Kesalahan perkiraan.
Mari kita evaluasi kualitas persamaan regresi menggunakan kesalahan aproksimasi absolut. Kesalahan perkiraan rata-rata adalah penyimpangan rata-rata dari nilai yang dihitung dari yang sebenarnya:


Karena galatnya kurang dari 15%, persamaan ini dapat digunakan sebagai regresi.
analisis dispersi.
Tugas analisis varians adalah menganalisis varians variabel dependen:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Di mana
∑(y i - y cp) 2 - jumlah total simpangan kuadrat;
∑(y(x) - y cp) 2 - jumlah deviasi kuadrat akibat regresi (“dijelaskan” atau “faktorial”);
∑(y - y(x)) 2 - jumlah sisa dari simpangan kuadrat.
Rasio korelasi teoritis untuk hubungan linier sama dengan koefisien korelasi r xy .
Untuk segala bentuk ketergantungan, kekencangan sambungan ditentukan dengan menggunakan beberapa koefisien korelasi:

Koefisien ini bersifat universal, karena mencerminkan keketatan koneksi dan keakuratan model, dan juga dapat digunakan untuk segala bentuk koneksi antar variabel. Saat membangun model korelasi satu faktor, koefisien korelasi berganda sama dengan koefisien korelasi pasangan r xy .
1.6. Koefisien determinasi.
Kuadrat dari koefisien korelasi (berganda) disebut koefisien determinasi, yang menunjukkan proporsi variasi atribut yang dihasilkan yang dijelaskan oleh variasi atribut faktor.
Paling sering, memberikan interpretasi koefisien determinasi, dinyatakan sebagai persentase.
R 2 \u003d -0,74 2 \u003d 0,5413
itu. dalam 54,13% kasus, perubahan x menyebabkan perubahan pada y. Dengan kata lain akurasi pemilihan persamaan regresi adalah rata-rata. Sisanya sebesar 45,87% dari perubahan Y disebabkan oleh faktor-faktor yang tidak diperhitungkan dalam model.

Bibliografi

  1. Ekonometrika: Buku Teks / Ed. AKU. Eliseeva. - M.: Keuangan dan statistik, 2001, hlm. 34..89.
  2. Magnus Ya.R., Katyshev P.K., Peresetsky A.A. Ekonometrika. Kursus awal. Tutorial. - edisi ke-2, Pdt. – M.: Delo, 1998, hlm. 17..42.
  3. Lokakarya tentang ekonometrika: Proc. tunjangan / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko dan lainnya; Ed. AKU. Eliseeva. - M.: Keuangan dan statistik, 2001, hlm. 5..48.

Perusahaan mempekerjakan 10 orang. Tabel 2 menunjukkan data pengalaman kerja dan

gaji bulanan.

Hitung dari data ini

  • - nilai estimasi kovarians sampel;
  • - nilai koefisien korelasi sampel Pearson;
  • - evaluasi arah dan kekuatan sambungan sesuai dengan nilai yang diperoleh;
  • - menentukan seberapa sah pernyataan bahwa perusahaan ini menggunakan model manajemen Jepang, yang terdiri dari asumsi bahwa semakin banyak waktu yang dihabiskan seorang karyawan di perusahaan ini, seharusnya semakin tinggi gajinya.

Berdasarkan bidang korelasi, seseorang dapat berhipotesis (untuk populasi umum) bahwa hubungan antara semua kemungkinan nilai X dan Y adalah linier.

Untuk menghitung parameter regresi, kita akan membuat tabel perhitungan.

Contoh berarti.

Variasi sampel:

Persamaan regresi yang diperkirakan akan terlihat seperti

y = bx + a + e,

di mana ei adalah nilai yang diamati (estimasi) dari kesalahan ei, a dan b, masing-masing, estimasi parameter b dan dalam model regresi yang harus ditemukan.

Untuk memperkirakan parameter b dan c - gunakan LSM (kuadrat terkecil).

Sistem persamaan normal.

a?x + b?x2 = ?y*x

Untuk data kami, sistem persamaan memiliki bentuk

  • 10a + 307b = 33300
  • 307 a + 10857 b = 1127700

Kami mengalikan persamaan (1) sistem dengan (-30,7), kami mendapatkan sistem yang kami selesaikan dengan metode penjumlahan aljabar.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Kita mendapatkan:

1432.1b = 105390

Dimana b = 73,5912

Sekarang kita menemukan koefisien "a" dari persamaan (1):

  • 10a + 307b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

Kami mendapatkan koefisien regresi empiris: b = 73,5912, a = 1070,7492

Persamaan regresi (persamaan regresi empiris):

y = 73,5912 x + 1070,7492

kovarians.

Dalam contoh kita, hubungan antara fitur Y dan faktor X tinggi dan langsung.

Oleh karena itu, kami dapat dengan aman mengatakan bahwa semakin lama seorang karyawan bekerja di perusahaan tertentu, semakin tinggi gajinya.

4. Pengujian hipotesis statistik. Saat memecahkan masalah ini, langkah pertama adalah merumuskan hipotesis yang dapat diuji dan hipotesis alternatif.

Memeriksa persamaan saham umum.

Sebuah studi dilakukan pada kinerja mahasiswa di dua fakultas. Hasil untuk varian ditunjukkan pada Tabel 3. Bisakah dikatakan bahwa kedua fakultas memiliki persentase mahasiswa berprestasi yang sama?

rata-rata aritmatika sederhana

Kami menguji hipotesis tentang persamaan saham umum:

Mari kita cari nilai eksperimen kriteria Siswa:

Jumlah derajat kebebasan

f \u003d nx + ny - 2 \u003d 2 + 2 - 2 \u003d 2

Tentukan nilai tkp menurut tabel distribusi Siswa

Menurut tabel Siswa kami menemukan:

Ttab(f;b/2) = Ttabl(2;0,025) = 4,303

Menurut tabel titik kritis distribusi Student pada tingkat signifikansi b = 0,05 dan sejumlah derajat kebebasan tertentu, kita mendapatkan tcr = 4,303

Karena tobs > tcr, maka hipotesis nol ditolak, bagian umum dari kedua sampel tidak sama.

Memeriksa keseragaman distribusi umum.

Manajemen universitas ingin mengetahui bagaimana popularitas Fakultas Ilmu Budaya berubah dari waktu ke waktu. Jumlah pelamar yang mendaftar untuk fakultas ini dianalisis dalam kaitannya dengan jumlah total pelamar pada tahun yang bersangkutan. (Data diberikan pada Tabel 4). Jika kita menganggap jumlah pelamar sebagai sampel yang representatif dari jumlah lulusan sekolah tahun ini, dapatkah dikatakan bahwa minat anak sekolah pada spesialisasi fakultas ini tidak berubah dari waktu ke waktu?

Opsi 4

Solusi: Tabel untuk menghitung indikator.

Titik tengah interval, xi

Frekuensi kumulatif, S

Frekuensi, fi/n

Untuk mengevaluasi rangkaian distribusi, kami menemukan indikator berikut:

rata-rata tertimbang

Rentang variasi adalah perbedaan antara nilai maksimum dan minimum dari atribut deret utama.

R = 2008 - 1988 = 20 Dispersi - mencirikan ukuran penyebaran di sekitar nilai rata-rata (ukuran dispersi, yaitu penyimpangan dari rata-rata).

Standar deviasi (mean sampling error).

Setiap nilai deret berbeda dengan nilai rata-rata 2002,66 dengan rata-rata 6,32

Menguji hipotesis tentang distribusi seragam populasi umum.

Untuk menguji hipotesis tentang keseragaman distribusi X, yaitu menurut hukum: f(x) = 1/(b-a) dalam interval (a,b) diperlukan:

Perkirakan parameter a dan b - ujung interval di mana nilai X yang mungkin diamati, menurut rumus (* menunjukkan perkiraan parameter):

Temukan kerapatan probabilitas dari estimasi distribusi f(x) = 1/(b* - a*)

Temukan frekuensi teoretis:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Bandingkan frekuensi empiris dan teoretis menggunakan uji Pearson, dengan asumsi jumlah derajat kebebasan k = s-3, di mana s adalah jumlah interval sampling awal; Namun, jika kombinasi frekuensi kecil, dan interval itu sendiri, dibuat, maka s adalah jumlah interval yang tersisa setelah kombinasi. Mari kita temukan estimasi parameter a* dan b* dari distribusi seragam dengan rumus:

Mari kita temukan kerapatan dari distribusi seragam yang seharusnya:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Mari kita temukan frekuensi teoretis:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(62-2013-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Karena statistik Pearson mengukur perbedaan antara distribusi empiris dan teoretis, semakin besar nilai Kobs yang diamati, semakin kuat argumen terhadap hipotesis utama.

Oleh karena itu, wilayah kritis untuk statistik ini selalu tangan kanan: ) dapat berbeda secara signifikan dari karakteristik yang sesuai dari skema asli (tidak terdistorsi) (, n) skema normal (, m) selalu mengurangi nilai absolut dari koefisien regresi Q1 dalam kaitannya (B.15), dan juga melemahkan tingkat kedekatan hubungan antara um (yaitu, mengurangi nilai absolut dari koefisien korelasi r).

Pengaruh kesalahan pengukuran terhadap nilai koefisien korelasi. Mari kita ingin memperkirakan tingkat kedekatan korelasi antara komponen variabel acak normal dua dimensi (, TJ), tetapi kita dapat mengamatinya hanya dengan beberapa kesalahan pengukuran acak, masing-masing, es dan e (lihat ketergantungan D2 diagram dalam pendahuluan). Oleh karena itu, data eksperimennya adalah (xit i/i), i = 1, 2,. .., n, secara praktis adalah nilai sampel dari variabel acak dua dimensi yang terdistorsi (, r)), di mana =

Metode R.a. terdiri dari menurunkan persamaan regresi (termasuk perkiraan parameternya), dengan bantuan yang nilai rata-rata dari variabel acak ditemukan, jika nilai yang lain (atau yang lain dalam kasus regresi berganda atau multivariat) diketahui. (Sebaliknya, analisis korelasi digunakan untuk menemukan dan mengungkapkan kekuatan hubungan antara variabel acak71.)

Dalam studi tentang korelasi tanda-tanda yang tidak dihubungkan oleh perubahan waktu yang konsisten, setiap tanda berubah di bawah pengaruh banyak penyebab, diambil secara acak. Dalam rangkaian dinamika, perubahan ditambahkan padanya selama waktu setiap rangkaian. Perubahan ini mengarah pada apa yang disebut autokorelasi - pengaruh perubahan level seri sebelumnya pada seri berikutnya. Oleh karena itu, korelasi antar tingkatan deret waktu secara tepat menunjukkan eratnya hubungan antar fenomena yang tercermin dalam deret waktu tersebut, hanya jika tidak ada autokorelasi pada masing-masingnya. Selain itu, autokorelasi mengarah pada distorsi kesalahan kuadrat rata-rata dari koefisien regresi, yang menyulitkan untuk membangun interval kepercayaan untuk koefisien regresi, serta untuk memeriksa signifikansinya.

Koefisien korelasi teoretis dan sampel yang ditentukan oleh hubungan (1.8) dan (1.8), masing-masing, dapat dihitung secara formal untuk sistem pengamatan dua dimensi apa pun; mereka adalah ukuran tingkat keketatan hubungan statistik linier antara fitur yang dianalisis. Namun, hanya dalam kasus distribusi normal bersama dari variabel acak yang diteliti dan u, koefisien korelasi r memiliki arti yang jelas sebagai karakteristik tingkat kedekatan hubungan di antara mereka. Secara khusus, dalam kasus ini, rasio r - 1 menegaskan hubungan linier fungsional murni antara kuantitas yang diteliti, dan persamaan r = 0 menunjukkan kemandirian timbal baliknya yang lengkap. Selain itu, koefisien korelasi, bersama dengan rata-rata dan varian variabel acak dan TJ, merupakan lima parameter yang memberikan informasi komprehensif tentang

Setelah menentukan persamaan garis regresi teoritis, perlu dilakukan kuantifikasi kedekatan hubungan antara dua rangkaian pengamatan. Garis regresi yang ditarik pada gambar. 4.1, b, c, adalah sama, tetapi dalam gambar. 4.1, b, titik-titiknya lebih dekat (lebih dekat) ke garis regresi daripada pada Gambar. 4.1, c.

Analisis korelasi mengasumsikan bahwa faktor dan tanggapan bersifat acak dan mengikuti hukum distribusi normal.

Keeratan hubungan antar variabel acak ditandai dengan rasio korelasi pxy. Mari kita bahas lebih detail tentang arti fisik dari indikator ini. Untuk melakukan ini, kami memperkenalkan konsep baru.

Dispersi sisa

poin yang diamati relatif terhadap garis regresi dan merupakan indikator kesalahan dalam memprediksi parameter y menurut persamaan regresi (Gambar 4.6):



s2=f)