Rumah Rongga mulut Koefisien korelasi. Koefisien korelasi berganda dan koefisien determinasi

Koefisien korelasi. Koefisien korelasi berganda dan koefisien determinasi


  1. Evaluasi kualitas model yang dibangun. Apakah kualitas modelnya lebih baik dibandingkan dengan model faktor tunggal? Berikan penilaian dampak faktor signifikan pada hasil menggunakan koefisien elastisitas, koefisien - dan .
Untuk menilai kualitas beberapa model yang dipilih (6), mirip dengan paragraf 1.4 masalah ini, kami menggunakan koefisien determinasi R- persegi, sedang Kesalahan relatif perkiraan dan F-Kriteria Fisher.

Koefisien determinasi R-kuadrat akan diambil dari hasil “Regresi” (tabel “Statistik regresi” untuk model (6)).

Akibatnya terjadi variasi (perubahan) harga apartemen Y Berdasarkan persamaan tersebut, 76,77% dijelaskan oleh variasi kota di wilayah tersebut X 1 , jumlah kamar di apartemen X 2 dan ruang hidup X 4 .

Kami menggunakan data asli Y Saya dan residu yang ditemukan oleh alat Regresi (tabel “Output sisa” untuk model (6)). Mari kita hitung kesalahan relatif dan temukan nilai rata-ratanya
.

PENARIKAN SISANYA


Pengamatan

Prediksi Y

Sisa

Rel. kesalahan

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

Rata-rata

101,2375

22,51770962

Dengan menggunakan kolom kesalahan relatif, kami menemukan nilai rata-rata =22.51% (menggunakan fungsi RATA-RATA).

Perbandingannya menunjukkan 22,51%>7%. Akibatnya, keakuratan model tidak memuaskan.

Dengan menggunakan F – Kriteria Fisher Mari kita periksa pentingnya model secara keseluruhan. Untuk melakukannya, kami akan menuliskan hasil penggunaan alat “Regresi” (tabel “analisis varians” untuk model (6)) F= 39,6702.

Menggunakan fungsi FRIST kita menemukan nilainya F kr =3.252 untuk tingkat signifikansi = 5%, dan jumlah derajat kebebasan k 1 = 2 , k 2 = 37 .

F> F kr, oleh karena itu persamaan model (6) signifikan, disarankan penggunaannya, variabel terikat Y dijelaskan dengan cukup baik oleh variabel faktor yang dimasukkan dalam model (6) X 1 , X 2. Dan X 4 .

Selain itu menggunakan T –Uji t siswa Mari kita periksa signifikansi koefisien individual model.

T–Statistik untuk koefisien persamaan regresi diberikan dalam hasil alat “Regresi”. Nilai-nilai berikut diperoleh untuk model yang dipilih (6):


Kemungkinan

Kesalahan standar

t-statistik

Nilai-P

95% terbawah

95% teratas

95,0% terbawah

95,0% teratas

Persimpangan Y

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2.27E-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

Nilai kritis T kr ditemukan untuk tingkat signifikansi = 5% dan jumlah derajat kebebasan k=40–2–1=37 . T kr =2.026 (Fungsi STUDAR).

Untuk peluang gratis α =–5.643 statistik ditentukan
, T kr Oleh karena itu, koefisien bebasnya tidak signifikan dan dapat dikeluarkan dari model.

Untuk koefisien regresi β 1 =6.859 statistik ditentukan
, β 1 tidak signifikan, maka faktor regional kota dapat dikeluarkan dari model.

Untuk koefisien regresi β 2 =-1,985 statistik ditentukan
, T kr, oleh karena itu, koefisien regresi β 2 tidak signifikan, dan faktor jumlah kamar di apartemen dapat dikeluarkan dari model.

Untuk koefisien regresi β 4 =2.591 statistik ditentukan
, >t cr, oleh karena itu, koefisien regresi β 4 penting, dan faktor ruang tamu apartemen dapat dipertahankan dalam model.

Kesimpulan tentang signifikansi koefisien model dibuat pada tingkat signifikansi = 5%. Melihat kolom nilai P, kita perhatikan bahwa koefisien bebas α dapat dianggap signifikan pada taraf 0,64 = 64%; koefisien regresi β 1 – pada level 0,46 = 46%; koefisien regresi β 2 – pada level 0,8 = 80%; dan koefisien regresi β 4 – pada level 2.27E-06= 2.26691790951854E-06 = 0.0000002%.

Ketika variabel faktor baru ditambahkan ke dalam persamaan, koefisien determinasi otomatis meningkat R 2 dan menurun kesalahan rata-rata perkiraan, meskipun hal ini tidak selalu meningkatkan kualitas model. Oleh karena itu, untuk membandingkan kualitas model (3) dan beberapa model terpilih (6), kami menggunakan koefisien determinasi yang dinormalisasi.

Jadi, ketika menambahkan faktor “kota wilayah” ke persamaan regresi X 1 dan faktor “jumlah kamar di apartemen” X 2 kualitas model telah menurun, sehingga mendukung penghapusan faktor-faktor tersebut X 1 dan X 2 dari model.

Mari kita lakukan perhitungan lebih lanjut.

Koefisien elastisitas rata-rata dalam kasus model linier ditentukan oleh rumus
.

Dengan menggunakan fungsi AVERAGE kita menemukan: S Y, dengan peningkatan hanya pada faktornya X 4 untuk salah satu miliknya deviasi standar– meningkat sebesar 0,914 S Y

Koefisien Delta ditentukan oleh rumus
.

Mari kita cari koefisien korelasi berpasangan menggunakan alat "Korelasi" dari paket "Analisis Data" di Excel.


Y

X1

X2

X4

Y

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

Koefisien determinasi telah ditentukan sebelumnya yaitu sebesar 0,7677.

Mari kita hitung koefisien delta:

;

Sejak Δ 1 1 Dan X 2 dipilih secara salah dan harus dihapus dari model. Artinya menurut persamaan model tiga faktor linier yang dihasilkan, terjadi perubahan faktor yang dihasilkan Y(harga apartemen) sebesar 104% dijelaskan oleh pengaruh faktor X 4 (ruang tamu apartemen), sebesar 4% dipengaruhi oleh faktor tersebut X 2 (jumlah kamar), sebesar 0,0859% dipengaruhi oleh faktor X 1 (kota wilayah).

Analisis regresi adalah metode penelitian statistik yang memungkinkan Anda menunjukkan ketergantungan suatu parameter tertentu pada satu atau lebih variabel independen. Di era pra-komputer, penggunaannya cukup sulit, terutama jika menyangkut data dalam jumlah besar. Saat ini, setelah mempelajari cara membuat regresi di Excel, Anda dapat menyelesaikan masalah statistik yang kompleks hanya dalam beberapa menit. Di bawah ini adalah contoh spesifik dari bidang ekonomi.

Jenis Regresi

Konsep ini sendiri diperkenalkan ke dalam matematika pada tahun 1886. Regresi terjadi:

  • linier;
  • parabola;
  • tenang;
  • eksponensial;
  • hiperbolis;
  • demonstratif;
  • logaritma.

Contoh 1

Mari kita perhatikan masalah penentuan ketergantungan jumlah anggota tim yang berhenti terhadap gaji rata-rata di 6 perusahaan industri.

Tugas. Di enam perusahaan kami menganalisis rata-rata bulanan upah dan jumlah karyawan yang keluar karena sesuka hati. Dalam bentuk tabel kita memiliki:

Jumlah orang yang berhenti

Gaji

30.000 rubel

35.000 rubel

40.000 rubel

45.000 rubel

50.000 rubel

55.000 rubel

60.000 rubel

Untuk tugas menentukan ketergantungan jumlah pekerja yang berhenti terhadap gaji rata-rata di 6 perusahaan, model regresi berbentuk persamaan Y = a 0 + a 1 x 1 +...+a k x k, dimana x i adalah variabel yang mempengaruhi, i adalah koefisien regresi, dan k adalah jumlah faktor.

Untuk permasalahan ini, Y merupakan indikator keluarnya karyawan dan faktor yang mempengaruhinya adalah gaji yang dilambangkan dengan X.

Menggunakan kemampuan prosesor spreadsheet Excel

Analisis regresi di Excel harus didahului dengan penerapan fungsi bawaan pada data tabular yang ada. Namun, untuk tujuan ini lebih baik menggunakan add-on “Paket Analisis” yang sangat berguna. Untuk mengaktifkannya, Anda perlu:

  • dari tab “File”, buka bagian “Opsi”;
  • di jendela yang terbuka, pilih baris “Add-on”;
  • klik tombol “Go” yang terletak di bawah, di sebelah kanan baris “Manajemen”;
  • centang kotak di sebelah nama "Paket Analisis" dan konfirmasikan tindakan Anda dengan mengklik "Oke".

Jika semuanya dilakukan dengan benar, tombol yang diperlukan akan muncul di sisi kanan tab “Data”, terletak di atas lembar kerja Excel.

di Excel

Sekarang kita memiliki semua alat virtual yang diperlukan untuk melakukan perhitungan ekonometrik, kita dapat mulai memecahkan masalah kita. Untuk ini:

  • klik tombol “Analisis Data”;
  • di jendela yang terbuka, klik tombol “Regresi”;
  • pada tab yang muncul, masukkan rentang nilai Y (jumlah karyawan yang berhenti) dan X (gajinya);
  • Kami mengkonfirmasi tindakan kami dengan menekan tombol "Ok".

Hasilnya, program secara otomatis akan mengisi spreadsheet baru dengan data analisis regresi. Catatan! Excel memungkinkan Anda mengatur secara manual lokasi yang Anda inginkan untuk tujuan ini. Misalnya, ini bisa berupa lembar yang sama tempat nilai Y dan X berada, atau bahkan buku kerja baru yang dirancang khusus untuk menyimpan data tersebut.

Analisis hasil regresi R-squared

Di Excel, data yang diperoleh selama pemrosesan data pada contoh yang dipertimbangkan berbentuk:

Pertama-tama, Anda harus memperhatikan nilai R-kuadrat. Ini mewakili koefisien determinasi. Dalam contoh ini, R-square = 0,755 (75,5%), yaitu parameter model yang dihitung menjelaskan hubungan antara parameter yang dipertimbangkan sebesar 75,5%. Semakin tinggi nilai koefisien determinasi, semakin cocok model yang dipilih untuk tugas tertentu. Dianggap tepat untuk menggambarkan keadaan sebenarnya bila nilai R-square di atas 0,8. Jika R-kuadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analisis Peluang

Angka 64.1428 menunjukkan berapa nilai Y jika semua variabel xi pada model yang kita pertimbangkan direset ke nol. Dengan kata lain dapat dikatakan bahwa nilai parameter yang dianalisis juga dipengaruhi oleh faktor-faktor lain yang tidak dijelaskan dalam model tertentu.

Koefisien selanjutnya -0,16285 yang terletak pada sel B18 menunjukkan bobot pengaruh variabel X terhadap Y. Artinya, rata-rata gaji bulanan pegawai dalam model yang dipertimbangkan mempengaruhi jumlah orang yang berhenti bekerja dengan bobot -0,16285, yaitu. tingkat pengaruhnya sangat kecil. Tanda “-” menunjukkan bahwa koefisiennya negatif. Hal ini jelas, karena semua orang tahu bahwa semakin tinggi gaji di suatu perusahaan, semakin sedikit orang yang menyatakan keinginannya untuk memutuskan kontrak kerja atau berhenti.

Regresi berganda

Istilah ini mengacu pada persamaan hubungan dengan beberapa variabel bebas yang berbentuk:

y=f(x 1 +x 2 +…x m) + ε, dengan y adalah karakteristik resultan (variabel terikat), dan x 1, x 2,…x m adalah karakteristik faktor (variabel bebas).

Estimasi Parameter

Untuk regresi berganda (MR) dilakukan dengan menggunakan metode kuadrat terkecil(MNC). Untuk persamaan linier berbentuk Y = a + b 1 x 1 +…+b m x m + ε kita buat sistem persamaan normal (lihat di bawah)

Untuk memahami prinsip metode ini, pertimbangkan kasus dua faktor. Kemudian kita memiliki situasi yang dijelaskan oleh rumus

Dari sini kita mendapatkan:

di mana σ adalah varians dari fitur terkait yang tercermin dalam indeks.

OLS dapat diterapkan pada persamaan MR pada skala standar. Dalam hal ini, kita mendapatkan persamaan:

dimana t y, t x 1, … t xm merupakan variabel terstandarisasi yang nilai rata-ratanya sama dengan 0; β i adalah koefisien regresi standar, dan standar deviasinya adalah 1.

Harap dicatat bahwa semua β i masuk pada kasus ini ditetapkan sebagai terstandarisasi dan terpusat, oleh karena itu perbandingannya satu sama lain dianggap benar dan dapat diterima. Selain itu, merupakan kebiasaan untuk menyaring faktor-faktor dengan membuang faktor-faktor yang memiliki nilai βi terendah.

Soal Menggunakan Persamaan Regresi Linier

Misalkan kita memiliki tabel dinamika harga untuk produk N tertentu selama 8 bulan terakhir. Penting untuk membuat keputusan tentang kelayakan membeli sejumlah batch dengan harga 1.850 rubel/t.

nomor bulan

nama bulan

harga produk N

1750 rubel per ton

1755 rubel per ton

1767 rubel per ton

1760 rubel per ton

1770 rubel per ton

1790 rubel per ton

1810 rubel per ton

1840 rubel per ton

Untuk mengatasi masalah ini pada prosesor spreadsheet Excel, Anda perlu menggunakan alat “Analisis Data”, yang sudah diketahui dari contoh di atas. Selanjutnya, pilih bagian “Regresi” dan atur parameternya. Harus diingat bahwa pada kolom “Interval masukan Y” harus dimasukkan rentang nilai untuk variabel terikat (dalam hal ini, harga barang pada bulan-bulan tertentu dalam setahun), dan pada “Interval masukan X” - untuk variabel bebas (nomor bulan). Konfirmasikan tindakan dengan mengklik “Oke”. Pada lembar baru (jika diindikasikan demikian) kami memperoleh data untuk regresi.

Dengan menggunakannya, kita membuat persamaan linier dalam bentuk y=ax+b, dengan parameter a dan b adalah koefisien garis dengan nama nomor bulan dan koefisien serta garis “persimpangan Y” dari lembar dengan hasil analisis regresi. Dengan demikian, persamaan regresi linier (LR) untuk tugas 3 ditulis sebagai:

Harga produk N = 11.714* nomor bulan + 1727.54.

atau dalam notasi aljabar

kamu = 11,714 x + 1727,54

Analisis hasil

Untuk menentukan apakah persamaan regresi linier yang dihasilkan memadai, digunakan koefisien korelasi berganda (MCC) dan determinasi, serta uji Fisher dan uji t Student. Dalam spreadsheet Excel dengan hasil regresi, masing-masing disebut multiple R, R-squared, F-statistic dan t-statistic.

KMC R memungkinkan untuk menilai kedekatan hubungan probabilistik antara variabel independen dan dependen. Nilainya yang tinggi menunjukkan hubungan yang cukup kuat antara variabel “Jumlah bulan” dan “Harga produk N dalam rubel per 1 ton”. Namun sifat hubungan ini masih belum diketahui.

Kuadrat koefisien determinasi R2 (RI) merupakan ciri numerik dari proporsi sebaran total dan menunjukkan sebaran bagian mana dari data eksperimen, yaitu. nilai variabel terikat sesuai dengan persamaan regresi linier. Dalam soal yang sedang dipertimbangkan, nilai ini sama dengan 84,8%, yaitu data statistik dijelaskan dengan tingkat akurasi yang tinggi oleh SD yang dihasilkan.

Statistik F, juga disebut uji Fisher, digunakan untuk mengevaluasi signifikansi hubungan linier, menyangkal atau mengkonfirmasi hipotesis keberadaannya.

(Tes Siswa) membantu mengevaluasi signifikansi koefisien dengan suku hubungan linier yang tidak diketahui atau bebas. Jika nilai uji-t > t cr, maka hipotesis mengenai tidak signifikannya suku bebas persamaan linier ditolak.

Dalam soal yang dipertimbangkan untuk suku bebas, dengan menggunakan alat Excel, diperoleh t = 169,20903, dan p = 2,89E-12, yaitu, kita memiliki probabilitas nol bahwa hipotesis yang benar tentang tidak pentingnya suku bebas akan ditolak. . Untuk koefisien yang tidak diketahui t=5,79405, dan p=0,001158. Dengan kata lain, kemungkinan ditolaknya hipotesis yang benar tentang tidak pentingnya koefisien untuk suatu hal yang tidak diketahui adalah 0,12%.

Dengan demikian, dapat dikatakan bahwa persamaan regresi linier yang dihasilkan sudah memadai.

Masalah kelayakan pembelian satu blok saham

Regresi berganda di Excel dilakukan menggunakan alat Analisis Data yang sama. Mari kita pertimbangkan masalah aplikasi tertentu.

Manajemen perusahaan NNN harus memutuskan kelayakan pembelian 20% saham MMM JSC. Harga paket (SP) adalah 70 juta dollar AS. Spesialis NNN telah mengumpulkan data tentang transaksi serupa. Diputuskan untuk mengevaluasi nilai satu blok saham berdasarkan parameter seperti itu, yang dinyatakan dalam jutaan dolar AS, seperti:

  • hutang usaha (VK);
  • volume omset tahunan (VO);
  • piutang (VD);
  • biaya aset tetap (COF).

Selain itu, digunakan parameter tunggakan upah perusahaan (V3 P) dalam ribuan dolar AS.

Solusi menggunakan prosesor spreadsheet Excel

Pertama-tama, Anda perlu membuat tabel data awal. Ini terlihat seperti ini:

  • panggil jendela “Analisis Data”;
  • pilih bagian “Regresi”;
  • Pada kotak “Input interval Y”, masukkan rentang nilai variabel terikat dari kolom G;
  • Klik ikon dengan panah merah di sebelah kanan jendela "Input interval X" dan sorot rentang semua nilai dari kolom B, C, D, F pada lembar.

Tandai item “Lembar kerja baru” dan klik “OK”.

Dapatkan analisis regresi untuk masalah tertentu.

Studi hasil dan kesimpulan

Kami “mengumpulkan” persamaan regresi dari data bulat yang disajikan di atas pada spreadsheet Excel:

SP = 0,103*SOF + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

Dalam bentuk matematika yang lebih familiar, dapat ditulis sebagai:

kamu = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Data MMM JSC disajikan pada tabel:

Jika disubstitusikan ke persamaan regresi, diperoleh angka 64,72 juta dolar AS. Artinya, saham MMM JSC tidak layak dibeli karena nilainya yang sebesar 70 juta dollar AS cukup melambung.

Seperti yang Anda lihat, penggunaan spreadsheet Excel dan persamaan regresi memungkinkan pengambilan keputusan berdasarkan kelayakan transaksi yang sangat spesifik.

Sekarang Anda tahu apa itu regresi. Contoh Excel yang dibahas di atas akan membantu Anda memecahkan masalah praktis di bidang ekonometrika.

Saat mempelajari fenomena kompleks, perlu memperhitungkan lebih dari dua faktor acak. Pemahaman yang benar tentang sifat hubungan antara faktor-faktor ini hanya dapat diperoleh jika semua faktor acak yang dipertimbangkan diperiksa sekaligus. Studi bersama terhadap tiga atau lebih faktor acak akan memungkinkan peneliti untuk menetapkan asumsi yang kurang lebih masuk akal tentang ketergantungan sebab akibat antara fenomena yang diteliti. Bentuk sederhana dari hubungan berganda adalah hubungan linier antara tiga sifat. Faktor acak dilambangkan sebagai X 1 , X 2 dan X 3. Koefisien korelasi berpasangan antara X 1 dan X 2 dilambangkan sebagai R 12, masing-masing antara X 1 dan X 3 - R 12, antara X 2 dan X 3 - R 23. Sebagai ukuran keeratan hubungan linier antara ketiga karakteristik tersebut digunakan koefisien korelasi berganda yang dilambangkan R 1 dan 23 , R 2 dan 13 , R 3 ּ 12 dan koefisien korelasi parsial, dilambangkan R 12.3 , R 13.2 , R 23.1 .

Koefisien korelasi berganda R 1,23 ketiga faktor merupakan indikator keeratan hubungan linier antara salah satu faktor (indeks sebelum titik) dengan kombinasi dua faktor lainnya (indeks setelah titik).

Nilai koefisien R selalu berkisar antara 0 hingga 1. Ketika R mendekati satu, derajat hubungan linier antara ketiga karakteristik tersebut meningkat.

Antara koefisien korelasi berganda, mis. R 2 ּ 13 , dan koefisien korelasi dua pasangan R 12 dan R 23 terdapat hubungan: masing-masing koefisien yang dipasangkan tidak boleh melebihi nilai mutlak R 2 dan 13 .

Rumus untuk menghitung koefisien korelasi berganda kapan nilai-nilai yang diketahui koefisien korelasi berpasangan r 12, r 13 dan r 23 berbentuk:

Koefisien korelasi berganda kuadrat R 2 dipanggil koefisien determinasi berganda. Ini menunjukkan proporsi variasi variabel dependen di bawah pengaruh faktor-faktor yang diteliti.

Signifikansi korelasi ganda dinilai dengan F-kriteria:

N - ukuran sampel; k – sejumlah faktor. Dalam kasus kami k = 3.

hipotesis nol tentang persamaan koefisien korelasi berganda dalam populasi dengan nol ( ho:R=0) diterima jika F F<f t, dan ditolak jika
FF T.

nilai teoritis F-kriteria ditentukan untuk ay 1 = k- 1 dan ay 2 = N - k derajat kebebasan dan tingkat signifikansi a yang diterima (Lampiran 1).

Contoh penghitungan koefisien korelasi berganda. Saat mempelajari hubungan antar faktor, diperoleh koefisien korelasi berpasangan ( N =15): R 12 ==0,6; g 13 = 0,3; R 23 = - 0,2.

Penting untuk mengetahui ketergantungan fitur tersebut X 2 dari tanda X 1 dan X 3, yaitu menghitung koefisien korelasi berganda:

Nilai tabel F-kriteria dengan n 1 = 2 dan n 2 = 15 – 3 = 12 derajat kebebasan dengan a = 0,05 F 0,05 = 3,89 dan pada a = 0,01 F 0,01 = 6,93.

Jadi, hubungan antar tanda R 2,13 = 0,74 signifikan pada
tingkat signifikansi 1%. F f > F 0,01 .

Dilihat dari koefisien determinasi berganda R 2 = (0,74) 2 = 0,55, variasi sifat X 2 sebesar 55% berhubungan dengan pengaruh faktor-faktor yang diteliti, dan 45% variasinya (1-R 2) tidak dapat dijelaskan oleh pengaruh variabel-variabel tersebut.

Pribadi korelasi linier

Koefisien korelasi parsial adalah indikator yang mengukur derajat konjugasi dua karakteristik.

Statistik matematika memungkinkan Anda membangun korelasi antara dua karakteristik dengan nilai konstanta ketiga, tanpa melakukan eksperimen khusus, tetapi menggunakan koefisien korelasi berpasangan. R 12 , R 13 , R 23 .

Koefisien korelasi parsial dihitung dengan menggunakan rumus:

Angka-angka sebelum titik menunjukkan ciri-ciri hubungan mana yang sedang dipelajari, dan angka setelah titik menunjukkan pengaruh ciri mana yang dikecualikan (dihilangkan). Kriteria kesalahan dan signifikansi untuk korelasi parsial ditentukan dengan menggunakan rumus yang sama seperti untuk korelasi berpasangan:

.

Nilai teoretis T- kriteria ditentukan untuk ay = N– 2 derajat kebebasan dan tingkat signifikansi a yang diterima (Lampiran 1).

Hipotesis nol bahwa koefisien korelasi parsial dalam populasi sama dengan nol ( H o: R= 0) diterima jika T F< T t, dan ditolak jika
TT T.

Koefisien parsial dapat bernilai antara -1 dan +1. Pribadi koefisien determinasi ditemukan dengan mengkuadratkan koefisien korelasi parsial:

D 12.3 = R 2 12ּ3 ; D 13.2 = R 2 13ּ2 ; D 23ּ1 = R 2 23ּ1 .

Menentukan tingkat pengaruh parsial faktor-faktor individu pada suatu sifat efektif sambil mengecualikan (menghilangkan) hubungannya dengan sifat-sifat lain yang mendistorsi korelasi ini seringkali merupakan hal yang menarik. Kadang-kadang terjadi bahwa dengan nilai konstan dari karakteristik yang dihilangkan, tidak mungkin untuk melihat pengaruh statistiknya terhadap variabilitas karakteristik lainnya. Untuk memahami teknik menghitung koefisien korelasi parsial, perhatikan sebuah contoh. Ada tiga pilihan X, Y Dan Z. Untuk ukuran sampel N= 180 koefisien korelasi berpasangan ditentukan

rxy = 0,799; rxz = 0,57; r yz = 0,507.

Mari kita tentukan koefisien korelasi parsial:

Koefisien korelasi parsial antar parameter X Dan Y Z (R xy = 0,720) menunjukkan bahwa hanya sebagian kecil hubungan antara karakteristik tersebut dalam korelasi keseluruhan ( rxy= 0,799) disebabkan oleh pengaruh sifat ketiga ( Z). Kesimpulan serupa harus dibuat mengenai koefisien korelasi parsial antar parameter X dan parameter Z dengan nilai parameter konstan Y (R X zּу = 0,318 dan rxz= 0,57). Melawan, koefisien parsial korelasi antar parameter Y Dan Z dengan nilai parameter konstan X r yz ּ X= 0,105 berbeda nyata dengan koefisien umum korelasi r y z = 0,507. Dari sini jelas jika Anda memilih objek dengan nilai parameter yang sama X, lalu hubungan antar tanda Y Dan Z mereka akan memiliki hubungan yang sangat lemah, karena sebagian besar hubungan ini disebabkan oleh variasi dalam parameter X.

Dalam keadaan tertentu, koefisien korelasi parsial mungkin bertanda berlawanan dengan pasangan satu.

Misalnya saja ketika mempelajari hubungan antar karakteristik X, Y Dan Z- Koefisien korelasi berpasangan diperoleh (dengan N = 100): R xy = 0,6; R X z= 0,9;
r y z = 0,4.

Koefisien korelasi parsial tidak termasuk pengaruh karakteristik ketiga:

Dari contoh tersebut terlihat jelas bahwa nilai-nilai koefisien pasangan dan koefisien korelasi parsial berbeda tandanya.

Metode korelasi parsial memungkinkan untuk menghitung koefisien korelasi parsial orde kedua. Koefisien ini menunjukkan hubungan antara sifat pertama dan kedua dengan nilai konstanta sifat ketiga dan keempat. Penentuan koefisien parsial orde kedua didasarkan pada koefisien parsial orde pertama dengan menggunakan rumus:

Di mana R 12 . 4 , R 13 dan 4, R 23 ּ4 - koefisien parsial, yang nilainya ditentukan oleh rumus koefisien parsial, menggunakan koefisien korelasi berpasangan R 12 , R 13 , R 14 , R 23 , R 24 , R 34 .

7.1. Analisis Regresi Linier terdiri dari pemasangan grafik ke sekumpulan observasi menggunakan metode kuadrat terkecil. Analisis regresi memungkinkan kita membangun hubungan fungsional antara beberapa hal variabel acak Y dan ada pula yang mempengaruhi Y nilai-nilai X. Ketergantungan ini disebut persamaan regresi. Ada yang sederhana ( y=m*x+b) dan jamak ( y=m 1 *x 1 +m 2 *x 2 +... + m k *x k +b) regresi tipe linier dan nonlinier.
Untuk menilai derajat hubungan antar besaran digunakan Koefisien korelasi berganda Pearson R(rasio korelasi), yang dapat mengambil nilai dari 0 hingga 1. R=0 jika tidak ada hubungan antar besaran, dan R=1 jika ada hubungan fungsional antar besaran. Dalam kebanyakan kasus, R mengambil nilai antara dari 0 hingga 1. Nilai R 2 ditelepon koefisien determinasi.
Tugas membangun ketergantungan regresi adalah mencari vektor koefisien M model regresi linier berganda, dimana koefisiennya R mengambil nilai maksimum.
Untuk menilai signifikansi R berlaku uji F Fisher, dihitung dengan rumus:

Di mana N– jumlah percobaan; k– jumlah koefisien model. Jika F melebihi beberapa nilai kritis untuk data N Dan k dan diterima probabilitas kepercayaan, lalu nilainya R dianggap signifikan.

7.2. Alat Regresi dari Paket analisis memungkinkan Anda menghitung data berikut:

· kemungkinan fungsi linear regresi– metode kuadrat terkecil; jenis fungsi regresi ditentukan oleh struktur sumber data;

· koefisien determinasi dan besaran-besaran yang berkaitan(meja Statistik regresi);

· tabel varians dan statistik kriteria untuk menguji signifikansi regresi(meja Analisis varians );

· standar deviasi dan karakteristik statistik lainnya untuk setiap koefisien regresi, memungkinkan Anda memeriksa signifikansi koefisien ini dan membangunnya interval kepercayaan;

· nilai fungsi regresi dan residu– perbedaan antara nilai awal variabel Y dan nilai fungsi regresi yang dihitung (tabel Penarikan saldo);

· probabilitas yang sesuai dengan nilai variabel Y yang diurutkan dalam urutan menaik(meja Keluaran probabilitas).

7.3. Hubungi alat seleksi melalui Data > Analisis Data > Regresi.

7.4. Di lapangan Interval masukan Y masukkan alamat rentang yang berisi nilai variabel terikat Y. Rentang harus terdiri dari satu kolom.
Di lapangan Interval masukan X masukkan alamat rentang yang berisi nilai variabel X. Rentang harus terdiri dari satu atau lebih kolom, tetapi tidak lebih dari 16 kolom. Jika ditentukan di kolom Interval masukan Y Dan Interval masukan X rentang menyertakan tajuk kolom, maka Anda perlu mencentang kotak opsi Tag– header ini akan digunakan dalam tabel keluaran yang dihasilkan oleh alat ini Regresi.
Kotak centang opsi Konstan - nol harus ditetapkan jika persamaan regresi memiliki konstanta B dipaksa sama dengan nol.
Pilihan Tingkat keandalan diatur ketika diperlukan untuk membangun interval kepercayaan untuk koefisien regresi dengan tingkat kepercayaan selain 0,95, yang digunakan secara default. Setelah mencentang kotak opsi Tingkat keandalan Bidang masukan tersedia di mana nilai tingkat kepercayaan baru dimasukkan.
Di daerah Sisa Ada empat opsi: Sisa, Saldo terstandar, Bagan keseimbangan Dan Jadwal seleksi. Jika setidaknya salah satunya terinstal, tabel akan muncul di hasil output Penarikan saldo, yang akan menampilkan nilai fungsi regresi dan residu - perbedaan antara nilai awal variabel Y dan nilai perhitungan fungsi regresi. Di daerah Kemungkinan normal Ada satu pilihan – ; instalasinya menghasilkan tabel di hasil output Keluaran probabilitas dan mengarah pada konstruksi grafik yang sesuai.


7.5. Atur parameter sesuai gambar. Pastikan nilai Y adalah variabel pertama (termasuk sel judul) dan nilai X adalah dua variabel lainnya (termasuk sel judul). Klik OKE.

7.6. Di meja Statistik regresi Data berikut disediakan.

jamak R– akar koefisien determinasi R 2 diberikan pada baris berikutnya. Nama lain dari indikator ini adalah indeks korelasi, atau koefisien korelasi berganda.

R-persegi– koefisien determinasi R 2 ; dihitung sebagai rasio jumlah regresi kuadrat(sel C12) ke jumlah total kuadrat(sel C14).

R-kuadrat yang dinormalisasi dihitung dengan rumus

dimana n adalah banyaknya nilai variabel Y, k adalah banyaknya kolom pada interval masukan variabel X.

Kesalahan standar– akar varians sisa (sel D13).

Pengamatan– jumlah nilai variabel Y.

7.7. DI DALAM Tabel dispersi di kolom SS jumlah kuadrat diberikan di kolom df– jumlah derajat kebebasan. di kolom MS– dispersi. Di barisan Regresi di kolom F Nilai statistik kriteria dihitung untuk menguji signifikansi regresi. Nilai ini dihitung sebagai rasio varians regresi terhadap varians sisa (sel D12 dan D13). Di kolom Signifikansi F probabilitas nilai statistik kriteria yang diperoleh dihitung. Jika probabilitas ini lebih kecil dari, misalnya, 0,05 (tingkat signifikansi tertentu), maka hipotesis tentang tidak signifikannya regresi (yaitu hipotesis bahwa semua koefisien fungsi regresi sama dengan nol) ditolak dan regresi tersebut dibatalkan. dianggap signifikan. Dalam contoh ini, regresinya tidak signifikan.

7.8. Pada tabel berikut, di kolom Kemungkinan, nilai perhitungan koefisien fungsi regresi ditulis, sedangkan di garis Persimpangan Y nilai istilah bebas ditulis B. Di kolom Kesalahan standar Deviasi standar dari koefisien dihitung.
Di kolom t-statistik Rasio nilai koefisien terhadap standar deviasinya dicatat. Ini adalah nilai statistik kriteria untuk menguji hipotesis tentang signifikansi koefisien regresi.
Di kolom Nilai-P tingkat signifikansi yang sesuai dengan nilai statistik kriteria dihitung. Jika tingkat signifikansi yang dihitung lebih kecil dari tingkat signifikansi yang ditentukan (misalnya 0,05). maka hipotesis bahwa koefisien berbeda signifikan dari nol diterima; jika tidak, hipotesis bahwa koefisien berbeda tidak signifikan dari nol diterima. Dalam contoh ini, hanya koefisiennya saja B berbeda nyata dari nol, selebihnya tidak signifikan.
Di kolom 95% terbawah Dan 95% teratas diberikan batasan interval kepercayaan dengan tingkat kepercayaan 0,95. Batas-batas ini dihitung menggunakan rumus
Lebih rendah 95% = Koefisien - Kesalahan Standar * t α;
95% Atas = Koefisien + Kesalahan Standar * t α.
Di Sini t α– jumlah pesanan α Distribusi Student t dengan derajat kebebasan (n-k-1). Pada kasus ini α = 0,95. Batas interval kepercayaan dalam kolom dihitung dengan cara yang sama 90,0% terbawah Dan 90,0% teratas.

7.9. Perhatikan tabelnya Penarikan saldo dari hasil keluarannya. Tabel ini muncul di hasil keluaran hanya jika setidaknya satu opsi di area tersebut ditetapkan Sisa kotak dialog Regresi.

Di kolom Pengamatan nomor seri nilai variabel diberikan Y.
Di kolom Prediksi Y nilai fungsi regresi y i = f(x i) dihitung untuk nilai variabel tersebut X, yang sesuai dengan nomor seri Saya di kolom Pengamatan.
Di kolom Sisa berisi selisih (residu) ε i =Y-y i , dan kolom Saldo standar– residu yang dinormalisasi, yang dihitung sebagai rasio ε i / s ε. dimana s ε adalah simpangan baku dari residu. Kuadrat nilai s ε dihitung menggunakan rumus

dimana adalah rata-rata dari residu. Nilainya dapat dihitung sebagai rasio dua nilai dari tabel dispersi: jumlah sisa kuadrat (sel C13) dan derajat kebebasan dari baris tersebut Total(sel B14).

7.10. Berdasarkan nilai tabel Penarikan saldo dua jenis grafik dibangun: grafik sisa Dan jadwal seleksi(jika opsi yang sesuai ditetapkan di area tersebut Sisa kotak dialog Regresi). Mereka dibangun untuk setiap komponen variabel X terpisah.

Pada grafik keseimbangan saldo ditampilkan, mis. perbedaan antara nilai aslinya Y dan dihitung dari fungsi regresi untuk setiap nilai komponen variabel X.

Pada jadwal seleksi menampilkan nilai Y asli dan nilai fungsi regresi yang dihitung untuk setiap nilai komponen variabel X.

7.11. Tabel hasil keluaran yang terakhir adalah tabel Keluaran probabilitas. Tampaknya jika di kotak dialog Regresi opsi diinstal Plot probabilitas normal.
Nilai kolom Persentil dihitung sebagai berikut. Langkah dihitung jam = (1/n)*100%, nilai pertama adalah jam/2, yang terakhir adalah sama 100 jam/2. Mulai dari nilai kedua, setiap nilai berikutnya sama dengan nilai sebelumnya, yang ditambahkan satu langkah H.
Di kolom Y nilai variabel diberikan Y, diurutkan dalam urutan menaik. Berdasarkan data pada tabel ini, yang disebut jadwal distribusi normal . Ini memungkinkan Anda menilai secara visual tingkat linearitas hubungan antar variabel X Dan Y.


8. D analisis varians

8.1. Paket analisis memungkinkan untuk tiga jenis analisis varians. Pemilihan instrumen tertentu ditentukan oleh jumlah faktor dan jumlah sampel dalam kumpulan data yang diteliti.
digunakan untuk menguji hipotesis bahwa rata-rata dua atau lebih sampel yang termasuk dalam sampel yang sama adalah serupa populasi.
ANOVA dua arah dengan pengulangan adalah pilihan yang lebih kompleks analisis univariat, termasuk lebih dari satu sampel untuk setiap kelompok data.
ANOVA dua arah tanpa pengulangan adalah analisis varians dua arah yang tidak mencakup lebih dari satu sampel per kelompok. Digunakan untuk menguji hipotesis bahwa mean dari dua sampel atau lebih adalah sama (sampel tersebut berasal dari populasi yang sama).

8.2. ANOVA satu arah

8.2.1. Mari siapkan data untuk dianalisis. Buat lembar baru dan salin kolom ke dalamnya A, B, C, D. Hapus dua baris pertama. Data yang telah disiapkan dapat digunakan untuk melakukan Analisis varians satu arah.

8.2.2. Hubungi alat seleksi melalui Data > Analisis Data > ANOVA satu arah. Isi sesuai gambar. Klik OKE.

8.2.3. Perhatikan tabelnya Hasil: Memeriksa– jumlah pengulangan, Jumlah– jumlah nilai indikator per baris, Penyebaran– varians parsial dari indikator.

8.2.4. Meja Analisis varians: kolom pertama Sumber Variasi berisi nama dispersi, SS– jumlah deviasi kuadrat, df- derajat kebebasan, MS– rata-rata persegi, Uji-F distribusi F sebenarnya. Nilai-P– probabilitas bahwa varians yang direproduksi oleh persamaan tersebut sama dengan varians dari residu. Ini menetapkan kemungkinan bahwa penentuan kuantitatif yang diperoleh dari hubungan antara faktor-faktor dan hasilnya dapat dianggap acak. F-kritis– ini adalah nilai F teoritis, yang selanjutnya dibandingkan dengan F sebenarnya.

8.2.5. Hipotesis nol tentang kesetaraan ekspektasi matematis dari semua sampel diterima jika pertidaksamaan Uji-F < F-kritis. hipotesis ini harus ditolak. Dalam hal ini, nilai rata-rata sampel berbeda secara signifikan.

Konstruksi regresi linier, evaluasi parameter dan signifikansinya dapat dilakukan lebih cepat bila menggunakan paket analisis unggul(Regresi). Mari kita pertimbangkan interpretasi hasil yang diperoleh kasus umum (k variabel penjelas) sesuai contoh 3.6.

Di meja statistik regresi nilai-nilai berikut diberikan:

Banyak R – koefisien korelasi berganda;

R- persegi– koefisien determinasi R 2 ;

Dinormalisasi R - persegi- disesuaikan R 2 disesuaikan dengan jumlah derajat kebebasan;

Kesalahan standar– kesalahan standar regresi S;

Pengamatan – sejumlah observasi N.

Di meja Analisis varians diberikan:

1. Kolom df - jumlah derajat kebebasan sama dengan

untuk string Regresi df = k;

untuk string Sisadf = Nk – 1;

untuk string Totaldf = N– 1.

2. Kolom SS – jumlah simpangan kuadrat sama dengan

untuk string Regresi ;

untuk string Sisa ;

untuk string Total .

3. Kolom MS varians ditentukan oleh rumus MS = SS/df:

untuk string Regresi– dispersi faktor;

untuk string Sisa– varians sisa.

4. Kolom F – nilai yang dihitung F-kriteria dihitung menggunakan rumus

F = MS(regresi)/ MS(sisa).

5. Kolom Makna F – nilai tingkat signifikansi sesuai dengan yang dihitung F-statistik .

Makna F= FDIST( F- statistik, df(regresi), df(sisa)).

Jika penting F < стандартного уровня значимости, то R 2 signifikan secara statistik.

Kemungkinan Kesalahan standar t-statistik Nilai-P 95% terbawah 95% teratas
Y 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

Tabel ini menunjukkan:

1. Kemungkinan– nilai koefisien A, B.

2. Kesalahan standar– kesalahan standar koefisien regresi S a, Sb.



3. T- statistik– nilai yang dihitung T -kriteria dihitung dengan rumus:

t-statistik = Koefisien/Kesalahan standar.

4.R-nilai (signifikansi T) adalah nilai tingkat signifikansi yang sesuai dengan yang dihitung T- statistik.

R-nilai = PELAJAR(T-statistik, df(sisa)).

Jika R-arti< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. 95% terbawah dan 95% teratas– lebih rendah dan batas atas Interval kepercayaan 95% untuk koefisien persamaan regresi linier teoritis.

PENARIKAN SISANYA
Pengamatan Diprediksi kamu Residu e
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

Di meja PENARIKAN SISANYA ditunjukkan:

di kolom Pengamatan– nomor observasi;

di kolom Dinubuatkan kamu – nilai yang dihitung dari variabel terikat;

di kolom Sisa e – perbedaan antara nilai variabel dependen yang diamati dan dihitung.

Contoh 3.6. Terdapat data (unit konvensional) mengenai biaya pangan kamu dan pendapatan per kapita X untuk sembilan kelompok keluarga:

X
kamu

Dengan menggunakan hasil paket analisis Excel (Regresi), kita akan menganalisis ketergantungan biaya pangan terhadap pendapatan per kapita.

Hasil analisis regresi biasanya ditulis dalam bentuk:

di mana kesalahan standar koefisien regresi ditunjukkan dalam tanda kurung.

Koefisien regresi A = 65,92 dan B= 0,107. Arah komunikasi antar kamu Dan X menentukan tanda koefisien regresi B= 0,107, yaitu hubungannya langsung dan positif. Koefisien B= 0,107 menunjukkan bahwa dengan peningkatan pendapatan per kapita sebesar 1 konvensional. unit biaya pangan meningkat sebesar 0,107 unit konvensional. unit

Mari kita evaluasi signifikansi koefisien model yang dihasilkan. Signifikansi koefisien ( a, b) diperiksa oleh T-tes:

Nilai-P ( A) = 0,00080 < 0,01 < 0,05

Nilai-P ( B) = 0,00016 < 0,01 < 0,05,

oleh karena itu, koefisien ( a, b) signifikan pada tingkat signifikansi 1%, terlebih lagi signifikan pada tingkat signifikansi 5%. Dengan demikian, koefisien regresinya signifikan dan modelnya memadai untuk data asli.

Hasil estimasi regresi tidak hanya sesuai dengan nilai koefisien regresi yang diperoleh, tetapi juga dengan himpunan tertentu (interval kepercayaan). Dengan probabilitas 95%, interval kepercayaan untuk koefisiennya adalah (38,16 – 93,68) untuk A dan (0,0728 – 0,142) untuk B.

Kualitas model dinilai dengan koefisien determinasi R 2 .

Besarnya R 2 = 0,884 berarti faktor pendapatan per kapita dapat menjelaskan 88,4% variasi (scatter) pengeluaran makanan.

Makna R 2 diperiksa oleh F- tes: signifikansi F = 0,00016 < 0,01 < 0,05, следовательно, R 2 signifikan pada tingkat signifikansi 1%, terlebih lagi signifikan pada tingkat signifikansi 5%.

Dalam kasus regresi linier berpasangan, koefisien korelasi dapat didefinisikan sebagai . Nilai koefisien korelasi yang diperoleh menunjukkan bahwa hubungan antara pengeluaran makanan dengan pendapatan per kapita sangat erat.



Baru di situs

>

Paling populer