Rumah Pulpitis Rata-rata kesalahan perkiraan relatif di excel. Kesalahan perkiraan rata-rata

Rata-rata kesalahan perkiraan relatif di excel. Kesalahan perkiraan rata-rata

Pekerjaan kursus

dalam disiplin "Ekonometrika"

« Analisis komprehensif tentang hubungan antara indikator kinerja keuangan dan ekonomi perusahaan"

Opsi No.12

Lengkap:

siswa kelompok EET-312

Logunov N.Yu.

Diperiksa:

Asosiasi. Ishkhanyan M.V.

Moskow 2015

Rumusan masalah

1. Penyusunan matriks korelasi. Pemilihan faktor

2. Konstruksi persamaan berganda regresi linier. Interpretasi parameter persamaan

3. Koefisien determinasi, koefisien berganda korelasi

4.Menilai kualitas persamaan regresi linier berganda

4.1.Rata-rata Kesalahan relatif perkiraan

4.2.Periksa signifikansi statistik persamaan regresi berganda secara keseluruhan menggunakan uji F Fisher

4.3.Memeriksa signifikansi statistik dari parameter persamaan regresi berganda. Estimasi parameter interval

5.Aplikasi model regresi

5.1.Perkiraan poin

5.2 Koefisien elastisitas parsial dan rata-rata koefisien elastisitas parsial

6.Analisis residu model regresi (memeriksa premis teorema Gauss-Markov)

6.1.Peringkat ekspektasi matematis sisa

6.2.Memeriksa autokorelasi pada residu

7. Kriteria Gregory Chow

Rumusan masalah

Nilai 6 indikator yang mencirikan kegiatan ekonomi 53 perusahaan telah ditentukan. Diperlukan:

1. Buat matriks korelasi. Sesuaikan kumpulan variabel independen (pilih 2 faktor).

4.2. Uji signifikansi statistik persamaan regresi berganda secara keseluruhan menggunakan uji F Fisher. Menarik kesimpulan

4.3. Periksa signifikansi statistik dari parameter persamaan regresi berganda. Buat estimasi interval parameter. Menarik kesimpulan.



5. Penerapan model regresi:

5.1. Dengan menggunakan persamaan yang dibangun, berikan perkiraan titik. Carilah nilai parameter y yang diteliti, jika nilai faktor pertama (yang paling erat hubungannya dengan y) adalah 110% dari nilai rata-ratanya, maka nilai faktor kedua adalah 80% dari nilai rata-ratanya. Berikan interpretasi ekonomi terhadap hasilnya.

5.2. Temukan koefisien elastisitas parsial dan rata-rata koefisien elastisitas parsial. Interpretasikan hasilnya. Menarik kesimpulan.

6. Analisis residu model regresi (periksa persyaratan teorema Gauss-Markov):

6.1. Temukan perkiraan ekspektasi matematis dari residu.

6.2. Periksa autokorelasi dalam residu. Menarik kesimpulan.

7. Bagilah sampel menjadi dua bagian yang sama besar. Mengingat observasi pertama dan terakhir sebagai sampel independen, uji hipotesis tentang kemungkinan menggabungkannya menjadi satu sampel menggunakan kriteria Gregory-Chow.

Menyusun matriks korelasi. Pemilihan faktor

Perusahaan No. Y3 X10 X12 X5 X7 X13
13,26 1,45 167,69 0,78 1,37
10,16 1,3 186,1 0,75 1,49
13,72 1,37 220,45 0,68 1,44
12,85 1,65 169,3 0,7 1,42
10,63 1,91 39,53 0,62 1,35
9,12 1,68 40,41 0,76 1,39
25,83 1,94 102,96 0,73 1,16
23,39 1,89 37,02 0,71 1,27
14,68 1,94 45,74 0,69 1,16
10,05 2,06 40,07 0,73 1,25
13,99 1,96 45,44 0,68 1,13
9,68 1,02 41,08 0,74 1,1
10,03 1,85 136,14 0,66 1,15
9,13 0,88 42,39 0,72 1,23
5,37 0,62 37,39 0,68 1,39
9,86 1,09 101,78 0,77 1,38
12,62 1,6 47,55 0,78 1,35
5,02 1,53 32,61 0,78 1,42
21,18 1,4 103,25 0,81 1,37
25,17 2,22 38,95 0,79 1,41
19,4 1,32 81,32 0,77 1,35
1,48 67,26 0,78 1,48
6,57 0,68 59,92 0,72 1,24
14,19 2,3 107,34 0,79 1,40
15,81 1,37 512,6 0,77 1,45
5,23 1,51 53,81 0,8 1,4
7,99 1,43 80,83 0,71 1,28
17,5 1,82 59,42 0,79 1,33
17,16 2,62 36,96 0,76 1,22
14,54 1,75 91,43 0,78 1,28
6,24 1,54 17,16 0,62 1,47
12,08 2,25 27,29 0,75 1,27
9,49 1,07 184,33 0,71 1,51
9,28 1,44 58,42 0,74 1,46
11,42 1,4 59,4 0,65 1,27
10,31 1,31 49,63 0,66 1,43
8,65 1,12 391,27 0,84 1,5
10,94 1,16 258,62 0,74 1,35
9,87 0,88 75,66 0,75 1,41
6,14 1,07 123,68 0,75 1,47
12,93 1,24 37,21 0,79 1,35
9,78 1,49 53,37 0,72 1,4
13,22 2,03 32,87 0,7 1,2
17,29 1,84 45,63 0,66 1,15
7,11 1,22 48,41 0,69 1,09
22,49 1,72 13,58 0,71 1,26
12,14 1,75 63,99 0,73 1,36
15,25 1,46 104,55 0,65 1,15
31,34 1,6 222,11 0,82 1,87
11,56 1,47 25,76 0,8 1,17
30,14 1,38 29,52 0,83 1,61
19,71 1,41 41,99 0,7 1,34
23,56 1,39 78,11 0,74 1,22

1.Buat matriks korelasi. Sesuaikan kumpulan variabel independen (pilih 2 faktor).

Mari kita perhatikan tanda yang dihasilkan Y3 dan karakteristik faktor X10, X12, X5, X7, X13 .

Mari kita membuat matriks korelasi menggunakan opsi “Analisis Data→Korelasi” di MS Excel:

Y3 X10 X12 X5 X7 X13
Y3 1,0000 0,3653 0,0185 0,2891 0,1736 0,0828
X10 0,3653 1,0000 -0,2198 -0,0166 -0,2061 -0,0627
X12 0,0185 -0,2198 1,0000 0,2392 0,3796 0,6308
X5 0,2891 -0,0166 0,2392 1,0000 0,4147 0,0883
X7 0,1736 -0,2061 0,3796 0,4147 1,0000 0,1939
X13 0,0828 -0,0627 0,6308 0,0883 0,1939 1,0000

Kami memilih 2 faktor berdasarkan kriteria:

1) hubungan antara Y dan X harus maksimal

2) koneksi antar Xmi harus minimal

Jadi, dalam paragraf berikut, pekerjaan akan dilakukan dengan faktor-faktor X10 , X5.

Membangun persamaan regresi linier berganda. Interpretasi parameter persamaan.

2. Buatlah persamaan regresi linier berganda. Berikan interpretasi tentang parameter persamaan.

Mari kita membuat model regresi menggunakan paket analisis “Analisis Data→Regresi” di MS Excel:

Kemungkinan
Y -20,7163
X 10 5,7169
X 5 34,9321

Persamaan regresinya akan terlihat seperti ini:

ŷ = b 0 + b 10 * x 10 + b 5 * x 5

ŷ = -20,7163-5,7169* x 10 +34,9321* x 5

1) b10 positif;

2) b5 positif;

Koefisien determinasi, koefisien korelasi berganda

3. Carilah koefisien determinasi, koefisien korelasi berganda. Menarik kesimpulan.

Dalam analisis regresi yang dilakukan dengan menggunakan paket analisis “Analisis Data → Regresi” di MS Excel, kami menemukan tabel “Statistik regresi”:

Koneksi multiple R antara Y3 dan X10,X5 lemah

R-squared - 22,05% variasi sifat Y dijelaskan oleh variasi sifat X10 dan X5

Menilai kualitas persamaan regresi linier berganda

4. Menilai kualitas persamaan regresi linier berganda:

Kesalahan perkiraan relatif rata-rata

4.1. Temukan kesalahan perkiraan relatif rata-rata. Menarik kesimpulan.

Mari kita hitung nilai prediksi untuk setiap observasi atau gunakan kolom “Prediksi Y” pada tabel “Residual Output” dalam analisis regresi yang dilakukan menggunakan paket analisis “Analisis Data→Regresi” di MS Excel)

Mari kita hitung kesalahan relatif untuk setiap observasi menggunakan rumus:

Mari kita hitung rata-rata kesalahan perkiraan relatif menggunakan rumus:

Kesimpulan: 20% < А < 50%, качество уравнения среднее (удовлетворительное).

Kesalahan perkiraan adalah salah satu masalah yang paling sering muncul ketika menerapkan metode perkiraan data awal tertentu. Ada berbagai jenis kesalahan perkiraan:

Kesalahan yang terkait dengan kesalahan data awal;

Kesalahan terkait dengan perbedaan antara model perkiraan dan struktur data perkiraan.

Excel memiliki fungsi Linier yang dikembangkan dengan baik untuk pemrosesan dan perkiraan data yang menggunakan matematika canggih. Untuk mendapatkan gambarannya, mari kita beralih (melalui F1) ke bagian deskriptif perkembangan ini, yang kami sajikan dengan singkatan dan beberapa perubahan notasi.

Menghitung statistik untuk suatu rangkaian menggunakan metode ini kuadrat terkecil untuk menghitung garis lurus yang paling sesuai dengan data yang tersedia. Fungsi ini mengembalikan array yang mendeskripsikan baris yang dihasilkan. Karena array nilai dikembalikan, fungsinya harus ditentukan sebagai rumus array.

Persamaan garis lurus adalah:

y=a+b1*x1+b2*x2+...bn*xn

Sintaksis:

LINEST(y;x;const;statistik)

Susunan kamu - nilai-nilai yang diketahui kamu.

Array x - nilai x yang diketahui. Array x dapat berisi satu atau lebih kumpulan variabel.

Konstanta adalah nilai boolean, yang menentukan apakah suku dummy a harus sama dengan 0.

Jika argumen const TRUE, 1, atau dihilangkan, maka a dievaluasi seperti biasa. Jika argumen const adalah FALSE atau 0, maka a disetel ke 0.

Statistik adalah nilai Boolean yang menunjukkan apakah statistik regresi tambahan harus dikembalikan. Jika statistiknya BENAR atau 1, maka LINEST akan mengembalikan statistik tambahan statistik regresi. Jika statistiknya FALSE, 0, atau dihilangkan, maka LINEST hanya mengembalikan koefisien dan intersepnya.

Statistik regresi tambahan:

se1,se2,...,sen - nilai kesalahan standar untuk koefisien b1,b2,...,bn.

sea ​​​​- nilai kesalahan standar untuk konstanta a (sea = #N/A jika const adalah FALSE).

r2 adalah koefisien determinisme. Nilai y sebenarnya dibandingkan dengan nilai yang diperoleh dari persamaan garis; Berdasarkan hasil perbandingan tersebut dihitung koefisien determinisme yang dinormalisasi dari 0 menjadi 1. Jika sama dengan 1 maka terdapat korelasi lengkap dengan model yaitu. tidak ada perbedaan antara nilai y aktual dan estimasi. Sebaliknya jika koefisien determinasinya 0, maka persamaan regresi tersebut tidak berhasil memprediksi nilai y. Untuk informasi tentang cara menghitung r2, lihat "Catatan" di akhir bagian ini.

sey adalah kesalahan standar untuk memperkirakan y.

F-statistik, atau nilai F-teramati. F-statistik digunakan untuk mengetahui apakah hubungan yang diamati antara variabel terikat dan variabel bebas terjadi secara kebetulan atau tidak.

df - derajat kebebasan. Derajat kebebasan berguna untuk mencari nilai kritis F pada tabel statistik. Untuk menentukan tingkat kepercayaan model, Anda membandingkan nilai pada tabel dengan statistik F yang dikembalikan oleh fungsi LINEST.

ssreg adalah jumlah regresi kuadrat.

ssresid adalah jumlah sisa kuadrat.

Gambar di bawah menunjukkan urutan pengembalian statistik regresi tambahan.

Catatan

Informasi yang dipilih dari fungsi tersebut dapat diperoleh melalui fungsi INDEX, misalnya:

Perpotongan Y (istilah bebas):

INDEKS(GARIS(y,x),2)

Keakuratan pendekatan garis lurus yang dihitung dengan fungsi LINEST bergantung pada derajat penyebaran data. Semakin dekat data dengan garis lurus maka semakin akurat model yang digunakan fungsi LINEST. Fungsi LINEST menggunakan kuadrat terkecil untuk menentukan kecocokan terbaik dengan data.

Dengan melakukan analisis regresi, Microsoft Excel menghitung untuk setiap titik kuadrat selisih antara nilai y yang diprediksi dan nilai y sebenarnya. Jumlah selisih kuadrat ini disebut jumlah sisa kuadrat. Microsoft Excel kemudian menghitung jumlah kuadrat selisih antara nilai y aktual dan nilai rata-rata y, yang disebut jumlah total kuadrat (jumlah regresi kuadrat + jumlah sisa kuadrat). Semakin kecil jumlah sisa kuadrat dibandingkan jumlah total kuadrat, maka semakin besar koefisien determinasi r2 yang mengukur seberapa baik persamaan regresi menjelaskan hubungan antar variabel.

Perhatikan bahwa nilai y yang diprediksi oleh persamaan regresi mungkin tidak benar jika berada di luar rentang nilai y yang digunakan untuk mendefinisikan persamaan tersebut.

Contoh 1 Kemiringan dan perpotongan Y

LINEST((1;9;5;7);(0;4;2;3)) sama dengan (2;1), kemiringan = 2 dan titik potong y = 1.

Menggunakan Statistik F dan R2

Anda dapat menggunakan statistik F untuk menentukan apakah suatu hasil dengan nilai r2 yang tinggi disebabkan oleh kebetulan. Apabila F-observasi lebih besar dari F-kritis, maka terjadi hubungan antar variabel. F-kritis dapat diperoleh dari tabel nilai F-kritis di buku referensi statistik matematika mana pun. Untuk mencari nilai ini dengan menggunakan uji satu sisi, tetapkan nilai Alpha (nilai Alpha digunakan untuk menunjukkan probabilitas kesimpulan yang salah bahwa terdapat hubungan yang kuat) sama dengan 0,05, dan untuk jumlah derajat kebebasan ( biasanya dinotasikan dengan v1 dan v2), misalkan v1 = k = 4 dan v2 = n - (k + 1) = 11 - (4 + 1) = 6, dimana k adalah banyaknya variabel dan n adalah banyaknya titik data . Dari tabel referensi diperoleh F-kritis sebesar 4,53. Nilai F yang diamati adalah 459,753674 (nilai ini diperoleh dalam contoh yang kami hilangkan), yang jauh lebih besar daripada nilai kritis F sebesar 4,53. Oleh karena itu, persamaan regresi yang dihasilkan berguna untuk memprediksi hasil yang diinginkan.

Kesalahan perkiraan rata-rata- penyimpangan rata-rata nilai yang dihitung dari nilai sebenarnya:

Dimana y x adalah nilai yang dihitung dari Persamaan.

Kesalahan perkiraan rata-rata hingga 15% menunjukkan model persamaan yang cocok.

Untuk tujuh wilayah wilayah Ural pada tahun 199X, diketahui nilai dua karakteristik.

Diperlukan:
1. Untuk mengkarakterisasi ketergantungan y pada x, hitung parameter fungsi berikut:
a) linier;
b) kekuasaan;
c) demonstratif;
d) hiperbola sama sisi (Anda juga perlu mengetahui cara melakukan pra-linearisasi model ini).
2. Evaluasi setiap model secara menyeluruh kesalahan perkiraan rata-rata CF dan uji F Fisher.

Kami melakukan solusinya menggunakan kalkulator daring Persamaan regresi linier.
a) persamaan regresi linier;
Menggunakan metode grafis.
Metode ini digunakan untuk menggambarkan secara visual bentuk hubungan antar indikator ekonomi yang diteliti. Untuk melakukan ini, grafik digambar dalam sistem koordinat persegi panjang, nilai individual dari karakteristik resultan Y diplot sepanjang sumbu ordinat, dan nilai individual dari karakteristik faktor X diplot sepanjang sumbu absis.
Himpunan titik-titik karakteristik resultan dan faktor disebut bidang korelasi.


Berdasarkan bidang korelasinya, dapat diajukan hipotesis (untuk populasi) bahwa hubungan antara semua kemungkinan nilai X dan Y adalah linier.
Persamaan regresi liniernya adalah y = bx + a + ε
Di sini ε adalah kesalahan acak (deviasi, gangguan).
Alasan adanya kesalahan acak:
1. Kegagalan memasukkan variabel penjelas yang signifikan ke dalam model regresi;
2. Agregasi variabel. Misalnya, fungsi konsumsi total adalah suatu usaha ekspresi umum agregat keputusan pembelanjaan individu. Ini hanyalah perkiraan hubungan individu yang memiliki parameter berbeda.
3. Deskripsi struktur model yang salah;
4. Spesifikasi fungsional yang salah;
5. Kesalahan pengukuran.
Karena deviasi i untuk setiap observasi spesifik i bersifat acak dan nilainya dalam sampel tidak diketahui, maka:
1) dari pengamatan x i dan y i hanya dapat diperoleh estimasi parameter α dan β
2) Estimasi parameter α dan β model regresi masing-masing adalah nilai a dan b yang bersifat acak, karena sesuai dengan sampel acak;
Maka persamaan regresi penduga (dibangun dari data sampel) akan berbentuk y = bx + a + ε, di mana e i adalah nilai pengamatan (perkiraan) dari kesalahan ε i , dan a dan b masing-masing merupakan perkiraan parameter α dan β model regresi yang harus ditemukan.
Untuk memperkirakan parameter α dan β digunakan metode kuadrat terkecil (least square method).




Kita peroleh b = -0,35, a = 76,88
Persamaan regresi:
kamu = -0,35 x + 76,88

X kamu x 2 kamu 2 x kamu kamu(x) (y saya -y cp) 2 (yy(x)) 2 |kamu - kamu x |:kamu
45,1 68,8 2034,01 4733,44 3102,88 61,28 119,12 56,61 0,1094
59 61,2 3481 3745,44 3610,8 56,47 10,98 22,4 0,0773
57,2 59,9 3271,84 3588,01 3426,28 57,09 4,06 7,9 0,0469
61,8 56,7 3819,24 3214,89 3504,06 55,5 1,41 1,44 0,0212
58,8 55 3457,44 3025 3234 56,54 8,33 2,36 0,0279
47,2 54,3 2227,84 2948,49 2562,96 60,55 12,86 39,05 0,1151
55,2 49,3 3047,04 2430,49 2721,36 57,78 73,71 71,94 0,172
384,3 405,2 21338,41 23685,76 22162,34 405,2 230,47 201,71 0,5699

Catatan: nilai y(x) dicari dari persamaan regresi yang dihasilkan:
kamu(45,1) = -0,35*45,1 + 76,88 = 61,28
kamu(59) = -0,35*59 + 76,88 = 56,47
... ... ...

Kesalahan perkiraan
Mari kita evaluasi kualitas persamaan regresi menggunakan kesalahan perkiraan absolut. Kesalahan perkiraan rata-rata- penyimpangan rata-rata nilai yang dihitung dari nilai sebenarnya:

Karena errornya kurang dari 15%, persamaan ini dapat digunakan sebagai regresi.

F-statistik. Kriteria Fisher.










3. Nilai tabel ditentukan dari tabel distribusi Fisher untuk tingkat signifikansi tertentu, dengan mempertimbangkan jumlah derajat kebebasan jumlah total kuadrat (varians lebih besar) adalah 1 dan jumlah derajat kebebasan dari jumlah sisa kuadrat (varians lebih kecil) dalam regresi linier adalah n-2.
4. Jika nilai uji F sebenarnya lebih kecil dari nilai tabel, maka dikatakan tidak ada alasan untuk menolak hipotesis nol.
Jika tidak, hipotesis nol ditolak dan hipotesis alternatif tentang signifikansi statistik persamaan secara keseluruhan diterima dengan probabilitas (1-α).

< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

b) regresi kekuasaan;
Penyelesaiannya dilakukan dengan menggunakan layanan Regresi Nonlinier. Saat memilih, tentukan Power y = ax b
c) regresi eksponensial;
d) model hiperbola sama sisi.
Sistem persamaan normal.

Untuk data kami, sistem persamaan memiliki bentuk
7a + 0,1291b = 405,2
0,1291a + 0,0024b = 7,51
Dari persamaan pertama kita nyatakan a dan substitusikan ke persamaan kedua
Kita mendapatkan b = 1054,67, a = 38,44
Persamaan regresi:
kamu = 1054,67 / x + 38,44
Kesalahan perkiraan.
Mari kita evaluasi kualitas persamaan regresi menggunakan kesalahan perkiraan absolut.

Karena errornya kurang dari 15%, persamaan ini dapat digunakan sebagai regresi.

Kriteria Fisher.
Pengujian signifikansi suatu model regresi dilakukan dengan menggunakan uji F Fisher yang nilai hitungnya diperoleh dari perbandingan varians rangkaian pengamatan asli terhadap indikator yang diteliti dan taksiran varians rangkaian sisa yang tidak bias. untuk model ini.
Jika nilai hitung dengan derajat kebebasan k1=(m) dan k2=(n-m-1) lebih besar dari nilai tabel pada tingkat signifikansi tertentu, maka model tersebut dianggap signifikan.

dimana m adalah jumlah faktor dalam model.
Signifikansi statistik dari regresi linier berpasangan dinilai menggunakan algoritma berikut:
1. Hipotesis nol diajukan bahwa persamaan secara keseluruhan tidak signifikan secara statistik: H 0: R 2 =0 pada tingkat signifikansi α.
2. Selanjutnya tentukan nilai kriteria F yang sebenarnya:

dimana m=1 untuk regresi berpasangan.
Tabel nilai kriteria dengan derajat kebebasan k1=1 dan k2=5, Fkp = 6,61
Karena nilai sebenarnya dari F< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

5. Dengan menggunakan uji F, diketahui bahwa persamaan regresi berpasangan yang dihasilkan secara keseluruhan tidak signifikan secara statistik dan tidak cukup menggambarkan fenomena yang diteliti tentang hubungan antara nilai pensiun bulanan y dan biaya hidup x.

6. Telah dihasilkan model regresi linier berganda ekonometrik yang menghubungkan jumlah laba bersih perusahaan bersyarat y dengan perputaran modal x1 dan modal yang digunakan x2

7. Dengan menghitung koefisien elastisitas terlihat bahwa apabila perputaran modal berubah sebesar 1% maka besarnya laba bersih perusahaan akan berubah sebesar 0,0008%, dan bila modal yang digunakan berubah sebesar 1% maka besarnya laba bersih perusahaan tersebut akan berubah. berubah sebesar 0,56%.

8. Dengan menggunakan uji-t, signifikansi statistik dari koefisien regresi dinilai, ditemukan bahwa variabel penjelas x 1 tidak signifikan secara statistik dan dapat dikeluarkan dari persamaan regresi, sedangkan variabel penjelas x 2 adalah signifikan secara statistik.

9. Dengan menggunakan uji F, ditetapkan bahwa persamaan regresi berpasangan yang dihasilkan secara keseluruhan signifikan secara statistik, dan cukup menggambarkan fenomena yang dipelajari tentang hubungan antara laba bersih perusahaan bersyarat y dan perputaran modal x 1 dan modal yang digunakan x 2.

10. Rata-rata kesalahan perkiraan data statistik dengan persamaan regresi linier berganda dihitung sebesar 29,8%. Hal ini ditunjukkan karena pengamatan dalam database statistik yang besarnya kesalahan ini melebihi nilai yang diizinkan.

14. Membangun model regresi berpasangan tanpa menggunakan EXCEL.

Dengan menggunakan materi statistik yang diberikan pada Tabel 3.5, perlu untuk:

2. Menilai keeratan hubungan dengan menggunakan indikator korelasi dan determinasi.

3. Dengan menggunakan koefisien elastisitas, tentukan derajat hubungan antara karakteristik faktor dengan resultan.

4. Tentukan kesalahan perkiraan rata-rata.

5. Menilai reliabilitas statistik pemodelan menggunakan uji F Fisher.

Tabel 3.5. Data awal.

Bagian pendapatan tunai yang ditujukan untuk meningkatkan tabungan dalam bentuk deposito, pinjaman, sertifikat dan pembelian mata uang asing, dalam jumlah rata-rata pendapatan tunai per kapita, %

Gaji bulanan rata-rata yang masih harus dibayar, c.u.

Kaluga

Kostroma

Orlovsky

Ryazan

smolenskaya

Untuk menentukan parameter yang tidak diketahui b 0 , b 1 dari persamaan regresi linier berpasangan, kami menggunakan sistem standar persamaan normal, yang berbentuk

(3.7)

Untuk menyelesaikan sistem ini pertama-tama perlu ditentukan nilai Sx 2 dan Sxy. Nilai-nilai ini ditentukan dari tabel data sumber, melengkapinya dengan kolom yang sesuai (Tabel 3.6).

Tabel 3.6. Terhadap perhitungan koefisien regresi.

Kemudian sistem (3.7) mengambil bentuk

Mengekspresikan b 0 dari persamaan pertama dan mensubstitusikan ekspresi yang dihasilkan ke persamaan kedua, kita memperoleh:

Melakukan perkalian suku demi suku dan membuka tanda kurung, kita peroleh:

Terakhir, persamaan regresi linier berpasangan yang menghubungkan nilai bagian pendapatan tunai penduduk yang ditujukan untuk meningkatkan tabungan y dengan rata-rata upah bulanan yang masih harus dibayar x memiliki bentuk:

Jadi, saat persamaan regresi linier berpasangan dibangun, kami menentukan koefisien korelasi linier berdasarkan ketergantungan:

di mana nilai deviasi standar dari parameter yang sesuai.

Untuk menghitung koefisien korelasi linier dari ketergantungan (3.9), kami melakukan perhitungan perantara.

Mengganti nilai parameter yang ditemukan ke dalam ekspresi (3.9) yang kita peroleh

.

Nilai koefisien korelasi linier yang diperoleh menunjukkan adanya hubungan statistik terbalik yang lemah antara bagian pendapatan tunai penduduk yang ditujukan untuk meningkatkan tabungan y dan jumlah rata-rata upah bulanan yang masih harus dibayar x.

Koefisien determinasinya sebesar , artinya hanya 9,6% yang dijelaskan dengan meregresi variabel penjelas x pada y. Dengan demikian, nilai 1 sebesar 90,4% mencirikan bagian varians variabel y yang disebabkan oleh pengaruh semua variabel penjelas lainnya yang tidak diperhitungkan dalam model ekonometrik.

Koefisien elastisitasnya adalah

Akibatnya, ketika rata-rata upah bulanan yang masih harus dibayar berubah sebesar 1%, bagian pendapatan tunai penduduk yang ditujukan untuk meningkatkan tabungan juga berkurang sebesar 1%, dan dengan kenaikan upah, terjadi penurunan bagian pendapatan tunai penduduk. penduduk yang bertujuan untuk meningkatkan tabungan. Kesimpulan ini bertentangan dengan akal sehat dan hanya dapat dijelaskan oleh kesalahan model matematika yang dihasilkan.

Mari kita hitung kesalahan perkiraan rata-rata.

Tabel 3.7. Menuju perhitungan kesalahan perkiraan rata-rata.

Nilai yang diperoleh melebihi (12...15)%, yang menunjukkan signifikansi rata-rata deviasi data perhitungan dari data aktual yang menjadi dasar model ekonometrik dibangun.

Keandalan pemodelan statistik akan dilakukan berdasarkan uji F Fisher. Nilai teoritis kriteria Fisher F calc ditentukan dari perbandingan nilai faktor dan dispersi sisa yang dihitung untuk satu derajat kebebasan sesuai rumus

dimana n adalah jumlah observasi;

m adalah banyaknya variabel penjelas (untuk contoh yang dipertimbangkan m m =1).

Nilai kritis F krit ditentukan dari tabel statistik dan untuk tingkat signifikansi a = 0,05 sama dengan 10,13. Sejak F dihitung

15. Membangun model regresi berganda tanpa menggunakan EXCEL.

Dengan menggunakan materi statistik yang diberikan pada Tabel 3.8 Anda harus:

1. Buatlah persamaan regresi linier berganda dan jelaskan arti ekonomi dari parameternya.

2. Memberikan penilaian perbandingan keeratan hubungan antara faktor dan atribut yang dihasilkan dengan menggunakan koefisien elastisitas rata-rata (umum).

3. Menilai signifikansi statistik dari koefisien regresi menggunakan uji-t dan hipotesis nol tentang tidak signifikannya persamaan tersebut menggunakan uji F.

4. Menilai kualitas persamaan dengan menentukan rata-rata kesalahan perkiraan.

Tabel 3.8. Data awal.

Pendapatan bersih, juta dolar AS

Perputaran modal juta dolar AS

Modal yang digunakan, juta Dolar Amerika

Untuk menentukan parameter yang tidak diketahui b 0 , b 1 , b 2 dari persamaan regresi linier berganda, kita menggunakan sistem standar persamaan normal yang berbentuk

(3.11)

Untuk menyelesaikan sistem ini terlebih dahulu perlu ditentukan nilai besaran Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2. Nilai-nilai ini ditentukan dari tabel data sumber, melengkapinya dengan kolom yang sesuai (Tabel 3.9).

Tabel 3.9. Terhadap perhitungan koefisien regresi.

Kemudian sistem (3.11) mengambil bentuk

Untuk menyelesaikan sistem ini, kita akan menggunakan metode Gauss, yang terdiri dari menghilangkan hal-hal yang tidak diketahui secara berurutan: bagi persamaan pertama sistem dengan 10, lalu kalikan persamaan yang dihasilkan dengan 370,6 dan kurangi persamaan kedua sistem, lalu kalikan hasilnya. persamaan yang dihasilkan sebesar 158,20 dan kurangi dari persamaan ketiga sistem. Mengulangi algoritma yang ditentukan untuk transformasi persamaan kedua dan ketiga dari sistem, kita memperoleh:

Þ Þ

Þ .

Setelah transformasi kita memiliki:

Maka ketergantungan akhir laba bersih terhadap perputaran modal dan modal yang digunakan berbentuk persamaan linier regresi berganda memiliki bentuk:

Dari persamaan ekonometrik yang dihasilkan terlihat bahwa dengan bertambahnya modal yang digunakan maka laba bersih meningkat dan sebaliknya dengan bertambahnya perputaran modal maka laba bersih menurun. Selain itu, semakin besar koefisien regresi maka semakin besar pula pengaruh variabel penjelas terhadap variabel terikat. Pada contoh yang dibahas, nilai koefisien regresi lebih besar dari nilai koefisien, sehingga modal yang digunakan mempunyai pengaruh yang jauh lebih besar terhadap laba bersih dibandingkan perputaran modal. Untuk mengukur kesimpulan ini, kita akan menentukan koefisien elastisitas parsial.

Analisis hasil juga menunjukkan bahwa modal yang digunakan mempunyai pengaruh yang lebih besar terhadap laba bersih. Jadi, khususnya, dengan peningkatan modal yang digunakan sebesar 1%, laba bersih meningkat sebesar 1,17%. Pada saat yang sama, dengan peningkatan perputaran modal sebesar 1%, laba bersih menurun sebesar 0,5%.

Nilai teoritis kriteria Fisher F kalkulasi.

Nilai nilai kritis F krit ditentukan dari tabel statistik dan untuk tingkat signifikansi a = 0,05 sama dengan 4,74. Karena F hitung > F krit, hipotesis nol ditolak dan persamaan regresi yang dihasilkan diterima signifikan secara statistik.

Penilaian signifikansi statistik dari koefisien regresi dan kriteria-t dilakukan dengan membandingkan nilai numerik dari koefisien ini dengan besarnya kesalahan acaknya dan berdasarkan hubungan:

Rumus kerja untuk menghitung nilai teoritis t-statistik adalah:

, (3.13)

dimana koefisien korelasi berpasangan dan koefisien korelasi berganda dihitung dari ketergantungan:

Maka nilai teoritis (perhitungan) dari t-statistik masing-masing sama dengan:

Karena nilai kritis t-statistik yang ditentukan dari tabel statistik untuk tingkat signifikansi a = 0,05 sama dengan t krit = 2,36 lebih besar nilai absolutnya dari = - 1,798, maka hipotesis nol tidak ditolak dan variabel penjelas x 1 secara statistik tidak signifikan dan dapat dikeluarkan dari persamaan regresi. Sebaliknya, untuk koefisien regresi kedua > t krit (3,3 > 2,36), dan variabel penjelas x 2 signifikan secara statistik.

Mari kita hitung kesalahan perkiraan rata-rata.

Tabel 3.10. Menuju perhitungan kesalahan perkiraan rata-rata.

Maka kesalahan perkiraan rata-ratanya adalah

Nilai yang diperoleh tidak melebihi batas yang diperbolehkan yaitu (12…15)%.

16. Sejarah perkembangan teori pengukuran

TI pertama kali dikembangkan sebagai teori pengukuran psikofisik. Dalam publikasi pasca perang, psikolog Amerika S.S. Stevens fokus pada skala pengukuran. Pada paruh kedua abad ke-20. Cakupan penerapan TI berkembang pesat. Salah satu volume “Encyclopedia of Psychological Sciences” yang diterbitkan di Amerika Serikat pada tahun 50-an berjudul “Psychological Measurements”. Penulis publikasi ini memperluas cakupan TI dari psikofisika ke psikologi secara umum. Dalam artikel dalam kumpulan ini, “Fundamentals of Measurement Theory,” presentasinya berada pada level matematika abstrak, tanpa mengacu pada bidang penerapan spesifik apa pun. Di dalamnya, penekanannya ditempatkan pada "homomorfisme sistem empiris dengan hubungan ke dalam numerik" (tidak perlu membahas istilah matematika ini di sini), dan kompleksitas presentasi matematika meningkat dibandingkan dengan karya S.S. Steven.

Dalam salah satu artikel dalam negeri pertama tentang TI (akhir tahun 60an), ditetapkan bahwa poin yang diberikan oleh para ahli ketika menilai objek pemeriksaan, pada umumnya, diukur pada skala ordinal. Karya-karya yang muncul di awal tahun 70-an menyebabkan perluasan cakupan penggunaan TI secara signifikan. Ini telah diterapkan pada kualimetri pedagogis (mengukur kualitas pengetahuan siswa), dalam penelitian sistem, dan dalam berbagai masalah teoretis. penilaian ahli, untuk menggabungkan indikator kualitas produk, dalam studi sosiologi, dll.

Sebagai dua masalah utama TI, bersama dengan penetapan jenis skala untuk mengukur data tertentu, pencarian algoritma analisis data diajukan, yang hasilnya tidak berubah dengan transformasi skala yang diizinkan (yaitu, invarian terhadap untuk transformasi ini).Skala ordinal dalam geografi adalah skala angin Beaufort (“tenang”, “angin sepoi-sepoi”, “angin sedang”, dll.), skala kekuatan gempa. Jelasnya, tidak dapat dikatakan bahwa gempa berkekuatan 2 (lampu bergoyang di bawah langit-langit) tepat 5 kali lebih lemah dari gempa berkekuatan 10 (kehancuran total segala sesuatu di permukaan bumi).

Dalam dunia kedokteran, skala ordinal adalah skala tahapan hipertensi (menurut Myasnikov), skala derajat gagal jantung (menurut Strazhesko-Vasilenko-Lang), skala keparahan insufisiensi koroner (menurut Fogelson), dll. . Semua skala ini dibuat sesuai dengan skema berikut: tidak ada penyakit yang terdeteksi; tahap pertama penyakit; tahap kedua; tahap ketiga... Terkadang stadium 1a, 16, dst dibedakan, Setiap stadium memiliki karakteristik medis yang unik. Saat menggambarkan kelompok disabilitas, angka yang digunakan berlawanan dengan urutannya: yang paling parah adalah kelompok disabilitas yang pertama, lalu yang kedua, yang paling ringan adalah yang ketiga.

Nomor rumah juga diukur dalam skala ordinal - nomor tersebut menunjukkan urutan letak rumah di sepanjang jalan. Nomor volume dalam kumpulan karya penulis atau nomor kasus dalam arsip perusahaan biasanya dikaitkan dengan urutan kronologis pembuatannya.

Saat menilai kualitas produk dan layanan, skala ordinal populer dalam apa yang disebut kualimetri (terjemahan literal - pengukuran kualitas). Yakni suatu unit produksi dinilai layak atau tidak layak. Untuk analisis yang lebih teliti digunakan skala dengan tiga gradasi: ada cacat signifikan - hanya ada cacat kecil - tidak ada cacat. Kadang-kadang digunakan empat gradasi: ada cacat kritis (sehingga tidak mungkin digunakan) - ada cacat signifikan - hanya ada cacat kecil - tidak ada cacat. Penilaian produk memiliki arti yang sama - premium, kelas satu, kelas dua,...

Dalam menilai dampak lingkungan, penilaian pertama yang paling umum biasanya bersifat ordinal, misalnya: lingkungan alam stabil - lingkungan alam tertindas (terdegradasi). Skala lingkungan dan medis serupa: tidak ada dampak nyata terhadap kesehatan manusia - ada dampak negatif terhadap kesehatan.

Skala ordinal juga digunakan di daerah lain. Dalam ekonometrika, ini adalah berbagai metode penilaian ahli.

Semua skala pengukuran dibagi menjadi dua kelompok - skala karakteristik kualitatif dan skala karakteristik kuantitatif. Skala ordinal dan skala penamaan merupakan skala utama atribut kualitatif, sehingga di banyak bidang tertentu hasil analisis kualitatif dapat dianggap sebagai pengukuran pada skala tersebut. Skala sifat kuantitatif adalah skala interval, rasio, perbedaan, absolut. Dengan menggunakan skala interval, besarnya energi potensial atau koordinat suatu titik pada garis lurus diukur. Dalam kasus ini, baik asal usul alam maupun satuan pengukuran alami tidak dapat ditandai pada skala. Peneliti harus menetapkan titik awal dan memilih sendiri satuan pengukuran. Transformasi yang dapat diterima dalam skala interval adalah transformasi peningkatan linier, yaitu. fungsi linier. Skala suhu Celsius dan Fahrenheit dihubungkan dengan ketergantungan berikut: °C = 5/9 (°F - 32), dengan °C adalah suhu (dalam derajat) pada skala Celsius, dan °F adalah suhu pada Fahrenheit skala.

Dari skala kuantitatif, yang paling umum dalam sains dan praktik adalah skala rasio. Mereka memiliki titik acuan alami - nol, yaitu. tidak adanya kuantitas, tetapi tidak ada satuan pengukuran alami. Sebagian besar satuan fisik diukur pada skala rasio: massa benda, panjang, muatan, serta harga dalam perekonomian. Transformasi yang dapat diterima dalam skala rasio serupa (hanya mengubah skalanya). Dengan kata lain, transformasi peningkatan linier tanpa istilah bebas, misalnya konversi harga dari satu mata uang ke mata uang lainnya dengan kurs tetap. Misalkan kita membandingkan efisiensi ekonomi dari dua proyek investasi menggunakan harga dalam rubel. Biarkan proyek pertama menjadi lebih baik dari yang kedua. Sekarang mari kita beralih ke mata uang Tiongkok - yuan, menggunakan nilai konversi tetap. Tentu saja, proyek pertama seharusnya lebih menguntungkan dibandingkan proyek kedua. Namun, algoritma perhitungan tidak secara otomatis memastikan bahwa kondisi ini terpenuhi, dan perlu untuk memeriksa apakah kondisi tersebut terpenuhi. Hasil pengujian nilai rata-rata tersebut dijelaskan di bawah ini.

Skala perbedaan memiliki satuan pengukuran alami, tetapi tidak memiliki titik acuan alami. Waktu diukur pada skala perbedaan, jika tahun (atau hari - dari siang hingga siang hari) diambil sebagai satuan pengukuran alami, dan pada skala interval dalam kasus umum. Pada tingkat pengetahuan saat ini, tidak mungkin untuk menunjukkan titik awal yang alami. Penulis yang berbeda menghitung tanggal penciptaan dunia dengan cara yang berbeda, serta momen Kelahiran Kristus.

Hanya saja untuk skala absolut hasil pengukurannya berupa angka-angka dalam arti kata biasa, misalnya jumlah orang dalam suatu ruangan. Untuk skala absolut, hanya transformasi identitas yang diperbolehkan.

Dalam proses penguasaan bidang ilmu yang bersangkutan, jenis skalanya dapat berubah. Jadi, mula-mula suhu diukur dalam skala ordinal (lebih dingin - lebih hangat). Kemudian - menurut interval (skala Celsius, Fahrenheit, Reaumur). Akhirnya, setelah ditemukannya nol mutlak, suhu dapat dianggap diukur pada skala rasio (skala Kelvin). Perlu dicatat bahwa terkadang terdapat perbedaan pendapat di antara para ahli mengenai skala mana yang harus digunakan untuk mempertimbangkan nilai riil tertentu yang diukur. Dengan kata lain, proses pengukuran juga mencakup penentuan jenis skala (beserta alasan pemilihan jenis skala tertentu). Selain enam jenis skala utama yang tercantum, skala lain terkadang digunakan.

17. Algoritma invarian dan nilai rata-rata.

Mari kita rumuskan syarat utama algoritma analisis data di TI: kesimpulan yang diambil berdasarkan data yang diukur pada skala jenis tertentu tidak boleh berubah ketika skala pengukuran data tersebut diperbolehkan. Dengan kata lain, kesimpulan harus invarian berdasarkan transformasi skala yang valid.

Dengan demikian, salah satu tujuan utama teori pengukuran adalah untuk melawan subjektivitas peneliti ketika memberikan nilai numerik pada objek nyata. Dengan demikian, jarak dapat diukur dalam arshin, meter, mikron, mil, parsec, dan satuan pengukuran lainnya. Massa (berat) - dalam pood, kilogram, pound, dll. Harga barang dan jasa dapat ditunjukkan dalam yuan, rubel, tenge, hryvnia, lat, kroon, mark, dolar AS, dan mata uang lainnya (tergantung pada tingkat konversi yang ditentukan). Mari kita tekankan fakta yang sangat penting, meskipun cukup jelas: pilihan satuan pengukuran bergantung pada peneliti, yaitu. subyektif. Kesimpulan statistik dapat sesuai dengan kenyataan hanya jika kesimpulan tersebut tidak bergantung pada unit pengukuran mana yang disukai peneliti, jika kesimpulan tersebut invarian terhadap transformasi skala yang diizinkan. Dari sekian banyak algoritma analisis data ekonometrik, hanya sedikit yang memenuhi syarat tersebut. Mari kita tunjukkan dengan membandingkan nilai rata-rata.

Misalkan X 1, X 2,.., X n adalah sampel yang volumenya n. Rata-rata aritmatika sering digunakan. Penggunaan rata-rata aritmatika sangat umum sehingga kata kedua dalam istilah tersebut sering dihilangkan dan orang-orang berbicara tentang gaji rata-rata, pendapatan rata-rata, dan rata-rata lainnya untuk data ekonomi tertentu, yang berarti “rata-rata” adalah rata-rata aritmatika. Tradisi ini dapat menimbulkan kesimpulan yang salah. Mari kita tunjukkan ini dengan menggunakan contoh penghitungan gaji rata-rata (pendapatan rata-rata) karyawan suatu perusahaan hipotetis. Dari 100 pekerja, hanya 5 yang mempunyai gaji melebihi itu, dan gaji 95 pekerja sisanya jauh lebih kecil dari rata-rata aritmatika. Alasannya jelas - gaji satu orang - direktur umum - melebihi gaji 95 pekerja - pekerja berketerampilan rendah dan berketerampilan tinggi, insinyur dan pekerja kantoran. Situasi ini mengingatkan kita pada kisah terkenal tentang sebuah rumah sakit yang didalamnya terdapat 10 pasien, 9 di antaranya memiliki suhu 40°C, dan satu orang sudah menderita, terbaring di kamar mayat dengan suhu 0°C. C. Sementara itu, suhu rata-rata di rumah sakit adalah 36°C - sangat baik!

Dengan demikian, mean aritmatika hanya dapat digunakan untuk populasi yang cukup homogen (tanpa outlier yang besar pada satu arah atau lainnya). Rata-rata apa yang harus digunakan untuk menggambarkan upah? Sangat wajar untuk menggunakan median - mean aritmatika dari karyawan ke-50 dan ke-51, jika mereka gaji disusun secara tidak menurun. Yang pertama adalah gaji 40 pekerja berketerampilan rendah, dan kemudian - dari pekerja ke-41 hingga ke-70 - gaji pekerja berketerampilan tinggi. Akibatnya, median jatuh tepat pada mereka dan sama dengan 200. Untuk 50 pekerja, gajinya tidak melebihi 200, dan untuk 50 - setidaknya 200, sehingga median menunjukkan “pusat” di mana sebagian besar nilai yang dipelajari ​dikelompokkan. Nilai rata-rata lainnya adalah mode, nilai yang paling sering muncul. Dalam hal ini, ini adalah upah pekerja berketerampilan rendah, yaitu. 100. Jadi, untuk menggambarkan gaji kita memiliki tiga nilai rata-rata - modus (100 unit), median (200 unit) dan mean aritmatika (400 unit).

Untuk distribusi pendapatan dan upah yang diamati dalam kehidupan nyata, pola yang sama juga berlaku: modusnya lebih kecil dari median, dan mediannya lebih kecil dari mean aritmatika.

Mengapa rata-rata digunakan dalam ilmu ekonomi? Biasanya untuk mengganti kumpulan angka dengan satu angka untuk membandingkan populasi menggunakan rata-rata. Misalkan Y 1, Y 2,..., Y n adalah seperangkat penilaian ahli yang “diberikan” kepada satu objek keahlian (misalnya, salah satu pilihan untuk pengembangan strategis suatu perusahaan), Z 1 , Z 2,..., Z n -yang kedua (versi lain dari pengembangan ini). Bagaimana perbandingan populasi-populasi ini? Jelasnya, cara termudah adalah dengan nilai rata-rata.

Bagaimana cara menghitung rata-rata? Diketahui jenis yang berbeda nilai rata-rata: mean aritmatika, median, modus, mean geometri, mean harmonik, mean kuadrat. Izinkan kami mengingatkan Anda akan hal itu konsep umum nilai rata-rata diperkenalkan oleh seorang ahli matematika Perancis pada paruh pertama abad ke-19. Akademisi O. Cauchy. Yaitu sebagai berikut: nilai rata-rata adalah sembarang fungsi Ф(Х 1, Х 2,..., Х n) sedemikian rupa sehingga untuk semua kemungkinan nilai argumen, nilai fungsi ini tidak kurang dari nilai minimum dari angka X 1, Х 2,... , X n , dan tidak lebih dari maksimal angka-angka tersebut. Semua jenis rata-rata yang tercantum di atas adalah rata-rata Cauchy.

Dengan transformasi skala yang dapat diterima, nilai rata-ratanya jelas berubah. Namun kesimpulan tentang populasi mana yang rata-ratanya lebih besar dan mana yang lebih kecil tidak boleh berubah (sesuai dengan persyaratan invarians kesimpulan, yang diterima sebagai persyaratan utama dalam TI). Mari kita merumuskan masalah matematika yang sesuai untuk mencari jenis nilai rata-rata, yang hasil perbandingannya stabil terhadap transformasi skala yang diizinkan.

Misalkan Ф(Х 1 Х 2 ,..., Х n) adalah rata-rata Cauchy. Misalkan rata-rata populasi pertama lebih kecil dari rata-rata populasi kedua: maka menurut TI, untuk kestabilan hasil perbandingan rata-rata, diperlukan transformasi ijin g dari kelompok transformasi ijin ke dalam skala yang sesuai memang benar bahwa rata-rata nilai yang ditransformasikan dari populasi pertama juga lebih kecil dari rata-rata nilai yang ditransformasikan untuk kumpulan kedua. Selain itu, kondisi yang dirumuskan harus benar untuk dua himpunan Y 1, Y 2,...,Y n dan Z 1, Z 2,..., Z n dan, ingat, setiap transformasi yang diizinkan. Kami menyebut nilai rata-rata yang memenuhi kondisi yang dirumuskan dapat diterima (dalam skala yang sesuai). Menurut TI, hanya rata-rata tersebut yang dapat digunakan ketika menganalisis pendapat para ahli dan data lain yang diukur pada skala yang dipertimbangkan.

Dengan menggunakan teori matematika, yang dikembangkan pada tahun 1970an, berhasil mendeskripsikan jenis rata-rata yang dapat diterima pada skala dasar. Jelas bahwa untuk data yang diukur pada skala nama, hanya modus yang cocok sebagai rata-rata.

18. Nilai rata-rata dalam skala ordinal

Mari kita pertimbangkan pemrosesan pendapat para ahli yang diukur dalam skala ordinal. Pernyataan berikut ini benar.

Dalil1 . Dari semua rata-rata Cauchy, satu-satunya rata-rata yang dapat diterima dalam skala ordinal adalah suku-sukunya seri variasi(statistik ordinal).

Teorema 1 valid asalkan rata-rata Ф(Х 1 Х 2 ,..., Х n) merupakan fungsi kontinu (pada himpunan variabel) dan fungsi simetris. Yang terakhir berarti bahwa ketika argumen disusun ulang, nilai fungsi Ф(Х 1 Х 2 ,..., Х n) tidak berubah. Kondisi ini cukup wajar, karena kita mencari nilai rata-rata untuk totalitas (himpunan), dan bukan untuk barisan. Himpunan tidak berubah tergantung pada urutan kita membuat daftar elemen-elemennya.

Secara khusus, menurut Teorema 1, median dapat digunakan sebagai rata-rata untuk data yang diukur pada skala ordinal (jika ukuran sampel ganjil). Jika volumenya genap, salah satu dari dua suku sentral deret variasi harus digunakan - sebagaimana kadang-kadang disebut, median kiri atau median kanan. Fashion juga dapat digunakan - selalu menjadi anggota rangkaian variasi. Namun Anda tidak akan pernah bisa menghitung mean aritmatika, mean geometrik, dan sebagainya.

Teorema berikut ini benar.

Teorema 2. Misalkan Y 1, Y 2,...,Y m adalah variabel acak independen yang terdistribusi identik dengan fungsi distribusi F(x), dan Z 1, Z 2,..., Zn adalah variabel acak independen yang terdistribusi identik dengan fungsi distribusi H(x), dan sampel Y 1, Y 2,...,Y m dan Z 1, Z 2,..., Z n saling bebas dan MY X > MZ X. Agar peluang suatu kejadian cenderung ke 1 pada min(m, n) untuk setiap fungsi kontinu yang meningkat tajam g yang memenuhi syarat |g i |>X maka pertidaksamaan F(x) harus dipenuhi untuk semua X< Н(х), причем существовало число х 0 , для которого F(x 0)

Catatan. Kondisi dengan batas atas murni bersifat intramatematis. Faktanya, fungsi g adalah transformasi sembarang yang dapat diterima pada skala ordinal.

Menurut Teorema 2, mean aritmatika juga dapat digunakan dalam skala ordinal jika sampel dari dua distribusi yang memenuhi pertidaksamaan yang diberikan dalam teorema tersebut dibandingkan. Sederhananya, salah satu fungsi distribusi harus selalu berada di atas fungsi lainnya. Fungsi distribusi tidak boleh berpotongan, hanya diperbolehkan saling bersentuhan. Kondisi ini terpenuhi, misalnya jika fungsi distribusi hanya berbeda shift:

F(x) = Н(x + ∆)

untuk beberapa ∆.

Kondisi terakhir terpenuhi jika dua nilai suatu besaran tertentu diukur dengan menggunakan alat ukur yang sama, dimana distribusi kesalahannya tidak berubah ketika berpindah dari pengukuran satu nilai besaran yang bersangkutan ke pengukuran yang lain.

Rata-rata menurut Kolmogorov

Generalisasi dari beberapa rata-rata yang tercantum di atas adalah rata-rata Kolmogorov. Untuk bilangan X 1, X 2,..., X n, rata-rata Kolmogorov dihitung menggunakan rumus

G((F(X l) + F(X 2)+...F(X n))/n),

di mana F adalah fungsi yang sangat monoton (yaitu meningkat atau menurun secara ketat),

G adalah fungsi kebalikan dari F.

Di antara rata-rata Kolmogorov ada banyak karakter terkenal. Jadi, jika F(x) = x, maka mean Kolmogorov adalah mean aritmatika, jika F(x) = lnx, maka mean geometrik, jika F(x) = 1/x, maka mean harmonik, jika F( x) = x 2, lalu kuadrat rata-rata, dst. Rata-rata Kolmogorov adalah kasus khusus dari rata-rata Cauchy. Sebaliknya, rata-rata populer seperti median dan modus tidak dapat direpresentasikan sebagai rata-rata Kolmogorov. Pernyataan berikut dibuktikan dalam monografi.

Dalil3 . Jika kondisi keteraturan intramatematis tertentu dalam skala interval valid, dari semua mean Kolmogorov, hanya mean aritmatika yang dapat diterima. Dengan demikian, rata-rata geometrik atau akar kuadrat rata-rata suhu (dalam Celcius) atau jarak tidak ada artinya. Rata-rata aritmatika harus digunakan sebagai rata-rata. Anda juga dapat menggunakan median atau mode.

Teorema 4. Jika kondisi keteraturan intramatematis tertentu dalam skala rasio valid, dari semua rata-rata Kolmogorov, hanya rata-rata pangkat dengan F(x) = x c dan rata-rata geometrik yang dapat diterima.

Komentar. Rata-rata geometrik adalah batas rata-rata pangkat untuk c > 0.

Apakah ada rata-rata Kolmogorov yang tidak dapat digunakan dalam skala rasio? Tentu saja punya. Misalnya F(x) = e x.

Mirip dengan nilai rata-rata, karakteristik statistik lainnya dapat dipelajari - indikator sebaran, koneksi, jarak, dll. Tidak sulit untuk menunjukkan, misalnya, bahwa koefisien korelasi tidak berubah dengan transformasi apa pun yang diizinkan dalam mangkuk interval, seperti halnya rasio dispersi, dispersi tidak berubah dalam skala perbedaan, koefisien variasi dalam skala rasio, dll.

Hasil nilai rata-rata di atas banyak digunakan, tidak hanya di bidang ekonomi, manajemen, teori penilaian ahli atau sosiologi, tetapi juga di bidang teknik, misalnya, untuk menganalisis metode pengumpulan sensor dalam sistem kontrol proses otomatis tanur sembur. TI sangat penting secara praktis dalam masalah standardisasi dan manajemen mutu, khususnya dalam kualimetri, di mana hasil teoritis yang menarik telah diperoleh. Jadi, misalnya, setiap perubahan koefisien bobot masing-masing indikator kualitas produk menyebabkan perubahan urutan produk menurut indikator rata-rata tertimbang (teorema ini dibuktikan oleh Prof. V.V. Podinovsky). Oleh karena itu, informasi singkat di atas tentang TI dan metode-metodenya menggabungkan, dalam arti tertentu, ilmu ekonomi, sosiologi dan teknik dan merupakan alat yang memadai untuk memecahkan masalah-masalah kompleks yang sebelumnya tidak dapat dianalisis secara efektif, terlebih lagi, dengan demikian, jalan terbuka untuk membangun model realistis dan memecahkan masalah perkiraan.

22. Regresi linier berpasangan

Sekarang mari kita beralih ke studi yang lebih rinci tentang kasus paling sederhana dari regresi linier berpasangan. Regresi linier digambarkan dengan hubungan fungsional paling sederhana berupa persamaan garis lurus dan ditandai dengan interpretasi parameter model yang transparan (koefisien persamaan). Sisi kanan persamaan memungkinkan kita memperoleh nilai teoritis (dihitung) dari variabel yang dihasilkan (dijelaskan) berdasarkan nilai regressor (variabel penjelas) yang diberikan. Nilai-nilai ini kadang-kadang juga disebut prediksi (dalam arti yang sama), yaitu. diperoleh dari rumus teoritis. Namun, ketika mengajukan hipotesis tentang sifat ketergantungan, koefisien persamaannya masih belum diketahui. Secara umum, memperoleh nilai perkiraan koefisien ini dapat dilakukan dengan menggunakan berbagai metode.

Namun yang paling penting dan tersebar luas adalah metode kuadrat terkecil (OLS). Hal ini didasarkan (sebagaimana telah dijelaskan) pada persyaratan untuk meminimalkan jumlah deviasi kuadrat dari nilai aktual karakteristik yang dihasilkan dari nilai (teoretis) yang dihitung. Alih-alih nilai teoretis (untuk memperolehnya), substitusikan ruas kanan persamaan regresi ke dalam jumlah simpangan kuadrat, lalu cari turunan parsial dari fungsi ini (jumlah simpangan kuadrat dari nilai sebenarnya karakteristik yang dihasilkan dari yang teoritis). Turunan parsial ini diambil bukan terhadap variabel x dan y, tetapi terhadap parameter a dan b. Turunan parsial ditetapkan sama dengan nol dan, setelah transformasi sederhana namun rumit, sistem persamaan normal diperoleh untuk menentukan parameter. Koefisien untuk variabel x, yaitu. b disebut koefisien regresi, menunjukkan rata-rata perubahan hasil dengan perubahan faktor sebesar satu satuan. Parameter a mungkin tidak memiliki interpretasi ekonomi, apalagi jika tanda koefisiennya negatif.

Regresi linier berpasangan digunakan untuk mempelajari fungsi konsumsi. Koefisien regresi pada fungsi konsumsi digunakan untuk menghitung pengganda. Hampir selalu, persamaan regresi dilengkapi dengan indikator keeratan hubungan. Untuk kasus regresi linier yang paling sederhana, indikator kedekatan koneksi ini adalah koefisien linier korelasi. Namun karena koefisien korelasi linier mencirikan kedekatan hubungan antar ciri dalam bentuk linier, maka kedekatan nilai absolut koefisien korelasi linier dengan nol belum menjadi indikator tidak adanya hubungan antar ciri.

Dengan pilihan spesifikasi model yang berbeda dan, oleh karena itu, jenis ketergantungan, hubungan sebenarnya mungkin cukup dekat dengan kesatuan. Tapi kualitas seleksi fungsi linear ditentukan dengan menggunakan kuadrat koefisien korelasi linier – koefisien determinasi. Ini mencirikan proporsi varians atribut efektif y yang dijelaskan oleh regresi dalam total varians atribut efektif. Nilai yang melengkapi koefisien determinasi hingga 1 mencirikan pangsa varians yang disebabkan oleh pengaruh faktor lain yang tidak diperhitungkan dalam model (residual varians).

Regresi berpasangan diwakili oleh persamaan yang menghubungkan dua variabel y dan x dengan bentuk sebagai berikut:

dimana y adalah variabel terikat (atribut resultatif), dan x adalah variabel bebas (variabel penjelas, atau faktor atribut). Ada regresi linier dan regresi nonlinier. Regresi linier digambarkan dengan persamaan berbentuk:

kamu = a+ bx + .

Regresi nonlinier, pada gilirannya, dapat bersifat nonlinier terhadap variabel penjelas yang dimasukkan dalam analisis, tetapi linier terhadap parameter yang diperkirakan. Atau mungkin regresinya nonlinier dalam hal parameter yang diestimasi. Contoh regresi yang nonlinier pada variabel penjelasnya, tetapi linier pada parameter taksirannya, antara lain ketergantungan polinomial dengan berbagai derajat (polinomial) dan hiperbola sama sisi.

Regresi nonlinier untuk parameter yang diestimasi adalah ketergantungan pangkat relatif terhadap parameter (parameter dalam eksponen), ketergantungan eksponensial, dimana parameter berada pada basis eksponen, dan ketergantungan eksponensial, bila seluruh ketergantungan linier seluruhnya dalam eksponen. Perhatikan bahwa dalam ketiga kasus ini komponen acak (sisa acak)  disertakan sisi kanan persamaan dalam bentuk faktor, dan bukan dalam bentuk penjumlahan, yaitu. secara perkalian! Penyimpangan rata-rata dari nilai yang dihitung dari karakteristik yang dihasilkan dari yang sebenarnya ditandai dengan kesalahan perkiraan rata-rata. Ini dinyatakan dalam persentase dan tidak boleh melebihi 7-8%. Kesalahan perkiraan rata-rata ini hanyalah persentase rata-rata dari besaran relatif perbedaan antara nilai aktual dan nilai yang dihitung.

Koefisien elastisitas rata-rata, yang merupakan karakteristik penting dari banyak fenomena dan proses ekonomi, sangatlah penting. Ini dihitung sebagai produk dari nilai turunan dari hubungan fungsional tertentu dan rasio nilai rata-rata x dengan nilai rata-rata y. Koefisien elastisitas menunjukkan berapa persentase rata-rata hasil y akan berubah dari nilai rata-ratanya ketika faktor x berubah sebesar 1% dari nilai rata-ratanya (faktor x).

Masalah analisis varians erat kaitannya dengan regresi berpasangan dan regresi berganda (bila terdapat banyak faktor) dan varians residual. Analisis varians menguji varians variabel dependen. Dalam hal ini, jumlah total simpangan kuadrat dibagi menjadi dua bagian. Suku pertama adalah penjumlahan kuadrat simpangan akibat regresi, atau dijelaskan (faktorial). Suku kedua adalah jumlah sisa simpangan kuadrat yang tidak dapat dijelaskan oleh regresi faktor.

Bagian varians yang dijelaskan oleh regresi dalam total varians dari karakteristik y yang dihasilkan ditandai dengan koefisien (indeks) determinasi, yang tidak lebih dari rasio jumlah deviasi kuadrat akibat regresi terhadap jumlah total deviasi kuadrat. (suku pertama dari jumlah keseluruhan).

Ketika parameter model (koefisien yang tidak diketahui) ditentukan dengan menggunakan metode kuadrat terkecil, maka pada intinya ditemukan beberapa variabel acak (dalam proses memperoleh estimasi). Yang paling penting adalah estimasi koefisien regresi, yang merupakan suatu bentuk khusus dari variabel acak. Sifat-sifat variabel acak ini bergantung pada sifat-sifat suku sisa dalam persamaan (dalam model). Untuk model regresi linier berpasangan, pertimbangkan variabel penjelas x sebagai variabel eksogen non-acak. Artinya, nilai variabel x pada semua pengamatan dapat dianggap telah ditentukan sebelumnya dan sama sekali tidak berhubungan dengan ketergantungan yang diteliti. Dengan demikian, nilai sebenarnya dari variabel yang dijelaskan terdiri dari dua komponen: komponen non-acak dan komponen acak (istilah sisa).

Sebaliknya, koefisien regresi yang ditentukan dengan metode kuadrat terkecil (OLS) sama dengan hasil bagi pembagian kovarians variabel x dan y dengan varians variabel x. Oleh karena itu, ini juga mengandung komponen acak. Lagi pula, kovarians bergantung pada nilai variabel y, di mana nilai variabel y bergantung pada nilai suku sisa acak . Lebih lanjut, mudah untuk menunjukkan bahwa kovarians variabel x dan y sama dengan hasil kali estimasi koefisien regresi beta () dan varians variabel x, ditambah kovarians variabel x dan . Jadi, estimasi koefisien regresi beta sama dengan koefisien regresi yang tidak diketahui itu sendiri, ditambah dengan hasil bagi pembagian kovarians variabel x dan  dengan varians variabel x. Itu. estimasi koefisien regresi b yang diperoleh dari sampel mana pun disajikan sebagai jumlah dari dua suku: nilai konstan yang sama dengan nilai sebenarnya dari koefisien  (beta), dan komponen acak yang bergantung pada kovarians variabel x dan  .

23. Kondisi matematika Gauss-Markov dan penerapannya.

Agar analisis regresi berdasarkan OLS biasa memberikan hasil terbaik, suku acak harus memenuhi empat kondisi Gauss-Markov.

Ekspektasi matematis dari suku acak sama dengan nol, yaitu. itu tidak memihak. Jika persamaan regresi mencakup suku konstan, maka wajar jika persyaratan ini dianggap terpenuhi, karena suku ini merupakan suku konstan dan harus memperhitungkan tren sistematis dalam nilai variabel y, yang sebaliknya harus memperhitungkan. tidak terkandung dalam variabel penjelas persamaan regresi.

Varians suku acak adalah konstan untuk semua observasi.

Kovarian nilai variabel acak, membentuk sampel harus sama dengan nol, yaitu tidak ada hubungan sistematis antara nilai suku acak dalam dua pengamatan tertentu. Anggota acak harus independen satu sama lain.

Hukum distribusi suku acak harus tidak bergantung pada variabel penjelas.

Selain itu, dalam banyak aplikasi, variabel penjelasnya tidak bersifat stokastik, yaitu. tidak memiliki komponen acak. Nilai setiap variabel independen dalam setiap observasi harus dianggap eksogen, ditentukan seluruhnya oleh sebab-sebab eksternal yang tidak diperhitungkan dalam persamaan regresi.

Bersama dengan kondisi Gauss-Markov yang ditentukan, diasumsikan juga bahwa suku acak mempunyai distribusi normal. Ini valid dalam kondisi yang sangat luas dan didasarkan pada apa yang disebut teorema limit pusat (CLT). Inti dari teorema ini adalah jika suatu variabel acak merupakan hasil keseluruhan interaksi sejumlah besar variabel acak lainnya, tidak ada satupun yang mempunyai pengaruh dominan terhadap perilaku hasil keseluruhan tersebut, maka variabel acak yang dihasilkan akan dijelaskan. dengan distribusi yang mendekati normal. Kedekatan ini dengan distribusi normal memungkinkan Anda menggunakan distribusi normal untuk mendapatkan perkiraan dan dalam arti tertentu generalisasinya adalah distribusi Student, yang sangat berbeda dari biasanya terutama pada apa yang disebut “ekor”, yaitu untuk ukuran sampel kecil. Penting juga bahwa jika suku acak terdistribusi normal, maka koefisien regresi juga akan terdistribusi normal.

Kurva regresi yang ditetapkan (persamaan regresi) memungkinkan kita untuk memecahkan masalah yang disebut perkiraan titik. Dalam perhitungan seperti itu, nilai x tertentu diambil di luar interval pengamatan yang dipelajari dan disubstitusikan ke ruas kanan persamaan regresi (prosedur ekstrapolasi). Karena Estimasi koefisien regresi telah diketahui, maka dimungkinkan untuk menghitung nilai variabel y yang dijelaskan sesuai dengan nilai x yang diambil. Wajar saja, sesuai dengan pengertian ramalan (forecast), perhitungan dilakukan ke depan (ke wilayah nilai masa depan).

Namun, karena koefisien ditentukan dengan kesalahan tertentu, hal ini tidak menarik perkiraan titik(perkiraan titik) untuk karakteristik efektif, dan pengetahuan tentang batas-batas di mana, dengan probabilitas tertentu, akan terletak nilai karakteristik efektif, sesuai dengan nilai faktor x yang diambil.

Untuk melakukan ini, kesalahan standar (standar deviasi) dihitung. Hal ini dapat diperoleh dalam semangat apa yang baru saja dikatakan sebagai berikut. Ekspresi istilah bebas a dari perkiraan melalui nilai rata-rata disubstitusikan ke dalam persamaan regresi linier. Ternyata kesalahan bakunya bergantung pada kesalahan rata-rata faktor efektif y dan juga pada kesalahan koefisien regresi b. Cukup kuadrat dari kesalahan standar ini sama dengan jumlahnya kesalahan kuadrat nilai rata-rata y dan hasil kali kesalahan kuadrat koefisien regresi dengan simpangan kuadrat nilai faktor x dan rata-ratanya. Selanjutnya suku pertama, menurut hukum statistik, sama dengan hasil bagi pembagian varians populasi umum dengan ukuran (volume) sampel.

Alih-alih varians yang tidak diketahui, varians sampel digunakan sebagai estimasi. Oleh karena itu, kesalahan koefisien regresi didefinisikan sebagai hasil bagi pembagian varians sampel dengan varians faktor x. Anda bisa mendapatkan kesalahan standar (deviasi standar) dan pertimbangan lain yang lebih independen dari model regresi linier. Untuk melakukan ini, digunakan konsep kesalahan rata-rata dan kesalahan marjinal serta hubungan di antara keduanya.

Namun bahkan setelah kesalahan standar diperoleh, pertanyaannya tetap mengenai batasan di mana nilai prediksi akan berada. Dengan kata lain, mengenai interval kesalahan pengukuran, dalam banyak kasus asumsi alami bahwa titik tengah interval ini ditentukan oleh nilai terhitung (rata-rata) dari faktor efektif y. Di sini teorema limit pusat membantu, yang secara tepat menunjukkan seberapa besar kemungkinan besaran yang tidak diketahui berada di dalamnya interval kepercayaan.

Intinya, rumus kesalahan standar, terlepas dari bagaimana dan dalam bentuk apa rumus itu diperoleh, mencirikan kesalahan pada posisi garis regresi. Kesalahan standar mencapai minimum ketika nilai faktor x bertepatan dengan nilai rata-rata faktor tersebut.

24. Pengujian statistik hipotesis dan penilaian signifikansi regresi linier menggunakan kriteria Fisher.

Setelah persamaan regresi linier ditemukan, signifikansi persamaan secara keseluruhan dan parameter individualnya dinilai. Menilai signifikansi suatu persamaan regresi secara keseluruhan dapat dilakukan dengan menggunakan berbagai kriteria. Yang cukup umum dan efektif adalah penggunaan uji F Fisher. Dalam hal ini diajukan hipotesis nol bahwa koefisien regresi sama dengan nol, yaitu. b=0, dan oleh karena itu faktor x tidak berpengaruh terhadap hasil y. Perhitungan langsung uji F didahului dengan analisis varians. Tempat sentral di dalamnya ditempati oleh penguraian jumlah total deviasi kuadrat variabel y dari nilai rata-rata y menjadi dua bagian - "dijelaskan" dan "tidak dijelaskan":

Jumlah total simpangan kuadrat nilai individu karakteristik y yang dihasilkan dari nilai rata-rata y disebabkan oleh pengaruh banyak faktor.

Mari kita bagi seluruh rangkaian alasan secara kondisional menjadi dua kelompok: faktor x yang dipelajari dan faktor lainnya. Jika faktor tersebut tidak mempengaruhi hasil, maka garis regresi pada grafik sejajar dengan sumbu OX dan y=y. Kemudian seluruh varians dari karakteristik yang dihasilkan disebabkan oleh pengaruh faktor lain dan jumlah total deviasi kuadrat akan bertepatan dengan sisa. Jika faktor lain tidak mempengaruhi hasil, maka y secara fungsional berhubungan dengan x dan jumlah sisa kuadrat adalah nol. Dalam hal ini, jumlah deviasi kuadrat yang dijelaskan oleh regresi sama dengan jumlah kuadrat total. Karena tidak semua titik bidang korelasi terletak pada garis regresi, maka pencarannya selalu terjadi karena pengaruh faktor x, yaitu. regresi y pada x, dan disebabkan oleh sebab-sebab lain (variasi yang tidak dapat dijelaskan). Kesesuaian garis regresi untuk prediksi bergantung pada seberapa besar total variasi sifat y yang disebabkan oleh variasi yang dijelaskan.

Jelasnya, jika jumlah deviasi kuadrat akibat regresi lebih besar dari jumlah kuadrat sisa, maka persamaan regresi tersebut signifikan secara statistik dan faktor x mempunyai pengaruh yang signifikan terhadap hasilnya. Hal ini setara dengan fakta bahwa koefisien determinasi akan mendekati kesatuan. Setiap jumlah deviasi kuadrat berhubungan dengan jumlah derajat kebebasan, yaitu jumlah kebebasan variasi independen suatu karakteristik. Jumlah derajat kebebasan dikaitkan dengan jumlah unit populasi atau dengan jumlah konstanta yang ditentukan darinya. Sehubungan dengan permasalahan yang diteliti, banyaknya derajat kebebasan harus menunjukkan berapa banyak simpangan bebas dari n kemungkinan [(y 1 -y), (y 2 -y),...(y n -y)] yang diperlukan untuk membentuk sejumlah persegi tertentu. Jadi, untuk jumlah total kuadrat ∑(y-y sr) 2, diperlukan deviasi independen (n-1), karena dalam populasi n unit, setelah menghitung tingkat rata-rata, hanya (n-1) jumlah deviasi yang bervariasi secara bebas. Saat menghitung penjelasan atau jumlah faktor kuadrat ∑(y-y avg) 2, digunakan nilai teoretis (yang dihitung) dari karakteristik resultan y*, yang ditemukan di sepanjang garis regresi: y(x)=a+bx.

Sekarang mari kita kembali ke perluasan jumlah total deviasi kuadrat faktor efektif dari rata-rata nilai ini. Jumlah ini berisi dua bagian yang telah ditentukan di atas: jumlah deviasi kuadrat yang dijelaskan oleh regresi dan jumlah lainnya yang disebut jumlah sisa deviasi kuadrat. Terkait dengan dekomposisi ini adalah analisis varians, yang secara langsung menjawab pertanyaan mendasar: bagaimana menilai signifikansi persamaan regresi secara keseluruhan dan parameter individualnya? Ini juga sangat menentukan arti dari pertanyaan ini. Untuk menilai signifikansi persamaan regresi secara keseluruhan digunakan kriteria Fisher (uji F). Menurut pendekatan yang diajukan oleh Fisher, hipotesis nol diajukan: koefisien regresi sama dengan nol, yaitu. nilaib=0. Artinya faktor X tidak berpengaruh terhadap hasil Y.

Ingatlah bahwa hampir selalu poin-poin yang diperoleh dari suatu studi statistik tidak terletak tepat pada garis regresi. Mereka tersebar, kurang lebih jauh dari garis regresi. Penyebaran tersebut disebabkan oleh pengaruh faktor lain selain faktor penjelas X yang tidak diperhitungkan dalam persamaan regresi. Saat menghitung jumlah deviasi kuadrat yang dijelaskan atau faktor, nilai teoritis dari karakteristik yang dihasilkan yang ditemukan dari garis regresi digunakan.

Untuk sekumpulan nilai variabel Y dan X tertentu, nilai hitung dari nilai rata-rata Y dalam regresi linier merupakan fungsi dari hanya satu parameter - koefisien regresi. Sesuai dengan ini, jumlah faktor simpangan kuadrat memiliki jumlah derajat kebebasan sama dengan 1. Dan jumlah derajat kebebasan jumlah sisa simpangan kuadrat dalam regresi linier adalah n-2.

Oleh karena itu, dengan membagi setiap jumlah simpangan kuadrat dalam pemuaian awal dengan jumlah derajat kebebasannya, kita memperoleh simpangan kuadrat rata-rata (varian per satu derajat kebebasan). Selanjutnya, dengan membagi varians faktor dengan satu derajat kebebasan dengan varians sisa sebesar satu derajat kebebasan, kita memperoleh kriteria untuk menguji hipotesis nol, yang disebut rasio F, atau kriteria dengan nama yang sama. Yaitu, jika hipotesis nol benar, varians faktor dan residu sama satu sama lain.

Untuk menolak hipotesis nol, yaitu. menerima hipotesis sebaliknya, yang menyatakan fakta tentang signifikansi (keberadaan) hubungan yang diteliti, dan bukan sekedar kebetulan acak dari faktor-faktor yang mensimulasikan suatu hubungan yang sebenarnya tidak ada, maka perlu menggunakan tabel nilai kritis dari hubungan yang ditentukan. Dengan menggunakan tabel, nilai kritis (ambang batas) dari kriteria Fisher ditentukan. Ini juga disebut teoritis. Kemudian mereka memeriksa, dengan membandingkannya dengan nilai empiris (aktual) yang sesuai dari kriteria yang dihitung dari data observasi, apakah nilai rasio sebenarnya melebihi nilai kritis dari tabel.

Hal ini dilakukan secara lebih rinci seperti ini. Pilih tingkat probabilitas tertentu dari keberadaan hipotesis nol dan temukan dari tabel nilai kritis kriteria F, di mana divergensi varians acak sebesar 1 derajat kebebasan masih dapat terjadi, yaitu. nilai maksimum tersebut. Kemudian nilai rasio F yang dihitung dianggap andal (yaitu, menyatakan perbedaan antara varians aktual dan varians sisa) jika rasio ini lebih besar dari yang ditabulasikan. Kemudian hipotesis nol ditolak (tidak benar tidak ada tanda-tanda hubungan) dan sebaliknya kita sampai pada kesimpulan bahwa ada hubungan dan signifikan (non-acak, signifikan).

Jika nilai hubungan ternyata lebih kecil dari nilai yang ditabulasikan, maka probabilitas hipotesis nol ternyata lebih tinggi dari tingkat yang ditentukan (yang awalnya dipilih) dan hipotesis nol tidak dapat ditolak tanpa adanya bahaya yang nyata. memperoleh kesimpulan yang salah tentang adanya suatu hubungan. Oleh karena itu, persamaan regresi dianggap tidak signifikan.

Nilai kriteria F sendiri berkaitan dengan koefisien determinasi. Selain menilai signifikansi persamaan regresi secara keseluruhan, signifikansi parameter individual persamaan regresi juga dinilai. Dalam hal ini, kesalahan baku koefisien regresi ditentukan dengan menggunakan simpangan baku aktual empiris dan varians empiris per derajat kebebasan. Distribusi Student kemudian digunakan untuk menguji signifikansi koefisien regresi untuk menghitung interval kepercayaannya.

Penilaian signifikansi koefisien regresi dan korelasi menggunakan uji-t Student dilakukan dengan membandingkan nilai besaran tersebut dengan standar error. Besarnya error parameter regresi linier dan koefisien korelasi ditentukan dengan rumus sebagai berikut:

di mana S adalah deviasi sampel sisa kuadrat rata-rata,

r xy – koefisien korelasi.

Oleh karena itu, nilai kesalahan standar yang diprediksi oleh garis regresi diberikan dengan rumus:

Rasio yang sesuai dari nilai regresi dan koefisien korelasi dengan kesalahan standarnya membentuk apa yang disebut statistik-t, dan perbandingan nilai tabulasi (kritis) yang sesuai dan nilai sebenarnya memungkinkan seseorang untuk menerima atau menolak nilai nol. hipotesa. Namun kemudian, untuk menghitung interval kepercayaan, kesalahan maksimum untuk setiap indikator diperoleh sebagai produk dari nilai tabel statistik t dengan kesalahan acak rata-rata dari indikator yang bersangkutan. Faktanya, kami menuliskannya sedikit berbeda di atas. Kemudian diperoleh batas-batas interval kepercayaan: batas bawah adalah dengan mengurangkan kesalahan marjinal yang sesuai dari koefisien yang sesuai (sebenarnya rata-rata), dan batas atas adalah dengan penjumlahan (penambahan).

Dalam regresi linier ∑(y x -y rata-rata) 2 =b 2 ∑(x-x rata-rata) 2. Hal ini mudah dibuktikan dengan mengacu pada rumus koefisien korelasi linier: r 2 xy = b 2 *σ 2 x /σ 2 y

dimana σ 2 y adalah varians total dari sifat y;

σ 2 x - dispersi karakteristik y karena faktor x. Oleh karena itu, jumlah deviasi kuadrat akibat regresi linier adalah:

∑(y x -y rata-rata) 2 =b 2 ∑(x-x rata-rata) 2 .

Karena, untuk volume pengamatan tertentu di x dan y, jumlah faktor kuadrat dalam regresi linier hanya bergantung pada satu konstanta koefisien regresi b, maka jumlah kuadrat tersebut mempunyai satu derajat kebebasan. Mari kita pertimbangkan sisi konten dari nilai terhitung dari atribut y yaitu. kamu x. Nilai y x ditentukan oleh persamaan regresi linier: y x ​​​​= a + bx.

Parameter a dapat didefinisikan sebagai a=y-bx. Mengganti ekspresi parameter a ke dalam model linier, kita memperoleh: y x ​​​​=y-bx+bx avg =y-b(x-x avg).

Untuk sekumpulan variabel y dan x tertentu, nilai yx yang dihitung dalam regresi linier merupakan fungsi dari satu parameter saja - koefisien regresi. Dengan demikian, jumlah faktor deviasi kuadrat memiliki jumlah derajat kebebasan sama dengan 1.

Terdapat persamaan antara jumlah derajat kebebasan total, faktor, dan jumlah sisa kuadrat. Banyaknya derajat kebebasan jumlah sisa kuadrat pada regresi linier adalah (n-2). Jumlah derajat kebebasan untuk jumlah total kuadrat ditentukan oleh banyaknya satuan, dan karena kita menggunakan rata-rata yang dihitung dari data sampel, kita kehilangan satu derajat kebebasan, yaitu. (n-1). Jadi, kita mempunyai dua persamaan: jumlah dan jumlah derajat kebebasan. Dan hal ini, pada gilirannya, membawa kita kembali ke varians yang sebanding per derajat kebebasan, yang rasionya diberikan oleh kriteria Fisher.

25. Menilai signifikansi parameter individual persamaan regresi dan koefisien menggunakan uji Student.

27. Regresi linier dan nonlinier serta metode penelitiannya.

Regresi linier dan metode penelitian serta evaluasinya tidak akan begitu penting jika, selain kasus yang sangat penting, namun tetap paling sederhana ini, kita tidak memperoleh alat untuk menganalisis ketergantungan nonlinier yang lebih kompleks dengan bantuannya. Regresi nonlinier dapat dibagi menjadi dua kelas yang berbeda nyata. Yang pertama dan lebih sederhana adalah kelas ketergantungan nonlinier di mana terdapat nonlinier terhadap variabel penjelas, tetapi tetap linier dalam parameter yang termasuk di dalamnya dan harus dievaluasi. Ini termasuk polinomial dengan berbagai derajat dan hiperbola sama sisi.

Regresi nonlinier seperti itu untuk variabel-variabel yang termasuk dalam penjelasan hanya dengan mentransformasikan (mengganti) variabel-variabel tersebut dapat dengan mudah direduksi menjadi regresi linier biasa untuk variabel-variabel baru. Oleh karena itu, estimasi parameter dalam hal ini dilakukan hanya dengan kuadrat terkecil, karena ketergantungan parameternya linier. Dengan demikian, peran penting dalam perekonomian dimainkan oleh ketergantungan nonlinier yang dijelaskan oleh hiperbola sama sisi:

Parameternya dinilai dengan baik menggunakan metode kuadrat terkecil, dan ketergantungan ini sendiri mencirikan hubungan antara biaya spesifik bahan baku, bahan bakar, bahan dengan volume output, waktu peredaran barang dan semua faktor ini dengan jumlah perdagangan. pergantian. Misalnya, kurva Phillips mencirikan hubungan nonlinier antara tingkat pengangguran dan persentase pertumbuhan upah.

Berbeda halnya dengan regresi yang bersifat nonlinier pada parameter yang diestimasi, misalnya diwakili oleh fungsi pangkat, yang derajatnya sendiri (eksponennya) merupakan parameternya, atau bergantung pada parameternya. Bisa juga fungsi eksponensial, yang basis derajatnya adalah parameter, dan fungsi eksponensial, yang lagi-lagi indikatornya berisi parameter atau kombinasi parameter. Kelas ini, pada gilirannya, dibagi menjadi dua subkelas: satu mencakup nonlinier eksternal, tetapi pada dasarnya linier internal. Dalam hal ini, Anda dapat membawa model ke bentuk linier menggunakan transformasi. Namun, jika model secara internal nonlinier, maka model tersebut tidak dapat direduksi menjadi fungsi linier.

Dengan demikian, hanya model yang secara intrinsik nonlinier dalam analisis regresilah yang dianggap benar-benar nonlinier. Semua yang lain, yang dapat direduksi menjadi linier melalui transformasi, tidak dianggap demikian, dan merekalah yang paling sering dipertimbangkan dalam studi ekonometrik. Pada saat yang sama, ini tidak berarti bahwa tidak mungkin mempelajari ketergantungan nonlinier dalam ekonometrika. Jika model secara internal nonlinier dalam parameternya, maka prosedur iteratif digunakan untuk memperkirakan parameternya, yang keberhasilannya bergantung pada jenis persamaan untuk fitur metode iteratif yang digunakan.

Mari kita kembali ke ketergantungan yang direduksi menjadi linier. Jika keduanya nonlinier baik dalam parameter maupun variabel, misalnya berbentuk y = a dikalikan pangkat X, yang eksponennya adalah parameter -  (beta):

Jelasnya, hubungan seperti itu dapat dengan mudah diubah menjadi persamaan linier dengan menggunakan logaritma sederhana.

Setelah memasukkan variabel baru yang menunjukkan logaritma, diperoleh persamaan linier. Prosedur estimasi regresi selanjutnya terdiri dari menghitung variabel baru untuk setiap observasi dengan mengambil logaritma dari nilai aslinya. Kemudian ketergantungan regresi variabel-variabel baru diperkirakan. Untuk menuju ke variabel asli, Anda harus mengambil antilogaritma, yaitu, kembali ke pangkat itu sendiri, bukan eksponennya (bagaimanapun juga, logaritma adalah eksponennya). Kasus fungsi eksponensial atau eksponensial dapat dianggap serupa.

Untuk regresi nonlinier signifikan, prosedur estimasi regresi biasa tidak dapat diterapkan karena hubungan terkait tidak dapat diubah menjadi linier. Skema umum tindakannya adalah sebagai berikut:

1. Beberapa nilai parameter awal yang masuk akal diterima;

2. Nilai prediksi Y dihitung dari nilai X sebenarnya dengan menggunakan nilai parameter tersebut;

3. Residu dihitung untuk seluruh pengamatan dalam sampel dan kemudian jumlah kuadrat dari residu tersebut;

4. Perubahan kecil dilakukan pada satu atau lebih estimasi parameter;

5. Nilai prediksi baru Y, sisa dan jumlah kuadrat sisa dihitung;

6. Jika jumlah kuadrat residu lebih kecil dari sebelumnya, maka estimasi parameter baru lebih baik dari estimasi sebelumnya dan sebaiknya digunakan sebagai titik awal baru;

7. Langkah 4, 5 dan 6 diulangi lagi sampai tidak mungkin lagi melakukan perubahan pada estimasi parameter yang akan menyebabkan perubahan jumlah sisa kuadrat;

8. Disimpulkan bahwa jumlah sisa kuadrat diminimalkan dan pendugaan parameter akhir adalah pendugaan kuadrat terkecil.

Di antara fungsi nonlinier yang dapat direduksi menjadi bentuk linier, fungsi pangkat banyak digunakan dalam ekonometrika. Parameter b di dalamnya memiliki interpretasi yang jelas, yaitu koefisien elastisitas. Dalam model yang parameter estimasinya nonlinier, tetapi dapat direduksi menjadi bentuk linier, metode kuadrat terkecil diterapkan pada persamaan yang ditransformasikan. Penggunaan praktis logaritma dan, karenanya, eksponen dimungkinkan jika tanda yang dihasilkan tidak memiliki nilai negatif. Ketika mempelajari hubungan antar fungsi menggunakan logaritma atribut yang dihasilkan, ketergantungan hukum pangkat mendominasi dalam ekonometrik (kurva permintaan dan penawaran, fungsi produksi, kurva penyerapan untuk mengkarakterisasi hubungan antara intensitas tenaga kerja produk, skala produksi, ketergantungan GNI pada tingkat lapangan kerja, kurva Engel).

28. Model invers dan kegunaannya

Kadang-kadang apa yang disebut model invers digunakan, yang secara internal nonlinier, tetapi di dalamnya, tidak seperti hiperbola sama sisi, bukan variabel penjelas yang mengalami transformasi, tetapi atribut yang dihasilkan Y. Oleh karena itu, model invers ternyata menjadi nonlinier internal dan persyaratan OLS tidak terpenuhi untuk nilai aktual dari atribut Y yang dihasilkan, dan untuk nilai inversnya. Kajian korelasi untuk regresi nonlinier perlu mendapat perhatian khusus. Dalam kasus umum, parabola derajat kedua, seperti polinomial dengan orde yang lebih tinggi, bila dilinierkan, akan berbentuk persamaan regresi berganda. Jika, ketika dilinearisasi, persamaan regresi nonlinier terhadap variabel yang dijelaskan berbentuk persamaan regresi berpasangan linier, maka koefisien korelasi linier dapat digunakan untuk menilai keeratan hubungan tersebut.

Jika transformasi persamaan regresi ke dalam bentuk linier dikaitkan dengan variabel terikat (karakteristik resultan), maka koefisien korelasi linier berdasarkan nilai transformasi karakteristik hanya memberikan perkiraan perkiraan hubungan dan tidak bertepatan secara numerik dengan indeks korelasi. Perlu diingat bahwa saat menghitung indeks korelasi, yang digunakan adalah jumlah deviasi kuadrat dari karakteristik Y yang dihasilkan, dan bukan logaritmanya. Penilaian signifikansi indeks korelasi dilakukan dengan cara yang sama seperti menilai reliabilitas (signifikansi) koefisien korelasi. Indeks korelasi itu sendiri, seperti halnya indeks determinasi, digunakan untuk menguji signifikansi persamaan regresi nonlinier secara keseluruhan dengan menggunakan uji Fisher F.

Perhatikan bahwa kemungkinan membangun model nonlinier, baik dengan mereduksinya menjadi bentuk linier maupun dengan menggunakan regresi nonlinier, di satu sisi, meningkatkan universalitas analisis regresi. Di sisi lain, hal ini secara signifikan mempersulit tugas peneliti. Jika kita membatasi diri pada analisis regresi berpasangan, kita dapat memplot observasi Y dan X sebagai plot sebar. Seringkali beberapa fungsi nonlinier yang berbeda memperkirakan pengamatan jika terletak pada suatu kurva. Namun dalam kasus analisis regresi berganda, grafik seperti itu tidak dapat dibuat.

Ketika mempertimbangkan model alternatif dengan definisi variabel terikat yang sama, prosedur pemilihannya relatif sederhana. Seseorang dapat memperkirakan regresi berdasarkan semua fungsi yang masuk akal yang dapat dibayangkan dan memilih fungsi yang paling menjelaskan perubahan variabel terikat. Jelas bahwa ketika fungsi linier menjelaskan sekitar 64% varians dalam y, dan fungsi hiperbolik menjelaskan 99,9%, maka yang terakhir jelas harus dipilih. Tapi ketika model yang berbeda menggunakan bentuk fungsional yang berbeda, masalah pemilihan model menjadi jauh lebih rumit.

29. Menggunakan uji Box-Cox.

Secara umum, ketika mempertimbangkan model alternatif dengan definisi variabel terikat yang sama, pilihannya sederhana. Paling masuk akal untuk mengestimasi regresi berdasarkan semua fungsi yang masuk akal, dengan fokus pada fungsi yang paling menjelaskan perubahan variabel terikat. Jika koefisien determinasi mengukur, dalam satu kasus, proporsi varians yang dijelaskan oleh regresi, dan dalam kasus lain, proporsi varians dalam logaritma variabel dependen yang dijelaskan oleh regresi, maka pilihan dibuat tanpa kesulitan. Hal lain adalah ketika nilai-nilai untuk dua model ini sangat dekat dan masalah pilihan menjadi jauh lebih rumit.

Prosedur standar berupa uji Box-Cox kemudian harus diterapkan. Jika hanya perlu membandingkan model dengan menggunakan faktor efektif dan logaritmanya dalam bentuk varian variabel terikat, maka digunakan versi uji Zarembka. Ini mengusulkan transformasi skala observasi Y, yang memungkinkan perbandingan langsung dari root mean square error (MSE) dalam model linier dan logaritmik. Prosedur terkait mencakup langkah-langkah berikut:

    Rata-rata geometrik dari nilai Y dalam sampel dihitung, yang bertepatan dengan eksponen rata-rata aritmatika dari logaritma Y;

    Pengamatan Y dihitung ulang sedemikian rupa sehingga dibagi dengan nilai yang diperoleh pada langkah pertama;

    Regresi diestimasi untuk model linier menggunakan nilai Y yang diskalakan, bukan nilai Y asli, dan untuk model logaritmik menggunakan logaritma nilai Y yang diskalakan.Nilai RMSE untuk kedua regresi sekarang dapat dibandingkan dan oleh karena itu model dengan jumlah deviasi kuadrat yang lebih kecil memberikan kesesuaian yang lebih baik dengan hubungan sebenarnya dari nilai-nilai yang diamati;

    Untuk memeriksa bahwa salah satu model tidak memberikan kecocokan yang jauh lebih baik, seseorang dapat menggunakan produk dari setengah jumlah observasi dan logaritma rasio nilai deviasi standar dalam regresi yang dihitung ulang, dan kemudian mengambil nilai absolut dari nilai ini.

30. Konsep interkorelasi dan multikolinearitas faktor.

34. Dasar-dasar MNC dan validitas penerapannya.

Sekarang mari kita beralih ke dasar-dasar OLS, validitas penerapannya (termasuk masalah regresi berganda) dan sifat terpenting dari estimasi yang diperoleh dengan menggunakan OLS. Mari kita mulai dengan fakta itu, bersama dengan ketergantungan analitis pada sisi kanan persamaan regresi Istilah acak juga memainkan peran penting. Komponen acak ini merupakan besaran yang tidak dapat diobservasi. Sami tes statistik parameter regresi dan ukuran korelasi didasarkan pada asumsi yang tidak dapat diuji tentang distribusi komponen acak regresi berganda ini. Asumsi-asumsi ini hanyalah permulaan. Hanya setelah membangun persamaan regresi barulah diperiksa apakah estimasi residu acak (analog empiris dari komponen acak) memiliki sifat yang diasumsikan secara apriori. Intinya, ketika parameter model diestimasi, perbedaan antara nilai teoretis dan aktual dari atribut yang dihasilkan dihitung untuk memperkirakan komponen acak itu sendiri. Penting untuk diingat bahwa ini hanyalah contoh implementasi dari sisa persamaan tertentu yang tidak diketahui.

Koefisien regresi yang diperoleh dari sistem persamaan normal merupakan perkiraan sampel kekuatan hubungan. Jelas bahwa hal-hal tersebut hanya mempunyai arti praktis jika tidak memihak. Mari kita ingat bahwa dalam hal ini rata-rata residu sama dengan nol, atau, yang sama, rata-rata estimasi sama dengan parameter estimasi itu sendiri. Maka residu tidak akan terakumulasi pada sejumlah besar estimasi sampel, dan parameter regresi yang ditemukan itu sendiri dapat dianggap sebagai rata-rata dari sejumlah besar estimasi yang tidak bias.

Selain itu, estimasi harus memiliki varian terkecil, yaitu. menjadi efektif dan kemudian menjadi mungkin untuk berpindah dari estimasi titik yang praktis tidak dapat digunakan ke estimasi interval. Terakhir, interval kepercayaan berguna ketika probabilitas memperoleh estimasi pada jarak tertentu dari nilai parameter yang sebenarnya (tidak diketahui) mendekati satu. Perkiraan seperti itu disebut konsisten dan sifat konsistensi ditandai dengan peningkatan keakuratannya seiring dengan bertambahnya ukuran sampel.

Namun kondisi konsistensi tidak terpenuhi secara otomatis dan sangat bergantung pada terpenuhinya dua persyaratan penting berikut. Pertama, residunya sendiri harus stokastik dengan keacakan yang paling nyata, yaitu. semua dependensi yang berfungsi dengan jelas harus dimasukkan secara khusus dalam komponen analitik regresi berganda, dan sebagai tambahan, nilai residu harus didistribusikan secara independen satu sama lain untuk sampel yang berbeda (tidak ada autokorelasi residu). Syarat kedua yang tidak kalah penting adalah varian setiap deviasi (residual) harus identik untuk semua nilai variabel X (homoskedastisitas). Itu. homoskedastisitas dinyatakan dengan kekonstanan varians untuk semua observasi:

Sebaliknya, heteroskedastisitas adalah pelanggaran terhadap kekonstanan varians untuk pengamatan yang berbeda. Dalam hal ini, probabilitas apriori (sebelum observasi) untuk memperoleh nilai yang sangat menyimpang dengan distribusi teoritis suku acak yang berbeda untuk observasi yang berbeda dalam sampel akan relatif tinggi.

Autokorelasi residu, atau adanya korelasi antara sisa pengamatan saat ini dan pengamatan sebelumnya (selanjutnya), ditentukan oleh nilai koefisien korelasi linier biasa. Jika berbeda secara signifikan dari nol, maka residunya bersifat autokorelasi dan oleh karena itu, fungsi kepadatan probabilitas (distribusi residu) bergantung pada titik pengamatan dan distribusi nilai residu pada titik pengamatan lainnya. Autokorelasi residu akan lebih mudah ditentukan menggunakan informasi statistik yang tersedia jika ada pengurutan pengamatan berdasarkan faktor X. Tidak adanya autokorelasi residu memastikan konsistensi dan efektivitas estimasi koefisien regresi.

35. Homoskedastisitas dan heteroskedastisitas, autokorelasi residu, generalized less square (GLM).

Kesamaan varians dari residual seluruh nilai variabel X atau homoskedastisitas juga mutlak diperlukan untuk memperoleh estimasi parameter regresi yang konsisten dengan menggunakan OLS. Apabila kondisi homoskedastisitas tidak dipenuhi maka akan terjadi heteroskedastisitas. Hal ini dapat menyebabkan estimasi koefisien regresi menjadi bias. Heteroskedastisitas terutama akan mempengaruhi penurunan efisiensi estimasi koefisien regresi. Dalam hal ini, menjadi sangat sulit untuk menggunakan rumus kesalahan standar koefisien regresi, yang penggunaannya mengasumsikan dispersi residu yang seragam untuk setiap nilai faktor. Adapun ketidakberpihakan estimasi koefisien regresi, terutama bergantung pada independensi residu dan nilai faktor itu sendiri.

Cara yang cukup jelas, meskipun tidak ketat dan memerlukan keterampilan untuk menguji homoskedastisitas adalah dengan mempelajari secara grafis sifat ketergantungan residu pada rata-rata atribut yang dihasilkan (teoretis), atau bidang korelasi yang sesuai. Metode analisis untuk mempelajari dan menilai heteroskedastisitas lebih ketat. Jika terdapat heteroskedastisitas yang signifikan, disarankan untuk menggunakan OLS yang digeneralisasi (GLM) daripada OLS.

Selain persyaratan regresi berganda yang timbul dari penggunaan OLS, juga perlu memenuhi ketentuan pada variabel yang dimasukkan dalam model. Hal ini, pertama-tama, mencakup persyaratan mengenai jumlah faktor model untuk volume observasi tertentu (1 hingga 7). Jika tidak, parameter regresi akan menjadi tidak signifikan secara statistik. Dari sudut pandang efektivitas penerapan metode numerik yang sesuai ketika menerapkan LSM, jumlah observasi harus melebihi jumlah parameter estimasi (dalam sistem persamaan, jumlah persamaan lebih besar dari jumlah persamaan yang dicari). variabel).

Pencapaian ekonometrik yang paling signifikan adalah pengembangan signifikan metode untuk memperkirakan parameter yang tidak diketahui dan peningkatan kriteria untuk mengidentifikasi signifikansi statis dari efek yang dipertimbangkan. Dalam hal ini, ketidakmungkinan atau ketidaksesuaian penggunaan OLS tradisional karena heteroskedastisitas yang terwujud pada tingkat yang berbeda-beda menyebabkan berkembangnya OLS yang digeneralisasi (GLM). Faktanya, hal ini melibatkan penyesuaian model, mengubah spesifikasinya, dan mentransformasikan data asli untuk memastikan estimasi koefisien regresi yang tidak bias, efisien, dan konsisten.

Diasumsikan rata-rata residunya adalah nol, namun penyebarannya tidak lagi konstan, melainkan sebanding dengan nilai K i, dimana nilai tersebut merupakan koefisien proporsionalitas yang berbeda-beda untuk nilai yang berbeda. faktor x. Jadi, koefisien-koefisien inilah (nilai K i) yang mencirikan heterogenitas dispersi. Tentu saja, diyakini bahwa besarnya dispersi itu sendiri, yang merupakan faktor persekutuan untuk koefisien proporsionalitas ini, tidak diketahui.

Model asli, setelah memasukkan koefisien-koefisien ini ke dalam persamaan regresi berganda, tetap bersifat heteroskedastis (lebih tepatnya, ini adalah nilai sisa model). Biarkan residu (sisa) ini tidak terautokorelasi. Mari kita perkenalkan variabel baru yang diperoleh dengan membagi variabel model awal yang dicatat sebagai hasil observasi ke-i dengan akar kuadrat dari koefisien proporsionalitas K i . Kemudian diperoleh persamaan baru pada variabel yang ditransformasikan, yang residunya bersifat homoskedastis. Variabel baru itu sendiri merupakan variabel lama (asli) yang diberi bobot.

Oleh karena itu, pendugaan parameter persamaan baru yang diperoleh dengan cara ini dengan residu homoskedastis akan direduksi menjadi metode kuadrat terkecil tertimbang (intinya ini adalah metode OLS). Ketika digunakan sebagai pengganti variabel regresi itu sendiri, penyimpangannya dari rata-rata, maka ekspresi koefisien regresi akan berbentuk sederhana dan terstandar (seragam), sedikit berbeda untuk OLS dan OLS dengan faktor koreksi 1/K pada pembilang dan penyebutnya. pecahan yang memberikan koefisien regresi.

Perlu diingat bahwa parameter model yang ditransformasikan (disesuaikan) sangat bergantung pada konsep apa yang digunakan sebagai dasar koefisien proporsionalitas K i. Seringkali diasumsikan bahwa residu sebanding dengan nilai faktor. Model mengambil bentuk paling sederhana ketika hipotesis diterima bahwa kesalahan sebanding dengan nilai faktor terakhir secara berurutan. Kemudian OLS memungkinkan untuk meningkatkan bobot pengamatan dengan nilai variabel yang ditransformasikan lebih kecil ketika menentukan parameter regresi dibandingkan dengan pengoperasian OLS standar dengan variabel sumber aslinya. Namun variabel-variabel baru ini telah menerima kandungan ekonomi yang berbeda.

Hipotesis tentang proporsionalitas residu dengan ukuran faktor mungkin mempunyai dasar yang nyata. Biarkan kumpulan data tertentu yang kurang homogen diproses, misalnya, termasuk perusahaan besar dan kecil pada saat yang bersamaan. Kemudian nilai volumetrik yang besar dari faktor tersebut dapat berhubungan dengan dispersi besar dari karakteristik yang dihasilkan dan dispersi besar dari nilai sisa. Selanjutnya, penggunaan OLS dan transisi yang sesuai ke nilai relatif tidak hanya mengurangi variasi faktor, tetapi juga mengurangi varians kesalahan. Dengan demikian, kasus paling sederhana dalam memperhitungkan dan mengoreksi heteroskedastisitas dalam model regresi diwujudkan melalui penggunaan OLS.

Pendekatan penerapan OLS dalam bentuk OLS tertimbang di atas cukup praktis - sederhana diterapkan dan memiliki interpretasi ekonomi yang transparan. Tentu saja, ini bukan pendekatan yang paling umum, dan dalam konteks statistik matematika, yang berfungsi sebagai landasan teoritis ekonometrik, kami ditawari metode yang jauh lebih ketat yang mengimplementasikan OLS dalam konteksnya. pandangan umum. Di dalamnya, Anda perlu mengetahui matriks kovarians dari vektor kesalahan (kolom sisa). Dan hal ini biasanya tidak adil dalam situasi praktis, dan tidak mungkin menemukan matriks seperti itu. Oleh karena itu, secara umum, perlu untuk memperkirakan matriks yang diperlukan untuk menggunakan perkiraan tersebut dalam rumus yang sesuai, bukan matriks itu sendiri. Dengan demikian, versi implementasi OMNC yang dijelaskan merupakan salah satu perkiraan tersebut. Kadang-kadang disebut kuadrat terkecil umum yang dapat diakses.

Perlu juga diingat bahwa koefisien determinasi tidak dapat berfungsi sebagai ukuran kualitas kesesuaian yang memuaskan saat menggunakan OLS. Kembali ke penggunaan OLS, kami juga mencatat bahwa metode penggunaan standar deviasi (kesalahan standar) dalam bentuk Putih (yang disebut kesalahan standar konsisten dengan adanya heteroskedastisitas) memiliki cukup umum. Metode ini dapat diterapkan asalkan matriks kovarians dari vektor kesalahan berbentuk diagonal. Jika terdapat autokorelasi residu (kesalahan), ketika terdapat elemen (koefisien) bukan nol dalam matriks kovarians dan di luar diagonal utama, maka sebaiknya digunakan metode kesalahan standar yang lebih umum dalam bentuk Neve West. Terdapat batasan yang signifikan: elemen bukan nol, selain diagonal utama, hanya ditemukan pada diagonal yang berdekatan, berjarak tidak lebih dari jumlah tertentu dari diagonal utama.

Dari penjelasan di atas jelas bahwa perlu dilakukan pengecekan data untuk mengetahui adanya heteroskedastisitas. Tes di bawah ini dapat mencapai tujuan tersebut. Mereka menguji hipotesis utama tentang persamaan varians residu terhadap hipotesis alternatif (tentang ketidaksetaraan hipotesis tersebut). Selain itu, terdapat kendala struktural apriori terhadap sifat heteroskedastisitas. Uji Goldfeld-Quandt biasanya menggunakan asumsi bahwa varians error (residual) berbanding lurus dengan nilai beberapa variabel independen. Skema penggunaan tes ini adalah sebagai berikut. Pertama, data diurutkan secara descending dari variabel bebas yang diduga terjadi heteroskedastisitas. Kumpulan data yang diurutkan ini kemudian menghilangkan rata-rata beberapa observasi, dimana kata "sedikit" berarti sekitar seperempat (25%) dari jumlah total semua pengamatan. Selanjutnya, dua regresi independen dijalankan pada rata-rata observasi pertama yang tersisa (setelah eliminasi) dan dua observasi rata-rata yang tersisa terakhir. Setelah ini, dua sisa yang bersesuaian dibuat. Terakhir, statistik Fisher F disusun dan jika hipotesis yang diteliti benar, maka F memang merupakan distribusi Fisher dengan derajat kebebasan yang sesuai. Maka nilai statistik yang besar berarti hipotesis yang diuji harus ditolak. Tanpa langkah eliminasi, kekuatan tes ini akan berkurang.

Uji Breusch-Pagan digunakan dalam kasus di mana diasumsikan secara apriori bahwa varians bergantung pada beberapa variabel tambahan. Pertama, regresi biasa (standar) dilakukan dan diperoleh vektor residu. Kemudian estimasi varians dibuat. Selanjutnya dilakukan regresi kuadrat vektor residu dibagi varian empiris (variance estimasi). Untuk itu (regresi), ditemukan bagian variasi yang dapat dijelaskan. Dan untuk bagian variasi yang dijelaskan ini, dibagi dua, statistik dibuat. Jika hipotesis nol benar (tidak ada heteroskedastisitas yang benar), maka nilai tersebut mempunyai distribusi hee-persegi. Sebaliknya, jika pengujian menunjukkan heteroskedastisitas, maka model asli ditransformasikan dengan membagi komponen vektor residu dengan komponen vektor variabel independen yang diamati.

36. Metode simpangan baku dalam bentuk Putih.

Kesimpulan berikut dapat diambil. Penggunaan OLS dengan adanya heteroskedastisitas dilakukan untuk meminimalkan jumlah deviasi kuadrat tertimbang. Penggunaan OLS yang tersedia dikaitkan dengan kebutuhan untuk memiliki jumlah observasi yang besar melebihi jumlah parameter estimasi. Kasus yang paling menguntungkan untuk menggunakan OLS adalah kasus ketika kesalahan (sisa) sebanding dengan salah satu variabel independen dan estimasi yang dihasilkan konsisten. Namun jika pada model dengan heteroskedastisitas perlu menggunakan bukan OLS, melainkan OLS standar, maka untuk memperoleh estimasi yang konsisten dapat menggunakan estimasi error dalam bentuk White atau Nevje-West.

Saat menganalisis deret waktu, sering kali perlu memperhitungkan ketergantungan statistik pengamatan pada titik waktu yang berbeda. Dalam hal ini, asumsi kesalahan yang tidak berkorelasi tidak terpenuhi. Mari kita pertimbangkan model sederhana, di mana kesalahan membentuk proses autoregresif tingkat pertama. Dalam hal ini, kesalahan memenuhi hubungan perulangan sederhana, di sisi kanannya yang salah satu sukunya adalah barisan variabel acak independen yang terdistribusi normal dengan mean nol dan varians konstan. Suku kedua adalah hasil kali parameter (koefisien autoregresi) dan nilai residu pada titik waktu sebelumnya. Urutan nilai kesalahan (sisa) itu sendiri membentuk proses acak yang stasioner. Proses acak stasioner dicirikan oleh keteguhan karakteristiknya dari waktu ke waktu, khususnya mean dan varians. Dalam hal ini, matriks kovarians (istilahnya) yang menarik bagi kita dapat dengan mudah ditulis menggunakan pangkat parameter.

Estimasi model autoregresif untuk parameter yang diketahui dilakukan dengan menggunakan OLS. Dalam hal ini, cukup dengan mereduksi model asli dengan transformasi sederhana menjadi model yang kesalahannya memenuhi kondisi model regresi standar. Hal ini sangat jarang terjadi, namun masih terdapat situasi di mana parameter autoregresi diketahui. Oleh karena itu, umumnya perlu dilakukan estimasi dengan parameter autoregresif yang tidak diketahui. Ada tiga prosedur yang paling umum digunakan untuk penilaian tersebut. Metode Cochrane-Orcutt, Prosedur Hildreth-Lu dan Metode Durbin.

Secara umum, kesimpulan berikut ini benar. Analisis deret waktu memerlukan koreksi OLS konvensional, karena kesalahan dalam kasus ini biasanya berkorelasi. Seringkali kesalahan ini membentuk proses autoregresif stasioner orde pertama. Estimator OLS untuk autoregresi orde pertama tidak bias, konsisten, namun tidak efektif. Dengan koefisien autoregresi yang diketahui, OLS direduksi menjadi transformasi sederhana (koreksi) dari sistem asli dan kemudian ke penerapan OLS standar. Jika, seperti yang lebih sering terjadi, koefisien autoregresif tidak diketahui, maka ada beberapa prosedur yang tersedia untuk OLS, yang terdiri dari memperkirakan parameter (koefisien) yang tidak diketahui, setelah itu transformasi yang sama diterapkan seperti pada kasus sebelumnya yang diketahui. parameter.

37. Konsep uji Breusch-Pagan, uji Goldfeldt-Quandt

Mari kita periksa hipotesis H 0 tentang persamaan koefisien regresi individu dengan nol (jika alternatifnya tidak sama dengan H 1) pada tingkat signifikansi b = 0,05.

Jika hipotesis utama ternyata salah, kami menerima hipotesis alternatif. Untuk menguji hipotesis ini digunakan uji-t Student.

Nilai kriteria-t yang diperoleh dari data observasi (disebut juga observasi atau aktual) dibandingkan dengan nilai tabulasi (kritis) yang ditentukan dari tabel distribusi Siswa (yang biasanya diberikan pada akhir buku teks dan lokakarya statistika atau ekonometrik).

Nilai tabel ditentukan tergantung pada tingkat signifikansi (b) dan jumlah derajat kebebasan, yang dalam kasus regresi berpasangan linier sama dengan (n-2), n adalah jumlah observasi.

Jika nilai uji-t sebenarnya lebih besar dari nilai tabulasi (modulo), maka hipotesis utama ditolak dan dianggap dengan probabilitas (1-b) parameter atau karakteristik statistik dalam populasi berbeda signifikan dari nol. .

Jika nilai uji-t sebenarnya lebih kecil dari nilai tabel (modulo), maka tidak ada alasan untuk menolak hipotesis utama, yaitu. suatu parameter atau karakteristik statistik dalam populasi tidak berbeda nyata dari nol pada tingkat signifikansi b.

t kritikal (n-m-1;b/2) = (30;0,025) = 2,042

Sejak 1.7< 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в pada kasus ini koefisien b dapat diabaikan.

Sejak 0,56< 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

Interval kepercayaan untuk koefisien persamaan regresi.

Mari kita tentukan interval kepercayaan koefisien regresi, yang dengan reliabilitas 95% adalah sebagai berikut:

  • (b - t kritik S b ; b + t kritik S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

Karena titik 0 (nol) terletak di dalam interval kepercayaan, estimasi interval koefisien b tidak signifikan secara statistik.

  • (a - t kritik S a ; a + t kritik S a)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

Dengan probabilitas 95% dapat dikatakan bahwa nilai parameter ini terletak pada interval ditemukan.

Karena titik 0 (nol) terletak di dalam selang kepercayaan, maka pendugaan selang koefisien a tidak signifikan secara statistik.

2) F-statistik. Kriteria Fisher.

Koefisien determinasi R2 digunakan untuk menguji signifikansi persamaan regresi linier secara keseluruhan.

Pengujian signifikansi suatu model regresi dilakukan dengan menggunakan uji F Fisher yang nilai hitungnya diperoleh dari perbandingan varians rangkaian pengamatan asli terhadap indikator yang diteliti dan taksiran varians rangkaian sisa yang tidak bias. untuk model ini.

Jika nilai hitung dengan derajat kebebasan k 1 =(m) dan k 2 =(n-m-1) lebih besar dari nilai tabel pada tingkat signifikansi tertentu, maka model tersebut dianggap signifikan.

dimana m adalah jumlah faktor dalam model.

Signifikansi statistik dari regresi linier berpasangan dinilai menggunakan algoritma berikut:

  • 1. Hipotesis nol diajukan bahwa persamaan secara keseluruhan tidak signifikan secara statistik: H 0: R 2 =0 pada tingkat signifikansi b.
  • 2. Selanjutnya tentukan nilai kriteria F yang sebenarnya:

dimana m=1 untuk regresi berpasangan.

3. Nilai tabulasi ditentukan dari tabel distribusi Fisher untuk tingkat signifikansi tertentu, dengan memperhatikan jumlah derajat kebebasan untuk jumlah total kuadrat (varians yang lebih besar) adalah 1 dan jumlah derajat kebebasan untuk sisa jumlah kuadrat (varian lebih kecil) dalam regresi linier adalah n-2.

F tabel adalah maksimum arti yang mungkin kriteria di bawah pengaruh faktor acak dengan derajat kebebasan dan tingkat signifikansi tertentu b. Tingkat signifikansi b - kemungkinan menolak hipotesis yang benar, asalkan hipotesis itu benar. Biasanya b diambil sama dengan 0,05 atau 0,01.

4. Jika nilai uji F sebenarnya lebih kecil dari nilai tabel, maka dikatakan tidak ada alasan untuk menolak hipotesis nol.

Jika tidak, hipotesis nol ditolak dan dengan probabilitas (1-b) hipotesis alternatif tentang signifikansi statistik persamaan secara keseluruhan diterima.

Tabel nilai kriteria dengan derajat kebebasan k 1 =1 dan k 2 =30, F tabel = 4.17

Karena nilai sebenarnya dari F< F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Hubungan antara uji F Fisher dan statistik t Student dinyatakan dengan persamaan:

Indikator kualitas persamaan regresi.

Menguji autokorelasi residu.

Prasyarat penting untuk membangun model regresi kualitatif menggunakan OLS adalah independensi nilai deviasi acak dari nilai deviasi pada semua observasi lainnya. Hal ini memastikan bahwa tidak ada korelasi antara penyimpangan apa pun dan, khususnya, antara penyimpangan yang berdekatan.

Autokorelasi (korelasi serial) diartikan sebagai korelasi antara indikator-indikator observasi yang diurutkan dalam waktu (time series) atau ruang (cross series). Autokorelasi residu (varians) biasa terjadi pada analisis regresi bila menggunakan data deret waktu dan sangat jarang bila menggunakan data cross-sectional.

Dalam permasalahan ekonomi, autokorelasi positif lebih sering terjadi dibandingkan autokorelasi negatif. Dalam kebanyakan kasus, autokorelasi positif disebabkan oleh arah paparan konstan beberapa faktor tidak diperhitungkan dalam model.

Autokorelasi negatif pada dasarnya berarti bahwa penyimpangan positif diikuti oleh penyimpangan negatif dan sebaliknya. Situasi ini dapat terjadi jika hubungan yang sama antara permintaan minuman ringan dan pendapatan dipertimbangkan menurut data musiman (musim dingin-musim panas).

Di antara alasan utama yang menyebabkan autokorelasi adalah sebagai berikut:

  • 1. Kesalahan spesifikasi. Kegagalan untuk memperhitungkan variabel penjelas penting dalam model atau pilihan bentuk ketergantungan yang salah biasanya menyebabkan penyimpangan sistemik titik pengamatan dari garis regresi, yang dapat menyebabkan autokorelasi.
  • 2. Inersia. Banyak indikator ekonomi(inflasi, pengangguran, GNP, dll.) mempunyai sifat siklus tertentu yang terkait dengan gelombang aktivitas bisnis. Oleh karena itu, perubahan indikator tidak terjadi secara instan, melainkan memiliki inersia tertentu.
  • 3. Efek jaring laba-laba. Di banyak bidang produksi dan bidang lainnya, indikator ekonomi merespons perubahan kondisi ekonomi dengan penundaan (time lag).
  • 4. Pemulusan data. Seringkali, data untuk jangka waktu tertentu diperoleh dengan merata-ratakan data pada interval penyusunnya. Hal ini dapat menyebabkan kelancaran tertentu terhadap fluktuasi yang terjadi dalam periode yang dipertimbangkan, yang pada gilirannya dapat menyebabkan autokorelasi.

Konsekuensi autokorelasi serupa dengan konsekuensi heteroskedastisitas: kesimpulan dari statistik t dan F yang menentukan signifikansi koefisien regresi dan koefisien determinasi kemungkinan besar salah.



Baru di situs

>

Paling populer