Rumah Gigi bungsu Matriks koefisien korelasi linier berpasangan. Analisis matriks koefisien korelasi berpasangan

Matriks koefisien korelasi linier berpasangan. Analisis matriks koefisien korelasi berpasangan

Awalnya di model pada sertakan semua komponen utama (nilai yang dihitung ditunjukkan dalam tanda kurung T-kriteria):

Kualitas model ditandai dengan: koefisien determinasi berganda r = 0,517, kesalahan perkiraan relatif rata-rata = 10,4%, varians sisa hal 2= 1,79 dan F tampak = 121. Karena kenyataan itu F obs> F kr =2,85 pada α = 0,05, ayat 1 = 6, ayat 2= 14, persamaan regresinya signifikan dan setidaknya salah satu koefisien regresi - β 1, β 2, β 3, β 4 - tidak sama dengan nol.

Jika signifikansi persamaan regresi (hipotesis jam 0:β 1 = β 2 = β 3 = β 4 = 0 diperiksa pada = 0,05, maka signifikansi koefisien regresi, yaitu. hipotesis H0: β J = 0 (j = 1, 2, 3, 4), sebaiknya diuji pada tingkat signifikansi lebih besar dari 0,05, misalnya pada α = 0,1. Kemudian pada α = 0,1, ay= 14 magnitudo T kr = 1,76, dan signifikan, sebagai berikut dari persamaan (53.41), adalah koefisien regresi β 1, β 2, β 3.

Mengingat komponen-komponen utamanya tidak berkorelasi satu sama lain, maka kita dapat segera menghilangkan semua koefisien yang tidak signifikan dari persamaan tersebut, dan persamaan tersebut akan berbentuk

(53.42)

Membandingkan persamaan (53.41) dan (53.42), kita melihat bahwa tidak termasuk komponen utama yang tidak signifikan f 4 Dan f 5, tidak mempengaruhi nilai koefisien persamaan b 0 = 9,52, b 1 = 0,93, b 2 = 0,66 dan sesuai tj (J = 0, 1, 2, 3).

Hal ini disebabkan sifat komponen utama yang tidak berkorelasi. Yang menarik di sini adalah kesejajaran persamaan regresi indikator awal (53.22), (53.23) dan komponen utama (53.41), (53.42).

Persamaan (53.42) penting karena F obs = 194 > F kr = 3,01, ditemukan pada α = 0,05, ayat 1 = 4, ayat 2= 16. Koefisien persamaan juga signifikan karena t j > t kr . = 1,746, sesuai dengan α = 0,01, ay= 16 untuk J= 0, 1, 2, 3. Koefisien determinasi R= 0,486 menunjukkan 48,6% variasi pada karena pengaruh tiga komponen utama pertama.

Persamaan (53.42) dicirikan oleh kesalahan perkiraan relatif rata-rata = 9,99% dan varians sisa s 2 = 1,91.

Persamaan regresi komponen utama (53.42) mempunyai sifat aproksimasi yang sedikit lebih baik dibandingkan model regresi (53.23) berdasarkan indikator awal: R= 0,486 > R= 0,469; = 9,99% < (X) = 10,5% dan s 2 (f) = 1,91 < s 2 (x) = 1.97. Selain itu, pada persamaan (53.42), komponen utamanya adalah fungsi linier semua indikator awal, sedangkan persamaan (53.23) hanya mencakup dua variabel ( x 1 Dan x 4). Dalam beberapa kasus, perlu diperhatikan bahwa model (53.42) sulit untuk diinterpretasikan, karena model tersebut mencakup model ketiga. komponen utama f 3, yang belum kami tafsirkan dan yang kontribusinya terhadap total penyebaran indikator awal ( x 1, ..., x 5) hanya 8,6%. Namun, pengecualiannya f 3 dari persamaan (53.42) secara signifikan memperburuk sifat aproksimasi model: R= 0,349; = 12,4% dan hal 2(F) = 2,41. Maka disarankan untuk memilih persamaan (53.23) sebagai model regresi hasil.

Analisis klaster

DI DALAM penelitian statistik pengelompokan data primer merupakan teknik penyelesaian utama masalah klasifikasi, dan oleh karena itu menjadi dasar untuk semua pekerjaan lebih lanjut dengan informasi yang dikumpulkan.

Secara tradisional, masalah ini diselesaikan sebagai berikut. Dari sekian banyak ciri yang menggambarkan suatu objek, dipilih satu ciri yang paling informatif dari sudut pandang peneliti, dan datanya dikelompokkan sesuai dengan nilai ciri tersebut. Apabila perlu dilakukan klasifikasi berdasarkan beberapa kriteria yang diurutkan berdasarkan tingkat kepentingannya, maka terlebih dahulu dilakukan klasifikasi menurut ciri pertama, kemudian masing-masing kelas yang dihasilkan dibagi menjadi subkelas menurut ciri kedua. , dll. Kebanyakan pengelompokan statistik kombinasional dibuat dengan cara yang sama.

Dalam kasus di mana tidak mungkin untuk mengatur karakteristik klasifikasi, metode pengelompokan multidimensi yang paling sederhana digunakan - pembuatan indikator integral (indeks), yang secara fungsional bergantung pada karakteristik awal, diikuti dengan klasifikasi menurut indikator ini.

Pengembangan dari pendekatan ini merupakan pilihan klasifikasi berdasarkan beberapa indikator umum (komponen utama) yang diperoleh dengan menggunakan metode analisis faktor atau komponen.

Jika terdapat beberapa fitur (awal atau umum), masalah klasifikasi dapat diselesaikan dengan metode analisis klaster, yang berbeda dengan metode klasifikasi multidimensi lainnya dengan tidak adanya sampel pelatihan, yaitu. informasi apriori tentang sebaran penduduk.

Perbedaan antara skema penyelesaian masalah klasifikasi sangat ditentukan oleh apa yang dimaksud dengan konsep “kesamaan” dan “derajat kesamaan”.

Setelah tujuan pekerjaan dirumuskan, wajar jika kita mencoba menentukan kriteria mutu, fungsi tujuan, yang nilainya memungkinkan kita membandingkannya. berbagai skema klasifikasi.

Dalam penelitian ekonomi fungsi objektif, sebagai suatu peraturan, harus meminimalkan beberapa parameter yang ditentukan pada sekumpulan objek (misalnya, tujuan mengklasifikasikan peralatan dapat berupa pengelompokan yang meminimalkan total biaya waktu dan uang untuk pekerjaan perbaikan).

Dalam kasus di mana tidak mungkin untuk memformalkan tujuan tugas, kriteria kualitas klasifikasi dapat berupa kemungkinan interpretasi yang bermakna dari kelompok yang ditemukan.

Mari kita perhatikan permasalahan berikut ini. Biarkan himpunan itu dipelajari P benda-benda yang masing-masing mempunyai ciri khasnya k tanda-tanda terukur. Totalitas ini perlu dibagi ke dalam kelompok-kelompok (kelas) yang homogen dalam arti tertentu. Pada saat yang sama, praktis tidak ada informasi apriori tentang sifat distribusinya k vektor -dimensi X di dalam kelas.

Kelompok yang diperoleh sebagai hasil partisi biasanya disebut cluster* (taksa**, gambar), metode untuk menemukannya disebut analisis cluster (masing-masing, taksonomi numerik atau pengenalan pola dengan pembelajaran mandiri).

* Gugus(Bahasa Inggris) - sekelompok elemen yang dicirikan oleh beberapa sifat umum.

**Tahop(Bahasa Inggris) - kelompok sistematis dari kategori apa pun.

Penting sejak awal untuk memahami dengan jelas mana dari dua masalah klasifikasi yang harus diselesaikan. Jika masalah pengetikan yang biasa diselesaikan, maka himpunan observasi dibagi menjadi beberapa area pengelompokan yang jumlahnya relatif kecil (misalnya, interval seri variasi dalam kasus pengamatan satu dimensi) sehingga unsur-unsur suatu daerah berada sedekat mungkin satu sama lain.

Solusi untuk masalah lainnya adalah dengan menentukan stratifikasi alami hasil pengamatan ke dalam kelompok-kelompok yang terdefinisi dengan jelas yang terletak pada jarak tertentu satu sama lain.

Jika masalah tipifikasi pertama selalu mempunyai solusi, maka dalam kasus kedua mungkin ternyata kumpulan observasi tidak mengungkapkan stratifikasi alami ke dalam cluster, yaitu. membentuk satu cluster.

Meskipun banyak metode analisis klaster yang cukup mendasar, sebagian besar pekerjaan yang diusulkan sudah dilakukan pada dekade terakhir. Hal ini dijelaskan oleh solusi yang efektif tugas pencarian cluster yang memerlukan melakukan sejumlah besar aritmatika dan operasi logis, menjadi mungkin hanya dengan munculnya dan berkembangnya teknologi komputer.

Bentuk yang biasa digunakan untuk merepresentasikan data awal dalam permasalahan analisis klaster adalah matriks

setiap barisnya mewakili hasil pengukuran k tanda-tanda yang dipertimbangkan pada salah satu objek yang diperiksa. Dalam situasi tertentu, pengelompokan objek dan pengelompokan fitur mungkin menarik. Dalam kasus di mana perbedaan antara kedua tugas ini tidak signifikan, misalnya, ketika menjelaskan beberapa algoritma, kami hanya akan menggunakan istilah “objek”, termasuk istilah “fitur” dalam konsep ini.

Matriks X bukan satu-satunya cara untuk menyajikan data dalam masalah analisis klaster. Terkadang informasi awal diberikan dalam bentuk matriks persegi

elemen r ij yang menentukan tingkat kedekatan Saya-keberatan pada J-mu.

Sebagian besar algoritma analisis cluster seluruhnya didasarkan pada matriks jarak (atau kedekatan) atau memerlukan perhitungan elemen individualnya, jadi jika data disajikan dalam bentuk X, maka tahap pertama dalam menyelesaikan masalah pencarian cluster adalah pemilihan metode untuk menghitung jarak, atau kedekatan, antara objek atau fitur.

Pertanyaan tentang menentukan kedekatan antar karakteristik agak lebih mudah diselesaikan. Biasanya, analisis kluster fitur memiliki tujuan yang sama seperti analisis faktor: identifikasi kelompok ciri-ciri yang saling berhubungan yang mencerminkan aspek tertentu dari objek yang diteliti. Ukuran kedekatan dalam hal ini bermacam-macam koefisien statistik komunikasi.


Informasi terkait.


Untuk mengetahui derajat ketergantungan antara beberapa indikator digunakan koefisien korelasi berganda. Kemudian dirangkum dalam tabel tersendiri yang disebut matriks korelasi. Nama baris dan kolom matriks tersebut adalah nama parameter yang saling bergantung satu sama lain. Koefisien korelasi yang sesuai terletak di perpotongan baris dan kolom. Mari cari tahu bagaimana Anda bisa melakukan perhitungan serupa menggunakan alat Excel.

Tingkat hubungan antara berbagai indikator biasanya ditentukan sebagai berikut, bergantung pada koefisien korelasinya:

  • 0 – 0,3 – tidak ada koneksi;
  • 0,3 – 0,5 – koneksi lemah;
  • 0,5 – 0,7 – koneksi rata-rata;
  • 0,7 – 0,9 – tinggi;
  • 0,9 – 1 – sangat kuat.

Jika koefisien korelasi negatif, artinya hubungan antar parameter berbanding terbalik.

Untuk membuat matriks korelasi di Excel, Anda menggunakan satu alat yang disertakan dalam paket "Analisis data". Itulah yang disebut - "Korelasi". Mari pelajari cara menggunakannya untuk menghitung beberapa metrik korelasi.

Langkah 1: Aktifkan paket analisis

Harus segera dikatakan bahwa paket default "Analisis data" dengan disabilitas. Oleh karena itu, sebelum melanjutkan ke prosedur penghitungan koefisien korelasi secara langsung, Anda perlu mengaktifkannya. Sayangnya, tidak semua pengguna mengetahui cara melakukan ini. Oleh karena itu, kami akan memikirkan masalah ini.


Setelah tindakan yang ditentukan, paket alat "Analisis data" akan diaktifkan.

Tahap 2: perhitungan koefisien

Sekarang Anda dapat langsung melanjutkan menghitung koefisien korelasi berganda. Mari kita gunakan contoh tabel di bawah yang berisi indikator produktivitas tenaga kerja, rasio modal-tenaga kerja, dan rasio energi-tenaga kerja di berbagai perusahaan untuk menghitung koefisien korelasi berganda dari faktor-faktor tersebut.


Tahap 3: analisis hasil yang diperoleh

Sekarang mari kita cari tahu bagaimana memahami hasil yang kita terima dalam proses pengolahan data dengan alat tersebut "Korelasi" V program Unggul.

Seperti dapat dilihat dari tabel, koefisien korelasi rasio modal-tenaga kerja (Kolom 2) dan ketersediaan energi ( Kolom 1) adalah 0,92, yang berarti hubungan sangat kuat. Antara produktivitas tenaga kerja ( Kolom 3) dan ketersediaan energi ( Kolom 1) indikator ini adalah 0,72 yang merupakan tingkat ketergantungan yang tinggi. Koefisien korelasi antara produktivitas tenaga kerja ( Kolom 3) dan rasio modal-tenaga kerja ( Kolom 2) sama dengan 0,88, yang juga menunjukkan tingkat ketergantungan yang tinggi. Dengan demikian, dapat dikatakan bahwa hubungan seluruh faktor yang diteliti cukup kuat.

Seperti yang Anda lihat, paketnya "Analisis data" di Excel adalah alat yang sangat nyaman dan cukup mudah digunakan untuk menentukan koefisien korelasi berganda. Dengan bantuannya, Anda juga dapat menghitung korelasi biasa antara dua faktor.

Menurut wilayah Selatan Distrik Federal Federasi Rusia menyediakan data untuk tahun 2011

Wilayah Distrik Federal

Produk regional bruto, miliar rubel, Y

Investasi dalam aset tetap, miliar rubel, X1

1. Ulangan. Adygea

2. Ulangan. Dagestan

3. Ulangan. Ingushetia

4. Republik Kabardino-Balkaria

5. Ulangan. Kalmykia

6. Republik Karachay-Cherkess

7. Ulangan. Ossetia Utara- Alanya

8. Wilayah Krasnodar)

9. Wilayah Stavropol

10. Wilayah Astrakhan.

11. Wilayah Volgograd.

12. Wilayah Rostov.

  • 1. Hitung matriks koefisien korelasi berpasangan; kecepatan signifikansi statistik koefisien korelasi.
  • 2. Membangun bidang korelasi antara karakteristik efektif dan faktor yang paling erat kaitannya.
  • 3. Hitung parameter regresi berpasangan linier untuk setiap faktor X..
  • 4. Menilai kualitas masing-masing model melalui koefisien determinasi, rata-rata kesalahan aproksimasi dan uji Fisher's F. Pilih model terbaik.

akan menjadi 80% dari nilai maksimumnya. Sajikan secara grafis: nilai aktual dan model, poin perkiraan.

  • 6. Dengan menggunakan regresi berganda bertahap (metode eksklusi atau metode inklusi), buatlah model pembentukan harga apartemen karena faktor-faktor signifikan. Memberikan interpretasi ekonomi terhadap koefisien model regresi.
  • 7. Mengevaluasi kualitas model yang dibangun. Apakah kualitas modelnya lebih baik dibandingkan dengan model faktor tunggal? Nilailah pengaruh faktor-faktor signifikan terhadap hasil dengan menggunakan koefisien elastisitas, dalam - dan -? koefisien

Saat memecahkan masalah ini, kami akan melakukan perhitungan dan membuat grafik dan diagram menggunakan pengaturan Analisis Data Excel.

1. Hitung matriks koefisien korelasi berpasangan dan evaluasi signifikansi statistik dari koefisien korelasi tersebut

Di kotak dialog Korelasi, di bidang Interval input, masukkan rentang sel yang berisi data sumber. Karena kami juga telah memilih judul kolom, kami mencentang kotak Label di baris pertama.

Kami mendapat hasil sebagai berikut:

Tabel 1.1 Matriks koefisien korelasi berpasangan

Analisis matriks koefisien korelasi berpasangan menunjukkan bahwa variabel terikat Y yaitu produk regional bruto mempunyai hubungan yang lebih erat dengan X1 (investasi modal tetap). Koefisien korelasinya sebesar 0,936. Artinya 93,6% variabel terikat Y (produk regional bruto) bergantung pada indikator X1 (investasi modal tetap).

Kami akan menentukan signifikansi statistik dari koefisien korelasi menggunakan uji-t Student. Kami membandingkan nilai tabel dengan nilai yang dihitung.

Mari kita hitung nilai tabel menggunakan fungsi STUDISCOVER.

t tabel = 0,129 at probabilitas kepercayaan sama dengan 0,9 dan derajat kebebasan (n-2).

Faktor X1 signifikan secara statistik.

2. Mari kita buat bidang korelasi antara atribut efektif (produk regional bruto) dan faktor yang paling erat hubungannya (investasi dalam modal tetap)

Untuk melakukan ini, kita akan menggunakan alat plot sebar Excel.

Hasilnya, kami memperoleh bidang korelasi harga produk regional bruto, miliar rubel. dan investasi dalam aset tetap, miliar rubel. (Gambar 1.1.).

Gambar 1.1

3. Hitung parameter regresi berpasangan linier untuk setiap faktor X

Untuk menghitung parameter regresi linier berpasangan, kita akan menggunakan alat Regresi yang disertakan dalam pengaturan Analisis Data.

Di kotak dialog Regresi, di bidang Interval masukan Y, masukkan alamat rentang sel yang diwakili oleh variabel terikat. Di lapangan

Input interval X kita masukkan alamat range yang berisi nilai-nilai variabel bebas. Mari kita hitung parameter regresi berpasangan untuk faktor X.

Untuk X1 kami menerima data berikut yang disajikan pada Tabel 1.2:

Tabel 1.2

Persamaan regresi ketergantungan harga produk regional bruto terhadap investasi modal tetap berbentuk:

4. Mari kita evaluasi kualitas setiap model melalui koefisien determinasi, rata-rata kesalahan perkiraan dan uji F Fisher. Mari kita tentukan model mana yang terbaik.

Koefisien determinasi, rata-rata kesalahan aproksimasi, diperoleh dari hasil perhitungan yang dilakukan pada paragraf 3. Data yang diperoleh disajikan dalam tabel berikut:

Data X1:

Tabel 1.3a

Tabel 1.4b

A) Koefisien determinasi menentukan berapa proporsi variasi sifat Y yang diperhitungkan dalam model dan disebabkan oleh pengaruh faktor X. Semakin besar nilai koefisien determinasi maka semakin erat hubungan antara karakteristik yang dibangun model matematika.

Excel mengacu pada R-kuadrat.

Berdasarkan kriteria tersebut, model yang paling memadai adalah persamaan regresi ketergantungan harga produk regional bruto terhadap investasi modal tetap (X1).

B) Kami menghitung rata-rata kesalahan perkiraan menggunakan rumus:

dimana pembilangnya adalah jumlah kuadrat simpangan nilai yang dihitung dari nilai sebenarnya. Pada tabel letaknya pada kolom SS, baris Tersisa.

Kami menghitung harga rata-rata apartemen di Excel menggunakan fungsi AVERAGE. = 24,18182 miliar rubel.

Saat melakukan perhitungan ekonomi, model tersebut dianggap cukup akurat jika kesalahan rata-rata perkiraan kurang dari 5%, model dianggap dapat diterima jika rata-rata kesalahan perkiraan kurang dari 15%.

Menurut kriteria ini, yang paling memadai adalah model matematis persamaan regresi ketergantungan harga produk regional bruto terhadap investasi modal tetap (X1).

C) Uji F digunakan untuk menguji signifikansi model regresi. Untuk melakukan ini, juga dilakukan perbandingan nilai kritis (tabel) uji F Fisher.

Nilai yang dihitung diberikan pada tabel 1.4b (ditunjukkan dengan huruf F).

Kami akan menghitung nilai tabel uji F Fisher di Excel menggunakan fungsi FDIST. Mari kita ambil probabilitasnya sama dengan 0,05. Diterima: = 4,75

Nilai uji F Fisher yang dihitung untuk setiap faktor sebanding dengan nilai tabel:

71,02 > = 4,75 model memadai menurut kriteria ini.

Setelah menganalisis data berdasarkan ketiga kriteria tersebut, kita dapat menyimpulkan bahwa model matematika terbaik dibangun untuk faktor produk regional bruto, yang dijelaskan oleh persamaan linier

5. Untuk model ketergantungan harga produk regional bruto yang dipilih

Nilai rata-rata indikator akan kita prediksi pada tingkat signifikansi jika nilai prediksi faktor tersebut adalah 80% dari nilai maksimumnya. Mari kita sajikan secara grafis: nilai aktual dan model, poin perkiraan.

Mari kita hitung nilai prediksi X, sesuai kondisi akan menjadi 80% dari nilai maksimum.

Mari kita hitung X max di Excel menggunakan fungsi MAX.

0,8 *52,8 = 42,24

Untuk memperoleh estimasi prediktif terhadap variabel terikat, kita substitusikan nilai yang diperoleh dari variabel bebas ke dalam persamaan linier:

5,07+2,14*42,24 = 304,55 miliar rubel.

Mari kita tentukan interval kepercayaan ramalan, yang memiliki batasan sebagai berikut:

Menghitung interval kepercayaan untuk nilai prediksi, kita hitung deviasi dari garis regresi.

Untuk model regresi berpasangan dihitung nilai deviasinya:

itu. nilai kesalahan standar dari Tabel 1.5a.

(Karena jumlah derajat kebebasan sama dengan satu, penyebutnya akan sama dengan n-2). perkiraan regresi pasangan korelasi

Untuk menghitung koefisien, kita akan menggunakan fungsi Excel STUDISCOVER, ambil probabilitasnya sama dengan 0,1, dan jumlah derajat kebebasannya adalah 38.

Kami menghitung nilainya menggunakan Excel dan mendapatkan 12294.


Mari kita tentukan batas atas dan bawah interval.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Jadi nilai ramalan = 304,55 ribu dollar akan berada di antara batas bawah sebesar 277,078 ribu dollar. Dan batas atas, sama dengan 332,022 miliar. Menggosok.

Nilai aktual dan model, poin perkiraan disajikan secara grafis pada Gambar 1.2.


Gambar 1.2

6. Dengan menggunakan regresi berganda bertahap (metode eliminasi), kita akan membangun model pembentukan harga produk regional bruto karena faktor-faktor penting

Untuk bangunan regresi berganda Mari gunakan fungsi Regresi Excel, termasuk semua faktornya. Hasilnya, kita memperoleh tabel hasil, yang darinya kita memerlukan uji-t Student.

Tabel 1.8a

Tabel 1.8b

Tabel 1.8c.

Kami mendapatkan model seperti:

Karena< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Mari kita pilih nilai absolut terkecil dari uji-t Student yaitu sebesar 8,427, bandingkan dengan nilai tabel yang kita hitung di excel, ambil taraf signifikansi sebesar 0,10, banyaknya derajat kebebasan n-m-1= 12-4=8: =1,8595

Karena 8.427>1.8595 model tersebut dianggap memadai.

7. Untuk evaluasi faktor signifikan diperoleh model matematika, menghitung koefisien elastisitas, dan - koefisien

Koefisien elastisitas menunjukkan berapa persentase perubahan atribut efektif ketika atribut faktor berubah sebesar 1%:

E X4 = 2,137 * (10,69/24,182) = 0,94%

Artinya, dengan peningkatan investasi modal tetap sebesar 1%, biaya rata-rata meningkat sebesar 0,94%.

Koefisien menunjukkan pada bagian mana simpangan baku nilai rata-rata variabel terikat berubah seiring dengan perubahan variabel bebas sebesar satu simpangan baku.

2,137* (14.736/33,632) = 0,936.

Data simpangan baku diambil dari tabel yang diperoleh dengan menggunakan alat Statistik Deskriptif.

Tabel 1.11 Statistik deskriptif (Y)

Tabel 1.12 Statistik deskriptif (X4)

Koefisien menentukan bagian pengaruh suatu faktor terhadap total pengaruh semua faktor:

Untuk menghitung koefisien korelasi berpasangan, kami menghitung matriks koefisien korelasi berpasangan di Excel menggunakan alat Korelasi dalam pengaturan Analisis Data.

Tabel 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Kesimpulan: Dari perhitungan yang diperoleh dapat disimpulkan bahwa atribut efektif Y (produk regional bruto) mempunyai ketergantungan yang besar terhadap faktor X1 (investasi modal tetap) (sebesar 100%).

Bibliografi

  • 1. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometrika. Kursus pemula. tutorial. edisi ke-2. - M.: Delo, 1998. - hal. 69 - 74.
  • 2. Workshop Ekonometri : Buku Ajar / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko dkk.2002.-- hal. 49 - 105.
  • 3. Dougherty K. Pengantar ekonometrik: Terjemahan. dari bahasa Inggris - M.: INFRA-M, 1999. - XIV, hal. 262 - 285.
  • 4. Ayvyzyan S.A., Mikhtiryan V.S. Matematika terapan dan dasar-dasar ekonometrik. -1998., hal.115-147.
  • 5. Kremer N.Sh., Putko B.A. Ekonometrika. -2007. dari 175-251.
kamu X (1) X (2) X (3) X (4) X (5)
kamu 1.00 0.43 0.37 0.40 0.58 0.33
X (1) 0.43 1.00 0.85 0.98 0.11 0.34
X (2) 0.37 0.85 1.00 0.88 0.03 0.46
X (3) 0.40 0.98 0.88 1.00 0.03 0.28
X (4) 0.58 0.11 0.03 0.03 1.00 0.57
X (5) 0.33 0.34 0.46 0.28 0.57 1.00

Analisis matriks koefisien korelasi berpasangan menunjukkan bahwa indikator efektif mempunyai hubungan yang paling erat dengan indikator tersebut X(4) - jumlah pupuk yang dikonsumsi per 1 hektar ().

Pada saat yang sama, hubungan antara atribut-argumen cukup erat. Jadi, secara praktis terdapat hubungan fungsional antara jumlah traktor beroda ( X(1)) dan jumlah alat pengolahan tanah permukaan .

Adanya multikolinearitas juga ditunjukkan dengan koefisien korelasi dan . Mengingat eratnya hubungan antar indikator X (1) , X(2) dan X(3), hanya satu yang dapat dimasukkan ke dalam model regresi hasil.

Untuk menunjukkan dampak negatif multikolinearitas, pertimbangkan model regresi hasil, termasuk semua indikator masukan:

F obs = 121.

Nilai estimasi yang dikoreksi dari standar deviasi dari estimasi koefisien persamaan ditunjukkan dalam tanda kurung .

Parameter kecukupan berikut disajikan dalam persamaan regresi: koefisien determinasi berganda; perkiraan koreksi varians sisa, kesalahan perkiraan relatif rata-rata dan nilai perhitungan kriteria F obs = 121.

Persamaan regresi ini penting karena F obs = 121 > F kp = 2,85 didapat dari tabel F-distribusi pada a=0,05; n 1 =6 dan n 2 =14.

Oleh karena itu Q¹0, yaitu. dan setidaknya salah satu koefisien persamaan q J (J= 0, 1, 2, ..., 5) bukan nol.

Untuk menguji hipotesis tentang signifikansi koefisien regresi individu H0 : q j =0, dimana J=1,2,3,4,5, bandingkan nilai kritis T kp = 2,14, ditemukan dari tabel T-distribusi pada tingkat signifikansi a=2 Q=0,05 dan banyaknya derajat kebebasan n=14, dengan nilai hitung . Dari persamaan tersebut dapat disimpulkan bahwa koefisien regresi signifikan secara statistik hanya jika X(4) sejak ½ T 4 ½=2,90 > T kp =2,14.



Tidak menerima interpretasi ekonomi tanda-tanda negatif koefisien regresi di X(1) dan X(5) . Dari nilai koefisien yang negatif maka terjadi peningkatan kejenuhan pertanian dengan traktor beroda ( X(1)) dan produk kesehatan tanaman ( X(5)) berpengaruh negatif terhadap hasil. Oleh karena itu, persamaan regresi yang dihasilkan tidak dapat diterima.

Untuk memperoleh persamaan regresi dengan koefisien signifikan digunakan algoritma langkah demi langkah analisis regresi. Awalnya, kami menggunakan algoritma langkah demi langkah dengan eliminasi variabel.

Mari kita kecualikan variabel tersebut dari model X(1) , yang sesuai dengan minimum nilai mutlak nilai ½ T 1 ½=0,01. Untuk variabel lainnya, kita kembali membuat persamaan regresi:

Persamaan yang dihasilkan penting karena F teramati = 155 > F kp = 2,90, ditemukan pada taraf signifikansi a = 0,05 dan banyaknya derajat kebebasan n 1 = 5 dan n 2 = 15 sesuai tabel F-distribusi, mis. vektor q¹0. Namun hanya koefisien regresi pada X(4) . Nilai perkiraan ½ T j ½ untuk koefisien lainnya lebih kecil T kr = 2,131, ditemukan dari tabel T-distribusi di a=2 Q=0,05 dan n=15.

Dengan mengecualikan variabel dari model X(3) , yang sesuai dengan nilai minimum T 3 =0,35 dan kita mendapatkan persamaan regresi:

(2.9)

Dalam persamaan yang dihasilkan, koefisien di X(5) . Dengan mengecualikan X(5) kita memperoleh persamaan regresi:

(2.10)

Kita punya persamaan yang signifikan regresi dengan koefisien yang signifikan dan dapat diinterpretasikan.

Namun, persamaan yang dihasilkan bukanlah satu-satunya model hasil yang “baik” atau “terbaik” dalam contoh kita.

Mari kita tunjukkan itu dalam kondisi multikolinieritas, algoritma bertahap dengan penyertaan variabel lebih efisien. Langkah pertama dalam model hasil kamu variabel disertakan X(4) , yang memiliki koefisien korelasi tertinggi dengan kamu, dijelaskan oleh variabel - R(kamu,X(4))=0,58. Pada langkah kedua, masukkan persamaan beserta X(4) variabel X(1) atau X(3), kita akan memperoleh model yang, karena alasan ekonomi dan karakteristik statistik, melebihi (2.10):

(2.11)

(2.12)

Memasukkan salah satu dari tiga variabel yang tersisa ke dalam persamaan akan memperburuk sifat-sifatnya. Lihat misalnya persamaan (2.9).

Oleh karena itu, kita mempunyai tiga model hasil panen yang “baik”, dan kita perlu memilih salah satu model tersebut karena alasan ekonomi dan statistik.

Menurut kriteria statistik, model (2.11) paling memadai. Ini sesuai dengan nilai minimum varians sisa = 2,26 dan kesalahan relatif rata-rata dari perkiraan dan nilai tertinggi dan Fob = 273.

Beberapa kinerja terburuk model (2.12) memiliki kecukupan, dan kemudian model (2.10).

Kami sekarang akan memilih model terbaik (2.11) dan (2.12). Model-model ini berbeda satu sama lain dalam hal variabel X(1) dan X(3) . Namun, dalam model hasil, variabelnya X(1) (jumlah traktor beroda per 100 ha) lebih disukai dibandingkan variabel X(3) (jumlah peralatan pengolahan tanah permukaan per 100 ha), yang sampai batas tertentu bersifat sekunder (atau berasal dari X (1)).

Dalam hal ini, karena alasan ekonomi, preferensi harus diberikan pada model (2.12). Jadi, setelah menerapkan algoritma analisis regresi bertahap dengan memasukkan variabel dan memperhitungkan fakta bahwa hanya satu dari tiga variabel terkait yang harus dimasukkan dalam persamaan ( X (1) , X(2) atau X(3)) pilih persamaan regresi akhir:

Persamaannya signifikan pada a=0,05, karena F obs = 266 > F kp = 3,20, didapat dari tabel F-distribusi di a= Q=0,05; n 1 =3 dan n 2 =17. Semua koefisien regresi pada persamaan ½ juga signifikan T j½> T kp(Sebuah=2 Q=0,05; n=17)=2,11. Koefisien regresi q 1 harus dianggap signifikan (q 1 ¹0) karena alasan ekonomi, sedangkan T 1 =2,09 hanya sedikit lebih kecil T kp = 2,11.

Dari persamaan regresi dapat disimpulkan bahwa peningkatan jumlah traktor sebesar satu per 100 hektar lahan subur (dengan nilai tetap X(4)) menyebabkan peningkatan hasil gabah rata-rata 0,345 c/ha.

Perkiraan perhitungan koefisien elastisitas e 1 »0,068 dan e 2 »0,161 menunjukkan bahwa dengan meningkatnya indikator X(1) dan X(4) sebesar 1%, hasil gabah meningkat rata-rata masing-masing sebesar 0,068% dan 0,161%.

Koefisien berganda determinasi menunjukkan bahwa hanya 46,9% variasi hasil yang dijelaskan oleh indikator-indikator yang dimasukkan dalam model ( X(1) dan X(4)), yaitu kejenuhan produksi tanaman dengan traktor dan pupuk. Variasi lainnya disebabkan oleh aksi faktor-faktor yang tidak terhitung ( X (2) , X (3) , X(5), kondisi cuaca, dll.). Kesalahan perkiraan relatif rata-rata mencirikan kecukupan model, serta nilai varians sisa. Saat menafsirkan persamaan regresi, nilai yang menarik adalah kesalahan relatif perkiraan . Mari kita ingat kembali bahwa - nilai model indikator efektif mencirikan nilai hasil rata-rata untuk totalitas wilayah yang dipertimbangkan, dengan ketentuan bahwa nilai-nilai variabel penjelas X(1) dan X(4) ditetapkan pada tingkat yang sama, yaitu X (1) = x saya(1) dan X (4) = x saya(4) . Kemudian menurut nilai d Saya Anda dapat membandingkan wilayah berdasarkan hasil. Area yang sesuai dengan nilai d Saya>0, mempunyai hasil di atas rata-rata, dan d Saya<0 - ниже среднего.

Dalam contoh kita, dalam hal hasil, produksi tanaman paling efektif di wilayah yang sesuai dengan d 7 =28%, dimana hasil panennya 28% lebih tinggi dibandingkan rata-rata regional, dan yang paling tidak efektif adalah di wilayah dengan d 20 =-27,3%.


Tugas dan latihan

2.1. Dari populasi umum ( kamu, X (1) , ..., X(p)), dimana kamu memiliki hukum distribusi normal dengan ekspektasi matematis bersyarat dan varians s 2, sampel acak N, biarkan saja ( kamu aku, x saya (1) , ..., x saya(p)) - hasil Saya observasi ke ( Saya=1, 2, ..., N). Tentukan: a) ekspektasi matematis dari estimasi kuadrat terkecil dari vektor tersebut Q; b) matriks kovarians dari estimasi kuadrat terkecil vektor Q; c) ekspektasi matematis dari penilaian.

2.2. Berdasarkan kondisi soal 2.1, tentukan ekspektasi matematis dari jumlah simpangan kuadrat akibat regresi, yaitu. EQ R, Di mana

.

2.3. Berdasarkan kondisi soal 2.1, tentukan ekspektasi matematis dari jumlah simpangan kuadrat yang disebabkan oleh variasi sisa relatif terhadap garis regresi, yaitu. persamaan OST, dimana

2.4. Buktikan bahwa ketika hipotesis H 0 terpenuhi: q=0 statistik

memiliki distribusi F dengan derajat kebebasan n 1 =p+1 dan n 2 =n-p-1.

2.5. Buktikan bahwa ketika hipotesis H 0: q j =0 terpenuhi, statistik mempunyai distribusi t dengan banyaknya derajat kebebasan n=n-p-1.

2.6. Berdasarkan data (Tabel 2.3) ketergantungan penyusutan roti pakan ternak ( kamu) pada durasi penyimpanan ( X) temukan estimasi titik ekspektasi bersyarat dengan asumsi persamaan regresi umum linier.

Tabel 2.3.

Diperlukan: a) menemukan estimasi varians sisa s 2 dengan asumsi persamaan regresi umum berbentuk ; b) periksa pada a=0,05 signifikansi persamaan regresi, yaitu hipotesis H 0: q=0; c) dengan reliabilitas g=0,9, menentukan estimasi interval parameter q 0, q 1; d) dengan reliabilitas g=0,95, tentukan estimasi interval ekspektasi matematis bersyarat pada X 0 =6; e) tentukan pada g=0,95 selang kepercayaan prediksi pada titik tersebut X=12.

2.7. Berdasarkan data dinamika laju pertumbuhan harga saham selama 5 bulan disajikan pada tabel. 2.4.

Tabel 2.4.

bulan ( X)
kamu (%)

dan jika persamaan regresi umum berbentuk , maka diperlukan: a) menentukan estimasi parameter persamaan regresi dan varians sisa s 2 ; b) periksa pada a=0,01 signifikansi koefisien regresi, yaitu hipotesis H 0: q 1 =0;

c) dengan reliabilitas g=0,95, temukan estimasi interval parameter q 0 dan q 1; d) dengan reliabilitas g=0,9, tetapkan estimasi interval ekspektasi matematis bersyarat di X 0 =4; e) tentukan pada g=0,9 selang kepercayaan prediksi pada titik tersebut X=5.

2.8. Hasil kajian dinamika pertambahan bobot badan hewan muda disajikan pada Tabel 2.5.

Tabel 2.5.

Dengan asumsi persamaan regresi umum adalah linier, maka diperlukan: a) menentukan estimasi parameter persamaan regresi dan varians residu s 2 ; b) periksa pada a=0,05 signifikansi persamaan regresi, yaitu hipotesis H 0: q=0;

c) dengan reliabilitas g=0,8, temukan estimasi interval parameter q 0 dan q 1; d) dengan reliabilitas g=0,98, tentukan dan bandingkan estimasi interval ekspektasi matematis bersyarat pada X 0 =3 dan X 1 =6;

e) tentukan pada g=0,98 selang kepercayaan prediksi pada titik tersebut X=8.

2.9. Biaya ( kamu) satu eksemplar buku tergantung peredarannya ( X) (ribuan eksemplar) ditandai dengan data yang dikumpulkan oleh penerbit (Tabel 2.6). Tentukan estimasi kuadrat terkecil dan parameter persamaan regresi hiperbolik, dengan reliabilitas g=0,9, buat interval kepercayaan untuk parameter q 0 dan q 1, serta ekspektasi kondisional pada X=10.

Tabel 2.6.

Tentukan estimasi dan parameter persamaan regresi berbentuk , uji hipotesis H 0 pada a = 0,05: q 1 = 0 dan buatlah interval kepercayaan dengan reliabilitas g = 0,9 untuk parameter q 0 dan q 1 dan ekspektasi matematis bersyarat pada X=20.

2.11. Di meja 2.8 menyajikan data tingkat pertumbuhan (%) indikator makroekonomi berikut ini N=10 negara maju di dunia pada tahun 1992: GNP - X(1) , produksi industri - X(2) , indeks harga - X (3) .

Tabel 2.8.

Negara x dan parameter persamaan regresi, estimasi varians sisa; b) periksa pada a=0,05 signifikansi koefisien regresi, yaitu H 0 : q 1 =0; c) dengan keandalan g=0,9, temukan perkiraan interval q 0 dan q 1; d) carilah pada g=0,95 selang kepercayaan pada titik tersebut X 0 =x saya, Di mana Saya=5; e) membandingkan ciri statistik persamaan regresi: 1, 2 dan 3.

2.12. Selesaikan Soal 2.11 dengan mengambil ( pada) indeks X(1) , dan untuk penjelasannya ( X) variabel X (3) .

1. Ayvazyan S.A., Mkhitaryan V.S. Statistika terapan dan dasar-dasar ekonometrik: Buku Ajar. M., UNITY, 1998 (edisi ke-2 2001);

2. Ayvazyan S.A., Mkhitaryan V.S. Statistika terapan dalam soal dan latihan: Buku teks. M. KESATUAN - DANA, 2001;

3. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. Statistik terapan. Penelitian ketergantungan. M., Keuangan dan Statistik, 1985, 487 hal.;

4. Ayvazyan S.A., Bukhstaber V.M., Enyukov I.S., Meshalkin L.D. Statistik terapan. Klasifikasi dan reduksi dimensi. M., Keuangan dan Statistik, 1989, 607 hal.;

5. Johnston J. Metode ekonometrik, M.: Statistika, 1980, 446 hal.;

6. Dubrov A.V., Mkhitaryan V.S., Troshin L.I. Metode statistik multivariat. M., Keuangan dan Statistik, 2000;

7. Mkhitaryan V.S., Troshin L.I. Kajian ketergantungan menggunakan metode korelasi dan regresi. M., MESI, 1995, 120 hal.;

8. Mkhitaryan V.S., Dubrov A.M., Troshin L.I. Metode statistik multivariat di bidang ekonomi. M., MESI, 1995, 149 hal.;

9. Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Statistik matematika untuk pengusaha dan manajer. M., MESI, 2000, 140 hal.;

10. Lukashin Yu.I. Metode Peramalan Regresi dan Adaptif: Buku Ajar, M., MESI, 1997.

11. Lukashin Yu.I. Metode adaptif peramalan jangka pendek. - M., Statistika, 1979.


APLIKASI


Lampiran 1. Pilihan tugas untuk penelitian komputer independen.

Faktor-faktor yang kolinear...

Larutan:

Kedua variabel tersebut dianggap kolinear jelas, yaitu berada dalam hubungan linier satu sama lain jika . Dalam model kami, hanya koefisien regresi linier berpasangan antar faktor dan yang lebih besar dari 0,7. , yang berarti faktor-faktor tersebut kolinear.

4. Dalam model regresi berganda, determinan matriks koefisien korelasi berpasangan antar faktor , dan mendekati nol. Artinya faktor , dan...

multikolinier

mandiri

dapat diukur

Larutan:

Untuk menilai multikolinearitas suatu faktor, dapat digunakan matriks determinan koefisien korelasi berpasangan antar faktor. Jika faktor-faktor tersebut tidak berkorelasi satu sama lain, maka matriks koefisien korelasi berpasangan antar faktor tersebut akan menjadi satuan. Karena semua elemen non-diagonal akan sama dengan nol.
, karena = = dan = = =0.
Jika terdapat hubungan linier penuh antara faktor-faktor dan semua koefisien korelasi berpasangan sama dengan satu, maka determinan matriks tersebut sama dengan nol.


Semakin mendekati nol determinan matriks korelasi antarfaktor, semakin kuat multikolinearitas faktor-faktor tersebut dan semakin tidak dapat diandalkan hasil regresi berganda. Dan sebaliknya, semakin dekat determinan matriks korelasi antarfaktor ke satu, maka multikolinearitas faktor-faktor tersebut semakin kecil.

5. Untuk model ekonometrik berbentuk persamaan regresi linier berganda, matriks koefisien korelasi linier berpasangan ( kamu- variabel tak bebas; x (1),x (2), x (3), x (4)- Variabel independen):


Variabel independen (penjelas) yang kolinear (berhubungan erat). tidak

x(2) Dan x (3)

x (1) Dan x (3)

x (1) Dan x (4)

x(2) Dan x (4)

Larutan:

Dalam membangun model regresi berganda, perlu untuk mengecualikan kemungkinan adanya hubungan linier yang erat antara variabel independen (penjelas), yang mengarah pada masalah multikolinearitas. Dalam hal ini, koefisien korelasi linier diperiksa untuk setiap pasangan variabel independen (penjelas). Nilai-nilai ini tercermin dalam matriks koefisien korelasi linier berpasangan. Kehadiran koefisien korelasi berpasangan antara variabel penjelas yang melebihi 0,7 dalam nilai absolut diyakini mencerminkan hubungan yang erat antara variabel-variabel tersebut (kedekatan hubungan dengan variabel kamu tidak dipertimbangkan dalam kasus ini). Variabel bebas seperti ini disebut kolinear. Jika nilai koefisien korelasi berpasangan antar variabel penjelas tidak melebihi nilai absolut 0,7, maka variabel penjelas tersebut tidak kolinear. Mari kita perhatikan nilai koefisien korelasi antarfaktor berpasangan: antara x (1) Dan x(2) nilainya 0,45; di antara x (1) Dan x (3)– sama dengan 0,82; di antara x (1) Dan x (4)– sama dengan 0,94; di antara x(2) Dan x (3)– sama dengan 0,3; di antara x(2) Dan x (4)– sama dengan 0,7; di antara x (3) Dan x (4)– sama dengan 0,12. Jadi, nilai , , tidak melebihi 0,7. Oleh karena itu, kolinear tidak faktor x (1) Dan x(2), x(2) Dan x (3), x (3) Dan x (4). Dari pasangan yang terdaftar terakhir, pilihan jawaban berisi pasangan x(2) Dan x (3)– ini adalah jawaban yang benar. Untuk pasangan lain: x (1 Dan x (3), x (1) Dan x (4), x(2) Dan x (4)– nilai koefisien korelasi antarfaktor berpasangan melebihi 0,7, dan faktor-faktor ini kolinear.

Topik 3: Variabel Dummy

1. Tabel data awal untuk membangun model regresi ekonometrik diberikan:

Variabel tiruan tidak

pengalaman kerja

produktivitas tenaga kerja

tingkat pendidikan

tingkat kualifikasi karyawan

Larutan:

Saat membangun model regresi, situasi mungkin muncul ketika perlu untuk memasukkan ke dalam persamaan, selain variabel kuantitatif, variabel yang mencerminkan beberapa karakteristik atribut (gender, pendidikan, wilayah, dll.). Variabel kualitatif semacam ini disebut variabel “dummy”. Untuk membangun model yang ditentukan dalam pernyataan tugas, digunakan variabel dummy: tingkat pendidikan dan tingkat keterampilan karyawan. Variabel lainnya tidak fiktif, dari opsi yang diajukan adalah masa kerja dan produktivitas tenaga kerja.

2. Ketika mempelajari ketergantungan konsumsi daging terhadap tingkat pendapatan dan jenis kelamin konsumen, kami dapat merekomendasikan...

gunakan variabel dummy – jenis kelamin konsumen

membagi penduduk menjadi dua yaitu konsumen perempuan dan konsumen laki-laki

gunakan variabel dummy - tingkat pendapatan

mengecualikan gender konsumen dari pertimbangan, karena faktor ini tidak dapat diukur secara kuantitatif

Larutan:

Saat membangun model regresi, situasi mungkin muncul ketika perlu untuk memasukkan ke dalam persamaan, selain variabel kuantitatif, variabel yang mencerminkan beberapa karakteristik atribut (gender, pendidikan, wilayah, dll.). Variabel kualitatif semacam ini disebut variabel “dummy”. Mereka mencerminkan heterogenitas populasi statistik yang diteliti dan digunakan untuk pemodelan ketergantungan yang lebih baik dalam objek observasi yang heterogen tersebut. Saat memodelkan ketergantungan individu untuk data heterogen, Anda juga dapat menggunakan metode membagi seluruh kumpulan data heterogen menjadi beberapa kumpulan terpisah, yang jumlahnya sama dengan jumlah status variabel dummy. Oleh karena itu, pilihan jawaban yang tepat adalah: “gunakan variabel dummy – gender konsumen” dan “bagi populasi menjadi dua: konsumen perempuan dan konsumen laki-laki.”

3. Kita mempelajari ketergantungan harga apartemen ( pada) dari tempat tinggalnya ( X) dan tipe rumah. Model tersebut mencakup variabel dummy yang mencerminkan tipe rumah yang dipertimbangkan: monolitik, panel, bata. Persamaan regresi diperoleh: ,
Di mana ,
Persamaan regresi khusus untuk batu bata dan monolitik adalah ...

untuk rumah tipe bata

untuk rumah tipe monolitik

untuk rumah tipe bata

untuk rumah tipe monolitik

Larutan:

Perlu diketahui persamaan regresi khusus untuk rumah bata dan monolitik. Untuk rumah bata, nilai variabel dummynya adalah sebagai berikut: , . Persamaannya akan berbentuk: atau untuk tipe rumah : bata.
Untuk rumah monolitik, nilai variabel dummynya adalah sebagai berikut: , . Persamaannya akan berbentuk
atau untuk tipe rumah monolitik.



Baru di situs

>

Paling populer