Rumah gusi Apa saja syarat dalam model analisis regresi. Metode statistik matematika

Apa saja syarat dalam model analisis regresi. Metode statistik matematika

KESIMPULAN HASIL

Tabel 8.3a. Statistik regresi
Statistik regresi
jamak R 0,998364
R-persegi 0,99673
R-kuadrat yang dinormalisasi 0,996321
Kesalahan standar 0,42405
Pengamatan 10

Mari kita pertimbangkan dulu bagian atas perhitungan disajikan pada tabel 8.3a - statistik regresi.

Nilai R-square, disebut juga ukuran kepastian, mencirikan kualitas garis regresi yang dihasilkan. Kualitas ini dinyatakan dengan derajat kesesuaian antara sumber data dan model regresi (data yang dihitung). Ukuran kepastian selalu berada dalam interval.

Dalam kebanyakan kasus, nilai R-kuadrat berada di antara nilai-nilai ini, yang disebut nilai ekstrim, yaitu. antara nol dan satu.

Jika nilai R-squared mendekati satu berarti model yang dibangun menjelaskan hampir seluruh variabilitas variabel yang relevan. Sebaliknya, nilai R-kuadrat yang mendekati nol berarti kualitas model yang dibangun buruk.

Dalam contoh kita, ukuran kepastiannya adalah 0,99673, yang menunjukkan kesesuaian garis regresi dengan data asli.

jamak R- koefisien korelasi berganda R - menyatakan derajat ketergantungan variabel bebas (X) dan variabel terikat (Y).

Kelipatan R sama dengan akar pangkat dua dari koefisien determinasi, besaran ini mengambil nilai dalam rentang nol sampai satu.

Dalam analisis regresi linier sederhana, kelipatan R sama dengan koefisien korelasi Pearson. Memang benar, kelipatan R dalam kasus kita sama dengan koefisien korelasi Pearson dari contoh sebelumnya (0,998364).

Tabel 8.3b. Koefisien regresi
Kemungkinan Kesalahan standar t-statistik
Persimpangan Y 2,694545455 0,33176878 8,121757129
Variabel X 1 2,305454545 0,04668634 49,38177965
* Versi perhitungan yang terpotong disediakan

Sekarang perhatikan bagian tengah perhitungan yang disajikan pada tabel 8.3b. Di sini diberikan koefisien regresi b (2,305454545) dan perpindahan sepanjang sumbu ordinat, yaitu. konstanta a (2.694545455).

Berdasarkan perhitungan, kita dapat menulis persamaan regresi sebagai berikut:

kamu= x*2,305454545+2,694545455

Arah hubungan antar variabel ditentukan berdasarkan tanda-tandanya (negatif atau positif) koefisien regresi(koefisien b).

Jika tandanya di koefisien regresi- positif, hubungan antara variabel terikat dengan variabel bebas akan bernilai positif. Dalam kasus kami, tanda koefisien regresinya positif, sehingga hubungannya juga positif.

Jika tandanya di koefisien regresi- negatif, hubungan antara variabel terikat dengan variabel bebas bersifat negatif (berbanding terbalik).

Pada tabel 8.3c. Hasil penurunan residu disajikan. Agar hasil ini muncul dalam laporan, Anda harus mengaktifkan kotak centang “Sisa” saat menjalankan alat “Regresi”.

PENARIKAN SISANYA

Tabel 8.3c. Sisa
Pengamatan Prediksi Y Sisa Saldo standar
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Dengan menggunakan bagian laporan ini, kita dapat melihat deviasi setiap titik dari garis regresi yang dibuat. Nilai absolut terbesar

Tujuan analisis regresi adalah untuk mengukur hubungan antara suatu variabel terikat dengan satu (analisis regresi berpasangan) atau lebih (ganda) variabel bebas. Variabel bebas disebut juga variabel faktor, penjelas, determinan, regressor, dan prediktor.

Variabel terikat kadang-kadang disebut variabel yang ditentukan, dijelaskan, atau “respon”. Penggunaan analisis regresi yang sangat luas dalam penelitian empiris bukan hanya karena analisis ini merupakan alat yang mudah digunakan untuk menguji hipotesis. Regresi, terutama regresi berganda, memang demikian metode yang efektif pemodelan dan peramalan.

Mari kita mulai menjelaskan prinsip-prinsip bekerja dengan analisis regresi dengan metode berpasangan yang lebih sederhana.

Analisis Regresi Berpasangan

Langkah pertama saat menggunakan analisis regresi hampir sama dengan langkah yang kita ambil dalam menghitung koefisien korelasi. Tiga syarat utama untuk efektivitas analisis korelasi menurut metode Pearson - distribusi variabel normal, interval pengukuran variabel, hubungan linier antar variabel - juga relevan untuk regresi berganda. Oleh karena itu, pada tahap pertama, plot sebar dibuat, analisis statistik dan deskriptif variabel dilakukan, dan garis regresi dihitung. Seperti dalam kerangka analisis korelasi, garis regresi dibangun dengan menggunakan metode kuadrat terkecil.

Untuk lebih jelas menggambarkan perbedaan antara kedua metode analisis data, mari kita lihat contoh yang telah dibahas mengenai variabel “dukungan SPS” dan “bagian populasi pedesaan”. Sumber datanya identik. Perbedaan antara plot sebar adalah bahwa dalam analisis regresi, variabel dependen diplot dengan benar - dalam kasus kami, “dukungan SPS” pada sumbu Y, sedangkan dalam analisis korelasi hal ini tidak menjadi masalah. Setelah outlier dibersihkan, plot sebarnya terlihat seperti ini:

Ide dasar dari analisis regresi adalah memiliki tren umum untuk variabel - dalam bentuk garis regresi - Anda dapat memprediksi nilai variabel terikat, dengan mempertimbangkan nilai variabel bebas.

Mari kita bayangkan matematika biasa fungsi linear. Setiap garis lurus dalam ruang Euclidean dapat dijelaskan dengan rumus:

dimana a adalah konstanta yang menentukan perpindahan sepanjang sumbu ordinat; b adalah koefisien yang menentukan sudut kemiringan garis.

Mengetahui kemiringan dan konstanta, Anda dapat menghitung (memprediksi) nilai y untuk sembarang x.

Ini fungsi paling sederhana dan menjadi dasar model analisis regresi dengan peringatan bahwa kita tidak akan memprediksi nilai y secara tepat, tetapi dalam batas tertentu. interval kepercayaan, yaitu. sekitar.

Konstanta adalah titik potong garis regresi dan sumbu y (persimpangan F, biasanya dilambangkan dengan “pencegat” dalam paket statistik). Dalam contoh kita dengan pemungutan suara untuk Union of Right Forces, nilai pembulatannya adalah 10,55. Koefisien sudut b kira-kira -0,1 (seperti dalam analisis korelasi, tanda menunjukkan jenis hubungan - langsung atau terbalik). Dengan demikian model yang dihasilkan akan berbentuk SP C = -0,1 x Sel. kita. + 10.55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Selisih antara nilai awal dan nilai prediksi disebut sisanya (kita telah menjumpai istilah ini, yang merupakan dasar statistik, ketika menganalisis tabel kontingensi). Jadi, untuk kasus “Republik Adygea” sisanya akan sama dengan 3,92 - 5,63 = -1,71. Semakin besar nilai modular sisanya, semakin kurang berhasil nilai prediksinya.

Kami menghitung nilai prediksi dan residu untuk semua kasus:
Kejadian Duduk. kita. Terima kasih

(asli)

Terima kasih

(diprediksi)

Sisa
Republik Adygea 47 3,92 5,63 -1,71 -
Republik Altai 76 5,4 2,59 2,81
Republik Bashkortostan 36 6,04 6,78 -0,74
Republik Buryatia 41 8,36 6,25 2,11
Republik Dagestan 59 1,22 4,37 -3,15
Republik Ingushetia 59 0,38 4,37 3,99
Dll.

Analisis rasio nilai awal dan nilai prediksi berfungsi untuk menilai kualitas model yang dihasilkan dan kemampuan prediksinya. Salah satu indikator utama statistik regresi adalah koefisien korelasi berganda R - koefisien korelasi antara nilai awal dan nilai prediksi dari variabel terikat. Dalam analisis regresi berpasangan, ini sama dengan koefisien korelasi Pearson biasa antara variabel dependen dan independen, dalam kasus kami - 0,63. Untuk menafsirkan kelipatan R secara bermakna, R harus diubah menjadi koefisien determinasi. Hal ini dilakukan dengan cara yang sama seperti dalam analisis korelasi - dengan mengkuadratkan. Koefisien determinasi R-squared (R 2) menunjukkan proporsi variasi variabel terikat yang dijelaskan oleh variabel bebas.

Dalam kasus kami, R 2 = 0,39 (0,63 2); ini berarti bahwa variabel “pangsa penduduk pedesaan” menjelaskan sekitar 40% variasi dalam variabel “dukungan SPS”. Semakin besar koefisien determinasi maka semakin tinggi kualitas model tersebut.

Indikator kualitas model lainnya adalah kesalahan standar estimasi. Ini adalah ukuran seberapa luas titik-titik tersebut “tersebar” di sekitar garis regresi. Ukuran penyebaran variabel interval adalah deviasi standar. Oleh karena itu, kesalahan standar estimasi adalah standar deviasi dari distribusi residu. Semakin tinggi nilainya, semakin besar penyebarannya dan semakin buruk modelnya. Dalam kasus kami, kesalahan standarnya adalah 2.18. Pada jumlah inilah model kita akan “memiliki kesalahan rata-rata” ketika memprediksi nilai variabel “dukungan SPS”.

Statistik regresi juga mencakup analisis varians. Dengan bantuannya kita mengetahui: 1) berapa proporsi variasi (dispersi) variabel terikat yang dijelaskan oleh variabel bebas; 2) berapa proporsi varians variabel dependen yang disebabkan oleh residu (bagian yang tidak dapat dijelaskan); 3) berapa perbandingan kedua besaran ini (/"-rasio). Statistik dispersi sangat penting untuk itu studi sampel- menunjukkan seberapa besar kemungkinan adanya hubungan antara variabel bebas dan variabel terikat populasi. Namun, bahkan untuk penelitian berkelanjutan (seperti dalam contoh kita), mempelajari hasilnya analisis varians tidak berguna. Dalam hal ini, mereka memeriksa apakah pola statistik yang teridentifikasi disebabkan oleh kebetulan keadaan acak, seberapa khas pola tersebut untuk kumpulan kondisi di mana populasi yang diteliti berada, yaitu. yang ditetapkan bukanlah kebenaran hasil yang diperoleh untuk populasi umum yang lebih besar, melainkan tingkat keteraturan dan kebebasan dari pengaruh acak.

Dalam kasus kami, statistik ANOVA adalah sebagai berikut:

SS df MS F arti
Regresi. 258,77 1,00 258,77 54,29 0.000000001
Sisa 395,59 83,00 L,11
Total 654,36

F-ratio sebesar 54,29 signifikan pada taraf 0,0000000001. Oleh karena itu, kami dapat dengan yakin menolak hipotesis nol (bahwa hubungan yang kami temukan terjadi secara kebetulan).

Kriteria t menjalankan fungsi serupa, tetapi dalam kaitannya dengan koefisien regresi (sudut dan perpotongan F). Dengan menggunakan kriteria /, kami menguji hipotesis bahwa pada populasi umum koefisien regresi sama dengan nol. Dalam kasus kami, kami sekali lagi dapat dengan yakin menolak hipotesis nol.

Analisis regresi berganda

Model regresi berganda hampir identik dengan model regresi berpasangan; satu-satunya perbedaan adalah bahwa beberapa variabel independen dimasukkan secara berurutan ke dalam fungsi linier:

Y = b1X1 + b2X2 + …+ bpXp + a.

Jika ada lebih dari dua variabel independen, kita tidak bisa mendapatkan gambaran visual tentang hubungannya; dalam hal ini, regresi berganda kurang “visual” dibandingkan regresi berpasangan. Jika Anda memiliki dua variabel independen, akan berguna untuk menampilkan data dalam plot sebar 3D. Dalam paket perangkat lunak statistik profesional (misalnya, Statistica) terdapat opsi untuk memutar grafik tiga dimensi, yang memungkinkan Anda merepresentasikan struktur data dengan baik secara visual.

Saat bekerja dengan regresi berganda, berbeda dengan regresi berpasangan, algoritma analisis perlu ditentukan. Algoritme standar mencakup semua prediktor yang tersedia dalam model regresi akhir. Algoritma langkah demi langkah melibatkan penyertaan (pengecualian) variabel independen secara berurutan berdasarkan “bobot” penjelasnya. Metode bertahap baik bila terdapat banyak variabel independen; itu “membersihkan” model dari prediktor yang sangat lemah, membuatnya lebih kompak dan ringkas.

Kondisi tambahan untuk kebenaran regresi berganda (bersama dengan interval, normalitas dan linearitas) adalah tidak adanya multikolinearitas - adanya korelasi yang kuat antara variabel independen.

Interpretasi statistik regresi berganda mencakup semua elemen yang kami pertimbangkan untuk kasus regresi berpasangan. Selain itu, ada komponen penting lainnya dalam statistik analisis regresi berganda.

Kami akan mengilustrasikan pekerjaan dengan regresi berganda menggunakan contoh pengujian hipotesis yang menjelaskan perbedaan tingkat aktivitas pemilu di seluruh wilayah Rusia. Studi empiris tertentu menunjukkan bahwa tingkat partisipasi pemilih dipengaruhi oleh:

Faktor nasional (variabel “populasi Rusia”; dioperasionalkan sebagai bagian dari populasi Rusia di entitas konstituen Federasi Rusia). Diasumsikan bahwa peningkatan jumlah penduduk Rusia menyebabkan penurunan jumlah pemilih;

Faktor urbanisasi (variabel " populasi perkotaan"; dioperasionalkan sebagai bagian dari populasi perkotaan di entitas konstituen Federasi Rusia; kami telah bekerja dengan faktor ini dalam kerangka analisis korelasi). Peningkatan jumlah penduduk perkotaan diasumsikan juga menyebabkan penurunan jumlah pemilih.

Variabel terikat - “intensitas kegiatan pemilu” (“aktif”) dioperasionalkan melalui data rata-rata jumlah pemilih menurut wilayah dalam pemilihan federal dari tahun 1995 hingga 2003. Tabel awal data untuk dua variabel independen dan satu variabel dependen adalah sebagai berikut:

Kejadian Variabel
Aktiva. Gor. kita. Rusia. kita.
Republik Adygea 64,92 53 68
Republik Altai 68,60 24 60
Republik Buryatia 60,75 59 70
Republik Dagestan 79,92 41 9
Republik Ingushetia 75,05 41 23
Republik Kalmykia 68,52 39 37
Republik Karachay-Cherkess 66,68 44 42
Republik Karelia 61,70 73 73
Republik Komi 59,60 74 57
Republik Mari El 65,19 62 47

Dll. (setelah pembersihan emisi, 83 dari 88 kasus masih tersisa)

Statistik yang menggambarkan kualitas model:

1. Kelipatan R = 0,62; L-kuadrat = 0,38. Oleh karena itu, faktor nasional dan faktor urbanisasi bersama-sama menjelaskan sekitar 38% variasi dalam variabel “kegiatan pemilu”.

2. Kesalahan rata-rata adalah 3,38. Inilah tepatnya seberapa “salah rata-rata” model yang dibangun ketika memprediksi tingkat partisipasi pemilih.

3. /l-rasio variasi yang dapat dijelaskan dan tidak dapat dijelaskan adalah 25,2 pada tingkat 0,000000003. Hipotesis nol tentang keacakan hubungan yang teridentifikasi ditolak.

4. Kriteria / untuk konstanta dan koefisien regresi variabel “penduduk perkotaan” dan “penduduk Rusia” signifikan pada tingkat 0,0000001; 0,00005 dan 0,007 masing-masing. Hipotesis nol yang menyatakan koefisien bersifat acak ditolak.

Statistik tambahan yang berguna dalam menganalisis hubungan antara nilai awal dan nilai prediksi dari variabel terikat adalah jarak Mahalanobis dan jarak Cook. Yang pertama adalah ukuran keunikan kasus (menunjukkan seberapa besar kombinasi nilai seluruh variabel independen kasus ini menyimpang dari mean semua variabel independen secara bersamaan). Yang kedua adalah ukuran pengaruh kasus tersebut. Pengamatan yang berbeda mempunyai pengaruh yang berbeda terhadap kemiringan garis regresi, dan jarak Cook dapat digunakan untuk membandingkannya pada indikator ini. Hal ini dapat berguna ketika membersihkan outlier (outlier dapat dianggap sebagai kasus yang terlalu berpengaruh).

Dalam contoh kami, kasus-kasus unik dan berpengaruh mencakup Dagestan.

Kejadian Asli

nilai-nilai

Predska

nilai-nilai

Sisa Jarak

Mahalanobi

Jarak
Adygea 64,92 66,33 -1,40 0,69 0,00
Republik Altai 68,60 69.91 -1,31 6,80 0,01
Republik Buryatia 60,75 65,56 -4,81 0,23 0,01
Republik Dagestan 79,92 71,01 8,91 10,57 0,44
Republik Ingushetia 75,05 70,21 4,84 6,73 0,08
Republik Kalmykia 68,52 69,59 -1,07 4,20 0,00

Model regresinya sendiri memiliki parameter sebagai berikut: titik potong Y (konstanta) = 75,99; b (horizontal) = -0,1; Kommersant (nas. Rusia) = -0,06. Rumus terakhir.

Karakteristik ketergantungan sebab akibat

Hubungan sebab-akibat- ini adalah hubungan antara fenomena dan proses, ketika perubahan pada salah satunya - penyebab - menyebabkan perubahan pada yang lain - akibat.

Tanda menurut maknanya untuk mempelajari hubungan dibagi menjadi dua kelas.

Tanda yang menyebabkan perubahan pada tanda lain yang berkaitan disebut faktorial (atau faktor).

Tanda-tanda yang berubah di bawah pengaruh tanda-tanda faktor adalah efektif.

Bentuk komunikasi berikut ini dibedakan: fungsional dan stokastik. Fungsional adalah hubungan di mana nilai tertentu dari suatu karakteristik faktor bersesuaian dengan satu dan hanya satu nilai dari karakteristik yang dihasilkan. Keterkaitan fungsional diwujudkan dalam semua kasus pengamatan dan untuk setiap unit tertentu dari populasi yang diteliti.

Hubungan fungsionalnya dapat direpresentasikan dengan persamaan berikut:
kamu saya =f(x saya), dimana: kamu saya - tanda yang dihasilkan; f(x saya) - fungsi yang diketahui dari hubungan antara karakteristik resultan dan faktor; x saya - tanda faktor.
Di alam nyata tidak ada hubungan fungsional. Itu hanyalah abstraksi, berguna dalam menganalisis fenomena, tetapi menyederhanakan kenyataan.

Stochastic (statistik atau acak)koneksi mewakili hubungan antar besaran yang salah satunya bereaksi terhadap perubahan besaran atau besaran lain dengan mengubah hukum distribusi. Dengan kata lain, dengan hubungan ini arti yang berbeda satu variabel berhubungan dengan distribusi berbeda dari variabel lain. Hal ini disebabkan oleh fakta bahwa variabel dependen, selain variabel independen yang dipertimbangkan, dipengaruhi oleh sejumlah faktor acak yang tidak terhitung atau tidak terkendali, serta beberapa kesalahan yang tidak dapat dihindari dalam pengukuran variabel. Karena nilai-nilai variabel terikat dapat tersebar secara acak, nilai-nilai tersebut tidak dapat diprediksi dengan akurasi yang cukup, tetapi hanya dapat ditunjukkan dengan probabilitas tertentu.

Karena ambiguitas ketergantungan stokastik antara Y dan X, khususnya, skema ketergantungan yang dirata-ratakan pada x menjadi perhatian, yaitu. pola perubahan nilai rata-rata - ekspektasi matematis bersyarat Mx(Y) (ekspektasi matematis dari variabel acak Y, ditemukan dengan syarat variabel X mengambil nilai x) bergantung pada x.

Kasus khusus komunikasi stokastik adalah komunikasi korelasi. Korelasi(dari lat. korelasi- korelasi, hubungan). Definisi langsung dari istilah tersebut korelasi - stokastik, kemungkinan, mungkin koneksi antara dua (berpasangan) atau beberapa (banyak) variabel acak.

Ketergantungan korelasi antara dua variabel disebut juga hubungan statistik antara variabel-variabel tersebut, di mana setiap nilai dari satu variabel sesuai dengan nilai rata-rata tertentu, yaitu. ekspektasi matematis bersyarat berbeda. Ketergantungan korelasi merupakan kasus khusus ketergantungan stokastik, dimana perubahan nilai karakteristik faktor (x 1 x 2…, x n) menyebabkan perubahan nilai rata-rata karakteristik yang dihasilkan.



Merupakan kebiasaan untuk membedakan jenis korelasi berikut:

1. Korelasi berpasangan – hubungan antara dua sifat (resultatif dan faktor atau dua faktor).

2. Korelasi parsial - ketergantungan antara resultan dan salah satu karakteristik faktor dengan nilai tetap dari karakteristik faktor lain yang termasuk dalam penelitian.

3. Korelasi berganda - ketergantungan dari resultan dan dua atau lebih karakteristik faktor yang termasuk dalam penelitian.

Tujuan Analisis Regresi

Bentuk analisis untuk merepresentasikan hubungan sebab akibat adalah model regresi. Validitas ilmiah dan popularitas analisis regresi menjadikannya salah satu alat matematika utama untuk memodelkan fenomena yang diteliti. Metode ini digunakan untuk menghaluskan data eksperimen dan memperoleh perkiraan kuantitatif pengaruh komparatif berbagai faktor ke variabel hasil.

Analisis regresi adalah dalam menentukan ekspresi analitis suatu hubungan di mana perubahan dalam satu nilai (variabel terikat atau karakteristik yang dihasilkan) disebabkan oleh pengaruh satu atau lebih besaran independen(faktor atau prediktor), dan himpunan semua faktor lain yang juga mempengaruhi nilai dependen diambil sebagai nilai konstan dan rata-rata.

Tujuan analisis regresi:

Penilaian ketergantungan fungsional nilai rata-rata bersyarat dari karakteristik resultan y pada faktor faktor (x 1, x 2, ..., x n);

Memprediksi nilai variabel terikat menggunakan variabel bebas.

Menentukan kontribusi masing-masing variabel independen terhadap variasi variabel dependen.

Analisis regresi tidak dapat digunakan untuk menentukan ada tidaknya hubungan antar variabel, karena adanya hubungan tersebut merupakan prasyarat untuk menerapkan analisis.

Dalam analisis regresi, diasumsikan terlebih dahulu adanya hubungan sebab akibat antara resultan (U) dan karakteristik faktor x 1, x 2 ..., x n.

Fungsi , op Ketergantungan yang menentukan suatu indikator terhadap parameter disebut persamaan regresi (fungsi) 1 . Persamaan regresi menunjukkan nilai yang diharapkan dari variabel terikat dengan adanya nilai tertentu dari variabel bebas.
Tergantung pada jumlah faktor yang dimasukkan dalam model X model dibagi menjadi faktor tunggal (model regresi berpasangan) dan multifaktor (model regresi berganda). Tergantung pada jenis fungsinya, model dibagi menjadi linier dan nonlinier.

Model regresi berpasangan

Karena pengaruh faktor dan penyebab acak yang tidak terhitung, pengamatan individu y akan menyimpang lebih besar atau lebih kecil dari fungsi regresi f(x). Dalam hal ini persamaan hubungan dua variabel (model regresi berpasangan) dapat disajikan sebagai:

Y=f(X) + ɛ,

dimana ɛ adalah variabel acak yang mencirikan deviasi dari fungsi regresi. Variabel inilah yang disebut dengan gangguan atau gangguan (residual atau error). Jadi, dalam model regresi variabel dependen Y ada beberapa fungsi f(x) hingga gangguan acak ɛ.

Mari kita pertimbangkan model regresi linier berpasangan klasik (CLMPR). Dia terlihat seperti itu

kamu saya =β 0 +β 1 x saya +ɛ saya (saya=1,2, …, n),(1)

Di mana kamu aku– dijelaskan (variabel hasil, terikat, endogen); x saya– variabel penjelas (prediktor, faktor, eksogen); β 0 , β 1– koefisien numerik; saya– komponen atau kesalahan acak (stokastik).

Kondisi dasar (prasyarat, hipotesis) KLMPR:

1) x saya– besaran deterministik (non-acak), dan diasumsikan bahwa di antara nilai-nilai x i - tidak semuanya sama.

2) Nilai yang diharapkan(nilai rata-rata) gangguan saya sama dengan nol:

[ɛ saya ]=0 (i=1,2, …, n).

3) Sebaran gangguan adalah konstan untuk setiap nilai i (kondisi homoskedastisitas):

D[ɛ saya ]=σ 2 (saya=1,2, …, n).

4) Gangguan pada pengamatan yang berbeda tidak berkorelasi:

cov[ɛ i , ɛ j ]=M[ɛ i , ɛ j ]=0 untuk i≠j,

dimana cov[ɛ i , ɛ j ] adalah koefisien kovarians (momen korelasi).

5) Gangguan merupakan variabel acak berdistribusi normal dengan mean dan varians nol σ 2:

ɛ saya ≈ N(0, σ 2).

Untuk memperoleh persamaan regresi, empat premis pertama sudah cukup. Persyaratan untuk memenuhi prasyarat kelima diperlukan untuk menilai keakuratan persamaan regresi dan parameternya.

Komentar: Fokus pada hubungan linier dijelaskan oleh terbatasnya variasi variabel dan fakta bahwa dalam banyak kasus bentuk hubungan nonlinier diubah (dengan logaritma atau substitusi variabel) menjadi bentuk linier untuk melakukan perhitungan.

Metode tradisional kuadrat terkecil (LS)

Estimasi model dari sampel adalah persamaan

ŷ saya = a 0 + a 1 x saya(saya=1,2, …, n), (2)

dimana ŷ i – nilai teoritis (perkiraan) dari variabel terikat yang diperoleh dari persamaan regresi; a 0 , a 1 - koefisien (parameter) persamaan regresi (perkiraan sampel masing-masing koefisien β 0, β 1).

Menurut kuadrat terkecil, parameter yang tidak diketahui a 0 , a 1 dipilih sehingga jumlah deviasi kuadrat dari nilai ŷ i dari nilai empiris y i (jumlah sisa kuadrat) adalah minimal:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → menit, (3)

dimana e i = y i - ŷ i – perkiraan sampel gangguan ɛ i, atau sisa regresi.

Masalahnya adalah menemukan nilai parameter a 0 dan a 1 yang digunakan fungsi Q e nilai terkecil. Perhatikan bahwa fungsi Q e = Q e (a 0 , a 1) adalah fungsi dari dua variabel a 0 dan a 1 hingga kita menemukan dan kemudian menetapkan nilai “terbaik” (dalam pengertian metode kuadrat terkecil), a x i , y i adalah bilangan konstan yang ditemukan secara eksperimental.

Kondisi yang diperlukan ekstrem (3) ditemukan dengan menyamakan turunan parsial fungsi dua variabel ini dengan nol. Hasilnya, kami memperoleh sistem dua persamaan linear, yang disebut sistem persamaan normal:

(4)

Koefisien a 1 adalah koefisien regresi sampel y pada x, yang menunjukkan berapa satuan rata-rata perubahan variabel y bila variabel x berubah sebesar satu satuan pengukurannya, yaitu variasi y per satuan variasi x. Tanda sebuah 1 menunjukkan arah perubahan ini. Koefisien a 0 – perpindahan, menurut (2) sama dengan nilainyaŷ i untuk x=0 dan mungkin tidak memiliki interpretasi yang berarti. Oleh karena itu, variabel terikat kadang-kadang disebut respon.

Sifat statistik estimasi koefisien regresi:

Koefisien memperkirakan a 0 , a 1 tidak bias;

Varians estimasi a 0 , penurunan 1 (akurasi estimasi meningkat) dengan meningkatnya ukuran sampel n;

Varians pendugaan kemiringan a 1 berkurang seiring dengan bertambahnya dan oleh karena itu disarankan untuk memilih x i sehingga penyebarannya di sekitar nilai rata-rata besar;

Untuk x¯ > 0 (yang paling menarik), terdapat hubungan statistik negatif antara 0 dan 1 (peningkatan 1 menyebabkan penurunan 0).

Ciri utama analisis regresi: dapat digunakan untuk memperoleh informasi spesifik tentang bentuk dan sifat hubungan antar variabel yang diteliti.

Urutan tahapan analisis regresi

Mari kita bahas secara singkat tahapan analisis regresi.

    Formulasi masalah. Pada tahap ini terbentuk hipotesis awal tentang ketergantungan fenomena yang diteliti.

    Pengertian variabel terikat dan bebas (penjelas).

    Pengumpulan data statistik. Data harus dikumpulkan untuk setiap variabel yang termasuk dalam model regresi.

    Perumusan hipotesis tentang bentuk hubungan (sederhana atau ganda, linier atau nonlinier).

    Definisi fungsi regresi (terdiri dari menghitung nilai numerik dari parameter persamaan regresi)

    Menilai keakuratan analisis regresi.

    Interpretasi dari hasil yang diperoleh. Hasil analisis regresi yang diperoleh dibandingkan dengan hipotesis awal. Kebenaran dan kredibilitas hasil yang diperoleh dinilai.

    Ramalan nilai yang tidak diketahui variabel tak bebas.

Dengan menggunakan analisis regresi, masalah peramalan dan klasifikasi dapat diselesaikan. Nilai prediksi dihitung dengan mensubstitusi nilai variabel penjelas ke dalam persamaan regresi. Masalah klasifikasi diselesaikan dengan cara ini: garis regresi membagi seluruh himpunan objek menjadi dua kelas, dan bagian himpunan yang nilai fungsinya lebih besar dari nol termasuk dalam satu kelas, dan bagian yang nilainya kurang dari nol. milik kelas lain.

Masalah Analisis Regresi

Mari kita perhatikan tugas utama analisis regresi: menetapkan bentuk ketergantungan, menentukan fungsi regresi, estimasi nilai variabel dependen yang tidak diketahui.

Pembentukan bentuk ketergantungan.

Sifat dan bentuk hubungan antar variabel dapat membentuk jenis regresi sebagai berikut:

    positif regresi linier(dinyatakan dalam pertumbuhan fungsi yang seragam);

    regresi positif yang meningkat secara seragam;

    regresi positif yang meningkat secara seragam;

    regresi linier negatif (dinyatakan sebagai penurunan fungsi yang seragam);

    regresi penurunan yang dipercepat secara seragam dan negatif;

    regresi menurun seragam negatif.

Namun, varietas yang dijelaskan biasanya tidak ditemukan bentuk murni, tetapi dikombinasikan satu sama lain. Dalam hal ini, kita berbicara tentang bentuk regresi gabungan.

Definisi fungsi regresi.

Tugas kedua adalah mengidentifikasi pengaruh faktor atau penyebab utama terhadap variabel dependen, semua hal lain dianggap sama, dan tunduk pada pengecualian pengaruh elemen acak pada variabel dependen. Fungsi regresi didefinisikan dalam bentuk persamaan matematika dari satu jenis atau lainnya.

Estimasi nilai variabel dependen yang tidak diketahui.

Solusi untuk masalah ini adalah dengan memecahkan salah satu jenis masalah berikut:

    Estimasi nilai variabel terikat dalam interval yang dipertimbangkan dari data awal, yaitu. nilai yang hilang; dalam hal ini, masalah interpolasi terpecahkan.

    Estimasi nilai masa depan dari variabel dependen, mis. menemukan nilai di luar interval yang ditentukan dari sumber data; dalam hal ini, masalah ekstrapolasi terpecahkan.

Kedua masalah tersebut diselesaikan dengan mensubstitusikan estimasi parameter yang ditemukan untuk nilai-nilai variabel independen ke dalam persamaan regresi. Hasil penyelesaian persamaan tersebut adalah perkiraan nilai variabel target (terikat).

Mari kita lihat beberapa asumsi yang menjadi dasar analisis regresi.

Asumsi linearitas, yaitu hubungan antar variabel yang dipertimbangkan diasumsikan linier. Jadi, dalam contoh ini, kami membuat plot sebar dan dapat melihat hubungan linier yang jelas. Jika, pada diagram sebar variabel, kita melihat tidak adanya hubungan linier, mis. Jika terdapat hubungan nonlinier sebaiknya digunakan metode analisis nonlinier.

Asumsi Normalitas sisa. Diasumsikan bahwa distribusi selisih antara nilai prediksi dan nilai observasi adalah normal. Untuk menentukan sifat distribusi secara visual, Anda dapat menggunakan histogram sisa.

Saat menggunakan analisis regresi, batasan utamanya harus dipertimbangkan. Itu terletak pada kenyataan bahwa analisis regresi memungkinkan kita untuk mendeteksi hanya ketergantungan, dan bukan hubungan yang mendasari ketergantungan ini.

Analisis regresi memungkinkan Anda memperkirakan kekuatan hubungan antar variabel dengan menghitung nilai taksiran suatu variabel berdasarkan beberapa nilai yang diketahui.

Persamaan regresi.

Persamaan regresinya terlihat seperti ini: Y=a+b*X

Dengan menggunakan persamaan ini, variabel Y dinyatakan dalam konstanta a dan kemiringan garis (atau kemiringan) b, dikalikan dengan nilai variabel X. Konstanta a disebut juga suku potong, dan kemiringannya adalah koefisien regresi atau koefisien B.

Dalam kebanyakan kasus (jika tidak selalu) terdapat sebaran pengamatan tertentu relatif terhadap garis regresi.

Sisa adalah penyimpangan satu titik (pengamatan) dari garis regresi (nilai prediksi).

Untuk mengatasi masalah analisis regresi di MS Excel, pilih dari menu Melayani"Paket analisis" dan alat analisis Regresi. Kami mengatur interval input X dan Y. Interval input Y adalah rentang data yang dianalisis dependen, harus mencakup satu kolom. Interval masukan X adalah rentang data independen yang perlu dianalisis. Jumlah rentang masukan tidak boleh melebihi 16.

Pada keluaran prosedur dalam rentang keluaran, kita memperoleh laporan yang diberikan tabel 8.3a-8.3v.

KESIMPULAN HASIL

Tabel 8.3a. Statistik regresi

Statistik regresi

jamak R

R-persegi

R-kuadrat yang dinormalisasi

Kesalahan standar

Pengamatan

Pertama-tama mari kita lihat bagian atas perhitungan yang disajikan tabel 8.3a, - statistik regresi.

Besarnya R-persegi, juga disebut ukuran kepastian, mencirikan kualitas garis regresi yang dihasilkan. Kualitas ini dinyatakan dengan derajat kesesuaian antara sumber data dan model regresi (data yang dihitung). Ukuran kepastian selalu berada dalam interval.

Dalam kebanyakan kasus, nilainya R-persegi berada di antara nilai-nilai ini, disebut ekstrim, yaitu. antara nol dan satu.

Jika nilainya R-persegi mendekati kesatuan, artinya model yang dibangun menjelaskan hampir seluruh variabilitas variabel-variabel yang bersangkutan. Sebaliknya, maknanya R-persegi, mendekati nol, berarti kualitas model yang dibangun buruk.

Dalam contoh kita, ukuran kepastiannya adalah 0,99673, yang menunjukkan kesesuaian garis regresi dengan data asli.

jamak R - koefisien korelasi berganda R - menyatakan derajat ketergantungan variabel bebas (X) dan variabel terikat (Y).

jamak R sama dengan akar kuadrat dari koefisien determinasi; besaran ini mengambil nilai dalam kisaran dari nol hingga satu.

Dalam analisis regresi linier sederhana jamak R sama dengan koefisien korelasi Pearson. Benar-benar, jamak R dalam kasus kami, ini sama dengan koefisien korelasi Pearson dari contoh sebelumnya (0,998364).

Tabel 8.3b. Koefisien regresi

Kemungkinan

Kesalahan standar

t-statistik

Persimpangan Y

Variabel X 1

* Versi perhitungan yang terpotong disediakan

Sekarang perhatikan bagian tengah dari perhitungan yang disajikan pada tabel 8.3b. Di sini diberikan koefisien regresi b (2,305454545) dan perpindahan sepanjang sumbu ordinat, yaitu. konstanta a (2.694545455).

Berdasarkan perhitungan, kita dapat menulis persamaan regresi sebagai berikut:

kamu= x*2,305454545+2,694545455

Arah hubungan antar variabel ditentukan berdasarkan tanda (negatif atau positif) koefisien regresi (koefisien b).

Jika tanda koefisien regresi bernilai positif maka hubungan antara variabel terikat dan variabel bebas akan bernilai positif. Dalam kasus kami, tanda koefisien regresinya positif, sehingga hubungannya juga positif.

Jika tanda koefisien regresi bernilai negatif maka hubungan antara variabel terikat dan variabel bebas bernilai negatif (berbalik).

DI DALAM tabel 8.3c. hasil keluaran disajikan sisa. Agar hasil ini muncul dalam laporan, Anda harus mengaktifkan kotak centang “Sisa” saat menjalankan alat “Regresi”.

PENARIKAN SISANYA

Tabel 8.3c. Sisa

Pengamatan

Prediksi Y

Sisa

Saldo standar

Dengan menggunakan bagian laporan ini, kita dapat melihat deviasi setiap titik dari garis regresi yang dibuat. Nilai absolut terbesar sisa dalam kasus kami - 0,778, terkecil - 0,043. Untuk menafsirkan data ini dengan lebih baik, kami akan menggunakan grafik data asli dan garis regresi yang dibangun yang disajikan pada beras. 8.3. Seperti yang Anda lihat, garis regresi cukup akurat “disesuaikan” dengan nilai data asli.

Perlu diingat bahwa contoh yang dipertimbangkan cukup sederhana dan tidak selalu memungkinkan untuk membuat garis regresi linier secara kualitatif.

Beras. 8.3. Sumber data dan garis regresi

Masalah memperkirakan nilai masa depan yang tidak diketahui dari variabel terikat berdasarkan nilai yang diketahui dari variabel bebas masih belum dipertimbangkan, mis. masalah peramalan.

Memiliki persamaan regresi, masalah peramalan direduksi menjadi penyelesaian persamaan Y= x*2.305454545+2.694545455 dengan nilai x yang diketahui. Hasil prediksi variabel dependen Y enam langkah ke depan disajikan pada tabel 8.4.

Tabel 8.4. Hasil ramalan variabel Y

Y (diprediksi)

Jadi, sebagai hasil dari penggunaan analisis regresi di Microsoft Excel, kami:

    membangun persamaan regresi;

    menetapkan bentuk hubungan dan arah hubungan antar variabel - regresi linier positif, yang dinyatakan dalam pertumbuhan fungsi yang seragam;

    menetapkan arah hubungan antar variabel;

    menilai kualitas garis regresi yang dihasilkan;

    mampu melihat penyimpangan data hasil perhitungan dari data himpunan aslinya;

    prediksi nilai masa depan dari variabel dependen.

Jika fungsi regresi didefinisikan, diinterpretasikan dan dibenarkan, serta penilaian keakuratan analisis regresi memenuhi persyaratan, model yang dibangun dan nilai prediksi dapat dianggap memiliki keandalan yang cukup.

Nilai prediksi yang diperoleh dengan cara ini merupakan nilai rata-rata yang dapat diharapkan.

Dalam karya ini kami meninjau karakteristik utama Statistik deskriptif dan di antaranya konsep-konsep seperti nilai rata-rata,median,maksimum,minimum dan karakteristik variasi data lainnya.

Konsep tersebut juga dibahas secara singkat emisi. Karakteristik yang dipertimbangkan berkaitan dengan apa yang disebut analisis data eksplorasi; kesimpulannya mungkin tidak berlaku untuk populasi umum, namun hanya untuk sampel data. Analisis data eksplorasi digunakan untuk memperoleh kesimpulan primer dan membentuk hipotesis tentang populasi.

Dasar-dasar analisis korelasi dan regresi, tugas dan kemungkinan penggunaan praktisnya juga dibahas.

Metode analisis regresi digunakan untuk menentukan parameter teknis dan ekonomi produk yang termasuk dalam rangkaian parametrik tertentu untuk membangun dan menyelaraskan hubungan nilai. Metode ini digunakan untuk menganalisis dan membenarkan tingkat dan rasio harga produk yang ditandai dengan adanya satu atau lebih parameter teknis dan ekonomi yang mencerminkan properti konsumen utama. Analisis regresi memungkinkan kita menemukan rumus empiris yang menggambarkan ketergantungan harga pada parameter teknis dan ekonomi produk:

P=f(X1X2,...,Xn),

dimana P adalah nilai harga satuan produk, gosok.; (X1, X2, ... Xn) - parameter teknis dan ekonomi produk.

Metode analisis regresi - yang paling canggih dari metode parametrik normatif yang digunakan - efektif ketika melakukan perhitungan berdasarkan penggunaan metode modern teknologi Informasi dan sistem. Penerapannya mencakup langkah-langkah utama berikut:

  • penetapan kelompok parametrik klasifikasi produk;
  • pemilihan parameter yang paling mempengaruhi harga produk;
  • pemilihan dan pembenaran bentuk hubungan antara perubahan harga ketika parameter berubah;
  • konstruksi sistem persamaan normal dan perhitungan koefisien regresi.

Dasar kelompok kualifikasi produk, yang harganya harus disamakan, adalah rangkaian parametrik, di mana produk dapat dikelompokkan ke dalam desain yang berbeda tergantung pada aplikasinya, kondisi dan persyaratan pengoperasian, dll. Saat membentuk rangkaian parametrik, metode klasifikasi otomatis dapat digunakan, yaitu memungkinkan produk untuk mengidentifikasi kelompok homogennya. Pemilihan parameter teknis dan ekonomi dilakukan berdasarkan persyaratan dasar sebagai berikut:

  • parameter yang dipilih mencakup parameter yang dicatat dalam standar dan kondisi teknis; selain parameter teknis (daya, kapasitas beban, kecepatan, dll.), indikator serialisasi produk, koefisien kompleksitas, penyatuan, dll. digunakan;
  • seperangkat parameter yang dipilih harus cukup mencirikan desain, sifat teknologi dan operasional produk yang termasuk dalam seri, dan memiliki korelasi yang cukup erat dengan harga;
  • parameter tidak boleh saling bergantung.

Untuk memilih parameter teknis dan ekonomi yang secara signifikan mempengaruhi harga, matriks koefisien korelasi berpasangan dihitung. Berdasarkan besarnya koefisien korelasi antar parameter, seseorang dapat menilai keeratan hubungannya. Pada saat yang sama, korelasi yang mendekati nol menunjukkan pengaruh parameter yang tidak signifikan terhadap harga. Pemilihan akhir parameter teknis dan ekonomi dilakukan dalam proses analisis regresi langkah demi langkah menggunakan perangkat komputer dan program standar yang sesuai.

Dalam praktik penetapan harga, serangkaian fungsi berikut digunakan:

linier

P = ao + alXl + ... + antXn,

kekuatan linier

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

logaritma terbalik

P = a0 + a1 : Pada X1 + ... + an : Pada Xn,

kekuatan

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

indikatif

P = e^(a1+a1X1+...+anXn)

hiperbolis

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

dimana P adalah pemerataan harga; X1 X2,..., Xn - nilai parameter teknis dan ekonomi produk seri; a0, a1…, an - koefisien persamaan regresi yang dihitung.

Dalam kerja praktek mengenai penetapan harga, tergantung pada bentuk hubungan antara harga dan parameter teknis dan ekonomi, persamaan regresi lainnya dapat digunakan. Jenis fungsi hubungan antara harga dan serangkaian parameter teknis dan ekonomi dapat diatur sebelumnya atau dipilih secara otomatis selama pemrosesan komputer. Kedekatan korelasi antara harga dan sekumpulan parameter dinilai dari nilainya koefisien berganda korelasi. Kedekatannya dengan satu menunjukkan hubungan yang erat. Dengan menggunakan persamaan regresi, diperoleh nilai harga yang disamakan (dihitung) untuk produk dari seri parametrik tertentu. Untuk mengevaluasi hasil pemerataan, dihitung nilai relatif penyimpangan nilai harga yang dihitung dari nilai sebenarnya:

Tsr = Rf - Rr : R x 100

di mana Рф, Рр - harga aktual dan yang dihitung.

Nilai CR tidak boleh melebihi 8-10%. Jika terjadi penyimpangan yang signifikan antara nilai yang dihitung dari nilai sebenarnya, perlu dilakukan penyelidikan:

  • kebenaran pembentukan deret parametrik, karena mungkin berisi produk yang parameternya sangat berbeda dari produk lain dalam seri tersebut. Mereka harus disingkirkan;
  • pemilihan parameter teknis dan ekonomi yang benar. Seperangkat parameter mungkin berkorelasi lemah dengan harga. Dalam hal ini, perlu untuk terus mencari dan memilih parameter.

Prosedur dan metodologi untuk melakukan analisis regresi, mencari parameter persamaan yang tidak diketahui dan penilaian ekonomis dari hasil yang diperoleh dilakukan sesuai dengan persyaratan statistik matematika.



Baru di situs

>

Paling populer