Rumah gusi Apakah keperluan dalam model analisis regresi. Kaedah statistik matematik

Apakah keperluan dalam model analisis regresi. Kaedah statistik matematik

KESIMPULAN KEPUTUSAN

Jadual 8.3a. Statistik regresi
Statistik regresi
Jamak R 0,998364
R-segi empat 0,99673
Biasa R-kuasa dua 0,996321
Kesalahan biasa 0,42405
Pemerhatian 10

Mari kita pertimbangkan dahulu bahagian atas pengiraan dibentangkan dalam jadual 8.3a - statistik regresi.

Nilai R-square, juga dipanggil ukuran kepastian, mencirikan kualiti garis regresi yang terhasil. Kualiti ini dinyatakan dengan tahap korespondensi antara data sumber dan model regresi (data yang dikira). Ukuran kepastian sentiasa dalam selang waktu.

Dalam kebanyakan kes, nilai kuasa dua R jatuh di antara nilai ini, dipanggil nilai ekstrem, i.e. antara sifar dan satu.

Jika nilai R-kuasa dua hampir dengan satu, ini bermakna model yang dibina menerangkan hampir semua kebolehubahan dalam pembolehubah yang berkaitan. Sebaliknya, nilai kuasa dua R yang hampir kepada sifar bermakna kualiti model yang dibina adalah buruk.

Dalam contoh kami, ukuran kepastian ialah 0.99673, yang menunjukkan kesesuaian garis regresi yang sangat baik dengan data asal.

Jamak R- pekali korelasi berganda R - menyatakan tahap pergantungan pembolehubah bebas (X) dan pembolehubah bersandar (Y).

Berbilang R adalah sama dengan punca kuasa dua daripada pekali penentuan, kuantiti ini mengambil nilai dalam julat dari sifar hingga satu.

Dalam analisis regresi linear mudah, berbilang R adalah sama dengan pekali korelasi Pearson. Malah, berbilang R dalam kes kami adalah sama dengan pekali korelasi Pearson daripada contoh sebelumnya (0.998364).

Jadual 8.3b. Pekali regresi
Kemungkinan Kesalahan biasa t-statistik
persimpangan Y 2,694545455 0,33176878 8,121757129
Pembolehubah X 1 2,305454545 0,04668634 49,38177965
* Versi pengiraan yang dipotong disediakan

Sekarang pertimbangkan bahagian tengah pengiraan, dibentangkan dalam jadual 8.3b. Di sini pekali regresi b (2.305454545) dan sesaran sepanjang paksi ordinat diberikan, i.e. pemalar a (2.694545455).

Berdasarkan pengiraan, kita boleh menulis persamaan regresi seperti berikut:

Y= x*2.305454545+2.694545455

Arah hubungan antara pembolehubah ditentukan berdasarkan tanda (negatif atau positif) pekali regresi(pekali b).

Jika tanda di pekali regresi- positif, hubungan antara pembolehubah bersandar dan pembolehubah tidak bersandar akan menjadi positif. Dalam kes kami, tanda pekali regresi adalah positif, oleh itu, hubungannya juga positif.

Jika tanda di pekali regresi- negatif, hubungan antara pembolehubah bersandar dan pembolehubah bebas adalah negatif ( songsang).

Dalam jadual 8.3c. Keputusan terbitan sisa dibentangkan. Agar keputusan ini muncul dalam laporan, anda mesti mengaktifkan kotak semak "Sisa" semasa menjalankan alat "Regression".

PENARIKAN BALIK

Jadual 8.3c. Lebihan makanan
Pemerhatian Diramalkan Y Lebihan makanan Baki piawai
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Menggunakan bahagian laporan ini, kita boleh melihat sisihan setiap titik daripada garis regresi yang dibina. Nilai mutlak terbesar

Tujuan analisis regresi adalah untuk mengukur hubungan antara pembolehubah bersandar dan satu (analisis regresi berpasangan) atau lebih (berbilang) pembolehubah tidak bersandar. Pembolehubah tidak bersandar juga dipanggil pembolehubah faktor, penerang, penentu, regressor dan peramal.

Pembolehubah bersandar kadangkala dipanggil pembolehubah ditentukan, dijelaskan, atau "tindak balas". Penggunaan analisis regresi yang sangat meluas dalam penyelidikan empirikal bukan sahaja disebabkan oleh fakta bahawa ia adalah alat yang mudah untuk menguji hipotesis. Regresi, terutamanya regresi berganda, adalah kaedah yang berkesan pemodelan dan peramalan.

Mari mulakan menerangkan prinsip bekerja dengan analisis regresi dengan kaedah yang lebih mudah - kaedah pasangan.

Analisis Regresi Berpasangan

Langkah pertama apabila menggunakan analisis regresi akan hampir sama dengan langkah yang kami ambil dalam mengira pekali korelasi. Tiga syarat utama untuk keberkesanan analisis korelasi mengikut kaedah Pearson - taburan normal pembolehubah, pengukuran selang pembolehubah, hubungan linear antara pembolehubah - juga relevan untuk regresi berganda. Sehubungan itu, pada peringkat pertama, petak serakan dibina, analisis statistik dan deskriptif pembolehubah dijalankan, dan garis regresi dikira. Seperti dalam rangka analisis korelasi, garis regresi dibina menggunakan kaedah petak terkecil.

Untuk menggambarkan dengan lebih jelas perbezaan antara dua kaedah analisis data, mari kita beralih kepada contoh yang telah dibincangkan dengan pembolehubah "sokongan SPS" dan "bahagian penduduk luar bandar". Data sumber adalah sama. Perbezaan dalam plot serakan adalah bahawa dalam analisis regresi adalah betul untuk memplot pembolehubah bersandar - dalam kes kami, "sokongan SPS" pada paksi Y, manakala dalam analisis korelasi ini tidak penting. Selepas membersihkan outlier, scatterplot kelihatan seperti ini:

Idea asas analisis regresi ialah, mempunyai trend umum untuk pembolehubah - dalam bentuk garis regresi - anda boleh meramalkan nilai pembolehubah bersandar, memandangkan nilai pembolehubah bebas.

Mari kita bayangkan matematik biasa fungsi linear. Mana-mana garis lurus dalam ruang Euclidean boleh diterangkan dengan formula:

di mana a ialah pemalar yang menyatakan sesaran sepanjang paksi ordinat; b ialah pekali yang menentukan sudut kecondongan garis.

Mengetahui cerun dan pemalar, anda boleh mengira (meramal) nilai y untuk sebarang x.

ini fungsi paling mudah dan membentuk asas untuk model analisis regresi dengan kaveat bahawa kita tidak akan meramalkan nilai y dengan tepat, tetapi dalam tempoh tertentu selang keyakinan, iaitu lebih kurang.

Pemalar ialah titik persilangan garis regresi dan paksi-y (persimpangan-F, biasanya ditandakan "pemintas" dalam pakej statistik). Dalam contoh kami dengan mengundi untuk Union of Right Forces, nilai bulatnya ialah 10.55. Pekali sudut b adalah lebih kurang -0.1 (seperti dalam analisis korelasi, tanda menunjukkan jenis sambungan - langsung atau songsang). Oleh itu, model yang terhasil akan mempunyai bentuk SP C = -0.1 x Sel. kami. + 10.55.

ATP = -0.10 x 47 + 10.55 = 5.63.

Perbezaan antara nilai asal dan ramalan dipanggil selebihnya (kami telah menemui istilah ini, yang merupakan asas untuk statistik, semasa menganalisis jadual kontingensi). Jadi, untuk kes "Republik Adygea" bakinya akan sama dengan 3.92 - 5.63 = -1.71. Semakin besar nilai modular baki, semakin kurang berjaya nilai yang diramalkan.

Kami mengira nilai ramalan dan sisa untuk semua kes:
sedang berlaku Duduk. kami. terima kasih

(asal)

terima kasih

(diramalkan)

Lebihan makanan
Republik Adygea 47 3,92 5,63 -1,71 -
Republik Altai 76 5,4 2,59 2,81
Republik Bashkortostan 36 6,04 6,78 -0,74
Republik Buryatia 41 8,36 6,25 2,11
Republik Dagestan 59 1,22 4,37 -3,15
Republik Ingushetia 59 0,38 4,37 3,99
Dan lain-lain.

Analisis nisbah nilai awal dan ramalan berfungsi untuk menilai kualiti model yang dihasilkan dan keupayaan ramalannya. Salah satu petunjuk utama statistik regresi ialah pekali korelasi berganda R - pekali korelasi antara nilai asal dan ramalan pembolehubah bersandar. Dalam analisis regresi berpasangan, ia adalah sama dengan pekali korelasi Pearson biasa antara pembolehubah bersandar dan bebas, dalam kes kami - 0.63. Untuk mentafsir berbilang R secara bermakna, ia mesti ditukar kepada pekali penentuan. Ini dilakukan dengan cara yang sama seperti dalam analisis korelasi - dengan kuasa dua. Pekali penentuan R-kuasa dua (R 2) menunjukkan bahagian variasi dalam pembolehubah bersandar yang dijelaskan oleh pembolehubah bebas.

Dalam kes kami, R 2 = 0.39 (0.63 2); ini bermakna pembolehubah "bahagian penduduk luar bandar" menerangkan kira-kira 40% daripada variasi dalam pembolehubah "sokongan SPS". Semakin besar pekali penentuan, semakin tinggi kualiti model.

Satu lagi penunjuk kualiti model ialah ralat anggaran piawai. Ini adalah ukuran sejauh mana titik "tersebar" di sekitar garis regresi. Ukuran sebaran bagi pembolehubah selang ialah sisihan piawai. Sehubungan itu, ralat piawai anggaran ialah sisihan piawai bagi taburan sisa. Semakin tinggi nilainya, semakin besar taburan dan semakin teruk modelnya. Dalam kes kami, ralat standard ialah 2.18. Dengan jumlah inilah model kami akan "bersalah secara purata" apabila meramalkan nilai pembolehubah "sokongan SPS".

Statistik regresi juga termasuk analisis varians. Dengan bantuannya, kita mengetahui: 1) apakah bahagian variasi (dispersi) pembolehubah bersandar yang dijelaskan oleh pembolehubah bebas; 2) apakah bahagian varians pembolehubah bersandar yang diambil kira oleh baki (bahagian yang tidak dapat dijelaskan); 3) apakah nisbah kedua-dua kuantiti ini (/"-nisbah). Perangkaan serakan amat penting untuk kajian sampel- ia menunjukkan betapa berkemungkinan terdapat hubungan antara pembolehubah bebas dan bersandar dalam penduduk. Walau bagaimanapun, walaupun untuk penyelidikan berterusan (seperti dalam contoh kami), mengkaji hasilnya analisis varians tidak berguna. Dalam kes ini, mereka menyemak sama ada corak statistik yang dikenal pasti disebabkan oleh kebetulan keadaan rawak, betapa tipikalnya untuk set keadaan di mana populasi yang dikaji berada, i.e. bukanlah kebenaran hasil yang diperoleh untuk sesetengah populasi umum yang lebih besar yang ditubuhkan, tetapi tahap keteraturan dan kebebasannya daripada pengaruh rawak.

Dalam kes kami, statistik ANOVA adalah seperti berikut:

SS df CIK F maksudnya
Kemunduran. 258,77 1,00 258,77 54,29 0.000000001
Baki 395,59 83,00 L,11
Jumlah 654,36

Nisbah F 54.29 adalah signifikan pada tahap 0.0000000001. Sehubungan itu, kami dengan yakin boleh menolak hipotesis nol (bahawa perhubungan yang kami temui adalah disebabkan oleh kebetulan).

Kriteria t melaksanakan fungsi yang sama, tetapi berhubung dengan pekali regresi (sudut dan persilangan F). Menggunakan kriteria /, kami menguji hipotesis bahawa dalam populasi umum pekali regresi adalah sama dengan sifar. Dalam kes kami, kami sekali lagi boleh menolak hipotesis nol dengan yakin.

Analisis regresi berganda

Model regresi berganda hampir sama dengan model regresi berpasangan; satu-satunya perbezaan ialah beberapa pembolehubah bebas dimasukkan secara berurutan dalam fungsi linear:

Y = b1X1 + b2X2 + …+ bpXp + a.

Jika terdapat lebih daripada dua pembolehubah tidak bersandar, kita tidak dapat mendapatkan gambaran visual tentang hubungan mereka; dalam hal ini, regresi berganda adalah kurang "visual" daripada regresi berpasangan. Apabila anda mempunyai dua pembolehubah bebas, ia boleh berguna untuk memaparkan data dalam plot serakan 3D. Dalam pakej perisian statistik profesional (contohnya, Statistica) terdapat pilihan untuk memutar carta tiga dimensi, yang membolehkan anda mewakili secara visual struktur data dengan baik.

Apabila bekerja dengan regresi berganda, berbanding regresi berpasangan, adalah perlu untuk menentukan algoritma analisis. Algoritma standard merangkumi semua peramal yang tersedia dalam model regresi akhir. Algoritma langkah demi langkah melibatkan kemasukan berurutan (pengecualian) pembolehubah bebas berdasarkan "berat" penjelasannya. Kaedah stepwise adalah baik apabila terdapat banyak pembolehubah bebas; ia "membersihkan" model peramal yang lemah, menjadikannya lebih padat dan ringkas.

Syarat tambahan untuk ketepatan regresi berganda (bersama-sama dengan selang, normaliti dan lineariti) ialah ketiadaan multikolineariti - kehadiran korelasi yang kuat antara pembolehubah bebas.

Tafsiran statistik regresi berbilang merangkumi semua elemen yang kami pertimbangkan untuk kes regresi berpasangan. Di samping itu, terdapat komponen penting lain kepada statistik analisis regresi berganda.

Kami akan menggambarkan kerja dengan regresi berganda menggunakan contoh hipotesis ujian yang menerangkan perbezaan dalam tahap aktiviti pilihan raya di seluruh wilayah Rusia. Kajian empirikal khusus telah mencadangkan bahawa tahap keluar mengundi dipengaruhi oleh:

Faktor kebangsaan (pembolehubah "penduduk Rusia"; beroperasi sebagai bahagian penduduk Rusia dalam entiti konstituen Persekutuan Rusia). Diandaikan bahawa peningkatan bahagian penduduk Rusia membawa kepada penurunan jumlah keluar mengundi;

Faktor perbandaran (pembolehubah " penduduk bandar"; beroperasi sebagai bahagian penduduk bandar dalam entiti konstituen Persekutuan Rusia; kami telah bekerja dengan faktor ini dalam rangka analisis korelasi). Diandaikan bahawa peningkatan bahagian penduduk bandar juga membawa kepada penurunan peratusan keluar mengundi.

Pembolehubah bersandar - "intensiti aktiviti pilihan raya" ("aktif") dikendalikan melalui data purata keluar mengundi mengikut wilayah dalam pilihan raya persekutuan dari 1995 hingga 2003. Jadual data awal untuk dua pembolehubah bebas dan satu pembolehubah bersandar adalah seperti berikut:

sedang berlaku Pembolehubah
Aset. Gor. kami. Rus. kami.
Republik Adygea 64,92 53 68
Republik Altai 68,60 24 60
Republik Buryatia 60,75 59 70
Republik Dagestan 79,92 41 9
Republik Ingushetia 75,05 41 23
Republik Kalmykia 68,52 39 37
Republik Karachay-Cherkess 66,68 44 42
Republik Karelia 61,70 73 73
Republik Komi 59,60 74 57
Republik Mari El 65,19 62 47

Dan lain-lain. (selepas membersihkan pelepasan, 83 daripada 88 kes kekal)

Statistik yang menerangkan kualiti model:

1. Berbilang R = 0.62; L-persegi = 0.38. Akibatnya, faktor nasional dan faktor pembandaran bersama-sama menerangkan kira-kira 38% daripada variasi dalam pembolehubah "aktiviti pilihan raya".

2. Ralat purata ialah 3.38. Ini betul-betul "salah secara purata" model yang dibina apabila meramalkan tahap peratusan keluar mengundi.

3. /l-nisbah variasi yang dijelaskan dan tidak dijelaskan ialah 25.2 pada tahap 0.000000003. Hipotesis nol tentang rawak perhubungan yang dikenal pasti ditolak.

4. Kriteria / untuk pekali pemalar dan regresi pembolehubah "penduduk bandar" dan "penduduk Rusia" adalah signifikan pada tahap 0.0000001; 0.00005 dan 0.007 masing-masing. Hipotesis nol bahawa pekali adalah rawak ditolak.

Statistik berguna tambahan dalam menganalisis hubungan antara nilai asal dan nilai ramalan bagi pembolehubah bersandar ialah jarak Mahalanobis dan jarak Cook. Yang pertama ialah ukuran keunikan kes (menunjukkan berapa banyak gabungan nilai semua pembolehubah bebas untuk kes ini menyimpang daripada min bagi semua pembolehubah bebas secara serentak). Yang kedua ialah ukuran pengaruh kes. Pemerhatian yang berbeza mempunyai kesan yang berbeza pada cerun garis regresi, dan jarak Cook boleh digunakan untuk membandingkannya pada penunjuk ini. Ini boleh berguna apabila membersihkan outlier (outlier boleh dianggap sebagai kes yang terlalu berpengaruh).

Dalam contoh kami, kes unik dan berpengaruh termasuk Dagestan.

sedang berlaku Asal

nilai

Predska

nilai

Lebihan makanan Jarak

Mahalanobis

Jarak
Adygea 64,92 66,33 -1,40 0,69 0,00
Republik Altai 68,60 69.91 -1,31 6,80 0,01
Republik Buryatia 60,75 65,56 -4,81 0,23 0,01
Republik Dagestan 79,92 71,01 8,91 10,57 0,44
Republik Ingushetia 75,05 70,21 4,84 6,73 0,08
Republik Kalmykia 68,52 69,59 -1,07 4,20 0,00

Model regresi itu sendiri mempunyai parameter berikut: Persilangan-Y (malar) = 75.99; b (mendatar) = -0.1; Kommersant (nas Rusia) = -0.06. Formula akhir.

Ciri-ciri kebergantungan kausal

Hubungan sebab-akibat- ini adalah hubungan antara fenomena dan proses, apabila perubahan dalam salah satu daripada mereka - punca - membawa kepada perubahan yang lain - kesannya.

Tanda-tanda mengikut kepentingannya untuk mengkaji hubungan dibahagikan kepada dua kelas.

Tanda-tanda yang menyebabkan perubahan pada tanda-tanda lain yang berkaitan dipanggil faktorial (atau faktor).

Tanda-tanda yang berubah di bawah pengaruh tanda-tanda faktor ialah berkesan.

Bentuk komunikasi berikut dibezakan: berfungsi dan stokastik. Berfungsi ialah hubungan di mana nilai tertentu ciri faktor sepadan dengan satu dan hanya satu nilai ciri terhasil. Sambungan fungsional ditunjukkan dalam semua kes pemerhatian dan untuk setiap unit tertentu populasi yang dikaji.

Hubungan fungsional boleh diwakili oleh persamaan berikut:
y i =f(x i), di mana: y i - tanda terhasil; f(x i) - fungsi yang diketahui bagi hubungan antara ciri paduan dan faktor; x i - tanda faktor.
Dalam sifat sebenar tidak ada sambungan berfungsi. Ia hanyalah abstraksi, berguna dalam menganalisis fenomena, tetapi memudahkan realiti.

Stochastic (statistik atau rawak)sambungan mewakili hubungan antara kuantiti di mana salah satu daripadanya bertindak balas terhadap perubahan kuantiti lain atau kuantiti lain dengan mengubah undang-undang taburan. Dengan kata lain, dengan hubungan ini makna yang berbeza satu pembolehubah sepadan dengan taburan berbeza pembolehubah lain. Ini disebabkan oleh fakta bahawa pembolehubah bersandar, sebagai tambahan kepada pembolehubah bebas yang sedang dipertimbangkan, dipengaruhi oleh beberapa faktor rawak yang tidak diambil kira atau tidak terkawal, serta beberapa ralat yang tidak dapat dielakkan dalam pengukuran pembolehubah. Disebabkan oleh fakta bahawa nilai pembolehubah bersandar tertakluk kepada serakan rawak, ia tidak boleh diramalkan dengan ketepatan yang mencukupi, tetapi hanya boleh ditunjukkan dengan kebarangkalian tertentu.

Disebabkan oleh kekaburan pergantungan stokastik antara Y dan X, khususnya, skim pergantungan yang dipuratakan ke atas x adalah menarik, i.e. corak dalam perubahan dalam nilai purata - jangkaan matematik bersyarat Mx(Y) (jangkaan matematik pembolehubah rawak Y, didapati dengan syarat pembolehubah X mengambil nilai x) bergantung kepada x.

Kes khas komunikasi stokastik ialah komunikasi korelasi. Korelasi(dari lat. korelasi- korelasi, hubungan). Takrif langsung istilah korelasi - stokastik, berkemungkinan, mungkin sambungan antara dua (pasangan) atau beberapa (berbilang) pembolehubah rawak.

Pergantungan korelasi antara dua pembolehubah juga dipanggil hubungan statistik antara pembolehubah ini, di mana setiap nilai satu pembolehubah sepadan dengan nilai purata tertentu, i.e. jangkaan matematik bersyarat adalah berbeza. Kebergantungan korelasi ialah kes khas pergantungan stokastik, di mana perubahan dalam nilai ciri faktor (x 1 x 2 ..., x n) memerlukan perubahan dalam nilai purata ciri yang terhasil.



Adalah lazim untuk membezakan jenis korelasi berikut:

1. Korelasi pasangan – hubungan antara dua ciri (hasil dan faktor atau dua faktor).

2. Kolerasi separa - pergantungan antara ciri paduan dan satu faktor dengan nilai tetap ciri faktor lain yang dimasukkan dalam kajian.

3. Kolerasi berbilang - pergantungan hasil dan dua atau lebih ciri faktor yang dimasukkan dalam kajian.

Tujuan Analisis Regresi

Bentuk analisis untuk mewakili hubungan sebab-akibat ialah model regresi. Kesahan saintifik dan populariti analisis regresi menjadikannya salah satu alat matematik utama untuk memodelkan fenomena yang dikaji. Kaedah ini digunakan untuk melicinkan data eksperimen dan mendapatkan anggaran kuantitatif pengaruh perbandingan pelbagai faktor kepada pembolehubah hasil.

Analisis regresi ialah dalam menentukan ungkapan analitikal hubungan di mana perubahan dalam satu nilai (pembolehubah bersandar atau ciri paduan) adalah disebabkan oleh pengaruh satu atau lebih kuantiti bebas(faktor atau peramal), dan set semua faktor lain yang turut mempengaruhi nilai bergantung diambil sebagai nilai malar dan purata.

Matlamat analisis regresi:

Penilaian kebergantungan fungsi nilai purata bersyarat bagi ciri paduan y pada faktor faktor (x 1, x 2, ..., x n);

Meramalkan nilai pembolehubah bersandar menggunakan pembolehubah tidak bersandar.

Menentukan sumbangan pembolehubah bebas individu kepada variasi pembolehubah bersandar.

Analisis regresi tidak boleh digunakan untuk menentukan sama ada terdapat hubungan antara pembolehubah, kerana kehadiran hubungan tersebut adalah prasyarat untuk menggunakan analisis.

Dalam analisis regresi, diandaikan terlebih dahulu bahawa terdapat hubungan sebab-akibat antara paduan (U) dan ciri-ciri faktor x 1, x 2 ..., x n.

Fungsi , op Kebergantungan menentukan penunjuk pada parameter dipanggil persamaan regresi (fungsi) 1 . Persamaan regresi menunjukkan nilai jangkaan pembolehubah bersandar diberi nilai tertentu pembolehubah bebas.
Bergantung kepada bilangan faktor yang disertakan dalam model X model dibahagikan kepada faktor tunggal (model regresi berpasangan) dan berbilang faktor (model regresi berganda). Bergantung kepada jenis fungsi, model dibahagikan kepada linear dan bukan linear.

Model regresi berpasangan

Disebabkan oleh pengaruh faktor dan punca rawak yang tidak dikira, pemerhatian individu y akan menyimpang ke tahap yang lebih besar atau lebih kecil daripada fungsi regresi f(x). Dalam kes ini, persamaan untuk hubungan antara dua pembolehubah (model regresi berpasangan) boleh dibentangkan sebagai:

Y=f(X) + ɛ,

di mana ɛ ialah pembolehubah rawak yang mencirikan sisihan daripada fungsi regresi. Pembolehubah ini dipanggil gangguan atau gangguan (sisa atau ralat). Oleh itu, dalam model regresi pembolehubah bersandar Y terdapat beberapa fungsi f(X) sehingga gangguan rawak ɛ.

Mari kita pertimbangkan model regresi berpasangan linear klasik (CLMPR). Dia kelihatan seperti

y i =β 0 +β 1 x i +ɛ i (i=1,2, …, n),(1)

di mana y i– dijelaskan (terhasil, bergantung, pembolehubah endogen); x i– pembolehubah penjelasan (peramal, faktor, eksogen); β 0 , β 1– pekali berangka; ɛ i– komponen rawak (stokastik) atau ralat.

Syarat asas (prasyarat, hipotesis) KLMPR:

1) x i– kuantiti deterministik (bukan rawak), dan diandaikan bahawa antara nilai x i - tidak semua adalah sama.

2) Nilai yang dijangkakan(nilai purata) gangguan ɛ i sama dengan sifar:

М[ɛ i ]=0 (i=1,2, …, n).

3) Penyerakan gangguan adalah malar untuk sebarang nilai i (keadaan homoskedastisitas):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Gangguan untuk pemerhatian yang berbeza tidak berkaitan:

cov[ɛ i , ɛ j ]=M[ɛ i , ɛ j ]=0 untuk i≠j,

dengan cov[ɛ i , ɛ j ] ialah pekali kovarians (momen korelasi).

5) Gangguan adalah pembolehubah rawak taburan normal dengan min sifar dan varians σ 2:

ɛ i ≈ N(0, σ 2).

Untuk mendapatkan persamaan regresi, empat premis pertama adalah mencukupi. Keperluan untuk memenuhi prasyarat kelima adalah perlu untuk menilai ketepatan persamaan regresi dan parameternya.

Ulasan: Tumpuan pada hubungan linear dijelaskan oleh variasi terhad pembolehubah dan fakta bahawa dalam kebanyakan kes bentuk perhubungan bukan linear ditukar (dengan logaritma atau penggantian pembolehubah) ke dalam bentuk linear untuk melakukan pengiraan.

Kaedah tradisional kuasa dua terkecil (LS)

Anggaran model daripada sampel ialah persamaan

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

di mana ŷ i – nilai teori (menghampirkan) pembolehubah bersandar yang diperoleh daripada persamaan regresi; a 0 , a 1 - pekali (parameter) persamaan regresi (anggaran sampel bagi pekali β 0, β 1, masing-masing).

Mengikut kuasa dua terkecil, parameter yang tidak diketahui a 0 , a 1 dipilih supaya jumlah sisihan kuasa dua nilai ŷ i daripada nilai empirikal y i (jumlah baki kuasa dua) adalah minimum:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

di mana e i = y i - ŷ i – anggaran sampel gangguan ɛ i, atau baki regresi.

Masalahnya datang kepada mencari nilai parameter seperti 0 dan 1 yang mana fungsi Q e mengambil nilai terkecil. Perhatikan bahawa fungsi Q e = Q e (a 0 , a 1) ialah fungsi bagi dua pembolehubah a 0 dan a 1 sehingga kita menemui dan kemudian menetapkan nilai "terbaik" (dalam erti kata kaedah kuasa dua terkecil), a x i , y i ialah nombor malar yang ditemui secara eksperimen.

Syarat yang perlu extrema (3) didapati dengan menyamakan terbitan separa bagi fungsi dua pembolehubah ini kepada sifar. Akibatnya, kami memperoleh sistem dua persamaan linear, yang dipanggil sistem persamaan normal:

(4)

Pekali a 1 ialah pekali regresi sampel y pada x, yang menunjukkan berapa banyak unit secara purata pembolehubah y berubah apabila pembolehubah x berubah dengan satu unit ukurannya, iaitu variasi dalam y per unit variasi dalam x. Tanda a 1 menunjukkan arah perubahan ini. Pekali a 0 – anjakan, mengikut (2) sama dengan nilaiŷ i untuk x=0 dan mungkin tidak mempunyai tafsiran yang bermakna. Atas sebab ini, pembolehubah bersandar kadangkala dipanggil tindak balas.

Sifat statistik anggaran pekali regresi:

Pekali menganggarkan a 0 , a 1 adalah tidak berat sebelah;

Varians anggaran a 0 , penurunan 1 (ketepatan anggaran meningkat) dengan peningkatan saiz sampel n;

Varians anggaran cerun a 1 berkurangan dengan peningkatan dan oleh itu adalah dinasihatkan untuk memilih x i supaya penyebarannya di sekitar nilai purata adalah besar;

Untuk x¯ > 0 (yang paling diminati), terdapat hubungan statistik negatif antara 0 dan 1 (peningkatan dalam 1 membawa kepada penurunan dalam 0).

Ciri utama analisis regresi: dengan bantuannya, anda boleh mendapatkan maklumat khusus tentang bentuk dan sifat hubungan antara pembolehubah yang dikaji.

Urutan peringkat analisis regresi

Mari kita pertimbangkan secara ringkas peringkat analisis regresi.

    Perumusan masalah. Pada peringkat ini, hipotesis awal tentang pergantungan fenomena yang dikaji terbentuk.

    Definisi pembolehubah bersandar dan bebas (penerangan).

    Pengumpulan data statistik. Data mesti dikumpul untuk setiap pembolehubah yang termasuk dalam model regresi.

    Perumusan hipotesis tentang bentuk sambungan (mudah atau berbilang, linear atau bukan linear).

    Definisi fungsi regresi (terdiri dalam mengira nilai berangka parameter persamaan regresi)

    Menilai ketepatan analisis regresi.

    Tafsiran keputusan yang diperolehi. Keputusan analisis regresi yang diperolehi dibandingkan dengan hipotesis awal. Ketepatan dan kredibiliti keputusan yang diperolehi dinilai.

    Ramalan nilai yang tidak diketahui pembolehubah bersandar.

Menggunakan analisis regresi, adalah mungkin untuk menyelesaikan masalah peramalan dan pengelasan. Nilai yang diramalkan dikira dengan menggantikan nilai pembolehubah penjelasan ke dalam persamaan regresi. Masalah klasifikasi diselesaikan dengan cara ini: garis regresi membahagikan keseluruhan set objek kepada dua kelas, dan bahagian set yang nilai fungsinya lebih besar daripada sifar tergolong dalam satu kelas, dan bahagian yang kurang daripada sifar. tergolong dalam kelas lain.

Masalah Analisis Regresi

Mari kita pertimbangkan tugas utama analisis regresi: mewujudkan bentuk pergantungan, menentukan fungsi regresi, anggaran nilai yang tidak diketahui bagi pembolehubah bersandar.

Mewujudkan bentuk pergantungan.

Sifat dan bentuk hubungan antara pembolehubah boleh membentuk jenis regresi berikut:

    positif regresi linear(dinyatakan dalam pertumbuhan seragam fungsi);

    regresi peningkatan seragam positif;

    regresi peningkatan seragam positif;

    regresi linear negatif (dinyatakan sebagai penurunan seragam dalam fungsi);

    regresi menurun dipercepatkan secara seragam negatif;

    regresi penurunan seragam negatif.

Walau bagaimanapun, jenis yang diterangkan biasanya tidak terdapat dalam bentuk tulen, tetapi dalam kombinasi antara satu sama lain. Dalam kes ini, kita bercakap tentang gabungan bentuk regresi.

Definisi fungsi regresi.

Tugas kedua adalah untuk mengenal pasti kesan ke atas pembolehubah bersandar bagi faktor atau punca utama, perkara lain adalah sama, dan tertakluk kepada pengecualian pengaruh unsur rawak pada pembolehubah bersandar. Fungsi regresi ditakrifkan dalam bentuk persamaan matematik satu jenis atau yang lain.

Anggaran nilai yang tidak diketahui bagi pembolehubah bersandar.

Penyelesaian kepada masalah ini datang kepada menyelesaikan masalah salah satu daripada jenis berikut:

    Anggaran nilai pembolehubah bersandar dalam selang data awal yang dipertimbangkan, i.e. nilai yang hilang; dalam kes ini, masalah interpolasi diselesaikan.

    Anggaran nilai masa depan pembolehubah bersandar, i.e. mencari nilai di luar selang data sumber yang ditentukan; dalam kes ini, masalah ekstrapolasi diselesaikan.

Kedua-dua masalah diselesaikan dengan menggantikan anggaran parameter yang ditemui untuk nilai pembolehubah bebas ke dalam persamaan regresi. Hasil penyelesaian persamaan adalah anggaran nilai pembolehubah sasaran (bersandar).

Mari kita lihat beberapa andaian yang bergantung kepada analisis regresi.

Andaian lineariti, i.e. hubungan antara pembolehubah yang dipertimbangkan adalah diandaikan sebagai linear. Jadi, dalam contoh ini, kami merancang plot serakan dan dapat melihat hubungan linear yang jelas. Jika, pada rajah serakan pembolehubah, kita melihat ketiadaan jelas hubungan linear, i.e. Sekiranya terdapat hubungan tak linear, kaedah analisis tak linear harus digunakan.

Andaian Normaliti lebihan makanan. Ia menganggap bahawa taburan perbezaan antara nilai yang diramalkan dan yang diperhatikan adalah normal. Untuk menentukan secara visual sifat pengedaran, anda boleh menggunakan histogram lebihan makanan.

Apabila menggunakan analisis regresi, had utamanya harus dipertimbangkan. Ia terdiri daripada fakta bahawa analisis regresi membolehkan kami mengesan hanya kebergantungan, dan bukan sambungan yang mendasari kebergantungan ini.

Analisis regresi membolehkan anda menganggar kekuatan hubungan antara pembolehubah dengan mengira nilai anggaran pembolehubah berdasarkan beberapa nilai yang diketahui.

Persamaan regresi.

Persamaan regresi kelihatan seperti ini: Y=a+b*X

Dengan menggunakan persamaan ini, pembolehubah Y dinyatakan dalam sebutan pemalar a dan cerun garis (atau cerun) b, didarab dengan nilai pembolehubah X. Pemalar a juga dipanggil sebutan pintasan, dan cerun itu ialah pekali regresi atau pekali B.

Dalam kebanyakan kes (jika tidak selalu) terdapat serakan pemerhatian tertentu berbanding garis regresi.

Baki ialah sisihan satu titik (pemerhatian) daripada garis regresi (nilai ramalan).

Untuk menyelesaikan masalah analisis regresi dalam MS Excel, pilih daripada menu Perkhidmatan"Pakej analisis" dan alat analisis Regresi. Kami menetapkan selang input X dan Y. Selang input Y ialah julat data yang dianalisis bergantung, ia mesti termasuk satu lajur. Selang input X ialah julat data bebas yang perlu dianalisis. Bilangan julat input tidak boleh melebihi 16.

Pada output prosedur dalam julat output kami memperoleh laporan yang diberikan dalam jadual 8.3a-8.3v.

KESIMPULAN KEPUTUSAN

Jadual 8.3a. Statistik regresi

Statistik regresi

Jamak R

R-segi empat

Biasa R-kuasa dua

Kesalahan biasa

Pemerhatian

Mari lihat dahulu bahagian atas pengiraan yang dibentangkan dalam jadual 8.3a, - statistik regresi.

Magnitud R-segi empat, juga dipanggil ukuran kepastian, mencirikan kualiti garis regresi yang terhasil. Kualiti ini dinyatakan dengan tahap korespondensi antara data sumber dan model regresi (data yang dikira). Ukuran kepastian sentiasa dalam selang waktu.

Dalam kebanyakan kes nilai R-segi empat berada di antara nilai-nilai ini, dipanggil melampau, i.e. antara sifar dan satu.

Jika nilai R-segi empat hampir kepada perpaduan, ini bermakna model yang dibina menerangkan hampir semua kebolehubahan dalam pembolehubah yang sepadan. Sebaliknya, makna R-segi empat, hampir kepada sifar, bermakna kualiti model yang dibina adalah rendah.

Dalam contoh kami, ukuran kepastian ialah 0.99673, yang menunjukkan kesesuaian garis regresi yang sangat baik dengan data asal.

jamak R - pekali korelasi berganda R - menyatakan tahap pergantungan pembolehubah bebas (X) dan pembolehubah bersandar (Y).

Jamak R adalah sama dengan punca kuasa dua pekali penentuan; kuantiti ini mengambil nilai dalam julat dari sifar hingga satu.

Dalam analisis regresi linear mudah jamak R sama dengan pekali korelasi Pearson. sungguh, jamak R dalam kes kami, ia adalah sama dengan pekali korelasi Pearson daripada contoh sebelumnya (0.998364).

Jadual 8.3b. Pekali regresi

Kemungkinan

Kesalahan biasa

t-statistik

persimpangan Y

Pembolehubah X 1

* Versi pengiraan yang dipotong disediakan

Sekarang pertimbangkan bahagian tengah pengiraan yang dibentangkan dalam jadual 8.3b. Di sini pekali regresi b (2.305454545) dan sesaran sepanjang paksi ordinat diberikan, i.e. pemalar a (2.694545455).

Berdasarkan pengiraan, kita boleh menulis persamaan regresi seperti berikut:

Y= x*2.305454545+2.694545455

Arah hubungan antara pembolehubah ditentukan berdasarkan tanda (negatif atau positif) pekali regresi (pekali b).

Sekiranya tanda pekali regresi positif, hubungan antara pembolehubah bersandar dan pembolehubah bebas akan menjadi positif. Dalam kes kami, tanda pekali regresi adalah positif, oleh itu, hubungannya juga positif.

Sekiranya tanda pekali regresi adalah negatif, hubungan antara pembolehubah bersandar dan pembolehubah bebas adalah negatif ( songsang).

DALAM jadual 8.3c. keputusan output dibentangkan lebihan makanan. Agar keputusan ini muncul dalam laporan, anda mesti mengaktifkan kotak semak "Sisa" semasa menjalankan alat "Regression".

PENARIKAN BALIK

Jadual 8.3c. Lebihan makanan

Pemerhatian

Diramalkan Y

Lebihan makanan

Baki piawai

Menggunakan bahagian laporan ini, kita boleh melihat sisihan setiap titik daripada garis regresi yang dibina. Nilai mutlak terbesar baki dalam kes kami - 0.778, yang terkecil - 0.043. Untuk mentafsir data ini dengan lebih baik, kami akan menggunakan graf data asal dan garis regresi yang dibina dibentangkan dalam nasi. 8.3. Seperti yang anda lihat, garis regresi cukup tepat "dipasang" dengan nilai data asal.

Perlu diambil kira bahawa contoh yang sedang dipertimbangkan adalah agak mudah dan tidak selalu mungkin untuk membina garis regresi linear secara kualitatif.

nasi. 8.3. Data sumber dan garis regresi

Masalah menganggarkan nilai masa depan yang tidak diketahui bagi pembolehubah bersandar berdasarkan nilai yang diketahui bagi pembolehubah tidak bersandar kekal tidak diambil kira, i.e. masalah ramalan.

Mempunyai persamaan regresi, masalah ramalan dikurangkan untuk menyelesaikan persamaan Y= x*2.305454545+2.694545455 dengan nilai x yang diketahui. Keputusan meramal pembolehubah bersandar Y enam langkah ke hadapan dibentangkan dalam jadual 8.4.

Jadual 8.4. keputusan ramalan pembolehubah Y

Y(diramalkan)

Oleh itu, hasil daripada menggunakan analisis regresi dalam Microsoft Excel, kami:

    membina persamaan regresi;

    membentuk bentuk pergantungan dan arah sambungan antara pembolehubah - regresi linear positif, yang dinyatakan dalam pertumbuhan seragam fungsi;

    mewujudkan arah hubungan antara pembolehubah;

    menilai kualiti garis regresi yang terhasil;

    dapat melihat sisihan data yang dikira daripada data set asal;

    meramalkan nilai masa depan pembolehubah bersandar.

Jika fungsi regresi ditakrifkan, ditafsir dan dibenarkan, dan penilaian ketepatan analisis regresi memenuhi keperluan, model yang dibina dan nilai ramalan boleh dianggap mempunyai kebolehpercayaan yang mencukupi.

Nilai ramalan yang diperoleh dengan cara ini adalah nilai purata yang boleh dijangkakan.

Dalam kerja ini kami menyemak ciri-ciri utama Statistik deskriptif dan antaranya konsep seperti nilai purata,median,maksimum,minimum dan ciri-ciri lain variasi data.

Konsep itu juga dibincangkan secara ringkas pelepasan. Ciri-ciri yang dipertimbangkan berkaitan dengan apa yang dipanggil analisis data penerokaan; kesimpulannya mungkin tidak digunakan untuk populasi umum, tetapi hanya untuk sampel data. Analisis data penerokaan digunakan untuk mendapatkan kesimpulan utama dan membentuk hipotesis tentang populasi.

Asas analisis korelasi dan regresi, tugas dan kemungkinannya untuk kegunaan praktikal turut dibincangkan.

Kaedah analisis regresi digunakan untuk menentukan parameter teknikal dan ekonomi produk kepunyaan siri parametrik tertentu untuk membina dan menyelaraskan hubungan nilai. Kaedah ini digunakan untuk menganalisis dan mewajarkan tahap dan nisbah harga produk yang dicirikan oleh kehadiran satu atau lebih parameter teknikal dan ekonomi yang mencerminkan sifat pengguna utama. Analisis regresi membolehkan kita mencari formula empirikal yang menerangkan pergantungan harga pada parameter teknikal dan ekonomi produk:

P=f(X1X2,...,Xn),

di mana P ialah nilai harga unit produk, gosok.; (X1, X2, ... Xn) - parameter teknikal dan ekonomi produk.

Kaedah analisis regresi - yang paling maju daripada kaedah normatif-parametrik yang digunakan - berkesan apabila menjalankan pengiraan berdasarkan penggunaan moden teknologi maklumat dan sistem. Aplikasinya termasuk langkah-langkah utama berikut:

  • penentuan kumpulan parametrik klasifikasi produk;
  • pemilihan parameter yang paling mempengaruhi harga produk;
  • pemilihan dan justifikasi bentuk sambungan antara perubahan harga apabila parameter berubah;
  • pembinaan sistem persamaan normal dan pengiraan pekali regresi.

asas kumpulan kelayakan produk, yang harganya tertakluk kepada penyamaan, ialah siri parametrik, di mana produk boleh dikumpulkan ke dalam reka bentuk yang berbeza bergantung pada aplikasinya, keadaan operasi dan keperluan, dsb. Apabila membentuk siri parametrik, kaedah pengelasan automatik boleh digunakan, yang membolehkan produk mengenal pasti kumpulan homogen mereka. Pemilihan parameter teknikal dan ekonomi dibuat berdasarkan keperluan asas berikut:

  • parameter yang dipilih termasuk parameter yang direkodkan dalam piawaian dan keadaan teknikal; sebagai tambahan kepada parameter teknikal (kuasa, kapasiti beban, kelajuan, dll.), penunjuk siri produk, pekali kerumitan, penyatuan, dll. digunakan;
  • set parameter terpilih harus mencirikan sepenuhnya reka bentuk, sifat teknologi dan operasi produk yang termasuk dalam siri, dan mempunyai korelasi yang agak rapat dengan harga;
  • parameter tidak seharusnya saling bergantung.

Untuk memilih parameter teknikal dan ekonomi yang mempengaruhi harga dengan ketara, matriks pekali korelasi pasangan dikira. Berdasarkan magnitud pekali korelasi antara parameter, seseorang boleh menilai kedekatan sambungan mereka. Pada masa yang sama, korelasi yang hampir kepada sifar menunjukkan pengaruh parameter yang tidak ketara pada harga. Pemilihan akhir parameter teknikal dan ekonomi dijalankan dalam proses analisis regresi langkah demi langkah menggunakan kelengkapan komputer dan program standard yang sepadan.

Dalam amalan penetapan harga, set fungsi berikut digunakan:

linear

P = ao + alXl + ... + antXn,

kuasa linear

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

logaritma songsang

P = a0 + a1: Dalam X1 + ... + an: Dalam Xn,

kuasa

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

indikatif

P = e^(a1+a1X1+...+anXn)

hiperbola

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

di mana P ialah penyamaan harga; X1 X2,..., Xn - nilai parameter teknikal dan ekonomi produk siri; a0, a1 ..., аn - pekali yang dikira bagi persamaan regresi.

Dalam kerja praktikal mengenai penentuan harga, bergantung pada bentuk hubungan antara harga dan parameter teknikal dan ekonomi, persamaan regresi lain boleh digunakan. Jenis fungsi sambungan antara harga dan set parameter teknikal dan ekonomi boleh dipratetap atau dipilih secara automatik semasa pemprosesan komputer. Kedekatan korelasi antara harga dan set parameter dinilai oleh nilai pekali berbilang korelasi. Kedekatannya dengan satu menunjukkan hubungan yang rapat. Menggunakan persamaan regresi, nilai harga yang disamakan (dikira) untuk produk siri parametrik tertentu diperolehi. Untuk menilai hasil penyamaan, nilai relatif sisihan nilai harga yang dikira daripada yang sebenar dikira:

Tsr = Rf - Rr: R x 100

di mana Рф, Рр - harga sebenar dan dikira.

Nilai CR tidak boleh melebihi 8-10%. Dalam kes penyimpangan ketara nilai yang dikira daripada nilai sebenar, adalah perlu untuk menyiasat:

  • ketepatan pembentukan siri parametrik, kerana ia mungkin mengandungi produk yang, dalam parameternya, berbeza dengan ketara daripada produk lain dalam siri itu. Mereka mesti dikecualikan;
  • pemilihan parameter teknikal dan ekonomi yang betul. Satu set parameter adalah mungkin yang berkorelasi lemah dengan harga. Dalam kes ini, adalah perlu untuk terus mencari dan memilih parameter.

Prosedur dan metodologi untuk menjalankan analisis regresi, mencari parameter persamaan yang tidak diketahui dan penilaian ekonomi keputusan yang diperolehi dijalankan mengikut keperluan statistik matematik.



Baru di tapak

>

Paling popular