Rumah Rongga mulut Bagaimana cara memeriksa signifikansi koefisien korelasi. Uji: Menilai signifikansi koefisien regresi dan korelasi menggunakan uji f Student

Bagaimana cara memeriksa signifikansi koefisien korelasi. Uji: Menilai signifikansi koefisien regresi dan korelasi menggunakan uji f Student

Latihan. Untuk wilayah wilayah, disediakan data 199X;
Nomor wilayah Rata-rata upah hidup per kapita per hari untuk satu orang berbadan sehat, gosok., X Gaji harian rata-rata, gosok., pada
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Diperlukan:
1. Buatlah persamaan linier untuk regresi berpasangan y dari x.
2. Hitung koefisien linier korelasi berpasangan dan kesalahan rata-rata perkiraan.
3. Menilai signifikansi statistik parameter regresi dan korelasi.
4. Jalankan perkiraan upah y dengan nilai prakiraan rata-rata tingkat penghidupan per kapita x sebesar 107% dari rata-rata tingkat.
5. Menilai keakuratan ramalan dengan menghitung kesalahan ramalan dan selang kepercayaannya.

Larutan temukan menggunakan kalkulator.
Penggunaan metode grafis .
Metode ini digunakan untuk menggambarkan secara visual bentuk hubungan antar yang dipelajari indikator ekonomi. Untuk melakukan ini, grafik digambar dalam sistem koordinat persegi panjang, nilai individual dari karakteristik resultan Y diplot sepanjang sumbu ordinat, dan nilai individual dari karakteristik faktor X diplot sepanjang sumbu absis.
Himpunan titik-titik karakteristik resultan dan faktor disebut bidang korelasi.
Berdasarkan bidang korelasinya, kita dapat berhipotesis (untuk populasi) bahwa hubungan antara semua kemungkinan nilai X dan Y adalah linier.
Persamaan regresi liniernya adalah y = bx + a + ε
Di sini ε adalah kesalahan acak (deviasi, gangguan).
Alasan adanya kesalahan acak:
1. Kegagalan memasukkan variabel penjelas yang signifikan ke dalam model regresi;
2. Agregasi variabel. Misalnya, fungsi konsumsi total adalah suatu usaha ekspresi umum agregat keputusan pembelanjaan individu. Ini hanyalah perkiraan hubungan individu yang memiliki parameter berbeda.
3. Deskripsi struktur model yang salah;
4. Spesifikasi fungsional yang salah;
5. Kesalahan pengukuran.
Karena deviasi i untuk setiap observasi spesifik i bersifat acak dan nilainya dalam sampel tidak diketahui, maka:
1) dari pengamatan x i dan y i hanya dapat diperoleh estimasi parameter α dan β
2) Estimasi parameter α dan β model regresi masing-masing adalah nilai a dan b yang bersifat acak, karena sesuai dengan sampel acak;
Maka persamaan regresi penduga (dibangun dari data sampel) akan berbentuk y = bx + a + ε, di mana e i adalah nilai pengamatan (perkiraan) dari kesalahan ε i , dan a dan b masing-masing merupakan perkiraan parameter α dan β model regresi yang harus ditemukan.
Untuk memperkirakan parameter α dan β digunakan metode kuadrat terkecil (least square method).
Sistem persamaan normal.
Untuk data kami, sistem persamaan memiliki bentuk
Dari persamaan pertama kita nyatakan a dan substitusikan ke persamaan kedua
Kita mendapatkan b = 0,92, a = 76,98
Persamaan regresi:
kamu = 0,92 x + 76,98

1. Parameter persamaan regresi.
Contoh berarti.



Varians sampel:


Deviasi standar


Koefisien korelasi
Kami menghitung indikator kedekatan koneksi. Indikator ini merupakan koefisien korelasi linier sampel, yang dihitung dengan rumus:

Koefisien korelasi linier mengambil nilai dari –1 hingga +1.
Hubungan antar karakteristik bisa lemah dan kuat (dekat). Kriteria mereka dievaluasi menurut skala Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Dalam contoh kita, hubungan antara rata-rata upah harian dan rata-rata upah hidup per kapita adalah tinggi dan langsung.
1.2. Persamaan regresi(estimasi persamaan regresi).

Persamaan regresi liniernya adalah y = 0,92 x + 76,98
Koefisien persamaan regresi linier dapat diberi arti ekonomi.
Koefisien b = 0,92 menunjukkan rata-rata perubahan indikator efektif (dalam satuan pengukuran y) dengan kenaikan atau penurunan nilai faktor x per satuan pengukurannya. Dalam contoh ini, dengan kenaikan 1 gosok. tingkat subsisten per kapita per hari, rata-rata upah harian meningkat rata-rata 0,92.
Koefisien a = 76,98 secara formal menunjukkan tingkat prediksi upah harian rata-rata, namun hanya jika x=0 mendekati nilai sampel.
Dengan mensubstitusi nilai x yang sesuai ke dalam persamaan regresi, kita dapat menentukan nilai selaras (prediksi) dari indikator kinerja y(x) untuk setiap observasi.
Hubungan antara rata-rata upah harian dengan rata-rata upah hidup per kapita per hari ditentukan oleh tanda koefisien regresi b (jika > 0 - hubungan langsung, sebaliknya - terbalik). Dalam contoh kita, koneksinya langsung.
Koefisien elastisitas.
Tidak disarankan menggunakan koefisien regresi (dalam contoh b) untuk menilai secara langsung pengaruh faktor terhadap karakteristik yang dihasilkan jika terdapat perbedaan satuan pengukuran indikator resultan y dan karakteristik faktor x.
Untuk tujuan ini, koefisien elastisitas dan koefisien beta dihitung. Koefisien elastisitas dicari dengan rumus:


Hal ini menunjukkan berapa persentase rata-rata perubahan atribut efektif y ketika atribut faktor x berubah sebesar 1%. Ini tidak memperhitungkan tingkat fluktuasi faktor.
Koefisien elastisitasnya kurang dari 1. Oleh karena itu, jika rata-rata biaya hidup per kapita per hari berubah sebesar 1%, maka rata-rata upah harian akan berubah kurang dari 1%. Dengan kata lain, pengaruh rata-rata tingkat subsisten per kapita X terhadap rata-rata upah harian Y tidak signifikan.
Koefisien beta menunjukkan pada bagian mana nilai rata-ratanya deviasi persegi nilai rata-rata karakteristik yang dihasilkan akan berubah ketika karakteristik faktor berubah sebesar nilai simpangan bakunya dengan nilai variabel bebas yang tersisa tetap pada tingkat yang konstan:

Itu. peningkatan x sebesar standar deviasi indikator ini akan menyebabkan peningkatan rata-rata upah harian Y sebesar 0,721 standar deviasi indikator ini.
1.4. Kesalahan perkiraan.
Mari kita evaluasi kualitas persamaan regresi menggunakan kesalahan perkiraan absolut.


Karena errornya kurang dari 15%, persamaan ini dapat digunakan sebagai regresi.
Koefisien determinasi.
Kuadrat dari koefisien korelasi (berganda) disebut koefisien determinasi, yang menunjukkan proporsi variasi atribut yang dihasilkan yang dijelaskan oleh variasi atribut faktor.
Paling sering, ketika menafsirkan koefisien determinasi, itu dinyatakan sebagai persentase.
R2 = 0,722 = 0,5199
itu. dalam 51,99% kasus, perubahan rata-rata tingkat subsisten per kapita x menyebabkan perubahan rata-rata upah harian y. Dengan kata lain, keakuratan pemilihan persamaan regresi adalah rata-rata. Sisanya sebesar 48,01% dari perubahan rata-rata upah harian Y dijelaskan oleh faktor-faktor yang tidak diperhitungkan dalam model.

X kamu x 2 kamu 2 x o y kamu(x) (y saya -y cp) 2 (yy(x)) 2 (xi -x cp) 2 |kamu - kamu x |:kamu
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Estimasi parameter persamaan regresi.
2.1. Signifikansi koefisien korelasi.

Dengan menggunakan tabel Student dengan tingkat signifikansi α=0,05 dan derajat kebebasan k=10, diperoleh t krit:
t kritis = (10;0,05) = 1,812
dimana m = 1 adalah banyaknya variabel penjelas.
Jika t teramati > t kritis, maka nilai koefisien korelasi yang dihasilkan dianggap signifikan (hipotesis nol yang menyatakan koefisien korelasi sama dengan nol ditolak).
Karena t obs > t crit, maka hipotesis yang menyatakan koefisien korelasi sama dengan 0 ditolak. Dengan kata lain, koefisien korelasi signifikan secara statistik.
Pada regresi linier berpasangan t 2 r = t 2 b kemudian menguji hipotesis tentang signifikansi regresi dan koefisien korelasi setara dengan menguji hipotesis tentang signifikansi persamaan linier regresi.

2.3. Analisis keakuratan penentuan estimasi koefisien regresi.
Estimasi sebaran gangguan yang tidak bias adalah nilai:


S 2 y = 157,4922 - varians yang tidak dapat dijelaskan (ukuran penyebaran variabel terikat di sekitar garis regresi).

12.5496 - kesalahan standar estimasi (kesalahan standar regresi).
S dan - deviasi standar variabel acak a.


S b - simpangan baku variabel acak b.


2.4. Interval kepercayaan untuk variabel terikat.
Peramalan ekonomi berdasarkan model yang dibangun mengasumsikan bahwa hubungan yang sudah ada sebelumnya antar variabel dipertahankan selama periode waktu tunggu.
Untuk memprediksi variabel terikat dari atribut yang dihasilkan, perlu diketahui nilai prediksi seluruh faktor yang dimasukkan dalam model.
Nilai prediksi faktor-faktor tersebut disubstitusikan ke dalam model dan diperoleh estimasi titik prediksi dari indikator yang diteliti.
(a + bx p ± ε)
Di mana

Mari kita hitung batas interval di mana 95% akan terkonsentrasi nilai yang mungkin Y untuk jumlah observasi yang tidak terbatas dan X p = 94

(76,98 + 0,92*94 ± 7,8288)
(155.67;171.33)
Dengan probabilitas 95%, kami dapat menjamin bahwa nilai Y untuk jumlah observasi yang tidak terbatas tidak akan berada di luar interval yang ditemukan.
2.5. Menguji hipotesis mengenai koefisien persamaan regresi linier.
1) t-statistik. Tes t siswa.
Mari kita periksa hipotesis H 0 tentang kesetaraan koefisien regresi individu dengan nol (jika alternatifnya tidak sama dengan H 1) pada tingkat signifikansi α=0,05.
t kritis = (10;0,05) = 1,812


Karena 3,2906 > 1,812, signifikansi statistik dari koefisien regresi b terbukti (kami menolak hipotesis bahwa koefisien ini sama dengan nol).


Karena 3,1793 > 1,812, signifikansi statistik dari koefisien regresi a dikonfirmasi (kami menolak hipotesis bahwa koefisien ini sama dengan nol).
Interval kepercayaan untuk koefisien persamaan regresi.
Mari kita definisikan interval kepercayaan koefisien regresi, yang dengan reliabilitas 95% adalah sebagai berikut:
(b - t kritik S b ; b + t kritik S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - tlang=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
Dengan probabilitas 95% dapat dikatakan bahwa nilai parameter ini terletak pada interval ditemukan.
2) F-statistik. Kriteria Fisher.
Pengujian signifikansi suatu model regresi dilakukan dengan menggunakan uji F Fisher yang nilai hitungnya diperoleh dari perbandingan varians rangkaian pengamatan asli terhadap indikator yang diteliti dan taksiran varians rangkaian sisa yang tidak bias. untuk model ini.
Jika nilai hitung dengan derajat kebebasan k1=(m) dan k2=(n-m-1) lebih besar dari nilai tabel pada tingkat signifikansi tertentu, maka model tersebut dianggap signifikan.

dimana m adalah jumlah faktor dalam model.
Nilai signifikansi statistik regresi linier berpasangan dilakukan dengan menggunakan algoritma berikut:
1. Hipotesis nol diajukan bahwa persamaan secara keseluruhan tidak signifikan secara statistik: H 0: R 2 =0 pada tingkat signifikansi α.
2. Selanjutnya tentukan nilai kriteria F yang sebenarnya:


dimana m=1 untuk regresi berpasangan.
3. Nilai tabel ditentukan dari tabel distribusi Fisher untuk tingkat signifikansi tertentu, dengan mempertimbangkan jumlah derajat kebebasan jumlah total kuadrat (varians lebih besar) adalah 1 dan jumlah derajat kebebasan dari jumlah sisa kuadrat (varians lebih kecil) dalam regresi linier adalah n-2.
4. Jika nilai uji F sebenarnya lebih kecil dari nilai tabel, maka dikatakan tidak ada alasan untuk menolak hipotesis nol.
Jika tidak, hipotesis nol ditolak dan hipotesis alternatif tentang signifikansi statistik persamaan secara keseluruhan diterima dengan probabilitas (1-α).
Tabel nilai kriteria dengan derajat kebebasan k1=1 dan k2=10, Fkp = 4,96
Karena nilai sebenarnya F > Fkp, maka koefisien determinasi signifikan secara statistik (Estimasi persamaan regresi yang ditemukan dapat diandalkan secara statistik).

Tahap 3. Menemukan hubungan antar data

Korelasi linier

Tahap terakhir dari tugas mempelajari hubungan antar fenomena adalah menilai keeratan hubungan berdasarkan indikator koneksi korelasi. Tahap ini sangat penting untuk mengidentifikasi ketergantungan antara faktor dan karakteristik kinerja, dan akibatnya, untuk kemungkinan membuat diagnosis dan prognosis dari fenomena yang sedang dipelajari.

Diagnosa(dari bahasa Yunani pengenalan diagnosis) - penentuan esensi dan karakteristik keadaan suatu objek atau fenomena berdasarkan studi komprehensifnya.

Ramalan(dari pandangan ke depan prognosis Yunani, prediksi) - prediksi spesifik apa pun, penilaian tentang keadaan fenomena apa pun di masa depan (ramalan cuaca, hasil pemilu, dll.). Prakiraan adalah hipotesis yang dibuktikan secara ilmiah tentang kemungkinan keadaan masa depan dari sistem, objek atau fenomena yang diteliti dan indikator yang mencirikan keadaan ini. Peramalan – perkembangan ramalan, khusus Penelitian ilmiah prospek spesifik untuk perkembangan fenomena apa pun.

Mari kita ingat kembali definisi korelasi:

Korelasi– ketergantungan antar variabel acak, dinyatakan dalam kenyataan bahwa distribusi suatu nilai bergantung pada nilai nilai lainnya.

Korelasi diamati tidak hanya antara karakteristik kuantitatif, tetapi juga kualitatif. Ada berbagai cara dan indikator untuk menilai kedekatan hubungan. Kami hanya akan berhenti di koefisien korelasi pasangan linier , yang digunakan ketika ada hubungan linier antara variabel acak. Dalam praktiknya, seringkali ada kebutuhan untuk menentukan tingkat hubungan antara variabel acak yang berdimensi tidak sama, sehingga diinginkan untuk memiliki semacam karakteristik tak berdimensi dari hubungan ini. Karakteristik (ukuran koneksi) tersebut adalah koefisien korelasi linier rxy, yang ditentukan oleh rumus

Di mana , .

Menunjukkan dan , kita dapat memperoleh ekspresi berikut untuk menghitung koefisien korelasi

.

Jika kita memperkenalkan konsepnya deviasi yang dinormalisasi , yang menyatakan deviasi nilai berkorelasi dari rata-rata dalam pecahan deviasi standar:



maka ekspresi koefisien korelasi akan berbentuk

.

Jika Anda menghitung koefisien korelasi menggunakan nilai akhir variabel acak asli dari tabel perhitungan, maka koefisien korelasi dapat dihitung dengan menggunakan rumus

.

Sifat-sifat koefisien korelasi linier:

1). Koefisien korelasi merupakan besaran yang tidak berdimensi.

2). |R| £1 atau .

3). , a,b= const, – nilai koefisien korelasi tidak akan berubah jika seluruh nilai variabel acak X dan Y dikalikan (atau dibagi) dengan suatu konstanta.

4). , a,b= const, – nilai koefisien korelasi tidak akan berubah jika semua nilai variabel acak X dan Y dinaikkan (atau diturunkan) sebesar konstanta.

5). Ada hubungan antara koefisien korelasi dan koefisien regresi:

Nilai koefisien korelasi dapat diartikan sebagai berikut:

Kriteria kuantitatif untuk menilai kedekatan komunikasi:

Untuk tujuan prognostik, nilai dengan |r| > 0,7.

Koefisien korelasi memungkinkan kita untuk menyimpulkan adanya ketergantungan linier antara dua variabel acak, tetapi tidak menunjukkan variabel mana yang menyebabkan perubahan pada variabel lainnya. Faktanya, hubungan antara dua variabel acak dapat terjadi tanpa hubungan sebab-akibat antara nilai-nilai itu sendiri, karena perubahan kedua variabel acak dapat disebabkan oleh perubahan (pengaruh) ketiga.

Koefisien korelasi rxy simetris terhadap variabel acak yang dipertimbangkan X Dan Y. Artinya untuk menentukan koefisien korelasi sama sekali tidak membedakan besaran mana yang bebas dan mana yang bergantung.

Signifikansi koefisien korelasi

Bahkan untuk besaran independen koefisien korelasi mungkin berbeda dari nol karena hasil pengukuran yang tersebar secara acak atau karena sampel variabel acak yang kecil. Oleh karena itu, signifikansi koefisien korelasi harus diperiksa.

Signifikansi koefisien korelasi linier diperiksa berdasarkan Uji-t siswa :

.

Jika T > t kr(hal.n-2), maka koefisien korelasi liniernya signifikan, sehingga hubungan statistiknya juga signifikan X Dan Y.

.

Untuk memudahkan perhitungan, telah dibuat tabel nilai batas kepercayaan koefisien korelasi berbagai nomor derajat kebebasan f = n–2 (uji dua sisi) dan berbagai tingkat signifikansi A= 0,1; 0,05; 0,01 dan 0,001. Korelasi dianggap signifikan apabila koefisien korelasi yang dihitung melebihi nilai batas kepercayaan koefisien korelasi yang diberikan F Dan A.

Untuk yang besar N Dan A= 0,01 nilai batas kepercayaan koefisien korelasi dapat dihitung dengan menggunakan rumus perkiraan

.

Sebagaimana telah berulang kali dikemukakan, untuk menarik kesimpulan statistik tentang ada tidaknya korelasi antar variabel yang diteliti, perlu dilakukan pengecekan signifikansi koefisien korelasi sampel. Karena keandalan karakteristik statistik, termasuk koefisien korelasi, bergantung pada ukuran sampel, mungkin timbul situasi ketika nilai koefisien korelasi sepenuhnya ditentukan oleh fluktuasi acak dalam sampel yang menjadi dasar penghitungannya. . Jika terdapat hubungan yang signifikan antar variabel, maka koefisien korelasinya harus berbeda signifikan dari nol. Jika tidak ada korelasi antar variabel yang diteliti, maka koefisien korelasi populasi sama dengan nol. Dalam penelitian praktis, biasanya didasarkan pada observasi sampel. Seperti karakteristik statistik lainnya, koefisien korelasi sampel adalah variabel acak, yaitu nilainya tersebar secara acak di sekitar parameter populasi dengan nama yang sama (nilai sebenarnya dari koefisien korelasi). Jika tidak ada korelasi antar variabel, maka koefisien korelasinya dalam populasi sama dengan nol. Namun karena sifat hamburan yang acak, situasi pada dasarnya mungkin terjadi ketika beberapa koefisien korelasi yang dihitung dari sampel dari populasi tertentu akan berbeda dari nol.

Dapatkah perbedaan yang diamati disebabkan oleh fluktuasi acak dalam sampel, atau apakah perbedaan tersebut mencerminkan perubahan signifikan dalam kondisi di mana hubungan antar variabel terbentuk? Jika nilai koefisien korelasi sampel berada dalam zona hamburan,

karena sifat acak dari indikator itu sendiri, hal ini bukan merupakan bukti tidak adanya hubungan. Yang paling bisa dikatakan adalah bahwa data observasi tidak menampik tidak adanya hubungan antar variabel. Namun jika nilai koefisien korelasi sampel berada di luar zona hamburan tersebut, maka disimpulkan bahwa nilai tersebut berbeda secara signifikan dari nol, dan kita dapat berasumsi bahwa terdapat perbedaan statistik antar variabel. koneksi yang bermakna. Kriteria yang digunakan untuk menyelesaikan masalah ini, berdasarkan distribusi berbagai statistik, disebut kriteria signifikansi.

Prosedur pengujian signifikansi diawali dengan perumusan hipotesis nol B pandangan umum hal ini terletak pada tidak adanya perbedaan yang signifikan antara parameter sampel dan parameter populasi. Hipotesis alternatifnya adalah terdapat perbedaan yang signifikan antara parameter-parameter ini. Misalnya, ketika menguji adanya korelasi dalam suatu populasi, hipotesis nolnya adalah bahwa koefisien korelasi sebenarnya adalah nol. Jika pengujian menghasilkan hipotesis nol tidak dapat diterima, maka koefisien korelasi sampel berbeda secara signifikan dari nol (nol hipotesis ditolak dan alternatifnya diterima. Dengan kata lain, asumsi bahwa variabel acak dalam populasi tidak berkorelasi harus dianggap tidak berdasar, dan sebaliknya, jika berdasarkan kriteria signifikansi, hipotesis nol diterima, yaitu berbohong di zona hamburan acak yang diperbolehkan, maka tidak ada alasan untuk menganggap asumsi bahwa variabel-variabel yang tidak berkorelasi dalam populasi patut dipertanyakan.

Dalam uji signifikansi, peneliti menetapkan tingkat signifikansi a yang memberikan keyakinan praktis bahwa kesimpulan yang salah hanya akan diambil dalam kasus yang sangat jarang terjadi. Tingkat signifikansi menyatakan kemungkinan hipotesis nol ditolak padahal hipotesis tersebut benar. Jelasnya, masuk akal untuk memilih probabilitas ini sekecil mungkin.

Biarkan distribusi karakteristik sampel diketahui, yang merupakan estimasi parameter populasi yang tidak bias. Tingkat signifikansi a yang dipilih sesuai dengan area yang diarsir di bawah kurva distribusi ini (lihat Gambar 24). Daerah yang tidak diarsir di bawah kurva distribusi menentukan probabilitas. Batas-batas segmen pada sumbu absis di bawah daerah yang diarsir disebut nilai kritis, dan segmen itu sendiri membentuk daerah kritis, atau daerah penolakan hipotesis.

Dalam prosedur pengujian hipotesis, karakteristik sampel yang dihitung dari hasil observasi dibandingkan dengan nilai kritis yang sesuai. Dalam hal ini, kita harus membedakan antara area kritis satu sisi dan dua sisi. Bentuk penetapan wilayah kritis tergantung pada rumusan masalah kapan penelitian statistik. Wilayah kritis dua sisi diperlukan ketika membandingkan parameter sampel dan parameter populasi

perlu dinilai nilai mutlak perbedaan di antara keduanya, yaitu perbedaan positif dan negatif antara besaran yang diteliti adalah hal yang menarik. Jika diperlukan untuk memastikan bahwa suatu nilai rata-rata lebih besar atau lebih kecil dari nilai lainnya, maka wilayah kritis satu sisi (sisi kanan atau kiri) digunakan. Jelas terlihat bahwa untuk nilai kritis yang sama tingkat signifikansi bila menggunakan daerah kritis satu sisi lebih kecil dibandingkan bila menggunakan daerah kritis dua sisi.

Beras. 24. Pengujian Hipotesis Nol

Jika sebaran karakteristik sampel simetris, maka tingkat signifikansi daerah kritis dua sisi sama dengan a, dan daerah kritis satu sisi sama dengan y (lihat Gambar 24). Mari kita batasi diri kita pada rumusan masalah secara umum. Lebih detail dengan justifikasi teoritis tes tersebut hipotesis statistik kamu bisa bertemu di literatur khusus. Di bawah ini kami hanya akan menunjukkan kriteria signifikansinya berbagai prosedur, tanpa berhenti pada konstruksinya.

Dengan memeriksa signifikansi koefisien korelasi berpasangan, dapat diketahui ada tidaknya korelasi antara fenomena yang diteliti. Jika tidak ada hubungan maka koefisien korelasi populasi sama dengan nol. Prosedur verifikasi dimulai dengan perumusan hipotesis nol dan hipotesis alternatif:

Perbedaan antara koefisien korelasi sampel tidak signifikan,

Perbedaan di antara keduanya signifikan, sehingga terdapat hubungan yang signifikan antar variabelnya. Hipotesis alternatif menyiratkan bahwa kita perlu menggunakan wilayah kritis dua sisi.

Telah disebutkan di Bagian 8.1 bahwa koefisien korelasi sampel, dengan asumsi tertentu, dikaitkan dengan variabel acak yang tunduk pada distribusi Student dengan derajat kebebasan. Statistik dihitung dari hasil sampel

dibandingkan dengan nilai kritis yang ditentukan dari tabel distribusi Student pada tingkat signifikansi a dan derajat kebebasan tertentu. Aturan penerapan kriteria tersebut adalah sebagai berikut: jika hipotesis nol ditolak pada tingkat signifikansi a, maka hubungan antar variabel signifikan; jika maka hipotesis nol pada tingkat signifikansi a diterima. Penyimpangan nilai dapat dikaitkan dengan variasi acak. Data sampel mencirikan hipotesis yang dipertimbangkan sebagai sangat mungkin dan masuk akal, yaitu hipotesis tentang tidak adanya hubungan tidak menimbulkan keberatan.

Prosedur pengujian hipotesis menjadi lebih sederhana jika, alih-alih statistik, kita menggunakan nilai kritis koefisien korelasi, yang dapat ditentukan melalui kuantil distribusi Student dengan mensubstitusikan ke dalam

Terdapat tabel rinci nilai kritis, kutipannya diberikan dalam lampiran buku ini (lihat Tabel 6). Aturan pengujian hipotesis dalam hal ini adalah sebagai berikut: jika demikian, kita dapat menyatakan bahwa hubungan antar variabel adalah signifikan. Jika demikian, kami menganggap hasil observasi tersebut konsisten dengan hipotesis tidak adanya hubungan.

Mari kita uji hipotesis tentang independensi produktivitas tenaga kerja dari tingkat mekanisasi kerja menurut data yang diberikan di bagian 4.1. Sebelumnya telah dihitung bahwa Dari (8.38) kita peroleh

Dengan menggunakan tabel distribusi Siswa, kami menemukan nilai kritis dari statistik ini: Karena kami menolak hipotesis nol, kesalahan hanya terjadi pada 5% kasus.

Hasil yang sama akan kita peroleh jika kita membandingkannya dengan nilai kritis koefisien korelasi yang diperoleh dari tabel terkait di

yang memiliki -distribusi dengan derajat kebebasan. Selanjutnya prosedur pemeriksaan signifikansi dilakukan serupa dengan prosedur sebelumnya dengan menggunakan -kriteria.

Contoh

Berdasarkan analisis ekonomi terhadap fenomena tersebut, kami berasumsi pada masyarakat umum terdapat hubungan yang kuat antara produktivitas tenaga kerja dan tingkat mekanisasi kerja. Misalnya, . Sebagai alternatif, dalam hal ini kita dapat mengajukan hipotesis bahwa koefisien korelasi sampel Jadi, kita harus menggunakan wilayah kritis satu sisi. Dari (8.40) berikut ini

Kami membandingkan nilai yang diperoleh dengan nilai kritis. Jadi, pada tingkat signifikansi 5%, kita dapat mengasumsikan adanya hubungan yang sangat erat antara karakteristik yang dipelajari, yaitu data awal memungkinkan kita untuk menganggap masuk akal bahwa

Signifikansi koefisien korelasi parsial diperiksa dengan cara yang sama. Hanya jumlah derajat kebebasannya yang berubah, yang menjadi sama dengan jumlah variabel penjelas. Nilai statistik dihitung menggunakan rumus

dibandingkan dengan nilai kritis a yang diperoleh dari tabel distribusi pada tingkat signifikansi a dan jumlah derajat kebebasan. Penerimaan atau penolakan hipotesis tentang signifikansi koefisien korelasi parsial dilakukan menurut aturan yang sama seperti yang dijelaskan di atas . Uji signifikansi juga dapat dilakukan dengan menggunakan nilai kritis koefisien korelasi menurut (8.39), serta menggunakan transformasi Fisher (8.40).

Contoh

Mari kita periksa keandalan statistik dari koefisien korelasi parsial yang dihitung di Bagian 4.5 pada tingkat signifikansi. Di bawah ini, bersama dengan koefisien korelasi parsial, nilai statistik terhitung dan kritis yang sesuai diberikan

Karena hipotesis tentang signifikansi koefisien diterima, kami menyimpulkan: tingkat mekanisasi kerja mempunyai pengaruh yang signifikan terhadap produktivitas tenaga kerja, tidak termasuk pengaruh rata-rata usia pekerja (dan persentase rata-rata kepatuhan terhadap standar). Selisih dari nol dari koefisien yang tersisa

korelasi parsial dapat dikaitkan dengan fluktuasi acak dalam sampel, dan oleh karena itu kita tidak dapat mengatakan sesuatu yang pasti tentang pengaruh parsial variabel yang relevan darinya.

Signifikansi koefisien korelasi berganda dinilai dari hasil prosedur pengujian signifikansi koefisien determinasi berganda. Kami akan membahas ini lebih detail di bagian berikutnya.

Pertanyaan yang sering menjadi perhatian adalah: apakah dua koefisien korelasi berbeda secara signifikan satu sama lain? Saat menguji hipotesis ini, diasumsikan bahwa karakteristik populasi homogen yang sama dipertimbangkan; data mewakili hasil tes independen; koefisien korelasi yang sejenis digunakan, yaitu koefisien korelasi berpasangan atau koefisien korelasi parsial ketika mengecualikan jumlah variabel yang sama.

Volume kedua sampel yang koefisien korelasinya dihitung mungkin berbeda. Hipotesis nol: yaitu koefisien korelasi kedua populasi yang dipertimbangkan adalah sama. Hipotesis Alternatif: Hipotesis alternatif menyiratkan bahwa wilayah kritis dua arah harus digunakan. Dengan kata lain, Anda harus memeriksa apakah perbedaannya berbeda secara signifikan dari nol. Mari kita gunakan statistik yang memiliki distribusi mendekati normal:

dimana - hasil transformasi koefisien korelasi - volume sampel. Aturan pengujian: jika maka hipotesis ditolak; jika maka hipotesis diterima.

Jika diterima, nilainya

setelah dihitung ulang menggunakan (8.6) berfungsi sebagai ringkasan perkiraan koefisien korelasi. Selanjutnya hipotesis dapat diuji dengan menggunakan statistik

mempunyai distribusi normal.

Contoh

Perlu diketahui apakah kedekatan hubungan antara produktivitas tenaga kerja dan tingkat mekanisasi kerja berbeda di perusahaan-perusahaan dari industri yang sama yang berlokasi di berbagai wilayah negara. Mari kita bandingkan perusahaan yang berlokasi di dua wilayah. Misalkan koefisien korelasi salah satunya dihitung dengan menggunakan volume sampel (lihat Bagian 4.1). Untuk wilayah Lainnya dihitung menggunakan volume sampel

Setelah mengubah kedua koefisien korelasi menjadi nilai -, kita menghitung menggunakan (8.42) nilai statistik X:

Nilai kritis statistik pada adalah Dengan demikian, hipotesis diterima, yaitu berdasarkan sampel yang tersedia, kita tidak dapat menentukan perbedaan yang signifikan antara koefisien korelasi. Selain itu, kedua koefisien korelasi tersebut signifikan.

Dengan menggunakan (8.43) dan (8.6), kita memperoleh estimasi ringkasan koefisien korelasi untuk dua wilayah:

Terakhir, mari kita periksa hipotesis apakah estimasi ringkasan koefisien korelasi berbeda secara signifikan dari nol dengan menggunakan statistik (8.44):

Karena kita dapat menegaskan bahwa dalam masyarakat umum terdapat hubungan yang signifikan antara produktivitas tenaga kerja dan tingkat mekanisasi kerja.

Kriteria X dapat digunakan dalam berbagai aspek. Jadi, alih-alih wilayah, industri yang berbeda dapat dipertimbangkan, misalnya, ketika perlu untuk menentukan apakah perbedaan kekuatan hubungan yang diteliti antara indikator ekonomi perusahaan yang tergabung dalam dua industri berbeda adalah signifikan.

Mari kita hitung, berdasarkan dua sampel volume, koefisien korelasi yang mencirikan hubungan erat antara produktivitas tenaga kerja dan tingkat mekanisasi kerja di perusahaan yang tergabung dalam dua industri (dua populasi umum). Dari (8.42) kita peroleh

Karena kami menolak hipotesis nol. Oleh karena itu, dapat dikatakan bahwa terdapat perbedaan yang signifikan dalam kedekatan hubungan antara produktivitas tenaga kerja dan tingkat mekanisasi kerja pada perusahaan-perusahaan yang tergabung dalam berbagai industri. Kita akan melanjutkan contoh ini di Bagian 8.7, di mana kita akan membandingkan garis regresi yang dibuat untuk dua populasi.

Menganalisis contoh-contoh di atas, kami yakin bahwa kami hanya mempertimbangkan perbedaan absolut dari koefisien korelasi yang dibandingkan

(ukuran sampel sama pada kedua kasus) tanpa memeriksa signifikansi perbedaan ini akan menghasilkan kesimpulan yang salah. Hal ini menegaskan perlunya menggunakan kriteria statistik ketika membandingkan koefisien korelasi.

Prosedur untuk membandingkan dua koefisien korelasi dapat digeneralisasikan menjadi jumlah yang lebih besar koefisien tunduk pada prasyarat di atas. Hipotesis persamaan koefisien korelasi antar variabel dinyatakan sebagai berikut: Diuji berdasarkan koefisien korelasi yang dihitung dari sampel volume dari populasi umum. koefisien korelasi dihitung ulang menjadi -nilai: Sejak di kasus umum tidak diketahui, kita mencari perkiraannya melalui rumus yang merupakan generalisasi dari (8.43).

PEKERJAAN KURSUS

Topik: Analisis korelasi

Perkenalan

1. Analisis korelasi

1.1 Konsep korelasi

1.2 Klasifikasi umum korelasi

1.3 Bidang korelasi dan tujuan konstruksinya

1.4 Tahapan analisis korelasi

1.5 Koefisien korelasi

1.6 Koefisien korelasi Bravais-Pearson yang dinormalisasi

1.7 Koefisien korelasi peringkat pendekar tombak

1.8 Sifat dasar koefisien korelasi

1.9 Memeriksa signifikansi koefisien korelasi

1.10 Nilai-nilai kritis koefisien korelasi berpasangan

2. Merencanakan percobaan multifaktorial

2.1 Kondisi permasalahan

2.2 Penentuan pusat rencana (tingkat dasar) dan tingkat variasi faktor

2.3 Konstruksi matriks perencanaan

2.4 Memeriksa homogenitas dispersi dan kesetaraan pengukuran dalam rangkaian yang berbeda

2.5 Koefisien persamaan regresi

2.6 Varians reproduktifitas

2.7 Memeriksa signifikansi koefisien persamaan regresi

2.8 Memeriksa kecukupan persamaan regresi

Kesimpulan

Bibliografi

PERKENALAN

Perencanaan eksperimental adalah disiplin matematika dan statistik yang mempelajari metode organisasi rasional penelitian eksperimental- dari pilihan optimal faktor-faktor yang dipelajari dan penentuan rencana percobaan yang sebenarnya sesuai dengan tujuannya hingga metode analisis hasilnya. Perencanaan eksperimental dimulai dengan karya ahli statistik Inggris R. Fisher (1935), yang menekankan bahwa perencanaan eksperimental rasional memberikan peningkatan yang tidak kalah signifikannya dalam keakuratan perkiraan dibandingkan dengan pemrosesan hasil pengukuran yang optimal. Pada tahun 60an abad ke-20 ada teori modern merencanakan percobaan. Metodenya berkaitan erat dengan teori perkiraan fungsi dan pemrograman matematika. Rencana optimal dibangun dan propertinya dipelajari untuk berbagai model.

Perencanaan eksperimental – pemilihan rencana eksperimen yang memenuhi persyaratan tertentu, serangkaian tindakan yang bertujuan untuk mengembangkan strategi eksperimen (mulai dari memperoleh informasi apriori hingga memperoleh model matematika yang dapat diterapkan atau menentukan kondisi optimal). Ini adalah kontrol yang disengaja atas suatu eksperimen, yang dilaksanakan dalam kondisi pengetahuan yang tidak lengkap tentang mekanisme fenomena yang sedang dipelajari.

Dalam proses pengukuran, pengolahan data selanjutnya, serta formalisasi hasil dalam bentuk model matematika, timbul kesalahan dan sebagian informasi yang terkandung dalam data asli hilang. Penggunaan metode perencanaan eksperimental memungkinkan untuk menentukan kesalahan model matematika dan menilai kecukupannya. Jika keakuratan model tidak mencukupi, maka penggunaan metode perencanaan eksperimental memungkinkan modernisasi model matematika dengan eksperimen tambahan tanpa kehilangan informasi sebelumnya dan dengan biaya minimal.

Tujuan perencanaan suatu percobaan adalah untuk menemukan kondisi dan aturan untuk melakukan percobaan yang memungkinkan untuk memperoleh informasi yang andal dan dapat diandalkan tentang suatu objek dengan jumlah tenaga kerja paling sedikit, serta untuk menyajikan informasi ini dalam bentuk yang ringkas dan nyaman. dengan penilaian akurasi kuantitatif.

Di antara metode perencanaan utama yang digunakan pada berbagai tahap penelitian adalah:

Merencanakan percobaan penyaringan, yang makna utamanya adalah pemilihan sekelompok faktor penting dari seluruh rangkaian faktor yang harus dipelajari lebih lanjut secara rinci;

Merencanakan percobaan untuk analisis varians, yaitu menyusun rencana objek dengan mempertimbangkan faktor kualitatif;

Merencanakan percobaan regresi yang memungkinkan memperoleh model regresi (polinomial dan lain-lain);

Merencanakan percobaan ekstrim yang tugas utamanya adalah optimalisasi percobaan objek penelitian;

Perencanaan saat mempelajari proses dinamis, dll.

Tujuan mempelajari disiplin ini adalah untuk mempersiapkan siswa untuk kegiatan produksi dan teknis dalam spesialisasi mereka dengan menggunakan metode teori perencanaan dan teknologi informasi modern.

Tujuan dari disiplin: belajar metode modern perencanaan, pengorganisasian dan optimalisasi percobaan ilmiah dan industri, pelaksanaan percobaan dan pengolahan hasil yang diperoleh.

1. ANALISIS KORELASI

1.1 Konsep korelasi

Seorang peneliti sering kali tertarik pada bagaimana dua variabel atau lebih berhubungan satu sama lain dalam satu atau lebih sampel yang diteliti. Misalnya, apakah tinggi badan dapat memengaruhi berat badan seseorang, atau apakah tekanan darah dapat memengaruhi kualitas produk?

Ketergantungan antar variabel seperti ini disebut korelasi, atau korelasi. Korelasi adalah perubahan yang konsisten pada dua karakteristik, yang mencerminkan fakta bahwa variabilitas suatu karakteristik sesuai dengan variabilitas karakteristik lainnya.

Misalnya, diketahui bahwa rata-rata terdapat hubungan positif antara tinggi badan seseorang dengan berat badannya, dan semakin tinggi tinggi badannya, semakin besar pula berat badan orang tersebut. Namun, ada pengecualian terhadap aturan ini jika relatif orang pendek memiliki kegemukan, dan sebaliknya, asthenics, dengan perawakan tinggi, memiliki berat badan rendah. Alasan pengecualian tersebut adalah karena setiap faktor biologis, fisiologis atau tanda psikologis ditentukan oleh pengaruh banyak faktor: lingkungan, genetik, sosial, lingkungan, dll.

Hubungan korelasi adalah perubahan probabilistik yang hanya dapat dipelajari pada sampel yang representatif dengan menggunakan metode statistik matematika. Kedua istilah – hubungan korelasi dan ketergantungan korelasi – sering digunakan secara bergantian. Ketergantungan menyiratkan pengaruh, koneksi - setiap perubahan terkoordinasi yang dapat dijelaskan dengan ratusan alasan. Hubungan korelasi tidak dapat dianggap sebagai bukti hubungan sebab-akibat; hubungan tersebut hanya menunjukkan bahwa perubahan pada satu karakteristik biasanya disertai dengan perubahan tertentu pada karakteristik lainnya.

Ketergantungan korelasi - ini adalah perubahan yang memasukkan nilai suatu karakteristik ke dalam probabilitas terjadinya arti yang berbeda tanda lain.

Tugas analisis korelasi adalah menetapkan arah (positif atau negatif) dan bentuk (linier, nonlinier) hubungan antara berbagai karakteristik, mengukur kedekatannya, dan terakhir, memeriksa tingkat signifikansi koefisien korelasi yang diperoleh.

Hubungan korelasi bervariasi dalam bentuk, arah dan derajat (kekuatan) .

Bentuk hubungan korelasinya bisa linier atau lengkung. Misalnya, hubungan antara jumlah sesi pelatihan pada simulator dan jumlah masalah yang diselesaikan dengan benar dalam sesi kontrol mungkin bersifat langsung. Misalnya, hubungan antara tingkat motivasi dan efektivitas suatu tugas mungkin berbentuk kurva (Gambar 1). Dengan meningkatnya motivasi, efektivitas penyelesaian suatu tugas mula-mula meningkat, kemudian tercapai tingkat motivasi optimal, yang sesuai dengan efektivitas maksimum penyelesaian tugas; Peningkatan motivasi lebih lanjut disertai dengan penurunan efisiensi.

Gambar 1 - Hubungan antara efektivitas pemecahan masalah dan kekuatan kecenderungan motivasi

Secara arah, hubungan korelasi bisa positif (“langsung”) dan negatif (“terbalik”). Dengan korelasi linier positif, nilai yang lebih tinggi dari satu karakteristik berhubungan dengan nilai yang lebih tinggi dari karakteristik lainnya, dan nilai yang lebih rendah dari satu karakteristik berhubungan dengan nilai rendah lainnya (Gambar 2). Dengan korelasi negatif, hubungannya berbanding terbalik (Gambar 3). Dengan korelasi positif maka koefisien korelasinya adalah tanda positif, dengan korelasi negatif - tanda negatif.

Gambar 2 – Korelasi langsung

Gambar 3 – Korelasi terbalik


Gambar 4 – Tidak ada korelasi

Derajat, kekuatan atau keeratan korelasi ditentukan oleh nilai koefisien korelasi. Kekuatan ikatan tidak bergantung pada arahnya dan ditentukan oleh nilai absolut koefisien korelasi.

1.2 Klasifikasi umum korelasi

Tergantung pada koefisien korelasinya, korelasi berikut dibedakan:

Kuat atau mendekati dengan koefisien korelasi r>0,70;

Rata-rata (pada 0,50

Sedang (pada 0,30

Lemah (pada 0,20

Sangat lemah (di r<0,19).

1.3 Bidang korelasi dan tujuan konstruksinya

Korelasi dipelajari berdasarkan data eksperimen, yaitu nilai terukur (xi, y i) dari dua karakteristik. Jika data eksperimen sedikit, maka distribusi empiris dua dimensi direpresentasikan sebagai deret ganda nilai x i dan y i. Pada saat yang sama, ketergantungan korelasi antar karakteristik dapat dijelaskan dengan cara yang berbeda. Korespondensi antara argumen dan fungsi dapat diberikan melalui tabel, rumus, grafik, dll.

Analisis korelasi, seperti metode statistik lainnya, didasarkan pada penggunaan model probabilistik yang menggambarkan perilaku karakteristik yang diteliti pada populasi umum tertentu yang darinya diperoleh nilai eksperimen xi dan y i. Ketika mempelajari korelasi antara karakteristik kuantitatif, yang nilainya dapat diukur secara akurat dalam satuan skala metrik (meter, detik, kilogram, dll.), model populasi dua dimensi yang terdistribusi normal sangat sering diadopsi. Model seperti itu menampilkan hubungan antara variabel x i dan y i secara grafis dalam bentuk letak geometris titik-titik dalam sistem koordinat persegi panjang. Hubungan grafis ini juga disebut sebar atau bidang korelasi.
Model distribusi normal dua dimensi (bidang korelasi) memungkinkan kita memberikan interpretasi grafis yang jelas tentang koefisien korelasi, karena distribusi secara total bergantung pada lima parameter: μ x, μ y – nilai rata-rata (ekspektasi matematis); σ x,σ y – simpangan baku variabel acak X dan Y dan p – koefisien korelasi, yaitu ukuran hubungan antara variabel acak X dan Y.
Jika p = 0, maka nilai x i , y i yang diperoleh dari populasi normal dua dimensi terletak pada grafik pada koordinat x, y dalam luas yang dibatasi lingkaran (Gambar 5, a). Dalam hal ini tidak ada korelasi antara variabel acak X dan Y dan disebut tidak berkorelasi. Untuk distribusi normal dua dimensi, ketidaksesuaian secara simultan berarti independensi variabel acak X dan Y.

Dalam penelitian ilmiah, seringkali ada kebutuhan untuk menemukan hubungan antara hasil dan variabel faktor (hasil panen dan jumlah curah hujan, tinggi dan berat badan seseorang dalam kelompok homogen berdasarkan jenis kelamin dan usia, detak jantung dan suhu tubuh. , dll.).

Yang kedua adalah tanda-tanda yang berkontribusi terhadap perubahan yang terkait dengannya (yang pertama).

Konsep analisis korelasi

Berdasarkan uraian di atas, kita dapat mengatakan bahwa analisis korelasi adalah suatu metode yang digunakan untuk menguji hipotesis tentang signifikansi statistik dua variabel atau lebih jika peneliti dapat mengukurnya, tetapi tidak dapat mengubahnya.

Ada definisi lain dari konsep yang dimaksud. Analisis korelasi adalah metode pengolahan yang melibatkan mempelajari koefisien korelasi antar variabel. Dalam hal ini, koefisien korelasi antara satu pasang atau banyak pasang karakteristik dibandingkan untuk membangun hubungan statistik di antara keduanya. Analisis korelasi adalah suatu metode untuk mempelajari ketergantungan statistik antara variabel acak dengan adanya opsional yang bersifat fungsional ketat, di mana dinamika suatu variabel acak mengarah pada dinamika ekspektasi matematis variabel lain.

Konsep korelasi palsu

Saat melakukan analisis korelasi, perlu diingat bahwa analisis tersebut dapat dilakukan dalam kaitannya dengan serangkaian karakteristik apa pun, seringkali tidak masuk akal dalam kaitannya satu sama lain. Terkadang mereka tidak memiliki hubungan sebab akibat satu sama lain.

Dalam hal ini, mereka berbicara tentang korelasi yang salah.

Masalah analisis korelasi

Berdasarkan definisi di atas, kita dapat merumuskan tugas-tugas metode yang dijelaskan sebagai berikut: memperoleh informasi tentang salah satu variabel yang dicari dengan menggunakan variabel lain; mengetahui keeratan hubungan antar variabel yang diteliti.

Analisis korelasi meliputi penentuan hubungan antara ciri-ciri yang diteliti, oleh karena itu tugas analisis korelasi dapat dilengkapi dengan hal-hal berikut:

  • identifikasi faktor-faktor yang mempunyai pengaruh paling besar terhadap karakteristik yang dihasilkan;
  • mengidentifikasi penyebab koneksi yang belum dijelajahi sebelumnya;
  • konstruksi model korelasi dengan analisis parametriknya;
  • studi tentang pentingnya parameter komunikasi dan penilaian intervalnya.

Hubungan antara analisis korelasi dan regresi

Metode analisis korelasi seringkali tidak sebatas mencari keeratan hubungan antara besaran-besaran yang diteliti. Kadang-kadang dilengkapi dengan penyusunan persamaan regresi, yang diperoleh dengan menggunakan analisis dengan nama yang sama, dan yang mewakili gambaran ketergantungan korelasi antara karakteristik (fitur) yang dihasilkan dan faktor (faktor). Metode ini, bersama dengan analisis yang sedang dipertimbangkan, merupakan metode

Ketentuan untuk menggunakan metode ini

Faktor efektif bergantung pada satu hingga beberapa faktor. Metode analisis korelasi dapat digunakan apabila terdapat banyak pengamatan mengenai nilai efektif dan indikator faktor (faktor), sedangkan faktor yang diteliti harus bersifat kuantitatif dan tercermin dalam sumber tertentu. Yang pertama dapat ditentukan dengan hukum normal - dalam hal ini, hasil analisis korelasi adalah koefisien korelasi Pearson, atau jika karakteristiknya tidak mematuhi hukum ini, digunakan koefisien korelasi peringkat Spearman.

Aturan untuk memilih faktor analisis korelasi

Dalam menerapkan metode ini perlu diketahui faktor-faktor yang mempengaruhi indikator kinerja. Mereka dipilih dengan mempertimbangkan fakta bahwa harus ada hubungan sebab-akibat antara indikator-indikator tersebut. Dalam hal pembuatan model korelasi multifaktor, dipilih faktor-faktor yang mempunyai pengaruh signifikan terhadap indikator yang dihasilkan, sedangkan faktor-faktor yang saling bergantung dengan koefisien korelasi berpasangan lebih dari 0,85 sebaiknya tidak dimasukkan dalam model korelasi, serta faktor-faktor tersebut. yang hubungannya dengan parameter yang dihasilkan tidak bersifat linier atau fungsional.

Menampilkan hasil

Hasil analisis korelasi dapat disajikan dalam bentuk teks dan grafik. Dalam kasus pertama mereka disajikan sebagai koefisien korelasi, dalam kasus kedua - dalam bentuk diagram sebar.

Dengan tidak adanya korelasi antar parameter, titik-titik pada diagram terletak secara kacau, derajat keterhubungan rata-rata dicirikan oleh tingkat keteraturan yang lebih besar dan dicirikan oleh jarak yang kurang lebih seragam dari tanda-tanda yang ditandai dari median. Sambungan kuat cenderung lurus dan pada r=1 plot titiknya berupa garis datar. Korelasi terbalik berbeda arah grafik dari kiri atas ke kanan bawah, korelasi langsung - dari kiri bawah ke sudut kanan atas.

Representasi 3D dari plot sebar

Selain tampilan plot sebar 2D tradisional, representasi grafis 3D dari analisis korelasi kini digunakan.

Matriks scatterplot juga digunakan, yang menampilkan semua plot berpasangan dalam satu gambar dalam format matriks. Untuk n variabel, matriksnya berisi n baris dan n kolom. Bagan yang terletak pada perpotongan baris ke-i dan kolom ke-j merupakan plot variabel Xi versus Xj. Jadi setiap baris dan kolom adalah satu dimensi, satu sel menampilkan plot sebar dua dimensi.

Menilai kekencangan sambungan

Keeratan hubungan korelasi ditentukan oleh koefisien korelasi (r): kuat - r = ±0,7 hingga ±1, sedang - r = ±0,3 hingga ±0,699, lemah - r = 0 hingga ±0,299. Klasifikasi ini tidak ketat. Gambar tersebut menunjukkan diagram yang sedikit berbeda.

Contoh penerapan metode analisis korelasi

Sebuah penelitian menarik dilakukan di Inggris. Hal ini dikhususkan untuk hubungan antara merokok dan kanker paru-paru, dan dilakukan melalui analisis korelasi. Pengamatan ini disajikan di bawah ini.

Data awal untuk analisis korelasi

Kelompok profesional

kematian

Petani, rimbawan dan nelayan

Penambang dan pekerja tambang

Produsen gas, kokas, dan bahan kimia

Produsen kaca dan keramik

Pekerja tungku, bengkel, pengecoran dan pabrik penggilingan

Pekerja listrik dan elektronik

Teknik dan profesi terkait

Industri pengerjaan kayu

Pekerja kulit

Pekerja tekstil

Produsen pakaian kerja

Pekerja di industri makanan, minuman dan tembakau

Produsen Kertas dan Cetak

Produsen produk lainnya

Pembangun

Pelukis dan dekorator

Pengemudi mesin stasioner, crane, dll.

Pekerja yang tidak termasuk di tempat lain

Pekerja transportasi dan komunikasi

Pekerja gudang, penjaga toko, pengepakan dan pekerja mesin pengisi

Pekerja kantor

Penjual

Pekerja olahraga dan rekreasi

Administrator dan manajer

Profesional, teknisi dan seniman

Kami memulai analisis korelasi. Untuk kejelasan, lebih baik memulai solusi dengan metode grafis, yang mana kita akan membuat diagram pencar.

Ini menunjukkan hubungan langsung. Namun, sulit untuk menarik kesimpulan yang jelas hanya berdasarkan metode grafis. Oleh karena itu, kami akan terus melakukan analisis korelasi. Contoh penghitungan koefisien korelasi disajikan di bawah ini.

Dengan menggunakan software (MS Excel akan dijelaskan sebagai contoh di bawah), kita menentukan koefisien korelasi yaitu 0,716 yang berarti adanya hubungan yang kuat antara parameter yang diteliti. Mari kita tentukan reliabilitas statistik dari nilai yang diperoleh menggunakan tabel yang sesuai, yang mana kita perlu mengurangi 2 dari 25 pasangan nilai, sebagai hasilnya kita mendapatkan 23 dan menggunakan baris ini dalam tabel kita menemukan r kritis untuk p = 0,01 (karena ini adalah data medis, ketergantungan yang lebih ketat, dalam kasus lain p=0,05 sudah cukup), yaitu 0,51 untuk analisis korelasi ini. Contoh tersebut menunjukkan bahwa r yang dihitung lebih besar dari r kritis, dan nilai koefisien korelasi dianggap dapat diandalkan secara statistik.

Menggunakan perangkat lunak saat melakukan analisis korelasi

Jenis pengolahan data statistik yang dijelaskan dapat dilakukan dengan menggunakan perangkat lunak khususnya MS Excel. Korelasi melibatkan penghitungan parameter berikut menggunakan fungsi:

1. Koefisien korelasi ditentukan dengan menggunakan fungsi CORREL (array1; array2). Array1,2 - sel interval nilai variabel resultan dan faktor.

Koefisien korelasi linier juga disebut koefisien korelasi Pearson, dan oleh karena itu, mulai dari Excel 2007, Anda bisa menggunakan fungsi dengan array yang sama.

Tampilan grafis analisis korelasi di Excel dilakukan menggunakan panel “Charts” dengan pilihan “Scatter Plot”.

Setelah menentukan data awal, kami mendapatkan grafik.

2. Menilai signifikansi koefisien korelasi berpasangan menggunakan uji-t Student. Nilai kriteria-t yang dihitung dibandingkan dengan nilai tabulasi (kritis) indikator ini dari tabel nilai parameter yang bersangkutan, dengan mempertimbangkan tingkat signifikansi yang ditentukan dan jumlah derajat kebebasan. Estimasi ini dilakukan dengan menggunakan fungsi STUDISCOVER(probabilitas; derajat_kebebasan_).

3. Matriks koefisien korelasi berpasangan. Analisis dilakukan dengan menggunakan alat Analisis Data, yang mana dipilih Korelasi. Penilaian statistik koefisien korelasi berpasangan dilakukan dengan membandingkan nilai absolutnya dengan nilai tabulasi (kritis). Ketika koefisien korelasi berpasangan yang dihitung melebihi koefisien kritis, kita dapat mengatakan, dengan mempertimbangkan tingkat probabilitas tertentu, bahwa hipotesis nol tentang signifikansi hubungan linier tidak ditolak.

Akhirnya

Penggunaan metode analisis korelasi dalam penelitian ilmiah memungkinkan kita untuk mengetahui hubungan antara berbagai faktor dan indikator kinerja. Perlu diperhatikan bahwa koefisien korelasi yang tinggi dapat diperoleh dari pasangan atau kumpulan data yang tidak masuk akal, oleh karena itu jenis analisis ini harus dilakukan pada kumpulan data yang cukup besar.

Setelah memperoleh nilai r yang dihitung, disarankan untuk membandingkannya dengan r kritis untuk memastikan keandalan statistik dari nilai tertentu. Analisis korelasi dapat dilakukan secara manual dengan menggunakan rumus, maupun dengan menggunakan software khususnya MS Excel. Di sini Anda juga dapat membuat diagram sebar untuk mewakili secara visual hubungan antara faktor-faktor analisis korelasi yang dipelajari dan karakteristik yang dihasilkan.



Baru di situs

>

Paling populer