Mājas Mutes dobums Kā pārbaudīt korelācijas koeficientu nozīmīgumu. Tests: Regresijas un korelācijas koeficientu nozīmīguma novērtēšana, izmantojot Stjudenta f-testu

Kā pārbaudīt korelācijas koeficientu nozīmīgumu. Tests: Regresijas un korelācijas koeficientu nozīmīguma novērtēšana, izmantojot Stjudenta f-testu

Vingrinājums. Par reģiona teritorijām sniegti dati par 199X;
Reģiona numurs Viena darbspējīga cilvēka vidējā iztikas minimuma dienā uz vienu iedzīvotāju, rub., X Vidējā dienas alga, rub., plkst
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Nepieciešams:
1. Izveidojiet lineāru vienādojumu y pāra regresijai no x.
2. Aprēķināt lineārais koeficients pāru korelācija un vidējā tuvinājuma kļūda.
3. Novērtēt regresijas un korelācijas parametru statistisko nozīmīgumu.
4. Palaidiet prognozi algas y ar prognozēto vidējā iztikas minimuma uz vienu iedzīvotāju x vērtību, kas sastāda 107% no vidējā līmeņa.
5. Novērtējiet prognozes precizitāti, aprēķinot prognozes kļūdu un tās ticamības intervālu.

Risinājums atrodiet, izmantojot kalkulatoru.
Lietošana grafiskā metode .
Šo metodi izmanto, lai vizuāli attēlotu savienojuma formu starp pētāmajiem ekonomiskie rādītāji. Lai to izdarītu, taisnstūrveida koordinātu sistēmā tiek uzzīmēts grafiks, iegūtā raksturlieluma Y individuālās vērtības tiek attēlotas pa ordinātu asi, bet faktora raksturlieluma X individuālās vērtības tiek attēlotas pa abscisu asi.
Tiek saukta rezultējošo un faktoru raksturlielumu punktu kopa korelācijas lauks.
Pamatojoties uz korelācijas lauku, mēs varam izvirzīt hipotēzi (populācijai), ka attiecība starp visām iespējamām X un Y vērtībām ir lineāra.
Lineārās regresijas vienādojums ir y = bx + a + ε
Šeit ε ir nejauša kļūda (novirze, traucējumi).
Iemesli nejaušas kļūdas pastāvēšanai:
1. Būtisku skaidrojošo mainīgo neiekļaušana regresijas modelī;
2. Mainīgo lielumu apkopošana. Piemēram, kopējā patēriņa funkcija ir mēģinājums vispārīgi izteikt individuālo lēmumu par izdevumiem kopsavilkumu. Tas ir tikai tuvinājums atsevišķām attiecībām, kurām ir dažādi parametri.
3. Nepareizs modeļa struktūras apraksts;
4. Nepareiza funkcionālā specifikācija;
5. Mērījumu kļūdas.
Tā kā novirzes ε i katram konkrētajam novērojumam i ir nejaušas un to vērtības paraugā nav zināmas, tad:
1) no novērojumiem x i un y i var iegūt tikai parametru α un β aplēses
2) Regresijas modeļa parametru α un β aplēses ir attiecīgi vērtības a un b, kurām ir nejaušs raksturs, jo atbilst izlases veidam;
Tad novērtējuma regresijas vienādojumam (kas izveidots no izlases datiem) būs forma y = bx + a + ε, kur e i ir kļūdu ε i novērotās vērtības (aplēses) un a un b ir attiecīgi aprēķini regresijas modeļa parametri α un β, kas būtu jāatrod.
Parametru α un β novērtēšanai tiek izmantota mazāko kvadrātu metode (mazāko kvadrātu metode).
Normālo vienādojumu sistēma.
Mūsu datiem vienādojumu sistēmai ir forma
No pirmā vienādojuma mēs izsakām a un aizstājam to ar otro vienādojumu
Mēs iegūstam b = 0,92, a = 76,98
Regresijas vienādojums:
y = 0,92 x + 76,98

1. Regresijas vienādojuma parametri.
Izlases līdzekļi.



Izlases paraugi:


Standarta novirze


Korelācijas koeficients
Mēs aprēķinām savienojuma tuvuma indikatoru. Šis rādītājs ir izlases lineārās korelācijas koeficients, ko aprēķina pēc formulas:

Lineārās korelācijas koeficients ņem vērtības no –1 līdz +1.
Savienojumi starp raksturlielumiem var būt vāji un spēcīgi (cieši). Viņu kritēriji tiek novērtēti pēc Čadoka skalas:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Mūsu piemērā saikne starp vidējo dienas algu un vidējo iztikas minimumu uz vienu iedzīvotāju ir augsta un tieša.
1.2. Regresijas vienādojums(regresijas vienādojuma novērtējums).

Lineārās regresijas vienādojums ir y = 0,92 x + 76,98
Vienādojuma koeficienti lineārā regresija var piešķirt ekonomisku nozīmi.
Koeficients b = 0,92 parāda efektīvā rādītāja vidējo izmaiņu (mērvienībās y) ar faktora x vērtības pieaugumu vai samazināšanos uz vienu tā mērvienību. Šajā piemērā ar pieaugumu par 1 rub. uz vienu iedzīvotāju iztikas minimumu dienā, vidējā dienas alga pieaug vidēji par 0,92.
Koeficients a = 76,98 formāli parāda prognozēto vidējās dienas algas līmeni, bet tikai tad, ja x=0 ir tuvu izlases vērtībām.
Aizvietojot atbilstošās x vērtības regresijas vienādojumā, mēs varam noteikt veiktspējas rādītāja y(x) izlīdzinātās (paredzamās) vērtības katram novērojumam.
Sakarību starp vidējo dienas algu un vidējo iztikas minimumu uz vienu iedzīvotāju dienā nosaka regresijas koeficienta b zīme (ja > 0 - tieša sakarība, pretējā gadījumā - apgriezta). Mūsu piemērā savienojums ir tiešs.
Elastības koeficients.
Nav vēlams izmantot regresijas koeficientus (piemērā b), lai tieši novērtētu faktoru ietekmi uz rezultējošo raksturlielumu, ja ir atšķirības rezultējošā rādītāja y un faktora raksturlieluma x mērvienībās.
Šiem nolūkiem tiek aprēķināti elastības koeficienti un beta koeficienti. Elastības koeficientu nosaka pēc formulas:


Tas parāda, par cik procentiem vidēji mainās efektīvais atribūts y, kad faktora atribūts x mainās par 1%. Tas neņem vērā faktoru svārstību pakāpi.
Elastības koeficients ir mazāks par 1. Līdz ar to, ja vidējā dzīves dārdzība uz vienu iedzīvotāju dienā mainīsies par 1%, vidējā dienas alga mainīsies mazāk nekā par 1%. Citiem vārdiem sakot, vidējā uz vienu iedzīvotāju iztikas minimuma X ietekme uz vidējo dienas algu Y nav būtiska.
Beta koeficients parāda, par kādu daļu no tā vidējās vērtības kvadrātveida novirze iegūtā raksturlieluma vidējā vērtība mainīsies, kad faktora raksturlielums mainīsies par tā standartnovirzes vērtību ar atlikušo neatkarīgo mainīgo vērtību, kas fiksēta nemainīgā līmenī:

Tie. x palielinājums par šī rādītāja standartnovirzi novedīs pie vidējās dienas algas Y pieauguma par šī rādītāja standartnovirzi 0,721.
1.4. Tuvināšanas kļūda.
Novērtēsim regresijas vienādojuma kvalitāti, izmantojot absolūtās aproksimācijas kļūdu.


Tā kā kļūda ir mazāka par 15%, šo vienādojumu var izmantot kā regresiju.
Determinācijas koeficients.
(Daudzkārtējās) korelācijas koeficienta kvadrātu sauc par determinācijas koeficientu, kas parāda rezultējošā atribūta variācijas proporciju, kas izskaidrojama ar faktora atribūta variāciju.
Visbiežāk, interpretējot determinācijas koeficientu, tas tiek izteikts procentos.
R2 = 0,722 = 0,5199
tie. 51,99% gadījumu vidējā iztikas minimuma uz vienu iedzīvotāju x izmaiņas izraisa vidējās dienas algas y izmaiņas. Citiem vārdiem sakot, regresijas vienādojuma atlases precizitāte ir vidēja. Atlikušie 48,01% no vidējās dienas darba samaksas Y izmaiņām ir skaidrojami ar modelī neņemtajiem faktoriem.

x y x 2 y 2 x o y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Regresijas vienādojuma parametru novērtēšana.
2.1. Korelācijas koeficienta nozīme.

Izmantojot Stjudenta tabulu ar nozīmīguma līmeni α=0,05 un brīvības pakāpēm k=10, atrodam t crit:
t crit = (10;0,05) = 1,812
kur m = 1 ir skaidrojošo mainīgo skaits.
Ja t novērots > t kritisks, tad iegūtā korelācijas koeficienta vērtība tiek uzskatīta par nozīmīgu (nulles hipotēze, ka korelācijas koeficients ir vienāds ar nulli, tiek noraidīta).
Tā kā t obs > t crit, mēs noraidām hipotēzi, ka korelācijas koeficients ir vienāds ar 0. Citiem vārdiem sakot, korelācijas koeficients ir statistiski nozīmīgs.
Pāru lineārajā regresijā t 2 r = t 2 b un pēc tam hipotēžu pārbaude par regresijas un korelācijas koeficientu nozīmīgumu ir līdzvērtīga hipotēzes pārbaudei par nozīmīgumu lineārais vienādojums regresija.

2.3. Regresijas koeficientu aplēšu noteikšanas precizitātes analīze.
Neobjektīvs traucējumu izkliedes novērtējums ir vērtība:


S 2 y = 157,4922 - neizskaidrojama dispersija (atkarīgā mainīgā lieluma izkliedes mērs ap regresijas taisni).

12.5496 - aplēses standartkļūda (regresijas standartkļūda).
S a - standarta novirze nejaušais mainīgais a.


S b - gadījuma lieluma b standartnovirze.


2.4. Atkarīgā mainīgā ticamības intervāli.
Ekonomiskā prognozēšana, kas balstīta uz konstruēto modeli, pieņem, ka iepriekš pastāvošās attiecības starp mainīgajiem lielumiem tiek saglabātas izpildes laika periodā.
Lai prognozētu iegūtā atribūta atkarīgo mainīgo, ir jāzina visu modelī iekļauto faktoru prognozētās vērtības.
Prognozētās faktoru vērtības tiek aizvietotas modelī un iegūti pētāmā rādītāja paredzamie punktu aprēķini.
(a + bx p ± ε)
Kur

Aprēķināsim robežas intervālam, kurā tiks koncentrēti 95%. iespējamās vērtības Y neierobežotam novērojumu skaitam un X p = 94

(76,98 + 0,92*94 ± 7,8288)
(155.67;171.33)
Ar 95% varbūtību ir iespējams garantēt, ka Y vērtība neierobežotam novērojumu skaitam neizkritīs ārpus atrasto intervālu robežām.
2.5. Hipotēžu pārbaude par lineārās regresijas vienādojuma koeficientiem.
1) t-statistika. Studentu t tests.
Pārbaudīsim hipotēzi H 0 par individuālo regresijas koeficientu vienādību ar nulli (ja alternatīva nav vienāda ar H 1) pie nozīmīguma līmeņa α=0,05.
t crit = (10;0,05) = 1,812


Tā kā 3,2906 > 1,812, regresijas koeficienta b statistiskā nozīmība apstiprinās (noraidām hipotēzi, ka šis koeficients ir vienāds ar nulli).


Tā kā 3,1793 > 1,812, regresijas koeficienta a statistiskā nozīmība apstiprinās (noraidām hipotēzi, ka šis koeficients ir vienāds ar nulli).
Regresijas vienādojuma koeficientu ticamības intervāls.
Definēsim ticamības intervāli regresijas koeficienti, kas ar 95% ticamību būs šādi:
(b — t krit. b; b + t krit. b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
Ar 95% varbūtību var apgalvot, ka šī parametra vērtība atradīsies atrastajā intervālā.
2) F-statistika. Fišera kritērijs.
Regresijas modeļa nozīmīguma pārbaude tiek veikta, izmantojot Fišera F testu, kura aprēķinātā vērtība tiek atrasta kā pētāmā indikatora sākotnējās novērojumu sērijas dispersijas attiecība pret atlikuma secības dispersijas objektīvu novērtējumu. šim modelim.
Ja aprēķinātā vērtība ar k1=(m) un k2=(n-m-1) brīvības pakāpēm ir lielāka par tabulā norādīto vērtību noteiktā nozīmīguma līmenī, tad modelis tiek uzskatīts par nozīmīgu.

kur m ir faktoru skaits modelī.
Novērtējums statistiskā nozīme pārī lineārā regresija tiek veikta, izmantojot šādu algoritmu:
1. Tiek izvirzīta nulles hipotēze, ka vienādojums kopumā ir statistiski nenozīmīgs: H 0: R 2 =0 nozīmības līmenī α.
2. Pēc tam nosakiet F kritērija faktisko vērtību:


kur m=1 pāru regresijai.
3. Tabulas vērtība noteikts no Fišera sadalījuma tabulām noteiktam nozīmīguma līmenim, ņemot vērā, ka brīvības pakāpju skaits par kopējā summa kvadrāti (lielāka dispersija) ir 1 un atlikušās kvadrātu summas brīvības pakāpju skaits (mazāka dispersija) lineārajā regresijā ir n-2.
4. Ja F-testa faktiskā vērtība ir mazāka par tabulas vērtību, tad viņi saka, ka nav pamata noraidīt nulles hipotēzi.
Pretējā gadījumā nulles hipotēze tiek noraidīta un alternatīvā hipotēze par vienādojuma statistisko nozīmīgumu kopumā tiek pieņemta ar varbūtību (1-α).
Kritērija tabulas vērtība ar brīvības pakāpēm k1=1 un k2=10, Fkp = 4,96
Tā kā F > Fkp faktiskā vērtība, determinācijas koeficients ir statistiski nozīmīgs (Atrastais regresijas vienādojuma novērtējums ir statistiski ticams).

3. posms. Sakarību atrašana starp datiem

Lineārā korelācija

Pēdējais parādību sakarību izpētes uzdevuma posms ir saiknes ciešuma novērtējums, pamatojoties uz indikatoriem. korelācijas savienojums. Šis posms ir ļoti svarīgs, lai noteiktu atkarības starp faktoru un veiktspējas raksturlielumiem, un līdz ar to, lai varētu veikt pētāmās parādības diagnozi un prognozi.

Diagnoze(no grieķu diagnozes atpazīšanas) - objekta vai parādības stāvokļa būtības un īpašību noteikšana, pamatojoties uz tā visaptverošu izpēti.

Prognoze(no grieķu prognosis foresight, prognoze) - jebkura konkrēta prognoze, spriedums par jebkuras parādības stāvokli nākotnē (laika prognoze, vēlēšanu iznākums utt.). Prognoze ir zinātniski pamatota hipotēze par pētāmās sistēmas, objekta vai parādības iespējamo turpmāko stāvokli un šo stāvokli raksturojošiem rādītājiem. Prognozēšana – prognožu izstrāde, spec Zinātniskie pētījumiīpašas perspektīvas jebkuras parādības attīstībai.

Atcerēsimies korelācijas definīciju:

Korelācija– atkarība starp gadījuma lielumiem, kas izteikta ar to, ka vienas vērtības sadalījums ir atkarīgs no citas vērtības vērtības.

Korelācija tiek novērota ne tikai starp kvantitatīviem, bet arī kvalitatīviem raksturlielumiem. Pastāv dažādos veidos un rādītāji saišu ciešuma novērtēšanai. Mēs apstāsimies tikai plkst lineārā pāra korelācijas koeficients , ko izmanto, ja starp nejaušajiem mainīgajiem pastāv lineāra sakarība. Praksē bieži vien ir nepieciešams noteikt nevienlīdzīgu izmēru gadījuma lielumu savienojuma līmeni, tāpēc ir vēlams, lai šim savienojumam būtu kāda veida bezdimensiju raksturlielums. Šāds raksturlielums (savienojuma mērs) ir lineārās korelācijas koeficients r xy, ko nosaka pēc formulas

Kur , .

Apzīmējot un , mēs varam iegūt šādu izteiksmi korelācijas koeficienta aprēķināšanai

.

Ja mēs ieviešam koncepciju normalizēta novirze , kas izsaka korelēto vērtību novirzi no vidējās standartnovirzes daļās:



tad korelācijas koeficienta izteiksme iegūs formu

.

Ja aprēķina korelācijas koeficientu, izmantojot sākotnējo nejaušo mainīgo galīgās vērtības no aprēķinu tabulas, tad korelācijas koeficientu var aprēķināt, izmantojot formulu

.

Lineārās korelācijas koeficienta īpašības:

1). Korelācijas koeficients ir bezizmēra lielums.

2). |r| £1 vai .

3). , a, b= const, – korelācijas koeficienta vērtība nemainīsies, ja visas nejaušo lielumu X un Y vērtības reizina (vai dala) ar konstanti.

4). , a, b= const, – korelācijas koeficienta vērtība nemainīsies, ja visas gadījuma lieluma X un Y vērtības tiek palielinātas (vai samazinātas) par konstanti.

5). Pastāv sakarība starp korelācijas koeficientu un regresijas koeficientu:

Korelācijas koeficientu vērtības var interpretēt šādi:

Kvantitatīvie kritēriji komunikācijas tuvuma novērtēšanai:

Prognozes nolūkos vērtības ar |r| > 0,7.

Korelācijas koeficients ļauj secināt par esamību lineārā atkarība starp diviem nejaušiem mainīgajiem, bet nenorāda, kurš no mainīgajiem izraisa izmaiņas citā. Faktiski saikne starp diviem nejaušiem mainīgajiem var pastāvēt bez cēloņsakarības starp pašām vērtībām, jo abu gadījuma lielumu izmaiņas var izraisīt trešā maiņa (ietekme).

Korelācijas koeficients r xy ir simetrisks attiecībā pret aplūkotajiem nejaušajiem mainīgajiem X Un Y. Tas nozīmē, ka korelācijas koeficienta noteikšanai ir pilnīgi vienaldzīgi, kurš no lielumiem ir neatkarīgs un kurš ir atkarīgs.

Korelācijas koeficienta nozīme

Pat priekš neatkarīgie daudzumi korelācijas koeficients var atšķirties no nulles mērījumu rezultātu nejaušas izkliedes vai nelielas nejaušo mainīgo izlases dēļ. Tāpēc ir jāpārbauda korelācijas koeficienta nozīmīgums.

Lineārās korelācijas koeficienta nozīmīgums tiek pārbaudīts, pamatojoties uz Studenta t-tests :

.

Ja t > t kr(P,n-2), tad lineārās korelācijas koeficients ir nozīmīgs, un tāpēc arī statistiskā sakarība ir nozīmīga X Un Y.

.

Aprēķinu atvieglošanai ir izveidotas korelācijas koeficientu ticamības robežu vērtību tabulas dažādi skaitļi brīvības pakāpes f = n–2 (divu zaru tests) un dažādi nozīmīguma līmeņi a= 0,1; 0,05; 0,01 un 0,001. Korelācija tiek uzskatīta par nozīmīgu, ja aprēķinātais korelācijas koeficients pārsniedz korelācijas koeficienta ticamības robežas vērtību dotajam f Un a.

Lielajiem n Un a= 0,01 korelācijas koeficienta ticamības robežas vērtību var aprēķināt, izmantojot aptuveno formulu

.

Kā jau vairākkārt atzīmēts, lai izdarītu statistisku secinājumu par korelācijas esamību vai neesamību starp pētāmajiem mainīgajiem, nepieciešams pārbaudīt izlases korelācijas koeficienta nozīmīgumu. Sakarā ar to, ka statistisko raksturlielumu, tostarp korelācijas koeficienta ticamība ir atkarīga no izlases lieluma, var rasties situācija, kad korelācijas koeficienta vērtību pilnībā nosaka izlases izlases svārstības, uz kuru pamata tas tiek aprēķināts. . Ja starp mainīgajiem ir būtiska sakarība, korelācijas koeficientam ir būtiski jāatšķiras no nulles. Ja starp pētāmajiem mainīgajiem nav korelācijas, tad kopas korelācijas koeficients ir vienāds ar nulli. Praktiskajos pētījumos, kā likums, tie balstās uz izlases novērojumiem. Tāpat kā jebkurš statistiskais raksturlielums, arī izlases korelācijas koeficients ir nejaušais mainīgais, t.i., tās vērtības ir nejauši izkliedētas ap tāda paša nosaukuma populācijas parametru (korelācijas koeficienta patiesā vērtība). Ja starp mainīgajiem nav korelācijas, to korelācijas koeficients populācijā ir vienāds ar nulli. Taču izkliedes nejaušības dēļ principiāli ir iespējamas situācijas, kad daži korelācijas koeficienti, kas aprēķināti no šīs kopas paraugiem, atšķirsies no nulles.

Vai novērotās atšķirības var saistīt ar izlases nejaušām svārstībām, vai arī tās atspoguļo būtiskas izmaiņas apstākļos, kādos veidojās attiecības starp mainīgajiem? Ja parauga korelācijas koeficienta vērtības ietilpst izkliedes zonā,

paša rādītāja nejaušības dēļ tas neliecina par saistību neesamību. Lielākais, ko var teikt, ir tas, ka novērojumu dati nenoliedz, ka starp mainīgajiem lielumiem nav saistību. Bet, ja izlases korelācijas koeficienta vērtība atrodas ārpus minētās izkliedes zonas, tad viņi secina, ka tā būtiski atšķiras no nulles, un varam pieņemt, ka starp mainīgajiem ir statistiska atšķirība jēgpilnu savienojumu. Šīs problēmas risināšanai izmantotais kritērijs, kas balstīts uz dažādu statistikas datu sadalījumu, tiek saukts par nozīmīguma kritēriju.

Nozīmīguma pārbaudes procedūra sākas ar nulles hipotēzes B formulēšanu vispārējs skats tas slēpjas faktā, ka starp izlases parametru un populācijas parametru nav būtisku atšķirību. Alternatīva hipotēze ir tāda, ka starp šiem parametriem ir būtiskas atšķirības. Piemēram, pārbaudot korelācijas esamību populācijā, nulles hipotēze ir tāda, ka patiesais korelācijas koeficients ir nulle. Ja pārbaudes rezultātā nulles hipotēze ir nepieņemama, tad izlases korelācijas koeficients būtiski atšķiras no nulles (nulles hipotēze). hipotēze tiek noraidīta un alternatīva tiek pieņemta. Citiem vārdiem sakot, pieņēmums, ka nejaušie mainīgie nav korelēti populācijā, jāuzskata par nepamatotu. Un otrādi, ja, pamatojoties uz nozīmīguma kritēriju, nulles hipotēze tiek pieņemta, t.i., tā ir meli pieļaujamajā nejaušās izkliedes zonā, tad nav pamata uzskatīt nekorelētu mainīgo pieņēmumu populācijā par apšaubāmu.

Nozīmīguma pārbaudē pētnieks nosaka nozīmīguma līmeni a, kas sniedz zināmu praktisku pārliecību, ka kļūdaini secinājumi tiks izdarīti tikai ļoti retos gadījumos. Nozīmīguma līmenis izsaka varbūtību, ka nulles hipotēze tiek noraidīta, kad tā faktiski ir patiesa. Ir skaidrs, ka ir lietderīgi izvēlēties šo varbūtību pēc iespējas mazāku.

Lai ir zināms izlases raksturlieluma sadalījums, kas ir objektīvs populācijas parametra novērtējums. Izvēlētais nozīmīguma līmenis a atbilst iekrāsotajiem laukumiem zem šī sadalījuma līknes (sk. 24. att.). Neēnotais laukums zem sadalījuma līknes nosaka varbūtību. Segmentu robežas uz abscisu ass zem iekrāsotajiem laukumiem sauc par kritiskajām vērtībām, un paši segmenti veido kritisko apgabalu jeb hipotēzes noraidīšanas apgabalu.

Hipotēžu pārbaudes procedūrā izlases raksturlielums, kas aprēķināts no novērojumu rezultātiem, tiek salīdzināts ar atbilstošo kritisko vērtību. Šajā gadījumā ir jānošķir vienpusējās un divpusējās kritiskās zonas. Kritiskā apgabala norādīšanas forma ir atkarīga no problēmas formulējuma, kad statistikas pētījumi. Salīdzinot izlases parametru un populācijas parametru, ir nepieciešams divpusējs kritiskais apgabals

nepieciešams novērtēt to nesakritības absolūto vērtību, t.i., interesē gan pozitīvās, gan negatīvās atšķirības starp pētītajiem lielumiem. Ja ir jāpārliecinās, ka viena vērtība vidēji ir stingri lielāka vai mazāka par citu, tiek izmantots vienpusējs kritiskais apgabals (labās vai kreisās puses). Ir pilnīgi skaidrs, ka vienai un tai pašai kritiskajai vērtībai nozīmīguma līmenis, izmantojot vienpusēju kritisko apgabalu, ir mazāks nekā tad, ja tiek izmantots divpusējs.

Rīsi. 24. Nulles hipotēzes pārbaude

Ja izlases raksturlieluma sadalījums ir simetrisks, tad divpusējā kritiskā apgabala nozīmīguma līmenis ir vienāds ar a, bet vienpusējais kritiskais apgabals ir vienāds ar y (sk. 24. att.). Aprobežosimies ar problēmas vispārīgo formulējumu. Sīkāk ar testa teorētisko pamatojumu statistiskās hipotēzes jūs varat satikties specializētā literatūra. Tālāk mēs norādīsim tikai nozīmīguma kritērijus dažādas procedūras, neapstājoties pie to uzbūves.

Pārbaudot pāra korelācijas koeficienta nozīmīgumu, tiek konstatēta korelācijas esamība vai neesamība starp pētāmajām parādībām. Ja sakarības nav, kopas korelācijas koeficients ir vienāds ar nulli Pārbaudes procedūra sākas ar nulles un alternatīvo hipotēžu formulēšanu:

Atšķirība starp izlases korelācijas koeficientu ir nenozīmīga,

Atšķirība starp tiem ir būtiska, un tāpēc starp to mainīgajiem ir būtiska saistība. Alternatīvā hipotēze nozīmē, ka mums ir jāizmanto divpusējs kritiskais reģions.

Jau 8.1. sadaļā tika minēts, ka izlases korelācijas koeficients pie noteiktiem pieņēmumiem ir saistīts ar gadījuma lielumu, kas pakļauts Stjudenta sadalījumam ar brīvības pakāpēm. Statistika aprēķināta no izlases rezultātiem

tiek salīdzināta ar kritisko vērtību, kas noteikta no Studenta sadalījuma tabulas noteiktā nozīmīguma līmenī a un brīvības pakāpēs. Kritērija piemērošanas noteikums ir šāds: ja nulles hipotēze tiek noraidīta nozīmīguma līmenī a, tas ir, attiecības starp mainīgajiem ir nozīmīgas; ja tad tiek pieņemta nulles hipotēze nozīmīguma līmenī a. Vērtības novirzi no var attiecināt uz nejaušu variāciju. Izlases dati aplūkojamo hipotēzi raksturo kā ļoti iespējamu un ticamu, t.i., hipotēze par sakarības neesamību iebildumus nerada.

Hipotēžu pārbaudes procedūra ir ievērojami vienkāršota, ja statistikas vietā tiek izmantotas korelācijas koeficienta kritiskās vērtības, kuras var noteikt caur Studenta sadalījuma kvantilēm, aizstājot

Ir detalizētas kritisko vērtību tabulas, kuru fragments ir sniegts šīs grāmatas pielikumā (sk. 6. tabulu). Noteikums hipotēzes pārbaudei šajā gadījumā ir šāds: ja tā, mēs varam apgalvot, ka attiecības starp mainīgajiem ir nozīmīgas. Ja tā, mēs uzskatām, ka novērojumu rezultāti atbilst hipotēzei par savienojuma neesamību.

Pārbaudīsim hipotēzi par darba ražīguma neatkarību no darba mehanizācijas līmeņa pēc 4.1. sadaļā sniegtajiem datiem. Iepriekš tika aprēķināts, ka No (8.38) iegūstam

Izmantojot Studenta sadalījuma tabulu, mēs atrodam šīs statistikas kritisko vērtību: Tā kā mēs noraidām nulles hipotēzi, kļūda tiek pieļauta tikai 5% gadījumu.

To pašu rezultātu iegūsim, ja salīdzināsim ar korelācijas koeficienta kritisko vērtību, kas atrasta no atbilstošās tabulas plkst

kam ir -sadale ar brīvības pakāpēm. Tālāk nozīmīguma pārbaudes procedūra tiek veikta līdzīgi kā iepriekšējā, izmantojot -kritēriju.

Piemērs

Pamatojoties uz parādību ekonomisko analīzi, kopējā populācijā pieņemam ciešu saikni starp darba ražīgumu un darba mehanizācijas līmeni. Ļaujiet, piemēram, . Kā alternatīvu šajā gadījumā varam izvirzīt hipotēzi, ka izlases korelācijas koeficients Līdz ar to ir jāizmanto vienpusējs kritiskais apgabals. No (8.40) izriet, ka

Iegūto vērtību salīdzinām ar kritisko vērtību Mums ir Tādējādi pie 5% nozīmīguma līmeņa varam pieņemt ļoti ciešas sakarības esamību starp pētītajiem raksturlielumiem, t.i., sākotnējie dati ļauj uzskatīt par ticamu, ka

Līdzīgā veidā tiek pārbaudīta daļējās korelācijas koeficientu nozīme. Mainās tikai brīvības pakāpju skaits, kas kļūst vienāds ar kur ir skaidrojošo mainīgo skaits. Statistikas vērtība, kas aprēķināta, izmantojot formulu

tiek salīdzināta ar sadalījuma tabulā atrasto kritisko vērtību a nozīmīguma līmenī a un brīvības pakāpju skaitu.. Hipotēzes par daļējās korelācijas koeficienta nozīmīgumu pieņemšana vai noraidīšana tiek veikta saskaņā ar to pašu noteikumu, kas aprakstīts iepriekš . Nozīmīguma pārbaudi var veikt arī, izmantojot korelācijas koeficienta kritiskās vērtības saskaņā ar (8.39), kā arī izmantojot Fišera transformāciju (8.40).

Piemērs

Pārbaudīsim statistiskā ticamība 4.5. sadaļā aprēķinātie daļējās korelācijas koeficienti nozīmīguma līmenī Zemāk kopā ar daļējās korelācijas koeficientiem ir norādītas atbilstošās aprēķinātās un kritiskās statistikas vērtības

Sakarā ar to, ka tiek pieņemta hipotēze par koeficientu nozīmīgumu, secinām: darba mehanizācijas līmenim ir būtiska ietekme uz darba ražīgumu, izslēdzot strādnieku vidējā vecuma (un vidējā atbilstības procenta) ietekmi. standarti). Atlikušo koeficientu atšķirība no nulles

daļējas korelācijas var attiecināt uz izlases nejaušām svārstībām, un tāpēc no tām nevaram pateikt neko konkrētu par attiecīgo mainīgo daļējām ietekmēm.

Daudzkārtējās korelācijas koeficienta nozīmīgumu vērtē pēc koeficienta nozīmīguma pārbaudes procedūras rezultāta daudzkārtēja noteikšana. Par to mēs runāsim sīkāk nākamajā sadaļā.

Bieži vien interesants jautājums ir: vai divi korelācijas koeficienti būtiski atšķiras viens no otra? Pārbaudot šo hipotēzi, tiek pieņemts, ka tiek ņemtas vērā vienas un tās pašas homogēno populāciju īpašības; dati atspoguļo rezultātus neatkarīgi testi; tiek izmantoti viena veida korelācijas koeficienti, t.i., vai nu pāru korelācijas koeficienti, vai daļējas korelācijas koeficienti, izslēdzot vienādu mainīgo skaitu.

Divu paraugu apjomi, no kuriem aprēķina korelācijas koeficientus, var atšķirties. Nulles hipotēze: t.i., abu aplūkojamo populāciju korelācijas koeficienti ir vienādi. Alternatīva hipotēze: alternatīvā hipotēze nozīmē, ka jāizmanto divvirzienu kritiskais apgabals. Citiem vārdiem sakot, jums vajadzētu pārbaudīt, vai atšķirība būtiski atšķiras no nulles. Izmantosim statistiku, kurai ir aptuveni normāls sadalījums:

kur - korelācijas koeficientu transformāciju rezultāti - paraugu tilpumi. Pārbaudes noteikums: ja tad hipotēze tiek noraidīta; ja tad hipotēze tiek pieņemta.

Ja pieņemts, vērtība

pēc pārrēķina, izmantojot (8.6) kalpo kā korelācijas koeficienta kopsavilkuma novērtējums Tālāk hipotēzi var pārbaudīt, izmantojot statistiku

kam ir normāls sadalījums.

Piemērs

Jānoskaidro, vai vienas nozares uzņēmumos, kas atrodas dažādos valsts reģionos, darba ražīguma un darba mehanizācijas līmeņa sakarības ciešums atšķiras. Salīdzināsim uzņēmumus, kas atrodas divās jomās. Aprēķiniet korelācijas koeficientu vienam no tiem, izmantojot tilpuma paraugu (sk. 4.1. sadaļu). Citam reģionam, kas aprēķināts, izmantojot tilpuma paraugu

Pēc abu korelācijas koeficientu pārvēršanas -vērtībās, mēs aprēķinām, izmantojot (8.42) statistikas X vērtību:

Statistikas kritiskā vērtība pie ir Tādējādi hipotēze ir pieņemta, t.i., pamatojoties uz pieejamajiem paraugiem, nevaram noteikt būtisku atšķirību starp korelācijas koeficientiem. Turklāt abi korelācijas koeficienti ir nozīmīgi.

Izmantojot (8.43) un (8.6), mēs iegūstam korelācijas koeficienta kopsavilkuma novērtējumu diviem reģioniem:

Visbeidzot, pārbaudīsim hipotēzi, vai korelācijas koeficienta kopsavilkuma novērtējums būtiski atšķiras no nulles, izmantojot statistiku (8.44):

Tā kā mēs varam apgalvot, ka iedzīvotāju vidū pastāv būtiska saikne starp darba ražīgumu un darba mehanizācijas līmeni.

X kritēriju var izmantot dažādos aspektos. Tādējādi reģionu vietā var aplūkot dažādas nozares, piemēram, kad nepieciešams noteikt, vai atšķirības pētīto sakarību stiprumā starp divām dažādām nozarēm piederošo uzņēmumu ekonomiskajiem rādītājiem ir būtiskas.

Aprēķināsim, pamatojoties uz diviem apjoma paraugiem, korelācijas koeficientus, kas raksturo ciešo saistību starp darba ražīgumu un darba mehanizācijas līmeni divu nozaru uzņēmumos (divas vispārējās populācijas). No (8.42) iegūstam

Tā kā mēs noraidām nulles hipotēzi. Līdz ar to var apgalvot, ka pastāv būtiskas atšķirības dažādu nozaru uzņēmumos darba ražīguma un darba mehanizācijas līmeņa sakarības ciešumā. Mēs turpināsim šo piemēru 8.7. sadaļā, kur salīdzināsim regresijas līnijas, kas konstruētas divām populācijām.

Analizējot sniegtos piemērus, esam pārliecināti, ka, ņemot vērā tikai salīdzināmo korelācijas koeficientu absolūto atšķirību

(abos gadījumos paraugu izmēri ir vienādi), nepārbaudot šīs atšķirības nozīmīgumu, tiks izdarīti kļūdaini secinājumi. Tas apstiprina nepieciešamību izmantot statistikas kritērijus, salīdzinot korelācijas koeficientus.

Divu korelācijas koeficientu salīdzināšanas procedūru var vispārināt uz lielāks skaits koeficientus, ievērojot iepriekš minētos priekšnoteikumus. Hipotēze par korelācijas koeficientu vienādību starp mainīgajiem tiek izteikta šādi: To pārbauda, ​​pamatojoties uz korelācijas koeficientiem, kas aprēķināti no tilpuma paraugiem no vispārējās populācijas. korelācijas koeficienti tiek pārrēķināti -vērtībās: Kopš in vispārējs gadījums nezināms, mēs atrodam tā novērtējumu, izmantojot formulu, kas ir (8.43) vispārinājums.

KURSA DARBS

Tēma: Korelācijas analīze

Ievads

1. Korelācijas analīze

1.1. Korelācijas jēdziens

1.2 Vispārējā klasifikācija korelācijas

1.3. Korelācijas lauki un to izveides mērķis

1.4. Posmi korelācijas analīze

1.5. Korelācijas koeficienti

1.6. Normalizētais Bravai-Pīrsona korelācijas koeficients

1.7 Koeficients rangu korelācija Spīrmens

1.8. Korelācijas koeficientu pamatīpašības

1.9. Korelācijas koeficientu nozīmīguma pārbaude

1.10 Kritiskās vērtības pāra korelācijas koeficients

2. Daudzfaktoru eksperimenta plānošana

2.1 Problēmas stāvoklis

2.2. Plāna centra (pamata līmeņa) un faktoru variācijas līmeņa noteikšana

2.3. Plānošanas matricas izveide

2.4. Izkliedes viendabīguma un mērījumu ekvivalences pārbaude dažādās sērijās

2.5 Regresijas vienādojuma koeficienti

2.6. Reproducējamības dispersija

2.7. Regresijas vienādojuma koeficientu nozīmīguma pārbaude

2.8. Regresijas vienādojuma atbilstības pārbaude

Secinājums

Bibliogrāfija

IEVADS

Eksperimentālā plānošana ir matemātiskā un statistikas disciplīna, kas pēta eksperimentālo pētījumu racionālas organizēšanas metodes - no plkst. optimāla izvēle pētāmajiem faktoriem un faktiskā eksperimenta plāna noteikšanu atbilstoši tā mērķim līdz rezultātu analīzes metodēm. Eksperimentu plānošana sākās ar angļu statistiķa R. Fišera (1935) darbiem, kurš uzsvēra, ka racionālā eksperimentālā plānošana sniedz ne mazāk nozīmīgus ieguvumus aplēšu precizitātē nekā mērījumu rezultātu optimāla apstrāde. 20. gadsimta 60. gados bija mūsdienu teorija plānojot eksperimentu. Viņas metodes ir cieši saistītas ar funkciju aproksimācijas teoriju un matemātisko programmēšanu. Tika izveidoti optimālie plāni un pētītas to īpašības plašai modeļu klasei.

Eksperimentālā plānošana – noteiktām prasībām atbilstoša eksperimenta plāna izvēle, darbību kopums, kas vērsts uz eksperimentēšanas stratēģijas izstrādi (no a priori informācijas iegūšanas līdz funkcionējoša matemātiskā modeļa iegūšanai vai noteikšanai optimālos apstākļos). Tā ir mērķtiecīga eksperimenta kontrole, kas tiek īstenota nepilnīgu zināšanu apstākļos par pētāmās parādības mehānismu.

Mērījumu, turpmākās datu apstrādes, kā arī rezultātu formalizēšanas matemātiskā modeļa veidā procesā rodas kļūdas un tiek zaudēta daļa sākotnējos datos ietvertās informācijas. Eksperimentālās plānošanas metožu izmantošana ļauj noteikt matemātiskā modeļa kļūdu un spriest par tā atbilstību. Ja modeļa precizitāte izrādās nepietiekama, tad eksperimentālās plānošanas metožu izmantošana ļauj modernizēt matemātiskais modelis ar papildu eksperimentiem, nezaudējot iepriekšējo informāciju un ar minimālām izmaksām.

Eksperimenta plānošanas mērķis ir atrast tādus apstākļus un noteikumus eksperimentu veikšanai, saskaņā ar kuriem ir iespējams iegūt ticamu un uzticamu informāciju par objektu ar vismazāko darbaspēka daudzumu, kā arī sniegt šo informāciju kompaktā un ērtā formā. ar kvantitatīvu precizitātes novērtējumu.

Starp galvenajām plānošanas metodēm, ko izmanto dažādos pētījuma posmos, ir:

Skrīninga eksperimenta plānošana, kura galvenā nozīme ir būtisko faktoru grupas atlase no visa faktoru kopuma, kas tiek pakļauta turpmākai detalizētai izpētei;

Eksperimenta plānošana priekš dispersijas analīze, t.i. objektu plānu sastādīšana ar kvalitatīviem faktoriem;

Regresijas eksperimenta plānošana, kas ļauj iegūt regresijas modeļi(polinoms un citi);

Ekstrēma eksperimenta plānošana, kurā galvenais uzdevums ir pētāmā objekta eksperimentālā optimizācija;

Plānošana, pētot dinamiskos procesus utt.

Disciplīnas studiju mērķis ir sagatavot studentus ražošanas un tehniskajām aktivitātēm savā specialitātē, izmantojot plānošanas teorijas metodes un mūsdienu informācijas tehnoloģijas.

Disciplīnas mērķi: studijas modernas metodes zinātnisko un rūpniecisko eksperimentu plānošana, organizēšana un optimizēšana, eksperimentu veikšana un iegūto rezultātu apstrāde.

1. KORELĀCIJAS ANALĪZE

1.1 Korelācijas jēdziens

Pētnieku bieži interesē, kā divi vai vairāki mainīgie ir saistīti viens ar otru vienā vai vairākos pētītajos paraugos. Piemēram, vai augums var ietekmēt cilvēka svaru vai asinsspiediens var ietekmēt produkta kvalitāti?

Šāda veida atkarību starp mainīgajiem sauc par korelāciju vai korelāciju. Korelācija ir divu raksturlielumu konsekventas izmaiņas, kas atspoguļo faktu, ka viena raksturlieluma mainīgums ir saskaņā ar otra raksturlielumu mainīgumu.

Ir zināms, piemēram, ka vidēji ir pozitīva sakarība starp cilvēku augumu un svaru, un jo lielāks augums, jo lielāks ir cilvēka svars. Tomēr šim noteikumam ir izņēmumi, ja tas ir relatīvs īsi cilvēki ir liekais svars, un, gluži pretēji, astēnijām ar augstu augšanu ir mazs svars. Šādu izņēmumu iemesls ir tas, ka katrs bioloģiskais, fizioloģiskais vai psiholoģiskā zīme nosaka daudzu faktoru ietekme: vides, ģenētiskā, sociālā, vides utt.

Korelācijas savienojumi ir varbūtības izmaiņas, kuras var pētīt tikai reprezentatīvos izlasēs, izmantojot matemātiskās statistikas metodes. Abi termini - korelācijas saite un korelācijas atkarība - bieži tiek lietoti kā sinonīmi. Atkarība nozīmē ietekmi, saikni - jebkuras koordinētas izmaiņas, kuras var izskaidrot ar simtiem iemeslu. Korelācijas sakarības nevar uzskatīt par cēloņsakarības pierādījumu, tās tikai norāda, ka izmaiņas vienā pazīmē parasti pavada noteiktas izmaiņas citā.

Korelācijas atkarība - tās ir izmaiņas, kas ievieš viena raksturlieluma vērtības rašanās varbūtībā dažādas nozīmes vēl viena zīme.

Korelācijas analīzes uzdevums ir noteikt sakarības virzienu (pozitīvs vai negatīvs) un formu (lineārs, nelineārs), mērīt to tuvumu un, visbeidzot, pārbaudīt iegūto korelācijas koeficientu nozīmīguma līmeni.

Korelācijas savienojumi atšķiras pēc formas, virziena un pakāpes (stipruma) .

Korelācijas attiecības forma var būt lineāra vai izliekta. Piemēram, saikne starp treniņu sesiju skaitu simulatorā un pareizi atrisināto problēmu skaitu kontroles sesijā var būt vienkārša. Piemēram, saistība starp motivācijas līmeni un uzdevuma efektivitāti var būt izliekta (1. attēls). Paaugstinoties motivācijai, vispirms palielinās uzdevuma izpildes efektivitāte, tad tiek sasniegts optimālais motivācijas līmenis, kas atbilst maksimālajai uzdevuma izpildes efektivitātei; Tālāku motivācijas pieaugumu pavada efektivitātes samazināšanās.

1. attēls - Problēmu risināšanas efektivitātes un motivācijas tendenču stipruma saikne

Virzienā korelācijas sakarība var būt pozitīva (“tieša”) un negatīva (“apgriezta”). Ar pozitīvu lineāro korelāciju viena raksturlieluma augstākas vērtības atbilst cita raksturlieluma augstākām vērtībām, un viena raksturlieluma zemākas vērtības atbilst zemas vērtības cits (2. attēls). Ar negatīvu korelāciju attiecības ir apgrieztas (3. attēls). Ar pozitīvu korelāciju korelācijas koeficients ir pozitīva zīme, ar negatīvu korelāciju - negatīva zīme.

2. attēls. Tiešā korelācija

3. attēls. Apgrieztā korelācija


4. attēls – nav korelācijas

Korelācijas pakāpi, stiprumu vai tuvumu nosaka korelācijas koeficienta vērtība. Savienojuma stiprums nav atkarīgs no tā virziena, un to nosaka korelācijas koeficienta absolūtā vērtība.

1.2 Vispārējā korelāciju klasifikācija

Atkarībā no korelācijas koeficienta izšķir šādas korelācijas:

Spēcīgs vai tuvu ar korelācijas koeficientu r>0,70;

Vidēji (pie 0,50

Mērens (pie 0.30

Vāji (pie 0,20

Ļoti vāja (pie r<0,19).

1.3. Korelācijas lauki un to izveides mērķis

Korelācija tiek pētīta, pamatojoties uz eksperimentāliem datiem, kas ir divu raksturlielumu izmērītās vērtības (x i, y i). Ja ir maz eksperimentālo datu, tad divdimensiju empīriskais sadalījums tiek attēlots kā x i un y i vērtību dubultā sērija. Tajā pašā laikā raksturlielumu korelācijas atkarību var aprakstīt dažādi. Argumenta un funkcijas atbilstību var norādīt ar tabulu, formulu, grafiku utt.

Korelācijas analīze, tāpat kā citas statistikas metodes, balstās uz varbūtības modeļu izmantošanu, kas apraksta pētāmo pazīmju uzvedību noteiktā vispārējā populācijā, no kuras iegūst eksperimentālās vērtības xi un y i. Pētot korelāciju starp kvantitatīviem raksturlielumiem, kuru vērtības var precīzi izmērīt metriskās skalas vienībās (metros, sekundēs, kilogramos utt.), ļoti bieži tiek pieņemts divdimensiju normāli sadalīts populācijas modelis. Šāds modelis grafiski parāda attiecības starp mainīgajiem lielumiem x i un y i kā punktu ģeometrisko izvietojumu taisnstūra koordinātu sistēmā. Šo grafisko attiecību sauc arī par izkliedes diagrammu vai korelācijas lauku.
Šis divdimensiju normālā sadalījuma modelis (korelācijas lauks) ļauj sniegt skaidru korelācijas koeficienta grafisku interpretāciju, jo sadalījums kopā ir atkarīgs no pieciem parametriem: μ x, μ y – vidējās vērtības (matemātiskās cerības); σ x ,σ y – gadījuma lielumu X un Y standartnovirzes un p – korelācijas koeficients, kas ir gadījuma lielumu X un Y attiecības mērs.
Ja p = 0, tad vērtības x i , y i, kas iegūtas no divdimensiju normālās populācijas, atrodas grafikā koordinātēs x, y apļa ierobežotajā apgabalā (5. attēls, a). Šajā gadījumā starp nejaušajiem mainīgajiem X un Y nav korelācijas, un tos sauc par nekorelētiem. Divdimensiju normālajam sadalījumam nekorelācija vienlaikus nozīmē gadījuma lielumu X un Y neatkarību.

Zinātniskajos pētījumos bieži vien ir jāatrod saikne starp iznākuma un faktoru mainīgajiem (ražas raža un nokrišņu daudzums, cilvēka augums un svars homogēnās grupās pēc dzimuma un vecuma, sirdsdarbība un ķermeņa temperatūra utt.).

Otrās ir pazīmes, kas veicina izmaiņas tajās, kas ar tām saistītas (pirmā).

Korelācijas analīzes jēdziens

Ir daudz Pamatojoties uz iepriekš minēto, mēs varam teikt, ka korelācijas analīze ir metode, ko izmanto, lai pārbaudītu hipotēzi par divu vai vairāku mainīgo statistisko nozīmīgumu, ja pētnieks var tos izmērīt, bet ne mainīt.

Ir arī citas attiecīgā jēdziena definīcijas. Korelācijas analīze ir apstrādes metode, kas ietver mainīgo lielumu korelācijas koeficientu izpēti. Šajā gadījumā tiek salīdzināti korelācijas koeficienti starp vienu vai vairākiem raksturlielumu pāriem, lai noteiktu statistiskās attiecības starp tiem. Korelācijas analīze ir metode, lai pētītu statistisko atkarību starp nejaušiem mainīgajiem ar neobligātu stingra funkcionāla rakstura klātbūtni, kurā viena nejaušā mainīgā dinamika noved pie cita gadījuma matemātisko gaidu dinamikas.

Viltus korelācijas jēdziens

Veicot korelācijas analīzi, jāņem vērā, ka to var veikt attiecībā uz jebkuru pazīmju kopumu, bieži vien absurdu attiecībā pret otru. Dažreiz viņiem nav cēloņsakarības vienam ar otru.

Šajā gadījumā viņi runā par nepatiesu korelāciju.

Korelācijas analīzes problēmas

Pamatojoties uz augstāk minētajām definīcijām, varam formulēt šādus aprakstītās metodes uzdevumus: iegūt informāciju par vienu no meklētajiem mainīgajiem, izmantojot citu; noteikt pētāmo mainīgo attiecību ciešumu.

Korelācijas analīze ietver sakarības noteikšanu starp pētāmajiem raksturlielumiem, tāpēc korelācijas analīzes uzdevumus var papildināt ar sekojošo:

  • faktoru noteikšana, kuriem ir vislielākā ietekme uz iegūto raksturlielumu;
  • iepriekš neizpētītu savienojumu cēloņu noteikšana;
  • korelācijas modeļa konstruēšana ar tā parametru analīzi;
  • komunikācijas parametru nozīmes izpēte un to intervālu novērtējums.

Saistība starp korelācijas analīzi un regresiju

Korelācijas analīzes metode bieži vien neaprobežojas tikai ar pētāmo lielumu attiecības ciešuma noteikšanu. Dažreiz to papildina regresijas vienādojumu apkopošana, kas iegūti, izmantojot tāda paša nosaukuma analīzi, un kas atspoguļo korelācijas atkarību starp iegūto un faktoru (faktoru) raksturlielumu (iezīmēm). Šī metode kopā ar aplūkojamo analīzi veido metodi

Metodes izmantošanas nosacījumi

Efektīvie faktori ir atkarīgi no viena vai vairākiem faktoriem. Korelācijas analīzes metodi var izmantot, ja ir liels novērojumu skaits par efektīvo un faktoru rādītāju (faktoru) vērtību, savukārt pētāmajiem faktoriem jābūt kvantitatīviem un atspoguļotiem konkrētos avotos. Pirmo var noteikt ar parasto likumu - šajā gadījumā korelācijas analīzes rezultāts ir Pīrsona korelācijas koeficienti vai, ja raksturlielumi šim likumam neatbilst, tiek izmantots Spīrmena ranga korelācijas koeficients.

Korelācijas analīzes faktoru izvēles noteikumi

Piemērojot šo metodi, ir jānosaka faktori, kas ietekmē darbības rādītājus. Tie tiek izvēlēti, ņemot vērā to, ka starp rādītājiem ir jābūt cēloņsakarībām. Daudzfaktoru korelācijas modeļa izveides gadījumā tiek atlasīti tie, kuriem ir būtiska ietekme uz iegūto rādītāju, savukārt korelācijas modelī vēlams neiekļaut savstarpēji atkarīgos faktorus, kuru pāru korelācijas koeficients ir lielāks par 0,85, kā arī tos kuriem saistība ar rezultējamo parametru nav lineāra vai funkcionāla.

Rāda rezultātus

Korelācijas analīzes rezultātus var attēlot teksta un grafiskā formā. Pirmajā gadījumā tie tiek uzrādīti kā korelācijas koeficients, otrajā - izkliedes diagrammas veidā.

Ja starp parametriem nav korelācijas, diagrammas punkti atrodas haotiski, vidējo savienojuma pakāpi raksturo lielāka kārtības pakāpe, un to raksturo vairāk vai mazāk vienmērīgs atzīmēto atzīmju attālums no mediānas. Spēcīgs savienojums mēdz būt taisns, un pie r = 1 punktveida diagramma ir plakana līnija. Reversā korelācija atšķiras grafika virzienā no augšējā kreisā uz apakšējo labo, tiešā korelācija - no apakšējā kreisā uz augšējo labo stūri.

Izkliedes diagrammas 3D attēlojums

Papildus tradicionālajam 2D ​​izkliedes diagrammas displejam tagad tiek izmantots korelācijas analīzes 3D grafiskais attēlojums.

Tiek izmantota arī izkliedes matrica, kas parāda visus pārī savienotos diagrammas vienā attēlā matricas formātā. n mainīgajiem matricā ir n rindas un n kolonnas. Diagramma, kas atrodas i-tās rindas un j-tās kolonnas krustpunktā, ir mainīgo Xi un Xj diagramma. Tādējādi katra rinda un kolonna ir viena dimensija, viena šūna parāda divu dimensiju izkliedes diagrammu.

Savienojuma blīvuma novērtēšana

Korelācijas sakarības ciešumu nosaka korelācijas koeficients (r): stiprs - r = ±0,7 līdz ±1, vidējs - r = ±0,3 līdz ±0,699, vājš - r = 0 līdz ±0,299. Šī klasifikācija nav stingra. Attēlā parādīta nedaudz atšķirīga diagramma.

Korelācijas analīzes metodes izmantošanas piemērs

Apvienotajā Karalistē tika veikts interesants pētījums. Tas ir veltīts saiknei starp smēķēšanu un plaušu vēzi, un tas tika veikts, izmantojot korelācijas analīzi. Šis novērojums ir parādīts zemāk.

Sākotnējie dati korelācijas analīzei

Profesionālā grupa

mirstība

Zemnieki, mežsaimnieki un zvejnieki

Kalnrači un karjeru strādnieki

Gāzes, koksa un ķīmisko vielu ražotāji

Stikla un keramikas ražotāji

Krāšņu, kalumu, lietuvju un velmētavu strādnieki

Elektrības un elektronikas darbinieki

Inženierzinātnes un saistītās profesijas

Kokapstrādes nozares

Ādas apstrādātāji

Tekstilstrādnieki

Darba apģērbu ražotāji

Strādnieki pārtikas, dzērienu un tabakas rūpniecībā

Papīra un drukas ražotāji

Citu preču ražotāji

Būvnieki

Gleznotāji un dekoratori

Stacionāro dzinēju vadītāji, celtņi u.c.

Strādnieki, kas nav iekļauti citur

Transporta un sakaru darbinieki

Noliktavas strādnieki, noliktavas darbinieki, fasētāji un pildīšanas iekārtu strādnieki

Biroja darbinieki

Pārdevēji

Sporta un atpūtas darbinieki

Administratori un vadītāji

Profesionāļi, tehniķi un mākslinieki

Mēs sākam korelācijas analīzi. Skaidrības labad risinājumu labāk sākt ar grafisku metodi, kurai konstruēsim izkliedes diagrammu.

Tas parāda tiešu saikni. Tomēr, pamatojoties tikai uz grafisko metodi, ir grūti izdarīt nepārprotamu secinājumu. Tāpēc mēs turpināsim veikt korelācijas analīzi. Tālāk ir sniegts korelācijas koeficienta aprēķināšanas piemērs.

Izmantojot programmatūru (MS Excel tiks aprakstīts zemāk kā piemērs), mēs nosakām korelācijas koeficientu, kas ir 0,716, kas nozīmē spēcīgu saikni starp pētāmajiem parametriem. Noteiksim iegūtās vērtības statistisko ticamību, izmantojot atbilstošo tabulu, kurai no 25 vērtību pāriem jāatņem 2, kā rezultātā iegūstam 23 un izmantojot šo rindu tabulā atrodam r kritisku p = 0,01 (kopš tie ir medicīniski dati, stingrāka atkarība, citos gadījumos pietiek ar p=0,05), kas šai korelācijas analīzei ir 0,51. Piemērā tika parādīts, ka aprēķinātais r ir lielāks par kritisko r, un korelācijas koeficienta vērtība tiek uzskatīta par statistiski ticamu.

Programmatūras izmantošana, veicot korelācijas analīzi

Aprakstīto statistisko datu apstrādes veidu var veikt, izmantojot programmatūru, īpaši MS Excel. Korelācija ietver šādu parametru aprēķināšanu, izmantojot funkcijas:

1. Korelācijas koeficientu nosaka, izmantojot funkciju CORREL (masīvs1; masīvs2). Masīvs1,2 - rezultējošo un faktoru mainīgo vērtību intervāla šūna.

Lineārās korelācijas koeficients tiek saukts arī par Pīrsona korelācijas koeficientu, un tāpēc, sākot ar programmu Excel 2007, varat izmantot funkciju ar tiem pašiem masīviem.

Korelācijas analīzes grafiskais attēlojums programmā Excel tiek veikts, izmantojot paneli “Diagrammas” ar atlasi “Scatter Plot”.

Pēc sākotnējo datu norādīšanas iegūstam grafiku.

2. Pāru korelācijas koeficienta nozīmīguma novērtēšana, izmantojot Stjudenta t-testu. Aprēķināto t kritērija vērtību salīdzina ar šī rādītāja tabulēto (kritisko) vērtību no attiecīgā parametra atbilstošās vērtību tabulas, ņemot vērā norādīto nozīmīguma līmeni un brīvības pakāpju skaitu. Šis novērtējums tiek veikts, izmantojot funkciju STUDISCOVER(varbūtība; brīvības_pakāpes).

3. Pāru korelācijas koeficientu matrica. Analīze tiek veikta, izmantojot datu analīzes rīku, kurā ir atlasīta Korelācija. Pāru korelācijas koeficientu statistiskais novērtējums tiek veikts, salīdzinot to absolūto vērtību ar tabulēto (kritisko) vērtību. Kad aprēķinātais pāru korelācijas koeficients pārsniedz kritisko, mēs, ņemot vērā doto varbūtības pakāpi, varam teikt, ka nulles hipotēze par lineārās attiecības nozīmīgumu netiek noraidīta.

Beidzot

Korelācijas analīzes metodes izmantošana zinātniskajos pētījumos ļauj noteikt sakarības starp dažādiem faktoriem un darbības rādītājiem. Jāņem vērā, ka augstu korelācijas koeficientu var iegūt no absurda datu pāra vai kopas, un tāpēc šāda veida analīze ir jāveic pietiekami lielam datu masīvam.

Pēc r aprēķinātās vērtības iegūšanas vēlams to salīdzināt ar kritisko r, lai apstiprinātu noteiktas vērtības statistisko ticamību. Korelācijas analīzi var veikt manuāli, izmantojot formulas, vai izmantojot programmatūru, jo īpaši MS Excel. Šeit var izveidot arī izkliedes diagrammu, lai vizuāli attēlotu saistību starp pētītajiem korelācijas analīzes faktoriem un iegūto raksturlielumu.



Jaunums vietnē

>

Populārākais