Bahay Oral cavity Paano suriin ang kahalagahan ng mga coefficient ng ugnayan. Pagsusulit: Pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's f-test

Paano suriin ang kahalagahan ng mga coefficient ng ugnayan. Pagsusulit: Pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's f-test

Mag-ehersisyo. Para sa mga teritoryo ng rehiyon, ang data para sa 199X ay ibinigay;
Numero ng rehiyon Average na per capita living wage bawat araw ng isang matipunong tao, rub., X Average na araw-araw na sahod, rub., sa
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Kailangan:
1. Bumuo ng linear equation para sa pares na regression ng y mula sa x.
2. Kalkulahin linear coefficient pairwise correlation at average na error ng approximation.
3. Tayahin ang istatistikal na kahalagahan ng mga parameter ng regression at ugnayan.
4. Magpatakbo ng pagtataya sahod y na may pagtataya na halaga ng average per capita subsistence level x na umaabot sa 107% ng average na antas.
5. Tayahin ang katumpakan ng hula sa pamamagitan ng pagkalkula ng error sa pagtataya at agwat ng kumpiyansa nito.

Solusyon maghanap gamit ang isang calculator.
Paggamit graphic na pamamaraan .
Ang pamamaraang ito ay ginagamit upang biswal na ilarawan ang anyo ng koneksyon sa pagitan ng pinag-aralan mga tagapagpahiwatig ng ekonomiya. Upang gawin ito, ang isang graph ay iginuhit sa isang hugis-parihaba na sistema ng coordinate, ang mga indibidwal na halaga ng nagreresultang katangian Y ay naka-plot kasama ang ordinate axis, at ang mga indibidwal na halaga ng factor na katangian X ay naka-plot kasama ang abscissa axis.
Tinatawag ang hanay ng mga puntos ng resultang at mga katangian ng salik larangan ng ugnayan.
Batay sa larangan ng ugnayan, maaari nating i-hypothesize (para sa populasyon) na ang ugnayan sa pagitan ng lahat ng posibleng halaga ng X at Y ay linear.
Ang linear regression equation ay y = bx + a + ε
Narito ang ε ay isang random na error (paglihis, kaguluhan).
Mga dahilan para sa pagkakaroon ng isang random na error:
1. Pagkabigong isama ang mga makabuluhang variable na nagpapaliwanag sa modelo ng regression;
2. Pagsasama-sama ng mga variable. Halimbawa, ang kabuuang function ng pagkonsumo ay isang pagtatangka na ipahayag sa pangkalahatan ang pinagsama-samang mga desisyon sa paggastos ng indibidwal. Ito ay pagtatantya lamang ng mga indibidwal na relasyon na may iba't ibang mga parameter.
3. Maling paglalarawan ng istraktura ng modelo;
4. Maling functional na detalye;
5. Mga error sa pagsukat.
Dahil ang mga deviations ε i para sa bawat tiyak na obserbasyon i ay random at ang kanilang mga halaga sa sample ay hindi alam, kung gayon:
1) mula sa mga obserbasyon x i at y i mga pagtatantya lamang ng mga parameter na α at β ang maaaring makuha
2) Ang mga pagtatantya ng mga parameter α at β ng regression model ay ang mga halaga a at b, ayon sa pagkakabanggit, na random sa kalikasan, dahil tumutugma sa isang random na sample;
Pagkatapos ang equation ng pagtatantya ng regression (na binuo mula sa sample na data) ay magkakaroon ng form na y = bx + a + ε, kung saan ang e i ay ang mga naobserbahang halaga (mga pagtatantya) ng mga error ε i , at ang a at b ay, ayon sa pagkakabanggit, mga pagtatantya ng ang mga parameter α at β ng regression model na dapat matagpuan.
Upang matantya ang mga parameter na α at β - ang paraan ng least squares (least squares method) ay ginagamit.
Sistema ng mga normal na equation.
Para sa aming data, ang sistema ng mga equation ay may anyo
Mula sa unang equation ay ipinapahayag namin ang isang at pinapalitan ito sa pangalawang equation
Nakukuha namin ang b = 0.92, a = 76.98
Regression equation:
y = 0.92 x + 76.98

1. Mga parameter ng equation ng regression.
Sample ibig sabihin.



Mga sample na pagkakaiba-iba:


Karaniwang lihis


Koepisyent ng ugnayan
Kinakalkula namin ang tagapagpahiwatig ng pagkakalapit ng koneksyon. Ang indicator na ito ay ang sample na linear correlation coefficient, na kinakalkula ng formula:

Ang linear correlation coefficient ay tumatagal ng mga halaga mula -1 hanggang +1.
Ang mga koneksyon sa pagitan ng mga katangian ay maaaring mahina at malakas (malapit). Ang kanilang mga pamantayan ay tinasa ayon sa sukat ng Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Sa aming halimbawa, ang koneksyon sa pagitan ng average na pang-araw-araw na sahod at ang average na per capita living wage ay mataas at direkta.
1.2. Regression equation(pagtatantya ng equation ng regression).

Ang linear regression equation ay y = 0.92 x + 76.98
Mga coefficient ng equation linear regression maaaring bigyan ng pang-ekonomiyang kahulugan.
Ang koepisyent b = 0.92 ay nagpapakita ng average na pagbabago sa epektibong tagapagpahiwatig (sa mga yunit ng pagsukat y) na may pagtaas o pagbaba sa halaga ng factor x bawat yunit ng pagsukat nito. Sa halimbawang ito, na may pagtaas ng 1 kuskusin. per capita subsistence level kada araw, ang average na pang-araw-araw na sahod ay tumataas ng average na 0.92.
Ang koepisyent a = 76.98 ay pormal na nagpapakita ng hinulaang antas ng average na pang-araw-araw na sahod, ngunit kung ang x=0 ay malapit lamang sa mga sample na halaga.
Sa pamamagitan ng pagpapalit ng naaangkop na mga halaga ng x sa equation ng regression, matutukoy natin ang nakahanay (hinulaang) mga halaga ng tagapagpahiwatig ng pagganap y(x) para sa bawat pagmamasid.
Ang relasyon sa pagitan ng average na pang-araw-araw na sahod at ang average na per capita subsistence minimum bawat araw ay tinutukoy ng sign ng regression coefficient b (kung > 0 - direktang relasyon, kung hindi - kabaligtaran). Sa aming halimbawa, ang koneksyon ay direkta.
Koepisyent ng pagkalastiko.
Hindi ipinapayong gumamit ng mga coefficient ng regression (sa halimbawa b) upang direktang masuri ang impluwensya ng mga salik sa isang resultang katangian kung may pagkakaiba sa mga yunit ng pagsukat ng resultang tagapagpahiwatig na y at ang katangian ng salik na x.
Para sa mga layuning ito, kinakalkula ang mga coefficient ng elasticity at mga beta coefficient. Ang koepisyent ng pagkalastiko ay matatagpuan sa pamamagitan ng formula:


Ipinapakita nito sa kung anong porsyento sa average ang mabisang katangian y nagbabago kapag ang salik na katangian x ay nagbabago ng 1%. Hindi nito isinasaalang-alang ang antas ng pagbabagu-bago ng mga kadahilanan.
Ang elasticity coefficient ay mas mababa sa 1. Samakatuwid, kung ang average per capita cost of living kada araw ay magbabago ng 1%, ang average na pang-araw-araw na sahod ay magbabago ng mas mababa sa 1%. Sa madaling salita, ang impluwensya ng average per capita subsistence level X sa average na pang-araw-araw na sahod Y ay hindi makabuluhan.
Beta koepisyent nagpapakita sa pamamagitan ng kung anong bahagi ng halaga ng average nito parisukat na paglihis ang average na halaga ng nagreresultang katangian ay magbabago kapag ang katangian ng salik ay nagbabago sa halaga ng karaniwang paglihis nito na may halaga ng natitirang mga independiyenteng variable na naayos sa isang pare-parehong antas:

Yung. ang pagtaas sa x ng standard deviation ng indicator na ito ay hahantong sa pagtaas sa average na pang-araw-araw na sahod Y ng 0.721 standard deviation ng indicator na ito.
1.4. Error sa pagtatantya.
Suriin natin ang kalidad ng equation ng regression gamit ang error ng absolute approximation.


Dahil ang error ay mas mababa sa 15%, ang equation na ito ay maaaring gamitin bilang regression.
Koepisyent ng determinasyon.
Ang parisukat ng (multiple) correlation coefficient ay tinatawag na coefficient of determination, na nagpapakita ng proporsyon ng variation sa resultang attribute na ipinaliwanag ng variation sa factor attribute.
Kadalasan, kapag binibigyang kahulugan ang koepisyent ng pagpapasiya, ito ay ipinahayag bilang isang porsyento.
R2 = 0.722 = 0.5199
mga. sa 51.99% ng mga kaso, ang mga pagbabago sa average na per capita subsistence level x ay humahantong sa pagbabago sa average na pang-araw-araw na sahod y. Sa madaling salita, ang katumpakan ng pagpili ng equation ng regression ay karaniwan. Ang natitirang 48.01% ng pagbabago sa average na pang-araw-araw na sahod Y ay ipinaliwanag ng mga salik na hindi isinasaalang-alang sa modelo.

x y x 2 y 2 x o y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Pagtataya ng mga parameter ng equation ng regression.
2.1. Kahalagahan ng koepisyent ng ugnayan.

Gamit ang talahanayan ng Mag-aaral na may antas ng kahalagahan α=0.05 at antas ng kalayaan k=10, makikita natin ang t crit:
t crit = (10;0.05) = 1.812
kung saan ang m = 1 ay ang bilang ng mga paliwanag na variable.
Kung t naobserbahan > t kritikal, ang resultang halaga ng koepisyent ng ugnayan ay maituturing na makabuluhan (ang null hypothesis na nagsasaad na ang koepisyent ng ugnayan ay katumbas ng zero ay tinanggihan).
Dahil t obs > t crit, tinatanggihan namin ang hypothesis na ang correlation coefficient ay katumbas ng 0. Sa madaling salita, ang koepisyent ng ugnayan ay makabuluhan sa istatistika.
Sa paired linear regression t 2 r = t 2 b at pagkatapos ay pagsubok ng mga hypothesis tungkol sa kahalagahan ng regression at correlation coefficients ay katumbas ng pagsubok sa hypothesis tungkol sa kahalagahan linear equation regression.

2.3. Pagsusuri ng katumpakan ng pagtukoy ng mga pagtatantya ng koepisyent ng regression.
Ang isang walang pinapanigan na pagtatantya ng pagpapakalat ng mga kaguluhan ay ang halaga:


S 2 y = 157.4922 - hindi maipaliwanag na pagkakaiba-iba (isang sukatan ng pagkalat ng dependent variable sa paligid ng linya ng regression).

12.5496 - karaniwang error ng pagtatantya (karaniwang error ng regression).
S a - karaniwang lihis random variable a.


S b - standard deviation ng random variable b.


2.4. Mga agwat ng kumpiyansa para sa dependent variable.
Ang pagtataya sa ekonomiya batay sa binuong modelo ay ipinapalagay na ang mga dati nang umiiral na ugnayan sa pagitan ng mga variable ay pinananatili para sa panahon ng lead-time.
Upang mahulaan ang umaasang variable ng resultang katangian, kinakailangang malaman ang mga hinulaang halaga ng lahat ng mga salik na kasama sa modelo.
Ang mga hinulaang halaga ng mga kadahilanan ay pinapalitan sa modelo at ang mga predictive point na pagtatantya ng indicator na pinag-aaralan ay nakuha.
(a + bx p ± ε)
saan

Kalkulahin natin ang mga hangganan ng agwat kung saan 95% ay puro posibleng mga halaga Y para sa walang limitasyong bilang ng mga obserbasyon at X p = 94

(76.98 + 0.92*94 ± 7.8288)
(155.67;171.33)
Sa isang probabilidad na 95% posible na magarantiya na ang halaga ng Y para sa isang walang limitasyong bilang ng mga obserbasyon ay hindi lalampas sa mga limitasyon ng mga nahanap na pagitan.
2.5. Pagsubok ng mga hypotheses tungkol sa mga coefficient ng isang linear regression equation.
1) t-istatistika. Pagsusulit ng mag-aaral.
Suriin natin ang hypothesis H 0 tungkol sa pagkakapantay-pantay ng mga indibidwal na coefficient ng regression sa zero (kung ang alternatibo ay hindi katumbas ng H 1) sa antas ng kabuluhan α=0.05.
t crit = (10;0.05) = 1.812


Dahil 3.2906 > 1.812, ang istatistikal na kahalagahan ng regression coefficient b ay nakumpirma (tinatanggihan namin ang hypothesis na ang coefficient na ito ay katumbas ng zero).


Dahil 3.1793 > 1.812, ang istatistikal na kahalagahan ng regression coefficient a ay nakumpirma (tinatanggihan namin ang hypothesis na ang coefficient na ito ay katumbas ng zero).
Confidence interval para sa regression equation coefficients.
Tukuyin natin mga pagitan ng kumpiyansa regression coefficients, na may 95% na pagiging maaasahan ay ang mga sumusunod:
(b - t crit S b ; b + t crit S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
Sa isang probabilidad na 95% masasabi na ang halaga ng parameter na ito ay makikita sa nahanap na pagitan.
2) F-statistics. Pamantayan ng Fisher.
Ang pagsubok sa kahalagahan ng isang modelo ng regression ay isinasagawa gamit ang Fisher's F test, ang kinakalkula na halaga ay makikita bilang ratio ng pagkakaiba ng orihinal na serye ng mga obserbasyon ng indicator na pinag-aaralan at ang walang pinapanigan na pagtatantya ng pagkakaiba ng natitirang sequence. para sa modelong ito.
Kung ang kinakalkula na halaga na may k1=(m) at k2=(n-m-1) na antas ng kalayaan ay mas malaki kaysa sa naka-tabulate na halaga sa isang partikular na antas ng kahalagahan, kung gayon ang modelo ay itinuturing na makabuluhan.

kung saan ang m ay ang bilang ng mga kadahilanan sa modelo.
Grade istatistikal na kahalagahan Ang paired linear regression ay isinasagawa gamit ang sumusunod na algorithm:
1. Isang null hypothesis ang iniharap na ang equation sa kabuuan ay hindi gaanong mahalaga sa istatistika: H 0: R 2 =0 sa antas ng kahalagahan α.
2. Susunod, tukuyin ang aktwal na halaga ng F-criterion:


kung saan m=1 para sa pairwise regression.
3. Halaga ng talahanayan tinutukoy mula sa mga talahanayan ng pamamahagi ng Fisher para sa isang partikular na antas ng kahalagahan, na isinasaalang-alang na ang bilang ng mga antas ng kalayaan para sa kabuuang halaga ang mga parisukat (mas malaking pagkakaiba) ay 1 at ang bilang ng mga antas ng kalayaan ng natitirang kabuuan ng mga parisukat (mas maliit na pagkakaiba) sa linear regression ay n-2.
4. Kung ang aktwal na halaga ng F-test ay mas mababa sa halaga ng talahanayan, pagkatapos ay sinasabi nila na walang dahilan upang tanggihan ang null hypothesis.
Kung hindi, ang null hypothesis ay tinanggihan at ang alternatibong hypothesis tungkol sa istatistikal na kahalagahan ng equation sa kabuuan ay tinatanggap na may posibilidad (1-α).
Table value ng criterion na may degree of freedom k1=1 at k2=10, Fkp = 4.96
Dahil ang aktwal na halaga ng F > Fkp, ang koepisyent ng determinasyon ay makabuluhan ayon sa istatistika (Ang nahanap na pagtatantya ng equation ng regression ay maaasahan sa istatistika).

Stage 3. Paghahanap ng mga relasyon sa pagitan ng data

Linear na ugnayan

Ang huling yugto ng gawain ng pag-aaral ng mga koneksyon sa pagitan ng mga phenomena ay upang masuri ang pagiging malapit ng koneksyon batay sa mga tagapagpahiwatig koneksyon ng ugnayan. Napakahalaga ng yugtong ito para sa pagtukoy ng mga dependency sa pagitan ng mga katangian ng salik at pagganap, at, dahil dito, para sa posibilidad na gumawa ng diagnosis at pagbabala ng hindi pangkaraniwang bagay na pinag-aaralan.

Diagnosis(mula sa Greek diagnosis recognition) - pagtukoy sa kakanyahan at katangian ng estado ng isang bagay o phenomenon batay sa komprehensibong pag-aaral nito.

Pagtataya(mula sa Greek prognosis foresight, prediction) - anumang partikular na hula, paghatol tungkol sa estado ng anumang phenomenon sa hinaharap (weather forecast, resulta ng halalan, atbp.). Ang pagtataya ay isang hypothesis na nakabatay sa siyensya tungkol sa posibleng kalagayan ng system, bagay o phenomenon sa hinaharap na pinag-aaralan at mga indicator na nagpapakita ng estadong ito. Pagtataya – pag-unlad ng pagtataya, espesyal Siyentipikong pananaliksik tiyak na mga prospect para sa pagbuo ng anumang kababalaghan.

Tandaan natin ang kahulugan ng ugnayan:

Kaugnayan– pag-asa sa pagitan ng mga random na variable, na ipinahayag sa katotohanan na ang pamamahagi ng isang halaga ay nakasalalay sa halaga ng isa pang halaga.

Ang isang ugnayan ay sinusunod hindi lamang sa pagitan ng dami, kundi pati na rin ng mga katangian ng husay. Umiiral iba't-ibang paraan at mga tagapagpahiwatig para sa pagtatasa ng lapit ng mga ugnayan. Titigil lang tayo sa linear pair correlation coefficient , na ginagamit kapag may linear na relasyon sa pagitan ng mga random na variable. Sa pagsasagawa, madalas na kailangang matukoy ang antas ng koneksyon sa pagitan ng mga random na variable ng hindi pantay na sukat, kaya kanais-nais na magkaroon ng ilang uri ng walang sukat na katangian ng koneksyon na ito. Ang ganitong katangian (sukat ng koneksyon) ay ang linear correlation coefficient r xy, na tinutukoy ng formula

saan , .

Ang pagtukoy at , maaari nating makuha ang sumusunod na expression para sa pagkalkula ng koepisyent ng ugnayan

.

Kung ipinakilala natin ang konsepto normalized na paglihis , na nagpapahayag ng paglihis ng mga nauugnay na halaga mula sa average sa mga praksyon ng karaniwang paglihis:



pagkatapos ay ang expression para sa koepisyent ng ugnayan ay kukuha ng anyo

.

Kung kinakalkula mo ang koepisyent ng ugnayan gamit ang mga huling halaga ng orihinal na mga random na variable mula sa talahanayan ng pagkalkula, kung gayon ang koepisyent ng ugnayan ay maaaring kalkulahin gamit ang formula

.

Mga katangian ng linear correlation coefficient:

1). Ang correlation coefficient ay isang walang sukat na dami.

2). |r| £1 o .

3). , a,b= const, – ang halaga ng koepisyent ng ugnayan ay hindi magbabago kung ang lahat ng mga halaga ng mga random na variable na X at Y ay pinarami (o hinati) ng isang pare-pareho.

4). , a,b= const, - ang halaga ng koepisyent ng ugnayan ay hindi magbabago kung ang lahat ng mga halaga ng mga random na variable X at Y ay nadagdagan (o nabawasan) ng isang pare-pareho.

5). May kaugnayan sa pagitan ng koepisyent ng ugnayan at koepisyent ng pagbabalik:

Ang mga halaga ng mga coefficient ng ugnayan ay maaaring bigyang-kahulugan bilang mga sumusunod:

Dami na pamantayan para sa pagtatasa ng lapit ng komunikasyon:

Para sa mga layunin ng prognostic, mga halaga na may |r| > 0.7.

Ang koepisyent ng ugnayan ay nagpapahintulot sa amin na tapusin ang pagkakaroon linear dependence sa pagitan ng dalawang random na variable, ngunit hindi nagpapahiwatig kung alin sa mga variable ang nagiging sanhi ng pagbabago sa isa pa. Sa katunayan, ang isang koneksyon sa pagitan ng dalawang random na variable ay maaaring umiral nang walang sanhi-at-epekto na relasyon sa pagitan ng mga halaga mismo, dahil ang pagbabago sa parehong random na variable ay maaaring sanhi ng pagbabago (impluwensya) ng pangatlo.

Koepisyent ng ugnayan r xy ay simetriko na may paggalang sa mga random na variable na isinasaalang-alang X At Y. Nangangahulugan ito na upang matukoy ang koepisyent ng ugnayan ay ganap na walang malasakit kung alin sa mga dami ang independyente at alin ang nakasalalay.

Kahalagahan ng koepisyent ng ugnayan

Kahit para sa mga independiyenteng dami ang koepisyent ng ugnayan ay maaaring iba sa zero dahil sa random na pagkakalat ng mga resulta ng pagsukat o dahil sa isang maliit na sample ng mga random na variable. Samakatuwid, dapat suriin ang kahalagahan ng koepisyent ng ugnayan.

Sinusuri ang kahalagahan ng linear correlation coefficient batay sa T-test ng mag-aaral :

.

Kung t > t cr(P, n-2), kung gayon ang linear correlation coefficient ay makabuluhan, at samakatuwid ay makabuluhan din ang istatistikal na relasyon X At Y.

.

Para sa kadalian ng pagkalkula, ang mga talahanayan ng mga halaga ng mga limitasyon ng kumpiyansa ng mga coefficient ng ugnayan ay nilikha para sa iba't ibang numero antas ng kalayaan f = n–2 (two-tailed test) at iba't ibang antas ng kahalagahan a= 0.1; 0.05; 0.01 at 0.001. Ang ugnayan ay itinuturing na makabuluhan kung ang kinakalkula na koepisyent ng ugnayan ay lumampas sa halaga ng limitasyon ng kumpiyansa ng koepisyent ng ugnayan para sa ibinigay na f At a.

Para sa mga malalaki n At a= 0.01 ang halaga ng limitasyon ng kumpiyansa ng koepisyent ng ugnayan ay maaaring kalkulahin gamit ang tinatayang formula

.

Tulad ng paulit-ulit na nabanggit, upang makagawa ng istatistikal na konklusyon tungkol sa pagkakaroon o kawalan ng ugnayan sa pagitan ng mga variable na pinag-aaralan, kinakailangan upang suriin ang kahalagahan ng sample na koepisyent ng ugnayan. Dahil sa ang katunayan na ang pagiging maaasahan ng mga istatistikal na katangian, kabilang ang koepisyent ng ugnayan, ay nakasalalay sa laki ng sample, maaaring lumitaw ang isang sitwasyon kapag ang halaga ng koepisyent ng ugnayan ay ganap na tinutukoy ng mga random na pagbabagu-bago sa sample batay sa kung saan ito kinakalkula. . Kung mayroong isang makabuluhang ugnayan sa pagitan ng mga variable, ang koepisyent ng ugnayan ay dapat na makabuluhang naiiba mula sa zero. Kung walang ugnayan sa pagitan ng mga variable na pinag-aaralan, kung gayon ang koepisyent ng ugnayan ng populasyon ay katumbas ng zero. Sa praktikal na pananaliksik, bilang panuntunan, ang mga ito ay batay sa mga sample na obserbasyon. Tulad ng anumang istatistikal na katangian, ang sample correlation coefficient ay random variable, ibig sabihin, ang mga halaga nito ay random na nakakalat sa paligid ng parameter ng populasyon ng parehong pangalan (ang tunay na halaga ng koepisyent ng ugnayan). Kung walang ugnayan sa pagitan ng mga variable, ang kanilang coefficient ng ugnayan sa populasyon ay katumbas ng zero. Ngunit dahil sa random na katangian ng scattering, ang mga sitwasyon ay pangunahing posible kapag ang ilang mga coefficient ng ugnayan na kinakalkula mula sa mga sample mula sa populasyon na ito ay magiging iba sa zero.

Maaari bang maiugnay ang mga naobserbahang pagkakaiba sa mga random na pagbabagu-bago sa sample, o nagpapakita ba ang mga ito ng isang makabuluhang pagbabago sa mga kondisyon kung saan nabuo ang mga relasyon sa pagitan ng mga variable? Kung ang mga halaga ng sample correlation coefficient ay nasa loob ng scattering zone,

dahil sa random na katangian ng indicator mismo, hindi ito katibayan ng kawalan ng isang relasyon. Ang pinaka masasabi ay ang data ng obserbasyonal ay hindi itinatanggi ang kawalan ng isang relasyon sa pagitan ng mga variable. Ngunit kung ang halaga ng sample correlation coefficient ay nasa labas ng nabanggit na scattering zone, pagkatapos ay ipagpalagay nila na ito ay makabuluhang naiiba mula sa zero, at maaari nating ipagpalagay na mayroong pagkakaiba sa istatistika sa pagitan ng mga variable. makabuluhang koneksyon. Ang pamantayang ginamit upang malutas ang problemang ito, batay sa pamamahagi ng iba't ibang istatistika, ay tinatawag na pamantayan ng kahalagahan.

Ang pamamaraan ng pagsusuri ng kahalagahan ay nagsisimula sa pagbabalangkas ng null hypothesis B pangkalahatang pananaw ito ay nakasalalay sa katotohanan na walang makabuluhang pagkakaiba sa pagitan ng sample na parameter at ng populasyon na parameter. Ang isang alternatibong hypothesis ay mayroong makabuluhang pagkakaiba sa pagitan ng mga parameter na ito. Halimbawa, kapag sinusuri ang pagkakaroon ng isang ugnayan sa isang populasyon, ang null hypothesis ay ang tunay na coefficient ng ugnayan ay zero. Kung ang resulta ng pagsubok sa null hypothesis ay hindi katanggap-tanggap, kung gayon ang sample na coefficient ng correlation ay makabuluhang naiiba mula sa zero (ang null ang hypothesis ay tinatanggihan at ang alternatibo ay tinatanggap. Sa madaling salita, ang pagpapalagay na ang mga random na variable ay walang kaugnayan sa populasyon ay dapat ituring na walang batayan. At vice versa, kung, batay sa significance criterion, ang null hypothesis ay tinatanggap, ibig sabihin, ito ay namamalagi sa pinahihintulutang zone ng random scattering, pagkatapos ay walang dahilan upang isaalang-alang ang pagpapalagay ng mga hindi nauugnay na mga variable sa populasyon na kaduda-dudang.

Sa isang pagsubok sa kahalagahan, ang mananaliksik ay nagtatakda ng antas ng kahalagahan a na nagbibigay ng ilang praktikal na kumpiyansa na ang mga maling konklusyon ay iguguhit lamang sa napakabihirang mga kaso. Ang antas ng kahalagahan ay nagpapahayag ng posibilidad na ang null hypothesis ay tinanggihan kapag ito ay talagang totoo. Maliwanag, makatuwirang piliin ang posibilidad na ito bilang maliit hangga't maaari.

Hayaang malaman ang distribusyon ng sample na katangian, na isang walang pinapanigan na pagtatantya ng parameter ng populasyon. Ang napiling antas ng kahalagahan a ay tumutugma sa mga may kulay na lugar sa ilalim ng kurba ng distribusyon na ito (tingnan ang Fig. 24). Tinutukoy ng unshaded area sa ilalim ng distribution curve ang probabilidad. Ang mga hangganan ng mga segment sa abscissa axis sa ilalim ng shaded na mga lugar ay tinatawag na mga kritikal na halaga, at ang mga segment mismo ang bumubuo sa kritikal na rehiyon, o ang lugar ng pagtanggi sa hypothesis.

Sa pamamaraan ng pagsubok ng hypothesis, ang sample na katangian na kinakalkula mula sa mga resulta ng mga obserbasyon ay inihambing sa kaukulang kritikal na halaga. Sa kasong ito, ang isa ay dapat na makilala sa pagitan ng isang panig at dalawang panig na kritikal na mga lugar. Ang anyo ng pagtukoy sa kritikal na rehiyon ay nakasalalay sa pagbabalangkas ng problema kung kailan istatistikal na pananaliksik. Ang isang dalawang-panig na kritikal na rehiyon ay kinakailangan kapag naghahambing ng isang sample na parameter at isang parameter ng populasyon

kinakailangang tantiyahin ang ganap na halaga ng pagkakaiba sa pagitan nila, ibig sabihin, parehong positibo at negatibong pagkakaiba sa pagitan ng mga pinag-aralan na dami ay interesado. Kapag kinakailangan upang matiyak na ang isang halaga sa average ay mahigpit na mas malaki o mas mababa kaysa sa isa pa, isang isang panig na kritikal na rehiyon (kanan o kaliwang bahagi) ang ginagamit. Halatang halata na para sa parehong kritikal na halaga ang antas ng kahalagahan kapag gumagamit ng isang panig na kritikal na rehiyon ay mas mababa kaysa kapag gumagamit ng dalawang panig.

kanin. 24. Null Hypothesis Testing

Kung simetriko ang distribusyon ng sample na katangian, kung gayon ang antas ng kahalagahan ng dalawang panig na kritikal na rehiyon ay katumbas ng a, at ang isang panig na kritikal na rehiyon ay katumbas ng y (tingnan ang Fig. 24). Limitahan natin ang ating sarili sa pangkalahatang pagbabalangkas ng problema. Sa mas detalyado sa teoretikal na pagbibigay-katwiran ng pagsubok istatistikal na hypotheses pwede kayong magkita sa espesyalisadong panitikan. Sa ibaba ay ipahiwatig lamang namin ang pamantayan ng kahalagahan para sa iba't ibang mga pamamaraan, nang walang tigil sa kanilang pagtatayo.

Sa pamamagitan ng pagsuri sa kahalagahan ng koepisyent ng ugnayan ng pares, ang pagkakaroon o kawalan ng ugnayan sa pagitan ng mga phenomena na pinag-aaralan ay naitatag. Kung walang koneksyon, ang koepisyent ng ugnayan ng populasyon ay katumbas ng zero. Ang pamamaraan ng pag-verify ay nagsisimula sa pagbabalangkas ng null at alternatibong hypotheses:

Ang pagkakaiba sa pagitan ng sample correlation coefficient ay hindi gaanong mahalaga,

Ang pagkakaiba sa pagitan ng mga ito ay makabuluhan, at samakatuwid mayroong isang makabuluhang ugnayan sa pagitan ng kanilang mga variable. Ang alternatibong hypothesis ay nagpapahiwatig na kailangan nating gumamit ng dalawang panig na kritikal na rehiyon.

Nabanggit na sa Seksyon 8.1 na ang sample na koepisyent ng ugnayan, sa ilalim ng ilang mga pagpapalagay, ay nauugnay sa isang random na variable na napapailalim sa pamamahagi ng Mag-aaral na may mga antas ng kalayaan. Mga istatistika na kinakalkula mula sa mga sample na resulta

ay inihambing sa kritikal na halaga na tinutukoy mula sa talahanayan ng pamamahagi ng Mag-aaral sa isang ibinigay na antas ng kahalagahan a at antas ng kalayaan. Ang panuntunan para sa paglalapat ng pamantayan ay ang mga sumusunod: kung ang null hypothesis ay tinanggihan sa antas ng kahalagahan a, iyon ay, ang ugnayan sa pagitan ng mga variable ay makabuluhan; kung pagkatapos ay ang null hypothesis sa antas ng kahalagahan a ay tinatanggap. Ang paglihis ng halaga mula sa maaaring maiugnay sa random na pagkakaiba-iba. Ang sample na data ay nagpapakilala sa hypothesis na isinasaalang-alang bilang napaka posible at kapani-paniwala, ibig sabihin, ang hypothesis ng kawalan ng koneksyon ay hindi nagtataas ng mga pagtutol.

Ang pamamaraan ng pagsubok sa hypothesis ay lubos na pinasimple kung, sa halip na mga istatistika, ginagamit namin ang mga kritikal na halaga ng koepisyent ng ugnayan, na maaaring matukoy sa pamamagitan ng mga dami ng pamamahagi ng Mag-aaral sa pamamagitan ng pagpapalit sa

May mga detalyadong talahanayan ng mga kritikal na halaga, isang sipi mula sa kung saan ay ibinigay sa apendiks sa aklat na ito (tingnan ang Talahanayan 6). Ang panuntunan para sa pagsubok ng isang hypothesis sa kasong ito ay bumababa sa mga sumusunod: kung gayon, maaari naming igiit na ang ugnayan sa pagitan ng mga variable ay makabuluhan. Kung gayon, isinasaalang-alang namin ang mga resulta ng pagmamasid na pare-pareho sa hypothesis ng kawalan ng koneksyon.

Subukan natin ang hypothesis tungkol sa kalayaan ng produktibidad ng paggawa mula sa antas ng mekanisasyon ng trabaho sa ayon sa datos na ibinigay sa seksyon 4.1. Nauna nang nakalkula na Mula sa (8.38) nakuha namin

Gamit ang talahanayan ng pamamahagi ng Mag-aaral para makita namin ang kritikal na halaga ng istatistikang ito: Dahil tinatanggihan namin ang null hypothesis, nagkakamali lamang sa 5% ng mga kaso.

Makakakuha tayo ng parehong resulta kung ihahambing natin sa kritikal na halaga ng koepisyent ng ugnayan na matatagpuan mula sa kaukulang talahanayan sa

na may -distribusyon na may mga antas ng kalayaan. Susunod, ang pamamaraan para sa pagsuri ng kahalagahan ay isinasagawa katulad ng nauna gamit ang -criterion.

Halimbawa

Batay sa pagsusuri sa ekonomiya ng mga phenomena, ipinapalagay namin sa pangkalahatang populasyon ang isang malakas na koneksyon sa pagitan ng produktibidad ng paggawa at ang antas ng mekanisasyon ng trabaho. Hayaan, halimbawa, . Bilang kahalili, sa kasong ito maaari nating isulong ang hypothesis na ang sample na koepisyent ng ugnayan Kaya, dapat tayong gumamit ng isang panig na kritikal na rehiyon. Mula sa (8.40) sinusundan iyon

Inihahambing namin ang nakuhang halaga sa kritikal na halaga. Mayroon kaming Kaya, sa antas ng kahalagahan na 5%, maaari naming ipagpalagay ang pagkakaroon ng isang napakalapit na koneksyon sa pagitan ng mga pinag-aralan na katangian, ibig sabihin, ginagawang posible ng paunang data na isaalang-alang na posible na

Ang kabuluhan ng mga partial correlation coefficients ay sinusuri sa katulad na paraan. Tanging ang bilang ng mga antas ng kalayaan ay nagbabago, na nagiging katumbas ng kung saan ang bilang ng mga paliwanag na variable. Ang halaga ng mga istatistika ay kinakalkula gamit ang formula

ay inihambing sa kritikal na halaga a na natagpuan mula sa talahanayan ng pamamahagi sa antas ng kahalagahan a at ang bilang ng mga antas ng kalayaan. Ang pagtanggap o pagtanggi sa hypothesis tungkol sa kahalagahan ng partial correlation coefficient ay isinasagawa ayon sa parehong panuntunan tulad ng inilarawan sa itaas . Ang pagsusuri sa kahalagahan ay maaari ding isagawa gamit ang mga kritikal na halaga ng koepisyent ng ugnayan ayon sa (8.39), pati na rin ang paggamit ng pagbabagong Fisher (8.40).

Halimbawa

Suriin natin pagiging maaasahan ng istatistika partial correlation coefficients na kinakalkula sa seksyon 4.5 sa significance level Sa ibaba, kasama ang partial correlation coefficients, ang katumbas na kalkulado at kritikal na mga halaga ng istatistika ay ibinibigay

Dahil sa ang katunayan na ang hypothesis tungkol sa kahalagahan ng mga coefficient ay tinatanggap, napagpasyahan namin: ang antas ng mekanisasyon ng trabaho ay may malaking epekto sa produktibidad ng paggawa, hindi kasama ang impluwensya ng average na edad ng mga manggagawa (at ang average na porsyento ng pagsunod sa pamantayan). Pagkakaiba mula sa zero ng natitirang coefficients

Ang mga bahagyang ugnayan ay maaaring maiugnay sa mga random na pagbabagu-bago sa sample, at samakatuwid mula sa kanila ay hindi natin masasabi ang anumang tiyak tungkol sa mga bahagyang impluwensya ng mga nauugnay na variable.

Ang kahalagahan ng multiple correlation coefficient ay hinuhusgahan ng resulta ng pamamaraan para sa pagsuri sa kahalagahan ng coefficient maramihang pagpapasiya. Tatalakayin natin ito nang mas detalyado sa susunod na seksyon.

Ang isang katanungan na madalas na interesado ay: ang dalawang coefficient ng ugnayan ay makabuluhang naiiba sa bawat isa? Kapag sinusuri ang hypothesis na ito, ipinapalagay na ang parehong mga katangian ng homogenous na populasyon ay isinasaalang-alang; ang data ay kumakatawan sa mga resulta mga independiyenteng pagsusulit; Ginagamit ang mga coefficient ng correlation ng parehong uri, ibig sabihin, alinman sa pairwise correlation coefficient o partial correlation coefficient kapag hindi kasama ang parehong bilang ng mga variable.

Ang mga volume ng dalawang sample kung saan kinakalkula ang mga coefficient ng ugnayan ay maaaring magkaiba. Null hypothesis: ibig sabihin, ang mga coefficient ng ugnayan ng dalawang populasyon na isinasaalang-alang ay pantay. Alternatibong Hypothesis: Ang alternatibong hypothesis ay nagpapahiwatig na ang dalawang-daan na kritikal na rehiyon ay dapat gamitin. Sa madaling salita, dapat mong suriin kung ang pagkakaiba ay makabuluhang naiiba mula sa zero. Gamitin natin ang mga istatistika na may tinatayang normal na distribusyon:

kung saan - ang mga resulta ng mga pagbabagong-anyo ng mga coefficient ng ugnayan - mga volume ng sample. Panuntunan ng pagsubok: kung ang hypothesis ay tinanggihan; kung saka tinanggap ang hypothesis.

Kung tatanggapin, ang halaga

pagkatapos ng recalculation sa paggamit ng (8.6) ay nagsisilbing summary estimate ng correlation coefficient.Susunod, ang hypothesis ay maaaring masuri gamit ang statistics

pagkakaroon ng normal na distribusyon.

Halimbawa

Hayaang kailanganin upang maitatag kung ang lapit ng koneksyon sa pagitan ng produktibidad ng paggawa at ang antas ng mekanisasyon ng trabaho ay naiiba sa mga negosyo ng parehong industriya na matatagpuan sa iba't ibang mga rehiyon ng bansa. Paghambingin natin ang mga negosyong matatagpuan sa dalawang lugar. Hayaang kalkulahin ang coefficient ng ugnayan para sa isa sa mga ito gamit ang sample ng volume (tingnan ang Seksyon 4.1). Para sa Iba pang rehiyon, kinakalkula gamit ang sample ng volume

Matapos i-convert ang parehong mga coefficient ng ugnayan sa -values, kinakalkula namin gamit ang (8.42) ang halaga ng mga istatistika X:

Ang kritikal na halaga ng istatistika sa ay Kaya, ang hypothesis ay tinatanggap, ibig sabihin, batay sa magagamit na mga sample, hindi kami makapagtatag ng isang makabuluhang pagkakaiba sa pagitan ng mga koepisyent ng ugnayan. Bukod dito, ang parehong mga coefficient ng ugnayan ay makabuluhan.

Gamit ang (8.43) at (8.6), nakakuha kami ng buod na pagtatantya ng koepisyent ng ugnayan para sa dalawang rehiyon:

Panghuli, suriin natin ang hypothesis kung ang buod na pagtatantya ng koepisyent ng ugnayan ay makabuluhang naiiba sa zero gamit ang mga istatistika (8.44):

Dahil sa maaari nating igiit na sa pangkalahatang populasyon mayroong isang makabuluhang koneksyon sa pagitan ng produktibidad ng paggawa at ang antas ng mekanisasyon ng trabaho.

Ang X criterion ay maaaring gamitin sa iba't ibang aspeto. Kaya, sa halip na mga rehiyon, ang iba't ibang mga industriya ay maaaring isaalang-alang, halimbawa, kapag kinakailangan upang matukoy kung ang mga pagkakaiba sa lakas ng pinag-aralan na mga relasyon sa pagitan ng mga pang-ekonomiyang tagapagpahiwatig ng mga negosyo na kabilang sa dalawang magkaibang mga industriya ay makabuluhan.

Kalkulahin natin, batay sa dalawang sample ng volume, ang mga coefficient ng ugnayan na nagpapakilala sa malapit na kaugnayan sa pagitan ng produktibidad ng paggawa at ang antas ng mekanisasyon ng trabaho sa mga negosyong kabilang sa dalawang industriya (dalawang pangkalahatang populasyon). Mula sa (8.42) nakukuha natin

Dahil tinatanggihan namin ang null hypothesis. Dahil dito, maaari itong mapagtatalunan na may mga makabuluhang pagkakaiba sa pagiging malapit ng relasyon sa pagitan ng produktibidad ng paggawa at ang antas ng mekanisasyon ng trabaho sa mga negosyo na kabilang sa iba't ibang mga industriya. Ipagpapatuloy natin ang halimbawang ito sa Seksyon 8.7, kung saan ihahambing natin ang mga linya ng regression na ginawa para sa dalawang populasyon.

Sa pagsusuri sa mga halimbawang ibinigay, kami ay kumbinsido na isinasaalang-alang lamang ang ganap na pagkakaiba ng inihambing na mga koepisyent ng ugnayan.

(Ang mga sample na laki ay pareho sa parehong mga kaso) nang hindi sinusuri ang kahalagahan ng pagkakaibang ito ay hahantong sa mga maling konklusyon. Kinukumpirma nito ang pangangailangang gumamit ng mga pamantayan sa istatistika kapag naghahambing ng mga coefficient ng ugnayan.

Ang pamamaraan para sa paghahambing ng dalawang coefficient ng ugnayan ay maaaring pangkalahatan sa mas malaking bilang mga coefficient na napapailalim sa mga kinakailangan sa itaas. Ang hypothesis ng pagkakapantay-pantay ng mga coefficient ng ugnayan sa pagitan ng mga variable ay ipinahayag tulad ng sumusunod: Sinusuri ito batay sa mga coefficient ng ugnayan na kinakalkula mula sa mga sample ng volume mula sa pangkalahatang populasyon. ang mga coefficient ng ugnayan ay muling kinakalkula sa -values: Dahil sa pangkalahatang kaso hindi alam, makikita natin ang pagtatantya nito sa pamamagitan ng formula, na isang generalization ng (8.43).

TRABAHO NG KURSO

Paksa: Pagsusuri ng ugnayan

Panimula

1. Pagsusuri ng ugnayan

1.1 Ang konsepto ng ugnayan

1.2 Pangkalahatang pag-uuri mga ugnayan

1.3 Mga patlang ng ugnayan at ang layunin ng kanilang pagtatayo

1.4 Yugto pagsusuri ng ugnayan

1.5 Mga koepisyent ng ugnayan

1.6 Normalized Bravais-Pearson correlation coefficient

1.7 Coefficient ugnayan ng ranggo Spearman

1.8 Mga pangunahing katangian ng mga coefficient ng ugnayan

1.9 Sinusuri ang kahalagahan ng mga koepisyent ng ugnayan

1.10 Mga kritikal na halaga koepisyent ng ugnayan ng pares

2. Pagpaplano ng multifactorial na eksperimento

2.1 Kondisyon ng problema

2.2 Pagpapasiya ng sentro ng plano (basic level) at ang antas ng factor variation

2.3 Konstruksyon ng planning matrix

2.4 Sinusuri ang homogeneity ng dispersion at equivalence ng pagsukat sa iba't ibang serye

2.5 Regression equation coefficients

2.6 Pagkakaiba-iba ng reproducibility

2.7 Sinusuri ang kahalagahan ng mga coefficient ng equation ng regression

2.8 Sinusuri ang kasapatan ng equation ng regression

Konklusyon

Bibliograpiya

PANIMULA

Ang eksperimental na pagpaplano ay isang matematikal at istatistikal na disiplina na nag-aaral ng mga pamamaraan ng makatwirang organisasyon ng eksperimentong pananaliksik - mula sa pinakamainam na pagpipilian mga salik na pinag-aaralan at pagtukoy sa aktwal na eksperimentong plano alinsunod sa layunin nito sa mga pamamaraan para sa pagsusuri ng mga resulta. Ang eksperimental na pagpaplano ay nagsimula sa mga gawa ng English statistician na si R. Fisher (1935), na nagbigay-diin na ang rational experimental planning ay nagbibigay ng hindi gaanong makabuluhang mga nadagdag sa katumpakan ng mga pagtatantya kaysa sa pinakamainam na pagproseso ng mga resulta ng pagsukat. Noong 60s ng 20th century nagkaroon modernong teorya pagpaplano ng eksperimento. Ang kanyang mga pamamaraan ay malapit na nauugnay sa function approximation theory at mathematical programming. Ang mga pinakamainam na plano ay itinayo at ang kanilang mga ari-arian ay pinag-aralan para sa isang malawak na klase ng mga modelo.

Eksperimental na pagpaplano - pagpili ng isang eksperimentong plano na nakakatugon sa mga tinukoy na kinakailangan, isang hanay ng mga aksyon na naglalayong bumuo ng isang diskarte sa pag-eksperimento (mula sa pagkuha ng isang priori na impormasyon hanggang sa pagkuha ng isang magagamit na modelo ng matematika o pagtukoy pinakamainam na kondisyon). Ito ay may layunin na kontrol ng isang eksperimento, na ipinatupad sa ilalim ng mga kondisyon ng hindi kumpletong kaalaman sa mekanismo ng hindi pangkaraniwang bagay na pinag-aaralan.

Sa proseso ng mga sukat, ang kasunod na pagpoproseso ng data, pati na rin ang pormalisasyon ng mga resulta sa anyo ng isang modelo ng matematika, ang mga error ay lumitaw at ang ilan sa mga impormasyon na nilalaman sa orihinal na data ay nawala. Ang paggamit ng mga eksperimentong pamamaraan sa pagpaplano ay ginagawang posible upang matukoy ang pagkakamali ng modelo ng matematika at hatulan ang kasapatan nito. Kung ang katumpakan ng modelo ay lumalabas na hindi sapat, kung gayon ang paggamit ng mga eksperimentong pamamaraan sa pagpaplano ay ginagawang posible na gawing makabago matematikal na modelo na may mga karagdagang eksperimento nang walang pagkawala ng nakaraang impormasyon at may kaunting gastos.

Ang layunin ng pagpaplano ng isang eksperimento ay upang mahanap ang mga naturang kundisyon at panuntunan para sa pagsasagawa ng mga eksperimento kung saan posible na makakuha ng maaasahan at maaasahang impormasyon tungkol sa isang bagay na may hindi bababa sa dami ng paggawa, pati na rin upang ipakita ang impormasyong ito sa isang compact at maginhawang anyo. na may quantitative assessment ng katumpakan.

Kabilang sa mga pangunahing pamamaraan ng pagpaplano na ginamit sa iba't ibang yugto ng pag-aaral ay:

Pagpaplano ng isang eksperimento sa screening, ang pangunahing kahulugan nito ay ang pagpili mula sa buong hanay ng mga kadahilanan ng isang pangkat ng mga makabuluhang kadahilanan na napapailalim sa karagdagang detalyadong pag-aaral;

Pagpaplano ng isang eksperimento para sa pagsusuri ng pagkakaiba-iba, ibig sabihin. pagguhit ng mga plano para sa mga bagay na may husay na mga kadahilanan;

Pagpaplano ng eksperimento sa regression na nagbibigay-daan sa iyong makuha mga modelo ng regression(polynomial at iba pa);

Pagpaplano ng matinding eksperimento kung saan ang pangunahing gawain ay pang-eksperimentong pag-optimize ng object ng pananaliksik;

Pagpaplano kapag nag-aaral ng mga dinamikong proseso, atbp.

Ang layunin ng pag-aaral ng disiplina ay upang ihanda ang mga mag-aaral para sa produksyon at teknikal na aktibidad sa kanilang espesyalidad gamit ang mga pamamaraan ng teorya ng pagpaplano at mga modernong teknolohiya ng impormasyon.

Layunin ng disiplina: pag-aaral makabagong pamamaraan pagpaplano, pag-oorganisa at pag-optimize ng mga eksperimentong pang-agham at pang-industriya, pagsasagawa ng mga eksperimento at pagproseso ng mga resultang nakuha.

1. PAGSUSURI NG KORELASYON

1.1 Ang konsepto ng ugnayan

Ang isang mananaliksik ay madalas na interesado sa kung paano ang dalawa o higit pang mga variable ay nauugnay sa isa't isa sa isa o higit pang mga sample na pinag-aaralan. Halimbawa, makakaapekto ba ang taas sa timbang ng isang tao, o makakaapekto ba ang presyon ng dugo sa kalidad ng produkto?

Ang ganitong uri ng pag-asa sa pagitan ng mga variable ay tinatawag na ugnayan, o ugnayan. Ang ugnayan ay isang pare-parehong pagbabago sa dalawang katangian, na sumasalamin sa katotohanan na ang pagkakaiba-iba ng isang katangian ay naaayon sa pagkakaiba-iba ng isa pa.

Ito ay kilala, halimbawa, na sa karaniwan ay may positibong ugnayan sa pagitan ng taas ng mga tao at ng kanilang timbang, at kung gaano kalaki ang taas, mas malaki ang timbang ng tao. Gayunpaman, may mga pagbubukod sa panuntunang ito kapag medyo maikling tao mayroon sobra sa timbang, at, sa kabaligtaran, ang mga asthenic, na may mataas na paglaki, ay may mababang timbang. Ang dahilan para sa gayong mga pagbubukod ay ang bawat biyolohikal, pisyolohikal o sikolohikal na tanda tinutukoy ng impluwensya ng maraming mga kadahilanan: kapaligiran, genetic, panlipunan, kapaligiran, atbp.

Ang mga koneksyon sa ugnayan ay mga probabilistikong pagbabago na maaari lamang pag-aralan sa mga sample na kinatawan gamit ang mga pamamaraan ng mga istatistika ng matematika. Ang parehong mga termino - link ng ugnayan at pagdepende sa ugnayan - ay kadalasang ginagamit nang palitan. Ang dependency ay nagpapahiwatig ng impluwensya, koneksyon - anumang pinag-ugnay na pagbabago na maaaring ipaliwanag ng daan-daang dahilan. Ang mga koneksyon sa ugnayan ay hindi maaaring ituring bilang ebidensya ng isang sanhi-at-bunga na relasyon; ipinapahiwatig lamang ng mga ito na ang mga pagbabago sa isang katangian ay kadalasang sinasamahan ng ilang mga pagbabago sa isa pa.

Pagdepende sa ugnayan - ito ay mga pagbabago na nagpapakilala sa mga halaga ng isang katangian sa posibilidad ng paglitaw iba't ibang kahulugan isa pang tanda.

Ang gawain ng pagsusuri ng ugnayan ay bumababa sa pagtatatag ng direksyon (positibo o negatibo) at anyo (linear, nonlinear) ng ugnayan sa pagitan ng iba't ibang mga katangian, pagsukat ng lapit nito, at, sa wakas, pagsuri sa antas ng kahalagahan ng nakuha na mga koepisyent ng ugnayan.

Ang mga koneksyon sa ugnayan ay nag-iiba sa anyo, direksyon at antas (lakas) .

Ang anyo ng relasyon ng ugnayan ay maaaring linear o curvilinear. Halimbawa, ang ugnayan sa pagitan ng bilang ng mga sesyon ng pagsasanay sa simulator at ang bilang ng mga problemang nalutas nang tama sa control session ay maaaring diretso. Halimbawa, ang kaugnayan sa pagitan ng antas ng pagganyak at ang pagiging epektibo ng isang gawain ay maaaring curvilinear (Larawan 1). Habang tumataas ang motibasyon, tataas muna ang bisa ng pagkumpleto ng isang gawain, pagkatapos ay makakamit ang pinakamainam na antas ng pagganyak, na tumutugma sa pinakamataas na bisa ng pagkumpleto ng gawain; Ang karagdagang pagtaas sa pagganyak ay sinamahan ng pagbawas sa kahusayan.

Figure 1 - Relasyon sa pagitan ng pagiging epektibo ng paglutas ng problema at ang lakas ng motivational tendencies

Sa direksyon, ang kaugnayan ng ugnayan ay maaaring maging positibo ("direkta") at negatibo ("kabaligtaran"). Sa isang positibong linear na ugnayan, ang mas mataas na mga halaga ng isang katangian ay tumutugma sa mas mataas na mga halaga ng isa pa, at ang mas mababang mga halaga ng isang katangian ay tumutugma sa mababang halaga isa pa (Larawan 2). Sa isang negatibong ugnayan, ang mga relasyon ay kabaligtaran (Larawan 3). Sa isang positibong ugnayan, ang koepisyent ng ugnayan ay mayroon positibong tanda, na may negatibong ugnayan - isang negatibong tanda.

Larawan 2 – Direktang ugnayan

Figure 3 – Baliktad na ugnayan


Figure 4 – Walang ugnayan

Ang antas, lakas o lapit ng ugnayan ay tinutukoy ng halaga ng koepisyent ng ugnayan. Ang lakas ng koneksyon ay hindi nakasalalay sa direksyon nito at tinutukoy ng ganap na halaga ng koepisyent ng ugnayan.

1.2 Pangkalahatang pag-uuri ng mga ugnayan

Depende sa koepisyent ng ugnayan, ang mga sumusunod na ugnayan ay nakikilala:

Malakas, o malapit sa isang koepisyent ng ugnayan r>0.70;

Average (sa 0.50

Katamtaman (sa 0.30

Mahina (sa 0.20

Napakahina (sa r<0,19).

1.3 Mga patlang ng ugnayan at ang layunin ng kanilang pagtatayo

Ang ugnayan ay pinag-aaralan batay sa pang-eksperimentong data, na kung saan ay ang mga sinusukat na halaga (x i, y i) ng dalawang katangian. Kung mayroong maliit na pang-eksperimentong data, ang dalawang-dimensional na empirikal na pamamahagi ay kinakatawan bilang isang dobleng serye ng mga halaga x i at y i. Kasabay nito, ang pag-asa sa ugnayan sa pagitan ng mga katangian ay maaaring ilarawan sa iba't ibang paraan. Ang pagsusulatan sa pagitan ng isang argumento at isang function ay maaaring ibigay ng isang talahanayan, formula, graph, atbp.

Ang pagsusuri ng ugnayan, tulad ng iba pang mga istatistikal na pamamaraan, ay batay sa paggamit ng mga probabilistikong modelo na naglalarawan sa pag-uugali ng mga katangiang pinag-aaralan sa isang tiyak na pangkalahatang populasyon kung saan nakuha ang mga pang-eksperimentong halaga xi at y i. Kapag pinag-aaralan ang ugnayan sa pagitan ng mga quantitative na katangian, ang mga halaga nito ay maaaring tumpak na masukat sa mga yunit ng panukat na kaliskis (metro, segundo, kilo, atbp.), Ang isang dalawang-dimensional na karaniwang ipinamamahagi na modelo ng populasyon ay madalas na pinagtibay. Ang ganitong modelo ay nagpapakita ng ugnayan sa pagitan ng mga variable x i at y i sa anyo ng isang geometric na lokasyon ng mga puntos sa isang sistema ng mga parihabang coordinate. Ang graphical na relasyon na ito ay tinatawag ding scatterplot o correlation field.
Ang modelong ito ng isang two-dimensional na normal na distribution (correlation field) ay nagbibigay-daan sa amin na magbigay ng malinaw na graphical na interpretasyon ng correlation coefficient, dahil ang kabuuang pamamahagi ay nakasalalay sa limang mga parameter: μ x, μ y - average na mga halaga (mga inaasahan sa matematika); σ x ,σ y – standard deviations ng random variables X at Y at p – correlation coefficient, na isang sukatan ng relasyon sa pagitan ng random variable X at Y.
Kung p = 0, kung gayon ang mga halaga x i , y i na nakuha mula sa isang dalawang-dimensional na normal na populasyon ay matatagpuan sa graph sa mga coordinate x, y sa loob ng lugar na limitado ng bilog (Larawan 5, a). Sa kasong ito, walang ugnayan sa pagitan ng mga random na variable X at Y at ang mga ito ay tinatawag na uncorrelated. Para sa isang dalawang-dimensional na normal na distribusyon, ang hindi pagkakaugnay ay sabay-sabay na nangangahulugan ng kalayaan ng mga random na variable X at Y.

Sa siyentipikong pananaliksik, madalas na kailangang makahanap ng koneksyon sa pagitan ng kinalabasan at mga variable ng kadahilanan (ang ani ng isang pananim at ang dami ng pag-ulan, ang taas at bigat ng isang tao sa magkakatulad na grupo ayon sa kasarian at edad, rate ng puso at temperatura ng katawan , atbp.).

Ang pangalawa ay mga palatandaan na nag-aambag sa mga pagbabago sa mga nauugnay sa kanila (ang una).

Ang konsepto ng pagsusuri ng ugnayan

Marami Batay sa nabanggit, masasabi natin na ang pagsusuri ng ugnayan ay isang paraan na ginagamit upang subukan ang hypothesis tungkol sa istatistikal na kahalagahan ng dalawa o higit pang mga variable kung ang mananaliksik ay maaaring masukat ang mga ito, ngunit hindi ito babaguhin.

Mayroong iba pang mga kahulugan ng konsepto na pinag-uusapan. Ang pagsusuri ng ugnayan ay isang paraan ng pagproseso na kinabibilangan ng pag-aaral ng mga koepisyent ng ugnayan sa pagitan ng mga variable. Sa kasong ito, ang mga coefficient ng ugnayan sa pagitan ng isang pares o maraming mga pares ng mga katangian ay inihahambing upang magtatag ng mga istatistikal na relasyon sa pagitan nila. Ang pagsusuri ng ugnayan ay isang paraan para sa pag-aaral ng statistical dependence sa pagitan ng mga random na variable na may opsyonal na presensya ng isang mahigpit na functional na katangian, kung saan ang dynamics ng isang random variable ay humahantong sa dynamics ng matematikal na inaasahan ng isa pa.

Ang konsepto ng maling ugnayan

Kapag nagsasagawa ng pagtatasa ng ugnayan, kinakailangang isaalang-alang na maaari itong isagawa na may kaugnayan sa anumang hanay ng mga katangian, kadalasang walang katotohanan na may kaugnayan sa bawat isa. Minsan wala silang causal connection sa isa't isa.

Sa kasong ito, pinag-uusapan nila ang isang maling ugnayan.

Mga problema sa pagsusuri ng ugnayan

Batay sa mga kahulugan sa itaas, maaari nating bumalangkas ang mga sumusunod na gawain ng inilarawang pamamaraan: kumuha ng impormasyon tungkol sa isa sa mga hinahangad na variable gamit ang isa pa; tukuyin ang lapit ng ugnayan sa pagitan ng mga pinag-aralan na baryabol.

Ang pagsusuri ng ugnayan ay kinabibilangan ng pagtukoy sa kaugnayan sa pagitan ng mga katangiang pinag-aaralan, at samakatuwid ang mga gawain ng pagsusuri ng ugnayan ay maaaring dagdagan ng mga sumusunod:

  • pagkilala sa mga salik na may pinakamalaking epekto sa nagresultang katangian;
  • pagkakakilanlan ng mga hindi pa natuklasang dahilan ng mga koneksyon;
  • pagbuo ng isang modelo ng ugnayan kasama ang parametric analysis nito;
  • pag-aaral ng kahalagahan ng mga parameter ng komunikasyon at ang kanilang pagtatasa ng pagitan.

Relasyon sa pagitan ng pagsusuri ng ugnayan at pagbabalik

Ang paraan ng pagsusuri ng ugnayan ay kadalasang hindi limitado sa paghahanap ng lapit ng ugnayan sa pagitan ng mga pinag-aralan na dami. Minsan ito ay pupunan ng pagsasama-sama ng mga equation ng regression, na nakuha gamit ang pagsusuri ng parehong pangalan, at na kumakatawan sa isang paglalarawan ng pag-asa sa ugnayan sa pagitan ng resulta at kadahilanan (factor) na katangian (mga tampok). Ang pamamaraang ito, kasama ang pagsusuri na isinasaalang-alang, ay bumubuo ng pamamaraan

Mga kondisyon para sa paggamit ng pamamaraan

Ang mga mabisang salik ay nakasalalay sa isa hanggang sa ilang salik. Ang pamamaraan ng pagsusuri ng ugnayan ay maaaring gamitin kung mayroong isang malaking bilang ng mga obserbasyon tungkol sa halaga ng epektibo at mga tagapagpahiwatig ng kadahilanan (mga kadahilanan), habang ang mga salik na pinag-aaralan ay dapat na quantitative at makikita sa mga tiyak na mapagkukunan. Ang una ay maaaring matukoy ng normal na batas - sa kasong ito, ang resulta ng pagtatasa ng ugnayan ay ang mga coefficient ng ugnayan ng Pearson, o, kung ang mga katangian ay hindi sumusunod sa batas na ito, ginagamit ang koepisyent ng ugnayan ng ranggo ng Spearman.

Mga panuntunan para sa pagpili ng mga salik sa pagsusuri ng ugnayan

Kapag inilalapat ang pamamaraang ito, kinakailangan upang matukoy ang mga salik na nakakaimpluwensya sa mga tagapagpahiwatig ng pagganap. Pinili ang mga ito na isinasaalang-alang ang katotohanan na dapat mayroong sanhi-at-epekto na mga relasyon sa pagitan ng mga tagapagpahiwatig. Sa kaso ng paglikha ng isang multifactor correlation model, ang mga may malaking epekto sa resultang indicator ay pinipili, habang mas mainam na huwag isama ang mga interdependent factor na may pares na coefficient ng correlation na higit sa 0.85 sa correlation model, gayundin ang mga iyon. kung saan ang relasyon sa resultang parameter ay hindi linear o functional na character.

Ipinapakita ang mga resulta

Ang mga resulta ng pagsusuri ng ugnayan ay maaaring ipakita sa teksto at mga graphic na anyo. Sa unang kaso sila ay ipinakita bilang isang koepisyent ng ugnayan, sa pangalawa - sa anyo ng isang scatter diagram.

Sa kawalan ng ugnayan sa pagitan ng mga parameter, ang mga punto sa diagram ay matatagpuan sa chaotically, ang average na antas ng koneksyon ay nailalarawan sa pamamagitan ng isang mas mataas na antas ng pagkakasunud-sunod at nailalarawan sa pamamagitan ng higit pa o hindi gaanong pare-parehong distansya ng mga markang marka mula sa median. Ang isang malakas na koneksyon ay malamang na tuwid at sa r=1 ang tuldok na plot ay isang patag na linya. Ang reverse correlation ay naiiba sa direksyon ng graph mula sa kaliwang itaas hanggang sa kanang ibaba, direktang ugnayan - mula sa kaliwang ibaba hanggang sa kanang sulok sa itaas.

3D na representasyon ng isang scatter plot

Bilang karagdagan sa tradisyonal na 2D scatter plot display, isang 3D graphical na representasyon ng pagsusuri ng ugnayan ang ginagamit na ngayon.

Ginagamit din ang scatterplot matrix, na nagpapakita ng lahat ng nakapares na plot sa isang figure sa isang matrix na format. Para sa n variable, ang matrix ay naglalaman ng n row at n column. Ang tsart na matatagpuan sa intersection ng i-th row at ang j-th column ay isang plot ng mga variable na Xi versus Xj. Kaya, ang bawat row at column ay isang dimensyon, ang isang solong cell ay nagpapakita ng scatterplot ng dalawang dimensyon.

Pagtatasa ng higpit ng koneksyon

Ang lapit ng koneksyon ng ugnayan ay tinutukoy ng koepisyent ng ugnayan (r): malakas - r = ±0.7 hanggang ±1, medium - r = ±0.3 hanggang ±0.699, mahina - r = 0 hanggang ±0.299. Ang pag-uuri na ito ay hindi mahigpit. Ang figure ay nagpapakita ng isang bahagyang naiibang diagram.

Isang halimbawa ng paggamit ng paraan ng pagsusuri ng ugnayan

Isang kawili-wiling pag-aaral ang isinagawa sa UK. Ito ay nakatuon sa koneksyon sa pagitan ng paninigarilyo at kanser sa baga, at isinagawa sa pamamagitan ng pagsusuri ng ugnayan. Ang pagmamasid na ito ay ipinakita sa ibaba.

Paunang data para sa pagsusuri ng ugnayan

Propesyonal na grupo

mortalidad

Mga magsasaka, kagubatan at mangingisda

Mga minero at manggagawa sa quarry

Mga tagagawa ng gas, coke at mga kemikal

Mga tagagawa ng salamin at keramika

Mga manggagawa ng furnace, forges, foundries at rolling mill

Mga manggagawa sa elektrikal at elektroniko

Engineering at mga kaugnay na propesyon

Mga industriyang gawa sa kahoy

Mga manggagawa sa balat

Mga manggagawa sa tela

Mga tagagawa ng damit para sa trabaho

Mga manggagawa sa industriya ng pagkain, inumin at tabako

Mga Tagagawa ng Papel at Print

Mga tagagawa ng iba pang mga produkto

Mga tagabuo

Mga pintor at dekorador

Mga driver ng mga nakatigil na makina, crane, atbp.

Mga manggagawang hindi kasama sa ibang lugar

Mga manggagawa sa transportasyon at komunikasyon

Warehouse workers, storekeepers, packers at filling machine workers

Mga manggagawa sa opisina

Mga nagbebenta

Mga manggagawa sa sports at libangan

Mga tagapangasiwa at tagapamahala

Mga propesyonal, technician at artist

Sinimulan namin ang pagsusuri ng ugnayan. Para sa kalinawan, mas mahusay na simulan ang solusyon sa isang graphical na pamamaraan, kung saan gagawa kami ng isang scatter diagram.

Nagpapakita ito ng direktang koneksyon. Gayunpaman, mahirap gumawa ng hindi malabo na konklusyon batay sa graphical na pamamaraan lamang. Samakatuwid, patuloy kaming magsasagawa ng pagsusuri ng ugnayan. Ang isang halimbawa ng pagkalkula ng koepisyent ng ugnayan ay ipinakita sa ibaba.

Gamit ang software (MS Excel ay ilalarawan sa ibaba bilang isang halimbawa), tinutukoy namin ang koepisyent ng ugnayan, na 0.716, na nangangahulugang isang malakas na koneksyon sa pagitan ng mga parameter na pinag-aaralan. Tukuyin natin ang istatistikal na pagiging maaasahan ng nakuhang halaga gamit ang kaukulang talahanayan, kung saan kailangan nating ibawas ang 2 mula sa 25 na pares ng mga halaga, bilang isang resulta nakakakuha tayo ng 23 at gamit ang linyang ito sa talahanayan ay nakita natin ang r kritikal para sa p = 0.01 (mula noong ang mga ito ay medikal na data, isang mas mahigpit na pag-asa, sa ibang mga kaso p=0.05 ay sapat), na 0.51 para sa pagsusuri ng ugnayan na ito. Ipinakita ng halimbawa na ang kinakalkula na r ay mas malaki kaysa sa kritikal na r, at ang halaga ng koepisyent ng ugnayan ay itinuturing na maaasahan sa istatistika.

Paggamit ng software kapag nagsasagawa ng pagsusuri ng ugnayan

Ang inilarawang uri ng pagpoproseso ng istatistikal na data ay maaaring isagawa gamit ang software, sa partikular na MS Excel. Kasama sa ugnayan ang pagkalkula ng mga sumusunod na parameter gamit ang mga function:

1. Ang correlation coefficient ay tinutukoy gamit ang CORREL function (array1; array2). Array1,2 - cell ng agwat ng mga halaga ng mga variable na resulta at kadahilanan.

Ang linear correlation coefficient ay tinatawag ding Pearson correlation coefficient, at samakatuwid, simula sa Excel 2007, maaari mong gamitin ang function na may parehong mga arrays.

Ang graphical na pagpapakita ng pagsusuri ng ugnayan sa Excel ay ginagawa gamit ang panel na "Mga Tsart" na may pagpipiliang "Scatter Plot".

Pagkatapos tukuyin ang paunang data, nakakakuha kami ng isang graph.

2. Pagtataya sa kahalagahan ng pairwise correlation coefficient gamit ang Student's t-test. Ang kinakalkula na halaga ng t-criterion ay inihambing sa tabulated (kritikal) na halaga ng tagapagpahiwatig na ito mula sa kaukulang talahanayan ng mga halaga ng parameter na isinasaalang-alang, na isinasaalang-alang ang tinukoy na antas ng kahalagahan at ang bilang ng mga antas ng kalayaan. Ang pagtatantya na ito ay isinasagawa gamit ang function na STUDISCOVER(probability; degrees_of_freedom).

3. Matrix ng mga coefficient ng ugnayan ng pares. Isinasagawa ang pagsusuri gamit ang tool sa Pagsusuri ng Data, kung saan napili ang Kaugnayan. Ang pagtatasa ng istatistika ng mga coefficient ng ugnayan ng pares ay isinasagawa sa pamamagitan ng paghahambing ng ganap na halaga nito sa naka-tabulate (kritikal) na halaga. Kapag ang kinakalkula na pairwise correlation coefficient ay lumampas sa kritikal, maaari nating sabihin, na isinasaalang-alang ang ibinigay na antas ng posibilidad, na ang null hypothesis tungkol sa kahalagahan ng linear na relasyon ay hindi tinatanggihan.

Sa wakas

Ang paggamit ng paraan ng pagsusuri ng ugnayan sa siyentipikong pananaliksik ay nagpapahintulot sa amin na matukoy ang kaugnayan sa pagitan ng iba't ibang mga kadahilanan at mga tagapagpahiwatig ng pagganap. Kinakailangang isaalang-alang na ang isang mataas na koepisyent ng ugnayan ay maaaring makuha mula sa isang walang katotohanan na pares o hanay ng data, at samakatuwid ang ganitong uri ng pagsusuri ay dapat isagawa sa isang sapat na malaking hanay ng data.

Matapos makuha ang kinakalkula na halaga ng r, ipinapayong ihambing ito sa kritikal na r upang kumpirmahin ang pagiging maaasahan ng istatistika ng isang tiyak na halaga. Ang pagsusuri ng ugnayan ay maaaring isagawa nang manu-mano gamit ang mga formula, o gamit ang software, sa partikular na MS Excel. Dito maaari ka ring bumuo ng isang scatter diagram para sa layunin ng biswal na kumakatawan sa kaugnayan sa pagitan ng pinag-aralan na mga kadahilanan ng pagsusuri ng ugnayan at ang resultang katangian.



Bago sa site

>

Pinaka sikat