Bahay Pagpapagaling ng ngipin ng mga bata Mga katangian ng linear correlation coefficient. Isang halimbawa ng paghahanap ng koepisyent ng ugnayan

Mga katangian ng linear correlation coefficient. Isang halimbawa ng paghahanap ng koepisyent ng ugnayan

Linear correlation coefficient

Ang isang mas perpektong tagapagpahiwatig ng antas ng pagkakalapit ng koneksyon ay linear correlation coefficient (r).

Kapag kinakalkula ang tagapagpahiwatig na ito, hindi lamang ang mga palatandaan ng mga paglihis ng mga indibidwal na halaga ng isang katangian mula sa average ay isinasaalang-alang, kundi pati na rin ang magnitude ng naturang mga paglihis mismo, i.e. ayon sa pagkakabanggit para sa factorial at resultang mga katangian, mga halaga at . Gayunpaman, imposibleng direktang ihambing ang nakuha na ganap na mga halaga sa bawat isa, dahil ang mga katangian mismo ay maaaring ipahayag sa iba't ibang mga yunit (tulad ng kaso sa ipinakita na halimbawa), at kung ang parehong mga yunit ng pagsukat ay naroroon, ang ang mga average ay maaaring magkakaiba sa halaga. Kaugnay nito, ang mga paglihis na ipinahayag sa mga kamag-anak na halaga ay maaaring sumailalim sa paghahambing, i.e. sa mga fraction ng standard deviation (tinatawag silang normalized deviations). Kaya, para sa isang kadahilanan na katangian magkakaroon tayo ng isang hanay ng mga halaga, at para sa isang resulta.

Ang mga resultang normalized deviations ay maaaring ihambing sa bawat isa. Upang makakuha ng isang pangkalahatang katangian ng antas ng pagiging malapit ng koneksyon sa pagitan ng mga katangian para sa buong populasyon batay sa isang paghahambing ng mga kinakalkula na normalized na mga paglihis, ang average na produkto ng mga normalized na mga paglihis ay kinakalkula. Ang average na nakuha sa ganitong paraan ay ang linear correlation coefficient r.

(1.2)

o dahil s x At s y para sa mga seryeng ito ay pare-pareho at maaaring alisin sa mga bracket, pagkatapos ay ang formula para sa linear correlation coefficient ay kukuha ng sumusunod na anyo:

(1.3)

Ang linear correlation coefficient ay maaaring tumagal ng anumang halaga mula -1 hanggang +1. Kung mas malapit ang koepisyent ng ugnayan sa ganap na halaga sa 1, mas malapit ang ugnayan sa pagitan ng mga katangian. Ang tanda ng linear correlation coefficient ay nagpapahiwatig ng direksyon ng relasyon: ang direktang relasyon ay tumutugma sa isang plus sign, at ang kabaligtaran na relasyon ay tumutugma sa isang minus sign.

Kung may pagtaas sa mga halaga ng katangian ng kadahilanan X, nagreresultang tanda sa may posibilidad na tumaas, kung gayon ang halaga ng koepisyent ng ugnayan ay nasa pagitan ng 0 at 1. Kung, sa pagtaas ng mga halaga X nagresultang tanda sa ay may posibilidad na bumaba, ang koepisyent ng ugnayan ay maaaring tumagal ng mga halaga sa hanay mula 0 hanggang –1.

Ang nakuhang halaga ng linear correlation coefficient, tulad ng Fechner coefficient na matatagpuan sa itaas, ay nagpapahiwatig posibleng availability Mayroong isang medyo malapit na direktang ugnayan sa pagitan ng mga gastos sa advertising at ang bilang ng mga turista na gumamit ng mga serbisyo ng kumpanya.

Squared correlation coefficient ( r 2) ay tinatawag koepisyent ng determinasyon. Para sa halimbawang isinasaalang-alang, ang halaga nito ay 0.6569, na nangangahulugan na ang 65.69% ng pagkakaiba-iba sa bilang ng mga kliyente na gumamit ng mga serbisyo ng kumpanya ay ipinaliwanag ng pagkakaiba-iba sa mga gastos ng mga kumpanya para sa pag-advertise ng kanilang mga serbisyo.

Dito ay dapat na muling maalala na ang halaga ng koepisyent ng ugnayan mismo ay hindi katibayan ng pagkakaroon ng isang sanhi-at-epekto na relasyon sa pagitan ng mga katangian na pinag-aaralan, ngunit isang pagtatasa ng antas ng pare-parehong pagkakapare-pareho sa mga pagbabago sa mga katangian. Ang pagtatatag ng isang sanhi-at-bunga na relasyon ay nauuna sa pamamagitan ng pagsusuri ng katangian ng husay ng mga phenomena. Ngunit may isa pang pangyayari na nagpapaliwanag sa pagbabalangkas ng mga konklusyon tungkol sa posibleng pagkakaroon ng isang koneksyon batay sa magnitude ng koepisyent ng ugnayan.

Ito ay dahil sa ang katunayan na ang pagtatasa ng antas ng pagiging malapit ng koneksyon gamit ang koepisyent ng ugnayan ay ginawa, bilang panuntunan, batay sa higit pa o mas limitadong impormasyon tungkol sa hindi pangkaraniwang bagay na pinag-aaralan. Ang tanong ay lumilitaw kung gaano lehitimo ang aming konklusyon batay sa sample na data tungkol sa aktwal na pagkakaroon ng isang ugnayan sa populasyon, kung saan kinuha ang sample?

PAGSUSURI NG PAG-UUGNAY AT REGRESSION SA

MGA PAGKUKULANG SA EKONOMIYA

Mga pangunahing konsepto sa pagsusuri ng ugnayan at regression

Sa matematika, mayroong dalawang konsepto na sumasalamin sa mga ugnayang sanhi-at-epekto sa pagitan ng mga katangian: functional at correlation dependence.

Ang functional dependence ay nauunawaan bilang isang relasyon sa pagitan ng mga dami kapag ang halaga ng umaasa na dami - isang function - ay ganap na tinutukoy ng mga halaga ng mga umaasa na variable.

Ang isang pag-asa sa ugnayan ay nangyayari kapag ang bawat halaga ng isa (nagreresulta) na dami ay tumutugma sa isang hanay ng mga random na halaga ng isa pa, na nagaganap na may isang tiyak na posibilidad.

Kapag nag-aaral ng mga pang-ekonomiyang phenomena, hindi tayo nakikitungo sa functional, ngunit sa pag-asa sa ugnayan. Gamit ang ugnayan at pagsusuri ng regression maaaring kalkulahin mga coefficient ng ugnayan, na tinatasa ang lakas ng ugnayan sa pagitan ng mga indibidwal na tagapagpahiwatig, piliin

regression equation, na tumutukoy sa anyo ng koneksyon na ito, at nagtatatag ng pagiging maaasahan ng pagkakaroon ng koneksyon na ito.

Ang proseso ng ugnayan at pagsusuri ng regression ng mga prosesong pang-ekonomiya ay binubuo ng mga sumusunod na yugto:

Paunang pagproseso ng istatistikal na data at pagpili ng mga pangunahing katangian ng salik na nakakaimpluwensya sa epektibong tagapagpahiwatig;

Pagtatasa ng lapit ng koneksyon at pagtukoy sa anyo ng umiiral na koneksyon sa pagitan ng mga katangian ng resulta at kadahilanan;

Pagbuo ng isang (multifactoral) na modelo ng phenomenon na pinag-aaralan at ang pagsusuri nito;

Paglalapat ng mga nakuhang resulta ng pagsusuri para sa paggawa ng mga desisyon sa pamamahala.

Ang ugnayan ay nahaharap sa dalawang pangunahing hamon. Ang una ay upang tukuyin kung paano nagbabago ang average na epektibong katangian kaugnay ng pagbabago sa factor one. Ang problemang ito ay maaaring malutas paghahanap ng equation ng komunikasyon. Tinutukoy ng pangalawang gawain ang antas ng impluwensya ng mga distorting na kadahilanan. Ang problemang ito ay nalutas sa pamamagitan ng pag-aaral ng mga tagapagpahiwatig ng pagkakalapit ng koneksyon. Ang mga naturang tagapagpahiwatig ay mga coefficient ng ugnayan at mga ratio ng ugnayan.



2. Effective at factor signs . Kapag pinag-aaralan ang impluwensya ng ilang mga palatandaan ng isang kababalaghan sa iba, mula sa kadena ng mga palatandaan na nagpapakilala sa isang naibigay na kababalaghan, dalawa ang nakikilala - mga palatandaan ng kadahilanan (nakakaapekto sa resulta) at mga resulta. Kinakailangang itatag kung alin sa mga katangian ang factorial at alin ang produktibo. Una sa lahat, nakakatulong ang lohikal na pagsusuri dito.

Halimbawa. Ang halaga ng mga produktong pang-industriya ng isang indibidwal na negosyo ay nakasalalay sa maraming mga kadahilanan, kabilang ang dami ng produksyon sa negosyong ito. Ang gastos ng produksyon ay kumikilos sa kasong ito bilang isang epektibong katangian, at ang dami ng produksyon bilang isang factorial.

Isa pang halimbawa. Upang hatulan ang mga bentahe ng malalaking negosyo kaysa sa maliliit, maaari nating isaalang-alang kung paano tumataas ang produktibidad ng paggawa ng mga manggagawa sa malalaking negosyo at matukoy ang pag-asa ng produktibidad ng paggawa sa pagtaas ng laki ng negosyo.

3. Ang konsepto ng equation ng komunikasyon. Ang equation ng function na ito ay magiging equation ng koneksyon sa pagitan ng resulta at factorial na katangian.

Ang coupling equation ay matatagpuan gamit ang pamamaraan hindi bababa sa mga parisukat, na nangangailangan na ang kabuuan ng mga parisukat na paglihis ng mga empirikal na halaga mula sa mga halagang nakuha batay sa equation ng pagkabit ay minimal.

Ang paggamit ng paraan ng hindi bababa sa mga parisukat ay ginagawang posible upang mahanap ang mga parameter ng equation ng komunikasyon sa pamamagitan ng paglutas ng isang sistema ng tinatawag na mga normal na equation, na naiiba para sa bawat uri ng koneksyon.

Upang tandaan na ang relasyon sa pagitan ng dalawang katangian ay ipinahayag ng average, ang mga halaga ng nagresultang katangian na natagpuan mula sa equation ng relasyon ay tinutukoy. Ugh.

Alam ang equation ng relasyon, maaari mong kalkulahin nang maaga ang average na halaga ng nagresultang katangian kapag ang halaga. kilala ang factorial na katangian. Kaya, ang equation ng koneksyon ay isang paraan ng pag-generalize ng mga naobserbahang istatistikal na relasyon, isang paraan ng pag-aaral ng mga ito.

Ang paggamit ng isa o iba pang function bilang isang coupling equation ay nakikilala ang mga coupling sa pamamagitan ng kanilang anyo: linear coupling at curvilinear coupling (parabolic, hyperbolic, atbp.).

Isaalang-alang natin ang mga equation ng koneksyon para sa mga dependencies sa isang katangian sa iba't ibang anyo mga koneksyon, (linear, curvilinear parabolic, hyperbolic) at para sa maraming koneksyon.

4. Linear na relasyon sa pagitan ng mga katangian. Ang connection equation bilang isang straight line equation Ух==ао+а1х ay ginagamit sa kaso ng pare-parehong pagtaas sa epektibong katangian na may pagtaas sa factorial attribute. Ang nasabing dependence ay magiging isang linear (rectilinear) dependence.

Ang mga parameter ng straight line equation ao at a1 ay matatagpuan sa pamamagitan ng paglutas ng isang sistema ng mga normal na equation na nakuha gamit ang least squares method:

Ang isang halimbawa ng pagkalkula ng mga parameter ng equation at ang average na mga halaga ng epektibong katangian na Vx ay ang sumusunod na talahanayan, na resulta ng pagpapangkat sa pamamagitan ng factorial na katangian at pagkalkula ng average na mga halaga ng epektibong katangian.

Ang pagpapangkat ng mga negosyo ayon sa halaga ng mga fixed asset at pagkalkula ng mga halaga ay kinakailangan para sa equation ng komunikasyon.

Mula sa talahanayan makikita natin ang: n==6; =18; =39.0; =71.5

132.0. Bumubuo kami ng isang sistema ng dalawang equation na may dalawang hindi alam:

Ang paghahati sa bawat termino sa parehong mga equation sa pamamagitan ng mga coefficient ng aо na nakukuha natin:

Ibawas ang una sa pangalawang equation: 0.97a1=0.83; a1==0.86. Ang pagpapalit ng mga halaga ng a1 sa unang equation ao+3*0.86 =6.5, makikita natin ang ao=6.5-2.58=+3.92.

Ang equation ng koneksyon ay kukuha ng anyo: yx=3.92+0.86x. Ang pagpapalit ng kaukulang x sa equation na ito, nakuha namin ang mga halaga ng nagresultang katangian, na sumasalamin sa average na pag-asa ng y sa x sa anyo ng isang pag-asa sa ugnayan.

Tandaan na ang mga halagang kinakalkula ng equation at ang aktwal na mga halaga ay katumbas ng bawat isa. Ang representasyon ng aktwal at kinakalkula na mga halaga sa Fig. 4 ay nagpapakita na ang coupling equation ay sumasalamin sa naobserbahang pagdepende sa karaniwan.

5. Parabolic dependence sa pagitan ng mga palatandaan . Ang parabolic dependence, na ipinahayag ng equation ng isang 2nd order parabola yx = ao + a1x + a2x 2, ay nangyayari sa isang pinabilis na pagtaas o pagbaba sa epektibong katangian kasama ng isang pare-parehong pagtaas sa factorial na katangian.

Parabola equation parameters aо; a1; a2, ay kinakalkula sa pamamagitan ng paglutas ng isang sistema ng 3 normal na equation:

Kunin natin ang dependency bilang isang halimbawa. buwanang isyu mga produkto (y) mula sa halaga ng mga fixed asset (x). Ang parehong mga numero ay bilugan sa pinakamalapit na milyong rubles. Ang mga kalkulasyon ng mga kinakailangang halaga ay ibinibigay sa talahanayan. 5.

Batay sa data sa talahanayan, lumikha kami ng isang sistema ng mga equation:

6. Hyperbola equation. Ang feedback ay nagpapahiwatig ng pagbaba sa epektibong katangian habang tumataas ang factorial. Ito ay isang linear na relasyon na may negatibong halaga ng a1. Sa ilang iba pang mga kaso, ang feedback ay maaaring ipahayag ng hyperbola equation

Ang mga parameter ng hyperbola equation ao at a1 ay matatagpuan mula sa sistema ng mga normal na equation:

7. Talahanayan ng ugnayan. Sa isang malaking dami ng mga obserbasyon, kapag ang bilang ng mga magkakaugnay na pares ay malaki, ang ipinares na data ay madaling matatagpuan sa isang talahanayan ng ugnayan, na kung saan ay ang pinaka-maginhawang anyo ng kumakatawan sa isang makabuluhang bilang ng mga pares ng mga numero.

Sa isang talahanayan ng ugnayan, ang isang katangian ay matatagpuan sa mga hilera, at ang isa pa sa mga hanay ng talahanayan. Ang numerong matatagpuan sa cell sa intersection ng graph at column ay nagpapakita kung gaano kadalas nangyayari ang isang ibinigay na halaga ng resultang katangian kasabay ng isang ibinigay na halaga ng factorial na katangian.

Upang gawing simple ang pagkalkula, kukuha kami ng isang maliit na bilang ng mga obserbasyon sa 20 mga negosyo ng average na buwanang output bawat manggagawa (libong rubles) at ang halaga ng mga fixed production asset (milyong rubles).

Sa isang regular na nakapares na talahanayan, ang impormasyong ito ay nakaayos tulad nito:

Ang mga kabuuan ng mga hilera y ay nagpapakita ng dalas ng katangian nу, ang mga kabuuan ng hanay x ay nagpapakita ng dalas ng katangiang nx. Ang mga numero sa mga cell ng talahanayan ng ugnayan ay mga frequency na nauugnay sa parehong mga katangian at itinalagang nxy.

Ang talahanayan ng ugnayan, kahit na may isang mababaw na kakilala, ay nagbibigay Pangkalahatang ideya tungkol sa tuwid na linya at puna. Kung ang mga frequency ay matatagpuan sa pahilis pababa sa kanan, kung gayon ang koneksyon sa pagitan ng mga katangian ay direkta (na may pagtaas ng mga halaga ng katangian sa mga hilera at haligi). Kung ang mga frequency ay matatagpuan pahilis paitaas sa kanan, pagkatapos ay ang koneksyon ay baligtad.

8. Kaugnayang ugnayan. Kung ang isang kababalaghan ay sinusukat ng dalawang katangian, posible na makahanap ng mga sukat ng pagpapakalat (pangunahin ang pagpapakalat) sa pamamagitan ng nagreresultang katangian para sa parehong mga halaga ng factorial na katangian.

Ibinigay, halimbawa, ay isang talahanayan ng ugnayan ng dalawang magkakaugnay na serye, kung saan, para sa pagiging simple, mayroon lamang tatlong mga halaga ng factorial na katangian ng dami ng pataba na inilapat (x), at ang nagresultang katangian - ani (y) —nagbabago nang malaki. Talahanayan 16

Ang bawat pangkat ng mga plot na may iba't ibang ani ay may iba't ibang dami ng inilapat na pataba. Kaya, kapag ang 20 g ng pataba ay inilapat, ang ani sa iba't ibang mga lugar ay pantay-pantay: sa isang lugar ay 0.8 tonelada, sa dalawang lugar - 0.9 tonelada, sa tatlo - 1.0 tonelada at sa isa - 1.1 t Hanapin natin ang average na ani at yield dispersion para sa grupong ito ng mga plot.

Para sa isang pangkat ng mga plot na may halaga ng pataba na inilapat 30.0 g, ang average na ani ay magiging:

Kalkulahin natin ang mga katulad na katangian para sa isang pangkat ng mga lugar. nakatanggap ng 40 toneladang pataba:

Mula sa mga data na ito, maaari mo ring matukoy ang average na ani ng lahat ng 20 plots, anuman ang halaga ng pataba na inilapat, ibig sabihin, ang pangkalahatang average:

at isang sukatan ng pagkakaiba-iba (dispersion) ng average na ani ng mga pangkat sa paligid ng pangkalahatang average. Ang dispersion na ito ay tinatawag na intergroup dispersion at tinutukoy ang b 2

kung saan ang yi ay ang average na ani para sa mga grupo ng mga plot na naiiba sa dami ng pataba na inilapat; m1,m2,m3,-bilang ng mga pangkat. Ang pagkakaiba-iba sa pagitan ng pangkat para sa halimbawang ito ay:

Ang pagkakaiba-iba sa pagitan ng pangkat ay nagpapakita ng pagpapakalat na nangyayari dahil sa factorial na katangian. Sa halimbawang ito, ang Y = == 0.01&247 ay isang indicator ng dispersion ng ani na nagreresulta mula sa pagkakaiba sa dami ng inilapat na pataba.

Gayunpaman, bilang karagdagan sa intergroup dispersion, posible ring kalkulahin ang dispersion bilang isang indicator ng dispersion dahil sa iba pang mga kadahilanan (kung tawagin mo ang lahat ng iba pang mga kadahilanan maliban sa mga pataba sa ganoong paraan). Ang indicator na ito ay magiging isang average (weighted) na halaga ng mga dispersion indicator (variances) para sa mga pangkat ng mga site

Nangangahulugan ito na posibleng makakuha ng pangkalahatang sukat ng dispersion (dispersion) para sa lahat ng 20 plots kung ang impormasyon ay makukuha sa mga paraan at pagkakaiba-iba para sa mga grupo ng plots na naiiba sa dami ng inilapat na pataba. Samakatuwid, ang kabuuang pagkakaiba ng ani para sa 20 plots ay magiging;

Ang mga formula para sa pagkalkula ng mga pagkakaiba-iba ng intergroup at average na grupo ay maaaring paikliin bilang mga sumusunod:

Ang pagkalkula ng kabuuang pagkakaiba, intragroup at intergroup na pagkakaiba ay nagbibigay-daan sa amin upang makagawa ng ilang mga konklusyon tungkol sa antas ng impluwensya ng factorial na katangian sa pagkakaiba-iba ng epektibong katangian. Ang sukat ng impluwensyang ito ay matatagpuan gamit ang kaugnayan ng ugnayan:

Nangangahulugan ito na ang 78% ng pagkakaiba-iba sa ani ng plot ay nakasalalay sa pagkakaiba-iba ng dami ng inilapat na pataba.

Linear correlation coefficient

Kapag pinag-aaralan ang lapit ng ugnayan sa pagitan ng dalawang magkakaugnay na serye, ginagamit ang isang linear na koepisyent ng ugnayan, na nagpapakita kung at gaano katibay ang ugnayan sa pagitan ng mga seryeng ito. Maaari itong tumagal ng mga halaga mula -1 hanggang +1.

10.Cumulative correlation coefficient :

,

saan r- linear correlation coefficients, at ang mga subscript ay nagpapahiwatig sa pagitan ng kung aling mga katangian ang kanilang kinakalkula.

1) Ang linear correlation coefficient ay maaaring tumagal ng mga halaga mula -1 hanggang +1.

2) Kung , kung gayon ang koneksyon sa pagitan ng mga katangian ay gumagana, ibig sabihin, ang epektibong katangian ay naiimpluwensyahan lamang ng factorial na katangian na isinasaalang-alang at wala nang iba pa, kung r = 0, pagkatapos ay walang koneksyon sa pagitan ng mga katangian.

3) Kung r> 0, kung gayon ang ugnayan sa pagitan ng mga katangian ay direkta, kung r< 0, то связь – обратная.

4) Ilaan ang mga sumusunod na pagitan para sa r:

halos walang koneksyon sa pagitan ng mga palatandaan;

mahina ang koneksyon;

katamtaman ang koneksyon;

malakas ang koneksyon.

kanin. 2. Mga halimbawa ng lokasyon ng mga puntos sa graph at ang mga halaga ng koepisyent ng ugnayan

Para sa pagtatasa ng kahalagahan ng linear correlation coefficient r gamitin t- Pagsusulit ng mag-aaral. Sa kasong ito, ang isang hypothesis ay iniharap na ang koepisyent ng ugnayan ay katumbas ng zero.

Pagsusuri ng hypothesis:

1. Kalkulahin ang aktwal na mga halaga t- pamantayan para sa r:

(ginagamit ang formula na ito para sa maliit na laki ng sample).

2. Ayon sa talahanayan t- Ang pamamahagi ng Mag-aaral, na isinasaalang-alang ang tinatanggap na antas ng kahalagahan o at ang bilang ng mga antas ng kalayaan, ay tinutukoy.

3. Kung , kung gayon ang hypothesis ay tinanggihan, na nagpapahiwatig ng kahalagahan ng koepisyent ng ugnayan.

Relasyon ng ugnayan tinutukoy ng mga formula:

η = o η = ,

kung saan ang pagkakaiba-iba ng intergroup ng nagresultang katangian na dulot ng impluwensya ng kadahilanang katangian;

– kabuuang pagpapakalat ng resultang katangian;

– ang average ng mga pagkakaiba-iba sa loob ng pangkat ng nagresultang katangian.

Ang pagkalkula ng isang relasyon sa ugnayan ay nangangailangan ng isang medyo malaking halaga ng impormasyon, na dapat iharap sa anyo ng isang talahanayan ng pangkat o sa anyo ng isang talahanayan ng ugnayan, i.e. kinakailangan ay ang pagpapangkat ng data ayon sa attribute-factor.

Para sa ungrouped data, ang empirical correlation ratio ay maaaring kalkulahin gamit ang sumusunod na formula:

.

kung saan y - empirical (aktwal) na mga halaga ng nagresultang katangian;

- average na halaga ng epektibong katangian;

– equalized na mga halaga ng nagresultang katangian, kinakalkula gamit ang analytical equation.

Ang ratio ng correlation squared (), at para sa isang pairwise na relasyon ang linear correlation coefficient squared () ay tinatawag koepisyent ng determinasyon (causality), sinasalamin nito ang bahagi ng pagkakaiba-iba ng kadahilanan sa kabuuang pagkakaiba.

Koepisyent ng determinasyon (D) ay nagpapakita sa pamamagitan ng kung anong porsyento ang pagbabago sa average na halaga ng nagresultang katangian ay natutukoy sa pamamagitan ng impluwensya ng salik na katangiang ito.

Sa pagsasagawa, ang iba pang mga tagapagpahiwatig ay maaaring gamitin upang matukoy ang antas ng pagiging malapit ng koneksyon.

Ang isang elementarya na katangian ng antas ng pagkakalapit ng koneksyon ay Koepisyent ng Fechner :

,

saan n a- bilang ng mga pagkakataon ng mga palatandaan ng mga paglihis ng mga indibidwal na halaga ng isang katangian ng kadahilanan X at resultang tanda sa mula sa kanilang arithmetic mean (halimbawa, "plus" at "plus", "minus" at "minus", "walang deviation" at "no deviation");

n b– ang bilang ng mga pagkakaiba sa mga palatandaan ng mga paglihis ng mga indibidwal na halaga ng mga katangian mula sa halaga ng kanilang arithmetic mean.

Ang Fechner coefficient ay ginagamit kapag ang halaga ng paunang impormasyon ay maliit. Nag-iiba ito mula -1 hanggang 1.

Upang matukoy ang pagiging malapit ng ugnayan sa pagitan ng parehong dami at husay na mga katangian, sa kondisyon na ang mga halaga ng mga katangiang ito ay maaaring mai-ranggo sa pataas o pababang pagkakasunud-sunod, ginagamit ito Koepisyent ng ugnayan ng ranggo ng Spearman :

,

saan d i- ang pagkakaiba sa pagitan ng mga halaga ng ranggo ng katangian ng kadahilanan at ang nagresultang katangian;

n– ang bilang ng mga indicator (ranggo) ng seryeng pinag-aaralan.

Nag-iiba ito mula -1 hanggang 1.

Pagtatapos ng trabaho -

Ang paksang ito ay kabilang sa seksyon:

Mga istatistika

Vyatka State Humanitarian University.. m a kunilova o o antonenko..

Kung kailangan mo ng karagdagang materyal sa paksang ito, o hindi mo nakita ang iyong hinahanap, inirerekumenda namin ang paggamit ng paghahanap sa aming database ng mga gawa:

Ano ang gagawin natin sa natanggap na materyal:

Kung ang materyal na ito ay kapaki-pakinabang sa iyo, maaari mo itong i-save sa iyong pahina sa mga social network:

Lahat ng mga paksa sa seksyong ito:

Mga kritikal na halaga ng Fisher's F test
k1 k2 Antas ng kahalagahan

Ang iba't ibang mga pang-ekonomiyang phenomena, kapwa sa micro at macro na antas, ay hindi independyente, ngunit magkakaugnay (presyo ng isang produkto at demand para dito, dami ng produksyon at tubo ng kumpanya, atbp.).

Ang pag-asa na ito ay maaaring maging mahigpit na gumagana (deterministic) at istatistika.

Ang pag-asa sa pagitan ng at ay tinatawag na functional kapag ang bawat halaga ng isang katangian ay tumutugma sa isang solong halaga ng isa pang katangian. (Ang isang halimbawa ng gayong natatanging relasyon ay ang pag-asa ng lugar ng isang bilog sa radius.)

Sa katotohanan, ang isa pang koneksyon sa pagitan ng mga phenomena ay mas karaniwan, kapag ang bawat halaga ng isang katangian ay maaaring tumutugma sa ilang mga halaga ng isa pa (halimbawa, ang koneksyon sa pagitan ng edad ng mga bata at kanilang taas).

Ang anyo ng koneksyon kung saan ang isa o higit pang magkakaugnay na mga tagapagpahiwatig (mga kadahilanan) ay nakakaimpluwensya sa isa pang tagapagpahiwatig (resulta) na hindi malinaw, ngunit may isang tiyak na antas ng posibilidad, ay tinatawag na istatistika. Sa partikular, kung kapag ang isa sa mga dami ay nagbabago, ang average na halaga ng iba pang mga pagbabago, kung gayon sa kasong ito ang statistical dependence ay tinatawag na ugnayan.

Depende sa bilang ng mga salik na kasama sa modelo, ang pagkakaiba ay ginawa sa pagitan ng pares na ugnayan (relasyon sa pagitan ng dalawang variable) at maramihang ugnayan (dependence ng resulta sa ilang salik).

Pagsusuri ng ugnayan binubuo sa pagtukoy direksyon, anyo at antas koneksyon (closeness) sa pagitan ng dalawang (ilang) random na katangian at.

Sa direksyon, ang ugnayan ay positibo (direkta) kung, habang ang mga halaga ng isang variable ay tumataas, ang halaga ng isa pa ay tumataas, at negatibo (kabaligtaran) kung, habang ang mga halaga ng isang variable ay tumaas, ang halaga ng isa pa ay bumababa. .

Sa anyo, ang isang relasyon sa ugnayan ay maaaring maging linear (tuwid na linya), kapag ang isang pagbabago sa mga halaga ng isang katangian ay humahantong sa isang pare-parehong pagbabago sa isa pa (matematikong inilarawan ng equation ng isang tuwid na linya), at curvilinear, kapag ang isang Ang pagbabago sa mga halaga ng isang katangian ay humahantong sa hindi pantay na mga pagbabago sa isa pa (matematika, ito ay inilarawan ng mga equation ng mga hubog na linya, halimbawa hyperbolas, parabolas, atbp.).

Ang pinakasimpleng anyo ng dependence sa pagitan ng mga variable ay linear dependence. At ang pagsuri sa pagkakaroon ng naturang pag-asa, ang pagtatasa ng mga tagapagpahiwatig at mga parameter nito ay isa sa pinakamahalagang lugar ng econometrics.

Mayroong mga espesyal na pamamaraan ng istatistika at, nang naaayon, mga tagapagpahiwatig, ang mga halaga kung saan sa isang tiyak na paraan ay nagpapahiwatig ng pagkakaroon o kawalan ng isang linear na relasyon sa pagitan ng mga variable.

Linear correlation coefficient

Ang pinakasimpleng, tinatayang paraan upang matukoy ang mga ugnayan ay graphical.

Sa isang maliit na laki ng sample, ang pang-eksperimentong data ay ipinakita sa anyo ng dalawang serye ng mga magkakaugnay na halaga at. Kung ang bawat pares ay kinakatawan bilang isang punto sa eroplano, kung gayon ang tinatawag na patlang ng ugnayan ay nakuha (Larawan 1).

Kung ang patlang ng ugnayan ay isang ellipse, ang axis nito ay matatagpuan mula kaliwa hanggang kanan at mula sa ibaba hanggang sa itaas (Larawan 1c), kung gayon maaari nating ipagpalagay na mayroong isang linear na positibong relasyon sa pagitan ng mga katangian.

Kung ang patlang ng ugnayan ay pinalawak sa kahabaan ng axis mula kaliwa hanggang kanan at mula sa itaas hanggang sa ibaba (Larawan 1d), maaari nating ipagpalagay ang pagkakaroon ng isang linear na negatibong koneksyon.

Kung ang mga punto ng pagmamasid ay matatagpuan magulo sa eroplano, iyon ay, ang patlang ng ugnayan ay bumubuo ng isang bilog (Larawan 1a), kung gayon ito ay nagpapahiwatig ng kakulangan ng koneksyon sa pagitan ng mga katangian.

Ipinapakita ng Figure 1b ang isang mahigpit na linear functional na relasyon.

Ang malapit na relasyon sa pagitan ng dalawang dami ay nauunawaan bilang ang antas ng conjugation sa pagitan ng mga ito, na ipinahayag sa isang pagbabago sa mga dami na pinag-aaralan. Kung ang bawat ibinigay na halaga ay tumutugma sa mga halaga na malapit sa isa't isa, kung gayon ang relasyon ay itinuturing na malapit (malakas); kung ang mga halaga ay malawak na nakakalat, kung gayon ang relasyon ay itinuturing na hindi gaanong malapit. Sa isang malapit na koneksyon ng ugnayan, ang field ng ugnayan ay isang mas marami o hindi gaanong naka-compress na ellipse.

Ang isang quantitative criterion para sa direksyon at higpit ng isang linear na relasyon ay ang coefficient linear na ugnayan.

Ang correlation coefficient na tinutukoy mula sa sample na data ay tinatawag na sample correlation coefficient. Ito ay kinakalkula ng formula:

kung saan, kasalukuyang mga halaga ng mga tampok at; at arithmetic mean na mga halaga ng mga katangian; - ang arithmetic mean ng mga produkto ng variant, at ang standard deviations ng mga katangiang ito; laki ng sample.


Upang kalkulahin ang koepisyent ng ugnayan, sapat na upang tanggapin ang pagpapalagay ng isang linear na relasyon sa pagitan ng mga random na katangian. Pagkatapos ang kinakalkula na koepisyent ng ugnayan ay magiging isang sukatan ng linear na relasyon na ito.

Kinukuha ng linear correlation coefficient ang mga value mula sa?1 sa kaso ng mahigpit na linear na negatibong relasyon, hanggang +1 sa kaso ng mahigpit na linear positibong koneksyon(mga.). Ang pagkakalapit ng koepisyent ng ugnayan sa 0 ay nagpapahiwatig ng kawalan linear mga koneksyon sa pagitan ng mga katangian, ngunit hindi tungkol sa kawalan ng mga koneksyon sa pagitan nila.

Ang koepisyent ng ugnayan ay maaaring bigyan ng malinaw na graphical na interpretasyon.

Kung, pagkatapos ay mayroong isang linear functional dependence ng uri sa pagitan ng mga katangian, na nangangahulugan ng isang kumpletong ugnayan ng mga katangian. Kailan, ang tuwid na linya ay may positibong slope na may kaugnayan sa axis, at negatibo (Fig. 1b).

Kung ang mga punto ay nasa lugar limitadong linya, na kahawig ng isang ellipse. Kung mas malapit ang koepisyent ng ugnayan, mas makitid ang ellipse at mas malapit ang mga puntos na puro malapit sa tuwid na linya. Pag sinabi nilang may positive correlation. Sa kasong ito, ang mga halaga ay may posibilidad na tumaas sa pagtaas (Larawan 1c). Kapag pinag-uusapan nila ang isang negatibong ugnayan; ang mga halaga ay may posibilidad na bumaba sa paglaki (Larawan 1d).

Kung, kung gayon ang mga punto ay matatagpuan sa lugar na hangganan ng bilog. Nangangahulugan ito na walang ugnayan sa pagitan ng mga random na tampok, at ang mga naturang tampok ay tinatawag na uncorrelated (Larawan 1a).

Gayundin, ang linear correlation coefficient ay maaaring malapit (katumbas) sa zero kapag may kaugnayan sa pagitan ng mga katangian, ngunit ito ay nonlinear (Fig. 2).

Kapag tinatasa ang higpit ng isang koneksyon, maaari mong gamitin ang sumusunod na talahanayan ng kondisyon:

Tandaan na ang numerator ng formula para sa sample na linear correlation coefficient ng mga dami at may naglalaman ng kanilang covariance indicator:

Ang indicator na ito, tulad ng correlation coefficient, ay nagpapakilala sa antas ng linear na relasyon sa pagitan ng mga dami at. Kung ito ay mas malaki kaysa sa zero, kung gayon ang relasyon sa pagitan ng mga dami ay positibo kung ito ay mas mababa sa zero, kung gayon ang relasyon ay negatibo kung ito ay katumbas ng zero, walang linear na relasyon.

Hindi tulad ng koepisyent ng ugnayan, ang tagapagpahiwatig ng covariance ay na-normalize - mayroon itong sukat, at ang halaga nito ay nakasalalay sa mga yunit ng pagsukat at. Sa statistical analysis, ang covariance indicator ay karaniwang ginagamit bilang intermediate element sa pagkalkula ng linear correlation coefficient. yun. ang formula para sa pagkalkula ng sample na koepisyent ng ugnayan ay tumatagal ng anyo:

Pagtatantya ng kahalagahan (kaasahan) ng koepisyent ng ugnayan

Dapat tandaan na ang tunay na tagapagpahiwatig ng antas ng linear na relasyon sa pagitan ng mga variable ay ang theoretical correlation coefficient, na kinakalkula batay sa data mula sa buong populasyon (ibig sabihin, lahat posibleng mga halaga mga tagapagpahiwatig):

nasaan ang theoretical covariance index, na kinakalkula bilang inaasahang halaga mga produkto ng mga paglihis ng mga SV at mula sa kanilang mga inaasahan sa matematika.

Bilang isang tuntunin, hindi namin makalkula ang teoretikal na koepisyent ng ugnayan. Gayunpaman, mula sa katotohanan na ang sample coefficient ay hindi katumbas ng zero, hindi ito sumusunod na ang theoretical coefficient ay din (ibig sabihin, ang mga indicator ay maaaring linearly independent). yun. Batay sa random sampling data, hindi masasabing may kaugnayan ang mga indicator.

Ang sample correlation coefficient ay isang pagtatantya ng theoretical coefficient, dahil ito ay kinakalkula para lamang sa bahagi ng mga variable na halaga.

Palaging may error sa correlation coefficient. Ang error na ito - ang pagkakaiba sa pagitan ng correlation coefficient ng sample size at correlation coefficient para sa pangkalahatang populasyon ay tinutukoy ng mga formula:

sa; at sa.

Ang pagsubok sa kahalagahan ng isang linear correlation coefficient ay nangangahulugang pagsubok kung gaano natin mapagkakatiwalaan ang sample na data.

Para sa layuning ito, ang null hypothesis ay nasubok na ang halaga ng correlation coefficient para sa populasyon ay katumbas ng zero, i.e. walang ugnayan sa populasyon. Ang kahalili ay isang hypothesis.

Upang subukan ang hypothesis na ito, ang mga istatistika ng Mag-aaral (-criterion) ay kinakalkula:

Na mayroong pamamahagi ng Mag-aaral na may mga antas ng kalayaan. Gamit ang mga talahanayan ng pamamahagi ng Mag-aaral, ito ay tinutukoy kritikal na halaga. Kung ang kinakalkula na halaga ng criterion, kung gayon ang null hypothesis ay tinanggihan, iyon ay, ang kinakalkula na koepisyent ng ugnayan ay makabuluhang naiiba mula sa zero na may posibilidad.

Kung, kung gayon ang null hypothesis ay hindi maaaring tanggihan. Sa kasong ito, posible na ang tunay na halaga ng koepisyent ng ugnayan ay zero, i.e. ang kaugnayan sa pagitan ng mga tagapagpahiwatig ay maaaring ituring na hindi gaanong mahalaga sa istatistika.

Halimbawa 1. Ang talahanayan ay nagpapakita ng data para sa 8 taon sa kabuuang kita at panghuling paggasta sa pagkonsumo.

Pag-aralan at sukatin ang lapit ng ugnayan sa pagitan ng mga ibinigay na indicator.

Ang pagsusuri ng ugnayan ay tumatalakay sa antas ng koneksyon sa pagitan ng dalawa mga random na variable X at Y.

Ang pagsusuri ng ugnayan ng pang-eksperimentong data para sa dalawang random na variable ay kinabibilangan ng mga sumusunod na pangunahing pamamaraan:
1. Pagkalkula ng mga sample correlation coefficients.
2. Pagguhit ng talahanayan ng ugnayan.
3. Suriin istatistikal na hypothesis ang kahalagahan ng koneksyon.

DEPINISYON. Ang pagdepende sa ugnayan sa pagitan ng mga random na variable X at Y ay tinatawag na linear correlation kung ang parehong regression function na f(x) at φ(x) ay linear. Sa kasong ito, ang parehong mga linya ng pagbabalik ay tuwid; ang mga ito ay tinatawag na mga linya ng regression.

Para sapat buong paglalarawan mga tampok ng pag-asa sa ugnayan sa pagitan ng mga dami, hindi sapat upang matukoy ang anyo ng pag-asa na ito at sa kaso linear dependence suriin ang lakas nito sa pamamagitan ng halaga ng regression coefficient. Halimbawa, malinaw na ang pagkakaugnay na pagdepende ng edad Y ng mga mag-aaral sa sekondaryang paaralan sa taong X ng kanilang pag-aaral ay, bilang panuntunan, ay mas malapit kaysa sa katulad na pagdepende sa edad ng mga mag-aaral sa mas mataas na edukasyon. institusyong pang-edukasyon depende sa taon ng pag-aaral, dahil sa mga mag-aaral ng parehong taon ng pag-aaral sa isang unibersidad ay karaniwang may mas malaking dispersion sa edad kaysa sa mga mag-aaral sa parehong klase.

Upang masuri ang lapit ng mga dependency ng linear correlation sa pagitan ng mga halaga ng X at Y batay sa mga resulta ng mga sample na obserbasyon, ipinakilala ang konsepto ng isang sample na linear correlation coefficient, na tinukoy ng formula:

kung saan ang σ X at σ Y ay mga sample na standard deviations ng mga halagang X at Y, na kinakalkula gamit ang mga formula:

Dapat tandaan na ang pangunahing kahulugan ng sample linear correlation coefficient r B ay kumakatawan ito sa isang empirical (i.e., natagpuan mula sa mga resulta ng mga obserbasyon ng X at Y values) na pagtatantya ng kaukulang pangkalahatang linear correlation coefficient r: r= r B (9)

Isinasaalang-alang ang mga formula:

nakikita natin na ang sampling equation linear regression Y by X ay mukhang:

(10)

saan . Ang parehong ay maaaring sabihin tungkol sa mga sample na linear regression equation ng X sa Y:

(11)

Mga pangunahing katangian ng sample na linear correlation coefficient:

1. Ang koepisyent ng ugnayan ng dalawang dami na hindi nauugnay sa isang linear na ugnayan ay katumbas ng zero.
2. Ang koepisyent ng ugnayan ng dalawang dami na nauugnay sa isang linear na pag-asa sa ugnayan ay katumbas ng 1 sa kaso ng pagtaas ng dependence at -1 sa kaso ng pagbaba ng dependence.
3. Ganap na halaga correlation coefficient ng dalawang dami na nauugnay sa isang linear correlation dependence ay nakakatugon sa hindi pagkakapantay-pantay 0<|r|<1. При этом коэффициент корреляции положителен, если корреляционная зависимость возрастающая, и отрицателен, если корреляционная зависимость убывающая.
4. Ang mas malapit |r| hanggang 1, mas malapit ang linear na ugnayan sa pagitan ng mga halaga ng Y at X.

Sa pamamagitan ng likas na katangian nito, ang ugnayan ay maaaring direkta o kabaligtaran, at sa pamamagitan ng lakas nito - malakas, katamtaman, mahina. Bilang karagdagan, ang koneksyon ay maaaring wala o kumpleto.

Ang lakas at likas na katangian ng ugnayan sa pagitan ng mga parameter

Halimbawa 4. Ang relasyon sa pagitan ng dalawang dami ng Y at X ay pinag-aralan Ang mga resulta ng obserbasyon ay ipinakita sa talahanayan sa anyo ng isang two-dimensional na sample ng volume 11:

X 68 37 50 53 75 66 52 65 74 65 54
Y 114 149 146 141 114 112 124 105 141 120 124

Kailangan:
1) Kalkulahin ang sample correlation coefficient;
2) Tayahin ang katangian at lakas ng ugnayan;
3) Sumulat ng linear regression equation para sa Y sa X.

Solusyon. Ayon sa mga kilalang formula:

Samakatuwid, ayon sa (7) at (8):

Kaya, dapat itong tapusin na ang pag-asa sa ugnayan na isinasaalang-alang sa pagitan ng mga halaga ng X at Y ay baligtad sa likas na katangian at average sa lakas.

3) Linear regression equation ng Y sa X:

Halimbawa 5. Ang relasyon sa pagitan ng kalidad Y (%) at dami X (pcs) ay pinag-aralan. Ang mga resulta ng pagmamasid ay ipinakita sa anyo ng isang talahanayan ng ugnayan:

Y\X 18 22 26 30 n y
70 5 5
75 7 46 1 54
80 29 72 101
85 29 8
90 3 3
n x 12 75 102 11 200

Kinakailangang kalkulahin ang sample na linear correlation coefficient ng dependence ng Y sa X.

Solusyon. Upang gawing simple ang mga kalkulasyon, lumipat tayo sa mga bagong variable - mga opsyonal na kondisyon (u i, v i), gamit ang mga formula (*) (§3) na may h 1 =4, h 2 =5, x 0 =26, y 0 =80. Para sa kaginhawahan, muling isinulat namin ang talahanayang ito sa bagong notasyon:

u\v -2 -1 0 1 nv
-2 5 5
-1 7 46 1 54
0 29 72 101
1 29 8
2 3 3
n u 12 75 102 11 200

Mayroon kaming para sa x i =u i at y j =v j:

kaya:

Mula rito,

Konklusyon: Ang ugnayan sa pagitan ng mga halaga ng X at Y ay direkta at malakas.



Bago sa site

>

Pinaka sikat