Bahay Stomatitis Magsagawa ng pagsusuri ng regression. Mga pamamaraan ng mga istatistika ng matematika

Magsagawa ng pagsusuri ng regression. Mga pamamaraan ng mga istatistika ng matematika

Ang regression at correlation analysis ay mga istatistikal na pamamaraan ng pananaliksik. Ito ang mga pinakakaraniwang paraan upang ipakita ang pagtitiwala ng isang parameter sa isa o higit pang mga independiyenteng variable.

Sa ibaba sa tiyak praktikal na mga halimbawa Tingnan natin ang dalawang napakasikat na pagsusuring ito sa mga ekonomista. Magbibigay din kami ng isang halimbawa ng pagkuha ng mga resulta kapag pinagsama ang mga ito.

Pagsusuri ng Pagbabalik sa Excel

Ipinapakita ang impluwensya ng ilang mga halaga (independiyente, independyente) sa umaasa na variable. Halimbawa, paano nakadepende ang bilang ng aktibong populasyon sa ekonomiya sa bilang ng mga negosyo, ang laki sahod at iba pang mga parameter. O: paano nakakaapekto ang mga dayuhang pamumuhunan, presyo ng enerhiya, atbp. sa antas ng GDP.

Ang resulta ng pagsusuri ay nagpapahintulot sa iyo na i-highlight ang mga priyoridad. At batay sa mga pangunahing kadahilanan, hulaan, planuhin ang pagbuo ng mga priyoridad na lugar, at gumawa ng mga desisyon sa pamamahala.

Nangyayari ang pagbabalik:

  • linear (y = a + bx);
  • parabolic (y = a + bx + cx 2);
  • exponential (y = a * exp(bx));
  • kapangyarihan (y = a*x^b);
  • hyperbolic (y = b/x + a);
  • logarithmic (y = b * 1n(x) + a);
  • exponential (y = a * b^x).

Tingnan natin ang isang halimbawa ng pagbuo ng modelo ng regression sa Excel at pagbibigay-kahulugan sa mga resulta. Kunin natin ang linear na uri ng regression.

Gawain. Sa 6 na negosyo, nasuri ang average na buwanang suweldo at ang bilang ng mga humihintong empleyado. Ito ay kinakailangan upang matukoy ang pag-asa ng bilang ng mga humihinto sa mga empleyado sa average na suweldo.

Modelo linear regression ay may sumusunod na anyo:

Y = a 0 + a 1 x 1 +…+a k x k.

Kung ang a ay mga coefficient ng regression, ang x ay nakakaimpluwensya sa mga variable, ang k ay ang bilang ng mga salik.

Sa aming halimbawa, ang Y ay ang tagapagpahiwatig ng pagtigil sa mga empleyado. Ang salik na nakakaimpluwensya ay sahod (x).

Ang Excel ay may mga built-in na function na makakatulong sa iyong kalkulahin ang mga parameter ng isang linear regression model. Ngunit gagawin ito ng add-on na "Analysis Package" nang mas mabilis.

Ina-activate namin ang isang malakas na tool sa pagsusuri:

Kapag na-activate na, magiging available ang add-on sa tab na Data.

Ngayon gawin natin ang pagsusuri ng regression mismo.



Una sa lahat, binibigyang pansin natin ang R-squared at coefficients.

Ang R-squared ay ang koepisyent ng determinasyon. Sa aming halimbawa - 0.755, o 75.5%. Nangangahulugan ito na ang mga kinakalkula na parameter ng modelo ay nagpapaliwanag ng 75.5% ng ugnayan sa pagitan ng mga pinag-aralan na parameter. Kung mas mataas ang koepisyent ng pagpapasiya, mas mahusay ang modelo. Mabuti - higit sa 0.8. Masama – mas mababa sa 0.5 (halos hindi maituturing na makatwiran ang naturang pagsusuri). Sa aming halimbawa - "hindi masama".

Ang koepisyent na 64.1428 ay nagpapakita kung ano ang magiging Y kung ang lahat ng mga variable sa modelong isinasaalang-alang ay katumbas ng 0. Ibig sabihin, ang halaga ng nasuri na parameter ay naiimpluwensyahan din ng iba pang mga kadahilanan na hindi inilarawan sa modelo.

Ang koepisyent -0.16285 ay nagpapakita ng bigat ng variable X sa Y. Ibig sabihin, ang average na buwanang suweldo sa loob ng modelong ito ay nakakaapekto sa bilang ng mga umalis na may timbang na -0.16285 (ito ay isang maliit na antas ng impluwensya). Ang sign na "-" ay nagpapahiwatig ng isang negatibong epekto: kung mas mataas ang suweldo, mas kaunting mga tao ang huminto. Alin ang patas.



Pagsusuri ng Kaugnayan sa Excel

Tumutulong ang pagsusuri ng ugnayan na matukoy kung may kaugnayan sa pagitan ng mga tagapagpahiwatig sa isa o dalawang sample. Halimbawa, sa pagitan ng oras ng pagpapatakbo ng isang makina at ang halaga ng pag-aayos, ang presyo ng kagamitan at ang tagal ng operasyon, ang taas at bigat ng mga bata, atbp.

Kung mayroong koneksyon, ang pagtaas sa isang parameter ay humahantong sa pagtaas (positibong ugnayan) o pagbaba (negatibo) ng isa pa. Ang pagsusuri ng ugnayan ay tumutulong sa analyst na matukoy kung ang halaga ng isang tagapagpahiwatig ay maaaring gamitin upang hulaan posibleng kahulugan isa pa.

Ang koepisyent ng ugnayan ay tinutukoy ng r. Nag-iiba mula +1 hanggang -1. Pag-uuri ng mga ugnayan para sa iba't ibang lugar magiging iba. Kapag ang coefficient ay 0 linear dependence ay hindi umiiral sa pagitan ng mga sample.

Tingnan natin kung paano hanapin ang koepisyent ng ugnayan gamit ang Excel.

Upang mahanap ang mga ipinares na coefficient, ginagamit ang CORREL function.

Layunin: Tukuyin kung may kaugnayan sa pagitan ng oras ng pagpapatakbo ng isang lathe at ang halaga ng pagpapanatili nito.

Ilagay ang cursor sa anumang cell at pindutin ang fx button.

  1. Sa kategoryang "Istatistika," piliin ang function na CORREL.
  2. Argumentong "Array 1" - ang unang hanay ng mga halaga - oras ng pagpapatakbo ng makina: A2:A14.
  3. Argument "Array 2" - pangalawang hanay ng mga halaga - gastos sa pagkumpuni: B2:B14. I-click ang OK.

Upang matukoy ang uri ng koneksyon, kailangan mong tingnan ang ganap na bilang ng koepisyent (bawat larangan ng aktibidad ay may sariling sukat).

Para sa pagsusuri ng ugnayan ilang parameter (higit sa 2), mas maginhawang gamitin ang “Data Analysis” (ang add-on na “Analysis Package). Kailangan mong pumili ng ugnayan mula sa listahan at italaga ang array. Lahat.

Ang mga resultang coefficient ay ipapakita sa correlation matrix. Ganito:

Pagsusuri ng ugnayan at regression

Sa pagsasagawa, ang dalawang pamamaraan na ito ay madalas na ginagamit nang magkasama.

Halimbawa:


Ngayon ang data ng pagsusuri ng regression ay naging nakikita.

Ang pangunahing layunin ng pagsusuri ng regression ay binubuo sa pagtukoy ng analitikal na anyo ng komunikasyon kung saan ang pagbabago sa epektibong katangian ay dahil sa impluwensya ng isa o higit pang mga katangian ng salik, at ang hanay ng lahat ng iba pang mga salik na nakakaimpluwensya rin sa epektibong katangian ay kinukuha bilang pare-pareho at karaniwang mga halaga.
Mga Problema sa Pagsusuri ng Pagbabalik:
a) Pagtatatag ng anyo ng pagtitiwala. Tungkol sa kalikasan at anyo ng ugnayan sa pagitan ng mga penomena, ang isang pagkakaiba ay ginawa sa pagitan ng positibong linear at nonlinear at negatibong linear at nonlinear na regression.
b) Pagtukoy sa function ng regression sa anyo ng isang mathematical equation ng isang uri o iba pa at pagtatatag ng impluwensya ng mga paliwanag na variable sa dependent variable.
c) Pagsusuri Hindi kilalang halaga dependent variable. Gamit ang pag-andar ng regression, maaari mong kopyahin ang mga halaga ng dependent variable sa loob ng pagitan ng mga tinukoy na halaga ng mga paliwanag na variable (i.e., lutasin ang problema sa interpolation) o suriin ang kurso ng proseso sa labas ng tinukoy na agwat (i.e., lutasin ang problema sa extrapolation). Ang resulta ay isang pagtatantya ng halaga ng dependent variable.

Ang paired regression ay isang equation para sa relasyon sa pagitan ng dalawang variable na y at x: , kung saan ang y ay ang dependent variable (resultative attribute); Ang x ay isang independiyenteng paliwanag na variable (feature-factor).

May mga linear at nonlinear na regression.
Linear regression: y = a + bx + ε
Ang mga nonlinear na regression ay nahahati sa dalawang klase: mga regression na nonlinear na may kinalaman sa mga paliwanag na variable na kasama sa pagsusuri, ngunit linear na may kinalaman sa mga tinantyang parameter, at mga regression na nonlinear na may kinalaman sa mga tinantyang parameter.
Mga regression na nonlinear sa mga variable na nagpapaliwanag:

Mga regression na nonlinear na may kinalaman sa mga tinantyang parameter: Ang pagbuo ng isang regression equation ay bumababa sa pagtatantya ng mga parameter nito. Upang matantya ang mga parameter ng mga regression linear sa mga parameter, gamitin ang paraan hindi bababa sa mga parisukat(MNC). Ang paraan ng hindi bababa sa mga parisukat ay ginagawang posible upang makakuha ng naturang mga pagtatantya ng parameter kung saan ang kabuuan ng mga parisukat na paglihis ng mga aktwal na halaga ng resultang katangian y mula sa mga teoretikal ay minimal, i.e.
.
Para sa mga linear at nonlinear na equation na mababawasan sa mga linear, lutasin susunod na sistema tungkol sa a at b:

Maaari mong gamitin ang mga handa na formula na sumusunod mula sa system na ito:

Nasusuri ang lapit ng koneksyon sa pagitan ng mga phenomena na pinag-aaralan linear coefficient pairwise correlation para sa linear regression:

at correlation index - para sa nonlinear regression:

Ang kalidad ng itinayong modelo ay susuriin ng koepisyent (index) ng pagpapasiya, pati na rin ang average na error ng approximation.
Average na error sa pagtatantya - average na paglihis ng mga kinakalkula na halaga mula sa mga aktwal:
.
Ang pinahihintulutang limitasyon ng mga halaga ay hindi hihigit sa 8-10%.
Ang average na elasticity coefficient ay nagpapakita sa kung anong porsyento sa average ang resulta y ay magbabago mula sa average na halaga nito kapag ang factor x ay nagbago ng 1% mula sa average na halaga nito:
.

Gawain pagsusuri ng pagkakaiba-iba binubuo ng pagsusuri sa pagkakaiba-iba ng dependent variable:
,
saan- kabuuang halaga squared deviations;
- ang kabuuan ng mga squared deviations dahil sa regression ("ipinaliwanag" o "factorial");
- natitirang kabuuan ng mga squared deviations.
Ang bahagi ng pagkakaiba na ipinaliwanag ng regression sa kabuuang pagkakaiba ng resultang katangian y ay nailalarawan sa pamamagitan ng koepisyent (index) ng determinasyon R2:

Ang coefficient of determination ay ang parisukat ng coefficient o correlation index.

Ang F-test - pagtatasa ng kalidad ng regression equation - ay binubuo ng pagsubok sa hypothesis No tungkol sa statistical insignificance ng regression equation at ang indicator ng lapit ng relasyon. Upang gawin ito, ang isang paghahambing ay ginawa sa pagitan ng aktwal na F fact at ang kritikal (tabular) F na mga halaga ng talahanayan ng Fisher F-criterion. Ang F fact ay tinutukoy mula sa ratio ng mga halaga ng kadahilanan at natitirang mga pagkakaiba-iba na kinakalkula sa bawat antas ng kalayaan:
,
kung saan ang n ay ang bilang ng mga yunit ng populasyon; m ay ang bilang ng mga parameter para sa mga variable x.
Ang F table ay ang pinakamataas na posibleng halaga ng criterion sa ilalim ng impluwensya ng mga random na salik sa ibinigay na antas ng kalayaan at antas ng kahalagahan a. Ang antas ng kahalagahan a ay ang posibilidad na tanggihan ang tamang hypothesis, dahil ito ay totoo. Karaniwan ang a ay kinukuha na katumbas ng 0.05 o 0.01.
Kung F talahanayan< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F katotohanan, pagkatapos ay ang hypothesis H o ay hindi tinanggihan at ang istatistika insignificance at hindi mapagkakatiwalaan ng regression equation ay kinikilala.
Para sa rate istatistikal na kahalagahan regression at correlation coefficients, ang t-test ng mag-aaral at mga pagitan ng kumpiyansa para sa bawat indicator ay kinakalkula. Ang isang hypothesis ay iniharap tungkol sa random na katangian ng mga tagapagpahiwatig, i.e. tungkol sa kanilang hindi gaanong pagkakaiba mula sa zero. Ang pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's t-test ay isinasagawa sa pamamagitan ng paghahambing ng kanilang mga halaga sa magnitude ng random error:
; ; .
Ang mga random na error ng linear regression na mga parameter at ang correlation coefficient ay tinutukoy ng mga formula:



Paghahambing ng aktwal at kritikal (tabular) na mga halaga ng t-statistics - t table at t fact - tinatanggap o tinatanggihan namin ang hypothesis H o.
Ang relasyon sa pagitan ng Fisher F-test at ng Student t-statistic ay ipinahayag ng pagkakapantay-pantay

Kung t talahanayan< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t ay isang katotohanan na ang hypothesis H o ay hindi tinatanggihan at ang random na katangian ng pagbuo ng a, b o ay kinikilala.
Upang kalkulahin ang agwat ng kumpiyansa, tinutukoy namin ang maximum na error D para sa bawat tagapagpahiwatig:
, .
Ang mga formula para sa pagkalkula ng mga agwat ng kumpiyansa ay ang mga sumusunod:
; ;
; ;
Kung ang zero ay nasa loob ng agwat ng kumpiyansa, i.e. Kung negatibo ang mababang limitasyon at positibo ang pinakamataas na limitasyon, ang tinantyang parameter ay ituturing na zero, dahil hindi ito maaaring sabay na kumuha ng parehong positibo at negatibong mga halaga.
Natutukoy ang halaga ng pagtataya sa pamamagitan ng pagpapalit ng katumbas na (pagtataya) na halaga sa equation ng regression. Ang average na karaniwang error ng forecast ay kinakalkula:
,
saan
at itinatayo agwat ng kumpiyansa pagtataya:
; ;
saan .

Halimbawang solusyon

Gawain Blg. 1. Para sa pitong teritoryo ng rehiyon ng Ural noong 199X, ang mga halaga ng dalawang katangian ay kilala.
Talahanayan 1.
Kailangan: 1. Upang makilala ang dependence ng y sa x, kalkulahin ang mga parameter ng mga sumusunod na function:
a) linear;
b) kapangyarihan (kailangan mo munang isagawa ang pamamaraan ng linearization ng mga variable sa pamamagitan ng pagkuha ng logarithm ng parehong bahagi);
c) nagpapakita;
d) isang equilateral hyperbola (kailangan mo ring malaman kung paano i-pre-linearize ang modelong ito).
2. Suriin ang bawat modelo gamit ang average na error ng approximation at Fisher's F test.

Solusyon (Option No. 1)

Upang kalkulahin ang mga parameter a at b ng linear regression (maaaring gawin ang pagkalkula gamit ang isang calculator).
lutasin ang isang sistema ng mga normal na equation para sa A At b:
Batay sa paunang data, kinakalkula namin :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Kabuuan 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ikasal. ibig sabihin (Kabuuan/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Regression equation: y = 76,88 - 0,35X. Sa pagtaas ng average na pang-araw-araw na sahod ng 1 kuskusin. ang bahagi ng mga gastos para sa pagbili ng mga produktong pagkain ay bumababa ng average na 0.35 na porsyentong puntos.
Kalkulahin natin ang linear pair correlation coefficient:

Ang koneksyon ay katamtaman, kabaligtaran.
Tukuyin natin ang koepisyent ng determinasyon:

Ang 12.7% variation sa resulta ay ipinaliwanag ng variation sa x factor. Ang pagpapalit ng mga aktwal na halaga sa equation ng regression X, tukuyin natin ang teoretikal (kinakalkula) na mga halaga . Hanapin natin ang halaga ng average na error sa pagtatantya:

Sa karaniwan, ang mga kinakalkula na halaga ay lumihis mula sa aktwal na mga halaga ng 8.1%.
Kalkulahin natin ang F-criterion:

mula noong 1< F < ¥ , dapat isaalang-alang F -1 .
Ang resultang halaga ay nagpapahiwatig ng pangangailangang tanggapin ang hypothesis Pero oh ang random na kalikasan ng natukoy na pag-asa at ang hindi gaanong kahalagahan ng istatistika ng mga parameter ng equation at ang tagapagpahiwatig ng pagiging malapit ng koneksyon.
1b. Ang pagtatayo ng isang modelo ng kapangyarihan ay nauuna sa pamamaraan ng linearization ng mga variable. Sa halimbawa, ang linearization ay ginagawa sa pamamagitan ng pagkuha ng logarithms ng magkabilang panig ng equation:


saanY=lg(y), X=lg(x), C=lg(a).

Para sa mga kalkulasyon ginagamit namin ang data sa talahanayan. 1.3.

Talahanayan 1.3

Y X YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Kabuuan 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Average na halaga 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Kalkulahin natin ang C at b:


Kumuha kami ng linear equation: .
Nang maisagawa ang potentiation nito, nakukuha namin:

Ang pagpapalit ng mga aktwal na halaga sa equation na ito X, nakakakuha kami ng mga teoretikal na halaga ng resulta. Gamit ang mga ito, kakalkulahin namin ang mga tagapagpahiwatig: higpit ng koneksyon - index ng ugnayan at average na error sa pagtatantya

Ang pagganap ng modelo ng kapangyarihan-batas ay nagpapahiwatig na ito ay bahagyang mas mahusay linear function naglalarawan ng relasyon.

1c. Pagbuo ng equation ng isang exponential curve

sinundan ng isang pamamaraan para sa linearizing variable sa pamamagitan ng pagkuha ng logarithms ng magkabilang panig ng equation:

Para sa mga kalkulasyon ginagamit namin ang data ng talahanayan.

Y x Yx Y2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Kabuuan 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ikasal. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Mga halaga ng mga parameter ng regression A at SA ay umabot sa:


Ang resultang linear equation ay: . Gawin nating potentiate ang resultang equation at isulat ito sa karaniwang anyo:

Susuriin namin ang pagiging malapit ng koneksyon sa pamamagitan ng index ng ugnayan:

Sa panahon ng kanilang pag-aaral, ang mga mag-aaral ay madalas na nakakaharap ng iba't ibang mga equation. Isa sa mga ito - ang regression equation - ay tinalakay sa artikulong ito. Ang ganitong uri ng equation ay partikular na ginagamit upang ilarawan ang mga katangian ng ugnayan sa pagitan ng mga parameter ng matematika. Ganitong klase ang mga pagkakapantay-pantay ay ginagamit sa mga istatistika at econometrics.

Kahulugan ng regression

Sa matematika, ang regression ay nangangahulugan ng isang tiyak na dami na naglalarawan ng pag-asa ng average na halaga ng isang set ng data sa mga halaga ng isa pang dami. Ang equation ng regression ay nagpapakita, bilang isang function ng isang partikular na katangian, ang average na halaga ng isa pang katangian. Ang regression function ay may form simpleng equation y = x, kung saan gumaganap ang y bilang dependent variable, at x bilang independent variable (feature-factor). Sa katunayan, ang regression ay ipinahayag bilang y = f (x).

Ano ang mga uri ng ugnayan sa pagitan ng mga variable?

Sa pangkalahatan, mayroong dalawang magkasalungat na uri ng mga relasyon: ugnayan at regression.

Ang una ay nailalarawan sa pamamagitan ng pagkakapantay-pantay ng mga conditional variable. SA sa kasong ito Hindi alam nang may katiyakan kung aling variable ang nakasalalay sa isa pa.

Kung walang pagkakapantay-pantay sa pagitan ng mga variable at ang mga kondisyon ay nagsasabi kung aling variable ang nagpapaliwanag at kung alin ang nakasalalay, pagkatapos ay maaari nating pag-usapan ang pagkakaroon ng isang koneksyon ng pangalawang uri. Upang makabuo ng isang linear regression equation, kakailanganing malaman kung anong uri ng relasyon ang sinusunod.

Mga uri ng regression

Sa ngayon, mayroong 7 iba't ibang uri ng regression: hyperbolic, linear, multiple, nonlinear, pairwise, inverse, logarithmically linear.

Hyperbolic, linear at logarithmic

Ang linear regression equation ay ginagamit sa mga istatistika upang malinaw na ipaliwanag ang mga parameter ng equation. Parang y = c+t*x+E. Ang isang hyperbolic equation ay may anyo ng isang regular na hyperbola y = c + m / x + E. Ang isang logarithmically linear equation ay nagpapahayag ng relasyon gamit ang isang logarithmic function: Sa y = Sa c + m * Sa x + Sa E.

Maramihan at nonlinear

Dalawa pa kumplikadong uri Ang regression ay maramihan at hindi linear. Ang equation maramihang pagbabalik ay ipinahayag ng function na y = f(x 1, x 2 ...x c) + E. Sa sitwasyong ito, ang y ay nagsisilbing dependent variable, at ang x ay gumaganap bilang isang explanatory variable. Ang E variable ay stochastic; kabilang dito ang impluwensya ng iba pang mga kadahilanan sa equation. Nonlinear equation medyo kontrobersyal ang regression. Sa isang banda, na may kaugnayan sa mga tagapagpahiwatig na isinasaalang-alang, hindi ito linear, ngunit sa kabilang banda, sa papel ng pagsusuri ng mga tagapagpahiwatig, ito ay linear.

Inverse at paired na mga uri ng regressions

Ang inverse ay isang uri ng function na kailangang i-convert sa linear view. Sa pinaka-tradisyonal na mga programa ng aplikasyon, mayroon itong anyo ng isang function na y = 1/c + m*x+E. Ang isang pairwise regression equation ay nagpapakita ng ugnayan sa pagitan ng data bilang isang function ng y = f (x) + E. Katulad sa ibang mga equation, ang y ay nakasalalay sa x, at ang E ay isang stochastic na parameter.

Konsepto ng ugnayan

Ito ay isang indicator na nagpapakita ng pagkakaroon ng isang relasyon sa pagitan ng dalawang phenomena o proseso. Ang lakas ng relasyon ay ipinahayag bilang isang koepisyent ng ugnayan. Ang halaga nito ay nagbabago sa loob ng pagitan [-1;+1]. Negatibong tagapagpahiwatig ay nagpapahiwatig ng pagkakaroon puna, positibo - tungkol sa isang tuwid na linya. Kung ang koepisyent ay tumatagal ng isang halaga na katumbas ng 0, pagkatapos ay walang relasyon. Paano mas malapit na halaga patungo sa 1 - mas malakas ang koneksyon sa pagitan ng mga parameter; mas malapit sa 0 - mas mahina ito.

Paraan

Maaaring masuri ng mga parametric na pamamaraan ng ugnayan ang lakas ng relasyon. Ginagamit ang mga ito batay sa pagtatantya ng pamamahagi upang pag-aralan ang mga parameter na sumusunod sa batas ng normal na pamamahagi.

Ang mga parameter ng linear regression equation ay kinakailangan upang matukoy ang uri ng dependence, ang function ng regression equation at suriin ang mga indicator ng napiling formula ng relasyon. Ang patlang ng ugnayan ay ginagamit bilang paraan ng pagkakakilanlan ng koneksyon. Upang gawin ito, ang lahat ng umiiral na data ay dapat na ilarawan nang graphical. Ang lahat ng kilalang data ay dapat na naka-plot sa isang parihabang two-dimensional coordinate system. Ito ay kung paano nabuo ang isang patlang ng ugnayan. Ang mga halaga ng naglalarawang kadahilanan ay minarkahan kasama ang abscissa axis, habang ang mga halaga ng umaasa na kadahilanan ay minarkahan kasama ang ordinate axis. Kung mayroong isang functional na relasyon sa pagitan ng mga parameter, ang mga ito ay naka-linya sa anyo ng isang linya.

Kung ang koepisyent ng ugnayan ng naturang data ay mas mababa sa 30%, maaari nating pag-usapan ang tungkol sa praktikal kumpletong kawalan mga komunikasyon. Kung ito ay nasa pagitan ng 30% at 70%, kung gayon ito ay nagpapahiwatig ng pagkakaroon ng mga medium-close na koneksyon. Ang 100% indicator ay katibayan ng isang functional na koneksyon.

Ang isang nonlinear regression equation, tulad ng isang linear, ay dapat dagdagan ng isang correlation index (R).

Kaugnayan para sa Maramihang Pagbabalik

Ang coefficient of determination ay ang square exponent maramihang ugnayan. Pinag-uusapan niya ang malapit na kaugnayan ng ipinakita na hanay ng mga tagapagpahiwatig na may katangiang pinag-aaralan. Maaari rin itong makipag-usap tungkol sa likas na katangian ng impluwensya ng mga parameter sa resulta. Ang multiple regression equation ay tinatantya gamit ang indicator na ito.

Upang makalkula ang maramihang tagapagpahiwatig ng ugnayan, kinakailangan upang kalkulahin ang index nito.

Pinakamababang parisukat na pamamaraan

Ang pamamaraang ito ay isang paraan upang matantya ang mga kadahilanan ng pagbabalik. Ang kakanyahan nito ay upang i-minimize ang kabuuan ng mga squared deviations na nakuha bilang resulta ng pag-asa ng kadahilanan sa function.

Ang isang pairwise linear regression equation ay maaaring matantya gamit ang naturang pamamaraan. Ginagamit ang ganitong uri ng mga equation kapag may nakitang nakapares na linear na relasyon sa pagitan ng mga indicator.

Mga Parameter ng Equation

Ang bawat parameter ng linear regression function ay may tiyak na kahulugan. Ang ipinares na linear regression equation ay naglalaman ng dalawang parameter: c at m. Ang parameter na m ay nagpapakita ng average na pagbabago sa panghuling indicator ng function na y, sa kondisyon na ang variable na x ay bumababa (tumataas) ng isang conventional unit. Kung ang variable na x ay zero, kung gayon ang function ay katumbas ng parameter c. Kung ang variable na x ay hindi zero, kung gayon ang factor c ay hindi nagdadala ng pang-ekonomiyang kahulugan. Ang tanging impluwensya sa function ay ang sign sa harap ng factor c. Kung may minus, masasabi nating mabagal ang pagbabago sa resulta kumpara sa salik. Kung mayroong isang plus, pagkatapos ito ay nagpapahiwatig ng isang pinabilis na pagbabago sa resulta.

Ang bawat parameter na nagbabago sa halaga ng regression equation ay maaaring ipahayag sa pamamagitan ng isang equation. Halimbawa, ang factor c ay may anyo na c = y - mx.

Nakagrupong data

Mayroong mga kondisyon ng gawain kung saan ang lahat ng impormasyon ay pinagsama-sama sa pamamagitan ng katangian x, ngunit para sa isang tiyak na grupo ang kaukulang mga average na halaga ng umaasa na tagapagpahiwatig ay ipinahiwatig. Sa kasong ito, ang average na mga halaga ay nailalarawan kung paano nagbabago ang tagapagpahiwatig depende sa x. Kaya, ang nakagrupong impormasyon ay nakakatulong upang mahanap ang equation ng regression. Ginagamit ito bilang pagsusuri ng mga relasyon. Gayunpaman, ang pamamaraang ito ay may mga kawalan nito. Sa kasamaang palad, ang mga average na tagapagpahiwatig ay madalas na napapailalim sa mga panlabas na pagbabagu-bago. Ang mga pagbabagong ito ay hindi sumasalamin sa pattern ng relasyon; tinatakpan lamang nila ang "ingay" nito. Ang mga average ay nagpapakita ng mga pattern ng relasyon na mas masahol pa kaysa sa isang linear regression equation. Gayunpaman, maaari silang magamit bilang batayan para sa paghahanap ng isang equation. Sa pamamagitan ng pagpaparami ng bilang ng isang indibidwal na populasyon sa katumbas na average, makukuha ng isa ang sum y sa loob ng pangkat. Susunod, kailangan mong idagdag ang lahat ng mga halagang natanggap at hanapin ang panghuling tagapagpahiwatig y. Medyo mas mahirap gumawa ng mga kalkulasyon gamit ang sum indicator na xy. Kung ang mga pagitan ay maliit, maaari nating kunin ang x indicator para sa lahat ng mga yunit (sa loob ng pangkat) upang maging pareho. Dapat mong i-multiply ito sa kabuuan ng y upang malaman ang kabuuan ng mga produkto ng x at y. Susunod, ang lahat ng mga halaga ay idinagdag nang sama-sama at ang kabuuang halaga ng xy ay nakuha.

Multiple pairwise regression equation: pagtatasa ng kahalagahan ng isang relasyon

Gaya ng tinalakay kanina, ang multiple regression ay may function ng form na y = f (x 1,x 2,…,x m)+E. Kadalasan, ang gayong equation ay ginagamit upang malutas ang problema ng supply at demand para sa isang produkto, kita ng interes sa mga muling binili na bahagi, at upang pag-aralan ang mga sanhi at uri ng function ng gastos sa produksyon. Aktibo rin itong ginagamit sa iba't ibang uri ng macroeconomic na pag-aaral at kalkulasyon, ngunit sa antas ng microeconomics ang equation na ito ay medyo mas madalas na ginagamit.

Ang pangunahing gawain ng multiple regression ay ang pagbuo ng isang modelo ng data na naglalaman ng malaking halaga ng impormasyon upang higit pang matukoy kung ano ang nakakaimpluwensya sa bawat isa sa mga salik nang paisa-isa at sa kanilang kabuuan sa indicator na kailangang i-modelo at mga coefficient nito. Ang equation ng regression ay maaaring tumagal sa isang malawak na iba't ibang mga halaga. Sa kasong ito, upang masuri ang relasyon, dalawang uri ng mga function ang karaniwang ginagamit: linear at nonlinear.

Ang linear function ay inilalarawan sa anyo ng sumusunod na relasyon: y = a 0 + a 1 x 1 + a 2 x 2+ ... + a m x m. Sa kasong ito, ang a2, a m ay itinuturing na "purong" regression coefficients. Kinakailangan nilang kilalanin ang average na pagbabago sa parameter y na may pagbabago (pagbaba o pagtaas) sa bawat kaukulang parameter x ng isang yunit, na may kondisyon ng mga matatag na halaga ng iba pang mga tagapagpahiwatig.

Ang mga nonlinear equation ay mayroong, halimbawa, ang anyo ng power function y=ax 1 b1 x 2 b2 ...x m bm. Sa kasong ito, ang mga indicator b 1, b 2 ..... b m ay tinatawag na elasticity coefficients, ipinapakita nila kung paano magbabago ang resulta (kung magkano%) na may pagtaas (pagbaba) sa kaukulang indicator x ng 1% at na may isang matatag na tagapagpahiwatig ng iba pang mga kadahilanan.

Anong mga salik ang kailangang isaalang-alang kapag gumagawa ng maraming regression

Upang maayos na makabuo ng maraming regression, kinakailangan upang malaman kung aling mga kadahilanan ang dapat bigyan ng espesyal na pansin.

Kinakailangan na magkaroon ng ilang pag-unawa sa likas na katangian ng mga ugnayan sa pagitan ng mga salik sa ekonomiya at kung ano ang ginagaya. Ang mga salik na kailangang isama ay dapat matugunan ang mga sumusunod na pamantayan:

  • Dapat sumailalim sa quantitative measurement. Upang magamit ang isang kadahilanan na naglalarawan sa kalidad ng isang bagay, sa anumang kaso dapat itong bigyan ng isang quantitative form.
  • Dapat ay walang intercorrelation ng mga salik, o functional na relasyon. Ang ganitong mga aksyon ay kadalasang humahantong sa hindi maibabalik na mga kahihinatnan- ang sistema ng mga ordinaryong equation ay nagiging unconditional, at ito ay nagsasangkot ng hindi mapagkakatiwalaan at hindi malinaw na mga pagtatantya.
  • Sa kaso ng isang malaking tagapagpahiwatig ng ugnayan, walang paraan upang malaman ang nakahiwalay na impluwensya ng mga kadahilanan sa panghuling resulta ng tagapagpahiwatig, samakatuwid, ang mga koepisyent ay nagiging hindi maipaliwanag.

Mga paraan ng pagtatayo

Umiiral malaking halaga mga pamamaraan at teknik na nagpapaliwanag kung paano mapipili ang mga salik para sa isang equation. Gayunpaman, ang lahat ng mga pamamaraang ito ay batay sa pagpili ng mga coefficient gamit ang isang tagapagpahiwatig ng ugnayan. Kabilang sa mga ito ay:

  • Paraan ng pag-aalis.
  • Paraan ng paglipat.
  • Stepwise regression analysis.

Ang unang paraan ay nagsasangkot ng pag-filter ng lahat ng mga coefficient mula sa kabuuang hanay. Ang pangalawang paraan ay nagsasangkot ng pagpapakilala ng maraming karagdagang mga kadahilanan. Well, ang pangatlo ay ang pag-aalis ng mga salik na dati nang ginamit para sa equation. Ang bawat isa sa mga pamamaraang ito ay may karapatang umiral. Mayroon silang mga kalamangan at kahinaan, ngunit lahat sila ay malulutas ang isyu ng pag-aalis ng mga hindi kinakailangang tagapagpahiwatig sa kanilang sariling paraan. Bilang isang patakaran, ang mga resulta na nakuha ng bawat indibidwal na pamamaraan ay medyo malapit.

Multivariate na pamamaraan ng pagsusuri

Ang ganitong mga pamamaraan para sa pagtukoy ng mga kadahilanan ay batay sa pagsasaalang-alang ng mga indibidwal na kumbinasyon ng mga magkakaugnay na katangian. Kabilang dito ang discriminant analysis, shape recognition, principal component analysis, at cluster analysis. Bilang karagdagan, mayroon ding pagsusuri sa kadahilanan, ngunit lumitaw ito dahil sa pag-unlad ng paraan ng bahagi. Lahat ng mga ito ay nalalapat sa ilang mga pangyayari, napapailalim sa ilang mga kundisyon at mga kadahilanan.

Sa presensya ng koneksyon ng ugnayan Sa pagitan ng mga palatandaan ng salik at resulta, kadalasang kailangang itatag ng mga doktor sa kung anong halaga ang maaaring magbago ng halaga ng isang senyales kapag ang iba ay nagbago sa isang pangkalahatang tinatanggap na yunit ng pagsukat o isang itinatag ng mismong mananaliksik.

Halimbawa, paano magbabago ang timbang ng katawan ng mga batang nag-aaral sa ika-1 baitang (babae o lalaki) kung ang kanilang taas ay tumaas ng 1 cm? Para sa mga layuning ito, ginagamit ang paraan ng pagsusuri ng regression.

Ang pamamaraan ng pagsusuri ng regression ay kadalasang ginagamit upang bumuo ng mga normatibong kaliskis at pamantayan pisikal na kaunlaran.

  1. Kahulugan ng Regression. Ang regression ay isang function na nagbibigay-daan, mula sa average na halaga ng isang katangian, upang matukoy ang average na halaga ng isa pang katangian na nauugnay sa una.

    Para sa layuning ito, ang regression coefficient at isang bilang ng iba pang mga parameter ay ginagamit. Halimbawa, maaari mong kalkulahin ang numero sipon sa average sa ilang mga halaga ng average na buwanang temperatura ng hangin sa panahon ng taglagas-taglamig.

  2. Pagpapasiya ng koepisyent ng regression. Ang regression coefficient ay ang ganap na halaga kung saan, sa karaniwan, ang halaga ng isang katangian ay nagbabago kapag ang isa pang nauugnay na katangian ay nagbabago ng isang tinukoy na yunit ng pagsukat.
  3. Formula ng koepisyent ng regression. R y/x = r xy x (σ y / σ x)
    kung saan R у/х - regression coefficient;
    r xy - koepisyent ng ugnayan sa pagitan ng mga katangian x at y;
    (σ y at σ x) - standard deviations ng mga katangian x at y.

    Sa ating halimbawa;
    σ x = 4.6 (karaniwang paglihis ng temperatura ng hangin sa panahon ng taglagas-taglamig;
    σ y = 8.65 (karaniwang paglihis ng bilang ng mga nakakahawang sakit at sipon).
    Kaya, ang R y/x ay ang regression coefficient.
    R у/х = -0.96 x (4.6 / 8.65) = 1.8, ibig sabihin. Kapag ang average na buwanang temperatura ng hangin (x) ay bumaba ng 1 degree, ang average na bilang ng mga nakakahawa at malamig na sakit (y) sa panahon ng taglagas-taglamig ay magbabago ng 1.8 kaso.

  4. Regression equation. y = M y + R y/x (x - M x)
    kung saan ang y ay ang average na halaga ng katangian, na dapat matukoy kapag ang average na halaga ng isa pang katangian ay nagbabago (x);
    x ay ang kilalang average na halaga ng isa pang katangian;
    R y/x - koepisyent ng regression;
    M x, M y - kilalang average na mga halaga ng mga katangian x at y.

    Halimbawa, ang average na bilang ng mga nakakahawa at malamig na sakit (y) ay maaaring matukoy nang walang mga espesyal na sukat sa anumang average na halaga ng average na buwanang temperatura ng hangin (x). Kaya, kung x = - 9°, R y/x = 1.8 sakit, M x = -7°, M y = 20 sakit, y = 20 + 1.8 x (9-7) = 20 + 3 .6 = 23.6 mga sakit.
    Ang equation na ito ay inilapat sa kaso ng isang linear na relasyon sa pagitan ng dalawang katangian (x at y).

  5. Layunin ng Regression Equation. Ang regression equation ay ginagamit upang bumuo ng isang regression line. Ang huli ay nagbibigay-daan, nang walang mga espesyal na sukat, upang matukoy ang anumang average na halaga (y) ng isang katangian kung ang halaga (x) ng isa pang katangian ay nagbabago. Batay sa mga datos na ito, nabuo ang isang graph - linya ng regression, na maaaring magamit upang matukoy ang average na bilang ng mga sipon sa anumang halaga ng average na buwanang temperatura sa loob ng saklaw sa pagitan ng mga kinakalkula na halaga ng bilang ng mga sipon.
  6. Regression Sigma (formula).
    kung saan σ Rу/х - sigma (standard deviation) ng regression;
    σ y - karaniwang paglihis ng katangian y;
    r xy - koepisyent ng ugnayan sa pagitan ng mga katangian x at y.

    Kaya, kung σ y - karaniwang paglihis ng bilang ng mga sipon = 8.65; r xy - ang koepisyent ng ugnayan sa pagitan ng bilang ng mga sipon (y) at ang average na buwanang temperatura ng hangin sa panahon ng taglagas-taglamig (x) ay katumbas ng - 0.96, pagkatapos

  7. Regression sigma assignment. Nagbibigay ng paglalarawan ng sukatan ng pagkakaiba-iba ng nagresultang katangian (y).

    Halimbawa, nailalarawan nito ang pagkakaiba-iba ng bilang ng mga sipon sa isang tiyak na halaga ng average na buwanang temperatura ng hangin sa panahon ng taglagas-taglamig. Kaya, ang average na bilang ng mga sipon sa temperatura ng hangin x 1 = -6° ay maaaring mula sa 15.78 sakit hanggang 20.62 sakit.
    Sa x 2 = -9°, ang average na bilang ng mga sipon ay maaaring mula sa 21.18 sakit hanggang 26.02 sakit, atbp.

    Ang regression sigma ay ginagamit upang bumuo ng isang regression scale, na sumasalamin sa paglihis ng mga halaga ng nagresultang katangian mula sa average na halaga nito na naka-plot sa linya ng regression.

  8. Kinakailangan ang data upang kalkulahin at i-plot ang sukat ng regression
    • koepisyent ng regression - R у/х;
    • regression equation - y = M y + R y/x (x-M x);
    • regression sigma - σ Rx/y
  9. Pagkakasunod-sunod ng mga kalkulasyon at graphical na representasyon ng regression scale.
    • tukuyin ang regression coefficient gamit ang formula (tingnan ang talata 3). Halimbawa, kinakailangan upang matukoy kung gaano karaming timbang ng katawan ang magbabago sa karaniwan (sa isang tiyak na edad depende sa kasarian) kung karaniwang taas magbabago ng 1 cm.
    • gamit ang formula ng regression equation (tingnan ang punto 4), tukuyin kung ano, halimbawa, ang magiging timbang ng katawan sa average (y, y 2, y 3 ...) * para sa isang tiyak na halaga ng taas (x, x 2, x 3 . ..) .
      ________________
      * Ang halaga ng "y" ay dapat kalkulahin para sa hindi bababa sa tatlong kilalang halaga ng "x".

      Kasabay nito, ang average na mga halaga ng timbang at taas ng katawan (M x, at M y) para sa isang tiyak na edad at kasarian ay kilala.

    • kalkulahin ang regression sigma, alam ang kaukulang mga halaga ng σ y at r xy at pinapalitan ang kanilang mga halaga sa formula (tingnan ang talata 6).
    • batay sa mga kilalang halaga x 1, x 2, x 3 at ang kaukulang mga average na halaga y 1, y 2 y 3, pati na rin ang pinakamaliit (y - σ rу/х) at pinakamalaki (y + σ rу /х) na mga halaga (y) ay bumubuo ng isang sukat ng regression.

      Upang graphical na kumatawan sa sukat ng regression, ang mga halaga ng x, x2, x3 (ordinate axis) ay unang minarkahan sa graph, i.e. isang linya ng pagbabalik ay itinayo, halimbawa, ang pagdepende ng timbang ng katawan (y) sa taas (x).

      Pagkatapos ay sa kaukulang mga punto y 1, y 2, y 3 ay minarkahan mga numerong halaga regression sigma, i.e. hanapin ang pinakamaliit sa graph at pinakamataas na halaga y 1, y 2, y 3.

  10. Praktikal na paggamit ng sukat ng regression. Ang mga normative scale at pamantayan ay binuo, lalo na para sa pisikal na pag-unlad. Gamit ang isang karaniwang sukat, maaari kang magbigay ng isang indibidwal na pagtatasa ng pag-unlad ng mga bata. Sa kasong ito, ang pisikal na pag-unlad ay tinatasa bilang magkatugma kung, halimbawa, sa isang tiyak na taas, ang timbang ng katawan ng bata ay nasa loob ng isang sigma ng regression sa average na kinakalkula na yunit ng timbang ng katawan - (y) para sa isang naibigay na taas (x) ( y ± 1 σ Ry/x).

    Ang pisikal na pag-unlad ay itinuturing na hindi nagkakasundo sa mga tuntunin ng timbang ng katawan kung ang timbang ng katawan ng bata para sa isang tiyak na taas ay nasa loob ng ikalawang sigma ng regression: (y ± 2 σ Ry/x)

    Ang pisikal na pag-unlad ay magiging lubhang hindi nagkakaisa dahil sa parehong labis at hindi sapat na timbang ng katawan kung ang timbang ng katawan para sa isang tiyak na taas ay nasa loob ng ikatlong sigma ng regression (y ± 3 σ Ry/x).

Ayon sa mga resulta istatistikal na pananaliksik pisikal na pag-unlad ng 5-taong-gulang na mga lalaki, ito ay kilala na ang kanilang average na taas (x) ay 109 cm, at ang average na timbang ng katawan (y) ay 19 kg. Ang koepisyent ng ugnayan sa pagitan ng taas at timbang ng katawan ay +0.9, ang mga karaniwang paglihis ay ipinakita sa talahanayan.

Kailangan:

  • kalkulahin ang koepisyent ng pagbabalik;
  • gamit ang regression equation, tukuyin kung ano ang inaasahang bigat ng katawan ng 5 taong gulang na batang lalaki na may taas na katumbas ng x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • kalkulahin ang regression sigma, bumuo ng isang regression scale, at ipakita ang mga resulta ng solusyon nito sa grapiko;
  • gumawa ng angkop na konklusyon.

Ang mga kondisyon ng problema at ang mga resulta ng solusyon nito ay ipinakita sa talahanayan ng buod.

Talahanayan 1

Mga kondisyon ng problema Mga resulta ng paglutas ng problema
equation ng regression regression sigma sukat ng regression (inaasahang timbang ng katawan (sa kg))
M σ r xy R y/x X U σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Taas (x) 109 cm ± 4.4cm +0,9 0,16 100cm 17.56 kg ± 0.35 kg 17.21 kg 17.91 kg
bigat ng katawan (y) 19 kg ± 0.8 kg 110 cm 19.16 kg 18.81 kg 19.51 kg
120 cm 20.76 kg 20.41 kg 21.11 kg

Solusyon.

Konklusyon. Kaya, ang sukat ng regression sa loob ng kinakalkula na mga halaga ng timbang ng katawan ay nagpapahintulot sa iyo na matukoy ito sa anumang iba pang halaga ng taas o pagtatantya. indibidwal na pag-unlad bata. Upang gawin ito, ibalik ang patayo sa linya ng regression.

  1. Vlasov V.V. Epidemiology. - M.: GEOTAR-MED, 2004. - 464 p.
  2. Lisitsyn Yu.P. Pampublikong kalusugan at pangangalaga sa kalusugan. Textbook para sa mga unibersidad. - M.: GEOTAR-MED, 2007. - 512 p.
  3. Medic V.A., Yuryev V.K. Kurso ng mga lektura sa kalusugan ng publiko at pangangalaga sa kalusugan: Bahagi 1. Kalusugan ng publiko. - M.: Medisina, 2003. - 368 p.
  4. Minyaev V.A., Vishnyakov N.I. at iba pa. Social medicine at healthcare organization (Manual sa 2 volume). - St. Petersburg, 1998. -528 p.
  5. Kucherenko V.Z., Agarkov N.M. at iba pa. Organisasyon ng kalinisang panlipunan at pangangalaga sa kalusugan ( Pagtuturo) - Moscow, 2000. - 432 p.
  6. S. Glanz. Medikal at biyolohikal na istatistika. Pagsasalin mula sa Ingles - M., Praktika, 1998. - 459 p.

Pagsusuri ng regression sumasailalim sa paglikha ng karamihan sa mga modelong ekonomiko, na kinabibilangan ng mga modelo ng pagtatantya ng gastos. Upang bumuo ng mga modelo ng pagpapahalaga, maaaring gamitin ang pamamaraang ito kung ang bilang ng mga analogue (maihahambing na mga bagay) at ang bilang ng mga kadahilanan ng gastos (mga elemento ng paghahambing) ay nauugnay sa bawat isa tulad ng sumusunod: P> (5 -g-10) x kay, mga. dapat mayroong 5-10 beses na higit pang mga analogue kaysa sa mga kadahilanan sa gastos. Ang parehong kinakailangan para sa ratio ng dami ng data at ang bilang ng mga kadahilanan ay nalalapat sa iba pang mga gawain: pagtatatag ng koneksyon sa pagitan ng gastos at mga parameter ng consumer ng bagay; pagbibigay-katwiran ng pamamaraan para sa pagkalkula ng mga indeks ng pagwawasto; pagtukoy ng mga uso sa presyo; pagtatatag ng koneksyon sa pagitan ng pagsusuot at mga pagbabago sa mga salik na nakakaimpluwensya; pagkuha ng mga dependency para sa pagkalkula ng mga pamantayan ng gastos, atbp. Ang pagsunod sa kinakailangang ito ay kinakailangan upang mabawasan ang posibilidad na magtrabaho kasama ang isang sample ng data na hindi nakakatugon sa pangangailangan ng normal na distribusyon ng mga random na variable.

Ang ugnayan ng regression ay sumasalamin lamang sa average na trend ng mga pagbabago sa resultang variable, halimbawa, gastos, mula sa mga pagbabago sa isa o higit pang mga factor variable, halimbawa, lokasyon, bilang ng mga kuwarto, lugar, sahig, atbp. Ito ang pagkakaiba sa pagitan ng isang regression na relasyon at isang functional, kung saan ang halaga ng resultang variable ay mahigpit na tinukoy para sa isang naibigay na halaga ng mga factor variable.

Ang pagkakaroon ng relasyon ng regression / sa pagitan ng resulta sa at mga variable na salik x p ..., x k(mga kadahilanan) ay nagpapahiwatig na ang relasyon na ito ay natutukoy hindi lamang sa pamamagitan ng impluwensya ng mga napiling salik na mga variable, kundi pati na rin ng impluwensya ng mga variable, ang ilan sa mga ito ay karaniwang hindi kilala, ang iba ay hindi maaaring masuri at isinasaalang-alang:

Ang impluwensya ng hindi nabilang na mga variable ay ipinahiwatig ng pangalawang termino ng equation na ito ?, na tinatawag na error sa approximation.

Ang mga sumusunod na uri ng mga dependency ng regression ay nakikilala:

  • ? paired regression - relasyon sa pagitan ng dalawang variable (resulta at factor);
  • ? multiple regression - ang kaugnayan sa pagitan ng isang variable na kinalabasan at dalawa o higit pang mga variable na kadahilanan na kasama sa pag-aaral.

Ang pangunahing gawain ng pagsusuri ng regression ay dami ang lapit ng ugnayan sa pagitan ng mga variable (sa paired regression) at multiple variables (sa multiple regression). Ang lapit ng koneksyon ay quantitatively na ipinahayag ng correlation coefficient.

Ang paggamit ng pagsusuri ng regression ay ginagawang posible upang maitatag ang pattern ng impluwensya ng mga pangunahing kadahilanan (hedonic na katangian) sa tagapagpahiwatig na pinag-aaralan, kapwa sa kanilang kabuuan at para sa bawat isa sa kanila nang hiwalay. Sa tulong ng pagsusuri ng regression, bilang isang paraan ng mga istatistika ng matematika, posible, una, upang mahanap at ilarawan ang anyo ng analytical dependence ng nagresultang (hinanap) variable sa mga kadahilanan at, pangalawa, upang suriin ang pagiging malapit ng pag-asa na ito.

Sa pamamagitan ng paglutas ng unang problema, ang isang modelo ng regression ng matematika ay nakuha, sa tulong ng kung saan ang nais na tagapagpahiwatig ay kinakalkula para sa mga ibinigay na halaga ng mga kadahilanan. Ang paglutas ng pangalawang problema ay nagpapahintulot sa amin na maitaguyod ang pagiging maaasahan ng kinakalkula na resulta.

Kaya, ang pagsusuri ng regression ay maaaring tukuyin bilang isang hanay ng mga pormal (matematika) na pamamaraan na idinisenyo upang sukatin ang lapit, direksyon at analytical na pagpapahayag ng anyo ng relasyon sa pagitan ng mga resulta at mga variable na kadahilanan, i.e. ang output ng naturang pagsusuri ay dapat na isang structurally at quantitatively na tinukoy na statistical model ng form:

saan y - ang average na halaga ng resultang variable (ang gustong indicator, halimbawa, gastos, upa, capitalization rate) sa pamamagitan ng P kanyang mga obserbasyon; x - halaga ng variable na kadahilanan (/th cost factor); kay- bilang ng mga variable na kadahilanan.

Function f(x l ,...,x lc), ang paglalarawan ng dependence ng resultang variable sa factor factor ay tinatawag na regression equation (function). Ang terminong "regression" (regression (Latin) - retreat, return to something) ay nauugnay sa mga detalye ng isa sa mga tiyak na problema na nalutas sa yugto ng pagbuo ng pamamaraan, at sa kasalukuyan ay hindi sumasalamin sa buong kakanyahan ng pamamaraan, ngunit patuloy na ginagamit.

Pagsusuri ng regression sa pangkalahatang kaso kasama ang mga sumusunod na hakbang:

  • ? pagbuo ng isang sample ng mga homogenous na bagay at pagkolekta ng paunang impormasyon tungkol sa mga bagay na ito;
  • ? pagpili ng mga pangunahing salik na nakakaimpluwensya sa resultang variable;
  • ? sinusuri ang sample para sa normalidad gamit X 2 o binomial na pagsubok;
  • ? pagtanggap ng hypothesis tungkol sa anyo ng komunikasyon;
  • ? pagproseso ng matematika data;
  • ? pagkuha ng modelo ng regression;
  • ? pagtatasa ng mga istatistikal na tagapagpahiwatig nito;
  • ? mga kalkulasyon sa pag-verify gamit ang isang regression model;
  • ? pagsusuri ng mga resulta.

Ang tinukoy na pagkakasunud-sunod ng mga operasyon ay nagaganap kapag pinag-aaralan ang magkapares na relasyon sa pagitan ng isang factor variable at isang resultang variable, at isang multiple na relasyon sa pagitan ng isang resultant variable at ilang factorial.

Ang paggamit ng pagsusuri ng regression ay nagpapataw ng ilang mga kinakailangan sa paunang impormasyon:

  • ? ang statistical sample ng mga bagay ay dapat na homogenous sa functional at structural-technological terms;
  • ? medyo marami;
  • ? ang tagapagpahiwatig ng gastos sa ilalim ng pag-aaral - ang resultang variable (presyo, gastos, gastos) - ay dapat dalhin sa parehong mga kondisyon para sa pagkalkula nito para sa lahat ng mga bagay sa sample;
  • ? ang mga variable na kadahilanan ay dapat na sukatin nang tumpak;
  • ? ang mga variable na kadahilanan ay dapat na independyente o minimally dependent.

Ang mga kinakailangan para sa homogeneity at pagkakumpleto ng sample ay magkasalungat: mas mahigpit ang pagpili ng mga bagay batay sa kanilang homogeneity, mas maliit ang sample na nakuha, at, sa kabaligtaran, upang palakihin ang sample ay kinakailangan na isama ang mga bagay na hindi masyadong katulad ng isa't isa.

Matapos makolekta ang data sa isang pangkat ng mga homogenous na bagay, sinusuri ang mga ito upang maitatag ang anyo ng koneksyon sa pagitan ng mga resulta at factor na variable sa anyo ng isang teoretikal na linya ng regression. Ang proseso ng paghahanap ng isang theoretical regression line ay binubuo ng isang makatwirang pagpili ng approximating curve at pagkalkula ng mga coefficient ng equation nito. Ang isang regression line ay isang makinis na curve (sa isang partikular na kaso isang tuwid na linya) na naglalarawan gamit ang isang mathematical function. pangkalahatang kalakaran ang pinag-aralan na pagtitiwala at pagpapakinis ng hindi regular, random na mga paglabas mula sa impluwensya ng mga side factor.

Upang ipakita ang mga nakapares na mga dependency ng regression sa mga gawain sa pagtatasa, ang mga sumusunod na function ay kadalasang ginagamit: linear - y - a 0 + ars + s kapangyarihan - y - aj&i + s nagpapahiwatig - y - linear exponential - y - a 0 + ap* + c. dito - e error sa approximation na dulot ng pagkilos ng hindi nabilang na random na mga salik.

Sa mga function na ito, ang y ay ang resultang variable; x - variable na kadahilanan (factor); A 0 , a r a 2 - mga parameter ng regression model, regression coefficients.

Ang linear exponential model ay kabilang sa klase ng tinatawag na hybrid na mga modelo ng anyo:

saan

kung saan ang x (i = 1, /) - mga halaga ng mga kadahilanan;

b t (i = 0, /) - mga coefficient ng regression equation.

Sa equation na ito ang mga bahagi A, B At Z tumutugma sa halaga ng mga indibidwal na bahagi ng asset na pinahahalagahan, halimbawa, ang halaga ng isang land plot at ang halaga ng mga pagpapabuti, at ang parameter Q pangkaraniwan. Nilalayon nitong isaayos ang halaga ng lahat ng bahagi ng asset na pinapahalagahan ng karaniwang salik mga impluwensya tulad ng lokasyon.

Ang mga halaga ng mga kadahilanan na nasa kapangyarihan ng kaukulang mga coefficient ay binary variable (0 o 1). Ang mga kadahilanan sa base ng antas ay discrete o tuloy-tuloy na mga variable.

Ang mga salik na nauugnay sa mga koepisyent ng multiplikasyon ay tuluy-tuloy o discrete din.

Ang pagtutukoy ay isinasagawa, bilang panuntunan, gamit ang isang empirical na diskarte at may kasamang dalawang yugto:

  • ? paglalagay ng mga regression field point sa isang graph;
  • ? graphical (visual) na pagsusuri ng uri ng posibleng approximating curve.

Ang uri ng regression curve ay hindi palaging mapipili kaagad. Upang matukoy ito, i-plot muna ang mga punto ng field ng regression batay sa orihinal na data. Pagkatapos ay biswal na gumuhit ng isang linya sa kahabaan ng posisyon ng mga puntos, sinusubukang malaman ang husay na pattern ng koneksyon: pare-parehong paglago o pare-parehong pagbaba, paglago (pagbaba) na may pagtaas (pagbaba) sa rate ng dinamika, maayos na diskarte sa isang tiyak antas.

Ang empirikal na diskarte na ito ay kinukumpleto ng lohikal na pagsusuri, simula sa mga kilalang ideya tungkol sa pang-ekonomiya at pisikal na katangian ng mga salik na pinag-aaralan at ang kanilang impluwensya sa isa't isa.

Halimbawa, alam na ang mga dependency ng mga resultang variable ay mga tagapagpahiwatig ng ekonomiya(mga presyo, rental) mula sa isang bilang ng mga variable na salik - mga salik na bumubuo ng presyo (distansya mula sa sentro ng settlement, lugar, atbp.) ay likas na hindi linear, at maaari silang ilarawan nang mahigpit sa pamamagitan ng kapangyarihan, exponential o quadratic function. Ngunit para sa maliliit na hanay ng mga pagbabago sa kadahilanan, ang mga katanggap-tanggap na resulta ay maaaring makuha gamit ang isang linear na function.

Kung, gayunpaman, imposible pa rin na agad na gumawa ng isang kumpiyansa na pagpili ng anumang isang function, pagkatapos ay dalawa o tatlong mga function ang napili, ang kanilang mga parameter ay kinakalkula, at pagkatapos, gamit ang naaangkop na pamantayan para sa pagiging malapit ng koneksyon, ang function ay sa wakas. pinili.

Sa teorya, ang proseso ng regression ng paghahanap ng hugis ng isang kurba ay tinatawag pagtutukoy modelo, at mga coefficient nito - pagkakalibrate mga modelo.

Kung napag-alaman na ang resultang variable y ay depende sa ilang factor variables (factors) x ( , x 2 , ..., x k, pagkatapos ay gumawa sila ng maraming modelo ng regression. Karaniwan, tatlong paraan ng maramihang komunikasyon ang ginagamit: linear - y - a 0 + a x x x + a^x 2 + ... + isang k x k, nagpapahiwatig - y - a 0 a*i a x t- a x b, kapangyarihan - y - isang 0 x x ix 2 a 2. .x^o mga kumbinasyon nito.

Ang mga exponential at power function ay mas pangkalahatan, dahil tinatantya nila ang mga nonlinear na relasyon, na karamihan sa mga pinag-aralan sa pagtatasa ng mga dependency. Bilang karagdagan, maaari silang magamit sa pagtatasa ng mga bagay at sa pamamaraan pagmomolde ng istatistika sa mass assessment, at sa paraan ng direktang paghahambing sa indibidwal na pagtatasa kapag nagtatatag ng mga salik sa pagwawasto.

Sa yugto ng pagkakalibrate, ang mga parameter ng modelo ng regression ay kinakalkula gamit ang pinakamababang paraan ng mga parisukat, ang kakanyahan nito ay ang kabuuan ng mga squared deviations ng kinakalkula na mga halaga ng nagresultang variable. sa., ibig sabihin. kinakalkula gamit ang napiling coupling equation, mula sa aktwal na mga halaga ay dapat na minimal:

Mga halaga j) (. at u. ay kilala, samakatuwid Q ay isang function ng mga coefficient lamang ng equation. Upang mahanap ang minimum S kailangan mong kumuha ng mga partial derivatives Q sa pamamagitan ng mga coefficient ng equation at i-equate ang mga ito sa zero:

Bilang resulta, nakakakuha kami ng isang sistema ng mga normal na equation, ang bilang nito ay katumbas ng bilang ng mga natukoy na coefficient ng nais na equation ng regression.

Ipagpalagay na kailangan nating hanapin ang mga coefficient linear equation y - isang 0 + ars. Ang kabuuan ng mga squared deviations ay may anyo:

/=1

Ibahin ang pag-andar Q sa pamamagitan ng hindi kilalang coefficient a 0 at at equate ang mga partial derivatives sa zero:

Pagkatapos ng mga pagbabagong nakuha namin:

saan P - bilang ng mga orihinal na aktwal na halaga sa kanila (bilang ng mga analogue).

Ang ibinigay na pamamaraan para sa pagkalkula ng mga coefficient ng equation ng regression ay naaangkop din para sa mga nonlinear na dependencies, kung ang mga dependency na ito ay maaaring linearized, i.e. humantong sa isang linear na anyo gamit ang pagbabago ng mga variable. Ang mga power at exponential function pagkatapos ng logarithm at naaangkop na pagbabago ng mga variable ay nakakakuha ng isang linear na anyo. Halimbawa, ang isang power function pagkatapos ng logarithm ay nasa anyo: Sa y = 1p 0 +a x 1ph. Pagkatapos palitan ang mga variable Y- Sa y, L 0 - Sa at Hindi. X- Sa x nakakakuha tayo ng linear function

Y=A 0 + cijX, ang mga coefficient nito ay matatagpuan sa paraang inilarawan sa itaas.

Ginagamit din ang paraan ng least squares para kalkulahin ang mga coefficient ng isang multiple regression model. Kaya, isang sistema ng mga normal na equation para sa pagkalkula ng isang linear function na may dalawang variable Xj At x 2 pagkatapos ng isang serye ng mga pagbabago ay ganito ang hitsura:

Karaniwan ang sistemang ito Ang mga equation ay nalulutas gamit ang mga linear algebra na pamamaraan. Maramihan function ng kapangyarihan humantong sa isang linear na anyo sa pamamagitan ng pagkuha ng mga logarithms at pagbabago ng mga variable sa parehong paraan tulad ng isang pares na power function.

Kapag gumagamit ng mga hybrid na modelo, ang maramihang mga coefficient ng regression ay matatagpuan gamit ang mga numerical na pamamaraan ng paraan ng sunud-sunod na pagtatantya.

Upang makagawa ng isang pangwakas na pagpipilian mula sa ilang mga equation ng regression, kinakailangang subukan ang bawat equation para sa lakas ng relasyon, na sinusukat ng koepisyent ng ugnayan, pagkakaiba at koepisyent ng pagkakaiba-iba. Ang mga pagsusulit ng mag-aaral at Fisher ay maaari ding gamitin para sa pagsusuri. Kung mas malaki ang lapit ng koneksyon na ipinapakita ng isang curve, mas kanais-nais ito, lahat ng iba pang bagay ay pantay.

Kung ang isang problema ng klase na ito ay nalutas, kapag kinakailangan upang maitaguyod ang pag-asa ng isang tagapagpahiwatig ng gastos sa mga kadahilanan ng gastos, kung gayon ang pagnanais na isaalang-alang ang maraming mga kadahilanan na nakakaimpluwensya hangga't maaari at sa gayon ay makabuo ng isang mas tumpak na modelo ng multiple regression ay mauunawaan. . Gayunpaman, ang pagpapalawak ng bilang ng mga kadahilanan ay nahahadlangan ng dalawang layunin na limitasyon. Una, para makabuo ng multiple regression model, kailangan ng mas malaking sample ng mga object kaysa sa pagbuo ng nakapares na modelo. Karaniwang tinatanggap na ang bilang ng mga bagay sa sample ay dapat lumampas sa bilang P mga kadahilanan ng hindi bababa sa 5-10 beses. Kasunod nito na upang makabuo ng isang modelo na may tatlong mga salik na nakakaimpluwensya, kinakailangan upang mangolekta ng isang sample ng humigit-kumulang 20 mga bagay na may ibang hanay ng mga halaga ng kadahilanan. Pangalawa, ang mga kadahilanan na napili para sa modelo sa kanilang impluwensya sa tagapagpahiwatig ng gastos ay dapat na sapat na independyente sa bawat isa. Ito ay hindi madaling matiyak, dahil ang sample ay karaniwang pinagsasama ang mga bagay na kabilang sa parehong pamilya, kung saan mayroong natural na pagbabago sa maraming mga kadahilanan mula sa bagay patungo sa bagay.

Ang kalidad ng mga modelo ng regression ay karaniwang sinusuri gamit ang mga sumusunod na istatistikal na tagapagpahiwatig.

Standard deviation ng regression equation error (error sa pagtatantya):

saan P - laki ng sample (bilang ng mga analogue);

kay- bilang ng mga kadahilanan (mga kadahilanan sa gastos);

Error, hindi maipaliwanag regression equation(Larawan 3.2);

u. - ang aktwal na halaga ng resultang variable (halimbawa, gastos); y t - ang kinakalkula na halaga ng variable ng resulta.

Ang tagapagpahiwatig na ito ay tinatawag din karaniwang error ng pagtatantya (RMS error). Sa figure, ang mga tuldok ay nagpapahiwatig ng mga partikular na sample na halaga, ang simbolo ay nagpapahiwatig ng linya ng sample na average na mga halaga, at ang sloping dash-dotted na linya ay ang regression line.


kanin. 3.2.

Ang karaniwang paglihis ng error sa pagtatantya ay sumusukat sa dami ng paglihis ng mga aktwal na halaga ng y mula sa kaukulang mga kinakalkula na halaga sa( , nakuha gamit ang isang regression model. Kung ang sample kung saan nakabatay ang modelo ay napapailalim sa normal na batas sa pamamahagi, kung gayon maaari itong pagtalunan na 68% ng mga tunay na halaga sa ay nasa hanay sa ± &e mula sa linya ng regression, at 95% ay nasa hanay sa ± 2d e. Ang tagapagpahiwatig na ito ay maginhawa dahil ang mga yunit ng pagsukat sg? tumugma sa mga yunit ng pagsukat sa,. Kaugnay nito, maaari itong gamitin upang ipahiwatig ang katumpakan ng resulta na nakuha sa proseso ng pagtatasa. Halimbawa, sa isang sertipiko ng halaga maaari mong ipahiwatig na ang halaga ng merkado na nakuha gamit ang isang modelo ng regression V na may 95% na posibilidad na nasa hanay mula sa (V -2d,.) dati (y + 2d s).

Coefficient ng variation ng resultang variable:

saan y - ang average na halaga ng resultang variable (Larawan 3.2).

Sa pagsusuri ng regression, ang koepisyent ng variation var ay karaniwang lihis resulta, na ipinahayag bilang isang porsyento ng average na halaga ng resultang variable. Ang koepisyent ng pagkakaiba-iba ay maaaring magsilbi bilang isang pamantayan para sa mga predictive na katangian ng resultang modelo ng regression: mas maliit ang halaga var, mas mataas ang mga predictive na katangian ng modelo. Ang paggamit ng koepisyent ng variation ay mas mainam kaysa sa &e indicator, dahil ito ay isang relatibong indicator. Kapag ginagamit ang tagapagpahiwatig na ito sa pagsasanay, maaari itong irekomenda na huwag gumamit ng isang modelo na ang koepisyent ng pagkakaiba-iba ay lumampas sa 33%, dahil sa kasong ito ay hindi masasabi na ang sample na data ay napapailalim sa isang normal na batas sa pamamahagi.

Koepisyent ng determinasyon (squared multiple correlation coefficient):

Ginagamit ang indicator na ito upang pag-aralan ang pangkalahatang kalidad ng resultang modelo ng regression. Ipinapahiwatig nito kung anong porsyento ng pagkakaiba-iba sa resultang variable ang ipinaliwanag sa pamamagitan ng impluwensya ng lahat ng mga variable na kadahilanan na kasama sa modelo. Ang koepisyent ng determinasyon ay palaging nasa hanay mula sa zero hanggang isa. Ang mas malapit ang halaga ng koepisyent ng pagpapasiya ay sa pagkakaisa, ang mas magandang modelo inilalarawan ang orihinal na serye ng data. Ang koepisyent ng pagpapasiya ay maaaring kinakatawan sa ibang paraan:

Narito ang error na ipinaliwanag ng modelo ng regression,

A - pagkakamali, hindi maipaliwanag

modelo ng regression. Mula sa isang pang-ekonomiyang punto ng view, ang criterion na ito ay nagpapahintulot sa amin na hatulan kung anong porsyento ng pagkakaiba-iba ng presyo ang ipinaliwanag ng equation ng regression.

Ang eksaktong limitasyon ng katanggap-tanggap ng tagapagpahiwatig R 2 Imposibleng tukuyin para sa lahat ng mga kaso. Ang laki ng sample at ang makabuluhang interpretasyon ng equation ay dapat isaalang-alang. Bilang isang patakaran, kapag nag-aaral ng data tungkol sa mga bagay ng parehong uri na nakuha sa humigit-kumulang sa parehong punto sa oras, ang halaga R 2 hindi lalampas sa antas ng 0.6-0.7. Kung ang lahat ng mga error sa pagtataya ay zero, ibig sabihin. kapag ang relasyon sa pagitan ng resulta at factor variable ay functional, kung gayon R 2 =1.

Inayos na koepisyent ng pagpapasiya:

Ang pangangailangan upang ipakilala ang isang nababagay na koepisyent ng pagpapasiya ay ipinaliwanag sa pamamagitan ng katotohanan na sa isang pagtaas sa bilang ng mga kadahilanan Upang ang karaniwang koepisyent ng determinasyon ay halos palaging tumataas, ngunit ang bilang ng mga antas ng kalayaan ay bumababa (p - k- 1). Ang ipinasok na pagsasaayos ay palaging binabawasan ang halaga R2, dahil ang (P - 1) > (p-k- 1). Bilang resulta, ang halaga R 2 CKOf) maaaring maging negatibo. Nangangahulugan ito na ang halaga R 2 ay malapit sa zero bago ang pagsasaayos at ipinaliwanag ang proporsyon ng pagkakaiba-iba ng variable gamit ang equation ng regression sa napakaliit.

Sa dalawang opsyon para sa mga modelo ng regression na naiiba sa halaga ng adjusted coefficient of determination, ngunit may parehong mahusay na iba pang pamantayan sa kalidad, ang opsyon na may mas malaking halaga ng adjusted coefficient of determination ay mas gusto. Ang koepisyent ng pagpapasiya ay hindi nababagay kung (p - k): k> 20.

Fisher coefficient:

Ang pamantayang ito ay ginagamit upang masuri ang kahalagahan ng koepisyent ng pagpapasiya. Natirang kabuuan ng mga parisukat kumakatawan sa isang sukatan ng error sa paghula gamit ang regression ng mga kilalang halaga ng gastos y.. Ang paghahambing nito sa regression sum ng mga parisukat ay nagpapakita kung gaano karaming beses na hinuhulaan ng regression dependence ang resulta na mas mahusay kaysa sa average sa. Mayroong isang talahanayan ng mga kritikal na halaga F R Fisher coefficient, depende sa bilang ng mga antas ng kalayaan ng numerator - Para, denominator v 2 = p - k- 1 at antas ng kahalagahan a. Kung ang kinakalkula na halaga ng Fisher test F R higit pa halaga ng talahanayan, pagkatapos ay ang hypothesis tungkol sa hindi gaanong kahalagahan ng koepisyent ng pagpapasiya, i.e. tungkol sa pagkakaiba sa pagitan ng mga koneksyon na naka-embed sa regression equation at sa mga aktwal na umiiral, na may posibilidad na p = 1 - a ay tinanggihan.

Average na error sa pagtatantya(average na porsyento ng paglihis) ay kinakalkula bilang ang average na kamag-anak na pagkakaiba, na ipinahayag bilang isang porsyento, sa pagitan ng aktwal at kinakalkula na mga halaga ng resultang variable:

Paano mas kaunting halaga ng tagapagpahiwatig na ito, mas mahusay ang mga predictive na katangian ng modelo. Kapag ang indicator na ito ay hindi mas mataas sa 7%, ang modelo ay lubos na tumpak. Kung 8 > 15% ay nagpapahiwatig ng hindi kasiya-siyang katumpakan ng modelo.

Standard error ng regression coefficient:

kung saan (/I) -1 .- dayagonal na elemento ng matris (X G X)~ 1 k - bilang ng mga kadahilanan;

X- matrix ng factor variable value:

X 7 - transposed matrix ng factor variable value;

(ZhL) _| - matrix kabaligtaran ng matrix.

Kung mas maliit ang mga indicator na ito para sa bawat coefficient ng regression, mas maaasahan ang pagtatantya ng kaukulang regression coefficient.

Pagsusulit ng mag-aaral (t-statistics):

Ang pamantayang ito ay nagpapahintulot sa iyo na sukatin ang antas ng pagiging maaasahan (kabuluhan) ng relasyon na tinutukoy ng isang naibigay na koepisyent ng pagbabalik. Kung ang kinakalkula na halaga t. mas malaki kaysa sa halaga ng talahanayan

t av, saan v - p - k - Ang 1 ay ang bilang ng mga antas ng kalayaan, pagkatapos ay ang hypothesis na ang koepisyent na ito ay hindi gaanong mahalaga sa istatistika ay tinanggihan na may posibilidad (100 - a)%. May mga espesyal na talahanayan ng /-distribusyon na nagpapahintulot, batay sa isang naibigay na antas ng kahalagahan a at ang bilang ng mga antas ng kalayaan v, upang matukoy kritikal na halaga pamantayan. Ang pinakakaraniwang ginagamit na halaga para sa isang ay 5%.

Multicollinearity, ibig sabihin. ang epekto ng magkaparehong ugnayan sa pagitan ng mga variable ng salik ay humahantong sa pangangailangan na maging kontento sa limitadong bilang ng mga ito. Kung hindi ito isinasaalang-alang, maaari kang magkaroon ng isang hindi makatwirang modelo ng regression. Upang maiwasan ang negatibong epekto ng multicollinearity, ang pairwise correlation coefficient ay kinakalkula bago bumuo ng isang multiple regression model r xjxj sa pagitan ng mga napiling variable X. At X

Dito XjX; - ang average na halaga ng produkto ng dalawang factor variable;

XjXj- ang produkto ng average na halaga ng dalawang variable na kadahilanan;

Pagtatantya ng pagkakaiba ng factor variable x..

Ang dalawang variable ay itinuturing na may kaugnayan sa regression (i.e., collinear) kung ang kanilang pairwise correlation coefficient ay ganap na halaga mahigpit na higit sa 0.8. Sa kasong ito, ang alinman sa mga variable na ito ay dapat na hindi kasama sa pagsasaalang-alang.

Upang mapalawak ang mga kakayahan ng pagsusuri sa ekonomiya ng mga resultang modelo ng regression, average mga koepisyent ng pagkalastiko, tinutukoy ng formula:

saan Xj- ang average na halaga ng kaukulang factor variable;

y - ang average na halaga ng resultang variable; a ako - regression coefficient para sa kaukulang factor variable.

Ang elasticity coefficient ay nagpapakita sa kung anong porsyento sa average ang halaga ng resultang variable ay magbabago kapag ang factor variable ay nagbago ng 1%, i.e. kung paano tumutugon ang resultang variable sa mga pagbabago sa factor variable. Halimbawa, ano ang reaksyon ng presyo ng sq. m.? m ng apartment area sa layo mula sa sentro ng lungsod.

Mula sa punto ng view ng pagsusuri sa kahalagahan ng isang partikular na koepisyent ng regression, ito ay kapaki-pakinabang na tantyahin bahagyang koepisyent ng pagpapasiya:

Narito ang pagtatantya ng pagkakaiba ng resulta

variable. Ang koepisyent na ito ay nagpapakita sa pamamagitan ng kung anong porsyento ang pagkakaiba-iba sa resultang baryabol ay ipinaliwanag ng variation sa i-th factor variable na kasama sa regression equation.

  • Ang mga hedonic na katangian ay nauunawaan bilang mga katangian ng isang bagay na nagpapakita ng mga kapaki-pakinabang (mahalaga) na katangian nito mula sa punto ng view ng mga mamimili at nagbebenta.


Bago sa site

>

Pinaka sikat