Bahay Kalinisan Pagtatantya ng mga parameter ng equation ng regression. Pagtatantya ng Mga Parameter ng Linear Regression

Pagtatantya ng mga parameter ng equation ng regression. Pagtatantya ng Mga Parameter ng Linear Regression

Ang equation ng regression ay palaging pupunan ng isang tagapagpahiwatig ng pagiging malapit ng koneksyon. Gamit linear regression ang naturang indicator ay ang linear correlation coefficient r yt. Mayroong iba't ibang mga pagbabago sa formula linear coefficient mga ugnayan.

Dapat itong isipin na ang halaga ng linear correlation coefficient ay tinatasa ang lapit ng koneksyon sa pagitan ng mga katangian na isinasaalang-alang sa linear na anyo nito. Kaya closeness ganap na halaga Ang linear correlation coefficient sa zero ay hindi nangangahulugan na walang koneksyon sa pagitan ng mga katangian.

Upang masuri ang kalidad ng pagpili linear function ang parisukat ng linear correlation coefficient r yt 2, na tinatawag na coefficient of determination, ay kinakalkula. Ang koepisyent ng determinasyon ay nagpapakilala sa proporsyon ng pagkakaiba-iba ng mabisang katangian sa t ipinaliwanag sa pamamagitan ng pagbabalik sa kabuuang pagkakaiba ng mabisang katangian.

Ang nonlinear regression equation, tulad ng sa linear dependence, ay pupunan ng isang tagapagpahiwatig ng ugnayan, katulad ng index ng ugnayan R.

Isang parabola ng pangalawang pagkakasunud-sunod, tulad ng isang polynomial ng higit pa mataas na pagkakasunud-sunod, kapag linearized, ay tumatagal ng anyo ng equation maramihang pagbabalik. Kung nonlinear relative sa ipinaliwanag variable na equation Ang regression sa panahon ng linearization ay tumatagal sa anyo ng isang linear equation ng paired regression, pagkatapos ay upang masuri ang pagiging malapit ng relasyon, maaaring gamitin ang isang linear correlation coefficient, ang halaga kung saan sa kasong ito ay magkakasabay sa correlation index.

Ang sitwasyon ay naiiba kapag ang mga pagbabagong-anyo ng equation sa linear form ay may kasamang dependent variable. Sa kasong ito, ang linear correlation coefficient batay sa binagong mga value ng feature ay nagbibigay lamang ng tinatayang pagtatantya ng lapit ng relasyon at hindi tumutugma sa numero sa correlation index. Oo, para sa function ng kapangyarihan

pagkatapos ipasa sa logarithmically linear equation

lny = lna + blnx

ang isang linear correlation coefficient ay matatagpuan hindi para sa aktwal na mga halaga ng mga variable na x at y, ngunit para sa kanilang mga logarithms, iyon ay, r lnylnx. Alinsunod dito, ang parisukat ng halaga nito ay ilalarawan ang ratio ng factor sum ng squared deviations sa kabuuan, ngunit hindi para sa y, ngunit para sa mga logarithms nito:

Samantala, kapag kinakalkula ang index ng ugnayan, ang mga kabuuan ng mga parisukat na paglihis ng katangiang y ang ginagamit, at hindi ang kanilang mga logarithms. Para sa layuning ito, ang mga teoretikal na halaga ng nagresultang katangian ay tinutukoy, iyon ay, bilang ang antilogarithm ng halaga na kinakalkula ng equation at ang natitirang kabuuan ng mga parisukat bilang.

Ang denominator ng pagkalkula R 2 yx ay nagsasangkot ng kabuuang kabuuan ng mga squared deviations ng aktwal na mga halaga y mula sa kanilang average na halaga, at ang denominator r 2 lnxlny ay nakikilahok sa pagkalkula. Ang mga numerator at denominator ng mga tagapagpahiwatig na isinasaalang-alang ay naiiba nang naaayon:

  • - sa index ng ugnayan at
  • - sa koepisyent ng ugnayan.

Dahil sa pagkakapareho ng mga resulta at ang pagiging simple ng mga kalkulasyon gamit ang mga programa sa computer, ang linear correlation coefficient ay malawakang ginagamit upang makilala ang pagiging malapit ng koneksyon para sa mga nonlinear na function.

Sa kabila ng pagiging malapit ng mga halaga ng R at r o R ​​at r sa mga nonlinear na pag-andar na may pagbabago ng halaga ng katangian y, dapat itong alalahanin na kung, na may isang linear na pag-asa ng mga katangian, ang parehong koepisyent ng ugnayan ay nagpapakilala sa regression, dapat tandaan na kung, na may linear dependence ng mga katangian, ang isa at ang parehong correlation coefficient ay nagpapakilala sa regression pareho at, dahil, pagkatapos ay may curvilinear dependence para sa function na y=j(x) ay hindi pantay para sa regression x =f(y).

Dahil ang pagkalkula ng correlation index ay gumagamit ng ratio ng factor at kabuuang halaga squared deviations, pagkatapos ay may parehong kahulugan bilang koepisyent ng determinasyon. Sa mga espesyal na pag-aaral, ang halaga para sa mga nonlinear na relasyon ay tinatawag na determinasyon ng pagpapasiya.

Ang pagtatasa ng kahalagahan ng index ng ugnayan ay isinasagawa sa parehong paraan tulad ng pagtatasa ng pagiging maaasahan ng koepisyent ng ugnayan.

Ang correlation index ay ginagamit upang subukan ang kahalagahan ng pangkalahatang nonlinear regression equation gamit ang Fisher F test.

Ang halagang m ay nagpapakilala sa bilang ng mga degree ng kalayaan para sa factor sum ng mga parisukat, at (n - m - 1) - ang bilang ng mga degree ng kalayaan para sa natitirang kabuuan ng mga parisukat.

Para sa isang power function m = 1 at ang formula ng F-criterion ay tumatagal ng parehong anyo tulad ng para sa isang linear dependence:

Para sa isang parabola ng ikalawang antas

y = a 0 + a 1 x + a 2 x 2 +em = 2

Ang F-criterion ay maaari ding kalkulahin sa talahanayan pagsusuri ng pagkakaiba-iba mga resulta ng regression, tulad ng ipinapakita para sa linear function.

Ang index ng determinasyon ay maaaring ihambing sa koepisyent ng determinasyon upang bigyang-katwiran ang posibilidad ng paggamit ng isang linear function. Kung mas malaki ang curvature ng regression line, mas mababa ang determination coefficient ay ang determination index. Ang pagkakapareho ng mga tagapagpahiwatig na ito ay nangangahulugan na hindi na kailangang gawing kumplikado ang anyo ng equation ng regression at maaaring gumamit ng isang linear na function.

Sa pagsasagawa, kung ang pagkakaiba sa pagitan ng index ng pagpapasiya at ng koepisyent ng pagpapasiya ay hindi lalampas sa 0.1, kung gayon ang pagpapalagay ng isang linear na anyo ng relasyon ay itinuturing na makatwiran.

Kung t fact >t table, kung gayon ang mga pagkakaiba sa pagitan ng itinuturing na mga tagapagpahiwatig ng ugnayan ay makabuluhan at ang pagpapalit ng nonlinear regression ng isang linear function equation ay imposible. Sa pagsasagawa, kung ang halaga t< 2, то различия между R yx и r yx несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

Pagsusuri ng ugnayan.

Paired Regression Equation.

Gamit ang graphical na pamamaraan.

Ang pamamaraang ito ay ginagamit upang biswal na ilarawan ang anyo ng koneksyon sa pagitan ng pinag-aralan na mga tagapagpahiwatig ng ekonomiya. Upang gawin ito, ang isang graph ay iginuhit sa isang hugis-parihaba na sistema ng coordinate, ang mga indibidwal na halaga ng nagreresultang katangian Y ay naka-plot kasama ang ordinate axis, at ang mga indibidwal na halaga ng factor na katangian X ay naka-plot kasama ang abscissa axis.

Tinatawag ang hanay ng mga puntos ng resultang at mga katangian ng salik larangan ng ugnayan.

Batay sa larangan ng ugnayan, maaaring maglagay ng hypothesis (para sa populasyon) na ang ugnayan sa pagitan ng lahat ng posibleng halaga ng X at Y ay linear.

Ang linear regression equation ay y = bx + a + ε

Narito ang ε ay isang random na error (paglihis, kaguluhan).

Mga dahilan para sa pagkakaroon ng isang random na error:

1. Pagkabigong isama ang mga makabuluhang variable na nagpapaliwanag sa modelo ng regression;

2. Pagsasama-sama ng mga variable. Halimbawa, ang kabuuang function ng pagkonsumo ay isang pagtatangka pangkalahatang pagpapahayag pinagsama-samang mga desisyon sa paggastos ng indibidwal. Ito ay pagtatantya lamang ng mga indibidwal na relasyon na may iba't ibang mga parameter.

3. Maling paglalarawan ng istraktura ng modelo;

4. Maling functional na detalye;

5. Mga error sa pagsukat.

Dahil ang mga deviations ε i para sa bawat partikular na obserbasyon i ay random at ang kanilang mga halaga sa sample ay hindi alam, kung gayon:

1) mula sa mga obserbasyon x i at y i maaari lamang makakuha ng mga pagtatantya ng mga parameter na α at β

2) Mga pagtatantya ng mga parameter na α at β modelo ng regression ay ayon sa pagkakabanggit ang mga halaga ng a at b, na random sa kalikasan, dahil tumutugma sa isang random na sample;

Pagkatapos ang equation ng pagtatantya ng regression (na binuo mula sa sample na data) ay magkakaroon ng form na y = bx + a + ε, kung saan ang e i ay ang mga naobserbahang halaga (mga pagtatantya) ng mga error ε i , at ang a at b ay, ayon sa pagkakabanggit, mga pagtatantya ng ang mga parameter α at β ng regression model na dapat matagpuan.

Upang matantya ang mga parameter na α at β - ginagamit ang pamamaraang least squares (least squares method). Pamamaraan hindi bababa sa mga parisukat nagbibigay ng pinakamahusay (pare-pareho, mahusay at walang pinapanigan) na mga pagtatantya ng mga parameter ng equation ng regression.

Ngunit lamang kung ang ilang mga lugar ay natutugunan tungkol sa random na termino (ε) at ang malayang baryabol (x).

Sa pormal, ang OLS criterion ay maaaring isulat bilang mga sumusunod:

S = ∑(y i - y * i) 2 → min

Sistema ng mga normal na equation.

a n + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

Para sa aming data, ang sistema ng mga equation ay may anyo

15a + 186.4 b = 17.01

186.4 a + 2360.9 b = 208.25

Mula sa unang equation na ipinapahayag namin A at palitan sa pangalawang equation:

Nakukuha namin ang empirical regression coefficients: b = -0.07024, a = 2.0069

Regression equation (empirical regression equation):

y = -0.07024 x + 2.0069

Empirical regression coefficients a At b ay mga pagtatantya lamang ng mga theoretical coefficients β i, at ang equation mismo ay sumasalamin lamang sa pangkalahatang kalakaran sa pag-uugali ng mga variable na isinasaalang-alang.

Upang kalkulahin ang mga parameter ng regression, bubuo kami ng talahanayan ng pagkalkula (Talahanayan 1)

1. Mga parameter ng equation ng regression.

Sample ibig sabihin.

Mga sample na pagkakaiba-iba:

Karaniwang lihis

1.1. Koepisyent ng ugnayan

Covariance.

Kinakalkula namin ang tagapagpahiwatig ng pagkakalapit ng koneksyon. Ang indicator na ito ay ang sample na linear correlation coefficient, na kinakalkula ng formula:

Ang linear correlation coefficient ay tumatagal ng mga halaga mula -1 hanggang +1.

Ang mga koneksyon sa pagitan ng mga katangian ay maaaring mahina at malakas (malapit). Ang kanilang mga pamantayan ay tinasa sa sukat ng Chaddock:

0.1 < r xy < 0.3: слабая;

0.3 < r xy < 0.5: умеренная;

0.5 < r xy < 0.7: заметная;

0.7 < r xy < 0.9: высокая;

0.9 < r xy < 1: весьма высокая;

Sa aming halimbawa, ang relasyon sa pagitan ng katangian Y at kadahilanan X ay mataas at kabaligtaran.

Bilang karagdagan, ang linear pair correlation coefficient ay maaaring matukoy sa pamamagitan ng regression coefficient b:

1.2. Regression equation(pagtatantya ng equation ng regression).

Ang linear regression equation ay y = -0.0702 x + 2.01

Ang mga coefficient ng isang linear regression equation ay maaaring bigyan ng pang-ekonomiyang kahulugan.

Ang regression coefficient b = -0.0702 ay nagpapakita ng average na pagbabago sa epektibong indicator (sa mga yunit ng pagsukat y) na may pagtaas o pagbaba sa halaga ng factor x bawat yunit ng pagsukat nito. Sa halimbawang ito, na may pagtaas ng 1 yunit, ang y ay bumababa ng -0.0702 sa karaniwan.

Ang koepisyent a = 2.01 ay pormal na nagpapakita ng hinulaang antas ng y, ngunit kung ang x = 0 ay malapit lamang sa mga sample na halaga.

Ngunit kung ang x=0 ay malayo sa mga sample na halaga ng x, kung gayon ang isang literal na interpretasyon ay maaaring humantong sa mga maling resulta, at kahit na ang linya ng regression ay naglalarawan ng mga naobserbahang halaga ng sample nang medyo tumpak, walang garantiya na ito ay magkakaroon din. maging ang kaso kapag extrapolating kaliwa o kanan.

Sa pamamagitan ng pagpapalit ng naaangkop na mga halaga ng x sa equation ng regression, matutukoy natin ang nakahanay (hinulaang) mga halaga ng tagapagpahiwatig ng pagganap y(x) para sa bawat pagmamasid.

Tinutukoy ng relasyon sa pagitan ng y at x ang tanda ng regression coefficient b (kung > 0 - direktang relasyon, kung hindi - kabaligtaran). Sa aming halimbawa, ang koneksyon ay baligtad.

1.3. Koepisyent ng pagkalastiko.

Hindi ipinapayong gumamit ng mga coefficient ng regression (sa halimbawa b) upang direktang masuri ang impluwensya ng mga salik sa isang resultang katangian kung may pagkakaiba sa mga yunit ng pagsukat ng resultang tagapagpahiwatig na y at ang katangian ng salik na x.

Para sa mga layuning ito, kinakalkula ang mga coefficient ng elasticity at mga beta coefficient.

Ang average na elasticity coefficient E ay nagpapakita sa kung anong porsyento sa average ang magiging resulta sa pinagsama-samang sa mula sa average na halaga nito kapag nagbabago ang salik x ng 1% ng average na halaga nito.

Ang koepisyent ng pagkalastiko ay matatagpuan sa pamamagitan ng formula:

Ang elasticity coefficient ay mas mababa sa 1. Samakatuwid, kung ang X ay magbabago ng 1%, ang Y ay magbabago ng mas mababa sa 1%. Sa madaling salita, ang impluwensya ng X sa Y ay hindi makabuluhan.

Beta koepisyent

Beta koepisyent nagpapakita sa pamamagitan ng kung anong bahagi ng halaga ng karaniwang paglihis nito ang average na halaga ng nagreresultang katangian ay magbabago kapag ang katangian ng salik ay nagbabago sa halaga ng karaniwang paglihis nito na may halaga ng natitirang mga independiyenteng variable na naayos sa isang pare-parehong antas:

Yung. ang pagtaas sa x ng standard deviation S x ay hahantong sa pagbaba sa average na halaga ng Y ng 0.82 standard deviation S y .

1.4. Error sa pagtatantya.

Suriin natin ang kalidad ng equation ng regression gamit ang error ng absolute approximation. Average na error sa pagtatantya - average na paglihis ng mga kinakalkula na halaga mula sa mga aktwal:

Ang isang error sa pagtatantya sa loob ng 5%-7% ay nagpapahiwatig ng isang mahusay na akma ng equation ng regression sa orihinal na data.

Dahil ang error ay mas mababa sa 7%, ang equation na ito ay maaaring gamitin bilang regression.

Ang linear regression ay bumaba sa paghahanap ng equation ng form

Ang unang expression ay nagbibigay-daan para sa mga ibinigay na halaga ng kadahilanan x kalkulahin ang mga teoretikal na halaga ng nagresultang katangian sa pamamagitan ng pagpapalit ng aktwal na mga halaga ng kadahilanan dito x. Sa graph, ang mga teoretikal na halaga ay nasa isang tuwid na linya, na kumakatawan sa linya ng regression.

Ang pagbuo ng linear regression ay bumaba sa pagtatantya ng mga parameter nito - A At b. Ang klasikal na diskarte sa pagtatantya ng mga parameter ng linear regression ay batay sa least squares method (LSM).

Upang mahanap ang minimum, kinakailangan upang kalkulahin ang mga bahagyang derivatives ng kabuuan (4) para sa bawat isa sa mga parameter - A At b- at ipantay ang mga ito sa zero.

(5)

Mag-transform tayo, nakukuha natin sistema ng mga normal na equation:

(6)

Sa sistemang ito n- laki ng sample, ang mga halaga ay madaling kalkulahin mula sa orihinal na data. Niresolba namin ang system na may kinalaman sa A At b, nakukuha namin:

(7)

. (8)

Ang pagpapahayag (7) ay maaaring isulat sa ibang anyo:

(9)

saan trait covariance, factor dispersion x.

Parameter b tinawag koepisyent ng regression. Ang halaga nito ay nagpapakita ng average na pagbabago sa resulta na may pagbabago sa factor ng isang yunit. Ang posibilidad ng isang malinaw na pang-ekonomiyang interpretasyon ng koepisyent ng regression ay nagawa linear equation Ang regression ay karaniwan sa mga pag-aaral sa ekonometrika.

Pormal a- ibig sabihin y sa x=0. Kung x ay wala at hindi maaaring magkaroon ng zero na halaga, kung gayon ang interpretasyong ito ng libreng termino a walang saysay. Parameter a maaaring walang pang-ekonomiyang nilalaman. Ang mga pagtatangka na bigyang-kahulugan ito nang matipid ay maaaring humantong sa kahangalan, lalo na kapag a< 0. Интерпретировать можно лишь знак при параметре a. Kung a> 0, kung gayon ang kamag-anak na pagbabago sa resulta ay nangyayari nang mas mabagal kaysa sa pagbabago sa salik. Ihambing natin ang mga kaugnay na pagbabagong ito:

< при > 0, > 0

Minsan ang isang linear pairwise regression equation ay isinulat para sa mga deviations mula sa mean:

Saan , . Sa kasong ito, ang libreng termino ay katumbas ng zero, na makikita sa expression (10). Ang katotohanang ito ay sumusunod mula sa mga geometric na pagsasaalang-alang: ang parehong tuwid na linya (3) ay tumutugma sa equation ng regression, ngunit kapag tinatantya ang regression sa mga deviations, ang pinagmulan ng mga coordinate ay gumagalaw sa punto na may mga coordinate . Sa kasong ito, sa expression (8) ang parehong mga kabuuan ay magiging katumbas ng zero, na magsasama ng pagkakapantay-pantay ng libreng termino sa zero.

Isaalang-alang natin, bilang isang halimbawa, para sa isang pangkat ng mga negosyo na gumagawa ng isang uri ng produkto, ang function ng gastos



mesa 1.

Output ng produkto thousand units() Mga gastos sa produksyon, milyong rubles()
31,1
67,9
141,6
104,7
178,4
104,7
141,6
Kabuuan: 22 770,0

Ang sistema ng mga normal na equation ay magiging ganito:

Ang paglutas nito, nakukuha natin a= -5.79, b=36.84.

Ang equation ng regression ay:

Ang pagpapalit ng mga halaga sa equation X, hanapin natin ang mga teoretikal na halaga y(huling hanay ng talahanayan).

Magnitude a walang pang-ekonomiyang kahulugan. Kung ang mga variable x At y ipinahayag sa mga tuntunin ng mga paglihis mula sa mga average na antas, pagkatapos ang linya ng regression sa graph ay dadaan sa pinagmulan ng mga coordinate. Ang pagtatantya ng coefficient ng regression ay hindi magbabago:

, Saan , .

Bilang isa pang halimbawa, isaalang-alang ang function ng pagkonsumo ng form:

,

kung saan ang C ay pagkonsumo, y-kita, K,L- mga pagpipilian. Ang linear regression equation na ito ay kadalasang ginagamit kasabay ng balance sheet equation:

,

saan ako- laki ng pamumuhunan, r- pagtitipid.

Para sa pagiging simple, ipagpalagay na ang kita ay ginagastos sa pagkonsumo at pamumuhunan. Kaya, ang sistema ng mga equation ay isinasaalang-alang:

Ang pagkakaroon ng pagkakapantay-pantay ng balanse ay nagpapataw ng mga paghihigpit sa halaga ng koepisyent ng regression, na hindi maaaring mas malaki kaysa sa isa, i.e. .

Ipagpalagay natin na ang function ng pagkonsumo ay:

.

Ang regression coefficient ay nagpapakilala sa propensity na kumonsumo. Ipinapakita nito na sa bawat libong rubles ng kita, isang average na 650 rubles ang ginugol sa pagkonsumo, at 350 rubles. namuhunan. Kung kalkulahin natin ang regression ng laki ng pamumuhunan sa kita, i.e. , kung gayon ang equation ng regression ay magiging . Ang equation na ito ay hindi kailangang tukuyin, dahil ito ay nagmula sa function ng pagkonsumo. Ang mga coefficient ng regression ng dalawang equation na ito ay nauugnay sa pagkakapantay-pantay:

Kung ang koepisyent ng regression ay lumalabas na mas malaki kaysa sa isa, kung gayon , at hindi lamang kita, kundi pati na rin ang pagtitipid ay ginugol sa pagkonsumo.



Ang regression coefficient sa function ng pagkonsumo ay ginagamit upang kalkulahin ang multiplier:

Dito m≈2.86, kaya ang karagdagang pamumuhunan ay 1 libong rubles. sa pangmatagalan ay hahantong, ang iba pang mga bagay ay katumbas, sa isang karagdagang kita na 2.86 libong rubles.

Sa linear regression, ang linear correlation coefficient ay nagsisilbing indicator ng pagiging malapit ng koneksyon r:

Ang mga halaga nito ay nasa loob ng mga hangganan: . Kung b> 0, pagkatapos ay kailan b< 0 . Ayon sa halimbawa, nangangahulugan ito ng napakalapit na pag-asa ng mga gastos sa produksyon sa dami ng output.

Upang masuri ang kalidad ng pag-angkop sa isang linear na function, kalkulahin koepisyent ng determinasyon bilang parisukat ng linear correlation coefficient r 2. Nailalarawan nito ang bahagi ng pagkakaiba-iba ng nagresultang katangian y ipinaliwanag sa pamamagitan ng regression sa kabuuang pagkakaiba ng nagresultang katangian:

Ang halaga ay nagpapakilala sa bahagi ng pagkakaiba y, sanhi ng impluwensya ng iba pang mga kadahilanan na hindi isinasaalang-alang sa modelo.

Sa halimbawa. Ang equation ng regression ay nagpapaliwanag ng 98.2% ng pagkakaiba, at ang iba pang mga salik ay nagkakahalaga ng 1.8%, ito ang natitirang pagkakaiba.

Mga paunang kondisyon ng OLS (mga kondisyon ng Gauss-Markov)

Tulad ng nabanggit sa itaas, ang koneksyon sa pagitan y At x sa pairwise regression ay hindi gumagana, ngunit may kaugnayan. Samakatuwid, ang mga pagtatantya ng parameter a At b ay mga random na variable, ang mga katangian ng kung saan ay makabuluhang nakasalalay sa mga katangian ng random na bahagi ε. Upang makuha ang pinakamahusay na mga resulta gamit ang hindi bababa sa mga parisukat, ang mga sumusunod na kinakailangan tungkol sa random na paglihis (mga kondisyon ng Gauss–Markov) ay dapat matugunan:

1 0 . Inaasahang halaga Ang random deviation ay zero para sa lahat ng mga obserbasyon: .

20 . Ang pagkakaiba ng random deviations ay pare-pareho: .

Ang pagiging posible ng kinakailangang ito ay tinatawag homoscedasticity(constancy ng deviation variance). Ang imposibilidad ng premise na ito ay tinatawag heteroscedasticity(pabagu-bago ng pagkakaiba-iba ng paglihis)

tatlumpu. Random na mga paglihis εi At ε j ay independyente sa isa't isa para sa:

Ang pagiging posible ng kundisyong ito ay tinatawag kawalan ng autocorrelation.

4 0 . Ang random na pagkakaiba-iba ay dapat na independiyente sa mga paliwanag na variable.

Karaniwan, ang kundisyong ito ay awtomatikong nasiyahan kung ang mga paliwanag na variable sa isang ibinigay na modelo ay hindi random. Bilang karagdagan, ang pagiging posible ng kinakailangang ito para sa mga modelong ekonomiko ay hindi kasing kritikal kumpara sa unang tatlo.

Kung ang tinukoy na mga kinakailangan ay natutugunan, kung gayon Ang teorama ni Gauss-Markova: Ang mga pagtatantya (7) at (8) na nakuha gamit ang OLS ay may pinakamaliit na pagkakaiba sa klase ng lahat ng linear na walang pinapanigan na pagtatantya .

Kaya, kung ang mga kondisyon ng Gauss-Markov ay natutugunan, ang mga pagtatantya (7) at (8) ay hindi lamang walang pinapanigan na mga pagtatantya ng mga coefficient ng regression, kundi pati na rin ang pinaka-epektibo, i.e. may pinakamaliit na dispersion kumpara sa anumang iba pang mga pagtatantya ng mga parameter na ito na linear na may paggalang sa mga halaga y i.

Ito ay ang pag-unawa sa kahalagahan ng mga kondisyon ng Gauss-Markov na nagpapakilala sa isang karampatang mananaliksik gamit ang pagsusuri ng regression mula sa isang walang kakayahan. Kung ang mga kundisyong ito ay hindi natutugunan, dapat itong malaman ng mananaliksik. Kung posible ang pagwawasto, dapat itong gawin ng analyst. Kung hindi maitatama ang sitwasyon, dapat masuri ng mananaliksik kung gaano ito kaseryoso sa mga resulta.

Upang mahulaan gamit ang isang regression equation, kailangan mong kalkulahin ang mga regression coefficient at equation. At narito ang isa pang problema na nakakaapekto sa katumpakan ng pagtataya. Ito ay nakasalalay sa katotohanan na kadalasan ay hindi lahat posibleng mga halaga mga variable X at Y, i.e. ang pangkalahatang populasyon ng magkasanib na pamamahagi sa mga problema sa pagtataya ay hindi alam, isang sample lamang mula sa pangkalahatang populasyon na ito ang alam. Bilang isang resulta, kapag ang pagtataya, bilang karagdagan sa random na bahagi, ang isa pang mapagkukunan ng mga error ay lumitaw - mga error na sanhi ng hindi kumpletong pagsusulatan ng sample sa pangkalahatang populasyon at ang mga nagresultang error sa pagtukoy ng mga coefficient ng equation ng regression.

Sa madaling salita, dahil sa katotohanan na ang populasyon ay hindi kilala, eksaktong mga halaga hindi matukoy ang mga coefficient at regression equation. Gamit ang isang sample mula sa hindi kilalang populasyon na ito, maaari lamang makakuha ng mga pagtatantya ng mga tunay na coefficient at.

Upang ang mga pagkakamali sa hula bilang isang resulta ng naturang kapalit ay maging minimal, ang pagtatasa ay dapat isagawa gamit ang isang paraan na ginagarantiyahan ang walang pinapanigan at mahusay na mga halaga na nakuha. Ang pamamaraan ay nagbibigay ng walang pinapanigan na mga pagtatantya kung, kapag inulit ng ilang beses sa mga bagong sample mula sa parehong populasyon, ang kundisyon at nasiyahan. Ang pamamaraan ay nagbibigay ng mga epektibong pagtatantya kung, kapag paulit-ulit nang maraming beses sa mga bagong sample mula sa parehong populasyon, ang pinakamababang dispersion ng mga coefficient a at b ay natiyak, i.e. kundisyon at natutugunan.

Sa probability theory, ang isang theorem ay napatunayan ayon sa kung saan ang kahusayan at walang pinapanigan na mga pagtatantya ng mga coefficient ng linear regression equation batay sa sample na data ay sinisiguro sa pamamagitan ng paglalapat ng least squares method.

Ang kakanyahan ng pamamaraan ng hindi bababa sa mga parisukat ay ang mga sumusunod. Para sa bawat sample point, isang equation ng form ang nakasulat . Pagkatapos ay matatagpuan ang error sa pagitan ng kinakalkula at aktwal na mga halaga. Solusyon ng problema sa pag-optimize ng paghahanap ng mga naturang halaga at nagbibigay ng pinakamababang kabuuan ng mga squared error para sa lahat ng n puntos, i.e. solusyon sa problema sa paghahanap , ay nagbibigay ng walang pinapanigan at mahusay na mga pagtatantya ng mga coefficient at . Para sa kaso ng ipinares na linear regression, ang solusyon na ito ay may anyo:

Dapat pansinin na ang walang pinapanigan at epektibong mga pagtatantya ng mga tunay na halaga ng mga coefficient ng regression para sa pangkalahatang populasyon na nakuha sa ganitong paraan mula sa isang sample ay hindi sa lahat ng garantiya laban sa mga error kapag inilapat nang isang beses. Ang garantiya ay na, bilang resulta ng paulit-ulit na pag-uulit ng operasyong ito sa iba pang mga sample mula sa parehong populasyon, ang isang mas maliit na halaga ng mga error ay ginagarantiyahan kumpara sa anumang iba pang paraan at ang pagkalat ng mga error na ito ay magiging minimal.

Ang nakuha na mga coefficient ng equation ng regression ay tumutukoy sa posisyon ng linya ng regression; ito ang pangunahing axis ng ulap na nabuo ng mga punto ng orihinal na sample. Ang parehong mga coefficient ay may isang tiyak na kahulugan. Ang koepisyent ay nagpapakita ng halaga sa , ngunit sa maraming mga kaso ito ay hindi makatwiran bilang karagdagan, ito ay madalas na hindi rin makatwiran samakatuwid, ang ibinigay na interpretasyon ng koepisyent ay dapat gamitin nang maingat; Ang isang mas unibersal na interpretasyon ng kahulugan ay ang mga sumusunod. Kung , kung gayon ang relatibong pagbabago sa independyenteng variable (pagbabago ng porsyento) ay palaging mas mababa kaysa sa relatibong pagbabago sa dependent variable.

Ipinapakita ng koepisyent kung gaano karaming mga yunit ang mababago ng dependent variable kapag ang independent variable ay nagbago ng isang yunit. Ang coefficient ay madalas na tinatawag na regression coefficient, na nagbibigay-diin na ito ay mas mahalaga kaysa sa . Sa partikular, kung sa halip na ang mga halaga ng umaasa at independiyenteng mga variable ay kukunin natin ang kanilang mga paglihis mula sa kanilang mga average na halaga, kung gayon ang equation ng regression ay binago sa anyo . Sa madaling salita, sa binagong sistema ng coordinate, ang anumang linya ng regression ay dumadaan sa pinanggalingan ng mga coordinate (Larawan 13) at walang koepisyent.

Figure 13. Posisyon ng regression dependence sa binagong coordinate system.

Ang mga parameter ng equation ng regression ay nagsasabi sa amin kung paano nauugnay ang dependent at independent variable sa isa't isa, ngunit huwag sabihin sa amin ang anumang bagay tungkol sa antas ng pagiging malapit ng relasyon, i.e. ipakita ang posisyon ng pangunahing axis ng data cloud, ngunit walang sinasabi tungkol sa antas ng higpit ng koneksyon (gaano kakitid o lapad ang ulap).

Para sa mga teritoryo ng rehiyon, ang data para sa 200X ay ibinigay.

Numero ng rehiyon Average na per capita living wage bawat araw ng isang matipunong tao, rub., x Average na araw-araw na sahod, rub., y
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Pagsasanay:

1. Bumuo ng patlang ng ugnayan at bumalangkas ng hypothesis tungkol sa anyo ng koneksyon.

2. Kalkulahin ang mga parameter ng linear regression equation

4. Gamit ang average (pangkalahatang) elasticity coefficient, magbigay ng comparative assessment ng lakas ng relasyon sa pagitan ng factor at resulta.

7. Kalkulahin ang hinulaang halaga ng resulta kung ang hinulaang halaga ng kadahilanan ay tumaas ng 10% mula sa average na antas nito. Tukuyin ang agwat ng kumpiyansa ng hula para sa antas ng kahalagahan.

Solusyon:

Magdesisyon tayo ang gawaing ito gamit ang Excel.

1. Sa pamamagitan ng paghahambing ng magagamit na data na x at y, halimbawa, pagraranggo sa kanila sa pagtaas ng pagkakasunud-sunod ng salik x, makikita ng isa ang pagkakaroon ng direktang ugnayan sa pagitan ng mga katangian, kapag ang pagtaas sa average na antas ng subsistence ng bawat tao ay nagpapataas ng average na pang-araw-araw. sahod. Batay dito, maaari nating ipagpalagay na ang ugnayan sa pagitan ng mga katangian ay direkta at maaaring ilarawan sa pamamagitan ng isang straight line equation. Ang parehong konklusyon ay nakumpirma batay sa graphical na pagsusuri.

Upang bumuo ng isang field ng ugnayan, maaari mong gamitin ang Excel PPP. Ipasok ang paunang data sa pagkakasunud-sunod: unang x, pagkatapos ay y.

Piliin ang lugar ng mga cell na naglalaman ng data.

Pagkatapos ay piliin ang: Insert / Scatter Plot / Scatter with Marker tulad ng ipinapakita sa Figure 1.

Figure 1 Konstruksyon ng patlang ng ugnayan

Ang pagtatasa ng patlang ng ugnayan ay nagpapakita ng pagkakaroon ng malapit sa rectilinear dependence, dahil ang mga punto ay matatagpuan halos sa isang tuwid na linya.

2. Upang kalkulahin ang mga parameter ng linear regression equation
Gamitin natin ang built-in na statistical function LINEST.

Para dito:

1) Buksan ang isang umiiral na file na naglalaman ng nasuri na data;
2) Pumili ng 5x2 na lugar ng mga walang laman na cell (5 row, 2 column) upang ipakita ang mga resulta ng mga istatistika ng regression.
3) I-activate Function Wizard: sa pangunahing menu piliin Mga Formula / Insert Function.
4) Sa bintana Kategorya kinukuha mo Istatistika, sa window ng function - LINEST. I-click ang button OK tulad ng ipinapakita sa Figure 2;

Figure 2 Function Wizard Dialog Box

5) Punan ang mga argumento ng function:

Mga kilalang halaga para sa

Mga kilalang halaga ng x

pare-pareho - halaga ng boolean, na nagpapahiwatig ng pagkakaroon o kawalan ng isang libreng termino sa equation; kung Constant = 1, kung gayon ang libreng termino ay kinakalkula sa karaniwang paraan, kung Constant = 0, kung gayon ang libreng termino ay 0;

Mga istatistika- isang lohikal na halaga na nagpapahiwatig kung magpapakita ng karagdagang impormasyon sa pagsusuri ng regression o hindi. Kung ang Statistics = 1, kung gayon karagdagang impormasyon ay ipinapakita, kung Statistics = 0, pagkatapos ay mga pagtatantya lamang ng mga parameter ng equation ang ipinapakita.

I-click ang button OK;

Figure 3 LINEST Function Arguments Dialog Box

6) Ang unang elemento ng huling talahanayan ay lilitaw sa itaas na kaliwang cell ng napiling lugar. Upang buksan ang buong talahanayan, pindutin ang pindutan , at pagkatapos ay sa key combination ++ .

Ang mga karagdagang istatistika ng regression ay ilalabas sa pagkakasunud-sunod na ipinapakita sa sumusunod na diagram:

Coefficient value b Coefficient ng isang halaga
Karaniwang pagkakamali b Karaniwang pagkakamali a
Karaniwang error y
F-statistic
Regression sum ng mga parisukat

Figure 4 Resulta ng pagkalkula ng LINEST function

Nakuha namin ang antas ng pagbabalik:

Napagpasyahan namin: Sa pagtaas ng average na antas ng subsistence ng bawat kapita ng 1 kuskusin. ang average na araw-araw na sahod ay tumataas ng average na 0.92 rubles.

Nangangahulugan ng 52% na pagkakaiba-iba sahod(y) ay ipinaliwanag sa pamamagitan ng variation ng factor x - ang average na per capita subsistence level, at 48% - sa pamamagitan ng pagkilos ng ibang mga salik na hindi kasama sa modelo.

Gamit ang kinakalkula na koepisyent ng pagpapasiya, ang koepisyent ng ugnayan ay maaaring kalkulahin: .

Ang koneksyon ay tinasa bilang malapit.

4. Gamit ang average (pangkalahatang) elasticity coefficient, tinutukoy namin ang lakas ng impluwensya ng kadahilanan sa resulta.

Para sa isang straight line equation, tinutukoy namin ang average (kabuuang) elasticity coefficient gamit ang formula:

Mahahanap namin ang mga average na halaga sa pamamagitan ng pagpili ng lugar ng mga cell na may mga halaga ng x at pagpili Mga Formula / AutoSum / Average, at gagawin namin ang parehong sa mga halaga ng y.

Figure 5 Pagkalkula ng mga average na halaga ng function at argumento

Kaya, kung ang average na per capita cost of living ay nagbabago ng 1% mula sa average na halaga nito, ang average na pang-araw-araw na sahod ay magbabago ng average na 0.51%.

Paggamit ng tool sa pagsusuri ng data Regression magagamit:
- mga resulta ng mga istatistika ng regression,
- mga resulta ng pagsusuri ng pagkakaiba-iba,
- mga resulta mga agwat ng kumpiyansa,
- mga residual at regression line fitting graphs,
- mga tira at normal na posibilidad.

Ang pamamaraan ay ang mga sumusunod:

1) suriin ang pag-access sa Pakete ng pagsusuri. Sa pangunahing menu, piliin ang: File/Options/Add-on.

2) Sa dropdown list Kontrol piliin ang item Excel add-in at pindutin ang pindutan Pumunta ka.

3) Sa bintana Mga add-on lagyan ng tsek ang kahon Pakete ng pagsusuri at pagkatapos ay i-click ang pindutan OK.

Kung Pakete ng pagsusuri wala sa listahan ng field Magagamit na mga add-on, pindutin ang pindutan Pagsusuri upang magsagawa ng paghahanap.

Kung nakatanggap ka ng mensahe na nagsasaad na ang package ng pagsusuri ay hindi naka-install sa iyong computer, i-click Oo upang i-install ito.

4) Sa pangunahing menu, piliin ang: Data / Pagsusuri ng Data / Mga Tool sa Pagsusuri / Regression at pagkatapos ay i-click ang pindutan OK.

5) Punan ang dialog box ng data input at output parameters:

Input interval Y- saklaw na naglalaman ng data ng resultang katangian;

Input interval X- saklaw na naglalaman ng data ng katangian ng salik;

Mga tag- isang bandila na nagpapahiwatig kung ang unang linya ay naglalaman ng mga pangalan ng hanay o hindi;

Constant - zero- isang bandila na nagpapahiwatig ng pagkakaroon o kawalan ng isang libreng termino sa equation;

Output interval- sapat na upang ipahiwatig ang itaas na kaliwang cell ng hanay sa hinaharap;

6) Bagong worksheet - maaari mong tukuyin ang isang arbitrary na pangalan para sa bagong sheet.

Pagkatapos ay i-click ang pindutan OK.

Figure 6 Dialog box para sa pagpasok ng mga parameter para sa Regression tool

Ang mga resulta ng pagsusuri ng regression para sa data ng problema ay ipinakita sa Figure 7.

Figure 7 Resulta ng paggamit ng regression tool

5. Suriin natin gamit ang average na error kalidad ng approximation ng mga equation. Gamitin natin ang mga resulta ng pagsusuri ng regression na ipinakita sa Figure 8.

Figure 8 Resulta ng paggamit ng regression tool na "Pag-withdraw ng natitira"

Gumawa tayo ng bagong talahanayan tulad ng ipinapakita sa Figure 9. Sa column C ay kinakalkula natin relatibong pagkakamali pagtatantya ayon sa pormula:

Figure 9 Pagkalkula ng average na error sa approximation

Ang average na error sa approximation ay kinakalkula gamit ang formula:

Ang kalidad ng itinayong modelo ay tinasa bilang mabuti, dahil hindi ito lalampas sa 8 - 10%.

6. Mula sa talahanayan c istatistika ng regression(Figure 4) isinusulat namin ang aktwal na halaga ng F-test ni Fisher:

Dahil ang sa 5% na antas ng kahalagahan, pagkatapos ay maaari nating tapusin na ang equation ng regression ay makabuluhan (napatunayan na ang relasyon).

8. Pagsusuri istatistikal na kahalagahan Magsasagawa kami ng mga parameter ng regression gamit ang t-statistics ng Student at sa pamamagitan ng pagkalkula ng confidence interval ng bawat indicator.

Iniharap namin ang hypothesis H 0 tungkol sa isang hindi gaanong istatistikal na pagkakaiba sa pagitan ng mga tagapagpahiwatig at zero:

.

para sa bilang ng mga antas ng kalayaan

Ang Figure 7 ay may aktwal na t-statistic na mga halaga:

Ang t-test para sa correlation coefficient ay maaaring kalkulahin sa dalawang paraan:

Paraan I:

saan - random na error ng correlation coefficient.

Kukunin namin ang data para sa pagkalkula mula sa talahanayan sa Figure 7.

Paraan II:

Ang aktwal na mga halaga ng t-statistic ay lumampas sa mga halaga ng talahanayan:

Samakatuwid, ang hypothesis H 0 ay tinanggihan, iyon ay, ang mga parameter ng regression at ang koepisyent ng ugnayan ay hindi nag-iiba mula sa zero sa pamamagitan ng pagkakataon, ngunit makabuluhan sa istatistika.

Ang agwat ng kumpiyansa para sa parameter a ay tinukoy bilang

Para sa parameter a, ang 95% na limitasyon tulad ng ipinapakita sa Figure 7 ay:

Ang confidence interval para sa regression coefficient ay tinukoy bilang

Para sa regression coefficient b, ang 95% na limitasyon tulad ng ipinapakita sa Figure 7 ay:

Ang pagsusuri sa itaas at mas mababang mga limitasyon ng mga agwat ng kumpiyansa ay humahantong sa konklusyon na may posibilidad ang mga parameter a at b, na nasa loob ng tinukoy na mga limitasyon, ay hindi kumukuha ng mga zero na halaga, i.e. ay hindi hindi gaanong mahalaga sa istatistika at makabuluhang naiiba sa zero.

7. Ang nakuhang mga pagtatantya ng equation ng regression ay nagpapahintulot na magamit ito para sa pagtataya. Kung ang hinulaang halaga ng pamumuhay ay:

Kung gayon ang hinulaang halaga ng halaga ng pamumuhay ay magiging:

Kinakalkula namin ang error sa pagtataya gamit ang formula:

saan

Kakalkulahin din namin ang pagkakaiba gamit ang Excel PPP. Para dito:

1) I-activate Function Wizard: sa pangunahing menu piliin Mga Formula / Insert Function.

3) Punan ang hanay na naglalaman ng numerical data ng factor na katangian. I-click OK.

Figure 10 Pagkalkula ng pagkakaiba

Nakuha namin ang halaga ng pagkakaiba

Upang kalkulahin ang natitirang pagkakaiba-iba sa bawat antas ng kalayaan, gagamitin namin ang mga resulta ng pagsusuri ng pagkakaiba-iba tulad ng ipinapakita sa Figure 7.

Ang mga agwat ng kumpiyansa para sa paghula ng mga indibidwal na halaga ng y na may posibilidad na 0.95 ay tinutukoy ng expression:

Ang pagitan ay medyo malawak, pangunahin dahil sa maliit na dami ng mga obserbasyon. Sa pangkalahatan, ang forecast para sa average na buwanang suweldo ay naging maaasahan.

Ang pahayag ng problema ay kinuha mula sa: Workshop on Econometrics: Proc. allowance / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko at iba pa; Ed. I.I. Eliseeva. - M.: Pananalapi at Istatistika, 2003. - 192 p.: ill.



Bago sa site

>

Pinaka sikat