Bahay Pulpitis Average na kamag-anak na error ng approximation sa excel. Average na error sa pagtatantya

Average na kamag-anak na error ng approximation sa excel. Average na error sa pagtatantya

gawaing kurso

sa disiplina na "Econometrics"

« Komprehensibong pagsusuri ng ugnayan sa pagitan ng mga tagapagpahiwatig ng pagganap sa pananalapi at pang-ekonomiya ng mga negosyo"

Opsyon Blg. 12

Nakumpleto:

mag-aaral ng pangkat EET-312

Logunov N.Yu.

Sinuri:

Sinabi ni Assoc. Ishkhanyan M.V.

Moscow 2015

Pagbubuo ng problema

1. Compilation ng isang correlation matrix. Pagpili ng mga kadahilanan

2. Konstruksyon ng maramihang equation linear regression. Interpretasyon ng mga parameter ng equation

3. Koepisyent ng determinasyon, maramihang koepisyent mga ugnayan

4.Pagsusuri sa kalidad ng multiple linear regression equation

4.1.Karaniwan kamag-anak na pagkakamali mga pagtatantya

4.2.Suriin istatistikal na kahalagahan mga equation maramihang pagbabalik pangkalahatang gamit ang Fisher's F test

4.3. Pagsusuri sa istatistikal na kahalagahan ng mga parameter ng multiple regression equation. Mga pagtatantya ng parameter ng pagitan

5.Aplikasyon modelo ng regression

5.1.Pagtataya ng punto

5.2 Partial elasticity coefficients at average partial elasticity coefficients

6. Pagsusuri ng mga natitirang modelo ng regression (pagsusuri sa lugar ng Gauss-Markov theorem)

6.1.Mga Rating inaasahan sa matematika mga tira

6.2. Pagsusuri para sa autocorrelation sa mga residual

7. Gregory Chow criterion

Pagbubuo ng problema

Ang mga halaga ng 6 na tagapagpahiwatig na nagpapakilala sa aktibidad ng ekonomiya ng 53 na negosyo ay tinukoy. Kailangan:

1. Gumawa ng correlation matrix. Ayusin ang hanay ng mga independyenteng variable (pumili ng 2 salik).

4.2. Subukan ang istatistikal na kahalagahan ng multiple regression equation sa kabuuan gamit ang Fisher's F test. Gumawa ng mga konklusyon

4.3. Suriin ang istatistikal na kahalagahan ng mga parameter ng multiple regression equation. Bumuo ng mga pagtatantya ng pagitan ng mga parameter. Gumawa ng mga konklusyon.



5. Application ng regression model:

5.1. Gamit ang nabuong equation, magbigay ng point forecast. Hanapin ang halaga ng pinag-aralan na parameter na y, kung ang halaga ng unang kadahilanan (pinaka malapit na nauugnay sa y) ay 110% ng average na halaga nito, ang halaga ng pangalawang kadahilanan ay 80% ng average na halaga nito. Magbigay ng pang-ekonomiyang interpretasyon ng resulta.

5.2. Maghanap ng mga partial elasticity coefficient at average na partial elasticity coefficient. Bigyang-kahulugan ang mga resulta. Gumawa ng mga konklusyon.

6. Suriin ang mga nalalabi ng modelo ng regression (suriin ang mga kinakailangan ng Gauss-Markov theorem):

6.1. Maghanap ng mga pagtatantya ng mathematical na inaasahan ng mga nalalabi.

6.2. Suriin kung may autocorrelation sa mga residual. Gumuhit ng konklusyon.

7. Hatiin ang sample sa dalawang pantay na bahagi. Isinasaalang-alang ang una at huling mga obserbasyon bilang mga independiyenteng sample, subukan ang hypothesis tungkol sa posibilidad na pagsamahin ang mga ito sa isang sample gamit ang Gregory-Chow criterion.

Pag-drawing ng isang correlation matrix. Pagpili ng mga kadahilanan

Enterprise No. Y3 X10 X12 X5 X7 X13
13,26 1,45 167,69 0,78 1,37
10,16 1,3 186,1 0,75 1,49
13,72 1,37 220,45 0,68 1,44
12,85 1,65 169,3 0,7 1,42
10,63 1,91 39,53 0,62 1,35
9,12 1,68 40,41 0,76 1,39
25,83 1,94 102,96 0,73 1,16
23,39 1,89 37,02 0,71 1,27
14,68 1,94 45,74 0,69 1,16
10,05 2,06 40,07 0,73 1,25
13,99 1,96 45,44 0,68 1,13
9,68 1,02 41,08 0,74 1,1
10,03 1,85 136,14 0,66 1,15
9,13 0,88 42,39 0,72 1,23
5,37 0,62 37,39 0,68 1,39
9,86 1,09 101,78 0,77 1,38
12,62 1,6 47,55 0,78 1,35
5,02 1,53 32,61 0,78 1,42
21,18 1,4 103,25 0,81 1,37
25,17 2,22 38,95 0,79 1,41
19,4 1,32 81,32 0,77 1,35
1,48 67,26 0,78 1,48
6,57 0,68 59,92 0,72 1,24
14,19 2,3 107,34 0,79 1,40
15,81 1,37 512,6 0,77 1,45
5,23 1,51 53,81 0,8 1,4
7,99 1,43 80,83 0,71 1,28
17,5 1,82 59,42 0,79 1,33
17,16 2,62 36,96 0,76 1,22
14,54 1,75 91,43 0,78 1,28
6,24 1,54 17,16 0,62 1,47
12,08 2,25 27,29 0,75 1,27
9,49 1,07 184,33 0,71 1,51
9,28 1,44 58,42 0,74 1,46
11,42 1,4 59,4 0,65 1,27
10,31 1,31 49,63 0,66 1,43
8,65 1,12 391,27 0,84 1,5
10,94 1,16 258,62 0,74 1,35
9,87 0,88 75,66 0,75 1,41
6,14 1,07 123,68 0,75 1,47
12,93 1,24 37,21 0,79 1,35
9,78 1,49 53,37 0,72 1,4
13,22 2,03 32,87 0,7 1,2
17,29 1,84 45,63 0,66 1,15
7,11 1,22 48,41 0,69 1,09
22,49 1,72 13,58 0,71 1,26
12,14 1,75 63,99 0,73 1,36
15,25 1,46 104,55 0,65 1,15
31,34 1,6 222,11 0,82 1,87
11,56 1,47 25,76 0,8 1,17
30,14 1,38 29,52 0,83 1,61
19,71 1,41 41,99 0,7 1,34
23,56 1,39 78,11 0,74 1,22

1.Gumawa ng correlation matrix. Ayusin ang hanay ng mga independyenteng variable (pumili ng 2 salik).

Isaalang-alang natin ang resultang palatandaan Y3 at mga katangian ng salik X10, X12, X5, X7, X13 .

Gumawa tayo ng correlation matrix gamit ang opsyon na "Pagsusuri ng Data → Correlation" sa MS Excel:

Y3 X10 X12 X5 X7 X13
Y3 1,0000 0,3653 0,0185 0,2891 0,1736 0,0828
X10 0,3653 1,0000 -0,2198 -0,0166 -0,2061 -0,0627
X12 0,0185 -0,2198 1,0000 0,2392 0,3796 0,6308
X5 0,2891 -0,0166 0,2392 1,0000 0,4147 0,0883
X7 0,1736 -0,2061 0,3796 0,4147 1,0000 0,1939
X13 0,0828 -0,0627 0,6308 0,0883 0,1939 1,0000

Pumili kami ng 2 salik ayon sa pamantayan:

1) ang koneksyon sa pagitan ng Y at X ay dapat na maximum

2) ang koneksyon sa pagitan ng Xmi ay dapat na minimal

Kaya, sa mga sumusunod na talata, ang gawain ay gagawin sa mga kadahilanan X10 , X5.

Pagbuo ng multiple linear regression equation. Interpretasyon ng mga parameter ng equation.

2. Bumuo ng multiple linear regression equation. Magbigay ng interpretasyon ng mga parameter ng equation.

Gumawa tayo ng modelo ng regression gamit ang analysis package na “Data Analysis→Regression” sa MS Excel:

Logro
Y -20,7163
X 10 5,7169
X 5 34,9321

Magiging ganito ang regression equation:

ŷ = b 0 + b 10 * x 10 + b 5 * x 5

ŷ = -20.7163-5.7169* x 10 +34.9321* x 5

1) positibo ang b10;

2) positibo ang b5;

Coefficient of determination, multiple correlation coefficient

3. Hanapin ang coefficient of determination, multiple correlation coefficient. Gumawa ng mga konklusyon.

Sa pagsusuri ng regression na isinagawa gamit ang package ng pagsusuri na "Pagsusuri ng Data → Regression" sa MS Excel, nakita namin ang talahanayan na "Mga istatistika ng regression":

Ang maramihang R-koneksyon sa pagitan ng Y3 at X10,X5 ay mahina

R-squared - 22.05% ng variation sa trait Y ay ipinaliwanag ng variation sa traits X10 at X5

Pagtatasa sa kalidad ng isang multiple linear regression equation

4. Tayahin ang kalidad ng multiple linear regression equation:

Average na kamag-anak na error ng approximation

4.1. Hanapin ang average na relatibong error sa pagtatantya. Gumawa ng mga konklusyon.

Kalkulahin natin ang mga hinulaang halaga para sa bawat obserbasyon o gamitin ang column na "Nahulaang Y" sa talahanayang "Residual Output" sa pagsusuri ng regression na isinagawa gamit ang package ng pagsusuri na "Pagsusuri ng Data→ Pagbabalik" sa MS Excel)

Kalkulahin natin ang mga kamag-anak na error para sa bawat pagmamasid gamit ang formula:

Kalkulahin natin ang average na error sa pagtatantya gamit ang formula:

Konklusyon: 20% < А < 50%, качество уравнения среднее (удовлетворительное).

Ang error sa pagtatantya ay isa sa mga madalas na umuusbong na isyu kapag nag-aaplay ng ilang partikular na paraan ng pagtatantya ng source data. Mayroong iba't ibang uri ng mga error sa pagtatantya:

Mga error na nauugnay sa mga error sa source data;

Mga error na nauugnay sa pagkakaiba sa pagitan ng tinatayang modelo at ng istraktura ng tinatayang data.

Ang Excel ay may mahusay na binuo Linear function para sa pagproseso ng data at mga pagtatantya na gumagamit ng sopistikadong matematika. Upang magkaroon ng ideya tungkol dito, lumiko tayo (sa pamamagitan ng F1) sa naglalarawang bahagi ng pag-unlad na ito, na ipinakita namin na may mga pagdadaglat at ilang pagbabago sa notasyon.

Kinakalkula ang mga istatistika para sa isang serye gamit ang pamamaraan hindi bababa sa mga parisukat upang kalkulahin ang tuwid na linya na pinakaangkop sa magagamit na data. Ang function ay nagbabalik ng array na naglalarawan sa resultang linya. Dahil ang isang array ng mga halaga ay ibinalik, ang function ay dapat na tinukoy bilang isang array formula.

Ang equation para sa isang tuwid na linya ay:

y=a+b1*x1+b2*x2+...bn*xn

Syntax:

LINEST(y;x;const;statistics)

Array y - kilalang halaga y.

Array x - kilalang mga halaga ng x. Ang x array ay maaaring maglaman ng isa o higit pang set ng mga variable.

Si Const ay halaga ng boolean, na tumutukoy kung ang dummy term a ay kinakailangan na katumbas ng 0.

Kung ang const argument ay TRUE, 1, o tinanggal, ang a ay sinusuri gaya ng dati. Kung ang const argument ay FALSE o 0, ang a ay nakatakda sa 0.

Ang mga istatistika ay isang Boolean na halaga na nagsasaad kung dapat ibalik ang mga karagdagang istatistika ng regression. Kung TRUE o 1 ang mga istatistika, magbabalik ang LINEST ng karagdagang istatistika ng regression. Kung ang mga istatistika ay FALSE, 0, o tinanggal, ang LINEST ay nagbabalik lamang ng mga coefficient at ang intercept.

Mga karagdagang istatistika ng regression:

se1,se2,...,sen - karaniwang mga halaga ng error para sa mga coefficient b1,b2,...,bn.

dagat - karaniwang halaga ng error para sa constant a (sea = #N/A kung ang const ay FALSE).

Ang r2 ay ang koepisyent ng determinismo. Ang aktwal na mga halaga ng y at ang mga halaga na nakuha mula sa equation ng linya ay inihambing; Batay sa mga resulta ng paghahambing, ang koepisyent ng determinismo ay kinakalkula, na-normalize mula 0 hanggang 1. Kung ito ay katumbas ng 1, pagkatapos ay mayroong isang kumpletong ugnayan sa modelo, i.e. walang pagkakaiba sa pagitan ng aktwal at tinantyang halaga ng y. Sa kabaligtaran ng kaso, kung ang koepisyent ng pagpapasiya ay 0, ang equation ng regression ay hindi matagumpay sa paghula ng mga halaga ng y. Para sa impormasyon tungkol sa kung paano kinakalkula ang r2, tingnan ang "Mga Tala" sa dulo ng seksyong ito.

Ang sey ay ang karaniwang error para sa pagtatantya ng y.

F-statistic, o F-observed value. Ang F-statistic ay ginagamit upang matukoy kung ang naobserbahang relasyon sa pagitan ng dependent at independent variable ay dahil sa pagkakataon o hindi.

df - antas ng kalayaan. Ang mga antas ng kalayaan ay kapaki-pakinabang para sa paghahanap ng mga F-kritikal na halaga sa isang talahanayan ng istatistika. Upang matukoy ang antas ng kumpiyansa ng modelo, ihambing mo ang mga halaga sa talahanayan sa F-statistic na ibinalik ng LINEST function.

Ang ssreg ay ang regression sum ng mga parisukat.

Ang ssresid ay ang natitirang kabuuan ng mga parisukat.

Ipinapakita ng figure sa ibaba ang pagkakasunud-sunod kung saan ibinabalik ang mga karagdagang istatistika ng regression.

Mga Tala

Ang napiling impormasyon mula sa function ay maaaring makuha sa pamamagitan ng INDEX function, halimbawa:

Y-intercept (libreng termino):

INDEX(LINEST(y,x),2)

Ang katumpakan ng approximation gamit ang tuwid na linya na kinakalkula ng LINEST function ay depende sa antas ng scatter ng data. Kung mas malapit ang data sa isang tuwid na linya, mas tumpak ang modelong ginagamit ng LINEST function. Gumagamit ang LINEST function na hindi bababa sa mga parisukat upang matukoy ang pinakamahusay na akma sa data.

Sa pamamagitan ng pagsasagawa ng regression analysis, Microsoft Excel kinakalkula para sa bawat punto ang parisukat ng pagkakaiba sa pagitan ng hinulaang y value at ang aktwal na y value. Ang kabuuan ng mga parisukat na pagkakaiba na ito ay tinatawag na natitirang kabuuan ng mga parisukat. Pagkatapos ay kinakalkula ng Microsoft Excel ang kabuuan ng mga parisukat ng mga pagkakaiba sa pagitan ng aktwal na mga halaga ng y at ang mean na halaga ng y, na tinatawag na kabuuang kabuuan ng mga parisukat (regression sum ng mga parisukat + natitirang kabuuan ng mga parisukat). Ang mas maliit ang natitirang kabuuan ng mga parisukat kumpara sa kabuuang kabuuan ng mga parisukat, mas malaki ang koepisyent ng determinasyon r2, na sumusukat kung gaano kahusay ang regression equation ay nagpapaliwanag ng mga ugnayan sa pagitan ng mga variable.

Tandaan na ang mga halaga ng y na hinulaan ng equation ng regression ay maaaring hindi tama kung ang mga ito ay nasa labas ng saklaw ng mga halaga ng y na ginamit upang tukuyin ang equation.

Halimbawa 1 Slope at Y-intercept

LINEST((1;9;5;7);(0;4;2;3)) ay katumbas ng (2;1), slope = 2 at y-intercept = 1.

Gamit ang F at R2 Statistics

Maaari mong gamitin ang istatistika ng F upang matukoy kung ang isang resulta na may mataas na halaga ng r2 ay dahil sa pagkakataon. Kung ang F-observed ay mas malaki kaysa sa F-kritikal, kung gayon mayroong isang relasyon sa pagitan ng mga variable. Ang F-kritikal ay maaaring makuha mula sa talahanayan ng mga F-kritikal na halaga sa anumang reference na libro sa mga istatistika ng matematika. Upang mahanap ang value na ito gamit ang isang one-tailed test, itakda ang value ng Alpha (ang value ng Alpha ay ginagamit upang ipahiwatig ang posibilidad ng maling paghihinuha na mayroong isang malakas na relasyon) na katumbas ng 0.05, at para sa bilang ng mga antas ng kalayaan ( karaniwang tinutukoy ang v1 at v2), ilagay natin ang v1 = k = 4 at v2 = n - (k + 1) = 11 - (4 + 1) = 6, kung saan ang k ay ang bilang ng mga variable at n ang bilang ng mga puntos ng data . Mula sa reference table, ang F-critical ay 4.53. Ang naobserbahang F-value ay 459.753674 (nakuha ang value na ito sa halimbawang tinanggal namin), na kapansin-pansing mas malaki kaysa sa F-critical value na 4.53. Samakatuwid, ang resultang regression equation ay kapaki-pakinabang para sa paghula ng nais na resulta.

Average na error sa pagtatantya- average na paglihis ng mga kinakalkula na halaga mula sa mga aktwal:

Kung saan ang y x ay ang kinakalkula na halaga mula sa Eq.

Ang average na error sa pagtatantya na hanggang 15% ay nagpapahiwatig ng isang mahusay na fitted na modelo ng equation.

Para sa pitong teritoryo ng rehiyon ng Ural para sa 199X, ang mga halaga ng dalawang katangian ay kilala.

Kailangan:
1. Upang makilala ang dependence ng y sa x, kalkulahin ang mga parameter ng mga sumusunod na function:
a) linear;
b) kapangyarihan;
c) nagpapakita;
d) isang equilateral hyperbola (kailangan mo ring malaman kung paano i-pre-linearize ang modelong ito).
2. Suriin ang bawat modelo sa pamamagitan ng average na error sa pagtatantya Isang cf at Fisher's F-test.

Isinasagawa namin ang solusyon gamit ang online na calculator Linear regression equation.
a) linear regression equation;
Gamit ang graphical na pamamaraan.
Ang pamamaraang ito ay ginagamit upang biswal na ilarawan ang anyo ng koneksyon sa pagitan ng pinag-aralan na mga tagapagpahiwatig ng ekonomiya. Upang gawin ito, ang isang graph ay iginuhit sa isang hugis-parihaba na sistema ng coordinate, ang mga indibidwal na halaga ng nagreresultang katangian Y ay naka-plot kasama ang ordinate axis, at ang mga indibidwal na halaga ng factor na katangian X ay naka-plot kasama ang abscissa axis.
Tinatawag ang hanay ng mga puntos ng resultang at mga katangian ng salik larangan ng ugnayan.


Batay sa larangan ng ugnayan, maaaring maglagay ng hypothesis (para sa populasyon) na ang ugnayan sa pagitan ng lahat ng posibleng halaga ng X at Y ay linear.
Ang linear regression equation ay y = bx + a + ε
Narito ang ε ay isang random na error (paglihis, kaguluhan).
Mga dahilan para sa pagkakaroon ng isang random na error:
1. Pagkabigong isama ang mga makabuluhang variable na nagpapaliwanag sa modelo ng regression;
2. Pagsasama-sama ng mga variable. Halimbawa, ang kabuuang function ng pagkonsumo ay isang pagtatangka pangkalahatang pagpapahayag pinagsama-samang mga desisyon sa paggastos ng indibidwal. Ito ay pagtatantya lamang ng mga indibidwal na relasyon na may iba't ibang mga parameter.
3. Maling paglalarawan ng istraktura ng modelo;
4. Maling functional na detalye;
5. Mga error sa pagsukat.
Dahil ang mga deviations ε i para sa bawat tiyak na obserbasyon i ay random at ang kanilang mga halaga sa sample ay hindi alam, kung gayon:
1) mula sa mga obserbasyon x i at y i mga pagtatantya lamang ng mga parameter na α at β ang maaaring makuha
2) Ang mga pagtatantya ng mga parameter α at β ng regression model ay ang mga halaga a at b, ayon sa pagkakabanggit, na random sa kalikasan, dahil tumutugma sa isang random na sample;
Pagkatapos ang equation ng pagtatantya ng regression (na binuo mula sa sample na data) ay magkakaroon ng form na y = bx + a + ε, kung saan ang e i ay ang mga naobserbahang halaga (mga pagtatantya) ng mga error ε i , at ang a at b ay, ayon sa pagkakabanggit, mga pagtatantya ng ang mga parameter α at β ng regression model na dapat matagpuan.
Upang matantya ang mga parameter na α at β - ang paraan ng least squares (least squares method) ay ginagamit.




Nakukuha namin ang b = -0.35, a = 76.88
Regression equation:
y = -0.35 x + 76.88

x y x 2 y 2 x y y(x) (y i -y cp) 2 (y-y(x)) 2 |y - y x |:y
45,1 68,8 2034,01 4733,44 3102,88 61,28 119,12 56,61 0,1094
59 61,2 3481 3745,44 3610,8 56,47 10,98 22,4 0,0773
57,2 59,9 3271,84 3588,01 3426,28 57,09 4,06 7,9 0,0469
61,8 56,7 3819,24 3214,89 3504,06 55,5 1,41 1,44 0,0212
58,8 55 3457,44 3025 3234 56,54 8,33 2,36 0,0279
47,2 54,3 2227,84 2948,49 2562,96 60,55 12,86 39,05 0,1151
55,2 49,3 3047,04 2430,49 2721,36 57,78 73,71 71,94 0,172
384,3 405,2 21338,41 23685,76 22162,34 405,2 230,47 201,71 0,5699

Tandaan: ang mga halaga ng y(x) ay matatagpuan mula sa resultang regression equation:
y(45.1) = -0.35*45.1 + 76.88 = 61.28
y(59) = -0.35*59 + 76.88 = 56.47
... ... ...

Error sa pagtatantya
Suriin natin ang kalidad ng equation ng regression gamit ang error ng absolute approximation. Average na error sa pagtatantya- average na paglihis ng mga kinakalkula na halaga mula sa mga aktwal:

Dahil ang error ay mas mababa sa 15%, ang equation na ito ay maaaring gamitin bilang regression.

F-mga istatistika. Pamantayan ng Fisher.










3. Halaga ng talahanayan tinutukoy mula sa mga talahanayan ng pamamahagi ng Fisher para sa isang partikular na antas ng kahalagahan, na isinasaalang-alang na ang bilang ng mga antas ng kalayaan para sa kabuuang halaga ang mga parisukat (mas malaking pagkakaiba) ay 1 at ang bilang ng mga antas ng kalayaan ng natitirang kabuuan ng mga parisukat (mas maliit na pagkakaiba) sa linear regression ay n-2.
4. Kung ang aktwal na halaga ng F-test ay mas mababa kaysa sa halaga ng talahanayan, pagkatapos ay sinasabi nila na walang dahilan upang tanggihan ang null hypothesis.
Kung hindi, ang null hypothesis ay tinanggihan at ang alternatibong hypothesis tungkol sa istatistikal na kahalagahan ng equation sa kabuuan ay tinatanggap na may posibilidad (1-α).

< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

b) pagbabalik ng kapangyarihan;
Ang solusyon ay isinasagawa gamit ang serbisyong Nonlinear Regression. Kapag pumipili, tukuyin ang Power y = ax b
c) exponential regression;
d) modelo ng isang equilateral hyperbola.
Sistema ng mga normal na equation.

Para sa aming data, ang sistema ng mga equation ay may anyo
7a + 0.1291b = 405.2
0.1291a + 0.0024b = 7.51
Mula sa unang equation ay ipinapahayag namin ang isang at pinapalitan ito sa pangalawang equation
Nakukuha namin ang b = 1054.67, a = 38.44
Regression equation:
y = 1054.67 / x + 38.44
Error sa pagtatantya.
Suriin natin ang kalidad ng equation ng regression gamit ang error ng absolute approximation.

Dahil ang error ay mas mababa sa 15%, ang equation na ito ay maaaring gamitin bilang regression.

Pamantayan ng Fisher.
Ang pagsubok sa kahalagahan ng isang modelo ng regression ay isinasagawa gamit ang Fisher's F test, ang kinakalkula na halaga ay makikita bilang ratio ng pagkakaiba ng orihinal na serye ng mga obserbasyon ng indicator na pinag-aaralan at ang walang pinapanigan na pagtatantya ng pagkakaiba ng natitirang sequence. para sa modelong ito.
Kung ang kinakalkula na halaga na may k1=(m) at k2=(n-m-1) na antas ng kalayaan ay mas malaki kaysa sa naka-tabulate na halaga sa isang partikular na antas ng kahalagahan, kung gayon ang modelo ay itinuturing na makabuluhan.

kung saan ang m ay ang bilang ng mga kadahilanan sa modelo.
Ang istatistikal na kahalagahan ng ipinares na linear regression ay tinasa gamit ang sumusunod na algorithm:
1. Isang null hypothesis ang iniharap na ang equation sa kabuuan ay hindi gaanong mahalaga sa istatistika: H 0: R 2 =0 sa antas ng kahalagahan α.
2. Susunod, tukuyin ang aktwal na halaga ng F-criterion:

kung saan m=1 para sa pairwise regression.
Table value ng criterion na may degree of freedom k1=1 at k2=5, Fkp = 6.61
Dahil ang aktwal na halaga ng F< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

5. Gamit ang F-test, napagtibay na ang resultang paired regression equation sa kabuuan ay hindi gaanong mahalaga sa istatistika at hindi sapat na naglalarawan sa pinag-aralan na phenomenon ng kaugnayan sa pagitan ng buwanang halaga ng pensiyon y at ang halaga ng pamumuhay x.

6. Isang econometric multiple linear regression model ang nabuo, na nag-uugnay sa halaga ng netong kita ng isang conditional firm y sa capital turnover x1 at capital na ginamit x2

7. Sa pamamagitan ng pagkalkula ng elasticity coefficients, ipinapakita na kapag ang capital turnover ay nagbago ng 1%, ang halaga ng netong kita ng kumpanya ay nagbabago ng 0.0008%, at kapag ang kapital na ginamit ay nagbago ng 1%, ang halaga ng netong kita ng kumpanya nagbabago ng 0.56%.

8. Gamit ang t-test, nasuri ang statistical significance ng regression coefficients.Napag-alaman na ang explanatory variable x 1 ay hindi gaanong mahalaga sa istatistika at maaaring hindi kasama sa regression equation, habang ang explanatory variable x 2 ay makabuluhang istatistika.

9. Gamit ang F-test, itinatag na ang resultang paired regression equation sa kabuuan ay makabuluhan sa istatistika, at sapat na naglalarawan sa pinag-aralan na phenomenon ng ugnayan sa pagitan ng netong kita ng isang conditional firm y at capital turnover x 1 at capital na ginamit. x 2.

10. Ang average na error ng approximation ng statistical data sa pamamagitan ng isang linear multiple regression equation ay kinakalkula, na umabot sa 29.8%. Ito ay ipinapakita dahil sa kung aling obserbasyon sa statistical database ang laki ng error na ito ay lumampas sa pinahihintulutang halaga.

14. Pagbuo ng isang paired regression model nang hindi gumagamit ng EXCEL.

Gamit ang istatistikal na materyal na ibinigay sa Talahanayan 3.5, kinakailangan na:

2. Tayahin ang lapit ng koneksyon gamit ang mga indicator ng ugnayan at determinasyon.

3. Gamit ang koepisyent ng elasticity, tukuyin ang antas ng koneksyon sa pagitan ng katangian ng salik at ang resulta.

4. Tukuyin ang average na error sa pagtatantya.

5. Tayahin ang istatistikal na pagiging maaasahan ng pagmomodelo gamit ang Fisher's F-test.

Talahanayan 3.5. Paunang data.

Bahagi ng kita sa cash na naglalayong dagdagan ang mga pagtitipid sa mga deposito, pautang, sertipiko at para sa pagbili ng dayuhang pera, sa kabuuang halaga ng average na per capita cash income, %

Average na buwanang naipon na sahod, c.u.

Kaluzhskaya

Kostromskaya

Orlovskaya

Ryazan

Smolenskaya

Upang matukoy ang hindi kilalang mga parameter b 0 , b 1 ng ipinares na linear regression equation, ginagamit namin ang karaniwang sistema ng mga normal na equation, na may anyo

(3.7)

Upang malutas ang sistemang ito, kailangan munang matukoy ang mga halaga ng Sx 2 at Sxy. Ang mga halagang ito ay tinutukoy mula sa source data table, na dinadagdagan ito ng naaangkop na mga column (Talahanayan 3.6).

Talahanayan 3.6. Patungo sa pagkalkula ng mga coefficient ng regression.

Pagkatapos ay kinuha ng system (3.7) ang form

Ang pagpapahayag ng b 0 mula sa unang equation at pagpapalit ng resultang expression sa pangalawang equation ay nakukuha natin:

Ang pagsasagawa ng term-by-term multiplication at pagbubukas ng mga bracket, makakakuha tayo ng:

Sa wakas, ang ipinares na linear regression equation na nagkokonekta sa halaga ng bahagi ng cash na kita ng populasyon na naglalayong pataasin ang mga ipon y na may average na buwanang naipon na sahod x ay may anyo:

Kaya, habang ang equation ng ipinares na linear regression ay itinayo, tinutukoy namin ang linear correlation coefficient ayon sa dependence:

nasaan ang mga halaga ng mga karaniwang paglihis ng kaukulang mga parameter.

Upang kalkulahin ang linear correlation coefficient mula sa pagtitiwala (3.9), nagsasagawa kami ng mga intermediate na kalkulasyon.

Ang pagpapalit ng mga halaga ng mga nahanap na parameter sa expression (3.9) ay nakuha namin

.

Ang nakuhang halaga ng linear correlation coefficient ay nagpapahiwatig ng pagkakaroon ng mahinang kabaligtaran na istatistikal na relasyon sa pagitan ng bahagi ng kita ng cash ng populasyon na naglalayong pataasin ang mga ipon y at ang halaga ng average na buwanang naipon na sahod x.

Ang koepisyent ng determinasyon ay , na nangangahulugan na 9.6% lamang ang ipinaliwanag sa pamamagitan ng pagbabalik ng paliwanag na variable x sa y. Alinsunod dito, ang halaga 1 na katumbas ng 90.4% ay nagpapakilala sa bahagi ng pagkakaiba ng variable na y sanhi ng impluwensya ng lahat ng iba pang mga variable na nagpapaliwanag na hindi isinasaalang-alang sa modelong pang-ekonomiya.

Ang koepisyent ng pagkalastiko ay

Dahil dito, kapag ang average na buwanang naipon na sahod ay nagbago ng 1%, ang bahagi ng cash na kita ng populasyon na naglalayong dagdagan ang mga ipon ay bumababa din ng 1%, at sa pagtaas ng sahod, mayroong pagbaba sa bahagi ng cash na kita ng populasyon na naglalayong pataasin ang ipon. Ang konklusyong ito ay sumasalungat sa sentido komun at maaari lamang ipaliwanag sa pamamagitan ng kamalian ng nabuong mathematical model.

Kalkulahin natin ang average na error sa pagtatantya.

Talahanayan 3.7. Patungo sa pagkalkula ng average na error sa pagtatantya.

Ang nakuha na halaga ay lumampas sa (12...15)%, na nagpapahiwatig ng kahalagahan ng average na paglihis ng kinakalkula na data mula sa aktwal na data kung saan itinayo ang econometric model.

Ang pagiging maaasahan ng statistical modeling ay isasagawa batay sa Fisher's F-test. Ang teoretikal na halaga ng Fisher criterion F calc ay natutukoy mula sa ratio ng mga halaga ng kadahilanan at mga natitirang dispersion na kinakalkula para sa isang antas ng kalayaan ayon sa formula

kung saan ang n ay ang bilang ng mga obserbasyon;

m ay ang bilang ng mga paliwanag na variable (para sa halimbawang isinasaalang-alang m m =1).

Ang kritikal na halaga F crit ay tinutukoy mula sa mga istatistikal na talahanayan at para sa antas ng kahalagahan a = 0.05 ay katumbas ng 10.13. Dahil kinakalkula ang F

15. Pagbuo ng multiple regression model nang hindi gumagamit ng EXCEL.

Gamit ang istatistikal na materyal na ibinigay sa Talahanayan 3.8 kailangan mong:

1. Bumuo ng isang linear na multiple regression equation at ipaliwanag ang pang-ekonomiyang kahulugan ng mga parameter nito.

2. Magbigay ng isang paghahambing na pagtatasa ng lapit ng ugnayan sa pagitan ng mga salik at ang nagresultang katangian gamit ang average (pangkalahatang) elasticity coefficients.

3. Tayahin ang statistical significance ng regression coefficients gamit ang t-test at ang null hypothesis tungkol sa non-significance ng equation gamit ang F-test.

4. Tayahin ang kalidad ng equation sa pamamagitan ng pagtukoy sa average na error ng approximation.

Talahanayan 3.8. Paunang data.

Netong kita, milyong US dollars

Paglipat ng kapital milyon-milyong US dollars

Nagamit ang kapital, milyon US dollars

Upang matukoy ang hindi kilalang mga parameter b 0 , b 1 , b 2 ng multiple linear regression equation, ginagamit namin ang karaniwang sistema ng mga normal na equation, na may anyo

(3.11)

Upang malutas ang sistemang ito, kailangan munang matukoy ang mga halaga ng Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2. Ang mga halagang ito ay tinutukoy mula sa source data table, na dinadagdagan ito ng naaangkop na mga column (Talahanayan 3.9).

Talahanayan 3.9. Patungo sa pagkalkula ng mga coefficient ng regression.

Pagkatapos ay kinuha ng system (3.11) ang form

Upang malutas ang sistemang ito, gagamitin namin ang Gauss method, na binubuo ng sunud-sunod na pag-aalis ng mga hindi alam: hatiin ang unang equation ng system sa 10, pagkatapos ay i-multiply ang resultang equation sa 370.6 at ibawas ito mula sa pangalawang equation ng system, pagkatapos ay i-multiply ang nagresultang equation ng 158.20 at ibawas ito sa ikatlong equation ng system. Ang pag-uulit ng tinukoy na algorithm para sa binagong pangalawa at pangatlong equation ng system, makuha namin ang:

Þ Þ

Þ .

Pagkatapos ng pagbabagong-anyo mayroon kaming:

Pagkatapos ang huling pag-asa ng netong kita sa paglilipat ng kapital at kapital na ginamit ay nasa anyo linear equation ang multiple regression ay may anyo:

Mula sa nagresultang equation ng econometric makikita na sa pagtaas ng kapital na ginamit, tumataas ang netong kita at, sa kabaligtaran, sa pagtaas ng paglilipat ng kapital, bumababa ang netong kita. Sa karagdagan, ang mas malaki ang regression coefficient, mas malaki ang impluwensya ng explanatory variable sa dependent variable. Sa halimbawang isinasaalang-alang, ang halaga ng regression coefficient ay mas malaki kaysa sa halaga ng coefficient, samakatuwid, ang kapital na ginamit ay may mas malaking epekto sa netong kita kaysa sa capital turnover. Upang mabilang ang konklusyong ito, tutukuyin natin ang mga partial elasticity coefficient.

Ang pagsusuri sa mga resulta ay nagpapakita rin na ang kapital na ginamit ay may mas malaking epekto sa netong kita. Kaya, sa partikular, sa pagtaas ng kapital na ginagamit ng 1%, ang netong kita ay tumaas ng 1.17%. Kasabay nito, sa pagtaas ng capital turnover ng 1%, ang netong kita ay bumaba ng 0.5%.

Teoretikal na halaga ng Fisher criterion F calc.

Ang halaga ng kritikal na halaga F crit ay tinutukoy mula sa mga istatistikal na talahanayan at para sa antas ng kahalagahan ng a = 0.05 ay katumbas ng 4.74. Dahil ang F calc > F crit, ang null hypothesis ay tinanggihan at ang resultang regression equation ay tinatanggap bilang istatistikal na makabuluhan.

Ang pagtatasa ng istatistikal na kahalagahan ng mga coefficient ng regression at ang t-criterion ay bumaba sa paghahambing ng numerical na halaga ng mga coefficient na ito sa laki ng kanilang mga random na error at ayon sa relasyon:

Ang gumaganang formula para sa pagkalkula ng teoretikal na halaga ng t-statistics ay:

, (3.13)

kung saan ang mga coefficient ng ugnayan ng pares at ang koepisyent ng maramihang ugnayan ay kinakalkula mula sa mga dependency:

Pagkatapos ang teoretikal (kinakalkula) na mga halaga ng t-statistics ay ayon sa pagkakabanggit ay katumbas ng:

Dahil ang kritikal na halaga ng t-statistics, na tinutukoy mula sa mga istatistikal na talahanayan para sa antas ng kahalagahan a = 0.05 katumbas ng t crit = 2.36, ay mas malaki sa absolute value kaysa = - 1.798, kung gayon ang null hypothesis ay hindi tinatanggihan at ang paliwanag na variable x 1 ay hindi gaanong mahalaga sa istatistika at maaari itong ibukod sa equation ng regression. Sa kabaligtaran, para sa pangalawang regression coefficient > t crit (3.3 > 2.36), at ang paliwanag na variable x 2 ay istatistikal na makabuluhan.

Kalkulahin natin ang average na error sa pagtatantya.

Talahanayan 3.10. Patungo sa pagkalkula ng average na error sa pagtatantya.

Kung gayon ang average na error sa pagtatantya ay

Ang nakuhang halaga ay hindi lalampas sa pinahihintulutang limitasyon na katumbas ng (12…15)%.

16. Kasaysayan ng pag-unlad ng teorya ng pagsukat

Ang TI ay unang binuo bilang isang teorya ng psychophysical measurements. Sa mga publikasyon pagkatapos ng digmaan, ang American psychologist na si S.S. Nakatuon si Stevens sa mga sukat ng pagsukat. Sa ikalawang kalahati ng ika-20 siglo. Ang saklaw ng aplikasyon ng TI ay mabilis na lumalawak. Ang isa sa mga volume ng "Encyclopedia of Psychological Sciences" na inilathala sa USA noong 50s ay tinawag na "Psychological Measurements". Pinalawak ng mga may-akda ng publikasyong ito ang saklaw ng TI mula sa psychophysics hanggang sa sikolohiya sa pangkalahatan. Sa artikulo sa koleksyong ito, "Mga Pundamental ng Teorya ng Pagsukat," ang presentasyon ay nasa abstract na antas ng matematika, nang walang pagtukoy sa anumang partikular na larangan ng aplikasyon. Sa loob nito, ang diin ay inilagay sa "homomorphism ng mga empirical system na may mga relasyon sa mga numero" (hindi na kailangang pumunta sa mga terminong ito sa matematika dito), at ang pagiging kumplikado ng matematika ng pagtatanghal ay tumaas kumpara sa mga gawa ng S.S. Stevens.

Sa isa sa mga unang domestic na artikulo sa TI (late 60s), itinatag na ang mga puntos na itinalaga ng mga eksperto kapag tinatasa ang mga bagay ng pagsusuri ay, bilang panuntunan, sinusukat sa isang ordinal na sukat. Ang mga gawa na lumitaw noong unang bahagi ng 70s ay humantong sa isang makabuluhang pagpapalawak ng saklaw ng paggamit ng TI. Ito ay inilapat sa pedagogical qualimetry (pagsusukat sa kalidad ng kaalaman ng mga mag-aaral), sa system research, at sa iba't ibang teoretikal na problema mga pagtatasa ng eksperto, para sa pagsasama-sama ng mga tagapagpahiwatig ng kalidad ng produkto, sa mga sosyolohikal na pag-aaral, atbp.

Bilang dalawang pangunahing problema ng TI, kasama ang pagtatatag ng uri ng sukat para sa pagsukat ng partikular na data, isang paghahanap para sa mga algorithm ng pagsusuri ng data ay iniharap, ang resulta nito ay hindi nagbabago sa anumang katanggap-tanggap na pagbabago ng sukat (ibig sabihin, ay invariant na may paggalang sa pagbabagong ito). Ang mga ordinal na kaliskis sa heograpiya ay ang Beaufort scale winds (“kalma”, “light wind”, “moderate wind”, atbp.), earthquake strength scale. Malinaw, hindi masasabi na ang isang magnitude 2 na lindol (isang lampara na umindayog sa ilalim ng kisame) ay eksaktong 5 beses na mas mahina kaysa sa isang magnitude 10 na lindol (ganap na pagkasira ng lahat ng bagay sa ibabaw ng lupa).

Sa gamot, ang mga ordinal na kaliskis ay ang sukat ng mga yugto ng hypertension (ayon kay Myasnikov), ang sukat ng mga antas ng pagkabigo sa puso (ayon sa Strazhesko-Vasilenko-Lang), ang sukat ng kalubhaan ng kakulangan sa coronary (ayon kay Fogelson), atbp . Ang lahat ng mga kaliskis na ito ay binuo ayon sa sumusunod na pamamaraan: walang nakitang sakit; unang yugto ng sakit; pangalawang yugto; ikatlong yugto... Minsan ang mga yugto 1a, 16, atbp. ay nakikilala. Ang bawat yugto ay may katangiang medikal na natatangi dito. Kapag naglalarawan ng mga pangkat ng kapansanan, ang mga numero ay ginagamit sa kabaligtaran na pagkakasunud-sunod: ang pinakamalubha ay ang unang pangkat ng kapansanan, pagkatapos ang pangalawa, ang pinakamagaan ay ang pangatlo.

Ang mga numero ng bahay ay sinusukat din sa isang ordinal na sukat - ipinapakita nila sa kung anong pagkakasunud-sunod ang mga bahay sa kahabaan ng kalye. Ang mga numero ng volume sa mga nakolektang gawa ng isang manunulat o mga numero ng kaso sa isang archive ng enterprise ay karaniwang nauugnay sa magkakasunod na pagkakasunud-sunod ng kanilang paglikha.

Kapag tinatasa ang kalidad ng mga produkto at serbisyo, ang mga ordinal na kaliskis ay sikat sa tinatawag na qualimetry (literal na pagsasalin - pagsukat ng kalidad). Ibig sabihin, ang isang yunit ng produksyon ay tinasa bilang passable o hindi angkop. Para sa mas masusing pagsusuri, ginagamit ang isang sukat na may tatlong gradasyon: may mga makabuluhang depekto - mayroon lamang mga maliliit na depekto - walang mga depekto. Minsan apat na gradasyon ang ginagamit: may mga kritikal na depekto (na ginagawang imposibleng gamitin) - may mga makabuluhang depekto - may mga maliliit na depekto lamang - walang mga depekto. Ang pagmamarka ng mga produkto ay may katulad na kahulugan - premium, unang baitang, ikalawang baitang,...

Kapag tinatasa ang mga epekto sa kapaligiran, ang una, pinaka-pangkalahatang pagtatasa ay karaniwang ordinal, halimbawa: ang natural na kapaligiran ay matatag - ang natural na kapaligiran ay inaapi (degraded). Ang saklaw ng kapaligiran-medikal ay magkatulad: walang malinaw na epekto sa kalusugan ng tao - isang negatibong epekto sa kalusugan ang nabanggit.

Ang ordinal scale ay ginagamit din sa ibang mga lugar. Sa econometrics, ang mga ito ay pangunahing iba't ibang paraan ng mga pagtatasa ng eksperto.

Ang lahat ng mga sukat ng pagsukat ay nahahati sa dalawang pangkat - mga kaliskis ng mga katangian ng husay at mga kaliskis ng mga katangiang dami. Ang ordinal na iskala at ang pagbibigay ng pangalan ay ang mga pangunahing sukat ng mga katangiang husay, kaya sa maraming partikular na lugar ang mga resulta ng pagsusuri ng husay ay maaaring ituring bilang mga sukat sa mga sukat na ito. Ang mga sukat ng quantitative na katangian ay mga kaliskis ng mga pagitan, ratios, pagkakaiba, absolute. Gamit ang isang sukat ng pagitan, ang laki ng potensyal na enerhiya o ang coordinate ng isang punto sa isang tuwid na linya ay sinusukat. Sa mga kasong ito, hindi maaaring markahan sa sukat ang natural na pinagmulan o ang natural na yunit ng pagsukat. Dapat itakda ng mananaliksik ang panimulang punto at piliin mismo ang yunit ng pagsukat. Ang mga katanggap-tanggap na pagbabago sa sukat ng agwat ay mga linear na pagtaas ng pagbabago, i.e. mga linear na function. Ang mga sukat ng temperatura na Celsius at Fahrenheit ay konektado sa pamamagitan ng eksaktong dependence na ito: °C = 5/9 (°F - 32), kung saan ang °C ay ang temperatura (sa degrees) sa Celsius scale, at °F ay ang temperatura sa Fahrenheit sukat.

Sa mga quantitative scale, ang pinakakaraniwan sa agham at pagsasanay ay ang ratio scale. Mayroon silang natural na reference point - zero, i.e. kawalan ng dami, ngunit walang natural na yunit ng pagsukat. Karamihan sa mga pisikal na yunit ay sinusukat sa sukat ng ratio: mass ng katawan, haba, singil, pati na rin ang mga presyo sa ekonomiya. Ang mga katanggap-tanggap na pagbabago sa sukat ng ratio ay magkatulad (nagbabago lamang ng sukat). Sa madaling salita, ang mga linear na pagtaas ng pagbabago nang walang libreng termino, halimbawa, pag-convert ng mga presyo mula sa isang pera patungo sa isa pa sa isang nakapirming rate. Ipagpalagay na ihambing natin ang kahusayan sa ekonomiya ng dalawang proyekto sa pamumuhunan gamit ang mga presyo sa rubles. Hayaang maging mas mahusay ang unang proyekto kaysa sa pangalawa. Ngayon ay lumipat tayo sa Chinese currency - ang yuan, gamit ang isang nakapirming rate ng conversion. Malinaw, ang unang proyekto ay dapat na muling maging mas kumikita kaysa sa pangalawa. Gayunpaman, hindi awtomatikong tinitiyak ng mga algorithm ng pagkalkula na natutugunan ang kundisyong ito, at kinakailangang suriin kung natutugunan ito. Ang mga resulta ng naturang pagsubok para sa mga average na halaga ay inilarawan sa ibaba.

Ang sukat ng pagkakaiba ay may natural na yunit ng pagsukat, ngunit walang natural na reference point. Ang oras ay sinusukat sa isang sukat ng mga pagkakaiba, kung ang taon (o araw - mula tanghali hanggang tanghali) ay kinuha bilang isang natural na yunit ng pagsukat, at sa isang sukat ng mga pagitan sa pangkalahatang kaso. Sa kasalukuyang antas ng kaalaman, imposibleng magpahiwatig ng natural na panimulang punto. Kinakalkula ng iba't ibang mga may-akda ang petsa ng paglikha ng mundo sa iba't ibang paraan, pati na rin ang sandali ng Kapanganakan ni Kristo.

Para lamang sa ganap na sukat ang mga resulta ng pagsukat ay mga numero sa karaniwang kahulugan ng salita, halimbawa, ang bilang ng mga tao sa isang silid. Para sa isang ganap na sukat, tanging pagbabago ng pagkakakilanlan ang pinapayagan.

Sa proseso ng pag-unlad ng kaukulang larangan ng kaalaman, maaaring magbago ang uri ng sukat. Kaya, sa una ang temperatura ay sinusukat sa isang ordinal scale (mas malamig - mas mainit). Pagkatapos - ayon sa pagitan (Celsius, Fahrenheit, Reaumur kaliskis). Sa wakas, pagkatapos ng pagtuklas ng absolute zero, ang temperatura ay maaaring ituring na sinusukat sa isang ratio scale (Kelvin scale). Dapat tandaan na kung minsan ay may mga hindi pagkakasundo sa mga espesyalista tungkol sa kung aling mga kaliskis ang dapat gamitin upang isaalang-alang ang ilang mga tunay na halaga na sinusukat. Sa madaling salita, kasama rin sa proseso ng pagsukat ang pagtukoy sa uri ng sukat (kasama ang katwiran para sa pagpili ng partikular na uri ng sukat). Bilang karagdagan sa anim na pangunahing uri ng mga kaliskis na nakalista, ang iba pang mga kaliskis ay minsan ginagamit.

17. Mga invariant na algorithm at average na halaga.

Bumuo tayo ng pangunahing kinakailangan para sa mga algorithm ng pagsusuri ng data sa TI: ang mga konklusyong ginawa batay sa data na sinusukat sa isang sukat ng isang partikular na uri ay hindi dapat magbago kapag pinahihintulutan ang sukat ng pagsukat ng data na ito. Sa madaling salita, ang mga hinuha ay dapat na invariant sa ilalim ng wastong pagbabago ng sukat.

Kaya, ang isa sa mga pangunahing layunin ng teorya ng pagsukat ay upang labanan ang subjectivity ng mananaliksik kapag nagtatalaga ng mga numerical na halaga sa mga tunay na bagay. Kaya, ang mga distansya ay maaaring masukat sa mga arshin, metro, micron, milya, parsec at iba pang mga yunit ng pagsukat. Mass (timbang) - sa mga pood, kilo, pounds, atbp. Ang mga presyo para sa mga kalakal at serbisyo ay maaaring ipahiwatig sa yuan, rubles, tenge, hryvnia, lats, kroons, marks, US dollars at iba pang mga pera (napapailalim sa tinukoy na mga rate ng conversion). Bigyang-diin natin ang isang napakahalaga, bagaman medyo halata, katotohanan: ang pagpili ng mga yunit ng pagsukat ay nakasalalay sa mananaliksik, i.e. subjective. Ang mga konklusyon sa istatistika ay maaaring maging sapat sa katotohanan lamang kapag hindi sila nakadepende sa kung aling yunit ng pagsukat ang pipiliin ng mananaliksik, kapag ang mga ito ay invariant na may kinalaman sa pinahihintulutang pagbabago ng sukat. Sa maraming mga algorithm para sa pagsusuri ng data ng ekonometric, iilan lamang ang nakakatugon sa kundisyong ito. Ipakita natin ito sa pamamagitan ng paghahambing ng mga average na halaga.

Hayaang ang X 1, X 2,.., X n ay isang sample ng volume n. Kadalasang ginagamit ang arithmetic mean. Ang paggamit ng average na arithmetic ay napakakaraniwan na ang pangalawang salita sa termino ay madalas na tinanggal at pinag-uusapan ng mga tao ang tungkol sa average na suweldo, average na kita at iba pang mga average para sa partikular na data ng ekonomiya, ibig sabihin ay "average" ang arithmetic average. Ang tradisyong ito ay maaaring humantong sa mga maling konklusyon. Ipakita natin ito gamit ang halimbawa ng pagkalkula ng average na suweldo (average na kita) ng mga empleyado ng isang hypothetical enterprise. Sa 100 manggagawa, 5 lamang ang may suweldo na lumampas dito, at ang suweldo ng natitirang 95 ay mas mababa kaysa sa average ng arithmetic. Ang dahilan ay halata - ang suweldo ng isang tao - ang pangkalahatang direktor - ay lumampas sa suweldo ng 95 na manggagawa - mga manggagawang mababa ang kasanayan at mataas ang kasanayan, mga inhinyero at manggagawa sa opisina. Ang sitwasyon ay nakapagpapaalaala sa inilarawan sa isang kilalang kuwento tungkol sa isang ospital kung saan mayroong 10 pasyente, 9 sa kanila ay may temperatura na 40°C, at ang isa ay nagdusa na, nakahiga sa morge na may temperaturang 0° C. Samantala, ang average na temperatura sa ospital ay 36°C - hindi ito maaaring maging mas mahusay!

Kaya, ang arithmetic mean ay magagamit lamang para sa medyo homogenous na populasyon (nang walang malalaking outlier sa isang direksyon o iba pa). Anong mga average ang dapat gamitin upang ilarawan ang sahod? Natural lang na gamitin ang median - ang arithmetic mean ng ika-50 at ika-51 na empleyado, kung ang kanilang mga suweldo nakaayos sa hindi pababang ayos. Una ay ang mga suweldo ng 40 na mababa ang kasanayang manggagawa, at pagkatapos - mula ika-41 hanggang ika-70 manggagawa - ang mga suweldo ng mga manggagawang may mataas na kasanayan. Dahil dito, ang median ay eksaktong nahuhulog sa kanila at katumbas ng 200. Para sa 50 manggagawa, ang suweldo ay hindi lalampas sa 200, at para sa 50 - hindi bababa sa 200, kaya ang median ay nagpapakita ng "gitna" sa paligid kung saan ang karamihan ng mga pinag-aralan na halaga ​ay nakagrupo. Ang isa pang average na halaga ay ang mode, ang pinakamadalas na nagaganap na halaga. Sa kasong isinasaalang-alang, ito ang sahod ng mga manggagawang mababa ang kasanayan, i.e. 100. Kaya, upang ilarawan ang suweldo mayroon kaming tatlong average na halaga - ang mode (100 units), ang median (200 units) at ang arithmetic mean (400 units).

Para sa mga pamamahagi ng kita at sahod na naobserbahan sa totoong buhay, ang parehong pattern ay totoo: ang mode ay mas mababa kaysa sa median, at ang median ay mas mababa kaysa sa arithmetic mean.

Bakit ginagamit ang average sa ekonomiya? Karaniwang pinapalitan ang isang koleksyon ng mga numero ng isang numero upang maihambing ang mga populasyon gamit ang mga average. Hayaan, halimbawa, ang Y 1, Y 2,..., Y n ay isang hanay ng mga pagtatasa ng eksperto na "ibinigay" sa isang bagay ng kadalubhasaan (halimbawa, isa sa mga opsyon para sa estratehikong pag-unlad ng isang kumpanya), Z 1 , Z 2,..., Z n -ang pangalawa (isa pang bersyon ng pag-unlad na ito). Paano inihahambing ang mga populasyon na ito? Malinaw, ang pinakamadaling paraan ay sa pamamagitan ng mga average na halaga.

Paano makalkula ang mga average? Kilala iba't ibang uri average na mga halaga: arithmetic mean, median, mode, geometric mean, harmonic mean, quadratic mean. Paalalahanan ka namin pangkalahatang konsepto Ang average na halaga ay ipinakilala ng isang French mathematician ng unang kalahati ng ika-19 na siglo. Academician O. Cauchy. Ito ay ang mga sumusunod: ang average na halaga ay anumang function Ф(Х 1, Х 2,..., Х n) kaya na, para sa lahat ng posibleng halaga ng mga argumento, ang halaga ng function na ito ay hindi mas mababa sa minimum ng mga numerong X 1, X 2,... , X n , at hindi hihigit sa maximum ng mga numerong ito. Ang lahat ng uri ng mga average na nakalista sa itaas ay mga average na Cauchy.

Sa isang katanggap-tanggap na pagbabago ng sukat, malinaw na nagbabago ang halaga ng average. Ngunit ang mga konklusyon tungkol sa kung aling populasyon ang average ay mas malaki at kung saan ito ay mas mababa ay hindi dapat magbago (alinsunod sa kinakailangan ng invariance ng mga konklusyon, tinanggap bilang pangunahing kinakailangan sa TI). Bumuo tayo ng kaukulang problema sa matematika ng paghahanap para sa uri ng mga average na halaga, ang resulta ng paghahambing na kung saan ay matatag na may paggalang sa mga tinatanggap na pagbabago ng sukat.

Hayaang ang Ф(Х 1 Х 2 ,..., Х n) ay ang Cauchy average. Hayaang mas mababa ang average para sa unang populasyon kaysa sa average para sa pangalawang populasyon: pagkatapos, ayon sa TI, para sa katatagan ng resulta ng paghahambing ng mga average, kinakailangan na para sa anumang katanggap-tanggap na pagbabagong g mula sa pangkat ng mga tinatanggap na pagbabago sa katumbas na sukat totoo na ang average ng mga nabagong halaga mula sa unang populasyon ay mas mababa din kaysa sa average ng mga nabagong halaga para sa pangalawang hanay. Dagdag pa rito, dapat na totoo ang formulated condition para sa alinmang dalawang set Y 1, Y 2,...,Y n at Z 1, Z 2,..., Z n at, recall, anumang tinatanggap na pagbabago. Tinatawag namin ang mga average na halaga na nakakatugon sa nakabalangkas na kondisyon na tinatanggap (sa naaangkop na sukat). Ayon sa TI, ang mga naturang average lang ang magagamit kapag sinusuri ang mga opinyon ng eksperto at iba pang data na sinusukat sa sukat na isinasaalang-alang.

Sa pamamagitan ng paggamit teorya ng matematika, na binuo noong 1970s, ay namamahala upang ilarawan ang uri ng mga katanggap-tanggap na average sa mga pangunahing sukat. Malinaw na para sa data na sinusukat sa isang sukat ng mga pangalan, ang mode lamang ang angkop bilang isang average.

18. Average na mga halaga sa isang ordinal na sukat

Isaalang-alang natin ang pagproseso ng mga opinyon ng eksperto na sinusukat sa ordinal na sukat. Ang sumusunod na pahayag ay totoo.

Teorama1 . Sa lahat ng mga average ng Cauchy, ang tanging katanggap-tanggap na mga average sa ordinal na sukat ay ang mga termino serye ng pagkakaiba-iba(ordinal na istatistika).

Ang Theorem 1 ay wasto sa kondisyon na ang average na Ф(Х 1 Х 2 ,..., Х n) ay isang tuluy-tuloy (sa hanay ng mga variable) at simetriko function. Ang huli ay nangangahulugan na kapag ang mga argumento ay muling inayos, ang halaga ng function na Ф(Х 1 Х 2 ,..., Х n) ay hindi nagbabago. Ang kundisyong ito ay medyo natural, dahil nakita namin ang average na halaga para sa kabuuan (set), at hindi para sa pagkakasunud-sunod. Ang set ay hindi nagbabago depende sa pagkakasunud-sunod kung saan inilista namin ang mga elemento nito.

Ayon sa Theorem 1, sa partikular, ang median ay maaaring gamitin bilang isang average para sa data na sinusukat sa isang ordinal scale (kung ang sample size ay kakaiba). Kung pantay ang volume, dapat gamitin ang isa sa dalawang pangunahing termino ng serye ng variation - kung minsan ay tinatawag ang mga ito, ang kaliwang median o ang kanang median. Maaari ding gamitin ang fashion - palagi itong miyembro ng variation series. Ngunit hindi mo kailanman makalkula ang arithmetic mean, geometric mean, atbp.

Ang sumusunod na teorama ay totoo.

Teorama 2. Hayaang ang Y 1, Y 2,...,Y m ay independiyenteng magkaparehong distributed na random variable na may distribution function F(x), at Z 1, Z 2,..., Zn ay independent identically distributed random variable na may function distributions H(x), at ang mga sample na Y 1, Y 2,...,Y m at Z 1, Z 2,..., Z n ay independyente sa isa't isa at MY X > MZ X. Upang ang posibilidad ng isang kaganapan ay malamang na 1 sa min(m, n) para sa anumang mahigpit na pagtaas ng tuluy-tuloy na paggana g na nagbibigay-kasiyahan sa kundisyon |g i |>X ito ay kinakailangan at sapat na ang hindi pagkakapantay-pantay F(x) ay masiyahan para sa lahat x< Н(х), причем существовало число х 0 , для которого F(x 0)

Tandaan. Ang kundisyon na may pinakamataas na limitasyon ay puro intra-mathematical ang kalikasan. Sa katunayan, ang function na g ay isang arbitrary na tinatanggap na pagbabago sa isang ordinal na sukat.

Ayon sa Theorem 2, ang arithmetic mean ay maaari ding gamitin sa isang ordinal scale kung ang mga sample mula sa dalawang distribusyon na nagbibigay-kasiyahan sa hindi pagkakapantay-pantay na ibinigay sa theorem ay inihambing. Sa madaling salita, ang isa sa mga function ng pamamahagi ay dapat palaging nasa itaas ng isa. Ang mga function ng pamamahagi ay hindi maaaring magsalubong, pinapayagan lamang silang hawakan ang isa't isa. Ang kundisyong ito ay natutugunan, halimbawa, kung ang mga function ng pamamahagi ay naiiba lamang sa shift:

F(x) = Н(x + ∆)

para sa ilang ∆.

Ang huling kondisyon ay nasiyahan kung ang dalawang halaga ng isang tiyak na dami ay sinusukat gamit ang parehong instrumento sa pagsukat, kung saan ang pamamahagi ng mga error ay hindi nagbabago kapag lumilipat mula sa pagsukat ng isang halaga ng dami na pinag-uusapan sa pagsukat ng isa pa.

Average ayon kay Kolmogorov

Ang generalization ng ilan sa mga average na nakalista sa itaas ay ang Kolmogorov average. Para sa mga numerong X 1, X 2,..., X n, ang Kolmogorov average ay kinakalkula gamit ang formula

G((F(X l) + F(X 2)+...F(X n))/n),

kung saan ang F ay isang mahigpit na monotonikong function (ibig sabihin, mahigpit na tumataas o mahigpit na bumababa),

Ang G ay ang inverse function ng F.

Kabilang sa mga average ni Kolmogorov mayroong maraming mga kilalang character. Kaya, kung F(x) = x, kung gayon ang Kolmogorov mean ay ang arithmetic mean, kung F(x) = lnx, kung gayon ang geometric mean, kung F(x) = 1/x, kung gayon ang harmonic mean, kung F( x) = x 2, pagkatapos ay ang ibig sabihin ng parisukat, atbp. Ang average ng Kolmogorov ay isang espesyal na kaso ng average ng Cauchy. Sa kabilang banda, ang mga sikat na average bilang median at mode ay hindi maaaring katawanin bilang Kolmogorov average. Ang mga sumusunod na pahayag ay napatunayan sa monograp.

Teorama3 . Kung ang ilang mga intramathematical na kondisyon ng regularidad sa sukat ng agwat ay wasto, sa lahat ng paraan ng Kolmogorov, tanging ang arithmetic mean ang tinatanggap. Kaya, ang geometric mean o root mean square ng mga temperatura (sa Celsius) o mga distansya ay walang kahulugan. Ang arithmetic mean ay dapat gamitin bilang average. Maaari mo ring gamitin ang median o mode.

Teorama 4. Kung ang ilang partikular na intramathematical na kondisyon ng regularidad sa sukat ng mga ratio ay wasto, sa lahat ng mga average ng Kolmogorov, tanging ang mga power average na may F(x) = x c at ang geometric na average ay tinatanggap.

Magkomento. Ang geometric mean ay ang limitasyon ng power means para sa c > 0.

Mayroon bang mga average ng Kolmogorov na hindi magagamit sa sukat ng ratio? Syempre meron. Halimbawa F(x) = e x.

Katulad ng mga average na halaga, ang iba pang mga istatistikal na katangian ay maaaring pag-aralan - mga tagapagpahiwatig ng scatter, koneksyon, distansya, atbp. Hindi mahirap ipakita, halimbawa, na ang koepisyent ng ugnayan ay hindi nagbabago sa anumang katanggap-tanggap na pagbabago sa isang mangkok ng mga pagitan, tulad ng ratio ng mga pagpapakalat, ang pagpapakalat ay hindi nagbabago sa sukat ng mga pagkakaiba, ang koepisyent ng pagkakaiba-iba sa ang sukat ng mga ratios, atbp.

Ang mga resulta sa itaas sa mga average na halaga ay malawakang ginagamit, hindi lamang sa ekonomiya, pamamahala, teorya ng mga pagtatasa ng dalubhasa o sosyolohiya, kundi pati na rin sa engineering, halimbawa, upang pag-aralan ang mga pamamaraan para sa pagsasama-sama ng mga sensor sa mga awtomatikong sistema ng kontrol sa proseso ng mga blast furnace. Malaki ang praktikal na kahalagahan ng TI sa mga problema ng standardisasyon at pamamahala ng kalidad, lalo na sa qualimetry, kung saan nakuha ang mga interesanteng teoretikal na resulta. Kaya, halimbawa, ang anumang pagbabago sa mga koepisyent ng timbang ng mga indibidwal na tagapagpahiwatig ng kalidad ng produkto ay humahantong sa isang pagbabago sa pag-order ng mga produkto ayon sa timbang na average na tagapagpahiwatig (ang teorama na ito ay napatunayan ni Prof. V.V. Podinovsky). Dahil dito, ang maikling impormasyon sa itaas tungkol sa TI at ang mga pamamaraan nito ay pinagsasama, sa isang kahulugan, ang ekonomiya, sosyolohiya at mga agham ng inhinyero at isang sapat na kagamitan para sa paglutas ng mga kumplikadong problema na dati ay hindi pumapayag sa epektibong pagsusuri, bukod pa rito, sa gayon nagbubukas ang paraan sa pagbuo ng mga makatotohanang modelo at paglutas ng problema sa pagtataya.

22. Ipinares na linear regression

Bumaling tayo ngayon sa isang mas detalyadong pag-aaral ng pinakasimpleng kaso ng pairwise linear regression. Ang linear regression ay inilalarawan ng pinakasimpleng functional na relasyon sa anyo ng isang straight line equation at nailalarawan sa pamamagitan ng isang transparent na interpretasyon ng mga parameter ng modelo (equation coefficients). Ang kanang bahagi ng equation ay nagpapahintulot sa amin na makakuha ng teoretikal (kinakalkula) na mga halaga ng nagresultang (ipinaliwanag) na variable batay sa ibinigay na mga halaga ng regressor (nagpapaliwanag na variable). Ang mga halagang ito ay tinatawag ding hinulaang (sa parehong kahulugan), i.e. nakuha mula sa mga teoretikal na pormula. Gayunpaman, kapag naglalagay ng isang hypothesis tungkol sa likas na katangian ng pag-asa, ang mga coefficient ng equation ay nananatiling hindi alam. Sa pangkalahatan, ang pagkuha ng tinatayang mga halaga ng mga coefficient na ito ay posible gamit ang iba't ibang mga pamamaraan.

Ngunit ang pinakamahalaga at laganap sa kanila ay ang least squares method (OLS). Ito ay batay (tulad ng ipinaliwanag na) sa kinakailangan upang mabawasan ang kabuuan ng mga parisukat na paglihis ng mga aktwal na halaga ng nagresultang katangian mula sa kinakalkula (teoretikal) na mga halaga. Sa halip na mga teoretikal na halaga (upang makuha ang mga ito), palitan ang kanang bahagi ng equation ng regression sa kabuuan ng mga squared deviations, at pagkatapos ay hanapin ang mga partial derivatives ng function na ito (ang kabuuan ng squared deviations ng aktwal na mga halaga. ng mga nagresultang katangian mula sa mga teoretikal). Ang mga bahagyang derivatives na ito ay kinuha hindi tungkol sa mga variable na x at y, ngunit tungkol sa mga parameter a at b. Ang mga partial derivatives ay itinakda na katumbas ng zero at, pagkatapos ng simple ngunit masalimuot na pagbabagong-anyo, ang isang sistema ng mga normal na equation ay nakuha para sa pagtukoy ng mga parameter. Ang koepisyent para sa variable na x, i.e. b ay tinatawag na regression coefficient, ipinapakita nito ang average na pagbabago sa resulta na may pagbabago sa factor ng isang unit. Maaaring walang interpretasyong pang-ekonomiya ang parameter a, lalo na kung negatibo ang senyales ng coefficient na ito.

Ang pairwise linear regression ay ginagamit upang pag-aralan ang function ng pagkonsumo. Ang regression coefficient sa function ng pagkonsumo ay ginagamit upang kalkulahin ang multiplier. Halos palaging, ang equation ng regression ay pupunan ng isang tagapagpahiwatig ng pagiging malapit ng koneksyon. Para sa pinakasimpleng kaso ng linear regression, ang tagapagpahiwatig na ito ng pagiging malapit ng koneksyon ay linear coefficient mga ugnayan. Ngunit dahil ang linear correlation coefficient ay nagpapakilala sa pagiging malapit ng relasyon sa pagitan ng mga feature sa isang linear form, ang proximity ng absolute value ng linear correlation coefficient sa zero ay hindi pa nagsisilbing indicator ng kawalan ng koneksyon sa pagitan ng mga feature.

Ito ay may ibang pagpipilian ng detalye ng modelo at, samakatuwid, ang uri ng pag-asa na ang aktwal na relasyon ay maaaring lumabas na medyo malapit sa pagkakaisa. Ngunit ang kalidad ng pagpili linear function tinutukoy gamit ang parisukat ng linear correlation coefficient - ang koepisyent ng determinasyon. Inilalarawan nito ang proporsyon ng pagkakaiba ng mabisang katangian y na ipinaliwanag sa pamamagitan ng pagbabalik sa kabuuang pagkakaiba ng mabisang katangian. Ang halaga na umaakma sa koepisyent ng determinasyon sa 1 ay nagpapakilala sa bahagi ng pagkakaiba na dulot ng impluwensya ng iba pang mga kadahilanan na hindi isinasaalang-alang sa modelo (natirang pagkakaiba).

Ang paired regression ay kinakatawan ng isang equation na nauugnay sa dalawang variable na y at x ng sumusunod na anyo:

kung saan ang y ay ang dependent variable (resultative attribute), at x ang independent variable (explanatory variable, o attribute-factor). Mayroong linear regression at nonlinear regression. Ang linear regression ay inilalarawan ng isang equation ng form:

y = a+ bx + .

Ang nonlinear regression, sa turn, ay maaaring maging nonlinear na may kinalaman sa mga paliwanag na variable na kasama sa pagsusuri, ngunit linear na may paggalang sa mga tinantyang parameter. O baka ang regression ay nonlinear sa mga tuntunin ng mga parameter na tinatantya. Ang mga halimbawa ng regression na nonlinear sa mga variable na nagpapaliwanag, ngunit linear sa mga tinantyang parameter, ay kinabibilangan ng polynomial dependencies ng iba't ibang degree (polynomials) at isang equilateral hyperbola.

Ang nonlinear regression para sa mga tinantyang parameter ay isang power dependence na nauugnay sa parameter (ang parameter ay nasa exponent), isang exponential dependence, kung saan ang parameter ay nasa base ng exponent, at isang exponential dependence, kapag ang buong linear na dependence ay ganap. sa exponent. Tandaan na sa lahat ng tatlong kaso na ito ang random na bahagi (random na natitira)  ay kasama sa kanang bahagi mga equation sa anyo ng isang kadahilanan, at hindi sa anyo ng isang summand, i.e. multiplicatively! Ang average na paglihis ng mga kinakalkula na halaga ng nagresultang katangian mula sa aktwal na mga ay nailalarawan sa pamamagitan ng average na error ng approximation. Ito ay ipinahayag bilang isang porsyento at hindi dapat lumampas sa 7-8%. Ang average na error ng approximation na ito ay ang average na porsyento ng mga relatibong magnitude ng mga pagkakaiba sa pagitan ng aktwal at kinakalkula na mga halaga.

Ang average na elasticity coefficient, na nagsisilbing isang mahalagang katangian ng maraming pang-ekonomiyang phenomena at proseso, ay mahalaga. Ito ay kinakalkula bilang produkto ng halaga ng derivative ng isang ibinigay na functional na relasyon at ang ratio ng average na halaga ng x sa average na halaga ng y. Ang elasticity coefficient ay nagpapakita sa kung anong porsyento sa average ang resulta y ay magbabago mula sa average na halaga nito kapag ang factor x ay nagbago ng 1% mula sa average na halaga nito (factor x).

Ang mga problema sa pagsusuri ng variance ay malapit na nauugnay sa pairwise regression at multiple regression (kapag maraming salik) at residual variance. Pagsusuri ng pagkakaiba-iba sinusuri ang pagkakaiba ng dependent variable. Sa kasong ito, ang kabuuang kabuuan ng mga squared deviations ay nahahati sa dalawang bahagi. Ang unang termino ay ang kabuuan ng mga squared deviations dahil sa regression, o ipinaliwanag (factorial). Ang pangalawang termino ay ang natitirang kabuuan ng mga squared deviations na hindi maipaliwanag ng factor regression.

Ang bahagi ng pagkakaiba-iba na ipinaliwanag ng regression sa kabuuang pagkakaiba ng nagresultang katangian y ay nailalarawan sa pamamagitan ng koepisyent (index) ng pagpapasiya, na hindi hihigit sa ratio ng kabuuan ng mga squared deviations dahil sa regression sa kabuuang kabuuan ng squared deviations. (ang unang termino sa buong kabuuan).

Kapag ang mga parameter ng modelo (coefficients ng mga hindi alam) ay tinutukoy gamit ang pinakamababang paraan ng mga parisukat, kung gayon, sa esensya, ang ilang mga random na variable ay matatagpuan (sa proseso ng pagkuha ng mga pagtatantya). Ang partikular na kahalagahan ay ang pagtatantya ng koepisyent ng regression, na isang espesyal na anyo ng isang random na variable. Ang mga katangian ng random variable na ito ay nakasalalay sa mga katangian ng natitirang termino sa equation (sa modelo). Para sa ipinares na linear regression na modelo, isaalang-alang ang paliwanag na variable x bilang isang hindi random na exogenous na variable. Nangangahulugan lamang ito na ang mga halaga ng variable na x sa lahat ng mga obserbasyon ay maaaring ituring na paunang natukoy at sa anumang paraan ay hindi nauugnay sa pag-asa sa ilalim ng pag-aaral. Kaya, ang aktwal na halaga ng ipinaliwanag na variable ay binubuo ng dalawang bahagi: isang non-random at isang random na bahagi (residual term).

Sa kabilang banda, ang regression coefficient na tinutukoy gamit ang least squares method (OLS) ay katumbas ng quotient ng paghahati ng covariance ng mga variable na x at y sa variance ng variable na x. Samakatuwid, naglalaman din ito ng isang random na bahagi. Pagkatapos ng lahat, ang covariance ay nakasalalay sa mga halaga ng variable na y, kung saan ang mga halaga ng variable na y ay nakasalalay sa mga halaga ng random na natitirang termino . Dagdag pa, madaling ipakita na ang covariance ng mga variable na x at y ay katumbas ng produkto ng tinantyang regression coefficient beta () at ang variance ng variable na x, kasama ang covariance ng mga variable na x at . Kaya, ang pagtatantya ng coefficient ng regression beta ay katumbas ng hindi kilalang koepisyent ng regression mismo, na idinagdag sa quotient ng paghahati ng covariance ng mga variable na x at  sa pagkakaiba ng variable na x. Yung. ang pagtatantya ng coefficient ng regression b na nakuha mula sa anumang sample ay ipinakita bilang kabuuan ng dalawang termino: isang pare-parehong halaga na katumbas ng tunay na halaga ng coefficient  (beta), at isang random na bahagi depende sa covariance ng mga variable na x at  .

23. Mga kundisyon ng Mathematical Gauss-Markov at ang kanilang aplikasyon.

Para sa pagsusuri ng regression batay sa ordinaryong OLS upang makabuo ng pinakamahusay na mga resulta, dapat na matugunan ng random na termino ang apat na kundisyon ng Gauss-Markov.

Ang mathematical na inaasahan ng random na termino ay katumbas ng zero, i.e. ito ay walang kinikilingan. Kung ang equation ng regression ay may kasamang pare-parehong termino, natural na isaalang-alang ang pangangailangang ito na natupad, dahil ito ay isang pare-parehong termino at dapat isaalang-alang ang anumang sistematikong kalakaran sa mga halaga ng variable y, na, sa kabaligtaran, ay dapat hindi nakapaloob sa mga paliwanag na variable ng regression equation.

Ang pagkakaiba ng random na termino ay pare-pareho para sa lahat ng mga obserbasyon.

Covariance ng mga halaga mga random na variable, ang pagbuo ng sample ay dapat na katumbas ng zero, i.e. walang sistematikong ugnayan sa pagitan ng mga halaga ng random na termino sa alinmang dalawang partikular na obserbasyon. Ang mga random na miyembro ay dapat na independyente sa bawat isa.

Ang batas sa pamamahagi ng random na termino ay dapat na independiyente sa mga paliwanag na variable.

Bukod dito, sa maraming mga aplikasyon ang mga paliwanag na variable ay hindi stochastic, i.e. walang random na bahagi. Ang halaga ng anumang independiyenteng variable sa bawat pagmamasid ay dapat ituring na exogenous, ganap na tinutukoy ng mga panlabas na dahilan na hindi isinasaalang-alang sa equation ng regression.

Kasama ang tinukoy na mga kondisyon ng Gauss-Markov, ipinapalagay din na ang random na termino ay may normal na distribusyon. Ito ay may bisa sa ilalim ng napakalawak na mga kondisyon at batay sa tinatawag na central limit theorem (CLT). Ang kakanyahan ng teorama na ito ay kung ang isang random na variable ay ang pangkalahatang resulta ng pakikipag-ugnayan ng isang malaking bilang ng iba pang mga random na variable, wala sa mga ito ay may isang nangingibabaw na impluwensya sa pag-uugali ng pangkalahatang resulta, kung gayon ang magreresultang random na variable ay ilalarawan. sa pamamagitan ng humigit-kumulang normal na distribusyon. Ang kalapit na ito sa normal na pamamahagi nagbibigay-daan sa iyo na gamitin ang normal na distribusyon upang makakuha ng mga pagtatantya at ay sa isang tiyak na kahulugan ang paglalahat nito ay ang distribusyon ng Mag-aaral, na kapansin-pansing naiiba sa normal pangunahin sa tinatawag na "mga buntot", i.e. para sa maliliit na laki ng sample. Mahalaga rin na kung ang random na termino ay karaniwang ipinamamahagi, ang mga coefficient ng regression ay maipapamahagi din nang normal.

Ang itinatag na regression curve (regression equation) ay nagpapahintulot sa amin na malutas ang problema ng tinatawag na point forecast. Sa ganitong mga kalkulasyon, ang isang tiyak na halaga ng x ay kinuha sa labas ng pinag-aralan na agwat ng pagmamasid at pinapalitan sa kanang bahagi ng equation ng regression (extrapolation procedure). kasi Ang mga pagtatantya para sa mga coefficient ng regression ay kilala na, pagkatapos ay posibleng kalkulahin ang halaga ng ipinaliwanag na variable y na tumutugma sa kinuhang halaga ng x. Naturally, alinsunod sa kahulugan ng hula (pagtataya), ang mga kalkulasyon ay isinasagawa pasulong (sa rehiyon ng mga halaga sa hinaharap).

Gayunpaman, dahil ang mga coefficient ay natukoy na may isang tiyak na pagkakamali, hindi ito interesado pagtatantya ng punto(point forecast) para sa isang epektibong katangian, at kaalaman sa mga limitasyon kung saan, na may tiyak na posibilidad, ang mga halaga ng epektibong katangian ay magsisinungaling, na tumutugma sa kinuha na halaga ng factor x.

Upang gawin ito, ang karaniwang error (standard deviation) ay kinakalkula. Ito ay maaaring makuha sa diwa ng kasasabi pa lamang gaya ng mga sumusunod. Ang pagpapahayag ng libreng termino a mula sa mga pagtatantya sa pamamagitan ng mga average na halaga ay pinapalitan sa linear regression equation. Pagkatapos ay lumalabas na ang karaniwang error ay nakasalalay sa error ng average na epektibong salik y at additively sa error ng regression coefficient b. Ang parisukat lamang ng karaniwang error na ito katumbas ng kabuuan ang squared error ng average na halaga y at ang produkto ng squared error ng regression coefficient sa pamamagitan ng squared deviation ng value ng factor x at average nito. Dagdag pa, ang unang termino, ayon sa mga batas ng istatistika, ay katumbas ng quotient ng paghahati ng pagkakaiba-iba ng pangkalahatang populasyon sa laki (volume) ng sample.

Sa halip na hindi alam na pagkakaiba, ang sample na pagkakaiba ay ginagamit bilang isang pagtatantya. Alinsunod dito, ang error ng regression coefficient ay tinukoy bilang ang quotient ng paghahati ng sample variance sa variance ng factor x. Makukuha mo ang karaniwang error (standard deviation) at iba pang mga pagsasaalang-alang na mas independiyente sa modelo ng linear regression. Upang gawin ito, ginagamit ang konsepto ng average na error at marginal error at ang relasyon sa pagitan ng mga ito.

Ngunit kahit na matapos makuha ang karaniwang error, nananatili ang tanong tungkol sa mga hangganan kung saan magsisinungaling ang hinulaang halaga. Sa madaling salita, tungkol sa pagitan ng error sa pagsukat, sa natural na pagpapalagay sa maraming mga kaso na ang gitna ng agwat na ito ay ibinibigay ng kinakalkula (average) na halaga ng epektibong kadahilanan y. Narito ang gitnang teorama ng limitasyon ay dumating upang iligtas, na tiyak na nagpapahiwatig kung anong posibilidad ang hindi kilalang dami ay nasa loob nito. agwat ng kumpiyansa.

Mahalaga, ang karaniwang formula ng error, hindi alintana kung paano at sa anong anyo ito nakuha, ay nagpapakilala sa error sa posisyon ng linya ng regression. Ang karaniwang error ay umabot sa pinakamababa kapag ang halaga ng factor x ay tumutugma sa mean value ng factor.

24. Statistical testing ng mga hypotheses at pagtatasa ng kahalagahan ng linear regression gamit ang Fisher criterion.

Matapos matagpuan ang linear regression equation, ang kahalagahan ng parehong equation sa kabuuan at ang mga indibidwal na parameter nito ay tinasa. Ang pagtatasa sa kahalagahan ng isang regression equation sa kabuuan ay maaaring gawin gamit ang iba't ibang pamantayan. Medyo karaniwan at epektibo ang paggamit ng Fisher's F test. Sa kasong ito, ang null hypothesis ay iniharap na ang regression coefficient ay katumbas ng zero, i.e. b=0, at samakatuwid ang salik x ay walang epekto sa resultang y. Ang agarang pagkalkula ng F-test ay nauuna sa pagsusuri ng pagkakaiba. Ang gitnang lugar dito ay inookupahan ng agnas ng kabuuang kabuuan ng mga squared deviations ng variable y mula sa average na halaga y sa dalawang bahagi - "ipinaliwanag" at "hindi maipaliwanag":

Ang kabuuang kabuuan ng mga squared deviations ng mga indibidwal na halaga ng nagresultang katangian y mula sa average na halaga y ay sanhi ng impluwensya ng maraming mga kadahilanan.

Hatiin natin ang buong hanay ng mga dahilan sa dalawang pangkat: ang pinag-aralan na salik x at iba pang mga salik. Kung ang kadahilanan ay hindi nakakaimpluwensya sa resulta, ang linya ng regression sa graph ay kahanay sa OX at y=y axis. Pagkatapos ang buong pagkakaiba-iba ng nagresultang katangian ay dahil sa impluwensya ng iba pang mga kadahilanan at ang kabuuang kabuuan ng mga squared deviations ay mag-tutugma sa nalalabi. Kung ang ibang mga kadahilanan ay hindi nakakaimpluwensya sa resulta, kung gayon ang y ay gumaganang nauugnay sa x at ang natitirang kabuuan ng mga parisukat ay zero. Sa kasong ito, ang kabuuan ng mga squared deviations na ipinaliwanag ng regression ay pareho sa kabuuang kabuuan ng mga parisukat. Dahil hindi lahat ng mga punto ng patlang ng ugnayan ay nasa linya ng regression, ang kanilang scatter ay palaging nangyayari bilang sanhi ng impluwensya ng factor x, i.e. pagbabalik ng y sa x, at sanhi ng iba pang mga sanhi (hindi maipaliwanag na pagkakaiba-iba). Ang kaangkupan ng isang linya ng regression para sa hula ay nakasalalay sa kung gaano karami sa kabuuang pagkakaiba-iba sa katangian y ang isinasaalang-alang ng ipinaliwanag na pagkakaiba-iba.

Malinaw, kung ang kabuuan ng mga squared deviations dahil sa regression ay mas malaki kaysa sa natitirang kabuuan ng mga parisukat, kung gayon ang regression equation ay istatistikal na makabuluhan at ang x factor ay may malaking epekto sa resulta. Katumbas ito ng katotohanan na ang coefficient of determination ay lalapit sa pagkakaisa. Ang anumang kabuuan ng mga squared deviations ay nauugnay sa bilang ng mga degree ng kalayaan, i.e. ang bilang ng kalayaan ng malayang pagkakaiba-iba ng isang katangian. Ang bilang ng mga antas ng kalayaan ay nauugnay sa bilang ng mga yunit ng populasyon o sa bilang ng mga constant na tinutukoy mula dito. Kaugnay ng problemang pinag-aaralan, ang bilang ng mga antas ng kalayaan ay dapat magpakita kung gaano karaming mga independiyenteng paglihis sa n posibleng [(y 1 -y), (y 2 -y),...(y n -y)] ang kinakailangan upang bumuo ng isang naibigay na kabuuan ng mga parisukat. Kaya, para sa kabuuang kabuuan ng mga parisukat ∑(y-y sr) 2, (n-1) ang mga independiyenteng paglihis ay kinakailangan, dahil sa isang populasyon ng n unit, pagkatapos kalkulahin ang average na antas, tanging (n-1) na bilang ng mga deviations ang malayang nag-iiba. Kapag kinakalkula ang ipinaliwanag o factor sum ng mga parisukat ∑(y-y avg) 2, ang teoretikal (kinakalkula) na mga halaga ng resultang katangian na y* ay ginagamit, na makikita sa linya ng regression: y(x)=a+bx.

Bumalik tayo ngayon sa pagpapalawak ng kabuuang kabuuan ng mga squared deviations ng epektibong salik mula sa average ng halagang ito. Ang kabuuan na ito ay naglalaman ng dalawang bahagi na tinukoy na sa itaas: ang kabuuan ng mga squared deviations na ipinaliwanag ng regression at isa pang sum na tinatawag na residual sum ng squared deviations. Kaugnay ng agnas na ito ay ang pagsusuri ng pagkakaiba-iba, na direktang sumasagot sa pangunahing tanong: kung paano masuri ang kahalagahan ng equation ng regression sa kabuuan at ang mga indibidwal na parameter nito? Ito rin ay higit na tinutukoy ang kahulugan ng tanong na ito. Upang masuri ang kahalagahan ng regression equation sa kabuuan, ginagamit ang Fisher criterion (F-test). Ayon sa diskarte na iminungkahi ni Fisher, isang null hypothesis ang iniharap: ang regression coefficient ay katumbas ng zero, i.e. valueb=0. Nangangahulugan ito na ang kadahilanan X ay walang epekto sa kinalabasan ng Y.

Tandaan natin na halos palaging ang mga puntos na nakuha bilang resulta ng isang istatistikal na pag-aaral ay hindi eksaktong nasa linya ng regression. Ang mga ito ay nakakalat, na higit pa o mas malayo sa linya ng regression. Ang ganitong pagpapakalat ay dahil sa impluwensya ng iba pang mga salik, naiiba sa paliwanag na kadahilanan X, na hindi isinasaalang-alang sa equation ng regression. Kapag kinakalkula ang ipinaliwanag o factor sum ng squared deviations, ang mga teoretikal na halaga ng nagresultang katangian na natagpuan mula sa linya ng regression ay ginagamit.

Para sa isang naibigay na hanay ng mga halaga ng mga variable Y at X, ang kinakalkula na halaga ng average na halaga Y ay nasa linear regression isang function ng isang parameter lamang - ang regression coefficient. Alinsunod dito, ang factor sum ng squared deviations ay may bilang ng mga degree ng kalayaan na katumbas ng 1. At ang bilang ng mga degree ng kalayaan ng natitirang kabuuan ng squared deviations sa linear regression ay n-2.

Dahil dito, hinahati ang bawat kabuuan ng mga parisukat na paglihis sa orihinal na pagpapalawak ng bilang ng mga antas ng kalayaan nito, nakukuha namin ang average na mga parisukat na paglihis (variance sa bawat isang antas ng kalayaan). Susunod, hinahati ang pagkakaiba-iba ng kadahilanan sa isang antas ng kalayaan sa natitirang pagkakaiba sa isang antas ng kalayaan, makakakuha tayo ng isang pamantayan para sa pagsubok sa null hypothesis, ang tinatawag na F-ratio, o ang pamantayan ng parehong pangalan. Ibig sabihin, kung ang null hypothesis ay totoo, ang salik at natitirang mga pagkakaiba ay pantay lamang sa isa't isa.

Upang tanggihan ang null hypothesis, i.e. tinatanggap ang kabaligtaran na hypothesis, na nagpapahayag ng katotohanan ng kahalagahan (presensya) ng relasyon sa ilalim ng pag-aaral, at hindi lamang isang random na pagkakataon ng mga kadahilanan na gayahin ang isang relasyon na talagang wala, kinakailangan na gumamit ng mga talahanayan ng mga kritikal na halaga ng ang tinukoy na relasyon. Gamit ang mga talahanayan, tinutukoy ang kritikal (threshold) na halaga ng pamantayan ng Fisher. Tinatawag din itong teoretikal. Pagkatapos ay sinusuri nila, sa pamamagitan ng paghahambing nito sa katumbas na empirical (aktwal) na halaga ng criterion na kinakalkula mula sa data ng pagmamasid, kung ang aktwal na halaga ng ratio ay lumampas sa kritikal na halaga mula sa mga talahanayan.

Ginagawa ito nang mas detalyado tulad nito. Pumili ng isang naibigay na antas ng posibilidad ng pagkakaroon ng null hypothesis at hanapin mula sa mga talahanayan ang kritikal na halaga ng F-criterion, kung saan ang isang random na pagkakaiba-iba ng mga pagkakaiba sa pamamagitan ng 1 degree ng kalayaan ay maaari pa ring mangyari, i.e. ang pinakamataas na halaga. Pagkatapos, ang kinakalkula na halaga ng F-ratio ay itinuturing na maaasahan (ibig sabihin, pagpapahayag ng pagkakaiba sa pagitan ng aktwal at natitirang mga pagkakaiba-iba) kung ang ratio na ito ay mas malaki kaysa sa naka-tabulate. Pagkatapos ang null hypothesis ay tinanggihan (ito ay hindi totoo na walang mga palatandaan ng isang koneksyon) at, sa kabaligtaran, dumating tayo sa konklusyon na mayroong isang koneksyon at ito ay makabuluhan (ito ay hindi random, makabuluhan).

Kung ang halaga ng relasyon ay lumabas na mas mababa kaysa sa naka-tabulate, kung gayon ang posibilidad ng null hypothesis ay lumalabas na mas mataas kaysa sa tinukoy na antas (na unang pinili) at ang null hypothesis ay hindi maaaring tanggihan nang walang kapansin-pansing panganib ng pagkuha ng maling konklusyon tungkol sa pagkakaroon ng isang relasyon. Alinsunod dito, ang equation ng regression ay itinuturing na hindi gaanong mahalaga.

Ang halaga ng F-criterion mismo ay nauugnay sa coefficient of determination. Bilang karagdagan sa pagtatasa ng kahalagahan ng regression equation sa kabuuan, ang kahalagahan ng mga indibidwal na parameter ng regression equation ay tinasa din. Sa kasong ito, ang standard error ng regression coefficient ay tinutukoy gamit ang empirical actual standard deviation at ang empirical variance sa bawat antas ng kalayaan. Ang distribusyon ng Mag-aaral ay pagkatapos ay ginagamit upang subukan ang kahalagahan ng koepisyent ng regression upang kalkulahin ang mga agwat ng kumpiyansa nito.

Ang pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's t-test ay isinasagawa sa pamamagitan ng paghahambing ng mga halaga ng mga dami na ito at ang karaniwang error. Ang laki ng error ng linear regression na mga parameter at ang correlation coefficient ay tinutukoy ng mga sumusunod na formula:

kung saan ang S ay ang root mean square residual sample deviation,

r xy – koepisyent ng ugnayan.

Alinsunod dito, ang halaga ng karaniwang error na hinulaang ng linya ng regression ay ibinibigay ng formula:

Ang kaukulang ratios ng mga halaga ng regression at correlation coefficients sa kanilang karaniwang error ay bumubuo ng tinatawag na t-statistics, at ang paghahambing ng kaukulang tabulated (kritikal) na halaga at ang aktwal na halaga nito ay nagpapahintulot sa isa na tanggapin o tanggihan ang null hypothesis. Ngunit pagkatapos, upang kalkulahin ang agwat ng kumpiyansa, ang pinakamataas na error para sa bawat tagapagpahiwatig ay matatagpuan bilang produkto ng halaga ng tabular ng t statistic sa pamamagitan ng average na random na error ng kaukulang tagapagpahiwatig. Sa katunayan, isinulat namin ito nang medyo naiiba sa itaas. Pagkatapos ang mga hangganan ng mga agwat ng kumpiyansa ay nakuha: ang mas mababang limitasyon ay sa pamamagitan ng pagbabawas ng kaukulang marginal error mula sa kaukulang mga coefficient (talagang ang average), at ang itaas na limitasyon ay sa pamamagitan ng pagdaragdag (pagdaragdag).

Sa linear regression ∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2. Madali itong i-verify sa pamamagitan ng pagtukoy sa formula para sa linear correlation coefficient: r 2 xy = b 2 *σ 2 x /σ 2 y

kung saan ang σ 2 y ay ang kabuuang pagkakaiba ng katangian y;

σ 2 x - pagpapakalat ng katangiang y dahil sa salik na x. Alinsunod dito, ang kabuuan ng mga squared deviations dahil sa linear regression ay magiging:

∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2 .

Dahil, para sa isang naibigay na dami ng mga obserbasyon sa x at y, ang factor sum ng mga parisukat sa linear regression ay nakasalalay lamang sa isang pare-pareho ng coefficient ng regression b, kung gayon ang kabuuan ng mga parisukat na ito ay may isang antas ng kalayaan. Isaalang-alang natin ang bahagi ng nilalaman ng kinakalkula na halaga ng katangiang y i.e. y x. Ang halaga y x ay tinutukoy ng linear regression equation: y x ​​​​= a + bx.

Ang parameter a ay maaaring tukuyin bilang a=y-bx. Ang pagpapalit ng expression para sa parameter a sa linear na modelo, makuha namin ang: y x ​​​​=y-bx+bx avg =y-b(x-x avg).

Para sa isang naibigay na hanay ng mga variable na y at x, ang kinakalkula na halaga ng y x sa linear regression ay isang function ng isang parameter lamang - ang regression coefficient. Alinsunod dito, ang factor sum ng squared deviations ay may bilang ng mga degree ng kalayaan na katumbas ng 1.

May pagkakapantay-pantay sa pagitan ng bilang ng mga antas ng kalayaan ng kabuuan, salik at mga natitirang kabuuan ng mga parisukat. Ang bilang ng mga antas ng kalayaan ng natitirang kabuuan ng mga parisukat sa linear regression ay (n-2). Ang bilang ng mga antas ng kalayaan para sa kabuuang kabuuan ng mga parisukat ay tinutukoy ng bilang ng mga iyon, at dahil ginagamit namin ang average na kinakalkula mula sa sample na data, nawalan kami ng isang antas ng kalayaan, i.e. (n-1). Kaya, mayroon tayong dalawang pagkakapantay-pantay: para sa mga kabuuan at para sa bilang ng mga antas ng kalayaan. At ito, sa turn, ay nagbabalik sa atin sa maihahambing na mga pagkakaiba-iba sa bawat antas ng kalayaan, ang ratio kung saan ay nagbibigay sa Fisher criterion.

25. Pagtatasa ng kahalagahan ng mga indibidwal na parameter ng regression equation at coefficients gamit ang Student's test.

27. Linear at nonlinear regression at mga pamamaraan para sa kanilang pag-aaral.

Ang linear regression at ang mga pamamaraan ng pananaliksik at pagsusuri nito ay hindi magiging napakahalaga kung, bilang karagdagan sa napakahalagang ito, ngunit ang pinakasimpleng kaso, hindi namin nakuha sa kanilang tulong ang isang tool para sa pagsusuri ng mas kumplikadong nonlinear dependencies. Ang mga nonlinear na regression ay maaaring nahahati sa dalawang makabuluhang magkaibang klase. Ang una at mas simple ay ang klase ng nonlinear dependencies kung saan mayroong nonlinearity na may kinalaman sa mga paliwanag na variable, ngunit nananatiling linear sa mga parameter na kasama sa mga ito at napapailalim sa pagsusuri. Kabilang dito ang mga polynomial ng iba't ibang degree at isang equilateral hyperbola.

Ang nasabing nonlinear regression para sa mga variable na kasama sa paliwanag sa pamamagitan ng simpleng pagbabago (pagpapalit) ng mga variable ay madaling maibaba sa ordinaryong linear regression para sa mga bagong variable. Samakatuwid, ang pagtatantya ng mga parameter sa kasong ito ay isinasagawa lamang ng hindi bababa sa mga parisukat, dahil ang mga dependency ay linear sa mga parameter. Kaya, ang isang mahalagang papel sa ekonomiya ay nilalaro ng hindi linear na pag-asa na inilarawan ng isang equilateral hyperbola:

Ang mga parameter nito ay mahusay na nasuri gamit ang hindi bababa sa mga parisukat na pamamaraan, at ang pagtitiwala na ito mismo ay nagpapakilala sa koneksyon sa pagitan ng mga tiyak na gastos ng mga hilaw na materyales, gasolina, mga materyales na may dami ng output, ang oras ng sirkulasyon ng mga kalakal at lahat ng mga salik na ito sa dami ng kalakalan turnover. Halimbawa, ang kurba ng Phillips ay nagpapakita ng hindi linear na relasyon sa pagitan ng antas ng kawalan ng trabaho at ang porsyento ng paglago ng sahod.

Ang sitwasyon ay ganap na naiiba sa regression na nonlinear sa mga parameter na tinatantya, halimbawa, kinakatawan ng isang power function, kung saan ang degree mismo (ang exponent nito) ay isang parameter, o depende sa parameter. Maaari rin itong maging isang exponential function, kung saan ang base ng degree ay isang parameter at isang exponential function, kung saan muli ang indicator ay naglalaman ng isang parameter o isang kumbinasyon ng mga parameter. Ang klase na ito, sa turn, ay nahahati sa dalawang subclass: kabilang sa isa ang panlabas na nonlinear, ngunit mahalagang panloob na linear. Sa kasong ito, maaari mong dalhin ang modelo sa isang linear na anyo gamit ang mga pagbabagong-anyo. Gayunpaman, kung ang modelo ay panloob na nonlinear, hindi ito maaaring bawasan sa isang linear na function.

Kaya, ang mga modelo lamang na intrinsically nonlinear sa regression analysis ay itinuturing na tunay na nonlinear. Ang lahat ng iba pa, na maaaring bawasan sa linear sa pamamagitan ng mga pagbabagong-anyo, ay hindi itinuturing na ganoon, at sila ang pinakamadalas na itinuturing sa mga pag-aaral ng ekonometriko. Kasabay nito, hindi ito nangangahulugan na imposibleng pag-aralan ang mahalagang nonlinear na dependencies sa econometrics. Kung ang modelo ay panloob na nonlinear sa mga parameter nito, kung gayon ang mga umuulit na pamamaraan ay ginagamit upang tantiyahin ang mga parameter, ang tagumpay nito ay nakasalalay sa uri ng equation para sa mga tampok ng umuulit na pamamaraan na ginamit.

Bumalik tayo sa mga dependency na binawasan sa linear. Kung ang mga ito ay nonlinear pareho sa mga parameter at sa mga variable, halimbawa, ng anyong y = a na pinarami ng kapangyarihan ng X, ang exponent nito ay ang parameter -  (beta):

Malinaw, ang gayong relasyon ay madaling ma-convert sa isang linear equation sa pamamagitan ng simpleng logarithm.

Matapos ipasok ang mga bagong variable na nagsasaad ng logarithms, isang linear equation ang nakuha. Ang pamamaraan para sa pagtatantya ng regression ay binubuo ng pagkalkula ng mga bagong variable para sa bawat obserbasyon sa pamamagitan ng pagkuha ng logarithms ng orihinal na mga halaga. Pagkatapos ay tinatantya ang regression dependence ng mga bagong variable. Upang pumunta sa orihinal na mga variable, dapat mong kunin ang antilogarithm, iyon ay, aktwal na bumalik sa mga kapangyarihan sa halip na ang kanilang mga exponents (pagkatapos ng lahat, ang logarithm ay ang exponent). Ang kaso ng exponential o exponential function ay maaaring isaalang-alang nang katulad.

Para sa isang makabuluhang nonlinear na regression, hindi posibleng ilapat ang karaniwang pamamaraan ng pagtatantya ng regression dahil hindi mako-convert sa linear ang kaukulang relasyon. Ang pangkalahatang pamamaraan ng mga aksyon ay ang mga sumusunod:

1. Tinatanggap ang ilang posibleng paunang halaga ng parameter;

2. Ang hinulaang mga halaga ng Y ay kinakalkula mula sa aktwal na mga halaga ng X gamit ang mga halaga ng parameter na ito;

3. Kinakalkula ang mga nalalabi para sa lahat ng mga obserbasyon sa sample at pagkatapos ay ang kabuuan ng mga parisukat ng mga nalalabi;

4. Ginagawa ang maliliit na pagbabago sa isa o higit pang mga pagtatantya ng parameter;

5. Ang mga bagong hinulaang halaga ng Y, mga nalalabi at kabuuan ng mga parisukat ng mga nalalabi ay kinakalkula;

6. Kung ang kabuuan ng mga parisukat ng mga nalalabi ay mas mababa kaysa dati, kung gayon ang mga bagong pagtatantya ng parameter ay mas mahusay kaysa sa mga nauna at dapat gamitin bilang isang bagong panimulang punto;

7. Ang mga hakbang 4, 5 at 6 ay inuulit muli hanggang sa maging imposible na gawin ang mga naturang pagbabago sa mga pagtatantya ng parameter na hahantong sa pagbabago sa kabuuan ng mga nalalabi ng mga parisukat;

8. Napagpasyahan na ang kabuuan ng mga parisukat na residual ay pinaliit at ang panghuling mga pagtatantya ng parameter ay hindi bababa sa mga pagtatantya ng parisukat.

Kabilang sa mga nonlinear function na maaaring bawasan sa linear na anyo, malawakang ginagamit ang power function sa econometrics. Ang parameter b dito ay may malinaw na interpretasyon, bilang isang koepisyent ng pagkalastiko. Sa mga modelong nonlinear sa mga tinantyang parameter, ngunit maaaring bawasan sa linear na anyo, ang paraan ng least squares ay inilalapat sa mga binagong equation. Ang praktikal na paggamit ng logarithms at, nang naaayon, ang mga exponent ay posible kapag ang resultang sign ay walang mga negatibong halaga. Kapag pinag-aaralan ang mga ugnayan sa pagitan ng mga function gamit ang logarithm ng resultang attribute, ang mga dependency sa power-law ay nangingibabaw sa econometrics (demand at supply curves, production function, absorption curves upang makilala ang relasyon sa pagitan ng labor intensity ng mga produkto, ang sukat ng produksyon, ang dependence ng GNI sa antas ng trabaho, Engel curves).

28. Baliktad na modelo at paggamit nito

Minsan ang tinatawag na inverse model ay ginagamit, na panloob na nonlinear, ngunit sa loob nito, hindi katulad ng isang equilateral hyperbola, hindi ang paliwanag na variable na napapailalim sa pagbabago, ngunit ang nagresultang katangian na Y. Samakatuwid, ang kabaligtaran na modelo ay lumalabas sa maging panloob na nonlinear at ang kinakailangan ng OLS ay hindi nasiyahan para sa aktwal na mga halaga ng nagresultang katangian Y, at para sa kanilang mga kabaligtaran na halaga. Ang pag-aaral ng ugnayan para sa nonlinear regression ay nararapat na espesyal na pansin. Sa pangkalahatang kaso, ang isang parabola ng pangalawang antas, tulad ng mga polynomial ng mas mataas na pagkakasunud-sunod, kapag ang linearized ay nasa anyo ng isang multiple regression equation. Kung, kapag linearized, ang isang regression equation na nonlinear na may paggalang sa ipinaliwanag na variable ay tumatagal ng anyo ng isang linear paired regression equation, pagkatapos ay isang linear correlation coefficient ay maaaring gamitin upang masuri ang lapit ng relasyon.

Kung ang mga pagbabagong-anyo ng equation ng regression sa linear form ay nauugnay sa dependent variable (resultang katangian), kung gayon ang linear correlation coefficient batay sa mga binagong halaga ng mga katangian ay nagbibigay lamang ng tinatayang pagtatantya ng relasyon at hindi tumutugma sa numero sa index ng ugnayan. Dapat tandaan na kapag kinakalkula ang index ng ugnayan, ang mga kabuuan ng mga parisukat na paglihis ng nagresultang katangian Y ang ginagamit, at hindi ang kanilang mga logarithms. Ang pagtatasa sa kahalagahan ng index ng ugnayan ay ginagawa sa parehong paraan tulad ng pagtatasa sa pagiging maaasahan (kahalagahan) ng koepisyent ng ugnayan. Ang correlation index mismo, tulad ng determination index, ay ginagamit upang subukan ang kabuuang kahalagahan ng nonlinear regression equation gamit ang Fisher F test.

Tandaan na ang posibilidad ng pagbuo ng mga nonlinear na modelo, kapwa sa pamamagitan ng pagbabawas ng mga ito sa isang linear na anyo at sa pamamagitan ng paggamit ng nonlinear regression, sa isang banda, ay nagpapataas ng universality ng regression analysis. Sa kabilang banda, ito ay makabuluhang nagpapakumplikado sa mga gawain ng mananaliksik. Kung nililimitahan natin ang ating sarili sa paired regression analysis, maaari nating i-plot ang mga obserbasyon Y at X bilang scatter plot. Kadalasan ay tinatayang mga obserbasyon ang ilang iba't ibang nonlinear na function kung nasa isang curve ang mga ito. Ngunit sa kaso ng maramihang pagsusuri ng regression, ang naturang graph ay hindi maaaring gawin.

Kung isasaalang-alang ang mga alternatibong modelo na may parehong kahulugan ng dependent variable, ang pamamaraan ng pagpili ay medyo simple. Maaaring tantiyahin ng isang tao ang isang regression batay sa lahat ng kapani-paniwalang function na maaaring isipin at piliin ang function na pinaka nagpapaliwanag ng pagbabago sa dependent variable. Malinaw na kapag ang isang linear na function ay nagpapaliwanag ng humigit-kumulang 64% ng variance sa y, at ang isang hyperbolic function ay nagpapaliwanag ng 99.9%, ang huli ay dapat na malinaw na napili. Pero kailan iba't ibang modelo gumamit ng iba't ibang mga functional form, ang problema sa pagpili ng isang modelo ay nagiging mas kumplikado.

29. Gamit ang Box-Cox test.

Sa pangkalahatan, kapag isinasaalang-alang ang mga alternatibong modelo na may parehong kahulugan ng dependent variable, ang pagpili ay simple. Ito ay pinaka-makatwirang tantiyahin ang regression batay sa lahat ng mga kapani-paniwalang function, na tumutuon sa function na pinaka nagpapaliwanag ng pagbabago sa dependent variable. Kung ang koepisyent ng determinasyon ay sumusukat, sa isang kaso, ang proporsyon ng pagkakaiba-iba na ipinaliwanag ng regression, at sa kabilang banda, ang proporsyon ng pagkakaiba-iba sa logarithm ng umaasang variable na ito na ipinaliwanag ng regression, kung gayon ang pagpili ay ginawa nang walang kahirapan. Ito ay isa pang bagay kapag ang mga halagang ito para sa dalawang modelo ay napakalapit at ang problema sa pagpili ay nagiging mas kumplikado.

Ang karaniwang pamamaraan sa anyo ng pagsubok sa Box-Cox ay dapat na ilapat. Kung kailangan mo lamang ihambing ang mga modelo gamit ang epektibong kadahilanan at ang logarithm nito sa anyo ng isang variant ng dependent variable, pagkatapos ay isang bersyon ng pagsubok na Zarembka ang ginagamit. Nagmumungkahi ito ng pagbabago ng sukat ng pagmamasid Y, na nagbibigay-daan sa direktang paghahambing ng root mean square error (MSE) sa mga linear at logarithmic na modelo. Kasama sa kaukulang pamamaraan ang mga sumusunod na hakbang:

    Ang geometric na ibig sabihin ng mga halaga ng Y sa sample ay kinakalkula, na tumutugma sa exponent ng arithmetic mean ng logarithm ng Y;

    Ang mga obserbasyon Y ay muling kinakalkula sa paraang nahahati sila sa halagang nakuha sa unang hakbang;

    Ang regression ay tinatantya para sa isang linear na modelo gamit ang mga naka-scale na halaga ng Y sa halip na ang orihinal na mga halaga ng Y, at para sa isang logarithmic na modelo na gumagamit ng logarithm ng mga naka-scale na halaga ng Y. Ang mga halaga ng RMSE para sa dalawang regression ay maihahambing na ngayon at samakatuwid ang modelo na may mas maliit na kabuuan ng mga squared deviations ay nagbibigay ng mas mahusay na akma sa tunay na kaugnayan ng mga naobserbahang halaga;

    Upang masuri na ang isa sa mga modelo ay hindi nagbibigay ng isang makabuluhang mas mahusay na akma, maaaring gamitin ng isa ang produkto ng kalahati ng bilang ng mga obserbasyon at ang logarithm ng ratio ng mga halaga ng karaniwang paglihis sa muling pagkalkula ng mga regression, at pagkatapos ay kunin ang ganap na halaga ng halagang ito.

30. Mga konsepto ng intercorrelation at multicollinearity ng mga salik.

34. Mga Batayan ng MNC at ang bisa ng aplikasyon nito.

Bumaling tayo ngayon sa mga pangunahing kaalaman ng OLS, ang bisa ng aplikasyon nito (kabilang ang maraming problema sa regression) at ang pinakamahalagang katangian ng mga pagtatantya na nakuha gamit ang OLS. Magsimula tayo sa katotohanan na, kasama ang analytical dependence sa kanang bahagi equation ng regression Ang random na termino ay gumaganap din ng isang mahalagang papel. Ang random na bahaging ito ay isang hindi mapapansing dami. Sami mga pagsusulit sa istatistika ang mga parameter ng regression at mga sukat ng ugnayan ay batay sa hindi masusubok na mga pagpapalagay tungkol sa pamamahagi ng random na bahaging ito ng maramihang regression. Ang mga pagpapalagay na ito ay preliminary lamang. Pagkatapos lamang mabuo ang equation ng regression ay susuriin kung ang mga pagtatantya ng mga random na nalalabi (empirical analogues ng random na bahagi) ay may mga katangian na ipinapalagay na priori. Mahalaga, kapag ang mga parameter ng modelo ay tinantya, ang mga pagkakaiba sa pagitan ng teoretikal at aktwal na mga halaga ng nagresultang katangian ay kinakalkula upang sa gayon ay matantya ang random na bahagi mismo. Mahalagang tandaan na isa lamang itong halimbawang pagpapatupad ng hindi kilalang natitira sa isang ibinigay na equation.

Ang mga regression coefficient na nakuha mula sa isang sistema ng mga normal na equation ay mga sample na pagtatantya ng lakas ng relasyon. Malinaw na ang mga ito ay may praktikal na kahalagahan lamang kapag sila ay walang kinikilingan. Alalahanin natin na sa kasong ito ang mean ng mga nalalabi ay katumbas ng zero, o, na pareho, ang mean ng pagtatantya ay katumbas ng tinantyang parameter mismo. Kung gayon ang mga nalalabi ay hindi maiipon sa isang malaking bilang ng mga sample na pagtatantya, at ang nahanap na parameter ng regression mismo ay maaaring ituring bilang ang average ng isang malaking bilang ng mga walang pinapanigan na mga pagtatantya.

Bilang karagdagan, ang mga pagtatantya ay dapat magkaroon ng pinakamaliit na pagkakaiba, i.e. maging epektibo at pagkatapos ay magiging posible na lumipat mula sa halos hindi nagagamit na mga pagtatantya ng punto patungo sa pagtatantya ng agwat. Sa wakas, ang mga agwat ng kumpiyansa ay kapaki-pakinabang kapag ang posibilidad na makakuha ng pagtatantya sa isang naibigay na distansya mula sa tunay (hindi alam) na halaga ng parameter ay malapit sa isa. Ang ganitong mga pagtatantya ay tinatawag na pare-pareho at ang pag-aari ng pagkakapare-pareho ay nailalarawan sa pamamagitan ng pagtaas sa kanilang katumpakan sa pagtaas ng laki ng sample.

Gayunpaman, ang kondisyon ng pagkakapare-pareho ay hindi awtomatikong nasiyahan at mahalagang nakasalalay sa katuparan ng sumusunod na dalawang mahahalagang kinakailangan. Una, ang mga residual mismo ay dapat na stochastic na may pinaka-binibigkas na randomness, i.e. lahat ng malinaw na functional dependencies ay dapat na partikular na isama sa analytical component ng multiple regression, at bilang karagdagan, ang mga value ng residual ay dapat na ibinahagi nang hiwalay sa isa't isa para sa iba't ibang sample (walang autocorrelation ng mga residual). Ang pangalawa, hindi gaanong mahalagang kinakailangan ay ang pagkakaiba-iba ng bawat paglihis (nalalabi) ay magkapareho para sa lahat ng mga halaga ng mga variable na X (homoscedasticity). Yung. Ang homoscedasticity ay ipinahayag sa pamamagitan ng patuloy na pagkakaiba para sa lahat ng mga obserbasyon:

Sa kabaligtaran, ang heteroscedasticity ay ang paglabag sa naturang patuloy na pagkakaiba-iba para sa iba't ibang mga obserbasyon. Sa kasong ito, ang a priori (bago ang mga obserbasyon) na posibilidad na makakuha ng mataas na lihis na mga halaga na may iba't ibang teoretikal na pamamahagi ng random na termino para sa iba't ibang mga obserbasyon sa sample ay magiging medyo mataas.

Ang autocorrelation ng mga nalalabi, o ang pagkakaroon ng isang ugnayan sa pagitan ng mga nalalabi ng kasalukuyan at nakaraang (kasunod) na mga obserbasyon, ay tinutukoy ng halaga ng karaniwang linear correlation coefficient. Kung ito ay makabuluhang naiiba mula sa zero, kung gayon ang mga nalalabi ay autocorrelated at, samakatuwid, ang probability density function (pamamahagi ng mga nalalabi) ay nakasalalay sa punto ng pagmamasid at sa pamamahagi ng mga natitirang halaga sa iba pang mga punto ng pagmamasid. Ito ay maginhawa upang matukoy ang autocorrelation ng mga nalalabi gamit ang magagamit na istatistikal na impormasyon kung mayroong isang pagkakasunud-sunod ng mga obserbasyon sa pamamagitan ng kadahilanan X. Ang kawalan ng autocorrelation ng mga nalalabi ay nagsisiguro sa pagkakapare-pareho at pagiging epektibo ng mga pagtatantya ng mga coefficient ng regression.

35. Homoscedasticity at heteroscedasticity, autocorrelation ng mga residual, generalized least squares (GLM).

Ang pagkakapareho ng mga pagkakaiba-iba ng mga nalalabi para sa lahat ng mga halaga ng mga variable na X, o homoscedasticity, ay talagang kinakailangan din upang makakuha ng pare-parehong mga pagtatantya ng mga parameter ng regression gamit ang OLS. Ang pagkabigong matugunan ang kondisyon ng homoscedasticity ay humahantong sa tinatawag na heteroscedasticity. Maaari itong humantong sa mga may kinikilingang pagtatantya ng mga coefficient ng regression. Pangunahing makakaapekto ang heteroscedasticity sa pagbawas sa kahusayan ng mga pagtatantya ng coefficient ng regression. Sa kasong ito, nagiging mahirap lalo na ang paggamit ng formula para sa karaniwang error ng coefficient ng regression, ang paggamit nito ay ipinapalagay ang isang pare-parehong pagpapakalat ng mga nalalabi para sa anumang mga halaga ng kadahilanan. Tulad ng para sa walang kinikilingan ng mga pagtatantya ng mga coefficient ng regression, pangunahin itong nakasalalay sa kalayaan ng mga nalalabi at ang mga halaga ng mga kadahilanan mismo.

Ang isang medyo malinaw, kahit na hindi mahigpit at nangangailangan ng kasanayan na paraan upang masubukan ang homoscedasticity ay ang graphical na pag-aaral ng kalikasan ng pag-asa ng mga nalalabi sa average na kinakalkula (teoretikal) na resultang katangian, o ang kaukulang mga patlang ng ugnayan. Ang mga pamamaraan ng analitikal para sa pag-aaral at pagtatasa ng heteroscedasticity ay mas mahigpit. Kung mayroong isang makabuluhang presensya ng heteroscedasticity, ipinapayong gumamit ng pangkalahatang OLS (GLM) sa halip na OLS.

Bilang karagdagan sa mga kinakailangan para sa maramihang regression na nagmumula sa paggamit ng OLS, kinakailangan ding sumunod sa mga kondisyon sa mga variable na kasama sa modelo. Ang mga ito, una sa lahat, ay kinabibilangan ng mga kinakailangan tungkol sa bilang ng mga salik ng modelo para sa isang naibigay na dami ng mga obserbasyon (1 hanggang 7). Kung hindi, ang mga parameter ng regression ay hindi gaanong mahalaga sa istatistika. Mula sa punto ng view ng pagiging epektibo ng paglalapat ng kaukulang mga numerical na pamamaraan kapag nagpapatupad ng LSM, kinakailangan na ang bilang ng mga obserbasyon ay lumampas sa bilang ng mga tinantyang parameter (sa isang sistema ng mga equation, ang bilang ng mga equation ay mas malaki kaysa sa bilang ng mga hinahangad. mga variable).

Ang pinakamahalagang tagumpay ng econometrics ay ang makabuluhang pag-unlad ng mga pamamaraan para sa pagtatantya ng hindi kilalang mga parameter at ang pagpapabuti ng pamantayan para sa pagtukoy ng static na kahalagahan ng mga epektong isinasaalang-alang. Kaugnay nito, ang imposibilidad o kawalan ng kakayahang gumamit ng tradisyonal na OLS dahil sa heteroskedasticity na ipinakita sa iba't ibang antas ay humantong sa pagbuo ng isang pangkalahatang OLS (GLM). Sa katunayan, kabilang dito ang pagsasaayos ng modelo, pagbabago ng detalye nito, at pagbabago sa orihinal na data upang matiyak na walang pinapanigan, mahusay, at pare-pareho ang mga pagtatantya ng mga koepisyent ng regression.

Ipinapalagay na ang average ng mga nalalabi ay zero, ngunit ang kanilang dispersion ay hindi na pare-pareho, ngunit proporsyonal sa mga halaga ng K i, kung saan ang mga halagang ito ay proportionality coefficients na naiiba para sa iba't ibang mga halaga ng salik x. Kaya, ang mga coefficient na ito (mga halaga ng K i) ang nagpapakilala sa heterogeneity ng dispersion. Naturally, pinaniniwalaan na ang halaga ng pagpapakalat mismo, na isang karaniwang kadahilanan para sa mga koepisyent ng proporsyonalidad na ito, ay hindi alam.

Ang orihinal na modelo, pagkatapos na ipasok ang mga coefficient na ito sa multiple regression equation, ay patuloy na nananatiling heteroskedastic (mas tiyak, ito ang mga natitirang halaga ng modelo). Hayaang ang mga nalalabi (nalalabi) na ito ay hindi autocorrelated. Ipakilala natin ang mga bagong variable na nakuha sa pamamagitan ng paghahati sa mga inisyal na variable ng modelo na naitala bilang resulta ng i-th observation ng square root ng proportionality coefficients K i . Pagkatapos ay kumuha tayo ng bagong equation sa mga nabagong variable, kung saan ang mga nalalabi ay magiging homoscedastic. Ang mga bagong variable mismo ay may timbang na lumang (orihinal) na mga variable.

Samakatuwid, ang pagtatantya ng mga parameter ng bagong equation na nakuha sa paraang ito na may mga homoscedastic residual ay mababawasan sa weighted least squares method (sa esensya, ito ang paraan ng OLS). Kapag ginamit sa halip na ang mga variable ng regression mismo, ang kanilang mga paglihis mula sa mga average, ang mga expression para sa mga coefficient ng regression ay tumatagal sa isang simple at standardized (uniporme) na anyo, bahagyang naiiba para sa OLS at OLS sa pamamagitan ng correction factor 1/K sa numerator at denominator ng fraction na nagbibigay ng regression coefficient.

Dapat tandaan na ang mga parameter ng nabagong (naayos) na modelo ay makabuluhang nakasalalay sa kung anong konsepto ang ginamit bilang batayan para sa mga koepisyent ng proporsyonalidad K i. Madalas na ipinapalagay na ang mga nalalabi ay proporsyonal lamang sa mga halaga ng kadahilanan. Ang modelo ay tumatagal ng pinakasimpleng anyo nito kapag tinanggap ang hypothesis na ang mga error ay proporsyonal sa mga halaga ng huling kadahilanan sa pagkakasunud-sunod. Pagkatapos ay ginagawang posible ng OLS na dagdagan ang bigat ng mga obserbasyon na may mas maliliit na halaga ng mga nabagong variable kapag tinutukoy ang mga parameter ng regression kumpara sa pagpapatakbo ng karaniwang OLS na may mga orihinal na variable na pinagmulan. Ngunit ang mga bagong variable na ito ay nakakatanggap na ng ibang pang-ekonomiyang nilalaman.

Ang hypothesis tungkol sa proporsyonalidad ng mga nalalabi sa laki ng salik ay maaaring may tunay na batayan. Hayaang maproseso ang isang tiyak na hindi sapat na homogenous na set ng data, halimbawa, kasama ang malaki at maliliit na negosyo nang sabay. Kung gayon ang malalaking volumetric na halaga ng kadahilanan ay maaaring tumutugma sa parehong isang malaking pagpapakalat ng nagresultang katangian at isang malaking pagpapakalat ng mga natitirang halaga. Dagdag pa, ang paggamit ng OLS at ang kaukulang paglipat sa mga kamag-anak na halaga ay hindi lamang binabawasan ang pagkakaiba-iba ng kadahilanan, ngunit binabawasan din ang pagkakaiba-iba ng error. Kaya, ang pinakasimpleng kaso ng pagsasaalang-alang at pagwawasto ng heteroskedasticity sa mga modelo ng regression ay natanto sa pamamagitan ng paggamit ng OLS.

Ang diskarte sa itaas sa pagpapatupad ng OLS sa anyo ng may timbang na OLS ay medyo praktikal - ito ay ipinatupad lamang at may malinaw na interpretasyong pang-ekonomiya. Siyempre, hindi ito ang pinakapangkalahatang diskarte, at sa konteksto ng mga istatistika ng matematika, na nagsisilbing teoretikal na batayan ng econometrics, inaalok kami ng mas mahigpit na pamamaraan na nagpapatupad ng OLS sa mismong pangkalahatang pananaw. Sa loob nito, kailangan mong malaman ang covariance matrix ng error vector (residual column). At ito ay karaniwang hindi patas sa mga praktikal na sitwasyon, at maaaring imposibleng mahanap ang matrix na ito bilang ganoon. Samakatuwid, sa pangkalahatan, kinakailangan na kahit papaano ay tantiyahin ang kinakailangang matrix upang magamit ang naturang pagtatantya sa kaukulang mga formula sa halip na ang matrix mismo. Kaya, ang inilarawang bersyon ng pagpapatupad ng OMNC ay kumakatawan sa isa sa mga naturang pagtatantya. Minsan ito ay tinatawag na accessible generalized least squares.

Dapat ding isaalang-alang na ang coefficient of determination ay hindi maaaring magsilbi bilang isang kasiya-siyang sukatan ng kalidad ng fit kapag gumagamit ng OLS. Sa pagbabalik sa paggamit ng OLS, napapansin din namin na ang paraan ng paggamit ng mga standard deviations (standard errors) sa White form (ang tinatawag na consistent standard errors sa presensya ng heteroscedasticity) ay may sapat na generality. Ang pamamaraang ito ay naaangkop sa kondisyon na ang covariance matrix ng error vector ay dayagonal. Kung mayroong autocorrelation ng mga nalalabi (error), kapag may mga non-zero na elemento (coefficients) sa covariance matrix at sa labas ng pangunahing dayagonal, kung gayon ang isang mas pangkalahatang karaniwang paraan ng error sa Neve West form ay dapat gamitin. Mayroong isang makabuluhang limitasyon: ang mga di-zero na elemento, bilang karagdagan sa pangunahing dayagonal, ay matatagpuan lamang sa mga katabing diagonal, na may pagitan mula sa pangunahing dayagonal ng hindi hihigit sa isang tiyak na halaga.

Mula sa itaas ay malinaw na kinakailangan upang masuri ang data para sa heteroscedasticity. Ang mga pagsubok sa ibaba ay nagsisilbi sa layuning ito. Sinusubukan nila ang pangunahing hypothesis tungkol sa pagkakapantay-pantay ng mga pagkakaiba-iba ng mga residual laban sa alternatibong hypothesis (tungkol sa hindi pagkakapantay-pantay ng mga hypothesis na ito). Bilang karagdagan, mayroong isang priori structural constraints sa likas na katangian ng heteroscedasticity. Karaniwang ginagamit ng Goldfeld-Quandt test ang pagpapalagay na ang error variance (residual) ay direktang nakadepende sa halaga ng ilang independent variable. Ang pamamaraan para sa paggamit ng pagsusulit na ito ay ang mga sumusunod. Una, inayos ang data sa pababang pagkakasunud-sunod ng independent variable kung saan pinaghihinalaan ang heteroscedasticity. Ang nakaayos na set ng data na ito ay nag-aalis ng karaniwang ilang obserbasyon, kung saan ang salitang "kaunti" ay nangangahulugang humigit-kumulang isang-kapat (25%) ng kabuuang bilang lahat ng obserbasyon. Susunod, dalawang independiyenteng regression ang pinapatakbo sa una sa natitirang (pagkatapos ng elimination) average na mga obserbasyon at ang huling dalawa sa natitirang average na mga obserbasyon. Pagkatapos nito, ang dalawang katumbas na natitira ay itinayo. Sa wakas, ang istatistika ng Fisher F ay pinagsama-sama at kung ang hypothesis na pinag-aaralan ay totoo, kung gayon ang F ay talagang ang pamamahagi ng Fisher na may naaangkop na antas ng kalayaan. Kung gayon ang isang malaking halaga ng istatistikang ito ay nangangahulugan na ang hypothesis na sinusuri ay dapat tanggihan. Kung wala ang hakbang sa pag-aalis, ang kapangyarihan ng pagsubok na ito ay nababawasan.

Ang Breusch-Pagan test ay ginagamit sa mga kaso kung saan ito ay isang priori na ipinapalagay na ang mga pagkakaiba ay nakasalalay sa ilang karagdagang mga variable. Una, ang ordinaryong (karaniwang) regression ay ginaganap at ang isang vector ng mga residual ay nakuha. Pagkatapos ay isang pagtatantya ng pagkakaiba ay itinayo. Susunod, ang isang regression ng squared vector ng mga residual na hinati sa empirical variance (variance estimate) ay isinasagawa. Para dito (regression), matatagpuan ang ipinaliwanag na bahagi ng variation. At para sa ipinaliwanag na bahagi ng pagkakaiba-iba, na hinati sa kalahati, ang mga istatistika ay binuo. Kung ang null hypothesis ay totoo (walang heteroskedasticity ang totoo), kung gayon ang halagang ito ay may distribusyon hee-parisukat. Kung ang pagsubok, sa kabaligtaran, ay nagpapakita ng heteroskedasticity, kung gayon ang orihinal na modelo ay binago sa pamamagitan ng paghati sa mga bahagi ng vector ng mga nalalabi sa mga kaukulang bahagi ng vector ng mga sinusunod na independiyenteng mga variable.

36. Pamamaraan ng standard deviation sa White form.

Ang mga sumusunod na konklusyon ay maaaring iguhit. Ang paggamit ng OLS sa pagkakaroon ng heteroskedasticity ay bumababa sa pagliit ng kabuuan ng mga weighted squared deviations. Ang paggamit ng available na OLS ay nauugnay sa pangangailangang magkaroon ng malaking bilang ng mga obserbasyon na lampas sa bilang ng mga tinantyang parameter. Ang pinaka-kanais-nais na kaso para sa paggamit ng OLS ay ang kaso kapag ang error (nalalabi) ay proporsyonal sa isa sa mga independyenteng variable at ang mga resultang pagtatantya ay pare-pareho. Kung, gayunpaman, sa isang modelo na may heteroscedasticity kinakailangan na gumamit ng hindi OLS, ngunit karaniwang OLS, pagkatapos ay upang makakuha ng pare-parehong mga pagtatantya, ang isa ay maaaring gumamit ng mga pagtatantya ng error sa White o Nevje-West form.

Kapag pinag-aaralan ang serye ng oras, madalas na kinakailangang isaalang-alang ang istatistikal na pag-asa ng mga obserbasyon sa iba't ibang mga punto sa oras. Sa kasong ito, ang pagpapalagay ng mga hindi nauugnay na mga error ay hindi nasiyahan. Isaalang-alang natin simpleng modelo, kung saan ang mga error ay bumubuo ng isang first-order na autoregressive na proseso. Sa kasong ito, ang mga error ay nakakatugon sa isang simpleng pag-uulit na ugnayan, sa kanang bahagi kung saan ang isa sa mga termino ay isang pagkakasunud-sunod ng mga independiyenteng normal na ipinamamahagi na mga random na variable na may zero mean at pare-pareho ang pagkakaiba. Ang pangalawang termino ay ang produkto ng parameter (autoregression coefficient) at ang mga halaga ng mga nalalabi sa nakaraang punto ng oras. Ang pagkakasunud-sunod ng mga halaga ng error (nalalabi) mismo ay bumubuo ng isang nakatigil na random na proseso. Ang isang nakatigil na random na proseso ay nailalarawan sa pamamagitan ng pagiging matatag ng mga katangian nito sa paglipas ng panahon, sa partikular, ang ibig sabihin at pagkakaiba. Sa kasong ito, ang covariance matrix (mga tuntunin nito) na interesado sa amin ay madaling maisulat gamit ang mga kapangyarihan ng parameter.

Ang pagtatantya ng isang autoregressive na modelo para sa isang kilalang parameter ay ginagawa gamit ang OLS. Sa kasong ito, sapat na upang bawasan lamang ang orihinal na modelo sa pamamagitan ng isang simpleng pagbabago sa isang modelo na ang mga pagkakamali ay nakakatugon sa mga kondisyon ng isang karaniwang modelo ng regression. Ito ay napakabihirang, ngunit mayroon pa ring isang sitwasyon kung saan ang parameter ng autoregression ay kilala. Samakatuwid, sa pangkalahatan ay kinakailangan na magsagawa ng pagtatantya na may hindi kilalang parameter na autoregressive. Mayroong tatlong pinakakaraniwang ginagamit na pamamaraan para sa naturang pagtatasa. Cochrane-Orcutt method, Hildreth-Lu procedure at Durbin method.

Sa pangkalahatan, ang mga sumusunod na konklusyon ay totoo. Nangangailangan ang pagtatasa ng serye ng oras ng pagwawasto ng kumbensyonal na OLS, dahil ang mga error sa kasong ito ay karaniwang nauugnay. Kadalasan ang mga error na ito ay bumubuo ng isang first-order stationary autoregressive na proseso. Ang mga OLS estimator para sa first-order na autoregression ay walang kinikilingan, pare-pareho, ngunit hindi epektibo. Sa isang kilalang autoregression coefficient, ang OLS ay bumababa sa mga simpleng pagbabago (pagwawasto) ng orihinal na system at pagkatapos ay sa paggamit ng karaniwang OLS. Kung, tulad ng mas madalas na ang kaso, ang autoregressive coefficient ay hindi alam, kung gayon mayroong ilang mga pamamaraan na magagamit para sa OLS, na binubuo sa pagtantya ng hindi kilalang parameter (coefficient), pagkatapos kung saan ang parehong mga pagbabago ay inilapat tulad ng sa nakaraang kaso ng kilalang parameter.

37. Konsepto ng Breusch-Pagan test, Goldfeldt-Quandt test

Suriin natin ang hypothesis H 0 tungkol sa pagkakapantay-pantay ng mga indibidwal na coefficient ng regression sa zero (kung ang alternatibo ay hindi katumbas ng H 1) sa antas ng kabuluhan b = 0.05.

Kung ang pangunahing hypothesis ay lumabas na hindi tama, tinatanggap namin ang alternatibo. Upang subukan ang hypothesis na ito, ang Student's t-test ay ginagamit.

Ang halaga ng t-criterion na natagpuan mula sa data ng obserbasyonal (tinatawag ding sinusunod o aktuwal) ay inihambing sa naka-tabulate (kritikal) na halaga na tinutukoy mula sa mga talahanayan ng pamamahagi ng Mag-aaral (na karaniwang ibinibigay sa dulo ng mga aklat-aralin at workshop sa mga istatistika o econometrics).

Ang halaga ng talahanayan ay tinutukoy depende sa antas ng kabuluhan (b) at ang bilang ng mga antas ng kalayaan, na sa kaso ng linear pair regression ay katumbas ng (n-2), n ay ang bilang ng mga obserbasyon.

Kung ang aktwal na halaga ng t-test ay mas malaki kaysa sa tabulated na halaga (modulo), ang pangunahing hypothesis ay tinanggihan at ito ay isinasaalang-alang na may posibilidad (1-b) ang parameter o istatistikal na katangian sa populasyon ay makabuluhang naiiba mula sa zero .

Kung ang aktwal na halaga ng t-test ay mas mababa kaysa sa halaga ng talahanayan (modulo), kung gayon walang dahilan upang tanggihan ang pangunahing hypothesis, i.e. ang isang parameter o istatistikal na katangian sa populasyon ay hindi gaanong naiiba sa zero sa antas ng kahalagahan b.

t crit (n-m-1;b/2) = (30;0.025) = 2.042

Mula noong 1.7< 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в sa kasong ito ang koepisyent b ay maaaring mapabayaan.

Mula noong 0.56< 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

Confidence interval para sa regression equation coefficients.

Tukuyin natin ang mga agwat ng kumpiyansa ng mga coefficient ng regression, na may pagiging maaasahan ng 95% ay ang mga sumusunod:

  • (b - t crit S b ; b + t crit S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

Dahil ang point 0 (zero) ay nasa loob ng confidence interval, ang interval estimate ng coefficient b ay hindi gaanong mahalaga sa istatistika.

  • (a - t crit S a ; a + t crit S a)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

Sa isang probabilidad na 95% masasabi na ang halaga ng parameter na ito ay makikita sa nahanap na pagitan.

Dahil ang point 0 (zero) ay nasa loob ng confidence interval, ang interval estimate ng coefficient a ay hindi gaanong mahalaga sa istatistika.

2) F-statistics. Pamantayan ng Fisher.

Ang coefficient of determination R2 ay ginagamit upang subukan ang kahalagahan ng linear regression equation sa kabuuan.

Ang pagsubok sa kahalagahan ng isang modelo ng regression ay isinasagawa gamit ang Fisher's F test, ang kinakalkula na halaga ay makikita bilang ratio ng pagkakaiba ng orihinal na serye ng mga obserbasyon ng indicator na pinag-aaralan at ang walang pinapanigan na pagtatantya ng pagkakaiba ng natitirang sequence. para sa modelong ito.

Kung ang kinakalkula na halaga na may k 1 =(m) at k 2 =(n-m-1) na antas ng kalayaan ay mas malaki kaysa sa naka-tabulate na halaga sa isang partikular na antas ng kahalagahan, kung gayon ang modelo ay itinuturing na makabuluhan.

kung saan ang m ay ang bilang ng mga kadahilanan sa modelo.

Ang istatistikal na kahalagahan ng ipinares na linear regression ay tinasa gamit ang sumusunod na algorithm:

  • 1. Isang null hypothesis ang iniharap na ang equation sa kabuuan ay hindi gaanong mahalaga sa istatistika: H 0: R 2 =0 sa antas ng kahalagahan b.
  • 2. Susunod, tukuyin ang aktwal na halaga ng F-criterion:

kung saan m=1 para sa pairwise regression.

3. Ang naka-tabulate na halaga ay tinutukoy mula sa mga talahanayan ng pamamahagi ng Fisher para sa isang partikular na antas ng kahalagahan, na isinasaalang-alang na ang bilang ng mga antas ng kalayaan para sa kabuuang kabuuan ng mga parisukat (mas malaking pagkakaiba) ay 1 at ang bilang ng mga antas ng kalayaan para sa natitirang kabuuan ng mga parisukat (mas maliit na pagkakaiba-iba) sa linear regression ay n-2 .

F table ang maximum posibleng kahulugan criterion sa ilalim ng impluwensya ng mga random na salik na may ibinigay na antas ng kalayaan at antas ng kahalagahan b. Antas ng kahalagahan b - ang posibilidad na tanggihan ang tamang hypothesis, sa kondisyon na ito ay totoo. Karaniwan ang b ay kinukuha na katumbas ng 0.05 o 0.01.

4. Kung ang aktwal na halaga ng F-test ay mas mababa kaysa sa halaga ng talahanayan, pagkatapos ay sinasabi nila na walang dahilan upang tanggihan ang null hypothesis.

Kung hindi, ang null hypothesis ay tinanggihan at may probabilidad (1-b) ang alternatibong hypothesis tungkol sa istatistikal na kahalagahan ng equation sa kabuuan ay tinatanggap.

Table value ng criterion na may degree of freedom k 1 =1 at k 2 =30, F table = 4.17

Dahil ang aktwal na halaga ng F< F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Ang kaugnayan sa pagitan ng Fisher F-test at ng Student t-statistic ay ipinahayag ng pagkakapantay-pantay:

Mga tagapagpahiwatig ng kalidad ng regression equation.

Pagsubok para sa autocorrelation ng mga nalalabi.

Ang isang mahalagang paunang kinakailangan para sa pagbuo ng isang modelo ng husay na regression gamit ang OLS ay ang kalayaan ng mga halaga ng mga random na paglihis mula sa mga halaga ng mga paglihis sa lahat ng iba pang mga obserbasyon. Tinitiyak nito na walang ugnayan sa pagitan ng anumang mga paglihis at, sa partikular, sa pagitan ng mga katabing paglihis.

Ang autocorrelation (serial correlation) ay tinukoy bilang ang ugnayan sa pagitan ng mga naobserbahang indicator na nakaayos sa oras (time series) o space (cross series). Ang autocorrelation ng mga residual (variances) ay karaniwan sa regression analysis kapag gumagamit ng data ng time series at napakabihirang kapag gumagamit ng cross-sectional na data.

Sa mga problema sa ekonomiya, ang positibong autocorrelation ay mas karaniwan kaysa sa negatibong autocorrelation. Sa karamihan ng mga kaso, ang positibong autocorrelation ay sanhi ng direksyon patuloy na pagkakalantad ilang mga kadahilanan na hindi isinasaalang-alang sa modelo.

Ang negatibong autocorrelation ay mahalagang nangangahulugan na ang isang positibong paglihis ay sinusundan ng isang negatibo at vice versa. Maaaring mangyari ang sitwasyong ito kung ang parehong ugnayan sa pagitan ng demand para sa mga soft drink at kita ay isasaalang-alang ayon sa pana-panahong data (winter-summer).

Kabilang sa mga pangunahing dahilan na nagiging sanhi ng autocorrelation ay ang mga sumusunod:

  • 1. Mga error sa pagtutukoy. Ang pagkabigong isaalang-alang ang anumang mahalagang paliwanag na variable sa modelo o isang maling pagpili ng anyo ng pag-asa ay karaniwang humahantong sa mga sistematikong paglihis ng mga punto ng pagmamasid mula sa linya ng regression, na maaaring humantong sa autocorrelation.
  • 2. Inertia. marami mga tagapagpahiwatig ng ekonomiya(inflation, unemployment, GNP, atbp.) ay may isang tiyak na cyclical na katangian na nauugnay sa pag-alon ng aktibidad ng negosyo. Samakatuwid, ang pagbabago sa mga tagapagpahiwatig ay hindi nangyayari kaagad, ngunit may isang tiyak na pagkawalang-galaw.
  • 3. Epekto ng spider web. Sa maraming produksyon at iba pang mga lugar, ang mga tagapagpahiwatig ng ekonomiya ay tumutugon sa mga pagbabago sa mga kondisyon ng ekonomiya na may pagkaantala (time lag).
  • 4. Pag-smoothing ng data. Kadalasan, ang data para sa isang tiyak na mahabang yugto ng panahon ay nakukuha sa pamamagitan ng pag-average ng data sa mga agwat ng bumubuo nito. Ito ay maaaring humantong sa isang tiyak na pag-smoothing ng mga pagbabago na naganap sa loob ng panahong isinasaalang-alang, na maaaring magdulot ng autocorrelation.

Ang mga kahihinatnan ng autocorrelation ay katulad ng mga kahihinatnan ng heteroskedasticity: ang mga konklusyon mula sa t- at F-statistics na tumutukoy sa kahalagahan ng coefficient ng regression at ang koepisyent ng determinasyon ay malamang na hindi tama.



Bago sa site

>

Pinaka sikat