Bahay Kalinisan Paano mahahanap ang average na error ng approximation sa excel. Pagtatantya ng pagiging maaasahan ng istatistika ng mga resulta ng regression modeling gamit ang Fisher's F test

Paano mahahanap ang average na error ng approximation sa excel. Pagtatantya ng pagiging maaasahan ng istatistika ng mga resulta ng regression modeling gamit ang Fisher's F test

Suriin natin ang hypothesis H 0 tungkol sa pagkakapantay-pantay ng mga indibidwal na coefficient ng regression sa zero (kung ang alternatibo ay hindi katumbas ng H 1) sa antas ng kabuluhan b = 0.05.

Kung ang pangunahing hypothesis ay lumabas na hindi tama, tinatanggap namin ang alternatibo. Upang subukan ang hypothesis na ito, ang Student's t-test ay ginagamit.

Ang halaga ng t-criterion na natagpuan mula sa data ng obserbasyon (tinatawag ding sinusunod o aktwal) ay inihambing sa naka-tabulate (kritikal) na halaga na tinutukoy mula sa mga talahanayan ng pamamahagi ng Mag-aaral (na karaniwang ibinibigay sa dulo ng mga aklat-aralin at workshop sa mga istatistika o econometrics).

Halaga ng talahanayan ay tinutukoy depende sa antas ng kahalagahan (b) at ang bilang ng mga antas ng kalayaan, na sa kaso ng linear pair regression ay katumbas ng (n-2), n ay ang bilang ng mga obserbasyon.

Kung ang aktwal na halaga ng t-test ay mas malaki kaysa sa halaga ng talahanayan (modulo), ang pangunahing hypothesis ay tinanggihan at itinuturing na may posibilidad (1-b) ang parameter o istatistikal na katangian sa populasyon makabuluhang naiiba mula sa zero.

Kung ang aktwal na halaga ng t-test ay mas mababa kaysa sa halaga ng talahanayan (modulo), kung gayon walang dahilan upang tanggihan ang pangunahing hypothesis, i.e. ang isang parameter o istatistikal na katangian sa populasyon ay hindi gaanong naiiba sa zero sa antas ng kahalagahan b.

t crit (n-m-1;b/2) = (30;0.025) = 2.042

Mula noong 1.7< 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в sa kasong ito ang koepisyent b ay maaaring mapabayaan.

Mula noong 0.56< 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

Confidence interval para sa regression equation coefficients.

Tukuyin natin ang mga agwat ng kumpiyansa ng mga coefficient ng regression, na may pagiging maaasahan ng 95% ay ang mga sumusunod:

  • (b - t crit S b ; b + t crit S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

Dahil ang point 0 (zero) ay nasa loob agwat ng kumpiyansa, kung gayon ang pagtatantya ng pagitan ng koepisyent b ay hindi gaanong mahalaga sa istatistika.

  • (a - t crit S a ; a + t crit S a)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

Sa isang probabilidad na 95% masasabi na ang halaga ng parameter na ito ay makikita sa nahanap na pagitan.

Dahil ang point 0 (zero) ay nasa loob ng confidence interval, ang interval estimate ng coefficient a ay hindi gaanong mahalaga sa istatistika.

2) F-statistics. Pamantayan ng Fisher.

Ang coefficient of determination R2 ay ginagamit upang subukan ang kahalagahan ng equation linear regression pangkalahatan.

Ang pagsubok sa kahalagahan ng isang modelo ng regression ay isinasagawa gamit ang Fisher's F test, ang kinakalkula na halaga ay makikita bilang ratio ng pagkakaiba ng orihinal na serye ng mga obserbasyon ng indicator na pinag-aaralan at ang walang pinapanigan na pagtatantya ng pagkakaiba ng natitirang sequence. para sa modelong ito.

Kung ang kinakalkula na halaga na may k 1 =(m) at k 2 =(n-m-1) na antas ng kalayaan ay mas malaki kaysa sa naka-tabulate na halaga sa isang partikular na antas ng kahalagahan, kung gayon ang modelo ay itinuturing na makabuluhan.

kung saan ang m ay ang bilang ng mga kadahilanan sa modelo.

Ang istatistikal na kahalagahan ng ipinares na linear regression ay tinasa gamit ang sumusunod na algorithm:

  • 1. Isang null hypothesis ang iniharap na ang equation sa kabuuan ay hindi gaanong mahalaga sa istatistika: H 0: R 2 =0 sa antas ng kahalagahan b.
  • 2. Susunod, tukuyin ang aktwal na halaga ng F-criterion:

kung saan m=1 para sa pairwise regression.

3. Ang naka-tabulate na halaga ay tinutukoy mula sa mga talahanayan ng pamamahagi ng Fisher para sa isang partikular na antas ng kahalagahan, na isinasaalang-alang na ang bilang ng mga antas ng kalayaan para sa kabuuang kabuuan ng mga parisukat (mas malaking pagkakaiba) ay 1 at ang bilang ng mga antas ng kalayaan para sa natitirang kabuuan ng mga parisukat (mas maliit na pagkakaiba-iba) sa linear regression ay n-2 .

Ang F table ay ang pinakamataas na posibleng halaga ng criterion sa ilalim ng impluwensya ng mga random na salik sa ibinigay na antas ng kalayaan at antas ng kahalagahan b. Antas ng kahalagahan b - ang posibilidad na tanggihan ang tamang hypothesis, sa kondisyon na ito ay totoo. Karaniwan ang b ay kinukuha na katumbas ng 0.05 o 0.01.

4. Kung ang aktwal na halaga ng F-test ay mas mababa sa halaga ng talahanayan, pagkatapos ay sinasabi nila na walang dahilan upang tanggihan ang null hypothesis.

Kung hindi, ang null hypothesis ay tinanggihan at may probabilidad (1-b) ang alternatibong hypothesis tungkol sa istatistikal na kahalagahan ng equation sa kabuuan ay tinatanggap.

Table value ng criterion na may degree of freedom k 1 =1 at k 2 =30, F table = 4.17

Dahil ang aktwal na halaga ng F< F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Ang kaugnayan sa pagitan ng Fisher F-test at ng Student t-statistic ay ipinahayag ng pagkakapantay-pantay:

Mga tagapagpahiwatig ng kalidad ng regression equation.

Pagsubok para sa autocorrelation ng mga nalalabi.

Ang isang mahalagang paunang kinakailangan para sa pagbuo ng isang modelo ng husay na regression gamit ang OLS ay ang kalayaan ng mga halaga ng mga random na paglihis mula sa mga halaga ng mga paglihis sa lahat ng iba pang mga obserbasyon. Tinitiyak nito na walang ugnayan sa pagitan ng anumang mga paglihis at, sa partikular, sa pagitan ng mga katabing paglihis.

Ang autocorrelation (serial correlation) ay tinukoy bilang ang ugnayan sa pagitan ng mga naobserbahang indicator na nakaayos sa oras (time series) o space (cross series). Ang autocorrelation ng mga residual (variances) ay karaniwan sa regression analysis kapag gumagamit ng data ng time series at napakabihirang kapag gumagamit ng cross-sectional na data.

Sa mga problema sa ekonomiya, ang positibong autocorrelation ay mas karaniwan kaysa sa negatibong autocorrelation. Sa karamihan ng mga kaso, ang positibong autocorrelation ay sanhi ng direksyon patuloy na pagkakalantad ilang mga kadahilanan na hindi isinasaalang-alang sa modelo.

Ang negatibong autocorrelation ay mahalagang nangangahulugan na ang isang positibong paglihis ay sinusundan ng isang negatibo at vice versa. Maaaring mangyari ang sitwasyong ito kung ang parehong ugnayan sa pagitan ng demand para sa mga soft drink at kita ay isasaalang-alang ayon sa pana-panahong data (winter-summer).

Kabilang sa mga pangunahing dahilan na nagiging sanhi ng autocorrelation ay ang mga sumusunod:

  • 1. Mga error sa pagtutukoy. Ang pagkabigong isaalang-alang ang anumang mahalagang paliwanag na variable sa modelo o isang maling pagpili ng anyo ng pag-asa ay karaniwang humahantong sa mga sistematikong paglihis ng mga punto ng pagmamasid mula sa linya ng regression, na maaaring humantong sa autocorrelation.
  • 2. Inertia. marami mga tagapagpahiwatig ng ekonomiya(inflation, unemployment, GNP, atbp.) ay may isang tiyak na cyclical na katangian na nauugnay sa pag-alon ng aktibidad ng negosyo. Samakatuwid, ang pagbabago sa mga tagapagpahiwatig ay hindi nangyayari kaagad, ngunit may isang tiyak na pagkawalang-galaw.
  • 3. Epekto ng spider web. Sa maraming produksyon at iba pang mga lugar, ang mga tagapagpahiwatig ng ekonomiya ay tumutugon sa mga pagbabago sa mga kondisyon ng ekonomiya na may pagkaantala (time lag).
  • 4. Pag-smoothing ng data. Kadalasan, ang data para sa isang tiyak na mahabang yugto ng panahon ay nakukuha sa pamamagitan ng pag-average ng data sa mga agwat ng bumubuo nito. Ito ay maaaring humantong sa isang tiyak na pag-smoothing ng mga pagbabago na naganap sa loob ng panahong isinasaalang-alang, na maaaring magdulot ng autocorrelation.

Ang mga kahihinatnan ng autocorrelation ay katulad ng mga kahihinatnan ng heteroskedasticity: ang mga konklusyon mula sa t- at F-statistics na tumutukoy sa kahalagahan ng coefficient ng regression at ang koepisyent ng determinasyon ay malamang na hindi tama.

5. Gamit ang F-test, napagtibay na ang resultang paired regression equation sa kabuuan ay hindi gaanong mahalaga sa istatistika at hindi sapat na naglalarawan sa pinag-aralan na phenomenon ng kaugnayan sa pagitan ng buwanang halaga ng pensiyon y at ang halaga ng pamumuhay x.

6. Isang econometric multiple linear regression model ang nabuo, na nag-uugnay sa halaga ng netong kita ng isang conditional firm y sa capital turnover x1 at capital na ginamit x2

7. Sa pamamagitan ng pagkalkula ng elasticity coefficients, ipinapakita na kapag ang capital turnover ay nagbago ng 1%, ang halaga ng netong kita ng kumpanya ay nagbabago ng 0.0008%, at kapag ang kapital na ginamit ay nagbago ng 1%, ang halaga ng netong kita ng kumpanya nagbabago ng 0.56%.

8. Gamit ang t-test, nasuri ang statistical significance ng regression coefficients.Napag-alaman na ang explanatory variable x 1 ay hindi gaanong mahalaga sa istatistika at maaaring hindi kasama sa regression equation, habang ang explanatory variable x 2 ay makabuluhang istatistika.

9. Gamit ang F-test, itinatag na ang resultang paired regression equation sa kabuuan ay makabuluhan sa istatistika, at sapat na naglalarawan sa pinag-aralan na phenomenon ng ugnayan sa pagitan ng netong kita ng isang conditional firm y at capital turnover x 1 at capital na ginamit. x 2.

10. Ang average na error ng approximation ng statistical data sa pamamagitan ng isang linear equation ay kinakalkula maramihang pagbabalik, na umabot sa 29.8%. Ito ay ipinapakita dahil sa kung aling obserbasyon sa statistical database ang laki ng error na ito ay lumampas sa pinahihintulutang halaga.

14. Pagbuo ng isang paired regression model nang hindi gumagamit ng EXCEL.

Gamit istatistikal na materyal ibinigay sa talahanayan 3.5 ito ay kinakailangan:

2. Tayahin ang lapit ng koneksyon gamit ang mga indicator ng ugnayan at determinasyon.

3. Gamit ang koepisyent ng elasticity, tukuyin ang antas ng koneksyon sa pagitan ng katangian ng salik at ang resulta.

4. Tukuyin average na error mga pagtatantya.

5. Tayahin ang istatistikal na pagiging maaasahan ng pagmomodelo gamit ang Fisher's F-test.

Talahanayan 3.5. Paunang data.

Bahagi ng kita sa cash na naglalayong dagdagan ang mga pagtitipid sa mga deposito, pautang, sertipiko at para sa pagbili ng dayuhang pera, sa kabuuang halaga ng average na per capita cash income, %

Average na buwanang naipon na sahod, c.u.

Kaluzhskaya

Kostromskaya

Orlovskaya

Ryazan

Smolenskaya

Upang matukoy ang hindi kilalang mga parameter b 0 , b 1 ng ipinares na linear regression equation, ginagamit namin ang karaniwang sistema ng mga normal na equation, na may anyo

(3.7)

Upang malutas ang sistemang ito, kailangan munang matukoy ang mga halaga ng Sx 2 at Sxy. Ang mga halagang ito ay tinutukoy mula sa source data table, na dinadagdagan ito ng naaangkop na mga column (Talahanayan 3.6).

Talahanayan 3.6. Patungo sa pagkalkula ng mga coefficient ng regression.

Pagkatapos ay kinuha ng system (3.7) ang form

Ang pagpapahayag ng b 0 mula sa unang equation at pagpapalit ng resultang expression sa pangalawang equation ay nakukuha natin:

Ang pagsasagawa ng term-by-term multiplication at pagbubukas ng mga bracket, makakakuha tayo ng:

Sa wakas, ang ipinares na linear regression equation na nagkokonekta sa halaga ng bahagi ng cash na kita ng populasyon na naglalayong pataasin ang mga ipon y na may average na buwanang naipon na sahod x ay may anyo:

Kaya, habang ang equation ng ipinares na linear regression ay itinayo, tinutukoy namin ang linear correlation coefficient ayon sa dependence:

nasaan ang mga halaga ng mga karaniwang paglihis ng kaukulang mga parameter.

Upang kalkulahin ang linear correlation coefficient mula sa pagtitiwala (3.9), nagsasagawa kami ng mga intermediate na kalkulasyon.

Ang pagpapalit ng mga halaga ng mga nahanap na parameter sa expression (3.9) ay nakuha namin

.

Ang nakuhang halaga ng linear correlation coefficient ay nagpapahiwatig ng pagkakaroon ng mahinang kabaligtaran na istatistikal na ugnayan sa pagitan ng bahagi ng kita ng cash ng populasyon na naglalayong pataasin ang savings y at ang halaga ng average na buwanang naipon na sahod x.

Ang koepisyent ng determinasyon ay , na nangangahulugan na 9.6% lamang ang ipinaliwanag sa pamamagitan ng pagbabalik ng paliwanag na variable x sa y. Alinsunod dito, ang halaga 1 na katumbas ng 90.4% ay nagpapakilala sa bahagi ng pagkakaiba-iba ng variable na y sanhi ng impluwensya ng lahat ng iba pang mga variable na nagpapaliwanag na hindi isinasaalang-alang sa modelong pang-ekonomiya.

Ang koepisyent ng pagkalastiko ay

Dahil dito, kapag ang average na buwanang naipon na sahod ay nagbago ng 1%, ang bahagi ng cash na kita ng populasyon na naglalayong dagdagan ang mga ipon ay bumababa din ng 1%, at sa pagtaas ng sahod, mayroong pagbaba sa bahagi ng cash na kita ng populasyon na naglalayong pataasin ang ipon. Ang konklusyong ito ay sumasalungat sa sentido komun at maaari lamang ipaliwanag sa pamamagitan ng kamalian ng nabuong mathematical model.

Kalkulahin natin ang average na error sa pagtatantya.

Talahanayan 3.7. Patungo sa pagkalkula ng average na error sa pagtatantya.

Ang nakuha na halaga ay lumampas sa (12...15)%, na nagpapahiwatig ng kahalagahan ng average na paglihis ng kinakalkula na data mula sa aktwal na data kung saan itinayo ang econometric model.

Ang pagiging maaasahan ng statistical modeling ay isasagawa batay sa Fisher's F-test. Ang teoretikal na halaga ng Fisher criterion F calc ay natutukoy mula sa ratio ng mga halaga ng kadahilanan at mga natitirang dispersion na kinakalkula para sa isang antas ng kalayaan ayon sa formula

kung saan ang n ay ang bilang ng mga obserbasyon;

m ay ang bilang ng mga variable na nagpapaliwanag (para sa halimbawang isinasaalang-alang m m =1).

Ang kritikal na halaga F crit ay tinutukoy mula sa mga istatistikal na talahanayan at para sa antas ng kahalagahan a = 0.05 ay katumbas ng 10.13. Dahil kinakalkula ang F

15. Pagbuo ng multiple regression model nang hindi gumagamit ng EXCEL.

Gamit ang istatistikal na materyal na ibinigay sa Talahanayan 3.8 kailangan mong:

1. Bumuo linear equation multiple regression, ipaliwanag ang pang-ekonomiyang kahulugan ng mga parameter nito.

2. Magbigay ng isang paghahambing na pagtatasa ng lapit ng ugnayan sa pagitan ng mga salik at ang nagresultang katangian gamit ang average (pangkalahatang) elasticity coefficients.

3. Rate istatistikal na kahalagahan regression coefficients gamit ang t-test at ang null hypothesis ng non-significance ng equation gamit ang F-test.

4. Tayahin ang kalidad ng equation sa pamamagitan ng pagtukoy sa average na error ng approximation.

Talahanayan 3.8. Paunang data.

Netong kita, milyong US dollars

Paglipat ng kapital milyon-milyong US dollars

Nagamit ang kapital, milyon US dollars

Upang matukoy ang hindi kilalang mga parameter b 0 , b 1 , b 2 ng multiple linear regression equation, ginagamit namin ang karaniwang sistema ng mga normal na equation, na may anyo

(3.11)

Upang malutas ang sistemang ito, kailangan munang matukoy ang mga halaga ng Sx 1 2, Sx 2 2, Sx 1 y, Sx 2 y, Sx 1 x 2. Ang mga halagang ito ay tinutukoy mula sa source data table, na dinadagdagan ito ng naaangkop na mga column (Talahanayan 3.9).

Talahanayan 3.9. Patungo sa pagkalkula ng mga coefficient ng regression.

Pagkatapos ay kinuha ng system (3.11) ang form

Upang malutas ang sistemang ito, gagamitin namin ang Gauss method, na binubuo ng sunud-sunod na pag-aalis ng mga hindi alam: hatiin ang unang equation ng system sa 10, pagkatapos ay i-multiply ang resultang equation sa 370.6 at ibawas ito mula sa pangalawang equation ng system, pagkatapos ay i-multiply ang nagresultang equation ng 158.20 at ibawas ito sa ikatlong equation ng system. Ang pag-uulit ng tinukoy na algorithm para sa binagong pangalawa at pangatlong equation ng system, makuha namin ang:

Þ Þ

Þ .

Pagkatapos ng pagbabagong-anyo mayroon kaming:

Pagkatapos, ang huling pag-asa ng netong kita sa paglilipat ng kapital at kapital na ginamit sa anyo ng isang linear na multiple regression equation ay may anyo:

Mula sa nagresultang equation ng econometric makikita na sa pagtaas ng kapital na ginamit, tumataas ang netong kita at, sa kabaligtaran, sa pagtaas ng paglilipat ng kapital, bumababa ang netong kita. Sa karagdagan, ang mas malaki ang regression coefficient, mas malaki ang impluwensya ng explanatory variable sa dependent variable. Sa halimbawang isinasaalang-alang, ang halaga ng regression coefficient ay mas malaki kaysa sa halaga ng coefficient, samakatuwid, ang kapital na ginamit ay may mas malaking epekto sa netong kita kaysa sa capital turnover. Upang mabilang ang konklusyong ito, tutukuyin natin ang mga partial elasticity coefficient.

Ang pagsusuri sa mga resulta ay nagpapakita rin na ang kapital na ginamit ay may mas malaking epekto sa netong kita. Kaya, sa partikular, sa pagtaas ng kapital na ginagamit ng 1%, ang netong kita ay tumaas ng 1.17%. Kasabay nito, sa pagtaas ng capital turnover ng 1%, ang netong kita ay bumaba ng 0.5%.

Teoretikal na halaga ng Fisher criterion F calc.

Ang halaga ng kritikal na halaga F crit ay tinutukoy mula sa mga istatistikal na talahanayan at para sa antas ng kahalagahan ng a = 0.05 ay katumbas ng 4.74. Dahil ang F calc > F crit, ang null hypothesis ay tinanggihan at ang resultang regression equation ay tinatanggap bilang istatistikal na makabuluhan.

Ang pagtatasa ng istatistikal na kahalagahan ng mga coefficient ng regression at ang t-criterion ay bumaba sa paghahambing ng numerical na halaga ng mga coefficient na ito sa laki ng kanilang mga random na error at ayon sa relasyon:

Ang gumaganang formula para sa pagkalkula ng teoretikal na halaga ng t-statistics ay:

, (3.13)

kung saan ang mga coefficient ng ugnayan ng pares at ang koepisyent ng maramihang ugnayan ay kinakalkula mula sa mga dependency:

Pagkatapos ang teoretikal (kinakalkula) na mga halaga ng t-statistics ay ayon sa pagkakabanggit ay katumbas ng:

Dahil ang kritikal na halaga ng t-statistics, na tinutukoy mula sa mga istatistikal na talahanayan para sa antas ng kahalagahan a = 0.05 na katumbas ng t crit = 2.36, ay mas malaki sa absolute value kaysa = - 1.798, kung gayon ang null hypothesis ay hindi tinatanggihan at ang paliwanag na variable x 1 ay hindi gaanong mahalaga sa istatistika at maaari itong ibukod sa equation ng regression. Sa kabaligtaran, para sa pangalawang regression coefficient > t crit (3.3 > 2.36), at ang paliwanag na variable x 2 ay istatistikal na makabuluhan.

Kalkulahin natin ang average na error sa pagtatantya.

Talahanayan 3.10. Patungo sa pagkalkula ng average na error sa pagtatantya.

Kung gayon ang average na error sa pagtatantya ay

Ang nakuhang halaga ay hindi lalampas sa pinahihintulutang limitasyon na katumbas ng (12…15)%.

16. Kasaysayan ng pag-unlad ng teorya ng pagsukat

Ang TI ay unang binuo bilang isang teorya ng psychophysical measurements. Sa mga publikasyon pagkatapos ng digmaan, ang American psychologist na si S.S. Nakatuon si Stevens sa mga sukat ng pagsukat. Sa ikalawang kalahati ng ika-20 siglo. Ang saklaw ng aplikasyon ng TI ay mabilis na lumalawak. Ang isa sa mga volume ng "Encyclopedia of Psychological Sciences" na inilathala sa USA noong 50s ay tinawag na "Psychological Measurements". Pinalawak ng mga may-akda ng publikasyong ito ang saklaw ng TI mula sa psychophysics hanggang sa sikolohiya sa pangkalahatan. Sa artikulo sa koleksyong ito, "Mga Pundamental ng Teorya ng Pagsukat," ang presentasyon ay nasa abstract na antas ng matematika, nang walang pagtukoy sa anumang partikular na larangan ng aplikasyon. Sa loob nito, ang diin ay inilagay sa "homomorphism ng mga empirical system na may mga relasyon sa mga numero" (hindi na kailangang pumunta sa mga terminong ito sa matematika dito), at ang pagiging kumplikado ng matematika ng pagtatanghal ay tumaas kumpara sa mga gawa ng S.S. Stevens.

Sa isa sa mga unang domestic na artikulo sa TI (late 60s), itinatag na ang mga puntos na itinalaga ng mga eksperto kapag tinatasa ang mga bagay ng pagsusuri ay, bilang panuntunan, sinusukat sa isang ordinal na sukat. Ang mga gawa na lumitaw noong unang bahagi ng 70s ay humantong sa isang makabuluhang pagpapalawak ng saklaw ng paggamit ng TI. Ito ay inilapat sa pedagogical qualimetry (pagsusukat sa kalidad ng kaalaman ng mga mag-aaral), sa system research, at sa iba't ibang teoretikal na problema mga pagtatasa ng eksperto, para sa pagsasama-sama ng mga tagapagpahiwatig ng kalidad ng produkto, sa mga sosyolohikal na pag-aaral, atbp.

Bilang dalawang pangunahing problema ng TI, kasama ang pagtatatag ng uri ng sukat para sa pagsukat ng partikular na data, isang paghahanap para sa mga algorithm ng pagsusuri ng data ay iniharap, ang resulta nito ay hindi nagbabago sa anumang katanggap-tanggap na pagbabago ng sukat (ibig sabihin, ay invariant na may paggalang sa pagbabagong ito). Ang mga ordinal na kaliskis sa heograpiya ay ang Beaufort scale winds (“kalma”, “light wind”, “moderate wind”, atbp.), earthquake strength scale. Malinaw, hindi masasabi na ang isang magnitude 2 na lindol (isang lampara na umindayog sa ilalim ng kisame) ay eksaktong 5 beses na mas mahina kaysa sa isang magnitude 10 na lindol (ganap na pagkasira ng lahat ng bagay sa ibabaw ng lupa).

Sa gamot, ang mga ordinal na kaliskis ay ang sukat ng mga yugto ng hypertension (ayon kay Myasnikov), ang sukat ng mga antas ng pagkabigo sa puso (ayon sa Strazhesko-Vasilenko-Lang), ang sukat ng kalubhaan ng kakulangan sa coronary (ayon kay Fogelson), atbp . Ang lahat ng mga kaliskis na ito ay binuo ayon sa sumusunod na pamamaraan: walang nakitang sakit; unang yugto ng sakit; pangalawang yugto; ikatlong yugto... Minsan ang mga yugto 1a, 16, atbp. ay nakikilala. Ang bawat yugto ay may katangiang medikal na natatangi dito. Kapag naglalarawan ng mga pangkat ng kapansanan, ang mga numero ay ginagamit sa kabaligtaran na pagkakasunud-sunod: ang pinakamalubha ay ang unang pangkat ng kapansanan, pagkatapos ang pangalawa, ang pinakamagaan ay ang pangatlo.

Ang mga numero ng bahay ay sinusukat din sa isang ordinal na sukat - ipinapakita nila sa kung anong pagkakasunud-sunod ang mga bahay sa kahabaan ng kalye. Ang mga numero ng volume sa mga nakolektang gawa ng isang manunulat o mga numero ng kaso sa isang archive ng enterprise ay karaniwang nauugnay sa magkakasunod na pagkakasunud-sunod ng kanilang paglikha.

Kapag tinatasa ang kalidad ng mga produkto at serbisyo, ang mga ordinal na kaliskis ay sikat sa tinatawag na qualimetry (literal na pagsasalin - pagsukat ng kalidad). Ibig sabihin, ang isang yunit ng produksyon ay tinasa bilang passable o hindi angkop. Para sa mas masusing pagsusuri, ginagamit ang isang sukat na may tatlong gradasyon: may mga makabuluhang depekto - mayroon lamang mga maliliit na depekto - walang mga depekto. Minsan apat na gradasyon ang ginagamit: may mga kritikal na depekto (na ginagawang imposibleng gamitin) - may mga makabuluhang depekto - may mga maliliit na depekto lamang - walang mga depekto. Ang pagmamarka ng mga produkto ay may katulad na kahulugan - premium, unang baitang, ikalawang baitang,...

Kapag tinatasa ang mga epekto sa kapaligiran, ang una, pinaka-pangkalahatang pagtatasa ay karaniwang ordinal, halimbawa: ang natural na kapaligiran ay matatag - ang natural na kapaligiran ay inaapi (degraded). Ang saklaw ng kapaligiran-medikal ay magkatulad: walang malinaw na epekto sa kalusugan ng tao - isang negatibong epekto sa kalusugan ang nabanggit.

Ang ordinal scale ay ginagamit din sa ibang mga lugar. Sa econometrics, ang mga ito ay pangunahing iba't ibang paraan ng mga pagtatasa ng eksperto.

Ang lahat ng mga sukat ng pagsukat ay nahahati sa dalawang pangkat - mga kaliskis ng mga katangian ng husay at mga kaliskis ng mga katangiang dami. Ang ordinal na iskala at ang pagbibigay ng pangalan ay ang mga pangunahing sukat ng mga katangiang husay, kaya sa maraming partikular na lugar ang mga resulta ng pagsusuri ng husay ay maaaring ituring bilang mga sukat sa mga sukat na ito. Ang mga sukat ng quantitative na katangian ay mga kaliskis ng mga pagitan, ratios, pagkakaiba, absolute. Gamit ang isang sukat ng pagitan, ang laki ng potensyal na enerhiya o ang coordinate ng isang punto sa isang tuwid na linya ay sinusukat. Sa mga kasong ito, hindi maaaring markahan sa sukat ang natural na pinagmulan o ang natural na yunit ng pagsukat. Dapat itakda ng mananaliksik ang panimulang punto at piliin mismo ang yunit ng pagsukat. Ang mga katanggap-tanggap na pagbabago sa sukat ng agwat ay mga linear na pagtaas ng pagbabago, i.e. mga linear na function. Ang mga sukat ng temperatura na Celsius at Fahrenheit ay konektado sa pamamagitan ng eksaktong pag-asa na ito: °C = 5/9 (°F - 32), kung saan ang °C ay ang temperatura (sa degrees) sa Celsius na sukat, at °F ay ang temperatura sa Fahrenheit sukat.

Sa mga quantitative scale, ang pinakakaraniwan sa agham at pagsasanay ay ang ratio scale. Mayroon silang natural na reference point - zero, i.e. kawalan ng dami, ngunit walang natural na yunit ng pagsukat. Karamihan sa mga pisikal na yunit ay sinusukat sa sukat ng ratio: mass ng katawan, haba, singil, pati na rin ang mga presyo sa ekonomiya. Ang mga katanggap-tanggap na pagbabago sa sukat ng ratio ay magkatulad (nagbabago lamang ng sukat). Sa madaling salita, ang mga linear na pagtaas ng pagbabago nang walang libreng termino, halimbawa, pag-convert ng mga presyo mula sa isang pera patungo sa isa pa sa isang nakapirming rate. Ipagpalagay na ihambing natin ang kahusayan sa ekonomiya ng dalawang proyekto sa pamumuhunan gamit ang mga presyo sa rubles. Hayaang maging mas mahusay ang unang proyekto kaysa sa pangalawa. Ngayon ay lumipat tayo sa Chinese currency - ang yuan, gamit ang isang nakapirming rate ng conversion. Malinaw, ang unang proyekto ay dapat na muling maging mas kumikita kaysa sa pangalawa. Gayunpaman, hindi awtomatikong tinitiyak ng mga algorithm ng pagkalkula na natutugunan ang kundisyong ito, at kinakailangang suriin kung natutugunan ito. Ang mga resulta ng naturang pagsubok para sa mga average na halaga ay inilarawan sa ibaba.

Ang sukat ng pagkakaiba ay may natural na yunit ng pagsukat, ngunit walang natural na reference point. Ang oras ay sinusukat sa isang sukat ng mga pagkakaiba, kung ang taon (o araw - mula tanghali hanggang tanghali) ay kinuha bilang isang natural na yunit ng pagsukat, at sa isang sukat ng mga pagitan sa pangkalahatang kaso. Sa kasalukuyang antas ng kaalaman, imposibleng magpahiwatig ng natural na panimulang punto. Kinakalkula ng iba't ibang mga may-akda ang petsa ng paglikha ng mundo sa iba't ibang paraan, pati na rin ang sandali ng Kapanganakan ni Kristo.

Para lamang sa ganap na sukat ang mga resulta ng pagsukat ay mga numero sa karaniwang kahulugan ng salita, halimbawa, ang bilang ng mga tao sa isang silid. Para sa isang ganap na sukat, tanging pagbabago ng pagkakakilanlan ang pinapayagan.

Sa proseso ng pag-unlad ng kaukulang larangan ng kaalaman, maaaring magbago ang uri ng sukat. Kaya, sa una ang temperatura ay sinusukat sa isang ordinal scale (mas malamig - mas mainit). Pagkatapos - ayon sa pagitan (Celsius, Fahrenheit, Reaumur kaliskis). Sa wakas, pagkatapos ng pagtuklas ng absolute zero, ang temperatura ay maaaring ituring na sinusukat sa isang ratio scale (Kelvin scale). Dapat tandaan na kung minsan ay may mga hindi pagkakasundo sa mga espesyalista tungkol sa kung aling mga kaliskis ang dapat gamitin upang isaalang-alang ang ilang mga tunay na halaga na sinusukat. Sa madaling salita, kasama rin sa proseso ng pagsukat ang pagtukoy sa uri ng sukat (kasama ang katwiran para sa pagpili ng partikular na uri ng sukat). Bilang karagdagan sa anim na pangunahing uri ng mga kaliskis na nakalista, ang iba pang mga kaliskis ay minsan ginagamit.

17. Mga invariant na algorithm at average na halaga.

Bumuo tayo ng pangunahing kinakailangan para sa mga algorithm ng pagsusuri ng data sa TI: ang mga konklusyong ginawa batay sa data na sinusukat sa isang sukat ng isang partikular na uri ay hindi dapat magbago kapag pinahihintulutan ang sukat ng pagsukat ng data na ito. Sa madaling salita, ang mga hinuha ay dapat na invariant sa ilalim ng wastong pagbabago ng sukat.

Kaya, ang isa sa mga pangunahing layunin ng teorya ng pagsukat ay upang labanan ang subjectivity ng mananaliksik kapag nagtatalaga ng mga numerical na halaga sa mga tunay na bagay. Kaya, ang mga distansya ay maaaring masukat sa mga arshin, metro, micron, milya, parsec at iba pang mga yunit ng pagsukat. Mass (timbang) - sa mga pood, kilo, pounds, atbp. Ang mga presyo para sa mga kalakal at serbisyo ay maaaring ipahiwatig sa yuan, rubles, tenge, hryvnia, lats, kroons, marks, US dollars at iba pang mga pera (napapailalim sa tinukoy na mga rate ng conversion). Bigyang-diin natin ang isang napakahalaga, bagaman medyo halata, katotohanan: ang pagpili ng mga yunit ng pagsukat ay nakasalalay sa mananaliksik, i.e. subjective. Ang mga konklusyon sa istatistika ay maaaring maging sapat sa katotohanan lamang kapag hindi sila nakadepende sa kung aling yunit ng pagsukat ang pipiliin ng mananaliksik, kapag ang mga ito ay invariant na may kinalaman sa pinahihintulutang pagbabago ng sukat. Sa maraming mga algorithm para sa pagsusuri ng data ng ekonometric, iilan lamang ang nakakatugon sa kundisyong ito. Ipakita natin ito sa pamamagitan ng paghahambing ng mga average na halaga.

Hayaang ang X 1, X 2,.., X n ay isang sample ng volume n. Kadalasang ginagamit ang arithmetic mean. Ang paggamit ng average na arithmetic ay napakakaraniwan na ang pangalawang salita sa termino ay madalas na tinanggal at pinag-uusapan ng mga tao ang tungkol sa average na suweldo, average na kita at iba pang mga average para sa partikular na data ng ekonomiya, ibig sabihin ay "average" ang arithmetic average. Ang tradisyong ito ay maaaring humantong sa mga maling konklusyon. Ipakita natin ito gamit ang halimbawa ng pagkalkula ng average na suweldo (average na kita) ng mga empleyado ng isang hypothetical enterprise. Sa 100 manggagawa, 5 lamang ang may suweldo na lumampas dito, at ang suweldo ng natitirang 95 ay mas mababa kaysa sa average ng arithmetic. Ang dahilan ay halata - ang suweldo ng isang tao - ang pangkalahatang direktor - ay lumampas sa suweldo ng 95 na manggagawa - mga manggagawang mababa ang kasanayan at mataas ang kasanayan, mga inhinyero at manggagawa sa opisina. Ang sitwasyon ay nakapagpapaalaala sa inilarawan sa isang kilalang kuwento tungkol sa isang ospital kung saan mayroong 10 pasyente, 9 sa kanila ay may temperatura na 40°C, at ang isa ay nagdusa na, nakahiga sa morge na may temperaturang 0° C. Samantala, ang average na temperatura sa ospital ay 36°C - hindi ito maaaring maging mas mahusay!

Kaya, ang arithmetic mean ay magagamit lamang para sa medyo homogenous na populasyon (nang walang malalaking outlier sa isang direksyon o iba pa). Anong mga average ang dapat gamitin upang ilarawan ang sahod? Natural lang na gamitin ang median - ang arithmetic mean ng ika-50 at ika-51 na empleyado, kung ang kanilang mga suweldo nakaayos sa hindi pababang ayos. Una ay ang mga suweldo ng 40 na mababa ang kasanayang manggagawa, at pagkatapos - mula ika-41 hanggang ika-70 manggagawa - ang mga suweldo ng mga manggagawang may mataas na kasanayan. Dahil dito, ang median ay eksaktong nahuhulog sa kanila at katumbas ng 200. Para sa 50 manggagawa, ang suweldo ay hindi lalampas sa 200, at para sa 50 - hindi bababa sa 200, kaya ang median ay nagpapakita ng "gitna" sa paligid kung saan ang karamihan ng mga pinag-aralan na halaga ​ay nakagrupo. Ang isa pang average na halaga ay ang mode, ang pinakamadalas na nagaganap na halaga. Sa kasong isinasaalang-alang, ito ang sahod ng mga manggagawang mababa ang kasanayan, i.e. 100. Kaya, upang ilarawan ang suweldo mayroon kaming tatlong average na halaga - ang mode (100 units), ang median (200 units) at ang arithmetic mean (400 units).

Para sa mga pamamahagi ng kita at sahod na naobserbahan sa totoong buhay, ang parehong pattern ay totoo: ang mode ay mas mababa kaysa sa median, at ang median ay mas mababa kaysa sa arithmetic mean.

Bakit ginagamit ang average sa ekonomiya? Karaniwang palitan ang isang koleksyon ng mga numero ng isang numero upang maihambing ang mga populasyon gamit ang mga average. Hayaan, halimbawa, ang Y 1, Y 2,..., Y n ay isang hanay ng mga pagtatasa ng eksperto na "ibinigay" sa isang bagay ng kadalubhasaan (halimbawa, isa sa mga opsyon para sa estratehikong pag-unlad ng isang kumpanya), Z 1 , Z 2,..., Z n -ang pangalawa (isa pang bersyon ng pag-unlad na ito). Paano inihahambing ang mga populasyon na ito? Malinaw, ang pinakamadaling paraan ay sa pamamagitan ng mga average na halaga.

Paano makalkula ang mga average? Kilala iba't ibang uri average na mga halaga: arithmetic mean, median, mode, geometric mean, harmonic mean, quadratic mean. Paalalahanan ka namin pangkalahatang konsepto Ang average na halaga ay ipinakilala ng isang French mathematician ng unang kalahati ng ika-19 na siglo. Academician O. Cauchy. Ito ay ang mga sumusunod: ang average na halaga ay anumang function Ф(Х 1, Х 2,..., Х n) para sa lahat posibleng mga halaga argumento, ang halaga ng function na ito ay hindi bababa sa minimum ng mga numerong X 1, X 2,..., X n, at hindi hihigit sa maximum ng mga numerong ito. Ang lahat ng uri ng mga average na nakalista sa itaas ay mga average na Cauchy.

Sa isang katanggap-tanggap na pagbabago ng sukat, malinaw na nagbabago ang halaga ng average. Ngunit ang mga konklusyon tungkol sa kung aling populasyon ang average ay mas malaki at kung saan ito ay mas mababa ay hindi dapat magbago (alinsunod sa kinakailangan ng invariance ng mga konklusyon, tinanggap bilang pangunahing kinakailangan sa TI). Bumuo tayo ng kaukulang problema sa matematika ng paghahanap para sa uri ng mga average na halaga, ang resulta ng paghahambing na kung saan ay matatag na may paggalang sa mga tinatanggap na pagbabago ng sukat.

Hayaang ang Ф(Х 1 Х 2 ,..., Х n) ay ang Cauchy average. Hayaang mas mababa ang average para sa unang populasyon kaysa sa average para sa pangalawang populasyon: pagkatapos, ayon sa TI, para sa katatagan ng resulta ng paghahambing ng mga average, kinakailangan na para sa anumang katanggap-tanggap na pagbabagong g mula sa pangkat ng mga tinatanggap na pagbabago sa katumbas na sukat totoo na ang average ng mga nabagong halaga mula sa unang populasyon ay mas mababa din kaysa sa average ng mga nabagong halaga para sa pangalawang hanay. Higit pa rito, dapat na totoo ang formulated condition para sa alinmang dalawang set Y 1, Y 2,...,Y n at Z 1, Z 2,..., Z n at, recall, anumang tinatanggap na pagbabago. Tinatawag namin ang mga average na halaga na nakakatugon sa nakabalangkas na kondisyon na tinatanggap (sa naaangkop na sukat). Ayon sa TI, ang mga naturang average lang ang magagamit kapag sinusuri ang mga opinyon ng eksperto at iba pang data na sinusukat sa sukat na isinasaalang-alang.

Sa pamamagitan ng paggamit teorya ng matematika, na binuo noong 1970s, ay namamahala upang ilarawan ang uri ng mga katanggap-tanggap na average sa mga pangunahing sukat. Malinaw na para sa data na sinusukat sa isang sukat ng mga pangalan, ang mode lamang ang angkop bilang isang average.

18. Average na mga halaga sa isang ordinal na sukat

Isaalang-alang natin ang pagproseso ng mga opinyon ng eksperto na sinusukat sa ordinal na sukat. Ang sumusunod na pahayag ay totoo.

Teorama1 . Sa lahat ng mga average ng Cauchy, ang tanging katanggap-tanggap na mga average sa ordinal na sukat ay ang mga termino serye ng pagkakaiba-iba(ordinal na istatistika).

Ang Theorem 1 ay wasto sa kondisyon na ang average na Ф(Х 1 Х 2 ,..., Х n) ay isang tuluy-tuloy (sa hanay ng mga variable) at simetriko function. Ang huli ay nangangahulugan na kapag ang mga argumento ay muling inayos, ang halaga ng function na Ф(Х 1 Х 2 ,..., Х n) ay hindi nagbabago. Ang kundisyong ito ay medyo natural, dahil nakita namin ang average na halaga para sa kabuuan (set), at hindi para sa pagkakasunud-sunod. Ang set ay hindi nagbabago depende sa pagkakasunud-sunod kung saan inilista namin ang mga elemento nito.

Ayon sa Theorem 1, sa partikular, ang median ay maaaring gamitin bilang isang average para sa data na sinusukat sa isang ordinal scale (kung ang sample size ay kakaiba). Kung pantay ang volume, dapat gamitin ang isa sa dalawang pangunahing termino ng serye ng variation - kung minsan ay tinatawag ang mga ito, ang kaliwang median o ang kanang median. Maaari ding gamitin ang fashion - palagi itong miyembro ng variation series. Ngunit hindi mo kailanman makalkula ang arithmetic mean, geometric mean, atbp.

Ang sumusunod na teorama ay totoo.

Teorama 2. Hayaang ang Y 1, Y 2,...,Y m ay independent identically distributed random variables na may distribution function F(x), at Z 1, Z 2,..., Zn ay independent identically distributed random variables na may function distributions H(x), at ang mga sample na Y 1, Y 2,...,Y m at Z 1, Z 2,..., Z n ay independyente sa isa't isa at MY X > MZ X. Upang ang posibilidad ng isang kaganapan ay malamang na 1 sa min(m, n) para sa anumang mahigpit na pagtaas ng tuluy-tuloy na paggana g na nagbibigay-kasiyahan sa kondisyon |g i |>X ito ay kinakailangan at sapat na ang hindi pagkakapantay-pantay F(x) ay masiyahan para sa lahat x< Н(х), причем существовало число х 0 , для которого F(x 0)

Tandaan. Ang kundisyon na may pinakamataas na limitasyon ay puro intra-mathematical ang kalikasan. Sa katunayan, ang function na g ay isang arbitrary na tinatanggap na pagbabago sa isang ordinal na sukat.

Ayon sa Theorem 2, ang arithmetic mean ay maaari ding gamitin sa isang ordinal scale kung ang mga sample mula sa dalawang distribusyon na nagbibigay-kasiyahan sa hindi pagkakapantay-pantay na ibinigay sa theorem ay inihambing. Sa madaling salita, ang isa sa mga function ng pamamahagi ay dapat palaging nasa itaas ng isa. Ang mga function ng pamamahagi ay hindi maaaring magsalubong, pinapayagan lamang silang hawakan ang isa't isa. Ang kundisyong ito ay natutugunan, halimbawa, kung ang mga function ng pamamahagi ay naiiba lamang sa shift:

F(x) = Н(x + ∆)

para sa ilang ∆.

Ang huling kondisyon ay nasiyahan kung ang dalawang halaga ng isang tiyak na dami ay sinusukat gamit ang parehong instrumento sa pagsukat, kung saan ang pamamahagi ng mga error ay hindi nagbabago kapag lumilipat mula sa pagsukat ng isang halaga ng dami na pinag-uusapan sa pagsukat ng isa pa.

Average ayon kay Kolmogorov

Ang generalization ng ilan sa mga average na nakalista sa itaas ay ang Kolmogorov average. Para sa mga numerong X 1, X 2,..., X n, ang Kolmogorov average ay kinakalkula gamit ang formula

G((F(X l) + F(X 2)+...F(X n))/n),

kung saan ang F ay isang mahigpit na monotonikong function (ibig sabihin, mahigpit na tumataas o mahigpit na bumababa),

Ang G ay ang inverse function ng F.

Kabilang sa mga average ni Kolmogorov mayroong maraming mga kilalang character. Kaya, kung F(x) = x, kung gayon ang Kolmogorov mean ay ang arithmetic mean, kung F(x) = lnx, kung gayon ang geometric mean, kung F(x) = 1/x, kung gayon ang harmonic mean, kung F( x) = x 2, pagkatapos ay ang ibig sabihin ng parisukat, atbp. Ang average ng Kolmogorov ay isang espesyal na kaso ng average ng Cauchy. Sa kabilang banda, ang mga sikat na average bilang median at mode ay hindi maaaring katawanin bilang Kolmogorov average. Ang mga sumusunod na pahayag ay napatunayan sa monograp.

Teorama3 . Kung ang ilang mga intramathematical na kondisyon ng regularidad sa sukat ng agwat ay wasto, sa lahat ng paraan ng Kolmogorov, tanging ang arithmetic mean ang tinatanggap. Kaya, ang geometric mean o root mean square ng mga temperatura (sa Celsius) o mga distansya ay walang kahulugan. Ang arithmetic mean ay dapat gamitin bilang average. Maaari mo ring gamitin ang median o mode.

Teorama 4. Kung ang ilang partikular na intramathematical na kondisyon ng regularidad sa sukat ng mga ratio ay wasto, sa lahat ng mga average ng Kolmogorov, tanging ang mga power average na may F(x) = x c at ang geometric na average ay tinatanggap.

Magkomento. Ang geometric mean ay ang limitasyon ng power means para sa c > 0.

Mayroon bang mga average ng Kolmogorov na hindi magagamit sa sukat ng ratio? Syempre meron. Halimbawa F(x) = e x.

Katulad ng mga average na halaga, ang iba pang mga istatistikal na katangian ay maaaring pag-aralan - mga tagapagpahiwatig ng scatter, koneksyon, distansya, atbp. Hindi mahirap ipakita, halimbawa, na ang koepisyent ng ugnayan ay hindi nagbabago sa anumang katanggap-tanggap na pagbabago sa isang mangkok ng mga pagitan, tulad ng ratio ng mga pagpapakalat, ang pagpapakalat ay hindi nagbabago sa sukat ng mga pagkakaiba, ang koepisyent ng pagkakaiba-iba sa ang sukat ng mga ratios, atbp.

Ang mga resulta sa itaas sa mga average na halaga ay malawakang ginagamit, hindi lamang sa ekonomiya, pamamahala, teorya ng mga pagtatasa ng dalubhasa o sosyolohiya, kundi pati na rin sa engineering, halimbawa, upang pag-aralan ang mga pamamaraan para sa pagsasama-sama ng mga sensor sa mga awtomatikong sistema ng kontrol sa proseso ng mga blast furnace. Malaki ang praktikal na kahalagahan ng TI sa mga problema ng standardisasyon at pamamahala ng kalidad, lalo na sa qualimetry, kung saan nakuha ang mga interesanteng teoretikal na resulta. Kaya, halimbawa, ang anumang pagbabago sa mga koepisyent ng timbang ng mga indibidwal na tagapagpahiwatig ng kalidad ng produkto ay humahantong sa isang pagbabago sa pag-order ng mga produkto ayon sa timbang na average na tagapagpahiwatig (ang teorama na ito ay napatunayan ni Prof. V.V. Podinovsky). Dahil dito, ang maikling impormasyon sa itaas tungkol sa TI at ang mga pamamaraan nito ay pinagsasama, sa isang kahulugan, ang ekonomiya, sosyolohiya at mga agham ng inhinyero at isang sapat na kagamitan para sa paglutas ng mga kumplikadong problema na dati ay hindi pumapayag sa epektibong pagsusuri, bukod pa rito, sa gayon nagbubukas ang paraan sa pagbuo ng mga makatotohanang modelo at paglutas ng problema sa pagtataya.

22. Ipinares na linear regression

Bumaling tayo ngayon sa isang mas detalyadong pag-aaral ng pinakasimpleng kaso ng pairwise linear regression. Ang linear regression ay inilalarawan ng pinakasimpleng functional na relasyon sa anyo ng isang straight line equation at nailalarawan sa pamamagitan ng isang transparent na interpretasyon ng mga parameter ng modelo (equation coefficients). Ang kanang bahagi ng equation ay nagpapahintulot sa amin na makakuha ng teoretikal (kinakalkula) na mga halaga ng nagresultang (ipinaliwanag) na variable batay sa ibinigay na mga halaga ng regressor (nagpapaliwanag na variable). Ang mga halagang ito ay tinatawag ding hinulaang (sa parehong kahulugan), i.e. nakuha mula sa mga teoretikal na pormula. Gayunpaman, kapag naglalagay ng isang hypothesis tungkol sa likas na katangian ng pag-asa, ang mga coefficient ng equation ay nananatiling hindi alam. Sa pangkalahatan, ang pagkuha ng tinatayang mga halaga ng mga coefficient na ito ay posible gamit ang iba't ibang mga pamamaraan.

Ngunit ang pinakamahalaga at laganap sa kanila ay ang pamamaraan hindi bababa sa mga parisukat(MNC). Ito ay batay (tulad ng ipinaliwanag na) sa kinakailangan upang mabawasan ang kabuuan ng mga parisukat na paglihis ng mga aktwal na halaga ng nagresultang katangian mula sa kinakalkula (teoretikal) na mga halaga. Sa halip na mga teoretikal na halaga (upang makuha ang mga ito), palitan ang kanang bahagi ng equation ng regression sa kabuuan ng mga squared deviations, at pagkatapos ay hanapin ang mga partial derivatives ng function na ito (ang kabuuan ng squared deviations ng aktwal na mga halaga. ng mga nagresultang katangian mula sa mga teoretikal). Ang mga bahagyang derivatives na ito ay kinuha hindi tungkol sa mga variable na x at y, ngunit tungkol sa mga parameter a at b. Ang mga partial derivatives ay itinakda na katumbas ng zero at, pagkatapos ng simple ngunit masalimuot na pagbabagong-anyo, ang isang sistema ng mga normal na equation ay nakuha para sa pagtukoy ng mga parameter. Ang koepisyent para sa variable na x, i.e. b ay tinatawag na regression coefficient, ipinapakita nito ang average na pagbabago sa resulta na may pagbabago sa factor ng isang unit. Maaaring walang interpretasyong pang-ekonomiya ang parameter a, lalo na kung negatibo ang senyales ng coefficient na ito.

Ang pairwise linear regression ay ginagamit upang pag-aralan ang function ng pagkonsumo. Ang regression coefficient sa function ng pagkonsumo ay ginagamit upang kalkulahin ang multiplier. Halos palaging, ang equation ng regression ay pupunan ng isang tagapagpahiwatig ng pagiging malapit ng koneksyon. Para sa pinakasimpleng kaso ng linear regression, ang tagapagpahiwatig na ito ng pagiging malapit ng koneksyon ay linear coefficient mga ugnayan. Ngunit dahil ang linear correlation coefficient ay nagpapakilala sa pagiging malapit ng relasyon sa pagitan ng mga feature sa isang linear form, ang proximity ng absolute value ng linear correlation coefficient sa zero ay hindi pa nagsisilbing indicator ng kawalan ng koneksyon sa pagitan ng mga feature.

Ito ay may ibang pagpipilian ng detalye ng modelo at, samakatuwid, ang uri ng pag-asa na ang aktwal na relasyon ay maaaring lumabas na medyo malapit sa pagkakaisa. Ngunit ang kalidad ng pagpili linear function tinutukoy gamit ang parisukat ng linear correlation coefficient - ang koepisyent ng determinasyon. Inilalarawan nito ang proporsyon ng pagkakaiba ng mabisang katangian y na ipinaliwanag sa pamamagitan ng pagbabalik sa kabuuang pagkakaiba ng mabisang katangian. Ang halaga na umaakma sa koepisyent ng determinasyon sa 1 ay nagpapakilala sa bahagi ng pagkakaiba na dulot ng impluwensya ng iba pang mga kadahilanan na hindi isinasaalang-alang sa modelo (natirang pagkakaiba).

Ang paired regression ay kinakatawan ng isang equation na nauugnay sa dalawang variable na y at x ng sumusunod na anyo:

kung saan ang y ay ang dependent variable (resultative attribute), at x ang independent variable (explanatory variable, o attribute-factor). Mayroong linear regression at nonlinear regression. Ang linear regression ay inilalarawan ng isang equation ng form:

y = a+ bx + .

Ang nonlinear regression, sa turn, ay maaaring maging nonlinear na may kinalaman sa mga paliwanag na variable na kasama sa pagsusuri, ngunit linear na may paggalang sa mga tinantyang parameter. O baka ang regression ay nonlinear sa mga tuntunin ng mga parameter na tinatantya. Ang mga halimbawa ng regression na nonlinear sa mga variable na nagpapaliwanag, ngunit linear sa mga tinantyang parameter, ay kinabibilangan ng polynomial dependencies ng iba't ibang degree (polynomials) at isang equilateral hyperbola.

Ang nonlinear regression para sa mga tinantyang parameter ay isang power dependence na nauugnay sa parameter (ang parameter ay nasa exponent), isang exponential dependence, kung saan ang parameter ay nasa base ng exponent, at isang exponential dependence, kapag ang buong linear na dependence ay ganap. sa exponent. Tandaan na sa lahat ng tatlong kaso na ito ang random na bahagi (random na natitira)  ay kasama sa kanang bahagi mga equation sa anyo ng isang kadahilanan, at hindi sa anyo ng isang summand, i.e. multiplicatively! Ang average na paglihis ng mga kinakalkula na halaga ng nagresultang katangian mula sa aktwal na mga ay nailalarawan sa pamamagitan ng average na error ng approximation. Ito ay ipinahayag bilang isang porsyento at hindi dapat lumampas sa 7-8%. Ang average na error ng approximation na ito ay ang average na porsyento ng mga relatibong magnitude ng mga pagkakaiba sa pagitan ng aktwal at kinakalkula na mga halaga.

Ang average na elasticity coefficient, na nagsisilbing isang mahalagang katangian ng maraming pang-ekonomiyang phenomena at proseso, ay mahalaga. Ito ay kinakalkula bilang produkto ng halaga ng derivative ng isang ibinigay na functional na relasyon at ang ratio ng average na halaga ng x sa average na halaga ng y. Ang elasticity coefficient ay nagpapakita sa kung anong porsyento sa average ang resulta y ay magbabago mula sa average na halaga nito kapag ang factor x ay nagbago ng 1% mula sa average na halaga nito (factor x).

Ang mga problema sa pagsusuri ng variance ay malapit na nauugnay sa pairwise regression at multiple regression (kapag maraming salik) at residual variance. Pagsusuri ng pagkakaiba-iba sinusuri ang pagkakaiba ng dependent variable. Sa kasong ito, ang kabuuang kabuuan ng mga squared deviations ay nahahati sa dalawang bahagi. Ang unang termino ay ang kabuuan ng mga squared deviations dahil sa regression, o ipinaliwanag (factorial). Ang pangalawang termino ay ang natitirang kabuuan ng mga squared deviations na hindi maipaliwanag ng factor regression.

Ang bahagi ng pagkakaiba-iba na ipinaliwanag ng regression sa kabuuang pagkakaiba ng nagresultang katangian y ay nailalarawan sa pamamagitan ng koepisyent (index) ng pagpapasiya, na hindi hihigit sa ratio ng kabuuan ng mga squared deviations dahil sa regression sa kabuuang kabuuan ng squared deviations. (ang unang termino sa buong kabuuan).

Kapag ang mga parameter ng modelo (coefficients ng mga hindi alam) ay tinutukoy gamit ang pinakamababang paraan ng mga parisukat, kung gayon, sa esensya, ang ilang mga random na variable ay matatagpuan (sa proseso ng pagkuha ng mga pagtatantya). Ang partikular na kahalagahan ay ang pagtatantya ng koepisyent ng regression, na isang espesyal na anyo ng isang random na variable. Ang mga katangian ng random variable na ito ay nakasalalay sa mga katangian ng natitirang termino sa equation (sa modelo). Para sa ipinares na linear regression na modelo, isaalang-alang ang paliwanag na variable x bilang isang hindi random na exogenous na variable. Nangangahulugan lamang ito na ang mga halaga ng variable na x sa lahat ng mga obserbasyon ay maaaring ituring na paunang natukoy at sa anumang paraan ay hindi nauugnay sa pag-asa sa ilalim ng pag-aaral. Kaya, ang aktwal na halaga ng ipinaliwanag na variable ay binubuo ng dalawang bahagi: isang non-random at isang random na bahagi (residual term).

Sa kabilang banda, ang regression coefficient na tinutukoy gamit ang least squares method (OLS) ay katumbas ng quotient ng paghahati ng covariance ng mga variable na x at y sa variance ng variable na x. Samakatuwid, naglalaman din ito ng isang random na bahagi. Pagkatapos ng lahat, ang covariance ay nakasalalay sa mga halaga ng variable na y, kung saan ang mga halaga ng variable na y ay nakasalalay sa mga halaga ng random na natitirang termino . Dagdag pa, madaling ipakita na ang covariance ng mga variable na x at y ay katumbas ng produkto ng tinantyang regression coefficient beta () at ang variance ng variable na x, kasama ang covariance ng mga variable na x at . Kaya, ang pagtatantya ng coefficient ng regression beta ay katumbas ng hindi kilalang koepisyent ng regression mismo, na idinagdag sa quotient ng paghahati ng covariance ng mga variable na x at  sa pagkakaiba ng variable na x. Yung. ang pagtatantya ng coefficient ng regression b na nakuha mula sa anumang sample ay ipinakita bilang kabuuan ng dalawang termino: isang pare-parehong halaga na katumbas ng tunay na halaga ng koepisyent  (beta), at isang random na bahagi depende sa covariance ng mga variable na x at  .

23. Mga kundisyon ng Mathematical Gauss-Markov at ang kanilang aplikasyon.

Para sa pagsusuri ng regression batay sa ordinaryong OLS upang makabuo ng pinakamahusay na mga resulta, dapat na matugunan ng random na termino ang apat na kundisyon ng Gauss-Markov.

Ang mathematical na inaasahan ng random na termino ay katumbas ng zero, i.e. ito ay walang kinikilingan. Kung ang equation ng regression ay may kasamang pare-parehong termino, natural na isaalang-alang ang pangangailangang ito na natupad, dahil ito ay isang pare-parehong termino at dapat isaalang-alang ang anumang sistematikong kalakaran sa mga halaga ng variable y, na, sa kabaligtaran, ay dapat hindi nakapaloob sa mga paliwanag na variable ng regression equation.

Ang pagkakaiba ng random na termino ay pare-pareho para sa lahat ng mga obserbasyon.

Covariance ng mga halaga mga random na variable, ang pagbuo ng sample ay dapat na katumbas ng zero, i.e. walang sistematikong ugnayan sa pagitan ng mga halaga ng random na termino sa alinmang dalawang partikular na obserbasyon. Ang mga random na miyembro ay dapat na independyente sa bawat isa.

Ang batas sa pamamahagi ng random na termino ay dapat na independiyente sa mga paliwanag na variable.

Bukod dito, sa maraming mga aplikasyon ang mga paliwanag na variable ay hindi stochastic, i.e. walang random na bahagi. Ang halaga ng anumang independiyenteng variable sa bawat pagmamasid ay dapat ituring na exogenous, ganap na tinutukoy ng mga panlabas na dahilan na hindi isinasaalang-alang sa equation ng regression.

Kasama ang tinukoy na mga kondisyon ng Gauss-Markov, ipinapalagay din na ang random na termino ay may normal na distribusyon. Ito ay may bisa sa ilalim ng napakalawak na mga kondisyon at batay sa tinatawag na central limit theorem (CLT). Ang kakanyahan ng theorem na ito ay kung ang isang random na variable ay ang pangkalahatang resulta ng pakikipag-ugnayan ng isang malaking bilang ng iba pang mga random na variable, wala sa mga ito ay may isang nangingibabaw na impluwensya sa pag-uugali ng pangkalahatang resulta, pagkatapos ay ang resultang random variable ay ilalarawan sa pamamagitan ng humigit-kumulang normal na distribusyon. Ang kalapit na ito sa normal na pamamahagi nagbibigay-daan sa iyo na gamitin ang normal na distribusyon upang makakuha ng mga pagtatantya at ay sa isang tiyak na kahulugan ang paglalahat nito ay ang distribusyon ng Mag-aaral, na kapansin-pansing naiiba sa normal pangunahin sa tinatawag na "mga buntot", i.e. para sa maliliit na laki ng sample. Mahalaga rin na kung ang random na termino ay karaniwang ipinamamahagi, ang mga coefficient ng regression ay maipapamahagi din nang normal.

Ang itinatag na regression curve (regression equation) ay nagpapahintulot sa amin na malutas ang problema ng tinatawag na point forecast. Sa ganitong mga kalkulasyon, ang isang tiyak na halaga ng x ay kinuha sa labas ng pinag-aralan na agwat ng pagmamasid at pinapalitan sa kanang bahagi ng equation ng regression (extrapolation procedure). kasi Ang mga pagtatantya para sa mga coefficient ng regression ay kilala na, pagkatapos ay posibleng kalkulahin ang halaga ng ipinaliwanag na variable y na tumutugma sa kinuhang halaga ng x. Naturally, alinsunod sa kahulugan ng hula (pagtataya), ang mga kalkulasyon ay isinasagawa pasulong (sa rehiyon ng mga halaga sa hinaharap).

Gayunpaman, dahil ang mga coefficient ay natukoy na may isang tiyak na pagkakamali, hindi ito interesado pagtatantya ng punto(point forecast) para sa isang epektibong katangian, at kaalaman sa mga limitasyon kung saan, na may tiyak na posibilidad, ang mga halaga ng epektibong katangian ay magsisinungaling, na tumutugma sa kinuha na halaga ng factor x.

Upang gawin ito, ang karaniwang error (standard deviation) ay kinakalkula. Ito ay maaaring makuha sa diwa ng kasasabi pa lamang gaya ng mga sumusunod. Ang pagpapahayag ng libreng termino a mula sa mga pagtatantya sa pamamagitan ng mga average na halaga ay pinapalitan sa linear regression equation. Pagkatapos ay lumalabas na ang karaniwang error ay nakasalalay sa error ng average na epektibong salik y at additively sa error ng regression coefficient b. Ang parisukat lamang ng karaniwang error na ito katumbas ng kabuuan ang squared error ng average na halaga y at ang produkto ng squared error ng regression coefficient sa pamamagitan ng squared deviation ng value ng factor x at average nito. Dagdag pa, ang unang termino, ayon sa mga batas ng istatistika, ay katumbas ng quotient ng paghahati ng pagkakaiba-iba ng pangkalahatang populasyon sa laki (volume) ng sample.

Sa halip na hindi alam na pagkakaiba, ang sample na pagkakaiba ay ginagamit bilang isang pagtatantya. Alinsunod dito, ang error ng regression coefficient ay tinukoy bilang ang quotient ng paghahati ng sample variance sa variance ng factor x. Makukuha mo ang karaniwang error (standard deviation) at iba pang mga pagsasaalang-alang na mas independiyente sa modelo ng linear regression. Upang gawin ito, ginagamit ang konsepto ng average na error at marginal error at ang relasyon sa pagitan ng mga ito.

Ngunit kahit na matapos makuha ang karaniwang error, nananatili ang tanong tungkol sa mga hangganan kung saan magsisinungaling ang hinulaang halaga. Sa madaling salita, tungkol sa pagitan ng error sa pagsukat, sa natural na pagpapalagay sa maraming mga kaso na ang gitna ng agwat na ito ay ibinibigay ng kinakalkula (average) na halaga ng epektibong kadahilanan y. Narito ang gitnang teorama ng limitasyon ay dumating upang iligtas, na tiyak na nagpapahiwatig kung anong posibilidad ang hindi kilalang dami ay nasa loob ng agwat ng kumpiyansa na ito.

Mahalaga, ang karaniwang formula ng error, hindi alintana kung paano at sa anong anyo ito nakuha, ay nagpapakilala sa error sa posisyon ng linya ng regression. Ang karaniwang error ay umabot sa pinakamababa kapag ang halaga ng factor x ay tumutugma sa mean value ng factor.

24. Statistical testing ng mga hypotheses at pagtatasa ng kahalagahan ng linear regression gamit ang Fisher criterion.

Matapos matagpuan ang linear regression equation, ang kahalagahan ng parehong equation sa kabuuan at ang mga indibidwal na parameter nito ay tinasa. Ang pagtatasa sa kahalagahan ng isang regression equation sa kabuuan ay maaaring gawin gamit ang iba't ibang pamantayan. Medyo karaniwan at epektibo ang paggamit ng Fisher's F test. Sa kasong ito, ang null hypothesis ay iniharap na ang regression coefficient ay katumbas ng zero, i.e. b=0, at samakatuwid ang salik x ay walang epekto sa resultang y. Ang agarang pagkalkula ng F-test ay nauuna sa pagsusuri ng pagkakaiba. Ang gitnang lugar dito ay inookupahan ng agnas ng kabuuang kabuuan ng mga squared deviations ng variable y mula sa average na halaga y sa dalawang bahagi - "ipinaliwanag" at "hindi maipaliwanag":

Ang kabuuang kabuuan ng mga squared deviations ng mga indibidwal na halaga ng nagresultang katangian y mula sa average na halaga y ay sanhi ng impluwensya ng maraming mga kadahilanan.

Hatiin natin ang buong hanay ng mga dahilan sa dalawang pangkat: ang pinag-aralan na salik x at iba pang mga salik. Kung ang kadahilanan ay hindi nakakaimpluwensya sa resulta, ang linya ng regression sa graph ay kahanay sa OX at y=y axis. Pagkatapos ang buong pagkakaiba-iba ng nagresultang katangian ay dahil sa impluwensya ng iba pang mga kadahilanan at ang kabuuang kabuuan ng mga squared deviations ay mag-tutugma sa nalalabi. Kung ang ibang mga salik ay hindi nakakaimpluwensya sa resulta, ang y ay gumaganang nauugnay sa x at ang natitirang kabuuan ng mga parisukat ay zero. Sa kasong ito, ang kabuuan ng mga squared deviations na ipinaliwanag ng regression ay nag-tutugma sa kabuuang halaga mga parisukat. Dahil hindi lahat ng mga punto ng patlang ng ugnayan ay nasa linya ng regression, ang kanilang scatter ay palaging nangyayari bilang sanhi ng impluwensya ng factor x, i.e. pagbabalik ng y sa x, at sanhi ng iba pang mga sanhi (hindi maipaliwanag na pagkakaiba-iba). Ang kaangkupan ng isang linya ng regression para sa hula ay depende sa kung gaano karami sa kabuuang pagkakaiba-iba sa katangian y ang isinasaalang-alang ng ipinaliwanag na pagkakaiba-iba.

Malinaw, kung ang kabuuan ng mga squared deviations dahil sa regression ay mas malaki kaysa sa natitirang kabuuan ng mga parisukat, kung gayon ang regression equation ay istatistikal na makabuluhan at ang x factor ay may malaking epekto sa resulta. Katumbas ito ng katotohanan na ang coefficient of determination ay lalapit sa pagkakaisa. Ang anumang kabuuan ng mga squared deviations ay nauugnay sa bilang ng mga degree ng kalayaan, i.e. ang bilang ng kalayaan ng malayang pagkakaiba-iba ng isang katangian. Ang bilang ng mga antas ng kalayaan ay nauugnay sa bilang ng mga yunit ng populasyon o sa bilang ng mga constant na tinutukoy mula dito. Kaugnay ng problemang pinag-aaralan, ang bilang ng mga antas ng kalayaan ay dapat magpakita kung gaano karaming mga independiyenteng paglihis sa n posibleng [(y 1 -y), (y 2 -y),...(y n -y)] ang kinakailangan upang bumuo ng isang naibigay na kabuuan ng mga parisukat. Kaya, para sa kabuuang kabuuan ng mga parisukat ∑(y-y sr) 2, (n-1) ang mga independiyenteng paglihis ay kinakailangan, dahil sa isang populasyon ng n unit, pagkatapos kalkulahin ang average na antas, tanging (n-1) na bilang ng mga deviations ang malayang nag-iiba. Kapag kinakalkula ang ipinaliwanag o factor sum ng mga parisukat ∑(y-y avg) 2, ang teoretikal (kinakalkula) na mga halaga ng resultang katangian na y* ay ginagamit, na makikita sa linya ng regression: y(x)=a+bx.

Bumalik tayo ngayon sa pagpapalawak ng kabuuang kabuuan ng mga squared deviations ng epektibong salik mula sa average ng halagang ito. Ang kabuuan na ito ay naglalaman ng dalawang bahagi na tinukoy na sa itaas: ang kabuuan ng mga squared deviations na ipinaliwanag ng regression at isa pang sum na tinatawag na residual sum ng squared deviations. Kaugnay ng agnas na ito ay ang pagsusuri ng pagkakaiba-iba, na direktang sumasagot sa pangunahing tanong: kung paano masuri ang kahalagahan ng equation ng regression sa kabuuan at ang mga indibidwal na parameter nito? Ito rin ay higit na tinutukoy ang kahulugan ng tanong na ito. Upang masuri ang kahalagahan ng regression equation sa kabuuan, ginagamit ang Fisher criterion (F-test). Ayon sa diskarte na iminungkahi ni Fisher, isang null hypothesis ang iniharap: ang regression coefficient ay katumbas ng zero, i.e. valueb=0. Nangangahulugan ito na ang kadahilanan X ay walang epekto sa kinalabasan ng Y.

Tandaan natin na halos palaging ang mga puntos na nakuha bilang resulta ng isang istatistikal na pag-aaral ay hindi eksaktong nasa linya ng regression. Ang mga ito ay nakakalat, na higit pa o mas malayo sa linya ng regression. Ang ganitong pagpapakalat ay dahil sa impluwensya ng iba pang mga salik, naiiba sa paliwanag na kadahilanan X, na hindi isinasaalang-alang sa equation ng regression. Kapag kinakalkula ang ipinaliwanag o factor sum ng squared deviations, ang mga teoretikal na halaga ng nagresultang katangian na natagpuan mula sa linya ng regression ay ginagamit.

Para sa isang naibigay na hanay ng mga halaga ng mga variable Y at X, ang kinakalkula na halaga ng average na halaga Y ay nasa linear regression isang function ng isang parameter lamang - ang regression coefficient. Alinsunod dito, ang factor sum ng squared deviations ay may bilang ng mga degree ng kalayaan na katumbas ng 1. At ang bilang ng mga degree ng kalayaan ng natitirang kabuuan ng squared deviations sa linear regression ay n-2.

Dahil dito, hinahati ang bawat kabuuan ng mga parisukat na paglihis sa orihinal na pagpapalawak ng bilang ng mga antas ng kalayaan nito, nakukuha namin ang average na mga parisukat na paglihis (variance sa bawat isang antas ng kalayaan). Susunod, hinahati ang pagkakaiba-iba ng kadahilanan sa isang antas ng kalayaan sa natitirang pagkakaiba sa isang antas ng kalayaan, makakakuha tayo ng isang pamantayan para sa pagsubok sa null hypothesis, ang tinatawag na F-ratio, o ang pamantayan ng parehong pangalan. Ibig sabihin, kung ang null hypothesis ay totoo, ang salik at natitirang mga pagkakaiba ay pantay lamang sa isa't isa.

Upang tanggihan ang null hypothesis, i.e. tinatanggap ang kabaligtaran na hypothesis, na nagpapahayag ng katotohanan ng kahalagahan (presensya) ng relasyon sa ilalim ng pag-aaral, at hindi lamang isang random na pagkakataon ng mga kadahilanan na gayahin ang isang relasyon na talagang wala, kinakailangan na gumamit ng mga talahanayan ng mga kritikal na halaga ng ang tinukoy na relasyon. Gamit ang mga talahanayan, tinutukoy ang kritikal (threshold) na halaga ng pamantayan ng Fisher. Tinatawag din itong teoretikal. Pagkatapos ay sinusuri nila, sa pamamagitan ng paghahambing nito sa katumbas na empirical (aktwal) na halaga ng criterion na kinakalkula mula sa data ng pagmamasid, kung ang aktwal na halaga ng ratio ay lumampas sa kritikal na halaga mula sa mga talahanayan.

Ginagawa ito nang mas detalyado tulad nito. Pumili ng isang naibigay na antas ng posibilidad ng pagkakaroon ng null hypothesis at hanapin mula sa mga talahanayan ang kritikal na halaga ng F-criterion, kung saan ang isang random na pagkakaiba-iba ng mga pagkakaiba sa pamamagitan ng 1 degree ng kalayaan ay maaari pa ring mangyari, i.e. ang pinakamataas na halaga. Pagkatapos, ang kinakalkula na halaga ng F-ratio ay itinuturing na maaasahan (ibig sabihin, pagpapahayag ng pagkakaiba sa pagitan ng aktwal at natitirang mga pagkakaiba-iba) kung ang ratio na ito ay mas malaki kaysa sa naka-tabulate. Pagkatapos ang null hypothesis ay tinanggihan (ito ay hindi totoo na walang mga palatandaan ng isang koneksyon) at, sa kabaligtaran, dumating tayo sa konklusyon na mayroong isang koneksyon at ito ay makabuluhan (ito ay hindi random, makabuluhan).

Kung ang halaga ng relasyon ay lumabas na mas mababa kaysa sa naka-tabulate, kung gayon ang posibilidad ng null hypothesis ay lumalabas na mas mataas kaysa sa tinukoy na antas (na unang pinili) at ang null hypothesis ay hindi maaaring tanggihan nang walang kapansin-pansing panganib ng pagkuha ng maling konklusyon tungkol sa pagkakaroon ng isang relasyon. Alinsunod dito, ang equation ng regression ay itinuturing na hindi gaanong mahalaga.

Ang halaga ng F-criterion mismo ay nauugnay sa coefficient of determination. Bilang karagdagan sa pagtatasa ng kahalagahan ng regression equation sa kabuuan, ang kahalagahan ng mga indibidwal na parameter ng regression equation ay tinasa din. Sa kasong ito, ang standard error ng regression coefficient ay tinutukoy gamit ang empirical actual standard deviation at ang empirical variance sa bawat antas ng kalayaan. Ang distribusyon ng Mag-aaral ay pagkatapos ay ginagamit upang subukan ang kahalagahan ng koepisyent ng regression upang kalkulahin ang mga agwat ng kumpiyansa nito.

Ang pagtatasa ng kahalagahan ng regression at correlation coefficients gamit ang Student's t-test ay isinasagawa sa pamamagitan ng paghahambing ng mga halaga ng mga dami na ito at ang karaniwang error. Ang laki ng error ng linear regression na mga parameter at ang correlation coefficient ay tinutukoy ng mga sumusunod na formula:

kung saan ang S ay ang root mean square residual sample deviation,

r xy – koepisyent ng ugnayan.

Alinsunod dito, ang halaga ng karaniwang error na hinulaang ng linya ng regression ay ibinibigay ng formula:

Ang kaukulang ratios ng mga halaga ng regression at correlation coefficients sa kanilang karaniwang error ay bumubuo ng tinatawag na t-statistics, at ang paghahambing ng kaukulang tabulated (kritikal) na halaga at ang aktwal na halaga nito ay nagpapahintulot sa isa na tanggapin o tanggihan ang null hypothesis. Ngunit pagkatapos, upang kalkulahin ang agwat ng kumpiyansa, ang pinakamataas na error para sa bawat tagapagpahiwatig ay matatagpuan bilang produkto ng halaga ng tabular ng t statistic sa pamamagitan ng average na random na error ng kaukulang tagapagpahiwatig. Sa katunayan, isinulat namin ito nang medyo naiiba sa itaas. Pagkatapos ang mga hangganan ng mga agwat ng kumpiyansa ay nakuha: ang mas mababang limitasyon ay sa pamamagitan ng pagbabawas ng kaukulang marginal error mula sa kaukulang mga coefficient (talagang ang average), at ang itaas na limitasyon ay sa pamamagitan ng pagdaragdag (pagdaragdag).

Sa linear regression ∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2. Madali itong i-verify sa pamamagitan ng pagtukoy sa formula para sa linear correlation coefficient: r 2 xy = b 2 *σ 2 x /σ 2 y

kung saan ang σ 2 y ay ang kabuuang pagkakaiba ng katangian y;

σ 2 x - pagpapakalat ng katangiang y dahil sa salik na x. Alinsunod dito, ang kabuuan ng mga squared deviations dahil sa linear regression ay magiging:

∑(y x -y avg) 2 =b 2 ∑(x-x avg) 2 .

Dahil, para sa isang naibigay na dami ng mga obserbasyon sa x at y, ang factor sum ng mga parisukat sa linear regression ay nakasalalay lamang sa isang pare-pareho ng coefficient ng regression b, kung gayon ang kabuuan ng mga parisukat na ito ay may isang antas ng kalayaan. Isaalang-alang natin ang bahagi ng nilalaman ng kinakalkula na halaga ng katangiang y i.e. y x. Ang halaga y x ay tinutukoy ng linear regression equation: y x ​​​​= a + bx.

Ang parameter a ay maaaring tukuyin bilang a=y-bx. Ang pagpapalit ng expression para sa parameter a sa linear na modelo, makuha namin ang: y x ​​​​=y-bx+bx avg =y-b(x-x avg).

Para sa isang naibigay na hanay ng mga variable na y at x, ang kinakalkula na halaga ng y x sa linear regression ay isang function ng isang parameter lamang - ang regression coefficient. Alinsunod dito, ang factor sum ng squared deviations ay may bilang ng mga degree ng kalayaan na katumbas ng 1.

May pagkakapantay-pantay sa pagitan ng bilang ng mga antas ng kalayaan ng kabuuan, salik at mga natitirang kabuuan ng mga parisukat. Ang bilang ng mga antas ng kalayaan ng natitirang kabuuan ng mga parisukat sa linear regression ay (n-2). Ang bilang ng mga antas ng kalayaan para sa kabuuang kabuuan ng mga parisukat ay tinutukoy ng bilang ng mga iyon, at dahil ginagamit namin ang average na kinakalkula mula sa sample na data, nawalan kami ng isang antas ng kalayaan, i.e. (n-1). Kaya, mayroon tayong dalawang pagkakapantay-pantay: para sa mga kabuuan at para sa bilang ng mga antas ng kalayaan. At ito, sa turn, ay nagbabalik sa atin sa maihahambing na mga pagkakaiba-iba sa bawat antas ng kalayaan, ang ratio kung saan ay nagbibigay sa Fisher criterion.

25. Pagtatasa ng kahalagahan ng mga indibidwal na parameter ng regression equation at coefficients gamit ang Student's test.

27. Linear at nonlinear regression at mga pamamaraan para sa kanilang pag-aaral.

Ang linear regression at ang mga pamamaraan ng pananaliksik at pagsusuri nito ay hindi magiging napakahalaga kung, bilang karagdagan sa napakahalagang ito, ngunit ang pinakasimpleng kaso, hindi namin nakuha sa kanilang tulong ang isang tool para sa pagsusuri ng mas kumplikadong nonlinear dependencies. Ang mga nonlinear na regression ay maaaring nahahati sa dalawang makabuluhang magkaibang klase. Ang una at mas simple ay ang klase ng nonlinear dependencies kung saan mayroong nonlinearity na may paggalang sa mga paliwanag na variable, ngunit nananatiling linear sa mga parameter na kasama sa mga ito at napapailalim sa pagsusuri. Kabilang dito ang mga polynomial ng iba't ibang degree at isang equilateral hyperbola.

Ang nasabing nonlinear regression para sa mga variable na kasama sa paliwanag sa pamamagitan ng simpleng pagbabago (pagpapalit) ng mga variable ay madaling maibaba sa ordinaryong linear regression para sa mga bagong variable. Samakatuwid, ang pagtatantya ng mga parameter sa kasong ito ay isinasagawa lamang ng hindi bababa sa mga parisukat, dahil ang mga dependency ay linear sa mga parameter. Kaya, ang isang mahalagang papel sa ekonomiya ay nilalaro ng hindi linear na pag-asa na inilarawan ng isang equilateral hyperbola:

Ang mga parameter nito ay mahusay na nasuri gamit ang hindi bababa sa mga parisukat na pamamaraan, at ang pagtitiwala na ito mismo ay nagpapakilala sa koneksyon sa pagitan ng mga tiyak na gastos ng mga hilaw na materyales, gasolina, mga materyales na may dami ng output, ang oras ng sirkulasyon ng mga kalakal at lahat ng mga salik na ito sa dami ng kalakalan turnover. Halimbawa, ang kurba ng Phillips ay nagpapakita ng hindi linear na relasyon sa pagitan ng antas ng kawalan ng trabaho at ang porsyento ng paglago ng sahod.

Ang sitwasyon ay ganap na naiiba sa regression na nonlinear sa mga parameter na tinatantya, halimbawa, na kinakatawan ng isang power function, kung saan ang degree mismo (ang exponent nito) ay isang parameter, o depende sa parameter. Maaari rin itong maging isang exponential function, kung saan ang base ng degree ay isang parameter at isang exponential function, kung saan muli ang indicator ay naglalaman ng isang parameter o isang kumbinasyon ng mga parameter. Ang klase na ito, sa turn, ay nahahati sa dalawang subclass: kabilang sa isa ang panlabas na nonlinear, ngunit mahalagang panloob na linear. Sa kasong ito, maaari mong dalhin ang modelo sa isang linear na anyo gamit ang mga pagbabagong-anyo. Gayunpaman, kung ang modelo ay panloob na nonlinear, hindi ito maaaring bawasan sa isang linear na function.

Kaya, ang mga modelo lamang na intrinsically nonlinear sa regression analysis ay itinuturing na tunay na nonlinear. Ang lahat ng iba pa, na maaaring bawasan sa linear sa pamamagitan ng mga pagbabagong-anyo, ay hindi itinuturing na ganoon, at sila ang pinakamadalas na itinuturing sa mga pag-aaral ng ekonometriko. Kasabay nito, hindi ito nangangahulugan na imposibleng pag-aralan ang mahalagang nonlinear na dependencies sa econometrics. Kung ang modelo ay panloob na nonlinear sa mga parameter nito, kung gayon ang mga umuulit na pamamaraan ay ginagamit upang tantiyahin ang mga parameter, ang tagumpay nito ay nakasalalay sa uri ng equation para sa mga tampok ng umuulit na pamamaraan na ginamit.

Bumalik tayo sa mga dependency na binawasan sa linear. Kung ang mga ito ay nonlinear pareho sa mga parameter at sa mga variable, halimbawa, ng form na y = a na pinarami ng kapangyarihan ng X, ang exponent nito ay ang parameter -  (beta):

Malinaw, ang gayong relasyon ay madaling ma-convert sa isang linear equation sa pamamagitan ng simpleng logarithm.

Matapos ipasok ang mga bagong variable na nagsasaad ng logarithms, isang linear equation ang nakuha. Ang pamamaraan para sa pagtatantya ng regression ay binubuo ng pagkalkula ng mga bagong variable para sa bawat obserbasyon sa pamamagitan ng pagkuha ng logarithms ng orihinal na mga halaga. Pagkatapos ay tinatantya ang regression dependence ng mga bagong variable. Upang pumunta sa orihinal na mga variable, dapat mong kunin ang antilogarithm, iyon ay, aktwal na bumalik sa mga kapangyarihan sa halip na ang kanilang mga exponents (pagkatapos ng lahat, ang logarithm ay ang exponent). Ang kaso ng exponential o exponential function ay maaaring isaalang-alang nang katulad.

Para sa isang makabuluhang nonlinear na regression, hindi posibleng ilapat ang karaniwang pamamaraan ng pagtatantya ng regression dahil hindi mako-convert sa linear ang kaukulang relasyon. Ang pangkalahatang pamamaraan ng mga aksyon ay ang mga sumusunod:

1. Tinatanggap ang ilang posibleng paunang halaga ng parameter;

2. Ang hinulaang mga halaga ng Y ay kinakalkula mula sa aktwal na mga halaga ng X gamit ang mga halaga ng parameter na ito;

3. Kinakalkula ang mga nalalabi para sa lahat ng mga obserbasyon sa sample at pagkatapos ay ang kabuuan ng mga parisukat ng mga nalalabi;

4. Ginagawa ang maliliit na pagbabago sa isa o higit pang mga pagtatantya ng parameter;

5. Ang mga bagong hinulaang halaga ng Y, mga nalalabi at kabuuan ng mga parisukat ng mga nalalabi ay kinakalkula;

6. Kung ang kabuuan ng mga parisukat ng mga nalalabi ay mas mababa kaysa dati, kung gayon ang mga bagong pagtatantya ng parameter ay mas mahusay kaysa sa mga nauna at dapat gamitin bilang isang bagong panimulang punto;

7. Ang mga hakbang 4, 5 at 6 ay inuulit muli hanggang sa maging imposible na gawin ang mga naturang pagbabago sa mga pagtatantya ng parameter na hahantong sa pagbabago sa kabuuan ng mga nalalabi ng mga parisukat;

8. Napagpasyahan na ang kabuuan ng mga parisukat na residual ay pinaliit at ang panghuling mga pagtatantya ng parameter ay hindi bababa sa mga pagtatantya ng parisukat.

Kabilang sa mga nonlinear function na maaaring bawasan sa linear na anyo, malawakang ginagamit ang power function sa econometrics. Ang parameter b dito ay may malinaw na interpretasyon, bilang isang koepisyent ng pagkalastiko. Sa mga modelong nonlinear sa mga tinantyang parameter, ngunit maaaring bawasan sa linear na anyo, ang paraan ng least squares ay inilalapat sa mga binagong equation. Ang praktikal na paggamit ng logarithms at, nang naaayon, ang mga exponent ay posible kapag ang resultang sign ay walang mga negatibong halaga. Kapag pinag-aaralan ang mga ugnayan sa pagitan ng mga function gamit ang logarithm ng resultang attribute, ang mga dependency sa power-law ay nangingibabaw sa econometrics (demand at supply curves, production function, absorption curves upang makilala ang relasyon sa pagitan ng labor intensity ng mga produkto, ang sukat ng produksyon, ang dependence ng GNI sa antas ng trabaho, Engel curves).

28. Baliktad na modelo at paggamit nito

Minsan ang tinatawag na inverse model ay ginagamit, na panloob na nonlinear, ngunit sa loob nito, hindi katulad ng isang equilateral hyperbola, hindi ang paliwanag na variable na napapailalim sa pagbabago, ngunit ang nagresultang katangian na Y. Samakatuwid, ang kabaligtaran na modelo ay lumalabas sa maging panloob na nonlinear at ang kinakailangan ng OLS ay hindi nasiyahan para sa aktwal na mga halaga ng nagresultang katangian Y, at para sa kanilang mga kabaligtaran na halaga. Ang pag-aaral ng ugnayan para sa nonlinear regression ay nararapat na espesyal na pansin. Sa pangkalahatang kaso, ang isang parabola ng pangalawang antas, tulad ng mga polynomial ng mas mataas na pagkakasunud-sunod, kapag ang linearized ay nasa anyo ng isang multiple regression equation. Kung, kapag linearized, ang isang regression equation na nonlinear na may paggalang sa ipinaliwanag na variable ay tumatagal ng anyo ng isang linear paired regression equation, pagkatapos ay isang linear correlation coefficient ay maaaring gamitin upang masuri ang lapit ng relasyon.

Kung ang mga pagbabagong-anyo ng equation ng regression sa linear form ay nauugnay sa dependent variable (resultang katangian), kung gayon ang linear correlation coefficient batay sa mga binagong halaga ng mga katangian ay nagbibigay lamang ng tinatayang pagtatantya ng relasyon at hindi tumutugma sa numero sa index ng ugnayan. Dapat tandaan na kapag kinakalkula ang index ng ugnayan, ang mga kabuuan ng mga parisukat na paglihis ng nagresultang katangian Y ang ginagamit, at hindi ang kanilang mga logarithms. Ang pagtatasa sa kahalagahan ng index ng ugnayan ay ginagawa sa parehong paraan tulad ng pagtatasa sa pagiging maaasahan (kahalagahan) ng koepisyent ng ugnayan. Ang correlation index mismo, tulad ng determination index, ay ginagamit upang subukan ang kabuuang kahalagahan ng nonlinear regression equation gamit ang Fisher F test.

Tandaan na ang posibilidad ng pagbuo ng mga nonlinear na modelo, kapwa sa pamamagitan ng pagbabawas ng mga ito sa isang linear na anyo at sa pamamagitan ng paggamit ng nonlinear regression, sa isang banda, ay nagpapataas ng universality ng regression analysis. Sa kabilang banda, ito ay makabuluhang nagpapakumplikado sa mga gawain ng mananaliksik. Kung nililimitahan natin ang ating sarili sa paired regression analysis, maaari nating i-plot ang mga obserbasyon Y at X bilang scatter plot. Kadalasan ay tinatayang mga obserbasyon ang ilang iba't ibang nonlinear na function kung nasa isang curve ang mga ito. Ngunit sa kaso ng maramihang pagsusuri ng regression, ang naturang graph ay hindi maaaring gawin.

Kung isasaalang-alang ang mga alternatibong modelo na may parehong kahulugan ng dependent variable, ang pamamaraan ng pagpili ay medyo simple. Maaaring tantiyahin ng isang tao ang isang regression batay sa lahat ng kapani-paniwalang function na maaaring isipin at piliin ang function na pinaka nagpapaliwanag ng pagbabago sa dependent variable. Malinaw na kapag ang isang linear na function ay nagpapaliwanag ng humigit-kumulang 64% ng variance sa y, at ang isang hyperbolic function ay nagpapaliwanag ng 99.9%, ang huli ay dapat na malinaw na napili. Pero kailan iba't ibang modelo gumamit ng iba't ibang mga functional form, ang problema sa pagpili ng isang modelo ay nagiging mas kumplikado.

29. Gamit ang Box-Cox test.

Sa pangkalahatan, kapag isinasaalang-alang ang mga alternatibong modelo na may parehong kahulugan ng dependent variable, ang pagpili ay simple. Ito ay pinaka-makatwirang tantiyahin ang regression batay sa lahat ng mga kapani-paniwalang function, na tumutuon sa function na pinaka nagpapaliwanag ng pagbabago sa dependent variable. Kung ang koepisyent ng determinasyon ay sumusukat, sa isang kaso, ang proporsyon ng pagkakaiba-iba na ipinaliwanag ng regression, at sa kabilang banda, ang proporsyon ng pagkakaiba-iba sa logarithm ng umaasang variable na ito na ipinaliwanag ng regression, kung gayon ang pagpili ay ginawa nang walang kahirapan. Ito ay isa pang bagay kapag ang mga halagang ito para sa dalawang modelo ay napakalapit at ang problema sa pagpili ay nagiging mas kumplikado.

Ang karaniwang pamamaraan sa anyo ng pagsubok sa Box-Cox ay dapat na ilapat. Kung kailangan mo lamang ihambing ang mga modelo gamit ang epektibong kadahilanan at ang logarithm nito sa anyo ng isang variant ng dependent variable, pagkatapos ay isang bersyon ng pagsubok na Zarembka ang ginagamit. Nagmumungkahi ito ng pagbabago ng sukat ng pagmamasid Y, na nagbibigay-daan sa direktang paghahambing ng root mean square error (MSE) sa mga linear at logarithmic na modelo. Kasama sa kaukulang pamamaraan ang mga sumusunod na hakbang:

    Ang geometric na ibig sabihin ng mga halaga ng Y sa sample ay kinakalkula, na tumutugma sa exponent ng arithmetic mean ng logarithm ng Y;

    Ang mga obserbasyon Y ay muling kinakalkula sa paraang nahahati sila sa halagang nakuha sa unang hakbang;

    Ang regression ay tinatantya para sa isang linear na modelo gamit ang mga naka-scale na halaga ng Y sa halip na ang orihinal na mga halaga ng Y, at para sa isang logarithmic na modelo na gumagamit ng logarithm ng mga naka-scale na halaga ng Y. Ang mga halaga ng RMSE para sa dalawang regression ay maihahambing na ngayon at samakatuwid ang modelo na may mas maliit na kabuuan ng mga squared deviations ay nagbibigay ng mas mahusay na akma sa tunay na kaugnayan ng mga naobserbahang halaga;

    Upang masuri na ang isa sa mga modelo ay hindi nagbibigay ng isang makabuluhang mas mahusay na akma, maaaring gamitin ng isa ang produkto ng kalahati ng bilang ng mga obserbasyon at ang logarithm ng ratio ng mga halaga ng karaniwang paglihis sa muling pagkalkula ng mga regression, at pagkatapos ay kunin ang ganap na halaga ng halagang ito.

30. Mga konsepto ng intercorrelation at multicollinearity ng mga salik.

34. Mga Batayan ng MNC at ang bisa ng aplikasyon nito.

Bumaling tayo ngayon sa mga pangunahing kaalaman ng OLS, ang bisa ng aplikasyon nito (kabilang ang maraming problema sa regression) at ang pinakamahalagang katangian ng mga pagtatantya na nakuha gamit ang OLS. Magsimula tayo sa katotohanan na, kasama ang analytical dependence sa kanang bahagi ng regression equation, ang random na term ay gumaganap din ng isang mahalagang papel. Ang random na bahaging ito ay isang hindi mapapansing dami. Sami mga pagsusulit sa istatistika ang mga parameter ng regression at mga sukat ng ugnayan ay batay sa hindi masusubok na mga pagpapalagay tungkol sa pamamahagi ng random na bahaging ito ng maramihang regression. Ang mga pagpapalagay na ito ay preliminary lamang. Pagkatapos lamang mabuo ang equation ng regression ay susuriin kung ang mga pagtatantya ng mga random na nalalabi (empirical analogues ng random na bahagi) ay may mga katangian na ipinapalagay na priori. Mahalaga, kapag ang mga parameter ng modelo ay tinantya, ang mga pagkakaiba sa pagitan ng teoretikal at aktwal na mga halaga ng nagresultang katangian ay kinakalkula upang sa gayon ay matantya ang random na bahagi mismo. Mahalagang tandaan na isa lamang itong halimbawang pagpapatupad ng hindi kilalang natitira sa isang ibinigay na equation.

Ang mga regression coefficient na nakuha mula sa isang sistema ng mga normal na equation ay mga sample na pagtatantya ng lakas ng relasyon. Malinaw na ang mga ito ay may praktikal na kahalagahan lamang kapag sila ay walang kinikilingan. Alalahanin natin na sa kasong ito ang mean ng mga nalalabi ay katumbas ng zero, o, na pareho, ang mean ng pagtatantya ay katumbas ng tinantyang parameter mismo. Kung gayon ang mga nalalabi ay hindi maiipon sa isang malaking bilang ng mga sample na pagtatantya, at ang nahanap na parameter ng regression mismo ay maaaring ituring bilang ang average ng isang malaking bilang ng mga walang pinapanigan na mga pagtatantya.

Bilang karagdagan, ang mga pagtatantya ay dapat magkaroon ng pinakamaliit na pagkakaiba, i.e. maging epektibo at pagkatapos ay magiging posible na lumipat mula sa halos hindi nagagamit na mga pagtatantya ng punto patungo sa pagtatantya ng agwat. Sa wakas, ang mga agwat ng kumpiyansa ay kapaki-pakinabang kapag ang posibilidad na makakuha ng pagtatantya sa isang naibigay na distansya mula sa tunay (hindi alam) na halaga ng parameter ay malapit sa isa. Ang ganitong mga pagtatantya ay tinatawag na pare-pareho at ang pag-aari ng pagkakapare-pareho ay nailalarawan sa pamamagitan ng pagtaas sa kanilang katumpakan sa pagtaas ng laki ng sample.

Gayunpaman, ang kondisyon ng pagkakapare-pareho ay hindi awtomatikong nasiyahan at makabuluhang nakasalalay sa katuparan ng sumusunod na dalawang mahahalagang kinakailangan. Una, ang mga residual mismo ay dapat na stochastic na may pinaka-binibigkas na randomness, i.e. lahat ng malinaw na functional dependencies ay dapat na partikular na isama sa analytical component ng multiple regression, at bilang karagdagan, ang mga value ng residual ay dapat na ibinahagi nang hiwalay sa isa't isa para sa iba't ibang sample (walang autocorrelation ng mga residual). Ang pangalawa, hindi gaanong mahalagang kinakailangan ay ang pagkakaiba-iba ng bawat paglihis (nalalabi) ay magkapareho para sa lahat ng mga halaga ng mga variable na X (homoscedasticity). Yung. Ang homoscedasticity ay ipinahayag sa pamamagitan ng patuloy na pagkakaiba para sa lahat ng mga obserbasyon:

Sa kabaligtaran, ang heteroscedasticity ay ang paglabag sa naturang patuloy na pagkakaiba-iba para sa iba't ibang mga obserbasyon. Sa kasong ito, ang a priori (bago ang mga obserbasyon) na posibilidad na makakuha ng mataas na lihis na mga halaga na may iba't ibang teoretikal na pamamahagi ng random na termino para sa iba't ibang mga obserbasyon sa sample ay magiging medyo mataas.

Ang autocorrelation ng mga nalalabi, o ang pagkakaroon ng isang ugnayan sa pagitan ng mga nalalabi ng kasalukuyan at nakaraang (kasunod) na mga obserbasyon, ay tinutukoy ng halaga ng karaniwang linear correlation coefficient. Kung ito ay makabuluhang naiiba mula sa zero, kung gayon ang mga nalalabi ay autocorrelated at, samakatuwid, ang probability density function (pamamahagi ng mga nalalabi) ay nakasalalay sa punto ng pagmamasid at sa pamamahagi ng mga natitirang halaga sa iba pang mga punto ng pagmamasid. Ito ay maginhawa upang matukoy ang autocorrelation ng mga nalalabi gamit ang magagamit na istatistikal na impormasyon kung mayroong isang pagkakasunud-sunod ng mga obserbasyon sa pamamagitan ng kadahilanan X. Ang kawalan ng autocorrelation ng mga nalalabi ay nagsisiguro sa pagkakapare-pareho at pagiging epektibo ng mga pagtatantya ng mga coefficient ng regression.

35. Homoscedasticity at heteroscedasticity, autocorrelation ng mga residual, generalized least squares (GLM).

Ang pagkakapareho ng mga pagkakaiba-iba ng mga nalalabi para sa lahat ng mga halaga ng mga variable na X, o homoscedasticity, ay talagang kinakailangan din upang makakuha ng pare-parehong mga pagtatantya ng mga parameter ng regression gamit ang OLS. Ang pagkabigong matugunan ang kondisyon ng homoscedasticity ay humahantong sa tinatawag na heteroscedasticity. Maaari itong humantong sa mga may kinikilingang pagtatantya ng mga coefficient ng regression. Pangunahing makakaapekto ang heteroscedasticity sa pagbawas sa kahusayan ng mga pagtatantya ng coefficient ng regression. Sa kasong ito, nagiging mahirap lalo na ang paggamit ng formula para sa karaniwang error ng coefficient ng regression, ang paggamit nito ay ipinapalagay ang isang pare-parehong pagpapakalat ng mga nalalabi para sa anumang mga halaga ng kadahilanan. Tulad ng para sa walang kinikilingan ng mga pagtatantya ng mga coefficient ng regression, pangunahin itong nakasalalay sa kalayaan ng mga nalalabi at ang mga halaga ng mga kadahilanan mismo.

Ang isang medyo malinaw, kahit na hindi mahigpit at nangangailangan ng kasanayan na paraan upang masubukan ang homoscedasticity ay ang graphical na pag-aaral ng kalikasan ng pag-asa ng mga nalalabi sa average na kinakalkula (teoretikal) na resultang katangian, o ang kaukulang mga patlang ng ugnayan. Ang mga pamamaraan ng analitikal para sa pag-aaral at pagtatasa ng heteroscedasticity ay mas mahigpit. Kung mayroong isang makabuluhang presensya ng heteroscedasticity, ipinapayong gumamit ng pangkalahatang OLS (GLM) sa halip na OLS.

Bilang karagdagan sa mga kinakailangan para sa maramihang regression na nagmumula sa paggamit ng OLS, kinakailangan ding sumunod sa mga kondisyon sa mga variable na kasama sa modelo. Ang mga ito, una sa lahat, ay kinabibilangan ng mga kinakailangan tungkol sa bilang ng mga salik ng modelo para sa isang naibigay na dami ng mga obserbasyon (1 hanggang 7). Kung hindi, ang mga parameter ng regression ay hindi gaanong mahalaga sa istatistika. Mula sa punto ng view ng pagiging epektibo ng paglalapat ng kaukulang mga numerical na pamamaraan kapag nagpapatupad ng LSM, kinakailangan na ang bilang ng mga obserbasyon ay lumampas sa bilang ng mga tinantyang parameter (sa isang sistema ng mga equation, ang bilang ng mga equation ay mas malaki kaysa sa bilang ng mga hinahangad. mga variable).

Ang pinakamahalagang tagumpay ng econometrics ay ang makabuluhang pag-unlad ng mga pamamaraan para sa pagtatantya ng hindi kilalang mga parameter at ang pagpapabuti ng pamantayan para sa pagtukoy ng static na kahalagahan ng mga epektong isinasaalang-alang. Kaugnay nito, ang imposibilidad o kawalan ng kakayahang gumamit ng tradisyonal na OLS dahil sa heteroskedasticity na ipinakita sa iba't ibang antas ay humantong sa pagbuo ng isang pangkalahatang OLS (GLM). Sa katunayan, kabilang dito ang pagsasaayos ng modelo, pagbabago ng detalye nito, at pagbabago sa orihinal na data upang matiyak na walang pinapanigan, mahusay, at pare-pareho ang mga pagtatantya ng mga koepisyent ng regression.

Ipinapalagay na ang average ng mga nalalabi ay zero, ngunit ang kanilang dispersion ay hindi na pare-pareho, ngunit proporsyonal sa mga halaga ng K i, kung saan ang mga halagang ito ay proportionality coefficients na naiiba para sa iba't ibang mga halaga ng salik x. Kaya, ang mga coefficient na ito (mga halaga ng K i) ang nagpapakilala sa heterogeneity ng dispersion. Naturally, pinaniniwalaan na ang halaga ng pagpapakalat mismo, na isang karaniwang kadahilanan para sa mga koepisyent ng proporsyonalidad na ito, ay hindi alam.

Ang orihinal na modelo, pagkatapos na ipasok ang mga coefficient na ito sa multiple regression equation, ay patuloy na nananatiling heteroskedastic (mas tiyak, ito ang mga natitirang halaga ng modelo). Hayaang ang mga nalalabi (nalalabi) na ito ay hindi autocorrelated. Ipakilala natin ang mga bagong variable na nakuha sa pamamagitan ng paghahati sa mga inisyal na variable ng modelo na naitala bilang resulta ng i-th observation ng square root ng proportionality coefficients K i . Pagkatapos ay kumuha tayo ng bagong equation sa mga nabagong variable, kung saan ang mga nalalabi ay magiging homoscedastic. Ang mga bagong variable mismo ay may timbang na lumang (orihinal) na mga variable.

Samakatuwid, ang pagtatantya ng mga parameter ng bagong equation na nakuha sa paraang ito na may mga homoscedastic residual ay mababawasan sa weighted least squares method (sa esensya, ito ang paraan ng OLS). Kapag ginamit sa halip na ang mga variable ng regression mismo, ang kanilang mga paglihis mula sa mga average, ang mga expression para sa mga coefficient ng regression ay tumatagal sa isang simple at standardized (uniporme) na anyo, bahagyang naiiba para sa OLS at OLS sa pamamagitan ng correction factor 1/K sa numerator at denominator ng fraction na nagbibigay ng regression coefficient.

Dapat tandaan na ang mga parameter ng nabagong (naayos) na modelo ay makabuluhang nakasalalay sa kung anong konsepto ang ginamit bilang batayan para sa mga koepisyent ng proporsyonalidad K i. Madalas na ipinapalagay na ang mga nalalabi ay proporsyonal lamang sa mga halaga ng kadahilanan. Ang modelo ay tumatagal ng pinakasimpleng anyo nito kapag ang hypothesis ay tinanggap na ang mga error ay proporsyonal sa mga halaga ng huling kadahilanan sa pagkakasunud-sunod. Pagkatapos ay ginagawang posible ng OLS na dagdagan ang bigat ng mga obserbasyon na may mas maliliit na halaga ng mga nabagong variable kapag tinutukoy ang mga parameter ng regression kumpara sa pagpapatakbo ng karaniwang OLS na may mga orihinal na variable na pinagmulan. Ngunit ang mga bagong variable na ito ay nakakatanggap na ng ibang pang-ekonomiyang nilalaman.

Ang hypothesis tungkol sa proporsyonalidad ng mga nalalabi sa laki ng salik ay maaaring may tunay na batayan. Hayaang maproseso ang isang tiyak na hindi sapat na homogenous na set ng data, halimbawa, kasama ang malaki at maliliit na negosyo nang sabay. Kung gayon ang malalaking volumetric na halaga ng kadahilanan ay maaaring tumutugma sa parehong isang malaking pagpapakalat ng nagresultang katangian at isang malaking pagpapakalat ng mga natitirang halaga. Dagdag pa, ang paggamit ng OLS at ang kaukulang paglipat sa mga kamag-anak na halaga ay hindi lamang binabawasan ang pagkakaiba-iba ng kadahilanan, ngunit binabawasan din ang pagkakaiba-iba ng error. Kaya, ang pinakasimpleng kaso ng pagsasaalang-alang at pagwawasto ng heteroskedasticity sa mga modelo ng regression ay natanto sa pamamagitan ng paggamit ng OLS.

Ang diskarte sa itaas sa pagpapatupad ng OLS sa anyo ng may timbang na OLS ay medyo praktikal - ito ay ipinatupad lamang at may malinaw na interpretasyong pang-ekonomiya. Siyempre, hindi ito ang pinakapangkalahatang diskarte, at sa konteksto ng mga istatistika ng matematika, na nagsisilbing teoretikal na batayan ng econometrics, inaalok kami ng mas mahigpit na pamamaraan na nagpapatupad ng OLS sa mismong pangkalahatang pananaw. Sa loob nito, kailangan mong malaman ang covariance matrix ng error vector (residual column). At ito ay karaniwang hindi patas sa mga praktikal na sitwasyon, at maaaring imposibleng mahanap ang matrix na ito bilang ganoon. Samakatuwid, sa pangkalahatan, kinakailangan na kahit papaano ay tantiyahin ang kinakailangang matrix upang magamit ang naturang pagtatantya sa kaukulang mga formula sa halip na ang matrix mismo. Kaya, ang inilarawang bersyon ng pagpapatupad ng OMNC ay kumakatawan sa isa sa mga naturang pagtatantya. Minsan ito ay tinatawag na accessible generalized least squares.

Dapat ding isaalang-alang na ang coefficient of determination ay hindi maaaring magsilbi bilang isang kasiya-siyang sukatan ng kalidad ng fit kapag gumagamit ng OLS. Sa pagbabalik sa paggamit ng OLS, napapansin din namin na ang paraan ng paggamit ng mga standard deviations (standard errors) sa White form (ang tinatawag na consistent standard errors sa presensya ng heteroscedasticity) ay may sapat na generality. Ang pamamaraang ito ay naaangkop sa kondisyon na ang covariance matrix ng error vector ay dayagonal. Kung mayroong autocorrelation ng mga nalalabi (error), kapag may mga non-zero na elemento (coefficients) sa covariance matrix at sa labas ng pangunahing dayagonal, kung gayon ang isang mas pangkalahatang karaniwang paraan ng error sa Neve West form ay dapat gamitin. Mayroong isang makabuluhang limitasyon: ang mga di-zero na elemento, bilang karagdagan sa pangunahing dayagonal, ay matatagpuan lamang sa mga katabing diagonal, na may pagitan mula sa pangunahing dayagonal ng hindi hihigit sa isang tiyak na halaga.

Mula sa itaas ay malinaw na kinakailangan upang masuri ang data para sa heteroskedasticity. Ang mga pagsubok sa ibaba ay nagsisilbi sa layuning ito. Sinusubukan nila ang pangunahing hypothesis tungkol sa pagkakapantay-pantay ng mga pagkakaiba-iba ng mga residual laban sa alternatibong hypothesis (tungkol sa hindi pagkakapantay-pantay ng mga hypothesis na ito). Bilang karagdagan, mayroong isang priori structural constraints sa likas na katangian ng heteroscedasticity. Karaniwang ginagamit ng Goldfeld-Quandt test ang pagpapalagay na ang error variance (residual) ay direktang nakadepende sa halaga ng ilang independent variable. Ang pamamaraan para sa paggamit ng pagsusulit na ito ay ang mga sumusunod. Una, inayos ang data sa pababang pagkakasunud-sunod ng independent variable kung saan pinaghihinalaan ang heteroscedasticity. Ang nakaayos na set ng data na ito ay nag-aalis ng karaniwang ilang obserbasyon, kung saan ang salitang "kaunti" ay nangangahulugang humigit-kumulang isang-kapat (25%) ng kabuuang bilang lahat ng obserbasyon. Susunod, dalawang independiyenteng regression ang pinapatakbo sa una sa natitirang (pagkatapos ng elimination) average na mga obserbasyon at ang huling dalawa sa natitirang average na mga obserbasyon. Pagkatapos nito, ang dalawang katumbas na natitira ay itinayo. Sa wakas, ang istatistika ng Fisher F ay pinagsama-sama at kung ang hypothesis na pinag-aaralan ay totoo, kung gayon ang F ay talagang ang pamamahagi ng Fisher na may naaangkop na antas ng kalayaan. Kung gayon ang isang malaking halaga ng istatistikang ito ay nangangahulugan na ang hypothesis na sinusuri ay dapat tanggihan. Kung wala ang hakbang sa pag-aalis, ang kapangyarihan ng pagsubok na ito ay nababawasan.

Ang Breusch-Pagan test ay ginagamit sa mga kaso kung saan ito ay isang priori na ipinapalagay na ang mga pagkakaiba ay nakasalalay sa ilang karagdagang mga variable. Una, ang ordinaryong (karaniwang) regression ay ginaganap at ang isang vector ng mga residual ay nakuha. Pagkatapos ay isang pagtatantya ng pagkakaiba ay itinayo. Susunod, ang isang regression ng squared vector ng mga residual na hinati sa empirical variance (variance estimate) ay isinasagawa. Para dito (regression), matatagpuan ang ipinaliwanag na bahagi ng variation. At para sa ipinaliwanag na bahagi ng pagkakaiba-iba, na hinati sa kalahati, ang mga istatistika ay binuo. Kung ang null hypothesis ay totoo (walang heteroskedasticity ang totoo), kung gayon ang halagang ito ay may distribusyon hee-parisukat. Kung ang pagsubok, sa kabaligtaran, ay nagpapakita ng heteroskedasticity, kung gayon ang orihinal na modelo ay binago sa pamamagitan ng paghati sa mga bahagi ng vector ng mga nalalabi sa mga kaukulang bahagi ng vector ng mga sinusunod na independiyenteng mga variable.

36. Pamamaraan ng standard deviation sa White form.

Ang mga sumusunod na konklusyon ay maaaring makuha. Ang paggamit ng OLS sa pagkakaroon ng heteroskedasticity ay bumababa sa pagliit ng kabuuan ng mga weighted squared deviations. Ang paggamit ng available na OLS ay nauugnay sa pangangailangang magkaroon ng malaking bilang ng mga obserbasyon na lampas sa bilang ng mga tinantyang parameter. Ang pinaka-kanais-nais na kaso para sa paggamit ng OLS ay ang kaso kapag ang error (nalalabi) ay proporsyonal sa isa sa mga independyenteng variable at ang mga resultang pagtatantya ay pare-pareho. Kung, gayunpaman, sa isang modelo na may heteroskedasticity ay kinakailangan na gumamit ng hindi OLS, ngunit karaniwang OLS, pagkatapos ay upang makakuha ng pare-parehong mga pagtatantya, ang isa ay maaaring gumamit ng mga pagtatantya ng error sa White o Nevier-West na form.

Kapag pinag-aaralan ang serye ng oras, madalas na kinakailangang isaalang-alang ang istatistikal na pag-asa ng mga obserbasyon sa iba't ibang mga punto sa oras. Sa kasong ito, ang pagpapalagay ng mga hindi nauugnay na mga error ay hindi nasiyahan. Isaalang-alang natin simpleng modelo, kung saan ang mga error ay bumubuo ng isang first-order na autoregressive na proseso. Sa kasong ito, ang mga error ay nakakatugon sa isang simpleng pag-uulit na ugnayan, sa kanang bahagi kung saan ang isa sa mga termino ay isang pagkakasunud-sunod ng mga independiyenteng normal na ipinamamahagi na mga random na variable na may zero mean at pare-pareho ang pagkakaiba. Ang pangalawang termino ay ang produkto ng parameter (autoregression coefficient) at ang mga halaga ng mga nalalabi sa nakaraang punto ng oras. Ang pagkakasunud-sunod ng mga halaga ng error (nalalabi) mismo ay bumubuo ng isang nakatigil na random na proseso. Ang isang nakatigil na random na proseso ay nailalarawan sa pamamagitan ng pagiging matatag ng mga katangian nito sa paglipas ng panahon, sa partikular, ang ibig sabihin at pagkakaiba. Sa kasong ito, ang covariance matrix (mga tuntunin nito) na interesado sa amin ay madaling maisulat gamit ang mga kapangyarihan ng parameter.

Ang pagtatantya ng isang autoregressive na modelo para sa isang kilalang parameter ay ginagawa gamit ang OLS. Sa kasong ito, sapat na upang bawasan lamang ang orihinal na modelo sa pamamagitan ng isang simpleng pagbabago sa isang modelo na ang mga error ay nakakatugon sa mga kondisyon ng isang karaniwang modelo ng regression. Ito ay napakabihirang, ngunit mayroon pa ring isang sitwasyon kung saan ang parameter ng autoregression ay kilala. Samakatuwid, sa pangkalahatan ay kinakailangan na magsagawa ng pagtatantya na may hindi kilalang parameter na autoregressive. Mayroong tatlong pinakakaraniwang ginagamit na pamamaraan para sa naturang pagtatasa. Cochrane-Orcutt method, Hildreth-Lu procedure at Durbin method.

Sa pangkalahatan, ang mga sumusunod na konklusyon ay totoo. Nangangailangan ang pagtatasa ng serye ng oras ng pagwawasto ng kumbensyonal na OLS, dahil ang mga error sa kasong ito ay karaniwang nauugnay. Kadalasan ang mga error na ito ay bumubuo ng isang first-order stationary autoregressive na proseso. Ang mga OLS estimator para sa first-order na autoregression ay walang kinikilingan, pare-pareho, ngunit hindi epektibo. Sa isang kilalang autoregression coefficient, ang OLS ay bumababa sa mga simpleng pagbabago (pagwawasto) ng orihinal na system at pagkatapos ay sa paggamit ng karaniwang OLS. Kung, tulad ng mas madalas na ang kaso, ang autoregressive coefficient ay hindi alam, kung gayon mayroong ilang mga pamamaraan na magagamit para sa OLS, na binubuo sa pagtantya ng hindi kilalang parameter (coefficient), pagkatapos kung saan ang parehong mga pagbabago ay inilapat tulad ng sa nakaraang kaso ng kilalang parameter.

37. Konsepto ng Breusch-Pagan test, Goldfeldt-Quandt test

Ang error sa pagtatantya ay isa sa mga madalas na umuusbong na isyu kapag nag-aaplay ng ilang partikular na paraan ng pagtatantya ng source data. Mayroong iba't ibang uri ng mga error sa pagtatantya:

Mga error na nauugnay sa mga error sa source data;

Mga error na nauugnay sa pagkakaiba sa pagitan ng tinatayang modelo at ng istraktura ng tinatayang data.

Ang Excel ay may mahusay na binuo Linear function para sa pagproseso ng data at mga pagtatantya na gumagamit ng sopistikadong matematika. Upang magkaroon ng ideya tungkol dito, lumiko tayo (sa pamamagitan ng F1) sa naglalarawang bahagi ng pag-unlad na ito, na ipinakita namin na may mga pagdadaglat at ilang pagbabago sa notasyon.

Kinakalkula ang mga istatistika para sa isang serye gamit ang hindi bababa sa mga parisukat upang kalkulahin ang tuwid na linya na pinakaangkop sa magagamit na data. Ang function ay nagbabalik ng array na naglalarawan sa resultang linya. Dahil ang isang array ng mga halaga ay ibinalik, ang function ay dapat na tinukoy bilang isang array formula.

Ang equation para sa isang tuwid na linya ay:

y=a+b1*x1+b2*x2+...bn*xn

Syntax:

LINEST(y;x;const;statistics)

Array y - kilalang halaga y.

Array x - mga kilalang halaga ng x. Ang x array ay maaaring maglaman ng isa o higit pang set ng mga variable.

Si Const ay halaga ng boolean, na tumutukoy kung ang dummy term a ay kinakailangan na katumbas ng 0.

Kung ang const argument ay TRUE, 1, o tinanggal, ang a ay sinusuri gaya ng dati. Kung ang const argument ay FALSE o 0, ang a ay nakatakda sa 0.

Ang mga istatistika ay isang Boolean na halaga na nagsasaad kung dapat ibalik ang mga karagdagang istatistika ng regression. Kung TRUE o 1 ang argumento ng istatistika, magbabalik ang LINEST ng mga karagdagang istatistika ng regression. Kung ang mga istatistika ay FALSE, 0, o tinanggal, ang LINEST ay nagbabalik lamang ng mga coefficient at ang intercept.

Mga karagdagang istatistika ng regression:

se1,se2,...,sen - karaniwang mga halaga ng error para sa mga coefficient b1,b2,...,bn.

dagat - karaniwang halaga ng error para sa constant a (sea = #N/A kung ang const ay FALSE).

Ang r2 ay ang koepisyent ng determinismo. Ang aktwal na mga halaga ng y at ang mga halaga na nakuha mula sa equation ng linya ay inihambing; Batay sa mga resulta ng paghahambing, ang koepisyent ng determinismo ay kinakalkula, na-normalize mula 0 hanggang 1. Kung ito ay katumbas ng 1, pagkatapos ay mayroong isang kumpletong ugnayan sa modelo, i.e. walang pagkakaiba sa pagitan ng aktwal at tinantyang halaga ng y. Sa kabaligtaran ng kaso, kung ang koepisyent ng pagpapasiya ay 0, ang equation ng regression ay hindi matagumpay sa paghula ng mga halaga ng y. Para sa impormasyon tungkol sa kung paano kinakalkula ang r2, tingnan ang "Mga Tala" sa dulo ng seksyong ito.

Ang sey ay ang karaniwang error para sa pagtatantya ng y.

F-statistic, o F-observed value. Ang F-statistic ay ginagamit upang matukoy kung ang naobserbahang relasyon sa pagitan ng dependent at independent variable ay dahil sa pagkakataon o hindi.

df - antas ng kalayaan. Ang mga antas ng kalayaan ay kapaki-pakinabang para sa paghahanap ng mga F-kritikal na halaga sa isang talahanayan ng istatistika. Upang matukoy ang antas ng kumpiyansa ng modelo, ihambing mo ang mga halaga sa talahanayan sa F-statistic na ibinalik ng LINEST function.

Ang ssreg ay ang regression sum ng mga parisukat.

Ang ssresid ay ang natitirang kabuuan ng mga parisukat.

Ipinapakita ng figure sa ibaba ang pagkakasunud-sunod kung saan ibinabalik ang mga karagdagang istatistika ng regression.

Mga Tala

Ang napiling impormasyon mula sa function ay maaaring makuha sa pamamagitan ng INDEX function, halimbawa:

Y-intercept (libreng termino):

INDEX(LINEST(y,x),2)

Ang katumpakan ng approximation gamit ang tuwid na linya na kinakalkula ng LINEST function ay depende sa antas ng scatter ng data. Kung mas malapit ang data sa isang tuwid na linya, mas tumpak ang modelong ginagamit ng LINEST function. Gumagamit ang LINEST function na hindi bababa sa mga parisukat upang matukoy ang pinakamahusay na akma sa data.

Sa pamamagitan ng pagsasagawa ng regression analysis, Microsoft Excel kinakalkula para sa bawat punto ang parisukat ng pagkakaiba sa pagitan ng hinulaang y value at ang aktwal na y value. Ang kabuuan ng mga parisukat na pagkakaiba na ito ay tinatawag na natitirang kabuuan ng mga parisukat. Pagkatapos ay kinakalkula ng Microsoft Excel ang kabuuan ng mga parisukat ng mga pagkakaiba sa pagitan ng aktwal na mga halaga ng y at ang mean na halaga ng y, na tinatawag na kabuuang kabuuan ng mga parisukat (regression sum ng mga parisukat + natitirang kabuuan ng mga parisukat). Kung mas maliit ang natitirang kabuuan ng mga parisukat kumpara sa kabuuang kabuuan ng mga parisukat, mas malaki ang halaga ng koepisyent ng determinasyon r2, na nagpapakita kung gaano kahusay ang equation na nakuha gamit ang pagsusuri ng regression, nagpapaliwanag ng mga ugnayan sa pagitan ng mga variable.

Tandaan na ang mga y value na hinulaan ng regression equation ay maaaring hindi tama kung sila ay nasa labas ng range ng y values ​​na ginamit upang tukuyin ang equation.

Halimbawa 1 Slope at Y-intercept

LINEST((1;9;5;7);(0;4;2;3)) ay katumbas ng (2;1), slope = 2 at y-intercept = 1.

Gamit ang F at R2 Statistics

Maaari mong gamitin ang istatistika ng F upang matukoy kung ang isang resulta na may mataas na halaga ng r2 ay dahil sa pagkakataon. Kung ang F-observed ay mas malaki kaysa sa F-kritikal, kung gayon mayroong isang relasyon sa pagitan ng mga variable. Ang F-kritikal ay maaaring makuha mula sa talahanayan ng mga F-kritikal na halaga sa anumang reference na libro sa mga istatistika ng matematika. Para mahanap ang value na ito gamit ang one-tailed test, itakda ang value ng Alpha (ginagamit ang value ng Alpha para ipahiwatig ang posibilidad ng maling pag-conclude na may malakas na relasyon) na katumbas ng 0.05, at para sa bilang ng mga degree ng kalayaan ( karaniwang tinutukoy ang v1 at v2), ilagay natin ang v1 = k = 4 at v2 = n - (k + 1) = 11 - (4 + 1) = 6, kung saan ang k ay ang bilang ng mga variable at n ang bilang ng mga puntos ng data . Mula sa reference table, ang F-critical ay 4.53. Ang naobserbahang F-value ay 459.753674 (nakuha ang value na ito sa halimbawang inalis namin), na kapansin-pansing mas malaki kaysa F-kritikal na halaga 4.53. Samakatuwid, ang nagreresulta regression equation kapaki-pakinabang para sa paghula ng nais na resulta.

Para sa isang pangkalahatang pagtatasa ng kalidad ng itinayong ekonometric, tulad ng mga katangian tulad ng koepisyent ng pagpapasiya, index ng ugnayan, average relatibong pagkakamali approximation, at sinusuri din ang kahalagahan ng regression equation gamit ang F- Pamantayan ng mangingisda. Ang mga nakalistang katangian ay medyo pangkalahatan at maaaring gamitin para sa parehong mga linear at nonlinear na modelo, pati na rin ang mga modelo na may dalawa o higit pang mga variable na kadahilanan. Ang isang bilang ng mga nalalabi ay gumaganap ng isang mapagpasyang papel sa pagkalkula ng lahat ng mga nakalistang katangian ng kalidad εi, na kinakalkula sa pamamagitan ng pagbabawas mula sa aktwal (nakuha mula sa mga obserbasyon) na mga halaga ng katangian na pinag-aaralan y i mga halaga na kinakalkula gamit ang equation ng modelo y рi.

Koepisyent ng determinasyon

nagpapakita kung anong proporsyon ng pagbabago sa katangiang pinag-aaralan ang isinasaalang-alang sa modelo. Sa madaling salita, ang koepisyent ng determinasyon ay nagpapakita kung anong bahagi ng pagbabago sa variable na pinag-aaralan ang maaaring kalkulahin batay sa mga pagbabago sa mga variable na kadahilanan na kasama sa modelo gamit ang napiling uri ng function na nagkokonekta sa mga variable na kadahilanan at ang katangian na pinag-aaralan sa equation ng modelo.

Koepisyent ng determinasyon R 2 maaaring tumagal ng mga halaga mula 0 hanggang 1. Mas malapit ang koepisyent ng pagpapasiya R 2 sa isa, ang mas magandang kalidad mga modelo.

Index ng ugnayan ay madaling kalkulahin, alam ang koepisyent ng pagpapasiya:

Index ng ugnayan R nailalarawan ang pagiging malapit ng uri ng koneksyon na pinili kapag bumubuo ng modelo sa pagitan ng mga salik na isinasaalang-alang sa modelo at ang variable na pinag-aaralan. Sa kaso ng linear pair regression, ang absolute value nito ay tumutugma sa coefficient ng correlation ng pares r(x, y), na sinuri namin kanina, at nailalarawan ang pagiging malapit ng linear na relasyon sa pagitan x At y. Ang mga halaga ng index ng ugnayan, malinaw naman, ay nasa saklaw mula 0 hanggang 1. Mas malapit ang halaga R sa pagkakaisa, mas malapit ang napiling uri ng function na nag-uugnay sa mga variable ng salik at ang katangiang pinag-aaralan, mas mabuti ang kalidad ng modelo.

(2.11)

ipinahayag bilang isang porsyento at nailalarawan ang katumpakan ng modelo. Ang katanggap-tanggap na katumpakan ng modelo kapag ang paglutas ng mga praktikal na problema ay maaaring matukoy batay sa mga pagsasaalang-alang ng pagiging posible sa ekonomiya, na isinasaalang-alang ang partikular na sitwasyon. Ang isang malawakang ginagamit na pamantayan ay ang katumpakan ay itinuturing na kasiya-siya kung ang average na kamag-anak na error ay mas mababa sa 15%. Kung E rel.avg. mas mababa sa 5%, kung gayon ang modelo ay sinasabing may mataas na katumpakan. Hindi inirerekomenda na gumamit ng mga modelo na may hindi kasiya-siyang katumpakan para sa pagsusuri at pagtataya, iyon ay, kung kailan E rel.avg. higit sa 15%.

Fisher's F test ginamit upang suriin ang kahalagahan ng isang regression equation. Ang kinakalkula na halaga ng F-criterion ay tinutukoy mula sa relasyon:

. (2.12)

Kritikal na halaga F-Ang pamantayan ay tinutukoy mula sa mga talahanayan sa isang partikular na antas ng kahalagahan α at mga antas ng kalayaan (maaari mong gamitin ang FRIST function sa Excel). Dito, tulad ng dati, m- bilang ng mga kadahilanan na isinasaalang-alang sa modelo, n- bilang ng mga obserbasyon. Kung ang kinakalkula na halaga ay mas malaki kaysa sa kritikal na halaga, kung gayon ang equation ng modelo ay itinuturing na makabuluhan. Mas mataas ang kinakalkula na halaga F-pamantayan, mas mahusay ang kalidad ng modelo.

Tukuyin natin ang mga katangian ng kalidad ng linear na modelo na ginawa natin Halimbawa 1. Gamitin natin ang data mula sa Talahanayan 2. Koepisyent ng determinasyon:

Samakatuwid, sa loob ng balangkas ng linear na modelo, ang pagbabago sa dami ng benta na 90.1% ay ipinaliwanag ng mga pagbabago sa temperatura ng hangin.

Index ng ugnayan

.

Ang halaga ng index ng ugnayan sa kaso ng isang ipinares na linear na modelo, tulad ng nakikita natin, ay talagang katumbas ng ganap na halaga sa koepisyent ng ugnayan sa pagitan ng mga kaukulang variable (dami ng benta at temperatura). Dahil ang nakuhang halaga ay medyo malapit sa pagkakaisa, maaari nating tapusin na mayroong malapit na linear na relasyon sa pagitan ng variable na pinag-aaralan (dami ng benta) at ng factor variable (temperatura).

Fisher's F test

Kritikal na halaga F cr sa α = 0.1; ν 1 =1; Ang ν 2 =7-1-1=5 ay 4.06. Kinakalkula na halaga F-criteria ay mas malaki kaysa sa tabular isa, samakatuwid, ang modelo equation ay makabuluhan.

Average na kamag-anak na error ng approximation

Ang constructed linear paired regression model ay may hindi kasiya-siyang katumpakan (>15%) at hindi inirerekomenda para sa paggamit para sa pagsusuri at pagtataya.

Bilang resulta, sa kabila ng katotohanan na karamihan sa mga istatistikal na katangian ay nakakatugon sa pamantayan para sa kanila, ang linear pairwise regression na modelo ay hindi angkop para sa paghula ng dami ng mga benta depende sa temperatura ng hangin. Ang hindi linear na katangian ng ugnayan sa pagitan ng mga variable na ito ayon sa data ng pagmamasid ay malinaw na nakikita sa Fig. 1. Kinumpirma ito ng pagsusuri.


Tutukuyin namin ang mga empirical regression coefficients b 0 , b 1 gamit ang tool na "Regression" ng add-in na "Data Analysis" ng MS Excel spreadsheet processor.

Ang algorithm para sa pagtukoy ng mga coefficient ay ang mga sumusunod.

1. Ipasok ang paunang data sa MS Excel spreadsheet processor.

2. Tawagan ang data Analysis add-in (Figure 2).

3. Piliin ang tool sa pagsusuri Regression (Figure 3).

4. Punan ang kaukulang mga posisyon ng Regression window (Figure 4).

5. I-click ang OK button sa Regression window at kumuha ng protocol para sa paglutas ng problema (Figure 5)


Figure 3 – Pagpili ng Regression tool




Figure 4 – Regression window

Figure 5 – Protocol para sa paglutas ng problema

Mula sa Figure 5 makikita na ang empirical regression coefficients ay ayon sa pagkakabanggit ay katumbas ng

b 0 = 223,

b1 = 0.0088.

Pagkatapos ang equation ng paired linear regression na nagkokonekta sa halaga ng buwanang pensiyon y na may halaga ng subsistence minimum ay may form

.(3.2)

Susunod, alinsunod sa gawain, kinakailangan upang masuri ang pagiging malapit ng istatistikal na relasyon sa pagitan ng halaga ng halaga ng pamumuhay x at ang halaga ng buwanang pensiyon y. Ang pagtatantya na ito ay maaaring gawin gamit ang koepisyent ng ugnayan. Ang halaga ng koepisyent na ito sa Figure 5 ay itinalaga bilang maramihang R at, nang naaayon, ay katumbas ng 0.038. Dahil sa teorya ang halaga ng koepisyent na ito ay nasa hanay mula -1 hanggang +1, maaari nating tapusin na ang istatistikal na koneksyon sa pagitan ng halaga ng halaga ng pamumuhay x at ang halaga ng buwanang pensiyon y ay hindi makabuluhan.

Ang parameter na "R - square", na ipinakita sa Figure 5, ay ang square ng correlation coefficient at tinatawag na coefficient of determination. Ang halaga ng koepisyent na ito ay nagpapakilala sa bahagi ng pagkakaiba-iba ng dependent variable y na ipinaliwanag sa pamamagitan ng regression (ang paliwanag na variable x). Alinsunod dito, ang halaga 1- ay nagpapakilala sa bahagi ng pagkakaiba-iba sa variable na y sanhi ng impluwensya ng lahat ng iba pang mga variable na nagpapaliwanag na hindi isinasaalang-alang sa modelong pang-ekonomiya. Mula sa Figure 5 makikita na ang bahagi ng lahat ng mga paliwanag na variable na hindi isinasaalang-alang sa resultang econometric model ay humigit-kumulang 1 - 0.00145 = 0.998 o 99.8%.



Sa susunod na yugto, alinsunod sa gawain, kinakailangan upang matukoy ang antas ng koneksyon sa pagitan ng paliwanag na variable x at ng dependent variable y, gamit ang elasticity coefficient. Ang elasticity coefficient para sa isang ipinares na linear regression na modelo ay tinukoy bilang:

Samakatuwid, kung ang halaga ng pamumuhay ay nagbabago ng 1%, ang buwanang pensiyon ay nagbabago ng 0.000758%.

. (3.4)

Upang gawin ito, dinadagdagan namin ang orihinal na talahanayan 1 na may dalawang hanay kung saan tinutukoy namin ang mga halaga na kinakalkula gamit ang pagtitiwala (3.2) at ang halaga ng pagkakaiba.

Talahanayan 3.2. Pagkalkula ng average na error sa pagtatantya.

Kung gayon ang average na error sa pagtatantya ay

.

Alam mula sa pagsasanay na ang halaga ng average na error sa pagtatantya ay hindi dapat lumampas sa (12...15)%

Sa huling yugto, susuriin namin ang istatistikal na pagiging maaasahan ng pagmomodelo gamit ang Fisher's F test. Upang gawin ito, susubukan namin ang null hypothesis H 0 tungkol sa statistical insignificance ng resultang regression equation ayon sa kondisyon:

kung sa isang naibigay na antas ng kahalagahan a = 0.05 ang teoretikal (kinakalkula) na halaga ng F-criterion ay mas malaki kaysa sa kritikal na halaga nito F crit (na-tabulated), ang null hypothesis ay tinanggihan at ang resultang regression equation ay tinatanggap bilang makabuluhan.

Mula sa Figure 5 sumusunod na ang F nakalkula = 0.0058. Ang kritikal na halaga ng F-criterion ay tinutukoy gamit ang statistical function na FASTER (Figure 6). Ang input parameters ng function ay ang significance level (probability) at ang bilang ng degrees of freedom 1 at 2. Para sa isang paired regression model, ang bilang ng degrees of freedom ay ayon sa pagkakabanggit 1 (isang explanatory variable) at n-2 = 6 -2=4.



Figure 6 – Window ng statistical function na MAS MABILIS

Mula sa Figure 6 makikita na ang kritikal na halaga ng F-test ay 7.71.

Dahil kinakalkula ang F< F крит, то нулевая гипотеза не отвергается и полученное регрессионное уравнение статистически незначимо.

13. Pagbuo ng multiple regression model gamit ang EXCEL.

Alinsunod sa opsyon sa pagtatalaga, ang paggamit ng istatistikal na materyal ay kinakailangan.

1. Bumuo ng linear multiple regression equation at ipaliwanag ang pang-ekonomiyang kahulugan ng mga parameter nito.

2. Magbigay ng isang paghahambing na pagtatasa ng lapit ng ugnayan sa pagitan ng mga salik at ang nagresultang katangian gamit ang average (pangkalahatang) elasticity coefficients.

3. Tayahin ang statistical significance ng regression coefficients gamit ang Student's t-test at ang null hypothesis tungkol sa kahalagahan ng equation gamit ang F-test.

4. Tayahin ang kalidad ng equation sa pamamagitan ng pagtukoy sa average na error ng approximation.

Ang paunang data para sa pagbuo ng isang paired regression model ay ibinibigay sa Talahanayan 3.3.

Talahanayan 3.3. Paunang data.

Netong kita, milyong US dollars Paglipat ng kapital, ml. US dollars, x 1 Nagamit na kapital, ml. US dollars x 2
6,6 6,9 83,6
2,7 93,6 25,4
1,6 10,0 6,4
2,4 31,5 12,5
3,3 36,7 14,3
1,8 13,8 6,5
2,4 64,8 22,7
1,6 30,4 15,8
1,4 12,1 9,3
0,9 31,3 18,9

Ang teknolohiya para sa pagbuo ng isang regression equation ay katulad ng algorithm na inilarawan sa talata 3.1. Ang protocol para sa pagbuo ng regression equation ay ipinapakita sa Figure 7.

KONKLUSYON NG MGA RESULTA
Mga istatistika ng regression
Maramihang R 0,901759207
R-square 0,813169667
Normalized R-squared 0,759789572
Karaniwang error 0,789962026
Mga obserbasyon
Pagsusuri ng pagkakaiba-iba
df MS F
Regression 9,50635999 15,23357468
Natitira 0,624040003
Kabuuan
Logro t-statistic
Y-intersection 1,113140304 2,270238114
Variable X 1 -0,000592199 -0,061275574
Variable X 2 0,063902851 5,496523193

Larawan 7. Konklusyon.



Bago sa site

>

Pinaka sikat