Bahay Mga gilagid Ano ang mga kinakailangan sa isang modelo ng pagsusuri ng regression. Mga pamamaraan ng mga istatistika ng matematika

Ano ang mga kinakailangan sa isang modelo ng pagsusuri ng regression. Mga pamamaraan ng mga istatistika ng matematika

KONKLUSYON NG MGA RESULTA

Talahanayan 8.3a. Mga istatistika ng regression
Mga istatistika ng regression
Maramihang R 0,998364
R-square 0,99673
Normalized R-squared 0,996321
Karaniwang error 0,42405
Mga obserbasyon 10

Isaalang-alang muna natin itaas na bahagi mga kalkulasyon na ipinakita sa talahanayan 8.3a - mga istatistika ng regression.

Ang halaga ng R-square, na tinatawag ding sukatan ng katiyakan, ay nagpapakilala sa kalidad ng resultang linya ng regression. Ang kalidad na ito ay ipinahayag sa pamamagitan ng antas ng pagsusulatan sa pagitan ng pinagmumulan ng data at ng modelo ng regression (kinakalkulang data). Ang sukatan ng katiyakan ay palaging nasa pagitan.

Sa karamihan ng mga kaso, ang R-squared value ay nasa pagitan ng mga value na ito, na tinatawag na extreme value, i.e. sa pagitan ng zero at isa.

Kung ang halaga ng R-squared ay malapit sa isa, nangangahulugan ito na ipinapaliwanag ng binuong modelo ang halos lahat ng pagkakaiba-iba sa mga nauugnay na variable. Sa kabaligtaran, ang isang R-squared na halaga na malapit sa zero ay nangangahulugan na ang kalidad ng itinayong modelo ay hindi maganda.

Sa aming halimbawa, ang sukat ng katiyakan ay 0.99673, na nagpapahiwatig ng isang napakahusay na akma ng linya ng regression sa orihinal na data.

Maramihang R- multiple correlation coefficient R - nagpapahayag ng antas ng pag-asa ng mga independiyenteng variable (X) at ng dependent variable (Y).

Multiple R ay katumbas ng parisukat na ugat mula sa koepisyent ng pagpapasiya, ang dami na ito ay kumukuha ng mga halaga sa hanay mula sa zero hanggang isa.

Sa simpleng pagsusuri ng linear regression, ang maramihang R ay katumbas ng coefficient ng ugnayan ng Pearson. Sa katunayan, ang maramihang R sa aming kaso ay katumbas ng koepisyent ng ugnayan ng Pearson mula sa nakaraang halimbawa (0.998364).

Talahanayan 8.3b. Mga coefficient ng regression
Odds Karaniwang error t-statistic
Y-intersection 2,694545455 0,33176878 8,121757129
Variable X 1 2,305454545 0,04668634 49,38177965
* Ang isang pinutol na bersyon ng mga kalkulasyon ay ibinigay

Ngayon isaalang-alang ang gitnang bahagi ng mga kalkulasyon, na ipinakita sa talahanayan 8.3b. Dito ibinibigay ang regression coefficient b (2.305454545) at ang displacement kasama ang ordinate axis, i.e. pare-pareho ang a (2.694545455).

Batay sa mga kalkulasyon, maaari nating isulat ang equation ng regression tulad ng sumusunod:

Y= x*2.305454545+2.694545455

Ang direksyon ng relasyon sa pagitan ng mga variable ay tinutukoy batay sa mga palatandaan (negatibo o positibo) regression coefficients(coefficient b).

Kung ang sign sa koepisyent ng regression- positibo, magiging positibo ang relasyon sa pagitan ng dependent variable at independent variable. Sa aming kaso, ang tanda ng koepisyent ng regression ay positibo, samakatuwid, ang relasyon ay positibo din.

Kung ang sign sa koepisyent ng regression- negatibo, ang relasyon sa pagitan ng dependent variable at independent variable ay negatibo (inverse).

Sa talahanayan 8.3c. Ang mga resulta ng derivation ng residuals ay ipinakita. Upang lumabas ang mga resultang ito sa ulat, dapat mong i-activate ang checkbox na "Residuals" kapag pinapatakbo ang tool na "Regression".

WITHDRAWAL NG NAtitira

Talahanayan 8.3c. Mga natira
Pagmamasid Hinulaan si Y Mga natira Mga karaniwang balanse
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Gamit ang bahaging ito ng ulat, makikita natin ang mga paglihis ng bawat punto mula sa itinayong linya ng regression. Pinakamalaking ganap na halaga

Ang layunin ng pagsusuri ng regression ay sukatin ang ugnayan sa pagitan ng isang dependent variable at isa (pairwise regression analysis) o higit pa (multiple) independent variable. Ang mga independyenteng variable ay tinatawag ding factor, explanatory, determinant, regressor at predictor variable.

Ang dependent variable ay tinatawag na variable na tinutukoy, ipinaliwanag, o "tugon". Ang napakalawak na paggamit ng pagsusuri ng regression sa empirical na pananaliksik ay hindi lamang dahil sa katotohanan na ito ay isang maginhawang tool para sa pagsubok ng mga hypotheses. Ang regression, lalo na ang multiple regression, ay mabisang paraan pagmomodelo at pagtataya.

Simulan nating ipaliwanag ang mga prinsipyo ng pagtatrabaho sa pagsusuri ng regression sa isang mas simple - ang paraan ng pares.

Pagsusuri ng Pares Regression

Ang mga unang hakbang kapag gumagamit ng pagsusuri ng regression ay halos magkapareho sa mga ginawa namin sa pagkalkula ng koepisyent ng ugnayan. Tatlong pangunahing kondisyon para sa pagiging epektibo pagsusuri ng ugnayan ayon sa pamamaraan ng Pearson - normal na distribusyon ng mga variable, pagsukat ng pagitan ng mga variable, linear na relasyon sa pagitan ng mga variable - ay may kaugnayan din para sa maramihang regression. Alinsunod dito, sa unang yugto, ang mga scatterplot ay itinayo, isang istatistika at mapaglarawang pagsusuri ng mga variable ay isinasagawa, at isang linya ng regression ay kinakalkula. Tulad ng sa balangkas ng pagsusuri ng ugnayan, ang mga linya ng pagbabalik ay itinayo gamit ang pamamaraan hindi bababa sa mga parisukat.

Upang mas malinaw na mailarawan ang mga pagkakaiba sa pagitan ng dalawang paraan ng pagsusuri ng data, buksan natin ang halimbawang tinalakay na kasama ang mga variable na "SPS support" at "rural population share". Ang pinagmulan ng data ay magkapareho. Ang pagkakaiba sa mga scatterplots ay na sa pagsusuri ng regression ay tama na i-plot ang dependent variable - sa aming kaso, "SPS support" sa Y-axis, samantalang sa correlation analysis hindi ito mahalaga. Pagkatapos maglinis ng mga outlier, ganito ang hitsura ng scatterplot:

Ang pangunahing ideya ng pagsusuri ng regression ay ang pagkakaroon pangkalahatang kalakaran para sa mga variable - sa anyo ng isang regression line - maaari mong hulaan ang halaga ng umaasa na variable, na ibinigay ang mga halaga ng independiyenteng isa.

Isipin natin ang karaniwang matematika linear function. Anumang tuwid na linya sa Euclidean space ay maaaring ilarawan ng formula:

kung saan ang a ay isang pare-pareho na tumutukoy sa displacement kasama ang ordinate axis; b ay isang koepisyent na tumutukoy sa anggulo ng pagkahilig ng linya.

Alam ang slope at pare-pareho, maaari mong kalkulahin (hulaan) ang halaga ng y para sa anumang x.

Ito pinakasimpleng function at nabuo ang batayan para sa isang modelo ng pagsusuri ng regression na may caveat na hindi namin mahulaan ang halaga ng y nang eksakto, ngunit sa loob ng isang tiyak na agwat ng kumpiyansa, ibig sabihin. humigit-kumulang.

Ang pare-pareho ay ang punto ng intersection ng linya ng regression at ang y-axis (F-intersection, karaniwang tinutukoy na "interceptor" sa mga statistical package). Sa aming halimbawa sa pagboto para sa Union of Right Forces, ang bilugan na halaga nito ay magiging 10.55. Ang angular coefficient b ay magiging humigit-kumulang -0.1 (tulad ng sa pagsusuri ng ugnayan, ipinapakita ng tanda ang uri ng koneksyon - direkta o kabaligtaran). Kaya, ang resultang modelo ay magkakaroon ng form na SP C = -0.1 x Sel. tayo. + 10.55.

ATP = -0.10 x 47 + 10.55 = 5.63.

Ang pagkakaiba sa pagitan ng orihinal at hinulaang mga halaga ay tinatawag na natitira (natagpo na natin ang terminong ito, na mahalaga para sa mga istatistika, kapag sinusuri ang mga talahanayan ng contingency). Kaya, para sa kaso ng "Republika ng Adygea" ang natitira ay magiging katumbas ng 3.92 - 5.63 = -1.71. Kung mas malaki ang modular na halaga ng natitira, hindi gaanong matagumpay ang hinulaang halaga.

Kinakalkula namin ang mga hinulaang halaga at nalalabi para sa lahat ng kaso:
Nangyayari Umupo. tayo. Salamat

(orihinal)

Salamat

(hinulaan)

Mga natira
Republika ng Adygea 47 3,92 5,63 -1,71 -
Republika ng Altai 76 5,4 2,59 2,81
Republika ng Bashkortostan 36 6,04 6,78 -0,74
Ang Republika ng Buryatia 41 8,36 6,25 2,11
Ang Republika ng Dagestan 59 1,22 4,37 -3,15
Ang Republika ng Ingushetia 59 0,38 4,37 3,99
atbp.

Ang pagtatasa ng ratio ng paunang at hinulaang mga halaga ay nagsisilbi upang masuri ang kalidad ng resultang modelo at ang kakayahang hulaan nito. Ang isa sa mga pangunahing tagapagpahiwatig ng mga istatistika ng regression ay ang multiple correlation coefficient R - ang correlation coefficient sa pagitan ng orihinal at hinulaang mga halaga ng dependent variable. Sa paired regression analysis, ito ay katumbas ng karaniwang Pearson correlation coefficient sa pagitan ng dependent at independent variable, sa aming kaso - 0.63. Upang makabuluhang bigyang-kahulugan ang maramihang R, dapat itong i-convert sa isang koepisyent ng determinasyon. Ginagawa ito sa parehong paraan tulad ng sa pagsusuri ng ugnayan - sa pamamagitan ng pag-squaring. Ang coefficient of determination R-squared (R 2) ay nagpapakita ng proporsyon ng variation sa dependent variable na ipinaliwanag ng independent variable(s).

Sa aming kaso, R 2 = 0.39 (0.63 2); nangangahulugan ito na ang variable na “rural population share” ay nagpapaliwanag ng humigit-kumulang 40% ng variation sa variable na “SPS support”. Kung mas malaki ang koepisyent ng pagpapasiya, mas mataas ang kalidad ng modelo.

Ang isa pang tagapagpahiwatig ng kalidad ng modelo ay ang karaniwang error ng pagtatantya. Ito ay isang sukatan kung gaano kalawak ang mga punto ay "nakakalat" sa paligid ng linya ng regression. Ang sukat ng spread para sa mga variable ng interval ay karaniwang lihis. Alinsunod dito, ang karaniwang error ng pagtatantya ay ang karaniwang paglihis ng pamamahagi ng mga nalalabi. Kung mas mataas ang halaga nito, mas malaki ang scatter at mas masahol pa ang modelo. Sa aming kaso, ang karaniwang error ay 2.18. Sa halagang ito, ang aming modelo ay "magkakamali sa karaniwan" kapag hinuhulaan ang halaga ng variable na "suporta sa SPS".

Kasama rin sa mga istatistika ng regression ang pagsusuri ng pagkakaiba. Sa tulong nito, malalaman natin: 1) anong proporsyon ng variation (dispersion) ng dependent variable ang ipinaliwanag ng independent variable; 2) kung anong proporsyon ng pagkakaiba ng umaasang baryabol ang binibilang ng mga nalalabi (hindi maipaliwanag na bahagi); 3) ano ang ratio ng dalawang dami na ito (/"-ratio). Ang mga istatistika ng pagpapakalat ay lalong mahalaga para sa sample na pag-aaral- ipinapakita nito kung gaano kalamang na mayroong relasyon sa pagitan ng mga independiyente at umaasa na mga variable sa populasyon. Gayunpaman, kahit na para sa patuloy na pananaliksik (tulad ng sa aming halimbawa), pag-aaral ng mga resulta pagsusuri ng pagkakaiba-iba hindi kapaki-pakinabang. Sa kasong ito, sinusuri nila kung ang natukoy na istatistikal na pattern ay sanhi ng isang pagkakataon ng mga random na pangyayari, kung gaano ito tipikal para sa hanay ng mga kondisyon kung saan matatagpuan ang populasyon na pinag-aaralan, i.e. hindi ang katotohanan ng resulta na nakuha para sa ilang mas malaking pangkalahatang populasyon ang itinatag, ngunit ang antas ng pagiging regular nito at kalayaan mula sa mga random na impluwensya.

Sa aming kaso, ang mga istatistika ng ANOVA ay ang mga sumusunod:

SS df MS F ibig sabihin
Regress. 258,77 1,00 258,77 54,29 0.000000001
Natitira 395,59 83,00 L,11
Kabuuan 654,36

Ang F-ratio na 54.29 ay makabuluhan sa 0.0000000001 na antas. Alinsunod dito, maaari naming kumpiyansa na tanggihan ang null hypothesis (na ang relasyon na aming natuklasan ay dahil sa pagkakataon).

Ang t criterion ay gumaganap ng isang katulad na function, ngunit may kaugnayan sa mga coefficient ng regression (angular at F-intersection). Gamit ang / criterion, sinusubok namin ang hypothesis na sa pangkalahatang populasyon ang regression coefficients ay katumbas ng zero. Sa aming kaso, maaari naming muling kumpiyansa na tanggihan ang null hypothesis.

Pagsusuri ng maramihang pagbabalik

Modelo maramihang pagbabalik halos magkapareho sa ipinares na modelo ng regression; ang pagkakaiba lamang ay ang ilang mga independyenteng variable ay sunud-sunod na kasama sa linear function:

Y = b1X1 + b2X2 + …+ bpXp + a.

Kung mayroong higit sa dalawang independyenteng mga variable, hindi tayo makakakuha ng visual na ideya ng kanilang relasyon; sa bagay na ito, ang multiple regression ay hindi gaanong "visual" kaysa sa pairwise regression. Kapag mayroon kang dalawang independent variable, maaaring maging kapaki-pakinabang na ipakita ang data sa isang 3D scatterplot. Sa mga propesyonal na statistical software packages (halimbawa, Statistica) mayroong isang opsyon upang paikutin ang isang three-dimensional na tsart, na nagbibigay-daan sa iyo upang biswal na kumatawan sa istruktura ng data nang maayos.

Kapag nagtatrabaho sa maramihang regression, bilang kabaligtaran sa pairwise regression, kinakailangan upang matukoy ang algorithm ng pagsusuri. Kasama sa karaniwang algorithm ang lahat ng magagamit na mga predictor sa huling modelo ng regression. Hakbang-hakbang na algorithm nagsasangkot ng sunud-sunod na pagsasama (pagbubukod) ng mga independiyenteng variable batay sa kanilang paliwanag na "timbang". Ang stepwise na paraan ay mabuti kapag maraming independyenteng variable; "Nililinis" nito ang modelo ng mga mahinang hula, na ginagawa itong mas compact at maigsi.

Ang isang karagdagang kondisyon para sa kawastuhan ng maramihang regression (kasama ang pagitan, normalidad at linearity) ay ang kawalan ng multicollinearity - ang pagkakaroon ng malakas na ugnayan sa pagitan ng mga independiyenteng variable.

Kasama sa interpretasyon ng maramihang mga istatistika ng regression ang lahat ng elemento na aming isinasaalang-alang para sa kaso ng pairwise regression. Bilang karagdagan, may iba pang mahahalagang bahagi sa mga istatistika ng pagsusuri ng maramihang pagbabalik.

Ilalarawan namin ang gawain na may maraming regression gamit ang halimbawa ng pagsubok ng mga hypotheses na nagpapaliwanag ng mga pagkakaiba sa antas ng aktibidad ng elektoral sa mga rehiyon ng Russia. Ang mga partikular na empirical na pag-aaral ay nagmungkahi na ang mga antas ng turnout ng mga botante ay naiimpluwensyahan ng:

Pambansang kadahilanan (variable na "populasyon ng Russia"; pinapatakbo bilang bahagi ng populasyon ng Russia sa mga nasasakupang entity ng Russian Federation). Ipinapalagay na ang pagtaas sa bahagi ng populasyon ng Russia ay humahantong sa pagbaba ng turnout ng mga botante;

Salik ng urbanisasyon (variable " urban populasyon"; operationalized bilang bahagi ng populasyon ng lunsod sa mga constituent entity ng Russian Federation; nagtrabaho na kami sa kadahilanang ito sa loob ng balangkas ng pagsusuri ng ugnayan). Ipinapalagay na ang pagtaas sa bahagi ng populasyon sa lunsod ay humahantong din sa pagbaba ng turnout ng mga botante.

Ang dependent variable - "intensity of electoral activity" (“active”) ay pinapatakbo sa pamamagitan ng average na data ng turnout ayon sa rehiyon sa mga pederal na halalan mula 1995 hanggang 2003. Ang unang talahanayan ng data para sa dalawang independent at isang dependent variable ay ang mga sumusunod:

Nangyayari Mga variable
Mga asset. Gor. tayo. Rus. tayo.
Republika ng Adygea 64,92 53 68
Republika ng Altai 68,60 24 60
Ang Republika ng Buryatia 60,75 59 70
Ang Republika ng Dagestan 79,92 41 9
Ang Republika ng Ingushetia 75,05 41 23
Republika ng Kalmykia 68,52 39 37
Karachay-Cherkess Republic 66,68 44 42
Republika ng Karelia 61,70 73 73
Republika ng Komi 59,60 74 57
Republika ng Mari El 65,19 62 47

atbp. (pagkatapos linisin ang mga emisyon, 83 sa 88 kaso ang nananatili)

Mga istatistika na naglalarawan sa kalidad ng modelo:

1. Maramihang R = 0.62; L-square = 0.38. Dahil dito, ang pambansang salik at ang salik ng urbanisasyon ay magkasamang nagpapaliwanag ng tungkol sa 38% ng pagkakaiba-iba sa variable na "aktibidad ng elektoral".

2. Average na error ay 3.38. Ito ay eksakto kung gaano "mali sa karaniwan" ang itinayong modelo kapag hinuhulaan ang antas ng turnout.

3. /l-ratio ng ipinaliwanag at hindi maipaliwanag na pagkakaiba-iba ay 25.2 sa antas na 0.000000003. Ang null hypothesis tungkol sa randomness ng mga natukoy na relasyon ay tinanggihan.

4. Ang criterion / para sa pare-pareho at regression coefficients ng mga variable na "populasyon ng lunsod" at "populasyon ng Russia" ay makabuluhan sa antas ng 0.0000001; 0.00005 at 0.007 ayon sa pagkakabanggit. Ang null hypothesis na ang mga coefficient ay random ay tinanggihan.

Ang mga karagdagang kapaki-pakinabang na istatistika sa pagsusuri ng kaugnayan sa pagitan ng orihinal at hinulaang mga halaga ng dependent variable ay ang distansya ng Mahalanobis at distansya ni Cook. Ang una ay isang sukatan ng pagiging natatangi ng kaso (ipinapakita kung magkano ang kumbinasyon ng mga halaga ng lahat ng mga independiyenteng variable para sa kasong ito lumihis mula sa mean para sa lahat ng mga independiyenteng variable nang sabay-sabay). Ang pangalawa ay isang sukatan ng impluwensya ng kaso. Ang iba't ibang obserbasyon ay may iba't ibang epekto sa slope ng regression line, at ang distansya ni Cook ay maaaring gamitin upang ihambing ang mga ito sa indicator na ito. Maaari itong maging kapaki-pakinabang kapag naglilinis ng mga outlier (maaaring ituring ang isang outlier bilang isang sobrang maimpluwensyang kaso).

Sa aming halimbawa, ang mga natatangi at maimpluwensyang kaso ay kinabibilangan ng Dagestan.

Nangyayari Orihinal

mga halaga

Predska

mga halaga

Mga natira Distansya

Mahalanobis

Distansya
Adygea 64,92 66,33 -1,40 0,69 0,00
Republika ng Altai 68,60 69.91 -1,31 6,80 0,01
Ang Republika ng Buryatia 60,75 65,56 -4,81 0,23 0,01
Ang Republika ng Dagestan 79,92 71,01 8,91 10,57 0,44
Ang Republika ng Ingushetia 75,05 70,21 4,84 6,73 0,08
Republika ng Kalmykia 68,52 69,59 -1,07 4,20 0,00

Ang modelo ng regression mismo ay may mga sumusunod na parameter: Y-intersection (constant) = 75.99; b (pahalang) = -0.1; Kommersant (Russian nas.) = -0.06. Panghuling formula.

Mga katangian ng mga dependency na sanhi

Mga ugnayang sanhi-at-bunga- ito ay isang koneksyon sa pagitan ng mga phenomena at mga proseso, kapag ang isang pagbabago sa isa sa mga ito - ang sanhi - humantong sa isang pagbabago sa isa pa - ang epekto.

Ang mga palatandaan ayon sa kanilang kahalagahan para sa pag-aaral ng relasyon ay nahahati sa dalawang klase.

Ang mga palatandaan na nagdudulot ng mga pagbabago sa iba pang nauugnay na mga palatandaan ay tinatawag factorial (o mga kadahilanan).

Ang mga palatandaan na nagbabago sa ilalim ng impluwensya ng mga palatandaan ng kadahilanan ay epektibo.

Ang mga sumusunod na paraan ng komunikasyon ay nakikilala: functional at stochastic. Functional ay isang relasyon kung saan ang isang tiyak na halaga ng isang kadahilanan na katangian ay tumutugma sa isa at isang halaga lamang ng resultang katangian. Ang functional na koneksyon ay ipinapakita sa lahat ng mga kaso ng pagmamasid at para sa bawat partikular na yunit ng populasyon na pinag-aaralan.

Ang functional na relasyon ay maaaring kinakatawan ng sumusunod na equation:
y i =f(x i), kung saan: y i - nagreresultang tanda; f(x i) - isang kilalang function ng koneksyon sa pagitan ng resulta at mga katangian ng kadahilanan; x i - factor sign.
Sa totoong kalikasan walang mga functional na koneksyon. Ang mga ito ay mga abstraction lamang, kapaki-pakinabang sa pagsusuri ng mga phenomena, ngunit pinapasimple ang katotohanan.

Stochastic (statistiko o random)koneksyon kumakatawan sa isang relasyon sa pagitan ng mga dami kung saan ang isa sa mga ito ay tumutugon sa isang pagbabago sa isa pang dami o dami sa pamamagitan ng pagbabago ng batas sa pamamahagi. Sa madaling salita, sa koneksyon na ito iba't ibang kahulugan ang isang variable ay tumutugma sa iba't ibang distribusyon ng isa pang variable. Ito ay dahil sa ang katunayan na ang umaasa na variable, bilang karagdagan sa mga independiyenteng mga isinasaalang-alang, ay naiimpluwensyahan ng isang bilang ng mga hindi natukoy o hindi nakokontrol na mga random na kadahilanan, pati na rin ang ilang mga hindi maiiwasang pagkakamali sa pagsukat ng mga variable. Dahil sa katotohanan na ang mga halaga ng dependent variable ay napapailalim sa random scatter, hindi sila mahulaan nang may sapat na katumpakan, ngunit maaari lamang ipahiwatig na may isang tiyak na posibilidad.

Dahil sa kalabuan ng stochastic dependence sa pagitan ng Y at X, sa partikular, ang dependence scheme na na-average sa x ay interesado, i.e. isang pattern sa pagbabago sa average na value - ang conditional mathematical expectation Mx(Y) (ang mathematical expectation ng random variable Y, na natagpuan sa kondisyon na ang variable X ay tumatagal sa value x) depende sa x.

Ang isang espesyal na kaso ng stochastic na komunikasyon ay komunikasyon ng ugnayan. Kaugnayan(mula sa lat. ugnayan- ugnayan, relasyon). Direktang kahulugan ng termino ugnayan - stochastic, malamang, posible koneksyon sa pagitan ng dalawa (pares) o marami (multiple) mga random na variable.

Ang pag-asa sa ugnayan sa pagitan ng dalawang variable ay tinatawag ding istatistikal na relasyon sa pagitan ng mga variable na ito, kung saan ang bawat halaga ng isang variable ay tumutugma sa isang tiyak na average na halaga, i.e. iba ang conditional mathematical expectation. Ang pagdepende sa ugnayan ay isang espesyal na kaso ng stochastic dependence, kung saan ang pagbabago sa mga halaga ng mga katangian ng kadahilanan (x 1 x 2 ..., x n) ay nangangailangan ng pagbabago sa average na halaga ng nagresultang katangian.



Nakaugalian na makilala ang mga sumusunod na uri ng ugnayan:

1. Pair correlation – isang koneksyon sa pagitan ng dalawang katangian (resultative at factor o two factor).

2. Bahagyang ugnayan - ang pag-asa sa pagitan ng resulta at isang salik na katangian na may nakapirming halaga ng iba pang salik na katangian na kasama sa pag-aaral.

3. Multiple correlation - ang dependence ng resulta at dalawa o higit pang salik na katangian na kasama sa pag-aaral.

Layunin ng Pagsusuri ng Pagbabalik

Ang analytical form ng kumakatawan sa sanhi-at-epekto na mga relasyon ay mga modelo ng regression. Ang pang-agham na bisa at kasikatan ng pagsusuri ng regression ay ginagawa itong isa sa mga pangunahing kasangkapan sa matematika para sa pagmomodelo ng hindi pangkaraniwang bagay na pinag-aaralan. Ang pamamaraang ito ay ginagamit upang pakinisin ang pang-eksperimentong data at makakuha ng mga quantitative na pagtatantya ng comparative influence iba't ibang salik sa variable na kinalabasan.

Pagsusuri ng regression ay sa pagtukoy ng analytical expression ng isang relasyon kung saan ang pagbabago sa isang halaga (dependent variable o resultang katangian) ay dahil sa impluwensya ng isa o higit pa. mga independiyenteng dami(mga salik o predictors), at ang hanay ng lahat ng iba pang salik na nakakaimpluwensya rin sa nakadependeng halaga ay itinuturing na pare-pareho at average na mga halaga.

Mga layunin ng pagsusuri ng regression:

Pagtatasa ng functional dependence ng conditional average na halaga ng resultang katangian y sa factor factor (x 1, x 2, ..., x n);

Paghuhula ng halaga ng isang dependent variable gamit ang independent variable(s).

Pagtukoy sa kontribusyon ng mga indibidwal na independent variable sa variation ng dependent variable.

Ang pagsusuri ng regression ay hindi maaaring gamitin upang matukoy kung mayroong kaugnayan sa pagitan ng mga variable, dahil ang pagkakaroon ng naturang relasyon ay isang paunang kinakailangan para sa paglalapat ng pagsusuri.

Sa pagsusuri ng regression, ipinapalagay nang maaga na may mga ugnayang sanhi-at-epekto sa pagitan ng resultang (U) at mga katangian ng salik x 1, x 2 ..., x n.

Function , op Ang pagtukoy ng dependence ng indicator sa mga parameter ay tinatawag na regression equation (function) 1 . Ang equation ng regression ay nagpapakita ng inaasahang halaga ng dependent variable na ibinigay sa ilang mga halaga ng mga independent variable.
Depende sa bilang ng mga kadahilanan na kasama sa modelo X Ang mga modelo ay nahahati sa single-factor (pair regression model) at multi-factor (multiple regression model). Depende sa uri ng function, ang mga modelo ay nahahati sa linear at nonlinear.

Ipinares na modelo ng regression

Dahil sa impluwensya ng hindi natukoy na random na mga kadahilanan at sanhi, ang mga indibidwal na obserbasyon y ay lilihis sa mas malaki o mas maliit na lawak mula sa regression function f(x). Sa kasong ito, ang equation para sa relasyon sa pagitan ng dalawang variable (pinares na modelo ng regression) ay maaaring ipakita bilang:

Y=f(X) + ɛ,

kung saan ang ɛ ay isang random na variable na nagpapakilala sa paglihis mula sa regression function. Ang variable na ito ay tinatawag na disturbance o disturbance (residual o error). Kaya, sa regression model ang dependent variable Y may ilang function f(X) hanggang sa random na kaguluhan ɛ.

Isaalang-alang natin ang klasikal na linear pairwise regression model (CLMPR). Kamukha niya

y i =β 0 +β 1 x i +ɛ i (i=1,2, …, n),(1)

saan y i– ipinaliwanag (nagreresulta, umaasa, endogenous variable); x i– paliwanag (predictor, factor, exogenous) variable; β 0 , β 1– numerical coefficients; ɛi– random (stochastic) na bahagi o error.

Mga pangunahing kondisyon (mga kinakailangan, hypotheses) ng KLMPR:

1) x i– isang deterministic (non-random) na dami, at ipinapalagay na kabilang sa mga halaga x i - hindi lahat ay pareho.

2) Inaasahang halaga(average na halaga) mga kaguluhan ɛi katumbas ng zero:

М[ɛ i ]=0 (i=1,2, …, n).

3) Ang pagpapakalat ng kaguluhan ay pare-pareho para sa anumang mga halaga ng i (kondisyon ng homoscedasticity):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Ang mga kaguluhan para sa iba't ibang mga obserbasyon ay walang kaugnayan:

cov[ɛ i , ɛ j ]=M[ɛ i , ɛ j ]=0 para sa i≠j,

kung saan ang cov[ɛ i , ɛ j ] ay ang covariance coefficient (correlation moment).

5) Ang mga kaguluhan ay karaniwang ipinamamahagi ng mga random na variable na may zero mean at variance σ 2:

ɛ i ≈ N(0, σ 2).

Upang makakuha ng equation ng regression, sapat na ang unang apat na lugar. Ang pangangailangan upang matupad ang ikalimang paunang kinakailangan ay kinakailangan upang masuri ang katumpakan ng equation ng regression at ang mga parameter nito.

Komento: Ang pagtuon sa mga linear na relasyon ay ipinaliwanag sa pamamagitan ng limitadong variation ng mga variable at ang katotohanan na sa karamihan ng mga kaso nonlinear forms ng mga relasyon ay na-convert (sa pamamagitan ng logarithm o pagpapalit ng mga variable) sa isang linear form upang magsagawa ng mga kalkulasyon.

Tradisyunal na pamamaraan hindi bababa sa mga parisukat (LS)

Ang pagtatantya ng modelo mula sa sample ay ang equation

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

kung saan ŷ i – theoretical (approximating) values ​​ng dependent variable na nakuha mula sa regression equation; a 0 , a 1 - coefficients (parameters) ng regression equation (mga sample na pagtatantya ng coefficients β 0, β 1, ayon sa pagkakabanggit).

Ayon sa hindi bababa sa mga parisukat, ang hindi kilalang mga parameter a 0 , a 1 ay pinili upang ang kabuuan ng mga squared deviations ng mga halaga ŷ i mula sa mga empirical na halaga y i (natirang kabuuan ng mga parisukat) ay minimal:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

kung saan e i = y i - ŷ i – sample na pagtatantya ng disturbance ɛ i, o regression residual.

Ang problema ay bumaba sa paghahanap ng mga naturang halaga ng mga parameter a 0 at 1 kung saan kinukuha ang function Q e pinakamaliit na halaga. Tandaan na ang function Q e = Q e (a 0 , a 1) ay isang function ng dalawang variable a 0 at a 1 hanggang sa matagpuan namin at pagkatapos ay ayusin ang kanilang "pinakamahusay" (sa kahulugan ng least squares method), a x i , y i ay mga pare-parehong numero na natagpuan sa eksperimentong paraan.

Mga kinakailangang kondisyon extrema (3) ay matatagpuan sa pamamagitan ng equating ang bahagyang derivatives ng function na ito ng dalawang variable sa zero. Bilang resulta, nakakakuha kami ng isang sistema ng dalawa linear na equation, na tinatawag na sistema ng mga normal na equation:

(4)

Ang coefficient a 1 ay isang sample na regression coefficient ng y sa x, na nagpapakita kung gaano karaming mga unit sa average ang variable y nagbabago kapag ang variable x ay nagbabago ng isang yunit ng pagsukat nito, iyon ay, ang variation sa y bawat unit ng variation sa x. Tanda a 1 ay nagpapahiwatig ng direksyon ng pagbabagong ito. Coefficient a 0 – displacement, ayon sa (2) katumbas ng halagaŷ i para sa x=0 at maaaring walang makabuluhang interpretasyon. Para sa kadahilanang ito, ang dependent variable ay tinatawag na tugon.

Mga istatistikal na katangian ng mga pagtatantya ng coefficient ng regression:

Tinatantya ng koepisyent ang isang 0 , a 1 ay walang kinikilingan;

Ang mga pagkakaiba-iba ng mga pagtatantya a 0 , isang 1 pagbaba (ang katumpakan ng mga pagtatantya ay tumataas) na may pagtaas ng laki ng sample n;

Ang pagkakaiba-iba ng pagtatantya ng slope a 1 ay bumababa sa pagtaas at samakatuwid ito ay ipinapayong piliin ang x i upang ang kanilang pagkalat sa paligid ng average na halaga ay malaki;

Para sa x¯ > 0 (na pinaka-interesante), mayroong negatibong istatistikal na relasyon sa pagitan ng 0 at 1 (ang pagtaas ng 1 ay humahantong sa pagbaba ng 0).

Ang pangunahing tampok ng pagsusuri ng regression: sa tulong nito, maaari kang makakuha ng tiyak na impormasyon tungkol sa kung anong anyo at kalikasan ang ugnayan sa pagitan ng mga variable na pinag-aaralan.

Pagkakasunud-sunod ng mga yugto ng pagsusuri ng regression

Isaalang-alang natin sa madaling sabi ang mga yugto ng pagsusuri ng regression.

    Pagbuo ng problema. Sa yugtong ito, nabuo ang mga paunang hypotheses tungkol sa pagtitiwala sa mga phenomena na pinag-aaralan.

    Kahulugan ng umaasa at malaya (nagpapaliwanag) na mga variable.

    Koleksyon ng istatistikal na datos. Dapat kolektahin ang data para sa bawat isa sa mga variable na kasama sa modelo ng regression.

    Pagbubuo ng hypothesis tungkol sa anyo ng koneksyon (simple o maramihan, linear o nonlinear).

    Kahulugan mga function ng regression (binubuo sa pagkalkula ng mga numerical na halaga ng mga parameter ng equation ng regression)

    Pagtatasa sa katumpakan ng pagsusuri ng regression.

    Interpretasyon ng mga resultang nakuha. Ang mga nakuhang resulta ng pagsusuri ng regression ay inihambing sa mga paunang hypotheses. Ang kawastuhan at kredibilidad ng mga resultang nakuha ay tinasa.

    Hula hindi kilalang mga halaga dependent variable.

Gamit ang pagsusuri ng regression, posibleng malutas ang problema ng pagtataya at pag-uuri. Ang mga hinulaang halaga ay kinakalkula sa pamamagitan ng pagpapalit ng mga halaga ng mga paliwanag na variable sa equation ng regression. Ang problema sa pag-uuri ay nalutas sa ganitong paraan: hinahati ng linya ng regression ang buong hanay ng mga bagay sa dalawang klase, at ang bahaging iyon ng hanay kung saan ang halaga ng function ay mas malaki kaysa sa zero ay kabilang sa isang klase, at ang bahagi kung saan ito ay mas mababa sa zero. kabilang sa ibang klase.

Mga Problema sa Pagsusuri ng Pagbabalik

Isaalang-alang natin ang mga pangunahing gawain ng pagsusuri ng regression: pagtatatag ng anyo ng pag-asa, pagtukoy mga function ng regression, pagtatantya ng hindi kilalang mga halaga ng dependent variable.

Pagtatatag ng anyo ng pagtitiwala.

Ang kalikasan at anyo ng ugnayan sa pagitan ng mga variable ay maaaring bumuo ng mga sumusunod na uri ng regression:

    positibo linear regression(ipinahayag sa pare-parehong paglago ng function);

    positibong pantay na pagtaas ng regression;

    positibong pantay na pagtaas ng regression;

    negatibong linear regression (ipinahayag bilang isang pare-parehong pagtanggi sa function);

    negatibong pare-parehong pinabilis ang pagbaba ng regression;

    negatibong pantay na nagpapababa ng regression.

Gayunpaman, ang mga varieties na inilarawan ay karaniwang hindi matatagpuan sa purong anyo, ngunit sa kumbinasyon sa bawat isa. Sa kasong ito, pinag-uusapan natin ang mga pinagsamang anyo ng regression.

Kahulugan ng regression function.

Ang pangalawang gawain ay bumababa sa pagtukoy ng epekto sa dependent variable ng mga pangunahing salik o sanhi, ang iba pang mga bagay ay pantay, at napapailalim sa pagbubukod ng impluwensya ng mga random na elemento sa dependent variable. Pag-andar ng regression ay tinukoy sa anyo ng isang mathematical equation ng isang uri o iba pa.

Pagtatantya ng hindi kilalang mga halaga ng dependent variable.

Ang solusyon sa problemang ito ay bumababa sa paglutas ng problema ng isa sa mga sumusunod na uri:

    Ang pagtatantya ng mga halaga ng dependent variable sa loob ng itinuturing na pagitan ng paunang data, i.e. nawawalang mga halaga; sa kasong ito, nalutas ang problema sa interpolation.

    Pagtatantya ng mga halaga sa hinaharap ng dependent variable, i.e. paghahanap ng mga halaga sa labas ng tinukoy na agwat ng pinagmulan ng data; sa kasong ito, nalutas ang problema ng extrapolation.

Ang parehong mga problema ay malulutas sa pamamagitan ng pagpapalit ng nahanap na mga pagtatantya ng parameter para sa mga halaga ng mga independiyenteng variable sa equation ng regression. Ang resulta ng paglutas ng equation ay isang pagtatantya ng halaga ng target (dependent) variable.

Tingnan natin ang ilan sa mga pagpapalagay na umaasa sa pagsusuri ng regression.

Linearity assumption, i.e. ang relasyon sa pagitan ng mga variable na isinasaalang-alang ay ipinapalagay na linear. Kaya, sa halimbawang ito, nag-plot kami ng scatterplot at nakakita kami ng malinaw na linear na relasyon. Kung, sa scatter diagram ng mga variable, nakikita natin ang isang malinaw na kawalan ng isang linear na relasyon, i.e. Kung mayroong isang nonlinear na relasyon, ang mga nonlinear na pamamaraan ng pagsusuri ay dapat gamitin.

Normality Assumption mga tira. Ipinapalagay nito na ang pamamahagi ng pagkakaiba sa pagitan ng hinulaang at naobserbahang mga halaga ay normal. Upang biswal na matukoy ang likas na katangian ng pamamahagi, maaari mong gamitin ang mga histogram mga tira.

Kapag gumagamit ng pagsusuri ng regression, dapat isaalang-alang ang pangunahing limitasyon nito. Binubuo ito sa katotohanan na ang pagsusuri ng regression ay nagpapahintulot sa amin na makakita lamang ng mga dependency, at hindi ang mga koneksyon na pinagbabatayan ng mga dependency na ito.

Binibigyang-daan ka ng pagsusuri ng regression na tantyahin ang lakas ng ugnayan sa pagitan ng mga variable sa pamamagitan ng pagkalkula ng tinantyang halaga ng isang variable batay sa ilang kilalang halaga.

Regression equation.

Ang regression equation ay ganito ang hitsura: Y=a+b*X

Gamit ang equation na ito, ang variable Y ay ipinahayag sa mga tuntunin ng isang constant a at ang slope ng linya (o slope) b, na pinarami ng halaga ng variable X. Ang constant a ay tinatawag ding intercept term, at ang slope ay ang regression coefficient o B-coefficient.

Sa karamihan ng mga kaso (kung hindi palaging) mayroong isang tiyak na scatter ng mga obserbasyon na nauugnay sa linya ng regression.

Natitira ay ang paglihis ng isang punto (obserbasyon) mula sa linya ng regression (hulaang halaga).

Upang malutas ang problema ng pagsusuri ng regression sa MS Excel, pumili mula sa menu Serbisyo"Pakete ng pagsusuri" at ang tool sa pagsusuri ng Regression. Itinakda namin ang mga pagitan ng input na X at Y. Ang pagitan ng input na Y ay ang hanay ng umaasa na nasuri na data, dapat itong may kasamang isang column. Ang input interval X ay ang hanay ng mga independiyenteng data na kailangang suriin. Ang bilang ng mga saklaw ng input ay hindi dapat lumampas sa 16.

Sa output ng pamamaraan sa hanay ng output makuha namin ang ulat na ibinigay sa talahanayan 8.3a-8.3v.

KONKLUSYON NG MGA RESULTA

Talahanayan 8.3a. Mga istatistika ng regression

Mga istatistika ng regression

Maramihang R

R-square

Normalized R-squared

Karaniwang error

Mga obserbasyon

Tingnan muna natin ang tuktok na bahagi ng mga kalkulasyon na ipinakita sa talahanayan 8.3a, - mga istatistika ng regression.

Magnitude R-square, na tinatawag ding sukatan ng katiyakan, ay nagpapakilala sa kalidad ng nagreresultang linya ng regression. Ang kalidad na ito ay ipinahayag sa pamamagitan ng antas ng pagsusulatan sa pagitan ng pinagmumulan ng data at ng modelo ng regression (kinakalkulang data). Ang sukatan ng katiyakan ay palaging nasa pagitan.

Sa karamihan ng mga kaso ang halaga R-square ay nasa pagitan ng mga halagang ito, na tinatawag na extreme, i.e. sa pagitan ng zero at isa.

Kung ang halaga R-square malapit sa pagkakaisa, nangangahulugan ito na ipinapaliwanag ng binuong modelo ang halos lahat ng pagkakaiba-iba sa mga kaukulang variable. Sa kabaligtaran, ang kahulugan R-square, malapit sa zero, ay nangangahulugan ng mahinang kalidad ng itinayong modelo.

Sa aming halimbawa, ang sukat ng katiyakan ay 0.99673, na nagpapahiwatig ng isang napakahusay na akma ng linya ng regression sa orihinal na data.

maramihan R - multiple correlation coefficient R - nagpapahayag ng antas ng pag-asa ng mga independiyenteng variable (X) at ng dependent variable (Y).

Maramihang R ay katumbas ng square root ng coefficient of determination; ang dami na ito ay kumukuha ng mga halaga sa hanay mula sa zero hanggang isa.

Sa simpleng pagsusuri ng linear regression maramihan R katumbas ng Pearson correlation coefficient. Talaga, maramihan R sa aming kaso, ito ay katumbas ng Pearson correlation coefficient mula sa nakaraang halimbawa (0.998364).

Talahanayan 8.3b. Mga coefficient ng regression

Odds

Karaniwang error

t-statistic

Y-intersection

Variable X 1

* Ang isang pinutol na bersyon ng mga kalkulasyon ay ibinigay

Ngayon isaalang-alang ang gitnang bahagi ng mga kalkulasyon na ipinakita sa talahanayan 8.3b. Dito ibinibigay ang regression coefficient b (2.305454545) at ang displacement kasama ang ordinate axis, i.e. pare-pareho ang a (2.694545455).

Batay sa mga kalkulasyon, maaari nating isulat ang equation ng regression tulad ng sumusunod:

Y= x*2.305454545+2.694545455

Ang direksyon ng relasyon sa pagitan ng mga variable ay tinutukoy batay sa mga palatandaan (negatibo o positibo) ng mga coefficient ng regression (coefficient b).

Kung positibo ang sign ng regression coefficient, magiging positibo ang relasyon sa pagitan ng dependent variable at ng independent variable. Sa aming kaso, ang tanda ng koepisyent ng regression ay positibo, samakatuwid, ang relasyon ay positibo din.

Kung negatibo ang sign ng regression coefficient, negatibo ang relasyon sa pagitan ng dependent variable at independent variable (inverse).

SA talahanayan 8.3c. ipinakita ang mga resulta ng output mga tira. Upang lumabas ang mga resultang ito sa ulat, dapat mong i-activate ang checkbox na "Residuals" kapag pinapatakbo ang tool na "Regression".

WITHDRAWAL NG NAtitira

Talahanayan 8.3c. Mga natira

Pagmamasid

Hinulaan si Y

Mga natira

Mga karaniwang balanse

Gamit ang bahaging ito ng ulat, makikita natin ang mga paglihis ng bawat punto mula sa itinayong linya ng regression. Pinakamalaking ganap na halaga natitira sa aming kaso - 0.778, ang pinakamaliit - 0.043. Upang mas mahusay na bigyang-kahulugan ang mga datos na ito, gagamitin namin ang graph ng orihinal na data at ang itinayong linya ng regression na ipinakita sa kanin. 8.3. Tulad ng nakikita mo, ang linya ng regression ay tumpak na "nakakabit" sa mga halaga ng orihinal na data.

Dapat itong isaalang-alang na ang halimbawang isinasaalang-alang ay medyo simple at hindi laging posible na qualitatively bumuo ng isang linear regression line.

kanin. 8.3. Pinagmulan ng data at linya ng pagbabalik

Ang problema sa pagtantya ng hindi kilalang mga halaga sa hinaharap ng dependent variable batay sa mga kilalang halaga ng independent variable ay nanatiling hindi isinasaalang-alang, i.e. problema sa pagtataya.

Ang pagkakaroon ng regression equation, ang problema sa pagtataya ay binabawasan sa paglutas ng equation Y= x*2.305454545+2.694545455 na may mga kilalang halaga ng x. Ang mga resulta ng paghula sa dependent variable Y anim na hakbang sa unahan ay ipinakita sa talahanayan 8.4.

Talahanayan 8.4. Y variable na mga resulta ng pagtataya

Y(hinulaang)

Kaya, bilang resulta ng paggamit ng regression analysis sa Microsoft Excel, kami ay:

    bumuo ng isang regression equation;

    itinatag ang anyo ng relasyon at direksyon ng relasyon sa pagitan ng mga variable - positibong linear regression, na ipinahayag sa pare-parehong paglago ng function;

    itinatag ang direksyon ng ugnayan sa pagitan ng mga variable;

    tinasa ang kalidad ng nagresultang linya ng pagbabalik;

    ay nakakakita ng mga paglihis ng kinakalkulang data mula sa data ng orihinal na hanay;

    hinulaang mga halaga sa hinaharap ng dependent variable.

Kung function ng regression tinukoy, binibigyang kahulugan at nabigyang-katwiran, at ang pagtatasa ng katumpakan ng pagsusuri ng regression ay nakakatugon sa mga kinakailangan, ang itinayong modelo at hinulaang mga halaga ay maaaring ituring na may sapat na pagiging maaasahan.

Ang mga hinulaang halaga na nakuha sa ganitong paraan ay ang mga average na halaga na maaaring asahan.

Sa gawaing ito, sinuri namin ang mga pangunahing katangian deskriptibong istatistika at kabilang sa kanila ang mga konsepto tulad ng average na halaga,panggitna,maximum,pinakamababa at iba pang katangian ng pagkakaiba-iba ng data.

Ang konsepto ay napag-usapan din nang maikli mga emisyon. Ang mga katangiang isinasaalang-alang ay nauugnay sa tinatawag na exploratory data analysis; ang mga konklusyon nito ay maaaring hindi nalalapat sa pangkalahatang populasyon, ngunit sa isang sample lamang ng data. Ginagamit ang pagsusuri ng data ng pagtuklas upang makakuha ng mga pangunahing konklusyon at bumuo ng mga hypotheses tungkol sa populasyon.

Ang mga pangunahing kaalaman sa pagsusuri ng ugnayan at regression, ang kanilang mga gawain at mga posibilidad para sa praktikal na paggamit ay tinalakay din.

Ang paraan ng pagsusuri ng regression ay ginagamit upang matukoy ang mga teknikal at pang-ekonomiyang parameter ng mga produkto na kabilang sa isang partikular na serye ng parametric upang bumuo at ihanay ang mga relasyon sa halaga. Ang pamamaraang ito ay ginagamit upang pag-aralan at bigyang-katwiran ang antas at mga ratio ng presyo ng mga produkto na nailalarawan sa pagkakaroon ng isa o higit pang teknikal at pang-ekonomiyang mga parameter na sumasalamin sa mga pangunahing katangian ng consumer. Ang pagsusuri ng regression ay nagpapahintulot sa amin na makahanap ng isang empirical na formula na naglalarawan sa pagtitiwala ng presyo sa mga teknikal at pang-ekonomiyang parameter ng mga produkto:

P=f(X1X2,...,Xn),

kung saan ang P ay ang halaga ng presyo ng yunit ng produkto, rub.; (X1, X2, ... Xn) - teknikal at pang-ekonomiyang mga parameter ng mga produkto.

Ang paraan ng pagsusuri ng regression - ang pinaka-advanced sa mga ginamit na normative-parametric na pamamaraan - ay epektibo kapag nagsasagawa ng mga kalkulasyon batay sa paggamit ng modernong teknolohiya ng impormasyon at mga sistema. Kasama sa aplikasyon nito ang mga sumusunod na pangunahing hakbang:

  • pagpapasiya ng klasipikasyon parametric na mga grupo ng mga produkto;
  • pagpili ng mga parameter na higit na nakakaimpluwensya sa presyo ng produkto;
  • pagpili at pagbibigay-katwiran sa anyo ng koneksyon sa pagitan ng mga pagbabago sa presyo kapag nagbabago ang mga parameter;
  • pagbuo ng isang sistema ng mga normal na equation at pagkalkula ng mga coefficient ng regression.

Basic pangkat ng kwalipikasyon mga produkto, ang presyo kung saan napapailalim sa equalization, ay isang parametric series, kung saan ang mga produkto ay maaaring pagsama-samahin sa iba't ibang mga disenyo depende sa kanilang aplikasyon, mga kondisyon ng operating at mga kinakailangan, atbp. Kapag bumubuo ng parametric series, ang mga awtomatikong pamamaraan ng pag-uuri ay maaaring gamitin, na kung saan gawing posible sa mga produkto na makilala ang kanilang mga homogenous na grupo. Ang pagpili ng mga teknikal at pang-ekonomiyang parameter ay ginawa batay sa mga sumusunod na pangunahing kinakailangan:

  • kasama sa mga napiling parameter ang mga parameter na naitala sa mga pamantayan at teknikal na kondisyon; bilang karagdagan sa mga teknikal na parameter (kapangyarihan, kapasidad ng pag-load, bilis, atbp.), Ang mga tagapagpahiwatig ng serialization ng produkto, mga koepisyent ng pagiging kumplikado, pag-iisa, atbp.
  • ang hanay ng mga napiling parameter ay dapat sapat na ganap na makilala ang disenyo, teknolohikal at pagpapatakbo ng mga katangian ng mga produkto na kasama sa serye, at may medyo malapit na ugnayan sa presyo;
  • hindi dapat magkakaugnay ang mga parameter.

Upang pumili ng mga teknikal at pang-ekonomiyang parameter na makabuluhang nakakaapekto sa presyo, kinakalkula ang isang matrix ng mga coefficient ng ugnayan ng pares. Batay sa magnitude ng mga koepisyent ng ugnayan sa pagitan ng mga parameter, maaaring hatulan ng isa ang pagiging malapit ng kanilang koneksyon. Kasabay nito, ang isang ugnayang malapit sa zero ay nagpapakita ng hindi gaanong impluwensya ng parameter sa presyo. Ang pangwakas na pagpili ng mga teknikal at pang-ekonomiyang parameter ay isinasagawa sa proseso ng hakbang-hakbang na pagsusuri ng regression gamit kagamitan sa kompyuter at kaukulang mga karaniwang programa.

Sa pagsasanay sa pagpepresyo, ginagamit ang sumusunod na hanay ng mga function:

linear

P = ao + alXl + ... + antXn,

linear-power

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

baligtad na logarithm

P = a0 + a1: Sa X1 + ... + an: Sa Xn,

kapangyarihan

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

nagpapakilala

P = e^(a1+a1X1+...+anXn)

hyperbolic

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

kung saan ang P ay pagkakapantay-pantay ng presyo; X1 X2,..., Xn - ang halaga ng mga teknikal at pang-ekonomiyang parameter ng mga produkto ng serye; a0, a1 ..., аn - kinakalkula na mga coefficient ng equation ng regression.

Sa praktikal na gawain sa pagpepresyo, depende sa anyo ng relasyon sa pagitan ng mga presyo at teknikal at pang-ekonomiyang mga parameter, maaaring gamitin ang iba pang mga equation ng regression. Ang uri ng function ng koneksyon sa pagitan ng presyo at isang hanay ng mga teknikal at pang-ekonomiyang parameter ay maaaring i-preset o awtomatikong piliin sa panahon ng pagpoproseso ng computer. Ang lapit ng ugnayan sa pagitan ng presyo at isang hanay ng mga parameter ay tinatasa ng halaga maramihang koepisyent mga ugnayan. Ang kalapitan nito sa isa ay nagpapahiwatig ng malapit na koneksyon. Gamit ang equation ng regression, ang equalized (kinakalkula) na mga halaga ng presyo para sa mga produkto ng isang ibinigay na parametric series ay nakuha. Upang suriin ang mga resulta ng pagkakapantay-pantay, ang mga kamag-anak na halaga ng paglihis ng kinakalkula na mga halaga ng presyo mula sa aktwal na mga halaga ay kinakalkula:

Tsr = Rf - Rr: R x 100

kung saan Рф, Рр - aktwal at kinakalkula na mga presyo.

Ang halaga ng CR ay hindi dapat lumampas sa 8-10%. Sa kaso ng mga makabuluhang paglihis ng mga kinakalkula na halaga mula sa mga aktwal, kinakailangan upang siyasatin:

  • ang kawastuhan ng pagbuo ng isang parametric series, dahil maaaring naglalaman ito ng mga produkto na, sa kanilang mga parameter, ay naiiba nang husto mula sa iba pang mga produkto sa serye. Dapat silang hindi kasama;
  • tamang pagpili ng mga teknikal at pang-ekonomiyang parameter. Posible ang isang hanay ng mga parameter na mahina ang pagkakaugnay sa presyo. Sa kasong ito, kinakailangan upang magpatuloy sa paghahanap at pagpili ng mga parameter.

Ang pamamaraan at pamamaraan para sa pagsasagawa ng pagsusuri ng regression, paghahanap ng hindi kilalang mga parameter ng equation at pang-ekonomiyang pagtatasa ng mga resulta na nakuha ay isinasagawa alinsunod sa mga kinakailangan ng mga istatistika ng matematika.



Bago sa site

>

Pinaka sikat