տուն Լնդեր Որոնք են պահանջները ռեգրեսիոն վերլուծության մոդելում: Մաթեմատիկական վիճակագրության մեթոդներ

Որոնք են պահանջները ռեգրեսիոն վերլուծության մոդելում: Մաթեմատիկական վիճակագրության մեթոդներ

ԱՐԴՅՈՒՆՔՆԵՐԻ ԵԶՐԱԿԱՑՈՒԹՅՈՒՆ

Աղյուսակ 8.3 ա. Ռեգրեսիայի վիճակագրություն
Ռեգրեսիայի վիճակագրություն
Հոգնակի Ռ 0,998364
R-քառակուսի 0,99673
Նորմալացված R-քառակուսի 0,996321
Ստանդարտ սխալ 0,42405
Դիտարկումներ 10

Եկեք նախ դիտարկենք վերին մաս 8.3ա աղյուսակում ներկայացված հաշվարկները - ռեգրեսիոն վիճակագրություն:

R-քառակուսի արժեքը, որը նաև կոչվում է որոշակիության չափանիշ, բնութագրում է ստացված ռեգրեսիոն գծի որակը: Այս որակն արտահայտվում է աղբյուրի տվյալների և ռեգրեսիոն մոդելի (հաշվարկված տվյալների) միջև համապատասխանության աստիճանով։ Հստակության չափը միշտ միջակայքում է:

Շատ դեպքերում R-քառակուսի արժեքը ընկնում է այս արժեքների միջև, որոնք կոչվում են ծայրահեղ արժեքներ, այսինքն. զրոյի և մեկի միջև:

Եթե ​​R-քառակուսի արժեքը մոտ է մեկին, դա նշանակում է, որ կառուցված մոդելը բացատրում է համապատասխան փոփոխականների գրեթե ողջ փոփոխականությունը: Ընդհակառակը, զրոյին մոտ R-քառակուսի արժեքը նշանակում է, որ կառուցված մոդելի որակը վատ է:

Մեր օրինակում որոշակիության չափը 0,99673 է, ինչը ցույց է տալիս ռեգրեսիոն գծի շատ լավ համապատասխանությունը սկզբնական տվյալներին:

Հոգնակի Ռ- բազմակի հարաբերակցության գործակից R - արտահայտում է անկախ փոփոխականների (X) և կախյալ փոփոխականի (Y) կախվածության աստիճանը:

Բազմակի R հավասար է քառակուսի արմատորոշման գործակիցից այս մեծությունը արժեքներ է վերցնում զրոյից մինչև մեկ միջակայքում:

Պարզ գծային ռեգրեսիոն վերլուծության ժամանակ բազմակի R-ը հավասար է Պիրսոնի հարաբերակցության գործակցին: Իրոք, R-ի բազմապատիկը մեր դեպքում հավասար է նախորդ օրինակի Պիրսոնի հարաբերակցության գործակցին (0,998364):

Աղյուսակ 8.3բ. Ռեգրեսիայի գործակիցներ
Հնարավորություններ Ստանդարտ սխալ t-վիճակագրություն
Y-հատում 2,694545455 0,33176878 8,121757129
Փոփոխական X 1 2,305454545 0,04668634 49,38177965
* Տրվում է հաշվարկների կրճատված տարբերակը

Այժմ դիտարկենք հաշվարկների միջին մասը՝ ներկայացված աղյուսակ 8.3b-ում: Այստեղ տրված է ռեգրեսիայի գործակիցը b (2.305454545) և օրդինատների առանցքի երկայնքով տեղաշարժը, այսինքն. հաստատուն a (2.694545455):

Հաշվարկների հիման վրա մենք կարող ենք գրել ռեգրեսիայի հավասարումը հետևյալ կերպ.

Y= x*2.305454545+2.694545455

Փոփոխականների միջև կապի ուղղությունը որոշվում է նշանների հիման վրա (բացասական կամ դրական) ռեգրեսիայի գործակիցները(գործակից բ).

Եթե ​​նշանը ժամը ռեգրեսիայի գործակիցը- դրական, կախված փոփոխականի և անկախ փոփոխականի միջև կապը կլինի դրական: Մեր դեպքում ռեգրեսիայի գործակցի նշանը դրական է, հետեւաբար՝ դրական է նաեւ հարաբերությունը։

Եթե ​​նշանը ժամը ռեգրեսիայի գործակիցը- բացասական, կախված փոփոխականի և անկախ փոփոխականի միջև կապը բացասական է (հակադարձ):

Աղյուսակ 8.3c-ում: Ներկայացված են մնացորդների ստացման արդյունքները. Որպեսզի այս արդյունքները հայտնվեն հաշվետվության մեջ, դուք պետք է ակտիվացնեք «Մնացորդներ» վանդակը «Regression» գործիքը գործարկելիս:

ՄՆԱՑՎԱԾԻ ՀԱՆՁՆՈՒՄ

Աղյուսակ 8.3c. Մնացորդներ
Դիտարկում Կանխատեսեց Յ Մնացորդներ Ստանդարտ մնացորդներ
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Օգտագործելով հաշվետվության այս հատվածը, մենք կարող ենք տեսնել յուրաքանչյուր կետի շեղումները կառուցված ռեգրեսիոն գծից: Ամենամեծ բացարձակ արժեքը

Ռեգրեսիոն վերլուծության նպատակն է չափել կապը կախված փոփոխականի և մեկ (զույգ ռեգրեսիոն վերլուծություն) կամ ավելի (բազմաթիվ) անկախ փոփոխականների միջև: Անկախ փոփոխականները կոչվում են նաև գործոն, բացատրական, որոշիչ, ռեգրեսոր և կանխատեսող փոփոխականներ։

Կախված փոփոխականը երբեմն կոչվում է որոշված, բացատրված կամ «պատասխան» փոփոխական: Էմպիրիկ հետազոտություններում ռեգրեսիոն վերլուծության չափազանց լայն կիրառումը պայմանավորված է ոչ միայն այն հանգամանքով, որ այն հարմար գործիք է վարկածների փորձարկման համար։ Ռեգրեսիան, հատկապես բազմակի ռեգրեսիան, է արդյունավետ մեթոդմոդելավորում և կանխատեսում։

Սկսենք բացատրել ռեգրեսիոն վերլուծության հետ աշխատելու սկզբունքները ավելի պարզով՝ զույգ մեթոդով։

Զուգակցված ռեգրեսիայի վերլուծություն

Ռեգրեսիոն վերլուծության կիրառման առաջին քայլերը գրեթե նույնական կլինեն այն քայլերին, որոնք մենք ձեռնարկել ենք հարաբերակցության գործակիցը հաշվարկելիս: Արդյունավետության երեք հիմնական պայման հարաբերակցության վերլուծությունՊիրսոնի մեթոդի համաձայն՝ փոփոխականների նորմալ բաշխումը, փոփոխականների ինտերվալային չափումը, փոփոխականների միջև գծային հարաբերությունները նույնպես կարևոր են բազմակի ռեգրեսիայի համար: Ըստ այդմ, առաջին փուլում կառուցվում են ցրված սյուժեներ, կատարվում է փոփոխականների վիճակագրական և նկարագրական վերլուծություն և հաշվարկվում է ռեգրեսիոն գիծ։ Ինչպես հարաբերակցության վերլուծության շրջանակներում, մեթոդով կառուցվում են ռեգրեսիոն գծեր նվազագույն քառակուսիները.

Տվյալների վերլուծության երկու մեթոդների միջև տարբերություններն ավելի հստակ պատկերացնելու համար եկեք դիմենք «SPS աջակցություն» և «գյուղական բնակչության մասնաբաժինը» փոփոխականներով արդեն քննարկված օրինակին: Աղբյուրի տվյալները նույնական են. Scatterplots-ի տարբերությունը կլինի այն, որ ռեգրեսիոն վերլուծության մեջ ճիշտ է գծագրել կախյալ փոփոխականը՝ մեր դեպքում, «SPS աջակցություն» Y-առանցքի վրա, մինչդեռ հարաբերակցության վերլուծության դեպքում դա նշանակություն չունի: Ծայրամասերը մաքրելուց հետո ցրման սխեման այսպիսի տեսք ունի.

Ռեգրեսիոն վերլուծության հիմնարար գաղափարն այն է, որ ունենալը ընդհանուր միտումփոփոխականների համար՝ ռեգրեսիայի գծի տեսքով, կարող եք կանխատեսել կախյալ փոփոխականի արժեքը՝ հաշվի առնելով անկախի արժեքները:

Եկեք պատկերացնենք սովորական մաթեմատիկականը գծային ֆունկցիա. Էվկլիդյան տարածության ցանկացած ուղիղ գիծ կարելի է նկարագրել բանաձևով.

որտեղ a-ն հաստատուն է, որը սահմանում է օրդինատների առանցքի երկայնքով տեղաշարժը. b-ն գործակից է, որը որոշում է գծի թեքության անկյունը։

Իմանալով թեքությունն ու հաստատունը՝ կարող եք հաշվարկել (կանխատեսել) y-ի արժեքը ցանկացած x-ի համար։

Սա ամենապարզ գործառույթըև հիմք է հանդիսացել ռեգրեսիոն վերլուծության մոդելի համար այն նախազգուշացումով, որ մենք չենք կանխատեսի y-ի արժեքը ճշգրիտ, այլ որոշակի սահմաններում: վստահության միջակայք, այսինքն. մոտավորապես.

հաստատունը ռեգրեսիոն գծի և y առանցքի հատման կետն է (F-հատում, որը վիճակագրական փաթեթներում սովորաբար նշվում է «ընդհատող»): Աջ ուժերի միության օգտին քվեարկելու մեր օրինակում դրա կլորացված արժեքը կլինի 10,55: Անկյունային b գործակիցը մոտավորապես կլինի -0,1 (ինչպես հարաբերակցության վերլուծության դեպքում նշանը ցույց է տալիս կապի տեսակը՝ ուղիղ կամ հակադարձ): Այսպիսով, ստացված մոդելը կունենա SP C = -0.1 x Sel ձև: մեզ։ + 10.55։

ATP = -0,10 x 47 + 10,55 = 5,63:

Բնօրինակի և կանխատեսված արժեքների միջև տարբերությունը կոչվում է մնացորդ (մենք արդեն հանդիպել ենք այս տերմինին, որը հիմնարար է վիճակագրության համար, պատահականության աղյուսակները վերլուծելիս): Այսպիսով, «Ադիգեայի Հանրապետության» դեպքում մնացորդը հավասար կլինի 3,92 - 5,63 = -1,71: Որքան մեծ է մնացորդի մոդուլային արժեքը, այնքան քիչ հաջողությամբ է կանխատեսված արժեքը:

Մենք հաշվարկում ենք կանխատեսված արժեքները և մնացորդները բոլոր դեպքերի համար.
Տեղի է ունենում Նստեց. մեզ։ THX

(օրիգինալ)

THX

(կանխատեսված)

Մնացորդներ
Ադիգեայի Հանրապետություն 47 3,92 5,63 -1,71 -
Ալթայի Հանրապետություն 76 5,4 2,59 2,81
Բաշկորտոստանի Հանրապետություն 36 6,04 6,78 -0,74
Բուրյաթիայի Հանրապետություն 41 8,36 6,25 2,11
Դաղստանի Հանրապետություն 59 1,22 4,37 -3,15
Ինգուշեթիայի Հանրապետություն 59 0,38 4,37 3,99
և այլն:

Սկզբնական և կանխատեսված արժեքների հարաբերակցության վերլուծությունը ծառայում է գնահատելու արդյունքում ստացված մոդելի որակը և դրա կանխատեսման կարողությունը: Ռեգրեսիայի վիճակագրության հիմնական ցուցիչներից մեկը բազմակի հարաբերակցության գործակիցն է R - հարաբերակցության գործակիցը կախված փոփոխականի սկզբնական և կանխատեսված արժեքների միջև: Զուգակցված ռեգրեսիոն վերլուծության ժամանակ այն հավասար է կախված և անկախ փոփոխականների միջև սովորական Պիրսոնի հարաբերակցության գործակցին, մեր դեպքում՝ 0,63։ Բազմակի R-ն իմաստալից մեկնաբանելու համար այն պետք է վերածվի որոշման գործակցի: Դա արվում է այնպես, ինչպես հարաբերակցության վերլուծության դեպքում՝ քառակուսիներով: Որոշման R-քառակուսի գործակիցը (R 2) ցույց է տալիս կախված փոփոխականի տատանումների հարաբերակցությունը, որը բացատրվում է անկախ փոփոխական(ներ)ով:

Մեր դեպքում R 2 = 0.39 (0.63 2); սա նշանակում է, որ «գյուղական բնակչության մասնաբաժինը» փոփոխականը բացատրում է «SPS աջակցություն» փոփոխականի տատանումների մոտավորապես 40%-ը: Որքան մեծ է որոշման գործակիցը, այնքան բարձր է մոդելի որակը:

Մոդելի որակի մեկ այլ ցուցանիշ է գնահատման ստանդարտ սխալը: Սա չափում է, թե որքանով են կետերը «ցրված» ռեգրեսիայի գծի շուրջ: Ինտերվալային փոփոխականների համար տարածման չափն է ստանդարտ շեղում. Ըստ այդմ, գնահատման ստանդարտ սխալը մնացորդների բաշխման ստանդարտ շեղումն է: Որքան բարձր է դրա արժեքը, այնքան մեծ է ցրվածությունը և ավելի վատ մոդելը: Մեր դեպքում ստանդարտ սխալը 2.18 է: Այս չափով է, որ մեր մոդելը «միջին հաշվով կսխալվի» «SPS աջակցություն» փոփոխականի արժեքը կանխատեսելիս:

Ռեգրեսիայի վիճակագրությունը ներառում է նաև շեղումների վերլուծություն: Նրա օգնությամբ մենք պարզում ենք. 2) կախյալ փոփոխականի շեղման ո՞ր մասն է հաշվառվում մնացորդներով (անբացատրելի մաս). 3) որքա՞ն է այս երկու մեծությունների հարաբերակցությունը (/"-հարաբերակցությունը) Ցրվածության վիճակագրությունը հատկապես կարևոր է. նմուշային ուսումնասիրություններ- այն ցույց է տալիս, թե որքանով է հավանական, որ անկախ և կախյալ փոփոխականների միջև կապ կա բնակչությունը. Այնուամենայնիվ, նույնիսկ շարունակական հետազոտության համար (ինչպես մեր օրինակում), ուսումնասիրելով արդյունքները շեղումների վերլուծությունօգտակար չէ. Այս դեպքում նրանք ստուգում են, թե արդյոք հայտնաբերված վիճակագրական օրինաչափությունը պայմանավորված է պատահական հանգամանքների համընկնմամբ, որքանո՞վ է դա բնորոշ այն պայմանների համար, որոնցում գտնվում է ուսումնասիրվող բնակչությունը, այսինքն. Հաստատված է ոչ թե ավելի մեծ ընդհանուր բնակչության համար ստացված արդյունքի ճշմարտացիությունը, այլ դրա կանոնավորության և պատահական ազդեցություններից ազատության աստիճանը:

Մեր դեպքում ANOVA վիճակագրությունը հետևյալն է.

ՍՍ Դ Ֆ MS Ֆ իմաստը
Հետընթաց. 258,77 1,00 258,77 54,29 0.000000001
Մնացորդը 395,59 83,00 Լ, 11
Ընդամենը 654,36

54,29 F հարաբերակցությունը նշանակալի է 0,0000000001 մակարդակում: Համապատասխանաբար, մենք կարող ենք վստահորեն մերժել զրոյական վարկածը (որ մեր հայտնաբերած հարաբերությունները պատահականության հետևանք են):

t չափանիշը կատարում է նմանատիպ գործառույթ, սակայն կապված ռեգրեսիայի գործակիցների հետ (անկյունային և F-հատում): Օգտագործելով / չափանիշը, մենք ստուգում ենք այն վարկածը, որ ընդհանուր բնակչության մեջ ռեգրեսիայի գործակիցները հավասար են զրոյի: Մեր դեպքում մենք կարող ենք կրկին վստահորեն մերժել զրոյական վարկածը։

Բազմակի ռեգրեսիայի վերլուծություն

Մոդել բազմակի ռեգրեսիագրեթե նույնական է զուգակցված ռեգրեսիայի մոդելին. Միակ տարբերությունն այն է, որ մի քանի անկախ փոփոխականներ հաջորդաբար ներառված են գծային ֆունկցիայի մեջ.

Y = b1X1 + b2X2 + …+ bpXp + a.

Եթե ​​կան ավելի քան երկու անկախ փոփոխականներ, մենք չենք կարողանում տեսողական պատկերացում կազմել դրանց փոխհարաբերությունների մասին, այս առումով բազմակի ռեգրեսիան ավելի քիչ «տեսողական» է, քան զույգական ռեգրեսիան: Երբ դուք ունեք երկու անկախ փոփոխականներ, կարող է օգտակար լինել տվյալների ցուցադրումը 3D ցրված գծապատկերում: Պրոֆեսիոնալ վիճակագրական ծրագրային փաթեթներում (օրինակ՝ Statistica) կա եռաչափ աղյուսակը պտտելու տարբերակ, որը թույլ է տալիս տեսողականորեն լավ ներկայացնել տվյալների կառուցվածքը։

Բազմակի ռեգրեսիայով աշխատելիս, ի տարբերություն զույգ ռեգրեսիայի, անհրաժեշտ է որոշել վերլուծության ալգորիթմը։ Ստանդարտ ալգորիթմը ներառում է բոլոր հասանելի կանխատեսիչները վերջնական ռեգրեսիայի մոդելում: Քայլ առ քայլ ալգորիթմներառում է անկախ փոփոխականների հաջորդական ընդգրկում (բացառում)՝ հիմնվելով դրանց բացատրական «կշռի» վրա։ Փուլային մեթոդը լավ է, երբ կան բազմաթիվ անկախ փոփոխականներ. այն «մաքրում է» մոդելն անկեղծորեն թույլ կանխատեսողներից՝ դարձնելով այն ավելի կոմպակտ և հակիրճ:

Բազմակի ռեգրեսիայի (ինտերվալի, նորմալության և գծայինության հետ մեկտեղ) ճշտության լրացուցիչ պայմանը բազմակողմանիության բացակայությունն է՝ անկախ փոփոխականների միջև ամուր հարաբերակցության առկայությունը։

Բազմակի ռեգրեսիայի վիճակագրության մեկնաբանությունը ներառում է բոլոր այն տարրերը, որոնք մենք դիտարկել ենք զույգ-ռեգեսիայի դեպքում: Բացի այդ, կան բազմաթիվ ռեգրեսիոն վերլուծության վիճակագրության այլ կարևոր բաղադրիչներ:

Մենք աշխատանքը կներկայացնենք բազմակի ռեգրեսիայով՝ օգտագործելով վարկածների փորձարկման օրինակ, որոնք բացատրում են ընտրական ակտիվության մակարդակի տարբերությունները Ռուսաստանի մարզերում: Հատուկ էմպիրիկ ուսումնասիրությունները ցույց են տվել, որ ընտրողների մասնակցության մակարդակի վրա ազդում են.

Ազգային գործոն (փոփոխական «ռուսական բնակչություն»; գործառնական է որպես Ռուսաստանի բնակչության մասնաբաժին Ռուսաստանի Դաշնության բաղկացուցիչ սուբյեկտներում): Ենթադրվում է, որ Ռուսաստանի բնակչության մասնաբաժնի աճը հանգեցնում է ընտրողների մասնակցության նվազմանը.

Քաղաքաշինական գործոն (փոփոխական» քաղաքային բնակչություն«; գործարկվել է որպես քաղաքային բնակչության մասնաբաժին Ռուսաստանի Դաշնության բաղկացուցիչ սուբյեկտներում, մենք արդեն աշխատել ենք այս գործոնի հետ հարաբերակցության վերլուծության շրջանակներում): Ենթադրվում է, որ քաղաքային բնակչության մասնաբաժնի աճը հանգեցնում է նաև ընտրողների մասնակցության նվազմանը։

Կախյալ փոփոխականը՝ «ընտրական ակտիվության ինտենսիվությունը» («ակտիվ») գործարկվում է 1995-ից մինչև 2003 թվականների դաշնային ընտրություններում միջին մասնակցության տվյալների միջոցով՝ ըստ տարածաշրջանների: Երկու անկախ և մեկ կախյալ փոփոխականների նախնական տվյալների աղյուսակը կլինի հետևյալը.

Տեղի է ունենում Փոփոխականներ
Ակտիվներ. Գոռ. մեզ։ Ռուս. մեզ։
Ադիգեայի Հանրապետություն 64,92 53 68
Ալթայի Հանրապետություն 68,60 24 60
Բուրյաթիայի Հանրապետություն 60,75 59 70
Դաղստանի Հանրապետություն 79,92 41 9
Ինգուշեթիայի Հանրապետություն 75,05 41 23
Կալմիկիայի Հանրապետություն 68,52 39 37
Կարաչայ-Չերքեզական Հանրապետություն 66,68 44 42
Կարելիայի Հանրապետություն 61,70 73 73
Կոմի Հանրապետություն 59,60 74 57
Մարի Էլ Հանրապետություն 65,19 62 47

և այլն: (արտանետումները մաքրելուց հետո 88 դեպքից մնացել է 83-ը)

Մոդելի որակը նկարագրող վիճակագրություն.

1. Բազմակի R = 0.62; L-քառակուսի = 0,38: Հետևաբար, ազգային գործոնը և ուրբանիզացիայի գործոնը միասին բացատրում են «ընտրական ակտիվություն» փոփոխականի տատանումների մոտ 38%-ը։

2. Միջին սխալ 3,38 է։ Ահա թե որքան «միջին հաշվով սխալ» է կառուցված մոդելը մասնակցության մակարդակը կանխատեսելիս:

3. /l- բացատրված և չբացատրված տատանումների հարաբերակցությունը 25,2 է 0,000000003 մակարդակում: Հայտնաբերված հարաբերությունների պատահականության մասին զրոյական վարկածը մերժվում է։

4. «Քաղաքային բնակչություն» և «Ռուսաստանի բնակչություն» փոփոխականների հաստատուն և ռեգրեսիվ գործակիցների չափանիշը նշանակալի է 0,0000001 մակարդակում; 0,00005 և 0,007 համապատասխանաբար: Գործակիցների պատահական լինելու զրոյական վարկածը մերժվում է։

Կախված փոփոխականի սկզբնական և կանխատեսված արժեքների միջև կապը վերլուծելու համար լրացուցիչ օգտակար վիճակագրություն են Mahalanobis հեռավորությունը և Cook-ի հեռավորությունը: Առաջինը գործի եզակիության չափանիշն է (ցույց է տալիս, թե որքանով է համակցված բոլոր անկախ փոփոխականների արժեքները այս դեպքըշեղվում է բոլոր անկախ փոփոխականների միջինից միաժամանակ): Երկրորդը գործի ազդեցության չափանիշն է։ Տարբեր դիտարկումներ ունեն տարբեր ազդեցություններ ռեգրեսիոն գծի թեքության վրա, և Կուկի հեռավորությունը կարող է օգտագործվել այս ցուցանիշի վրա դրանք համեմատելու համար: Սա կարող է օգտակար լինել, երբ մաքրում ենք ծայրամասերը (ցածր գծերը կարելի է համարել չափազանց ազդեցիկ դեպք):

Մեր օրինակում եզակի և ազդեցիկ դեպքերը ներառում են Դաղստանը։

Տեղի է ունենում Օրիգինալ

արժեքներ

Պրեդսկա

արժեքներ

Մնացորդներ Հեռավորությունը

Մահալանոբիս

Հեռավորությունը
Ադիգեա 64,92 66,33 -1,40 0,69 0,00
Ալթայի Հանրապետություն 68,60 69.91 -1,31 6,80 0,01
Բուրյաթիայի Հանրապետություն 60,75 65,56 -4,81 0,23 0,01
Դաղստանի Հանրապետություն 79,92 71,01 8,91 10,57 0,44
Ինգուշեթիայի Հանրապետություն 75,05 70,21 4,84 6,73 0,08
Կալմիկիայի Հանրապետություն 68,52 69,59 -1,07 4,20 0,00

Ռեգրեսիոն մոդելն ինքնին ունի հետևյալ պարամետրերը՝ Y-հատում (հաստատուն) = 75,99; b (հորիզոնական) = -0.1; Կոմերսանտ (ռուս. nas.) = -0.06. Վերջնական բանաձեւ.

Պատճառահետևանքային կախվածությունների բնութագրերը

Պատճառահետևանքային հարաբերություններ- սա կապ է երևույթների և գործընթացների միջև, երբ դրանցից մեկի փոփոխությունը` պատճառի, հանգեցնում է մյուսի` հետևանքի փոփոխության:

Նշաններն ըստ իրենց նշանակության՝ հարաբերություններն ուսումնասիրելու համար բաժանվում են երկու դասի.

Նշանները, որոնք փոփոխություններ են առաջացնում այլ հարակից նշաններում, կոչվում են գործոնային (կամ գործոններ):

Գործոնային նշանների ազդեցության տակ փոփոխվող նշաններն են արդյունավետ.

Առանձնացվում են կապի հետևյալ ձևերը՝ ֆունկցիոնալ և ստոխաստիկ։ Ֆունկցիոնալհարաբերություն է, որի դեպքում գործոնի բնութագրիչի որոշակի արժեքը համապատասխանում է արդյունքի բնութագրիչի մեկ և միայն մեկ արժեքին: Ֆունկցիոնալ կապը դրսևորվում է դիտարկման բոլոր դեպքերում և ուսումնասիրվող բնակչության յուրաքանչյուր կոնկրետ միավորի համար։

Ֆունկցիոնալ հարաբերությունները կարող են ներկայացվել հետևյալ հավասարմամբ.
y i =f(x i),որտեղ: y i - արդյունքի նշան; f(x i) - արդյունքի և գործոնի բնութագրերի միջև կապի հայտնի գործառույթ. x i - գործոնի նշան.
Իրական բնության մեջ ֆունկցիոնալ կապեր չկան։ Դրանք միայն աբստրակցիաներ են՝ օգտակար երեւույթները վերլուծելու համար, բայց պարզեցնում են իրականությունը։

Ստոխաստիկ (վիճակագրական կամ պատահական)կապներկայացնում է մեծությունների միջև հարաբերությունը, որի դեպքում դրանցից մեկն արձագանքում է մեկ այլ քանակի կամ այլ մեծությունների փոփոխությանը` փոխելով բաշխման օրենքը: Այսինքն՝ այս կապով տարբեր իմաստներմի փոփոխականը համապատասխանում է մեկ այլ փոփոխականի տարբեր բաշխմանը: Դա պայմանավորված է նրանով, որ կախված փոփոխականի վրա, ի լրումն քննարկվող անկախների, ազդում են մի շարք չհաշվառված կամ չվերահսկվող պատահական գործոններ, ինչպես նաև փոփոխականների չափման որոշ անխուսափելի սխալներ: Հաշվի առնելով այն հանգամանքը, որ կախված փոփոխականի արժեքները ենթակա են պատահական ցրման, դրանք չեն կարող կանխատեսվել բավարար ճշգրտությամբ, այլ կարող են նշվել միայն որոշակի հավանականությամբ:

Y-ի և X-ի միջև ստոխաստիկ կախվածության անորոշության պատճառով, մասնավորապես, հետաքրքրություն է ներկայացնում x-ի նկատմամբ միջինացված կախվածության սխեման, այսինքն. Միջին արժեքի փոփոխության օրինաչափություն - պայմանական մաթեմատիկական ակնկալիք Mx(Y) (պատահական Y փոփոխականի մաթեմատիկական ակնկալիքը, որը գտնվել է այն պայմանով, որ X փոփոխականը վերցնում է x արժեքը) կախված x-ից:

Ստոխաստիկ հաղորդակցության հատուկ դեպք է հարաբերական հաղորդակցությունը: Հարաբերակցություն(լատ. հարաբերակցությունը- հարաբերակցություն, հարաբերություն): Տերմինի ուղղակի սահմանում հարաբերակցությունը - ստոխաստիկ, հավանական, հնարավոր կապ երկու (զույգ) կամ մի քանի (բազմակի) միջև պատահական փոփոխականներ.

Երկու փոփոխականների միջև հարաբերակցության կախվածությունը կոչվում է նաև վիճակագրական հարաբերություն այս փոփոխականների միջև, որտեղ մեկ փոփոխականի յուրաքանչյուր արժեք համապատասխանում է որոշակի միջին արժեքի, այսինքն. պայմանական մաթեմատիկական ակնկալիքը տարբեր է: Հարաբերակցության կախվածությունը ստոխաստիկ կախվածության հատուկ դեպք է, որի դեպքում գործոնի բնութագրերի արժեքների փոփոխությունը (x 1 x 2 ..., x n) հանգեցնում է ստացված բնութագրի միջին արժեքի փոփոխությանը:



Ընդունված է տարբերակել հարաբերակցության հետևյալ տեսակները.

1. Զույգ հարաբերակցություն – կապ երկու բնութագրերի միջև (արդյունավետ և գործոն կամ երկու գործոն):

2. Մասնակի հարաբերակցություն - արդյունքի և մեկ գործոնի բնութագրերի միջև կախվածությունը հետազոտության մեջ ներառված այլ գործոնային բնութագրերի ֆիքսված արժեքով:

3. Բազմակի հարաբերակցություն– ուսումնասիրության մեջ ներառված արդյունքի և երկու կամ ավելի գործոնային բնութագրերի կախվածությունը:

Ռեգրեսիայի վերլուծության նպատակը

Պատճառահետևանքային հարաբերությունների ներկայացման վերլուծական ձևը ռեգրեսիոն մոդելներն են: Ռեգրեսիոն վերլուծության գիտական ​​վավերականությունը և հանրաճանաչությունը այն դարձնում են ուսումնասիրվող երևույթի մոդելավորման հիմնական մաթեմատիկական գործիքներից մեկը: Այս մեթոդը օգտագործվում է փորձարարական տվյալների հարթեցման և համեմատական ​​ազդեցության քանակական գնահատականներ ստանալու համար տարբեր գործոններարդյունքի փոփոխականին:

Ռեգրեսիոն վերլուծություն էհարաբերությունների վերլուծական արտահայտությունը որոշելիս, որում մեկ արժեքի (կախյալ փոփոխականի կամ արդյունքի բնութագրիչի) փոփոխությունը պայմանավորված է մեկ կամ մի քանիսի ազդեցությամբ. անկախ քանակություններ(գործոններ կամ կանխատեսողներ), և բոլոր մյուս գործոնների ամբողջությունը, որոնք նույնպես ազդում են կախված արժեքի վրա, ընդունվում են որպես հաստատուն և միջին արժեքներ:

Ռեգրեսիոն վերլուծության նպատակները.

Արդյունք y բնութագրիչի պայմանական միջին արժեքի ֆունկցիոնալ կախվածության գնահատում գործակից գործոններից (x 1, x 2, ..., x n);

Կախված փոփոխականի արժեքի կանխատեսում անկախ փոփոխական(ներ)ի միջոցով:

Կախված փոփոխականի փոփոխության մեջ առանձին անկախ փոփոխականների ներդրման որոշում:

Ռեգրեսիոն վերլուծությունը չի կարող օգտագործվել փոփոխականների միջև կապի առկայության մասին որոշելու համար, քանի որ նման կապի առկայությունը վերլուծությունը կիրառելու նախապայման է:

Ռեգրեսիոն վերլուծության ժամանակ նախապես ենթադրվում է, որ առկա են պատճառահետևանքային հարաբերություններ արդյունքի (U) և գործոնային բնութագրերի միջև x 1, x 2 ..., x n:

Գործառույթ , opՑուցանիշի որոշիչ կախվածությունը պարամետրերից կոչվում է ռեգրեսիոն հավասարում (ֆունկցիա) 1 . Ռեգրեսիայի հավասարումը ցույց է տալիս կախված փոփոխականի ակնկալվող արժեքը՝ հաշվի առնելով անկախ փոփոխականների որոշակի արժեքները:
Կախված մոդելի մեջ ներառված գործոնների քանակից Xմոդելները բաժանվում են մեկ գործոնով (զույգ ռեգրեսիոն մոդել) և բազմագործոնով (բազմակի ռեգրեսիոն մոդել): Կախված ֆունկցիայի տեսակից՝ մոդելները բաժանվում են գծային և ոչ գծային։

Զուգակցված ռեգրեսիայի մոդել

Չհաշվարկված պատահական գործոնների և պատճառների ազդեցության պատճառով y անհատական ​​դիտարկումները մեծ կամ փոքր չափով կշեղվեն ռեգրեսիոն ֆունկցիայից f(x): Այս դեպքում երկու փոփոխականների միջև հարաբերությունների հավասարումը (զույգ ռեգրեսիոն մոդել) կարող է ներկայացվել հետևյալ կերպ.

Y=f(X) + ɛ,

որտեղ ɛ-ը ռեգրեսիայի ֆունկցիայից շեղումը բնութագրող պատահական փոփոխական է: Այս փոփոխականը կոչվում է խանգարում կամ խանգարում (մնացորդային կամ սխալ): Այսպիսով, ռեգրեսիոն մոդելում կախված փոփոխականը Յինչ-որ գործառույթ կա f(X)մինչև պատահական խանգարում ɛ.

Դիտարկենք դասական գծային զույգ ռեգրեսիայի մոդելը (CLMPR): Նա նման է

y i =β 0 +β 1 x i +ɛ i (i=1,2, …, n),(1)

Որտեղ y i– բացատրված (արդյունք, կախված, էնդոգեն փոփոխական); x i– բացատրական (կանխատեսող, գործոն, էկզոգեն) փոփոխական; β 0, β 1- թվային գործակիցներ; ɛi- պատահական (ստոխաստիկ) բաղադրիչ կամ սխալ:

KLMPR-ի հիմնական պայմանները (նախադրյալները, վարկածները).

1) x i– դետերմինիստական ​​(ոչ պատահական) մեծություն, և ենթադրվում է, որ x i արժեքներից ոչ բոլորն են նույնը:

2) Ակնկալվող արժեքը(միջին արժեքի) խանգարումներ ɛiհավասար է զրոյի:

М[ɛ i ]=0 (i=1,2, …, n):

3) Խանգարման ցրումը հաստատուն է i-ի ցանկացած արժեքի համար (հոմոսկեդաստիկության պայման).

D[ɛ i ]=σ 2 (i=1,2, …, n):

4) Տարբեր դիտարկումների խանգարումները փոխկապակցված չեն.

cov[ɛ i, ɛ j ]=M[ɛ i, ɛ j ]=0 i≠j-ի համար,

որտեղ cov[ɛ i , ɛ j ]-ը կովարիանսի գործակիցն է (կոռելյացիոն պահը):

5) Խանգարումները սովորաբար բաշխված պատահական փոփոխականներ են զրոյական միջինով և σ 2 շեղումով:

ɛ i ≈ N(0, σ 2).

Ռեգրեսիոն հավասարում ստանալու համար առաջին չորս նախադրյալները բավարար են: Հինգերորդ նախադրյալի կատարման պահանջը անհրաժեշտ է ռեգրեսիոն հավասարման և դրա պարամետրերի ճշգրտությունը գնահատելու համար:

Մեկնաբանություն:Գծային հարաբերությունների վրա կենտրոնացումը բացատրվում է փոփոխականների սահմանափակ փոփոխությամբ և այն փաստով, որ շատ դեպքերում հարաբերությունների ոչ գծային ձևերը (լոգարիթմով կամ փոփոխականների փոխարինմամբ) վերածվում են գծային ձևի՝ հաշվարկներ կատարելու համար:

Ավանդական մեթոդնվազագույն քառակուսիներ (LS)

Նմուշի մոդելի գնահատումը հավասարումն է

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

որտեղ ŷ i – ռեգրեսիայի հավասարումից ստացված կախյալ փոփոխականի տեսական (մոտավոր) արժեքները. a 0 , a 1 - ռեգրեսիոն հավասարման գործակիցները (պարամետրերը) (համապատասխանաբար β 0, β 1 գործակիցների նմուշային գնահատականներ):

Ըստ նվազագույն քառակուսիների՝ a 0, a 1 անհայտ պարամետրերն ընտրվում են այնպես, որ ŷ i արժեքների քառակուսի շեղումների գումարը էմպիրիկ արժեքներից y i (քառակուսիների մնացորդային գումարը) նվազագույն լինի.

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

որտեղ e i = y i - ŷ i – ɛ i խանգարման նմուշի գնահատում կամ ռեգրեսիայի մնացորդ:

Խնդիրը հանգում է a 0 և a 1 պարամետրերի այնպիսի արժեքներ գտնելուն, որոնց համար ընդունում է Q e ֆունկցիան ամենափոքր արժեքը. Նկատի ունեցեք, որ Q e = Q e (a 0, a 1) ֆունկցիան երկու փոփոխականների ֆունկցիա է a 0 և a 1, մինչև մենք գտանք, ապա ամրագրեցինք նրանց «լավագույն» (նվազագույն քառակուսիների մեթոդի իմաստով) արժեքները՝ a x i , y i-ն հաստատուն թվեր են, որոնք գտնվել են փորձարարական եղանակով:

Անհրաժեշտ պայմաններըծայրահեղությունները (3) գտնվում են երկու փոփոխականների այս ֆունկցիայի մասնակի ածանցյալները հավասարեցնելով զրոյի: Արդյունքում մենք ստանում ենք երկու համակարգ գծային հավասարումներ, որը կոչվում է նորմալ հավասարումների համակարգ.

(4)

a 1 գործակիցը y-ի ռեգրեսիայի օրինակելի գործակիցն է x-ի վրա, որը ցույց է տալիս, թե միջինում քանի միավոր է փոխվում y փոփոխականը, երբ x փոփոխականը փոխվում է իր չափման մեկ միավորով, այսինքն՝ y-ի տատանումները x-ի տատանումների մեկ միավորի համար: Նշան ա 1ցույց է տալիս այս փոփոխության ուղղությունը: Գործակից a 0 – տեղաշարժ, ըստ (2) արժեքին հավասարŷ i x=0-ի համար և կարող է չունենալ իմաստալից մեկնաբանություն: Այդ պատճառով կախյալ փոփոխականը երբեմն կոչվում է պատասխան:

Ռեգրեսիայի գործակիցների գնահատումների վիճակագրական հատկությունները.

Գործակիցը գնահատում է a 0, a 1, անաչառ են.

Գնահատումների շեղումները a 0, a 1 նվազում (գնահատումների ճշգրտությունը մեծանում է) ընտրանքի չափի մեծացման հետ n;

A 1 թեքության գնահատման շեղումը նվազում է աճի հետ և, հետևաբար, խորհուրդ է տրվում ընտրել x i, որպեսզի դրանց տարածումը միջին արժեքի շուրջ մեծ լինի.

x¯ > 0-ի համար (որը մեծագույն հետաքրքրություն է ներկայացնում), կա բացասական վիճակագրական հարաբերություն 0-ի և 1-ի միջև (1-ի աճը հանգեցնում է 0-ի նվազմանը):

Ռեգրեսիոն վերլուծության հիմնական առանձնահատկությունը. դրա օգնությամբ դուք կարող եք ստանալ կոնկրետ տեղեկատվություն այն մասին, թե ինչ ձև և բնույթ ունի ուսումնասիրվող փոփոխականների միջև կապը:

Ռեգրեսիոն վերլուծության փուլերի հաջորդականությունը

Եկեք համառոտ դիտարկենք ռեգրեսիոն վերլուծության փուլերը:

    Խնդրի ձևակերպում. Այս փուլում ձևավորվում են ուսումնասիրվող երևույթների կախվածության վերաբերյալ նախնական վարկածներ։

    Կախյալ և անկախ (բացատրական) փոփոխականների սահմանում.

    Վիճակագրական տվյալների հավաքագրում. Տվյալները պետք է հավաքվեն ռեգրեսիոն մոդելում ներառված յուրաքանչյուր փոփոխականի համար:

    Կապի ձևի վերաբերյալ վարկածի ձևակերպում (պարզ կամ բազմակի, գծային կամ ոչ գծային):

    Սահմանում ռեգրեսիայի գործառույթներ (բաղկացած է ռեգրեսիոն հավասարման պարամետրերի թվային արժեքների հաշվարկից)

    Գնահատելով ռեգրեսիոն վերլուծության ճշգրտությունը:

    Ստացված արդյունքների մեկնաբանություն. Ռեգրեսիոն վերլուծության ստացված արդյունքները համեմատվում են նախնական վարկածների հետ։ Գնահատվում է ստացված արդյունքների ճիշտությունն ու արժանահավատությունը:

    Կանխատեսում անհայտ արժեքներկախյալ փոփոխական.

Օգտագործելով ռեգրեսիոն վերլուծություն՝ հնարավոր է լուծել կանխատեսման և դասակարգման խնդիրը։ Կանխատեսված արժեքները հաշվարկվում են՝ փոխարինելով բացատրական փոփոխականների արժեքները ռեգրեսիայի հավասարման մեջ: Դասակարգման խնդիրը լուծվում է այսպես. ռեգրեսիոն գիծը օբյեկտների ամբողջ բազմությունը բաժանում է երկու դասի, և բազմության այն մասը, որտեղ ֆունկցիայի արժեքը զրոյից մեծ է, պատկանում է մեկ դասի, իսկ այն մասը, որտեղ այն զրոյից փոքր է։ պատկանում է մեկ այլ դասի.

Ռեգրեսիայի վերլուծության խնդիրներ

Դիտարկենք ռեգրեսիոն վերլուծության հիմնական խնդիրները՝ կախվածության ձևի սահմանում, որոշում ռեգրեսիայի գործառույթներ, կախված փոփոխականի անհայտ արժեքների գնահատում:

Կախվածության ձևի հաստատում.

Փոփոխականների միջև կապի բնույթն ու ձևը կարող են ձևավորել ռեգրեսիայի հետևյալ տեսակները.

    դրական գծային ռեգրեսիա(արտահայտվում է ֆունկցիայի միատեսակ աճով);

    դրական միատեսակ աճող ռեգրեսիա;

    դրական միատեսակ աճող ռեգրեսիա;

    բացասական գծային ռեգրեսիա (արտահայտվում է որպես ֆունկցիայի միատեսակ անկում);

    բացասական միատեսակ արագացված նվազող ռեգրեսիա;

    բացասական միատեսակ նվազող ռեգրեսիա:

Այնուամենայնիվ, նկարագրված սորտերը սովորաբար չեն հանդիպում մաքուր ձև, բայց միմյանց հետ համակցված։ Այս դեպքում մենք խոսում ենք ռեգրեսիայի համակցված ձևերի մասին։

Ռեգրեսիայի ֆունկցիայի սահմանում.

Երկրորդ խնդիրը վերաբերում է հիմնական գործոնների կամ պատճառների կախված փոփոխականի վրա ազդեցության բացահայտմանը, այլ բաները հավասար են և ենթակա են կախված փոփոխականի վրա պատահական տարրերի ազդեցության բացառմանը: Ռեգրեսիայի ֆունկցիասահմանվում է այս կամ այն ​​տեսակի մաթեմատիկական հավասարման տեսքով։

Կախված փոփոխականի անհայտ արժեքների գնահատում:

Այս խնդրի լուծումը հանգում է հետևյալ տեսակներից մեկի խնդրի լուծմանը.

    Կախված փոփոխականի արժեքների գնահատում նախնական տվյալների դիտարկվող միջակայքում, այսինքն. բացակայող արժեքներ; այս դեպքում լուծվում է ինտերպոլացիայի խնդիրը։

    Կախված փոփոխականի ապագա արժեքների գնահատում, այսինքն. աղբյուրի տվյալների նշված միջակայքից դուրս արժեքներ գտնելը. այս դեպքում էքստրապոլյացիայի խնդիրը լուծված է։

Երկու խնդիրներն էլ լուծվում են՝ փոխարինելով հայտնաբերված պարամետրերի գնահատումները անկախ փոփոխականների արժեքներով ռեգրեսիայի հավասարման մեջ: Հավասարման լուծման արդյունքը նպատակային (կախյալ) փոփոխականի արժեքի գնահատումն է։

Եկեք դիտարկենք որոշ ենթադրություններ, որոնց վրա հիմնվում է ռեգրեսիոն վերլուծությունը:

Գծայինության ենթադրություն, այսինքն. Դիտարկվող փոփոխականների միջև կապը ենթադրվում է գծային: Այսպիսով, այս օրինակում մենք գծեցինք ցրված գծապատկեր և կարողացանք տեսնել հստակ գծային հարաբերություն: Եթե ​​փոփոխականների ցրման դիագրամի վրա մենք տեսնում ենք գծային հարաբերությունների հստակ բացակայություն, այսինքն. Եթե ​​կա ոչ գծային հարաբերություն, ապա պետք է օգտագործվեն ոչ գծային վերլուծության մեթոդներ:

Նորմալության ենթադրություն մնացորդներ. Այն ենթադրում է, որ կանխատեսված և դիտարկված արժեքների միջև տարբերության բաշխումը նորմալ է: Բաշխման բնույթը տեսողականորեն որոշելու համար կարող եք օգտագործել հիստոգրամներ մնացորդներ.

Ռեգրեսիոն վերլուծություն օգտագործելիս պետք է հաշվի առնել դրա հիմնական սահմանափակումը: Այն բաղկացած է նրանից, որ ռեգրեսիոն վերլուծությունը մեզ թույլ է տալիս բացահայտել միայն կախվածությունները, և ոչ թե այդ կախվածությունների հիմքում ընկած կապերը:

Ռեգրեսիոն վերլուծությունը թույլ է տալիս գնահատել փոփոխականների միջև կապի ուժը՝ հաշվարկելով փոփոխականի գնահատված արժեքը մի քանի հայտնի արժեքների հիման վրա:

Ռեգրեսիայի հավասարում.

Ռեգրեսիայի հավասարումն ունի հետևյալ տեսքը՝ Y=a+b*X

Օգտագործելով այս հավասարումը, Y փոփոխականը արտահայտվում է a հաստատունով և գծի (կամ թեքության) b թեքությամբ՝ բազմապատկելով X փոփոխականի արժեքով: ռեգրեսիայի գործակիցը կամ B-գործակիցը:

Շատ դեպքերում (եթե ոչ միշտ) առկա է ռեգրեսիոն գծի հետ կապված դիտարկումների որոշակի ցրվածություն:

Մնացորդը ռեգրեսիոն գծից (կանխատեսված արժեք) մեկ կետի (դիտարկման) շեղումն է։

MS Excel-ում ռեգրեսիոն վերլուծության խնդիրը լուծելու համար ընտրացանկից ընտրեք Ծառայություն«Վերլուծական փաթեթ».և ռեգրեսիայի վերլուծության գործիքը: Մենք սահմանում ենք մուտքագրման միջակայքերը X և Y: Մուտքային Y միջակայքը կախված վերլուծված տվյալների միջակայքն է, այն պետք է ներառի մեկ սյունակ: X մուտքագրման միջակայքը անկախ տվյալների շրջանակն է, որը պետք է վերլուծվի: Մուտքային միջակայքերի թիվը չպետք է գերազանցի 16-ը:

Արդյունքների տիրույթում ընթացակարգի ելքում մենք ստանում ենք զեկույցը, որը տրված է աղյուսակ 8.3 ա-8.3 վ.

ԱՐԴՅՈՒՆՔՆԵՐԻ ԵԶՐԱԿԱՑՈՒԹՅՈՒՆ

Աղյուսակ 8.3 ա. Ռեգրեսիայի վիճակագրություն

Ռեգրեսիայի վիճակագրություն

Հոգնակի Ռ

R-քառակուսի

Նորմալացված R-քառակուսի

Ստանդարտ սխալ

Դիտարկումներ

Եկեք նախ նայենք ներկայացված հաշվարկների վերին հատվածին աղյուսակ 8.3 ա, - ռեգրեսիայի վիճակագրություն.

Մեծություն R-քառակուսի, որը նաև կոչվում է որոշակիության չափանիշ, բնութագրում է ստացված ռեգրեսիոն գծի որակը։ Այս որակն արտահայտվում է աղբյուրի տվյալների և ռեգրեսիոն մոդելի (հաշվարկված տվյալների) միջև համապատասխանության աստիճանով։ Հստակության չափը միշտ միջակայքում է:

Շատ դեպքերում արժեքը R-քառակուսիգտնվում է այս արժեքների միջև, որը կոչվում է ծայրահեղ, այսինքն. զրոյի և մեկի միջև:

Եթե ​​արժեքը R-քառակուսիմոտ միասնությանը, սա նշանակում է, որ կառուցված մոդելը բացատրում է համապատասխան փոփոխականների գրեթե ողջ փոփոխականությունը: Ընդհակառակը, իմաստը R-քառակուսիզրոյին մոտ, նշանակում է կառուցված մոդելի վատ որակ։

Մեր օրինակում որոշակիության չափը 0,99673 է, ինչը ցույց է տալիս ռեգրեսիոն գծի շատ լավ համապատասխանությունը սկզբնական տվյալներին:

հոգնակի Ռ - բազմակի հարաբերակցության գործակից R - արտահայտում է անկախ փոփոխականների (X) և կախյալ փոփոխականի (Y) կախվածության աստիճանը:

Հոգնակի Ռհավասար է որոշման գործակցի քառակուսի արմատին, այս մեծությունը արժեքներ է ընդունում զրոյից մինչև մեկ միջակայքում:

Պարզ գծային ռեգրեսիոն վերլուծության մեջ հոգնակի Ռհավասար է Պիրսոնի հարաբերակցության գործակցին: Իսկապես, հոգնակի Ռմեր դեպքում այն ​​հավասար է նախորդ օրինակի Պիրսոնի հարաբերակցության գործակցին (0.998364):

Աղյուսակ 8.3բ. Ռեգրեսիայի գործակիցներ

Հնարավորություններ

Ստանդարտ սխալ

t-վիճակագրություն

Y-հատում

Փոփոխական X 1

* Տրվում է հաշվարկների կրճատված տարբերակը

Այժմ հաշվի առեք ներկայացված հաշվարկների միջին մասը աղյուսակ 8.3բ. Այստեղ տրված է ռեգրեսիայի գործակիցը b (2.305454545) և օրդինատների առանցքի երկայնքով տեղաշարժը, այսինքն. հաստատուն a (2.694545455):

Հաշվարկների հիման վրա մենք կարող ենք գրել ռեգրեսիայի հավասարումը հետևյալ կերպ.

Y= x*2.305454545+2.694545455

Փոփոխականների միջև կապի ուղղությունը որոշվում է ռեգրեսիոն գործակիցների (բ գործակից) նշանների (բացասական կամ դրական) հիման վրա:

Եթե ​​ռեգրեսիայի գործակցի նշանը դրական է, ապա կախված փոփոխականի և անկախ փոփոխականի միջև կապը կլինի դրական: Մեր դեպքում ռեգրեսիայի գործակցի նշանը դրական է, հետեւաբար՝ դրական է նաեւ հարաբերությունը։

Եթե ​​ռեգրեսիայի գործակցի նշանը բացասական է, ապա կախված փոփոխականի և անկախ փոփոխականի միջև կապը բացասական է (հակադարձ):

IN աղյուսակ 8.3c. ներկայացվում են ելքային արդյունքները մնացորդներ. Որպեսզի այս արդյունքները հայտնվեն հաշվետվության մեջ, դուք պետք է ակտիվացնեք «Մնացորդներ» վանդակը «Regression» գործիքը գործարկելիս:

ՄՆԱՑՎԱԾԻ ՀԱՆՁՆՈՒՄ

Աղյուսակ 8.3c. Մնացորդներ

Դիտարկում

Կանխատեսեց Յ

Մնացորդներ

Ստանդարտ մնացորդներ

Օգտագործելով հաշվետվության այս հատվածը, մենք կարող ենք տեսնել յուրաքանչյուր կետի շեղումները կառուցված ռեգրեսիոն գծից: Ամենամեծ բացարձակ արժեքը մնացորդըմեր դեպքում՝ 0,778, ամենափոքրը՝ 0,043։ Այս տվյալները ավելի լավ մեկնաբանելու համար մենք կօգտագործենք սկզբնական տվյալների գրաֆիկը և ներկայացված կառուցված ռեգրեսիոն գիծը բրինձ. 8.3. Ինչպես տեսնում եք, ռեգրեսիայի գիծը բավականին ճշգրիտ «համապատասխանում» է սկզբնական տվյալների արժեքներին:

Պետք է հաշվի առնել, որ դիտարկվող օրինակը բավականին պարզ է և միշտ չէ, որ հնարավոր է որակապես կառուցել գծային ռեգրեսիոն գիծ։

Բրինձ. 8.3.Աղբյուրի տվյալները և ռեգրեսիայի գիծը

Անկախ փոփոխականի հայտնի արժեքների հիման վրա կախված փոփոխականի անհայտ ապագա արժեքների գնահատման խնդիրը մնացել է չքննարկված, այսինքն. կանխատեսման խնդիր.

Ունենալով ռեգրեսիոն հավասարում, կանխատեսման խնդիրը կրճատվում է լուծելու Y= x*2.305454545+2.694545455 հավասարումը x-ի հայտնի արժեքներով: Ներկայացված են Y կախյալ փոփոխականի կանխատեսման արդյունքները վեց քայլ առաջ աղյուսակ 8.4-ում.

Աղյուսակ 8.4. Y փոփոխական կանխատեսման արդյունքներ

Y (կանխատեսված)

Այսպիսով, Microsoft Excel-ում ռեգրեսիոն վերլուծության օգտագործման արդյունքում մենք.

    կառուցել ռեգրեսիայի հավասարում;

    սահմանեց փոխհարաբերությունների ձևը և փոփոխականների միջև փոխհարաբերությունների ուղղությունը՝ դրական գծային ռեգրեսիա, որն արտահայտվում է ֆունկցիայի միատեսակ աճով.

    սահմանեց փոփոխականների միջև հարաբերությունների ուղղությունը.

    գնահատեց ստացված ռեգրեսիոն գծի որակը.

    կարողացան տեսնել հաշվարկված տվյալների շեղումները սկզբնական հավաքածուի տվյալներից.

    կախյալ փոփոխականի կանխատեսված ապագա արժեքները:

Եթե ռեգրեսիոն ֆունկցիասահմանված, մեկնաբանված և հիմնավորված, և ռեգրեսիոն վերլուծության ճշգրտության գնահատումը համապատասխանում է պահանջներին, կառուցված մոդելը և կանխատեսված արժեքները կարելի է համարել բավարար հուսալիություն:

Այս եղանակով ստացված կանխատեսված արժեքները միջին արժեքներն են, որոնք կարելի է ակնկալել:

Այս աշխատանքում մենք վերանայեցինք հիմնական բնութագրերը նկարագրական վիճակագրությունև դրանց թվում այնպիսի հասկացություններ, ինչպիսիք են միջին արժեքը,միջին,առավելագույնը,նվազագույնըև տվյալների փոփոխության այլ բնութագրեր:

Հակիրճ քննարկվեց նաև հայեցակարգը արտանետումները. Դիտարկված բնութագրերը վերաբերում են, այսպես կոչված, հետախուզական տվյալների վերլուծությանը, դրա եզրակացությունները չեն կարող վերաբերել ընդհանուր բնակչությանը, այլ միայն տվյալների նմուշին: Հետախուզական տվյալների վերլուծությունն օգտագործվում է առաջնային եզրակացություններ ստանալու և բնակչության մասին վարկածներ ձևավորելու համար:

Քննարկվեցին նաև հարաբերակցության և ռեգրեսիոն վերլուծության հիմունքները, դրանց առաջադրանքները և գործնական կիրառման հնարավորությունները։

Ռեգրեսիոն վերլուծության մեթոդը օգտագործվում է որոշակի պարամետրային շարքին պատկանող ապրանքների տեխնիկական և տնտեսական պարամետրերը որոշելու համար՝ արժեքային հարաբերություններ կառուցելու և հավասարեցնելու համար: Այս մեթոդը օգտագործվում է վերլուծելու և հիմնավորելու ապրանքների մակարդակը և գների հարաբերակցությունը, որը բնութագրվում է մեկ կամ մի քանի տեխնիկական և տնտեսական պարամետրերի առկայությամբ, որոնք արտացոլում են հիմնական սպառողական հատկությունները: Ռեգրեսիոն վերլուծությունը թույլ է տալիս գտնել էմպիրիկ բանաձև, որը նկարագրում է գնի կախվածությունը ապրանքների տեխնիկական և տնտեսական պարամետրերից.

P=f(X1X2,...,Xn),

որտեղ P-ն ապրանքի միավորի գնի արժեքն է, ռուբ.; (X1, X2, ... Xn) - արտադրանքի տեխնիկական և տնտեսական պարամետրեր:

Ռեգրեսիոն վերլուծության մեթոդը, որն օգտագործված նորմատիվ-պարամետրական մեթոդներից ամենաառաջադեմն է, արդյունավետ է ժամանակակից մեթոդների կիրառման վրա հիմնված հաշվարկներ իրականացնելիս: տեղեկատվական տեխնոլոգիաներև համակարգեր։ Դրա կիրառումը ներառում է հետևյալ հիմնական քայլերը.

  • արտադրանքի դասակարգման պարամետրային խմբերի որոշում;
  • պարամետրերի ընտրություն, որոնք առավելապես ազդում են ապրանքի գնի վրա.
  • պարամետրերի փոփոխման ժամանակ գնային փոփոխությունների միջև կապի ձևի ընտրություն և հիմնավորում.
  • նորմալ հավասարումների համակարգի կառուցում և ռեգրեսիայի գործակիցների հաշվարկ։

Հիմնական որակավորման խումբապրանքները, որոնց գինը ենթակա է հավասարեցման, պարամետրային շարք է, որի շրջանակներում ապրանքները կարող են խմբավորվել տարբեր նմուշների՝ կախված դրանց կիրառությունից, շահագործման պայմաններից և պահանջներից և այլն: Պարամետրային շարքեր կազմելիս կարող են օգտագործվել ավտոմատ դասակարգման մեթոդներ, որոնք հնարավորություն է տալիս ապրանքներին բացահայտել իրենց միատարր խմբերը: Տեխնիկական և տնտեսական պարամետրերի ընտրությունը կատարվում է հետևյալ հիմնական պահանջների հիման վրա.

  • ընտրված պարամետրերը ներառում են ստանդարտներում գրանցված պարամետրերը և տեխնիկական պայմանները; բացի տեխնիկական պարամետրերից (հզորություն, բեռնվածության հզորություն, արագություն և այլն), օգտագործվում են արտադրանքի սերիականացման ցուցիչներ, բարդության գործակիցներ, միավորում և այլն.
  • ընտրված պարամետրերի հավաքածուն պետք է բավարար չափով բնութագրի շարքում ընդգրկված ապրանքների դիզայնը, տեխնոլոգիական և գործառնական հատկությունները և ունենա բավականին սերտ հարաբերակցություն գնի հետ.
  • պարամետրերը չպետք է փոխկապակցված լինեն:

Գնի վրա էականորեն ազդող տեխնիկական և տնտեսական պարամետրեր ընտրելու համար հաշվարկվում է զույգ հարաբերակցության գործակիցների մատրիցա: Ելնելով պարամետրերի միջև հարաբերակցության գործակիցների մեծությունից՝ կարելի է դատել դրանց կապի սերտության մասին։ Միևնույն ժամանակ, զրոյին մոտ հարաբերակցությունը ցույց է տալիս պարամետրի աննշան ազդեցությունը գնի վրա։ Տեխնիկական և տնտեսական պարամետրերի վերջնական ընտրությունն իրականացվում է քայլ առ քայլ ռեգրեսիոն վերլուծության միջոցով՝ օգտագործելով. համակարգչային տեխնիկաև համապատասխան ստանդարտ ծրագրեր:

Գնային պրակտիկայում օգտագործվում է գործառույթների հետևյալ շարքը.

գծային

P = ao + alXl + ... + antXn,

գծային-ուժ

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

հակադարձ լոգարիթմ

P = a0 + a1: X1 + ... + an: Xn-ում,

ուժ

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

ցուցիչ

P = e^(a1+a1X1+...+anXn)

հիպերբոլիկ

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

որտեղ P-ը գների հավասարեցումն է. X1 X2,..., Xn - շարքի արտադրանքի տեխնիկական և տնտեսական պարամետրերի արժեքը. a0, a1 ..., аn - ռեգրեսիայի հավասարման հաշվարկված գործակիցները:

Գնագոյացման վերաբերյալ գործնական աշխատանքում, կախված գների և տեխնիկական և տնտեսական պարամետրերի միջև կապի ձևից, կարող են օգտագործվել ռեգրեսիոն այլ հավասարումներ: Գնի և մի շարք տեխնիկական և տնտեսական պարամետրերի միջև կապի գործառույթի տեսակը կարող է նախադրվել կամ ընտրվել ավտոմատ կերպով համակարգչային մշակման ընթացքում: Մտերմություն հարաբերական կապգնի և պարամետրերի հավաքածուի միջև գնահատվում է բազմակի հարաբերակցության գործակցի արժեքով: Մեկին մոտ լինելը վկայում է սերտ կապի մասին: Օգտագործելով ռեգրեսիոն հավասարումը, ստացվում են տվյալ պարամետրային շարքի արտադրանքի հավասարեցված (հաշվարկված) գների արժեքները: Հավասարեցման արդյունքները գնահատելու համար հաշվարկված գնային արժեքների իրական արժեքներից շեղման հարաբերական արժեքները հաշվարկվում են.

Tsr = Rf - Rr: R x 100

որտեղ Рф, Рр - փաստացի և հաշվարկված գներ.

CR-ի արժեքը չպետք է գերազանցի 8-10% -ը: Հաշվարկված արժեքների իրական արժեքներից զգալի շեղումների դեպքում անհրաժեշտ է ուսումնասիրել.

  • պարամետրային շարքի ձևավորման ճիշտությունը, քանի որ այն կարող է պարունակել ապրանքներ, որոնք իրենց պարամետրերով կտրուկ տարբերվում են շարքի այլ արտադրանքներից: Նրանք պետք է բացառվեն.
  • տեխնիկական և տնտեսական պարամետրերի ճիշտ ընտրություն. Հնարավոր է մի շարք պարամետրեր, որոնք թույլ են փոխկապակցված գնի հետ: Այս դեպքում անհրաժեշտ է շարունակել որոնումը և պարամետրերի ընտրությունը։

Ռեգրեսիոն վերլուծության անցկացման, հավասարման անհայտ պարամետրերի հայտնաբերման և ստացված արդյունքների տնտեսական գնահատման կարգը և մեթոդաբանությունը կատարվում են պահանջներին համապատասխան. մաթեմատիկական վիճակագրություն.



Նորություն կայքում

>

Ամենահայտնի