տուն Հեռացում Բազմաթիվ ռեգրեսիայի խնդիրների լուծման օրինակներ. Բազմակի ռեգրեսիայի ներածություն

Բազմաթիվ ռեգրեսիայի խնդիրների լուծման օրինակներ. Բազմակի ռեգրեսիայի ներածություն

Բազմակի ռեգրեսիայի նպատակը մեկ կախյալ և մի քանի անկախ փոփոխականների միջև կապի վերլուծությունն է:

Օրինակ. Կան տվյալներ տարբեր PDM համակարգերի մեկ աշխատակայանի արժեքի մասին (50 աշխատակայան գնելիս): Պահանջվում է. գնահատել PDM համակարգի աշխատանքային կայանի գնի և դրանում ներդրված բնութագրերի քանակի միջև կապը՝ տրված Աղյուսակ 2-ում:

Աղյուսակ 2 - PDM համակարգերի բնութագրերը

Պատվերի ՀԱՄԱՐ PDM համակարգ Գին Ապրանքի կազմաձևման կառավարում Ապրանքի մոդելներ Թիմային աշխատանք Արտադրանքի փոփոխության կառավարում Փաստաթղթերի հոսք Արխիվներ Փաստաթղթերի որոնում Ծրագրի պլանավորում Արտադրանքի արտադրության կառավարում
iMAN Այո՛ Այո՛
PartYPlus Այո՛ Այո՛
PDM STEP Suite Այո՛ Այո՛
Որոնում Այո՛ Այո՛
Հողմափայլ Այո՛ Այո՛
Compass Manager Այո՛ Այո՛
T-Flex Docs Այո՛ Այո՛
TechnoPro Ոչ Ոչ

Բնութագրերի թվային արժեքը (բացառությամբ «Արժեքի», «Ապրանքների մոդելների» և «Թիմային աշխատանքի») նշանակում է իրականացված յուրաքանչյուր բնութագրի պահանջների քանակը:

Եկեք ստեղծենք և լրացնենք աղյուսակ նախնական տվյալներով (Նկար 27):

«Mod.» փոփոխականների «1» արժեքը: խմբ». և «Հավաքածու». շրջան." համապատասխանում է աղբյուրի տվյալների «Այո» արժեքին, իսկ սկզբնական տվյալների «0» արժեքին:

Եկեք կառուցենք ռեգրեսիա «Արժեքը» կախյալ փոփոխականի և «Ex. conf.», «Mod. խմբ., «Հավաք. r-ta», «Ex. փոփոխություն.», «Փաստ.», «Արխիվ», «Որոնում», «Պլան-ե», «Վերահսկում. պատրաստված»:

Աղբյուրի տվյալների վիճակագրական վերլուծությունը սկսելու համար զանգահարեք «Բազմակի ռեգրեսիա» մոդուլը (Նկար 22):

Հայտնվող երկխոսության վանդակում (Նկար 23) նշեք այն փոփոխականները, որոնց համար կկատարվի վիճակագրական վերլուծություն:

Նկար 27 - Նախնական տվյալներ

Դա անելու համար սեղմեք Variables կոճակը և երևացող երկխոսության վանդակում (Նկար 28), կախված փոփոխականներին համապատասխանող մասում (Կախված var.) ընտրեք «1-Cost» և անկախ փոփոխականներին համապատասխան մասում: (Անկախ փոփոխականների ցանկ), ընտրեք բոլոր մյուս փոփոխականները: Ցանկից մի քանի փոփոխականների ընտրությունն իրականացվում է «Ctrl» կամ «Shift» ստեղներով կամ համապատասխան դաշտում նշելով փոփոխականների համարները (թվերի տիրույթը):



Նկար 28 - Վիճակագրական վերլուծության համար փոփոխականներ սահմանելու երկխոսության տուփ

Փոփոխականներն ընտրելուց հետո երկխոսության վանդակում սեղմեք «OK» կոճակը՝ «Բազմակի ռեգրեսիա» մոդուլի պարամետրերը սահմանելու համար: Պատուհանում, որը հայտնվում է «No of indep. vars. >=(N-1); չի կարող շրջել corr. մատրիցա»: (Նկար 29) սեղմեք «OK» կոճակը:

Այս հաղորդագրությունը հայտնվում է, երբ համակարգը չի կարող ռեգրեսիա ստեղծել բոլոր հայտարարված անկախ փոփոխականների համար, քանի որ փոփոխականների թիվը մեծ է կամ հավասար է դեպքերի թվին հանած 1:

«Ընդլայնված» ներդիրում երևացող պատուհանում (Նկար 30) կարող եք փոխել ռեգրեսիայի հավասարման կառուցման մեթոդը:

Նկար 29 - Սխալի հաղորդագրություն

Դա անելու համար «Մեթոդ» դաշտում ընտրեք «Առաջ քայլ առ քայլ» (քայլ առ քայլ ներառմամբ):

Նկար 30 - Պատուհան՝ մեթոդ ընտրելու և ռեգրեսիոն հավասարման կառուցման պարամետրեր սահմանելու համար

Փուլային ռեգրեսիայի մեթոդը բաղկացած է յուրաքանչյուր քայլում մոդելին ինչ-որ անկախ փոփոխական ավելացնելուց կամ բացառելուց: Այսպիսով, ընդգծվում են առավել «կարևոր» փոփոխականներից շատերը: Սա թույլ է տալիս նվազեցնել կախվածությունը նկարագրող փոփոխականների քանակը:

Քայլ առ քայլ վերլուծություն վերացման հետ («Հետ քայլ առ քայլ»): Այս դեպքում բոլոր փոփոխականները նախ կներառվեն մոդելում, իսկ հետո յուրաքանչյուր քայլի ընթացքում կվերացվեն այն փոփոխականները, որոնք քիչ ներդրում ունեն կանխատեսումների մեջ: Այնուհետև, որպես հաջող վերլուծության արդյունք, մոդելում կարող են պահպանվել միայն «կարևոր» փոփոխականները, այսինքն՝ այն փոփոխականները, որոնց ներդրումը խտրականության մեջ ավելի մեծ է, քան մյուսները:

Քայլ առ քայլ վերլուծություն ներառմամբ («Առաջ քայլ առ քայլ»): Այս մեթոդն օգտագործելիս անկախ փոփոխականները հաջորդաբար ներառվում են ռեգրեսիոն հավասարման մեջ, մինչև որ հավասարումը բավարար կերպով նկարագրի սկզբնական տվյալները: Փոփոխականների ընդգրկումը որոշվում է F- թեստի միջոցով: Յուրաքանչյուր քայլում դիտարկվում են բոլոր փոփոխականները, և հայտնաբերվում է այն մեկը, որն ամենամեծ ներդրումն է ունենում բնակչության միջև տարբերության մեջ: Այս փոփոխականը պետք է ներառվի մոդելի մեջ այս քայլում և անցնի հաջորդ քայլին:

«Ընդհատում» դաշտում (ազատ ռեգրեսիայի տերմին) կարող եք ընտրել՝ ներառե՞լ այն հավասարման մեջ («Ներառել մոդելում»), թե՞ հաշվի չառնել այն և համարել այն հավասար զրոյի («Սահմանել զրոյի»):

«Հանդուրժողականություն» պարամետրը փոփոխականների հանդուրժողականությունն է: Սահմանվում է որպես 1 հանած գործակիցի քառակուսին բազմակի հարաբերակցությունայս փոփոխականը ռեգրեսիայի հավասարման մնացած բոլոր անկախ փոփոխականների հետ: Հետևաբար, որքան ցածր է փոփոխականի հանդուրժողականությունը, այնքան ավելի ավելորդ է նրա ներդրումը ռեգրեսիայի հավասարման մեջ: Եթե ​​ռեգրեսիոն հավասարման փոփոխականներից որևէ մեկի հանդուրժողականությունը հավասար է կամ մոտ է զրոյի, ապա ռեգրեսիոն հավասարումը հնարավոր չէ գնահատել: Հետեւաբար, նպատակահարմար է սահմանել հանդուրժողականության պարամետրը 0,05 կամ 0,1:

Պարամետրը «Rridge regression; lambda:» օգտագործվում է, երբ անկախ փոփոխականները խիստ փոխկապակցված են, և ռեգրեսիոն հավասարման գործակիցների կայուն գնահատականները չեն կարող ստացվել մեթոդի միջոցով: նվազագույն քառակուսիները. Նշված հաստատունը (լամբդա) կավելացվի հարաբերակցության մատրիցայի անկյունագծին, որն այնուհետև նորից ստանդարտացվի (այնպես, որ բոլոր անկյունագծային տարրերը հավասար լինեն 1.0-ի): Այլ կերպ ասած, այս պարամետրը արհեստականորեն նվազեցնում է հարաբերակցության գործակիցները, որպեսզի հնարավոր լինի հաշվարկել ռեգրեսիայի պարամետրերի ավելի կայուն (դեռ կողմնակալ) գնահատականները: Մեր դեպքում այս պարամետրը չի օգտագործվում:

«Խմբաքանակի մշակում/տպագրություն» պարամետրն օգտագործվում է այն դեպքում, երբ անհրաժեշտ է անմիջապես հաշվետվության համար պատրաստել մի քանի աղյուսակներ՝ արտացոլելով արդյունքները և ընթացքը: ռեգրեսիոն վերլուծություն. Այս տարբերակը շատ օգտակար է, երբ յուրաքանչյուր քայլում անհրաժեշտ է տպել կամ վերլուծել փուլային ռեգրեսիոն վերլուծության արդյունքները:

«Stepwise» ներդիրում (Նկար 31) կարող եք պարամետրեր սահմանել փոփոխականների ներառման («F to enter») կամ բացառելու («F to remove») պայմանների համար ռեգրեսիայի հավասարումը կառուցելիս, ինչպես նաև թվի համար: հավասարման կառուցման քայլեր («Քայլերի թիվը»):

Նկար 31 – պատուհանի «Քայլ քայլ» ներդիր՝ մեթոդ ընտրելու և շինարարության պարամետրերը սահմանելու համար ռեգրեսիայի հավասարումը

F-ը F-փորձարկման արժեքի մեծությունն է:

Եթե ​​ներառմամբ քայլ առ քայլ վերլուծության ժամանակ անհրաժեշտ է, որ բոլոր կամ գրեթե բոլոր փոփոխականները մտնեն ռեգրեսիոն հավասարման մեջ, ապա «F to enter» արժեքը պետք է սահմանվի նվազագույնի (0.0001), իսկ «F»՝ հեռացնելու համար։ « արժեքը նույնպես պետք է սահմանվի նվազագույնի:

Եթե ​​բացառմամբ քայլ առ քայլ վերլուծության ժամանակ անհրաժեշտ է հեռացնել բոլոր փոփոխականները (մեկ-մեկ) ռեգրեսիայի հավասարումից, ապա անհրաժեշտ է սահմանել «F to enter» արժեքը շատ մեծ, օրինակ՝ 999, և սահմանեք «F to remove» արժեքը մոտ «F to enter»:

Պետք է հիշել, որ «F հեռացնել» պարամետրի արժեքը միշտ պետք է լինի «F մուտքագրելու» համար պակաս:

«Ցուցադրել արդյունքները» տարբերակը ունի երկու տարբերակ.

2) Յուրաքանչյուր քայլում – ցուցադրեք վերլուծության արդյունքները յուրաքանչյուր քայլում:

Հետադարձ վերլուծության մեթոդների ընտրության պատուհանում «OK» կոճակը սեղմելուց հետո կհայտնվի վերլուծության արդյունքների պատուհանը (Նկար 32):

Նկար 32 - Վերլուծության արդյունքների պատուհան

Գծապատկեր 33 - Ռեգրեսիոն վերլուծության համառոտ արդյունքներ

Ըստ վերլուծության արդյունքների՝ որոշման գործակիցը կազմում է . Սա նշանակում է, որ կառուցված ռեգրեսիան բացատրում է արժեքների տարածման 99,987%-ը միջինի նկատմամբ, այսինքն. բացատրում է փոփոխականների գրեթե ողջ փոփոխականությունը։

Մեծ նշանակությունև դրա նշանակության մակարդակը ցույց են տալիս, որ կառուցված ռեգրեսիան խիստ նշանակալի է:

Դիտել ամփոփ արդյունքներռեգրեսիա, սեղմեք «Ամփոփում. ռեգրեսիայի արդյունք» կոճակը: Էկրանը կհայտնվի աղյուսակվերլուծության արդյունքներով (Նկար 33):

Երրորդ սյունակում («B») ցուցադրվում են մոդելի անհայտ պարամետրերի գնահատականները, այսինքն. ռեգրեսիոն հավասարումների գործակիցները.

Այսպիսով, ցանկալի ռեգրեսիան ունի հետևյալ տեսքը.

Որակապես կառուցված ռեգրեսիոն հավասարումը կարող է մեկնաբանվել հետևյալ կերպ.

1) PDM համակարգի արժեքը մեծանում է փոփոխության կառավարման, փաստաթղթերի հոսքի և պլանավորման համար իրականացվող գործառույթների քանակի աճով, ինչպես նաև, եթե համակարգը ներառում է արտադրանքի մոդելի աջակցման գործառույթ.

2) PDM համակարգի արժեքը նվազում է, երբ ավելանում են կոնֆիգուրացիայի կառավարման գործառույթները և ավելանում որոնման հնարավորությունները:

Բազմակի գծային ռեգրեսիայի նպատակն է կառուցել շարունակական գուշակությունների մի շարքի և շարունակական կախված փոփոխականի միջև փոխհարաբերությունների գծային մոդել: Հետևյալ ռեգրեսիոն հավասարումը հաճախ օգտագործվում է.

Այստեղ եւ ես- ռեգրեսիայի գործակիցներ, բ 0- անվճար անդամ (եթե օգտագործվում է), ե- սխալ պարունակող տերմին - դրա վերաբերյալ արվում են տարբեր ենթադրություններ, որոնք, սակայն, ավելի հաճախ հանգում են զրոյական վեկտորային գորգով բաշխման նորմալությանը: ակնկալիքներ և հարաբերակցության մատրիցա։

Այս գծային մոդելը լավ նկարագրում է բազմաթիվ խնդիրներ տարբեր առարկայական ոլորտներում, օրինակ՝ տնտեսագիտություն, արդյունաբերություն, բժշկություն: Դա պայմանավորված է նրանով, որ որոշ խնդիրներ ունեն գծային բնույթ:

Բերենք մի պարզ օրինակ. Ենթադրենք, դուք պետք է գուշակեք ճանապարհի տեղադրման արժեքը՝ հիմնվելով դրա հայտնի պարամետրերի վրա: Միևնույն ժամանակ, մենք ունենք տվյալներ արդեն գծված ճանապարհների մասին՝ նշելով մայթի երկարությունը, խորությունը, աշխատանքային նյութի քանակը, աշխատողների թիվը և այլն։

Պարզ է, որ ճանապարհի արժեքը ի վերջո դառնալու է գումարին հավասարայս բոլոր գործոնների ծախսերն առանձին-առանձին: Ձեզ անհրաժեշտ կլինի որոշակի քանակություն, օրինակ՝ մանրացված քար՝ մեկ տոննայի համար հայտնի արժեքով, և որոշակի քանակությամբ ասֆալտ՝ նույնպես հայտնի արժեքով։

Հնարավոր է, որ տեղադրման համար անհրաժեշտ լինի հատել անտառները, ինչը նույնպես կհանգեցնի լրացուցիչ ծախսերի: Այս ամենը միասին կտան ճանապարհի ստեղծման ծախսերը։

Այս դեպքում մոդելը կներառի անվճար անդամ, ով, օրինակ, պատասխանատու կլինի կազմակերպչական ծախսերի համար (որոնք մոտավորապես նույնն են տվյալ մակարդակի բոլոր շինարարական և տեղադրման աշխատանքների համար) կամ հարկային նվազեցումների համար:

Սխալը կներառի գործոններ, որոնք մենք հաշվի չենք առել մոդելը կառուցելիս (օրինակ՝ եղանակը շինարարության ժամանակ. դա ընդհանրապես անհնար է հաշվի առնել):

Օրինակ՝ բազմակի ռեգրեսիայի վերլուծություն

Այս օրինակի համար կվերլուծվեն աղքատության մակարդակի մի քանի հնարավոր հարաբերակցություններ և այն աստիճանը, որը կանխատեսում է աղքատության շեմից ցածր ընտանիքների տոկոսը: Հետևաբար, աղքատության շեմից ցածր ընտանիքների տոկոսը բնութագրող փոփոխականը մենք կհամարենք կախված փոփոխական, իսկ մնացած փոփոխականները՝ շարունակական կանխատեսողներ:

Ռեգրեսիայի գործակիցներ

Պարզելու համար, թե անկախ փոփոխականներից որն է ավելի շատ նպաստում աղքատության մակարդակի կանխատեսմանը, մենք ուսումնասիրում ենք ստանդարտացված գործակիցներ(կամ բետա) ռեգրեսիա:

Բրինձ. 1. Ռեգրեսիոն գործակիցների պարամետրերի գնահատումներ.

Բետա գործակիցներն այն գործակիցներն են, որոնք դուք կստանաք, եթե բոլոր փոփոխականները նորմալացնեիք միջինը 0-ի և ստանդարտ շեղումը 1-ի: Հետևաբար, այս բետա գործակիցների մեծությունը թույլ է տալիս համեմատել յուրաքանչյուր անկախ փոփոխականի հարաբերական ներդրումը կախված փոփոխականի հետ: Ինչպես երևում է վերևում ներկայացված աղյուսակից, 1960 թվականից սկսած բնակչության փոփոխության փոփոխականները (POP_ CHING), գյուղական վայրերում ապրող բնակչության տոկոսը (PT_RURAL) և գյուղատնտեսության մեջ զբաղված մարդկանց թիվը (N_Empld) աղքատության ամենակարևոր կանխատեսողներն են։ մակարդակները, քանի որ միայն դրանք են վիճակագրորեն նշանակալի (դրանց 95%-ը վստահության միջակայքչի ներառում 0): Բնակչության փոփոխության ռեգրեսիոն գործակիցը 1960 թվականից սկսած (Pop_Chng) բացասական է, հետևաբար, որքան քիչ է ավելանում բնակչությունը, ավելի շատ ընտանիքներովքեր ապրում են համապատասխան մարզում աղքատության շեմից ցածր: Գյուղում ապրող բնակչության (%) ռեգրեսիայի գործակիցը (Pt_Rural) դրական է, այսինքն՝ որքան մեծ է տոկոսը։ գյուղի բնակիչներ, այնքան բարձր է աղքատության մակարդակը։

Կանխատեսող էֆեկտների նշանակությունը

Դիտարկենք աղյուսակը՝ նշանակության չափանիշներով։

Բրինձ. 2. Միաժամանակյա արդյունքներ յուրաքանչյուր տվյալ փոփոխականի համար:

Ինչպես ցույց է տալիս այս Աղյուսակը, վիճակագրորեն նշանակալի են միայն 2 փոփոխականների ազդեցությունը՝ բնակչության փոփոխությունը 1960 թվականից սկսած (Pop_Chng) և գյուղում ապրող բնակչության տոկոսը (Pt_Rural), p.< .05.

Մնացորդային վերլուծություն. Ռեգրեսիայի հավասարումը տեղադրելուց հետո գրեթե միշտ պետք է ստուգեք կանխատեսված արժեքները և մնացորդները: Օրինակ, խոշոր ելքերը կարող են մեծապես խեղաթյուրել արդյունքները և հանգեցնել սխալ եզրակացությունների:

Տող առ տող արտանետումների գրաֆիկ

Սովորաբար անհրաժեշտ է ստուգել բնօրինակը կամ ստանդարտացված մնացորդները մեծ արտանետումների համար:

Բրինձ. 3. Դիտարկման համարներ և մնացորդներ:

Այս գրաֆիկի ուղղահայաց առանցքի մասշտաբը գծագրվում է ըստ սիգմայի արժեքի, այսինքն. ստանդարտ շեղումմնացորդներ Եթե ​​մեկ կամ մի քանի դիտարկումներ չեն ընկնում ±3 անգամ սիգմա միջակայքում, ապա գուցե արժե վերացնել այդ դիտարկումները (դա հեշտությամբ կարելի է անել դիտարկման ընտրության պայմանների միջոցով) և նորից իրականացնել վերլուծությունը՝ համոզվելու համար, որ արդյունքները չեն ազդի դրանց վրա: արտաքուստ.

Mahalanobis հեռավորությունները

Վիճակագրության դասագրքերից շատերը շատ ժամանակ են ծախսում կախյալ փոփոխականի համեմատությամբ արտանետումների և մնացորդների վրա: Այնուամենայնիվ, կանխագուշակող գործոնների դերը հաճախ մնում է չբացահայտված: Կանխատեսող փոփոխականի կողմում կա փոփոխականների ցանկ, որոնք տարբեր կշիռներով (ռեգեսիոն գործակիցներով) մասնակցում են կախյալ փոփոխականի կանխատեսմանը: Դուք կարող եք պատկերացնել անկախ փոփոխականները որպես բազմաչափ տարածություն, որտեղ ցանկացած դիտարկում կարող է գծագրվել: Օրինակ, եթե ունեիք երկու անկախ փոփոխականներ՝ հավասար ռեգրեսիայի գործակիցներով, կարող եք գծել երկու փոփոխականների ցրված գծապատկերը և յուրաքանչյուր դիտարկում տեղադրել այդ սյուժեի վրա: Այնուհետև դուք կարող եք նշել միջին արժեքը այս գրաֆիկի վրա և հաշվարկել հեռավորությունները յուրաքանչյուր դիտումից մինչև այս միջինը (այսպես կոչված՝ ծանրության կենտրոնը) երկչափ տարածության մեջ: Սա Mahalanobis հեռավորությունը հաշվարկելու հիմնական գաղափարն է: Այժմ դիտարկենք բնակչության փոփոխության փոփոխականի հիստոգրամը 1960 թվականից սկսած։

Բրինձ. 4. Mahalanobis հեռավորության բաշխման հիստոգրամ:

Գրաֆիկից հետևում է, որ Մահալանոբիսի հեռավորությունների վրա կա մեկ արտաքուստ:

Բրինձ. 5. Դիտարկված, կանխատեսված և մնացորդային արժեքներ:

Ուշադրություն դարձրեք, որ Շելբի շրջանը (առաջին շարքում) առանձնանում է մնացած շրջաններից: Եթե ​​նայեք չմշակված տվյալներին, ապա կգտնեք, որ Շելբի շրջանն իրականում ունի գյուղատնտեսության մեջ զբաղվածների ամենամեծ թիվը (փոփոխական N_Empld): Կարող է խելամիտ լինել արտահայտել այն որպես տոկոս, այլ ոչ թե բացարձակ թիվ, որի դեպքում Շելբի շրջանի Մահալանոբիս հեռավորությունը, հավանաբար, այնքան էլ մեծ չի լինի՝ համեմատած այլ շրջանների հետ: Ակնհայտ է, որ Շելբի շրջանն արտառոց է:

Հեռացված մնացորդները

Մեկ այլ շատ կարևոր վիճակագրություն, որն օգնում է գնահատել արտանետումների խնդրի սրությունը, հեռացված մնացորդներն են: Սրանք ստանդարտացված մնացորդներն են համապատասխան դիտարկումների համար, որոնք ստացվում են, երբ այդ դիտարկումը հանվում է վերլուծությունից: Հիշեք, որ բազմակի ռեգրեսիայի պրոցեդուրան համապատասխանում է ռեգրեսիայի մակերեսին՝ ցույց տալու կախված փոփոխականի և կանխատեսող փոփոխականի միջև կապը: Եթե ​​դիտարկումներից մեկն արտաքուստ է (ինչպես Շելբի շրջանը), ապա կա միտում, որ ռեգրեսիոն մակերեսը «քաշվի» դեպի այդ ծայրամասը: Արդյունքում, եթե հանվի համապատասխան դիտարկումը, կստացվի այլ մակերես (և Բետա գործակիցներ): Հետևաբար, եթե հեռացված մնացորդները խիստ տարբերվում են ստանդարտացված մնացորդներից, ապա դուք հիմք կունենաք ենթադրելու, որ ռեգրեսիոն վերլուծությունը լրջորեն կողմնակալ է համապատասխան դիտարկմամբ: Այս օրինակում Շելբի շրջանի համար հեռացված մնացորդները ցույց են տալիս, որ դա արտաքուստ է, ինչը լրջորեն շեղում է վերլուծությունը: Ցրված գծապատկերը հստակ ցույց է տալիս արտաքուստ:

Բրինձ. 6. Կենսապահովման մակարդակից ցածր ապրող ընտանիքների տոկոսը նշող փոփոխականի սկզբնական մնացորդներ և ջնջված մնացորդներ:

Նրանցից շատերը քիչ թե շատ հստակ մեկնաբանություններ ունեն, այնուամենայնիվ, անդրադառնանք հավանականության նորմալ գրաֆիկներին։

Ինչպես արդեն նշվեց, բազմակի ռեգրեսիան ենթադրում է, որ կա գծային հարաբերություն հավասարման փոփոխականների միջև և որ մնացորդները սովորաբար բաշխված են: Եթե ​​այս ենթադրությունները խախտվեն, եզրակացությունը կարող է լինել ոչ ճշգրիտ: Մնացորդների նորմալ հավանականության գծապատկերը ձեզ ցույց կտա՝ կա՞ն այս ենթադրությունների լուրջ խախտումներ, թե՞ ոչ:

Բրինձ. 7. Նորմալ հավանականության գրաֆիկ; Սկզբնական մնացորդներ.

Այս գրաֆիկը կառուցվել է հետևյալ կերպ. Նախ, ստանդարտացված մնացորդները դասակարգվում են ըստ հերթականության: Այս շարքերից z- միավորները (այսինքն՝ նորմալ բաշխման ստանդարտ արժեքները) կարող են հաշվարկվել՝ հիմնվելով այն ենթադրության վրա, որ տվյալները ենթարկվում են. նորմալ բաշխում. Այս z արժեքները գծագրված են գրաֆիկի y առանցքի վրա:

Եթե ​​դիտարկված մնացորդները (գծված x առանցքի վրա) նորմալ բաշխված լինեին, ապա բոլոր արժեքները կիջնեն գծապատկերի ուղիղ գծի վրա: Մեր գրաֆիկում բոլոր կետերը շատ մոտ են կորին: Եթե ​​մնացորդները նորմալ բաշխված չեն, ապա դրանք շեղվում են այս գծից։ Այս գծապատկերում նկատելի են դառնում նաև արտաքուստները:

Եթե ​​կա համապատասխանության կորուստ, և տվյալները կարծես թե ձևավորում են հստակ կոր (օրինակ՝ S ձև) գծի վերաբերյալ, ապա կախված փոփոխականը կարող է ինչ-որ կերպ փոխակերպվել (օրինակ՝ լոգարիթմական փոխակերպումը՝ «փոքրացնելու» պոչը։ բաշխումը և այլն): Այս մեթոդի քննարկումը դուրս է այս օրինակի շրջանակներից (Neter, Wasserman, and Kutner, 1985, էջ 134–141, ներկայացնում են փոխակերպումների քննարկում, որոնք վերացնում են տվյալների ոչ նորմալությունն ու ոչ գծայինությունը): Այնուամենայնիվ, հետազոտողները շատ հաճախ ուղղակիորեն վերլուծություններ են կատարում՝ առանց հիմքում ընկած ենթադրությունները ստուգելու, ինչը հանգեցնում է սխալ եզրակացությունների:

Ենթադրենք, որ մշակողը գնահատում է փոքր գրասենյակային շենքերի խմբի արժեքը ավանդական բիզնես թաղամասում:

Մշակողը կարող է օգտագործել բազմակի ռեգրեսիոն վերլուծություն՝ գրասենյակային շենքի գինը գնահատելու համար այս տարածքըհիմնվելով հետևյալ փոփոխականների վրա.

y-ը գրասենյակային շենքի գնահատված գինն է.

x 1 - ընդհանուր մակերեսը քառակուսի մետրով;

x 2 - գրասենյակների քանակը;

x 3 - մուտքագրումների քանակը (0.5 մուտքագրում նշանակում է մուտքագրում միայն նամակագրության առաքման համար);

x 4 - շենքի շահագործման ժամանակը տարիներով:

Այս օրինակը ենթադրում է, որ կա գծային կախվածությունյուրաքանչյուր անկախ փոփոխականի (x 1, x 2, x 3 և x 4) և կախյալ փոփոխականի (y) միջև, այսինքն՝ տվյալ տարածքում գրասենյակային շենքի գինը: Աղբյուրի տվյալները ներկայացված են նկարում:

Խնդրի լուծման կարգավորումները ներկայացված են պատուհանի նկարում » Հետընթաց«.Հաշվարկների արդյունքները դրված են առանձին թերթիկի վրա՝ երեք աղյուսակներում

Արդյունքում ստացանք հետևյալը մաթեմատիկական մոդել:

y = 52318 + 27,64 * x1 + 12530 * x2 + 2553 * x3 - 234,24 * x4:

Այժմ մշակողը կարող է որոշել նույն տարածքում գտնվող գրասենյակային շենքի գնահատված արժեքը: Եթե ​​այս շենքն ունի 2500 քառակուսի մետր տարածք, երեք գրասենյակ, երկու մուտք և 25 տարի սպասարկման ժամկետ, կարող եք գնահատել դրա արժեքը հետևյալ բանաձևով.

y = 27,64*2500 + 12530*3 + 2553*2 - 234,24*25 + 52318 = 158,261 ք.ու.

Ռեգրեսիոն վերլուծության մեջ ամենակարևոր արդյունքներն են.

  • փոփոխականների գործակիցները և Y-հատումը, որոնք մոդելի պահանջվող պարամետրերն են.
  • բազմակի R, որը բնութագրում է մոդելի ճշգրտությունը առկա աղբյուրի տվյալների համար.
  • Ֆիշերի F թեստ(դիտարկված օրինակում այն ​​զգալիորեն գերազանցում է կրիտիկական արժեք, հավասար է 4,06);
  • t-վիճակագրություն- արժեքներ, որոնք բնութագրում են մոդելի առանձին գործակիցների նշանակության աստիճանը:

Հատուկ ուշադրության է արժանի t-վիճակագրությունը։ Շատ հաճախ ռեգրեսիոն մոդել կառուցելիս հայտնի չէ, թե արդյոք x այս կամ այն ​​գործոնը ազդում է y-ի վրա։ Մոդելի մեջ գործոնների ընդգրկումը, որոնք չեն ազդում ելքային արժեքի վրա, վատացնում են մոդելի որակը: t-վիճակագրության հաշվարկն օգնում է բացահայտել նման գործոնները: Մոտավոր գնահատական ​​կարելի է անել հետևյալ կերպ. եթե n>>k-ի համար t-վիճակագրության արժեքը բացարձակ արժեքերեքից զգալիորեն ավելի, համապատասխան գործակիցը պետք է համարվի նշանակալի, և գործակիցը պետք է ներառվի մոդելում, այլապես բացառվի մոդելից: Այսպիսով, մենք կարող ենք առաջարկել ռեգրեսիոն մոդելի կառուցման տեխնոլոգիա, որը բաղկացած է երկու փուլից.

1) գործընթաց փաթեթով» Հետընթաց«բոլոր առկա տվյալները, վերլուծել t-վիճակագրական արժեքները.

2) սկզբնաղբյուրի տվյալների աղյուսակից հանել այն գործոններով սյունակները, որոնց համար գործակիցները աննշան են և մշակել դրանք փաթեթով»: Հետընթաց«Նոր սեղան.

Բարի օր, սիրելի ընթերցողներ:
Նախորդ հոդվածներում, վրա գործնական օրինակներ, ցույց տվեցի դասակարգման խնդիրների լուծման ուղիները (վարկային միավորների խնդիր) եւ տեքստային տեղեկատվության վերլուծության հիմունքները (անձնագրային խնդիր)։ Այսօր ես կցանկանայի անդրադառնալ մեկ այլ դասի խնդիրների՝ ռեգրեսիայի վերականգնմանը։ Այս դասի խնդիրները սովորաբար օգտագործվում են կանխատեսումների ժամանակ:
Կանխատեսման խնդրի լուծման օրինակի համար ես վերցրեցի Էներգաարդյունավետության տվյալների հավաքածուն ամենամեծ UCI պահոցից: Ավանդաբար մենք կօգտագործենք Python-ը պանդաների և scikit-learn վերլուծական փաթեթների հետ որպես գործիքներ:

Տվյալների հավաքածուի նկարագրությունը և խնդրի հայտարարությունը

Տրված է տվյալների հավաքածու, որը նկարագրում է սենյակի հետևյալ հատկանիշները.

Այն պարունակում է սենյակի բնութագրերը, որոնց հիման վրա կիրականացվի վերլուծությունը, և բեռի արժեքները, որոնք պետք է կանխատեսվեն:

Տվյալների նախնական վերլուծություն

Նախ, եկեք ներբեռնենք մեր տվյալները և նայենք դրան.

Pandas Import Read_csv-ից, DataFrame-ից Sklearn.neighbors-ից Ներմուծեք Kneighborsressor-ը Sklearn-ից.Linear_MPORT LINEARREGRESSION, LOGISTICREGREGRESSION FROM SKLEARN.SVM IMM IM Port SVR-ից Sklearn.endomfornkleartric2-ից Sklearn. .cross_validation Ներմուծում Train_Test_SPLIT DATASET = Read_CSV (" Energy Icience /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Հիմա եկեք տեսնենք, թե արդյոք որևէ ատրիբուտ կապված է միմյանց հետ: Դա կարելի է անել բոլոր սյունակների համար հարաբերակցության գործակիցների հաշվարկով: Ինչպես դա անել, նկարագրված է նախորդ հոդվածում.

Dataset.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0.000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0.000000e+00 0.889431 0.895785
X6 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 1.000000 0.000000e+00 0.000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0.000000e+00 -1.079129e-16 0.000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Ինչպես տեսնում եք մեր մատրիցից, հետևյալ սյունակները փոխկապակցված են միմյանց հետ (հարաբերակցության գործակիցի արժեքը 95%-ից մեծ է).
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
Այժմ եկեք ընտրենք մեր զույգերի որ սյունակները կարող ենք հեռացնել մեր նմուշից: Դա անելու համար յուրաքանչյուր զույգում մենք ընտրում ենք այն սյունակները, որոնք ավելի մեծ ազդեցություն ունեն կանխատեսված արժեքների վրա Y1Եվ Y2իսկ թողեք դրանք, իսկ մնացածը ջնջեք:
Ինչպես տեսնում եք, հարաբերակցության գործակիցներով մատրիցները միացված են y1 ,y2 ավելի մեծ նշանակություն ունեն X2 Եվ X5 քան X1 և X4, այնպես որ մենք կարող ենք հեռացնել վերջին սյունակները:

Dataset = dataset.drop(["X1","X4"], axis=1) dataset.head()
Բացի այդ, դուք կարող եք նկատել, որ դաշտերը Y1 Եվ Y2 շատ սերտորեն փոխկապակցված են միմյանց հետ. Բայց քանի որ մենք պետք է գուշակենք երկու արժեքները, մենք թողնում ենք դրանք «ինչպես կան»:

Մոդելի ընտրություն

Եկեք առանձնացնենք կանխատեսված արժեքները մեր նմուշից.

Trg = տվյալների բազա[["Y1","Y2"]] trn = dataset.drop(["Y1","Y2"], axis=1)
Տվյալները մշակելուց հետո կարող եք անցնել մոդելի կառուցմանը: Մոդելը կառուցելու համար մենք կօգտագործենք հետևյալ մեթոդները.

Այս մեթոդների մասին տեսությունը կարելի է կարդալ Կ.Վ.Վորոնցովի մեքենայական ուսուցման վերաբերյալ դասախոսությունների ընթացքում:
Մենք գնահատում ենք կատարելու՝ օգտագործելով որոշման գործակիցը ( R-քառակուսի) Այս գործակիցը որոշվում է հետևյալ կերպ.

Որտեղ է կախված մեծության պայմանական շեղումը ժամըգործոնով X.
Գործակիցը արժեք է վերցնում ինտերվալի վրա և որքան մոտ է այն 1-ին, այնքան ուժեղ է կախվածությունը:
Դե, հիմա կարող եք ուղղակիորեն գնալ մոդելի կառուցման և մոդելի ընտրության: Եկեք մեր բոլոր մոդելները դնենք մեկ ցուցակում՝ հետագա վերլուծության հեշտության համար.

Մոդելներ =
Այսպիսով, մոդելները պատրաստ են, այժմ մենք մեր նախնական տվյալները կբաժանենք 2 ենթանմուշների. փորձարկումԵվ կրթական. Նրանք, ովքեր կարդացել են իմ նախորդ հոդվածները, գիտեն, որ դա կարելի է անել՝ օգտագործելով train_test_split() ֆունկցիան scikit-learn փաթեթից.

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0.4)
Այժմ, քանի որ մենք պետք է կանխատեսենք 2 պարամետր, մենք պետք է կառուցենք ռեգրեսիա դրանցից յուրաքանչյուրի համար: Բացի այդ, հետագա վերլուծության համար դուք կարող եք գրանցել ստացված արդյունքները ժամանակավոր DataFrame. Դուք կարող եք դա անել այսպես.

#ստեղծել ժամանակավոր կառույցներ TestModels = DataFrame() tmp = () #յուրաքանչյուր մոդելի համար մոդելների մոդելների ցանկից. #ստացեք մոդելի անունը m = str(մոդել) tmp["Model"] = m[:m.index( "(")] #i-ի համար սահմանված արդյունքի յուրաքանչյուր սյունակի համար xrange-ում (Ytrn.shape): #train the model model.fit(Xtrn, Ytrn[:,i]) #հաշվիր որոշման գործակիցը tmp["R2_Y" %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #գրանցել տվյալները և վերջնական DataFrame TestModels = TestModels.append() #կատարել ինդեքս ըստ մոդելի անունը TestModels.set_index ("Model", inplace= True)
Ինչպես տեսնում եք վերևի կոդից, r2_score() ֆունկցիան օգտագործվում է գործակիցը հաշվարկելու համար։
Այսպիսով, վերլուծության տվյալները ստացվել են։ Եկեք հիմա գծենք գրաֆիկները և տեսնենք, թե որ մոդելն է ցույց տվել լավագույն արդյունքը.

Fig, axes = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Արդյունքների և եզրակացությունների վերլուծություն

Վերոնշյալ գրաֆիկներից մենք կարող ենք եզրակացնել, որ մեթոդն ավելի լավ է հաղթահարել առաջադրանքը, քան մյուսները RandomForest(պատահական անտառ): Նրա որոշման գործակիցներն ավելի բարձր են, քան մյուսները երկու փոփոխականների համար.
Հետագա վերլուծության համար եկեք վերապատրաստենք մեր մոդելը.

Model = models model.fit (Xtrn, Ytrn)
Ավելի մանրամասն ուսումնասիրությունից հետո կարող է հարց առաջանալ, թե ինչու է կախված նմուշը բաժանվել նախորդ անգամ: Յտրնփոփոխականներին (ըստ սյունակների), բայց հիմա մենք դա չենք անում:
Բանն այն է, որ որոշ մեթոդներ, ինչպես, օրինակ RandomForestRegressor, կարող է գործ ունենալ բազմաթիվ կանխատեսող փոփոխականների հետ, մինչդեռ մյուսները (օրինակ. SVR) կարող է աշխատել միայն մեկ փոփոխականով: Հետևաբար, նախորդ թրեյնինգի ժամանակ մենք օգտագործեցինք սյունակների բաժանումը որոշ մոդելների կառուցման գործընթացում սխալներից խուսափելու համար:
Մոդելի ընտրությունը, իհարկե, լավ է, բայց լավ կլինի նաև ունենալ տեղեկատվություն այն մասին, թե ինչպես է յուրաքանչյուր գործոն ազդում կանխատեսված արժեքի վրա: Այդ նպատակով մոդելն ունի սեփականություն հատկանիշ_կարևորություններ_.
Օգտագործելով այն, դուք կարող եք տեսնել յուրաքանչյուր գործոնի կշիռը վերջնական մոդելներում.

Model.feature_importances_
զանգված ([ 0.40717901, 0.11394948, 0.34984766, 0.00751686, 0.09158358,
0.02992342])

Մեր դեպքում կարելի է տեսնել, որ ընդհանուր բարձրությունը և տարածքը ամենաշատն են ազդում ջեռուցման և հովացման բեռի վրա: Նրանց ընդհանուր ներդրումը կանխատեսման մոդելում կազմում է մոտ 72%:
Հարկ է նաև նշել, որ օգտագործելով վերը նշված գծապատկերը, դուք կարող եք տեսնել յուրաքանչյուր գործոնի ազդեցությունը առանձին ջեռուցման և առանձին հովացման վրա, բայց քանի որ այս գործոնները շատ սերտորեն փոխկապակցված են միմյանց հետ (), մենք ընդհանուր եզրակացություն արեցինք երկուսի վերաբերյալ. որը գրված էր վերևում.

Եզրակացություն

Հոդվածում ես փորձեցի ցույց տալ ռեգրեսիոն տվյալների վերլուծության հիմնական փուլերը՝ օգտագործելով Python և վերլուծական փաթեթներ պանդաներԵվ scikit-սովորել.
Հարկ է նշել, որ տվյալների հավաքածուն հատուկ ընտրվել է այնպես, որ հնարավորինս ֆորմալացված լինի, և մուտքային տվյալների առաջնային մշակումը լինի նվազագույն: Իմ կարծիքով հոդվածը օգտակար կլինի նրանց համար, ովքեր նոր են սկսում իրենց ճանապարհորդությունը տվյալների վերլուծության մեջ, ինչպես նաև նրանց համար, ովքեր լավ տեսական հիմքեր ունեն, բայց աշխատանքի համար գործիքներ են ընտրում։

Հարցեր.

4. Գծային բազմակի ռեգրեսիոն մոդելի պարամետրերի գնահատում:

5. Բազմակի գծային ռեգրեսիայի որակի գնահատում:

6. Վերլուծություն և կանխատեսում` հիմնված բազմագործոն մոդելների վրա:

Բազմակի ռեգրեսիան զույգ ռեգրեսիայի ընդհանրացում է: Այն օգտագործվում է բացատրված (կախյալ) Y փոփոխականի և X 1, X 2,..., X k բացատրական (անկախ) փոփոխականների միջև կապը նկարագրելու համար։ Բազմակի ռեգրեսիան կարող է լինել գծային կամ ոչ գծային, սակայն գծային բազմակի ռեգրեսիան առավել տարածված է տնտեսագիտության մեջ:

Տեսական գծային բազմակի ռեգրեսիայի մոդելն ունի հետևյալ ձևը.

Մենք նշում ենք համապատասխան նմուշի ռեգրեսիան.

Ինչպես զույգ ռեգրեսիայում, ε պատահական տերմինը պետք է բավարարի ռեգրեսիոն վերլուծության հիմնական ենթադրությունները: Այնուհետև, օգտագործելով OLS-ը, ստացվում են տեսական ռեգրեսիայի պարամետրերի լավագույն անաչառ և արդյունավետ գնահատականները: Բացի այդ, X 1, X 2,…, X k փոփոխականները պետք է իրար հետ չկապակցված լինեն (գծային անկախ): Նվազագույն քառակուսիների հիման վրա ստացված ռեգրեսիայի գործակիցների (2) գնահատման բանաձևերը գրելու համար ներկայացնում ենք հետևյալ նշումը.

Այնուհետև մենք կարող ենք գրել վեկտոր-մատրիցային ձևով տեսական մոդել:

և նմուշի ռեգրեսիա

OLS-ը հանգեցնում է նմուշի ռեգրեսիայի գործակիցների վեկտորի գնահատման հետևյալ բանաձևին.

(3)

Գնահատել բազմակի գծային ռեգրեսիայի գործակիցները երկու անկախ փոփոխականներով , մենք կարող ենք լուծել հավասարումների համակարգը.

(4)

Ինչպես զուգակցված գծային ռեգրեսիայում, ստանդարտ ռեգրեսիայի սխալ S-ը հաշվարկվում է բազմակի ռեգրեսիայի համար.

(5)

և ռեգրեսիայի գործակիցների ստանդարտ սխալները.

(6)

Գործակիցների նշանակությունը ստուգվում է t-test-ի միջոցով:

Ուսանողի ընդլայնում ունենալով ազատության աստիճանների քանակով v= n-k-1.

Ռեգրեսիայի որակը գնահատելու համար օգտագործվում է որոշման գործակիցը (ինդեքսը).

, (8)

որքան մոտ է 1-ին, այնքան բարձր է ռեգրեսիայի որակը:

Որոշման գործակցի նշանակությունը ստուգելու համար օգտագործվում է Ֆիշերի թեստը կամ F-վիճակագրությունը։



(9)

Հետ v 1=k, v 2=n-k-1 աստիճան ազատության.

Բազմաչափ ռեգրեսիայի դեպքում լրացուցիչ բացատրական փոփոխականների ավելացումը մեծացնում է որոշման գործակիցը: Այս աճը փոխհատուցելու համար ներդրվում է որոշման ճշգրտված (կամ նորմալացված) գործակից.

(10)

Եթե ​​նոր փոփոխական ավելացնելիս բացատրված ռեգրեսիայի համամասնության աճը փոքր է, այն կարող է նվազել: Սա նշանակում է, որ նոր փոփոխական ավելացնելն անտեղի է։

Օրինակ 4:

Եկեք դիտարկենք ձեռնարկության շահույթի կախվածությունը նոր սարքավորումների և տեխնոլոգիաների ծախսերից և աշխատողների հմտությունների բարելավման ծախսերից: Հավաքագրվել են 6 նմանատիպ ձեռնարկությունների վիճակագրական տվյալներ։ Տվյալները միլիոնավոր դոլարներով: միավորներ տրված են աղյուսակ 1-ում:

Աղյուսակ 1

Կառուցեք երկու գործոն գծային ռեգրեսիա և գնահատել դրա նշանակությունը։ Ներկայացնենք հետևյալ նշումը.

Մենք փոխադրում ենք X մատրիցը.

Այս մատրիցայի շրջումը.

Այսպիսով, շահույթի կախվածությունը նոր սարքավորումների և մեքենաների ծախսերից և աշխատողների հմտությունների բարելավման ծախսերից կարելի է նկարագրել հետևյալ ռեգրեսիայով.

Օգտագործելով բանաձևը (5), որտեղ k=2, մենք հաշվարկում ենք ռեգրեսիայի ստանդարտ սխալը S=0.636:

Մենք հաշվարկում ենք ռեգրեսիայի գործակիցների ստանդարտ սխալները՝ օգտագործելով բանաձևը (6).

Նմանապես:

Ստուգենք ռեգրեսիոն a 1, a 2 գործակիցների նշանակությունը։ Եկեք հաշվարկենք t calc.

Ընտրենք նշանակության մակարդակը, ազատության աստիճանների թիվը

նշանակում է գործակից ա 1էական

Գնահատենք a 2 գործակցի նշանակությունը.

Գործակից ա 2աննշան

Հաշվարկենք որոշման գործակիցը (7) բանաձևով։ Ձեռնարկության շահույթը 96%-ով կախված է նոր սարքավորումների և տեխնոլոգիաների ծախսերից, իսկ առաջադեմ ուսուցումից՝ 4%-ով՝ այլ և պատահական գործոններից: Ստուգենք որոշման գործակցի նշանակությունը։ Եկեք հաշվարկենք F-ը.

Դա. որոշման գործակիցը նշանակալի է, ռեգրեսիայի հավասարումը նշանակալի է։

Բազմփոփոխական ռեգրեսիայի վրա հիմնված վերլուծության մեջ մեծ նշանակություն ունի y կախված ցուցիչի վրա գործոնների ազդեցության համեմատությունը։ Այս նպատակով ռեգրեսիայի գործակիցները չեն օգտագործվում չափման միավորների տարբերությունների պատճառով և տարբեր աստիճաններտատանումներ. Այս թերություններից ազատ առաձգականության գործակիցները.

Էլաստիկությունը ցույց է տալիս, թե միջինում քանի տոկոսով է փոխվում կախյալ ցուցանիշը y, երբ փոփոխականը փոխվում է 1%-ով, պայմանով, որ մյուս փոփոխականների արժեքները մնան անփոփոխ: Որքան մեծ է, այնքան մեծ է համապատասխան փոփոխականի ազդեցությունը: Ինչպես զույգ ռեգրեսիայում, բազմակի ռեգրեսիան տարբերակում է կետի կանխատեսումը և միջակայքի կանխատեսումը: Կետերի կանխատեսումը (թիվը) ստացվում է անկախ փոփոխականների կանխատեսված արժեքները բազմակի ռեգրեսիայի հավասարման մեջ փոխարինելով: Նշենք հետևյալով.

(12)

անկախ փոփոխականների կանխատեսված արժեքների վեկտորը, այնուհետև կետի կանխատեսումը

Կանխատեսման ստանդարտ սխալը բազմակի ռեգրեսիայի դեպքում որոշվում է հետևյալ կերպ.

(15)

Ընտրենք α նշանակության մակարդակը ըստ Ուսանողների բաշխման աղյուսակի: α նշանակության մակարդակի և ազատության աստիճանների քանակի համար ν = n-k-1 մենք գտնում ենք t cr. Այնուհետև y p 1- α հավանականությամբ իրական արժեքը ընկնում է միջակայքում.


Թեմա 5:

Ժամանակային շարքեր.

Հարցեր.

4. Ժամանակային շարքերի հիմնական հասկացությունները.

5. Զարգացման հիմնական միտումը միտում է:

6. Ավելացման մոդելի կառուցում:

Ժամանակային շարքերներկայացնում է ցանկացած ցուցիչի արժեքների մի շարք մի քանի անընդմեջ պահերի կամ ժամանակաշրջանների համար:

Ժամանակի պահը (կամ ժամանակահատվածը) նշանակվում է t-ով, իսկ ցուցիչի արժեքը ժամանակի պահին նշվում է y(t)-ով և կոչվում է. շարքի մակարդակը .

Ժամանակային շարքի յուրաքանչյուր մակարդակ ձևավորվում է մեծ թվով գործոնների ազդեցության տակ, որոնք կարելի է բաժանել 3 խմբի.

Երկարատև, անընդհատ գործող գործոններ, որոնք որոշիչ ազդեցություն ունեն ուսումնասիրվող երևույթի վրա և կազմում են շարքի հիմնական միտումը՝ T(t) միտումը։

Կարճաժամկետ պարբերական գործոններ, որոնք ձեւավորում են S(t) շարքի սեզոնային տատանումները:

Պատահական գործոններ, որոնք ձևավորում են պատահական փոփոխություններ ε(t) շարքի մակարդակներում։

Հավելյալ մոդելժամանակային շարքը մոդել է, որտեղ շարքի յուրաքանչյուր մակարդակ ներկայացված է միտումի, սեզոնային և պատահական բաղադրիչների գումարով.

Բազմապատկիչ մոդելմոդել է, որում շարքի յուրաքանչյուր մակարդակ թվարկված բաղադրիչների արտադրյալն է՝

Մոդելներից մեկի ընտրությունը հիմնված է սեզոնային տատանումների կառուցվածքի վերլուծության վրա։ Եթե ​​տատանումների ամպլիտուդը մոտավորապես հաստատուն է, ապա կառուցվում է հավելումային մոդել։ Եթե ​​ամպլիտուդան մեծանում է, ապա բազմապատկման մոդելը:

Էկոնոմետրիկ վերլուծության հիմնական խնդիրն է բացահայտել թվարկված բաղադրիչներից յուրաքանչյուրը:

Զարգացման հիմնական միտումը (միտումը)կոչվում է ժամանակի ընթացքում մի շարքի մակարդակների սահուն և կայուն փոփոխություն՝ զերծ պատահական և սեզոնային տատանումներից։

Զարգացման հիմնական միտումները բացահայտելու խնդիրը կոչվում է ժամանակային շարքերի հավասարեցում .

Ժամանակային շարքերի հավասարեցման մեթոդները ներառում են.

1) ընդմիջումների մեծացման եղանակը.

2) մեթոդ շարժվող միջին,

3) վերլուծական հավասարեցում.

1) Ժամանակահատվածները, որոնց վերաբերում են սերիայի մակարդակները, ընդլայնվում են: Այնուհետև շարքի մակարդակներն ամփոփվում են ընդլայնված ընդմիջումներով: Մակարդակների տատանումները պայմանավորված են պատահական պատճառներ, չեղյալ համարել միմյանց. Ընդհանուր միտումն ավելի հստակ կհայտնվի։

2) Շարքի առաջին մակարդակների թիվը որոշելու համար հաշվարկվում է միջին արժեքը. Այնուհետև միջինը հաշվարկվում է շարքի նույնքան մակարդակներից՝ սկսած երկրորդ մակարդակից և այլն։ միջին արժեքը սահում է դինամիկայի շարքի երկայնքով՝ առաջ շարժվելով 1 տերմինով (ժամանակի կետ): Շարքի մակարդակների թիվը, որոնցով հաշվարկվում է միջինը, կարող է լինել զույգ կամ կենտ: Կենտ թվի համար շարժվող միջինը կոչվում է սահող ժամանակաշրջանի կես: Հավասար ժամանակահատվածի համար միջին արժեքը գտնելը չի ​​համեմատվում t-ի որոշման հետ, այլ օգտագործվում է կենտրոնացման ընթացակարգ, այսինքն. հաշվարկել երկու անընդմեջ շարժվող միջինների միջինը:

3) սերիայի մակարդակի կախվածությունը ժամանակից բնութագրող վերլուծական ֆունկցիայի կառուցում. Հետևյալ գործառույթներն օգտագործվում են միտումներ ստեղծելու համար.

Միտման պարամետրերը որոշվում են՝ օգտագործելով նվազագույն քառակուսիները: Լավագույն ֆունկցիայի ընտրությունը հիմնված է R 2 գործակցի վրա:

Մենք կկառուցենք հավելյալ մոդել՝ օգտագործելով օրինակ:

Օրինակ 7:

Եռամսյակային տվյալներ կան որոշակի տարածքում 4 տարվա ընթացքում էլեկտրաէներգիայի սպառման ծավալների վերաբերյալ։ Տվյալները միլիոն կՎտ-ով աղյուսակ 1-ում:

Աղյուսակ 1

Կառուցեք ժամանակային շարքի մոդել:

Այս օրինակում մենք համարում ենք եռամսյակի թիվը որպես անկախ փոփոխական, իսկ էլեկտրաէներգիայի սպառումը եռամսյակի համար՝ որպես կախյալ փոփոխական y(t):

Scatterplot-ից դուք կարող եք տեսնել, որ միտումը գծային է: Կարելի է նաև տեսնել նույն ամպլիտուդի սեզոնային տատանումների (ժամանակաշրջան = 4) առկայությունը, այնպես որ մենք կկառուցենք հավելումային մոդել:

Մոդելի կառուցումը ներառում է Հաջորդ քայլերը:

1. Եկեք հավասարեցնենք սկզբնական շարքը՝ օգտագործելով շարժվող միջին մեթոդը 4 քառորդների համար և կատարենք կենտրոնացում.

1.1. Եկեք ամփոփենք շարքի մակարդակները հաջորդաբար յուրաքանչյուր 4 եռամսյակի համար՝ ժամանակի 1 կետի տեղաշարժով:

1.2. Ստացված գումարները 4-ի բաժանելով՝ գտնում ենք շարժվող միջինները։

1.3. Մենք այս արժեքները համապատասխանեցնում ենք ժամանակի իրական կետերին, որոնց համար մենք գտնում ենք երկու անընդմեջ շարժվող միջինների միջին արժեքը՝ կենտրոնացված շարժվող միջինները:

2. Հաշվենք սեզոնային տատանումները։ Սեզոնային տատանումներ (t) = y (t) – կենտրոնացված շարժվող միջին: Եկեք կառուցենք աղյուսակ 2:

աղյուսակ 2

Բլոկի վերջից մինչև վերջ համարը t Էլեկտրաէներգիայի սպառում Y(t) 4 քառորդ շարժվող միջին Կենտրոնացված շարժվող միջին Սեզոնային տատանումների գնահատում
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. Աղյուսակ 3-ի սեզոնային տատանումների հիման վրա հաշվարկվում է սեզոնային բաղադրիչը:

Ցուցանիշներ Տարի I տարվա եռամսյակի թիվը III III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Ընդամենը 1,8 -5,875 -3,825 8,125 Գումար
Միջին 0,6 -1,958 -1,275 2,708 0,075
Սեզոնային բաղադրիչ 0,581 -1,977 -1,294 2,690

4. Վերացնել սեզոնային բաղադրիչը սկզբնական մակարդակներըշարք:

Եզրակացություն:

Ավելացման մոդելը բացատրում է սկզբնական ժամանակային շարքի մակարդակների ընդհանուր տատանումների 98.4%-ը:



Նորություն կայքում

>

Ամենահայտնի