Ev Silinmə Çoxsaylı reqressiya problemlərinin həlli nümunələri. Çoxlu reqressiyaya giriş

Silinmə

Çoxsaylı reqressiya problemlərinin həlli nümunələri. Çoxlu reqressiyaya giriş

Çoxsaylı reqressiyanın məqsədi bir asılı və bir neçə müstəqil dəyişən arasındakı əlaqəni təhlil etməkdir.

Misal: Müxtəlif PDM sistemləri üçün bir iş stansiyasının qiyməti (50 iş stansiyası satın alındıqda) haqqında məlumat var. Tələb olunur: Cədvəl 2-də verilmiş PDM sisteminin iş stansiyasının qiyməti ilə onda tətbiq olunan xüsusiyyətlərin sayı arasındakı əlaqəni qiymətləndirin.

Cədvəl 2 - PDM sistemlərinin xüsusiyyətləri

Sifariş nömrəsi	PDM sistemi	Qiymət	Məhsul Konfiqurasiya İdarəetmə	Məhsul modelləri	Komanda işi	Məhsulun dəyişdirilməsinin idarə edilməsi	Sənəd axını	Arxivlər	Sənədləri axtarın	Layihənin planlaşdırılması	Məhsul istehsalının idarə edilməsi
	iMAN			Bəli	Bəli
	PartYPlus			Bəli	Bəli
	PDM STEP Suite			Bəli	Bəli
	Axtar			Bəli	Bəli
	Külək üşütməsi			Bəli	Bəli
	Kompas meneceri			Bəli	Bəli
	T-Flex Sənədləri			Bəli	Bəli
	TechnoPro			Yox	Yox

Xarakteristikaların ədədi dəyəri (“Xərc”, “Məhsul Modelləri” və “Komanda işi” istisna olmaqla) həyata keçirilən hər bir xarakteristikanın tələblərinin sayını bildirir.

İlkin verilənlərlə cədvəl yaradaq və dolduraq (Şəkil 27).

Dəyişənlərin “1” dəyəri “Mod. red." və "Kolleksiya". rayon." mənbə məlumatının “Bəli” dəyərinə, “0” dəyəri isə mənbə məlumatının “Xeyr” dəyərinə uyğundur.

Gəlin “Xərc” asılı dəyişəni ilə “Məs. conf.", "Mod. red.", "Yığ. r-ta", "Məs. dəyişdirin.”, “Sənəd”, “Arxivlər”, “Axtarış”, “Plan-e”, “Nəzarət. etdi."

Mənbə məlumatlarının statistik təhlilinə başlamaq üçün “Çoxlu reqressiya” moduluna zəng edin (Şəkil 22).

Görünən dialoq pəncərəsində (Şəkil 23) statistik təhlilin aparılacağı dəyişənləri göstərin.

Şəkil 27 - İlkin məlumatlar

Bunun üçün Dəyişənlər düyməsini sıxın və görünən dialoq qutusunda (Şəkil 28) asılı dəyişənlərə uyğun olan hissədə (Asılı var.) “1-Xərc”i seçin və müstəqil dəyişənlərə uyğun olan hissədə. (Müstəqil dəyişənlərin siyahısı), bütün digər dəyişənləri seçin. Siyahıdan bir neçə dəyişənin seçilməsi “Ctrl” və ya “Shift” düymələrindən istifadə etməklə və ya müvafiq sahədə dəyişənlərin nömrələrini (rəqəmlər diapazonunu) göstərməklə həyata keçirilir.

Şəkil 28 - Statistik təhlil üçün dəyişənlərin təyin edilməsi üçün dialoq qutusu

Dəyişənlər seçildikdən sonra “Çoxlu reqressiya” modulunun parametrlərini təyin etmək üçün informasiya qutusunda “OK” düyməsini sıxın. “No of indep” yazısı ilə görünən pəncərədə. vars. >=(N-1); korr. çevirə bilməz. matris." (Şəkil 29) “OK” düyməsini sıxın.

Bu mesaj sistem elan edilmiş bütün müstəqil dəyişənlər üçün reqressiya qura bilmədikdə görünür, çünki dəyişənlərin sayı halların sayından 1-dən çox və ya ona bərabərdir.

"Qabaqcıl" sekmesinde görünən pəncərədə (Şəkil 30) reqressiya tənliyinin qurulması metodunu dəyişə bilərsiniz.

Şəkil 29 - Səhv mesajı

Bunu etmək üçün "Metod" sahəsində "Addım-addım irəli" seçin (daxil olmaqla addım-addım).

Şəkil 30 - Reqressiya tənliyinin qurulması üçün metodun seçilməsi və parametrlərin təyin edilməsi pəncərəsi

Addım-addım reqressiya metodu hər addımda modelə bəzi müstəqil dəyişənlərin əlavə edilməsindən və ya xaric edilməsindən ibarətdir. Beləliklə, ən "əhəmiyyətli" dəyişənlərin çoxu vurğulanır. Bu, asılılığı təsvir edən dəyişənlərin sayını azaltmağa imkan verir.

Eliminasiya ilə addım-addım təhlil ("Geri addım"). Bu zaman bütün dəyişənlər əvvəlcə modelə daxil ediləcək, sonra isə hər addımda proqnozlara az töhfə verən dəyişənlər ləğv ediləcək. Sonra uğurlu təhlil nəticəsində modeldə yalnız “vacib” dəyişənlər, yəni ayrı-seçkiliyə töhfəsi digərlərindən daha çox olan dəyişənlər saxlanıla bilər.

Daxil olmaqla addım-addım təhlil (“Addım-addım irəli”). Bu metoddan istifadə edərkən müstəqil dəyişənlər ardıcıl olaraq reqressiya tənliyinə daxil edilirlər ki, tənlik ilkin məlumatları qənaətbəxş şəkildə təsvir etsin. Dəyişənlərin daxil edilməsi F - testindən istifadə etməklə müəyyən edilir. Hər addımda bütün dəyişənlərə baxılır və populyasiyalar arasındakı fərqə ən çox töhfə verəni tapılır. Bu addımda bu dəyişən modelə daxil edilməlidir və növbəti mərhələyə keçin.

“Kəsişmə” sahəsində (sərbəst reqressiya termini) onu tənliyə daxil etməyi (“Modelə daxil et”) və ya nəzərə almamağı və sıfıra bərabər hesab etməyi seçə bilərsiniz (“Sıfıra təyin et”).

“Tolerantlıq” parametri dəyişənlərin tolerantlığıdır. 1 minus əmsalın kvadratı kimi müəyyən edilir çoxsaylı korrelyasiya bu dəyişən reqressiya tənliyindəki bütün digər müstəqil dəyişənlərlə. Buna görə də, dəyişənin dözümlülüyü nə qədər aşağı olarsa, onun reqressiya tənliyinə töhfəsi bir o qədər çox olur. Əgər reqressiya tənliyindəki dəyişənlərdən hər hansı birinin dözümlülüyü sıfıra bərabərdirsə və ya sıfıra yaxındırsa, reqressiya tənliyini qiymətləndirmək olmaz. Buna görə də, tolerantlıq parametrini 0,05 və ya 0,1 olaraq təyin etmək məsləhətdir.

Parametr “Ridge regression; lambda:" müstəqil dəyişənlər yüksək korrelyasiya olduqda istifadə olunur və metod vasitəsilə reqressiya tənliyinin əmsalları üçün etibarlı qiymətləndirmələr əldə edilə bilməz. ən kiçik kvadratlar. Göstərilən sabit (lambda) korrelyasiya matrisinin diaqonalına əlavə olunacaq, sonra yenidən standartlaşdırılacaq (bütün diaqonal elementlər 1,0-a bərabər olsun). Başqa sözlə, bu parametr korrelyasiya əmsallarını süni şəkildə azaldır ki, reqressiya parametrlərinin daha möhkəm (hələ qərəzli) qiymətləndirmələri hesablana bilsin. Bizim vəziyyətimizdə bu parametr istifadə edilmir.

Nəticələri və prosesi əks etdirən hesabat üçün dərhal bir neçə cədvəl hazırlamaq lazım olduqda “Paket emal/çap” parametrindən istifadə olunur. reqressiya təhlili. Bu seçim hər addımda addımlı reqressiya təhlilinin nəticələrini çap etmək və ya təhlil etmək lazım olduqda çox faydalıdır.

“Addım-addım” sekmesinde (Şəkil 31) siz reqressiya tənliyini qurarkən dəyişənlərin daxil edilməsi (“F daxil etmək”) və ya xaric etmək (“Silmək üçün F”) şərtləri üçün parametrlər, habelə dəyişənlərin sayını təyin edə bilərsiniz. tənliyin qurulması üçün addımlar (“Addımların sayı”).

Şəkil 31 – Metod seçmək və tikinti parametrlərini təyin etmək üçün pəncərənin “Addım-addım” nişanı reqressiya tənliyi

F F-test dəyərinin böyüklüyüdür.

Daxil olmaqla addım-addım təhlil zamanı bütün və ya demək olar ki, bütün dəyişənlərin reqressiya tənliyinə daxil olması zəruridirsə, o zaman “girmək üçün F” dəyəri minimuma (0.0001) və “F” dəyərini silmək üçün təyin edilməlidir. ” dəyəri də minimuma təyin edilməlidir.

İstisna ilə addım-addım təhlil zamanı reqressiya tənliyindən bütün dəyişənləri (bir-bir) çıxarmaq lazımdırsa, o zaman "girmək üçün F" dəyərini çox böyük təyin etmək lazımdır, məsələn, 999, və “Silmək üçün F” dəyərini “Daxil etmək üçün F”ə yaxın təyin edin.

Yadda saxlamaq lazımdır ki, “Silmək üçün F” parametrinin dəyəri həmişə “Daxil olmaq üçün F”dən az olmalıdır.

"Nəticələri göstər" seçimində iki seçim var:

2) Hər addımda – hər addımda təhlil nəticələrini göstərin.

Reqressiya təhlili metodlarının seçilməsi pəncərəsində “OK” düyməsini sıxdıqdan sonra təhlilin nəticələri pəncərəsi görünəcək (Şəkil 32).

Şəkil 32 - Təhlil nəticələri pəncərəsi

Şəkil 33 - Reqressiya təhlilinin qısa nəticələri

Təhlilin nəticələrinə görə təyinetmə əmsalı . Bu o deməkdir ki, qurulmuş reqressiya orta göstəriciyə nisbətən dəyərlərin yayılmasının 99,987% -ni izah edir, yəni. dəyişənlərin demək olar ki, bütün dəyişkənliyini izah edir.

Böyük əhəmiyyət və onun əhəmiyyət səviyyəsi qurulmuş reqresiyanın yüksək əhəmiyyətli olduğunu göstərir.

Baxmaq üçün xülasə nəticələri reqressiya üçün “Xülasə: Reqressiya nəticəsi” düyməsini klikləyin. Ekran görünəcək elektron cədvəl təhlil nəticələri ilə (Şəkil 33).

Üçüncü sütun (“B”) modelin naməlum parametrlərinin təxminlərini göstərir, yəni. reqressiya tənliyi əmsalları.

Beləliklə, arzu olunan reqressiya belə görünür:

Keyfiyyətcə qurulmuş reqressiya tənliyi aşağıdakı kimi şərh edilə bilər:

1) PDM sisteminin dəyəri dəyişikliklərin idarə edilməsi, sənəd axını və planlaşdırma üçün həyata keçirilən funksiyaların sayının artması ilə, həmçinin sistemə məhsul modelinə dəstək funksiyası daxil olduqda artır;

2) PDM sisteminin dəyəri artan konfiqurasiya idarəetmə funksiyalarının həyata keçirilməsi və axtarış imkanlarının artması ilə azalır.

Çox xətti reqressiyanın məqsədi davamlı proqnozlaşdırıcılar dəsti ilə davamlı asılı dəyişən arasında əlaqənin xətti modelini qurmaqdır. Aşağıdakı reqressiya tənliyi tez-tez istifadə olunur:

Budur və mən- reqressiya əmsalları, b 0- pulsuz üzv (istifadə edildikdə), e- səhv olan bir termin - bu barədə müxtəlif fərziyyələr edilir, lakin daha çox sıfır vektor mat ilə paylanmanın normallığına enir. gözləntilər və korrelyasiya matrisi.

Bu xətti model müxtəlif mövzularda, məsələn, iqtisadiyyat, sənaye, tibbdə bir çox problemləri yaxşı təsvir edir. Bunun səbəbi bəzi problemlərin xətti xarakter daşımasıdır.

Sadə bir misal verək. Tutaq ki, onun məlum parametrlərinə əsasən yolun çəkilməsinin dəyərini proqnozlaşdırmaq lazımdır. Eyni zamanda, bizdə artıq çəkilmiş yollar haqqında məlumat var ki, bu da uzunluğu, səki örtüyünün dərinliyini, iş materialının miqdarını, işçilərin sayını və s.

Aydındır ki, yolun qiyməti sonda olacaq məbləğinə bərabərdir bütün bu amillərin xərcləri ayrı-ayrılıqda. Sizə müəyyən bir miqdar, məsələn, ton başına məlum dəyəri olan çınqıl və müəyyən miqdarda asfalta ehtiyacınız olacaq.

Quraşdırma üçün meşələri kəsmək lazım ola bilər, bu da əlavə xərclərə səbəb olacaqdır. Bütün bunlar birlikdə yolun yaradılması xərclərini verəcəkdir.

Bu halda, modelə, məsələn, təşkilati xərclərə (müəyyən bir səviyyənin bütün tikinti-quraşdırma işləri üçün təxminən eyni olan) və ya vergi endirimlərinə cavabdeh olan pulsuz üzv daxil olacaq.

Səhv modeli qurarkən nəzərə almadığımız amilləri əhatə edəcək (məsələn, tikinti zamanı hava - onu nəzərə almaq ümumiyyətlə mümkün deyil).

Nümunə: Çoxlu Reqressiya Təhlili

Bu misal üçün yoxsulluq səviyyəsinin bir neçə mümkün korrelyasiyası və yoxsulluq həddindən aşağı olan ailələrin faizini proqnozlaşdıran dərəcə təhlil ediləcək. Ona görə də biz yoxsulluq həddindən aşağı olan ailələrin faizini xarakterizə edən dəyişəni asılı dəyişən, qalan dəyişənləri isə davamlı proqnozlaşdırıcılar hesab edəcəyik.

Reqressiya əmsalları

Müstəqil dəyişənlərdən hansının yoxsulluq səviyyəsinin proqnozlaşdırılmasına daha çox töhfə verdiyini öyrənmək üçün araşdırırıq standartlaşdırılmış əmsallar(və ya Beta) reqressiya.

düyü. 1. Reqressiya əmsallarının parametrlərinin qiymətləndirilməsi.

Beta əmsalları bütün dəyişənləri orta 0-a və standart sapmaya 1 normallaşdırsanız əldə edəcəyiniz əmsallardır. Buna görə də, bu Beta əmsallarının böyüklüyü hər bir müstəqil dəyişənin asılı dəyişənə nisbi töhfəsini müqayisə etməyə imkan verir. Yuxarıda göstərilən cədvəldən göründüyü kimi, 1960-cı ildən bəri əhalinin sayının dəyişməsi dəyişənləri (POP_ CHING), kənd yerlərində yaşayan əhalinin faizi (PT_RURAL) və kənd təsərrüfatında məşğul olanların sayı (N_Empld) yoxsulluğun ən mühüm proqnozlaşdırıcılarıdır. səviyyələri, çünki yalnız onlar statistik əhəmiyyətlidir (onların 95%-i). etimad intervalı 0 daxil deyil). 1960-cı ildən bəri əhalinin dəyişməsi üçün reqressiya əmsalı (Pop_Chng) mənfidir, buna görə də əhali nə qədər az artarsa, daha çox ailə müvafiq mahalda yoxsulluq həddinin altında yaşayanlar. Kənddə (Pt_Rural) yaşayan əhali (%) üçün reqressiya əmsalı müsbətdir, yəni faiz nə qədər böyükdürsə. kənd sakinləri, yoxsulluğun səviyyəsi bir o qədər yüksəkdir.

Proqnozlaşdırıcı təsirlərin əhəmiyyəti

Önəmlilik meyarları ilə cədvələ baxaq.

düyü. 2. Verilmiş hər bir dəyişən üçün eyni vaxtda nəticələr.

Bu Cədvəldən göründüyü kimi, yalnız 2 dəyişənin təsiri statistik cəhətdən əhəmiyyətlidir: 1960-cı ildən bəri əhalinin dəyişməsi (Pop_Chng) və kənddə yaşayan əhalinin faizi (Pt_Rural), p< .05.

Qalıq analizi. Bir reqressiya tənliyini quraşdırdıqdan sonra demək olar ki, həmişə proqnozlaşdırılan dəyərləri və qalıqları yoxlamaq lazımdır. Məsələn, böyük kənar göstəricilər nəticələri çox təhrif edə və səhv nəticələrə gətirib çıxara bilər.

Xətt-sətir emissiyaları qrafiki

Adətən orijinal və ya standartlaşdırılmış qalıqları böyük kənar göstəricilər üçün yoxlamaq lazımdır.

düyü. 3. Müşahidə nömrələri və qalıqlar.

Bu qrafikin şaquli oxunun miqyası siqma dəyərinə uyğun olaraq qurulur, yəni. standart sapma qalıqlar Əgər bir və ya bir neçə müşahidə ±3 dəfə siqma intervalına düşmürsə, o zaman həmin müşahidələri aradan qaldırmağa dəyər ola bilər (bu, müşahidənin seçilməsi şərtləri ilə asanlıqla həyata keçirilə bilər) və nəticələrin bunlardan təsirlənməməsinə əmin olmaq üçün təhlili yenidən həyata keçirməyə dəyər. kənara çıxanlar.

Mahalanobis məsafələri

Əksər statistika dərslikləri asılı dəyişənə nisbətən kənar göstəricilərə və qalıqlara çox vaxt sərf edir. Bununla belə, proqnozlaşdırıcılarda kənar göstəricilərin rolu çox vaxt naməlum olaraq qalır. Proqnozedici dəyişən tərəfində asılı dəyişənin proqnozlaşdırılmasında müxtəlif çəkilərlə (reqressiya əmsalları) iştirak edən dəyişənlərin siyahısı var. Müstəqil dəyişənləri çoxölçülü fəza kimi düşünə bilərsiniz, burada hər hansı müşahidənin qrafiki çəkilə bilər. Məsələn, əgər sizdə bərabər reqressiya əmsalı olan iki müstəqil dəyişən varsa, siz iki dəyişənin səpələnmə qrafikini çəkə və hər bir müşahidəni həmin qrafik üzrə yerləşdirə bilərsiniz. Daha sonra siz bu qrafikdə orta dəyəri qeyd edə və iki ölçülü məkanda hər bir müşahidədən bu orta (ağırlıq mərkəzi deyilən) məsafəni hesablaya bilərsiniz. Bu, Mahalanobis məsafəsini hesablamaq üçün əsas fikirdir. İndi 1960-cı ildən bəri əhalinin dəyişmə dəyişəninin histoqramına baxaq.

düyü. 4. Mahalanobisin məsafə paylanmasının histoqramı.

Qrafikdən belə çıxır ki, Mahalanobis məsafələrində bir kənar nöqtə var.

düyü. 5. Müşahidə olunan, proqnozlaşdırılan və qalıq qiymətlər.

Diqqət yetirin ki, Shelby County (birinci cərgədə) qalan əyalətlərdən fərqlənir. Xam məlumatlara baxsanız, Şelbi qraflığının əslində kənd təsərrüfatında ən çox işləyən insanların sayına sahib olduğunu görəcəksiniz (dəyişən N_Empld). Bunu mütləq rəqəmlə deyil, faizlə ifadə etmək məqsədəuyğun ola bilər, bu halda Şelbi qraflığının Mahalanobis məsafəsi digər ölkələrlə müqayisədə o qədər də böyük olmayacaq. Şübhəsiz ki, Şelbi qraflığından kənardır.

Silinmiş Qalıqlar

Emissiya probleminin ciddiliyini qiymətləndirməyə kömək edən digər çox vacib statistika çıxarılan qalıqlardır. Bunlar, həmin müşahidə təhlildən çıxarıldıqda əldə edilən müvafiq müşahidələr üçün standartlaşdırılmış qalıqlardır. Unutmayın ki, çoxlu reqressiya proseduru asılı dəyişən və proqnozlaşdırıcı dəyişən arasındakı əlaqəni göstərmək üçün reqressiya səthinə uyğun gəlir. Əgər bir müşahidə kənar göstəricidirsə (Şelbi Kaunti kimi), onda reqressiya səthinin həmin kənara doğru “çəkilməyə” meyli var. Nəticədə, müvafiq müşahidə çıxarılarsa, fərqli bir səth (və Beta əmsalları) əldə ediləcəkdir. Buna görə də, əgər çıxarılan qalıqlar standartlaşdırılmış qalıqlardan çox fərqlidirsə, onda sizin reqressiya təhlilinin müvafiq müşahidə tərəfindən ciddi şəkildə qərəzli olduğuna inanmağa əsasınız olacaq. Bu misalda, Shelby County üçün çıxarılan qalıqlar onun təhlili ciddi şəkildə pozan kənar göstərici olduğunu göstərir. Səpələnmə qrafası açıq şəkildə kənarı göstərir.

düyü. 6. Yaşayış minimumundan aşağı yaşayan ailələrin faizini göstərən dəyişənin ilkin qalıqları və Silinmiş qalıqları.

Onların əksəriyyətinin az-çox aydın şərhləri var, lakin gəlin normal ehtimal qrafiklərinə müraciət edək.

Artıq qeyd edildiyi kimi, çoxsaylı reqressiya tənlikdəki dəyişənlər arasında xətti əlaqənin olduğunu və qalıqların normal şəkildə paylanmasını nəzərdə tutur. Bu fərziyyələr pozularsa, nəticə qeyri-dəqiq ola bilər. Qalıqların normal ehtimal planı bu fərziyyələrin ciddi şəkildə pozulmasının olub-olmadığını sizə xəbər verəcəkdir.

düyü. 7. Normal ehtimal qrafiki; İlkin balanslar.

Bu qrafik aşağıdakı kimi qurulmuşdur. Əvvəlcə standartlaşdırılmış qalıqlar ardıcıllıqla sıralanır. Bu dərəcələrdən z-balları (yəni, normal paylanmanın standart dəyərləri) məlumatların tabe olduğu fərziyyəsi əsasında hesablana bilər. normal paylanma. Bu z dəyərləri qrafikdə y oxu üzərində qurulmuşdur.

Müşahidə olunan qalıqlar (x oxunda çəkilmiş) normal paylanmış olsaydı, onda bütün dəyərlər qrafikdə düz xəttə düşərdi. Qrafikimizdə bütün nöqtələr əyriyə çox yaxındır. Əgər qalıqlar normal paylanmayıbsa, o zaman bu xəttdən kənara çıxırlar. Bu qrafikdə kənar göstəricilər də nəzərə çarpır.

Uyğunluq itkisi varsa və verilənlər xətt haqqında aydın əyri (məsələn, S forması) əmələ gətirirsə, onda asılı dəyişən hansısa şəkildə çevrilə bilər (məsələn, loqarifmik çevrilmə paylanması və s.). Bu metodun müzakirəsi bu nümunənin əhatə dairəsi xaricindədir (Neter, Wasserman və Kutner, 1985, s. 134-141, məlumatlarda qeyri-normallığı və qeyri-xəttiliyi aradan qaldıran transformasiyaların müzakirəsini təqdim edir). Bununla belə, tədqiqatçılar çox vaxt əsas fərziyyələri sınaqdan keçirmədən birbaşa təhlillər aparır və bu da səhv nəticələrə gətirib çıxarır.

Tutaq ki, tərtibatçı ənənəvi biznes rayonunda kiçik ofis binaları qrupunun dəyərini qiymətləndirir.

Tərtibatçı ofis binasının qiymətini qiymətləndirmək üçün çoxsaylı reqressiya analizindən istifadə edə bilər bu sahə aşağıdakı dəyişənlərə əsaslanır.

y - ofis binasının təxmini qiyməti;

x 1 - ümumi sahəsi kvadrat metrlə;

x 2 - ofislərin sayı;

x 3 - girişlərin sayı (0,5 giriş yalnız yazışmaların çatdırılması üçün daxil edilməsi deməkdir);

x 4 - binanın illərlə istismar müddəti.

Bu nümunənin mövcud olduğunu güman edir xətti asılılıq hər bir müstəqil dəyişən (x 1, x 2, x 3 və x 4) və asılı dəyişən (y) arasında, yəni müəyyən bir ərazidə ofis binasının qiyməti. Mənbə məlumatları şəkildə göstərilmişdir.

Problemin həlli üçün parametrlər pəncərə şəklində göstərilir " Reqressiya". Hesablama nəticələri üç cədvəldə ayrıca vərəqdə yerləşdirilir

Nəticədə aşağıdakıları əldə etdik riyazi model:

y = 52318 + 27.64*x1 + 12530*x2 + 2553*x3 - 234.24*x4.

İndi tərtibatçı eyni ərazidə ofis binasının təxmini dəyərini müəyyən edə bilər. Bu binanın sahəsi 2500 kvadratmetr, üç ofis, iki giriş və 25 il istismar müddəti varsa, onun dəyərini aşağıdakı düsturla qiymətləndirə bilərsiniz:

y = 27,64*2500 + 12530*3 + 2553*2 - 234,24*25 + 52318 = 158,261 c.u.

Reqressiya təhlilində ən vacib nəticələr:

modelin tələb olunan parametrləri olan dəyişənlərin əmsalları və Y-kəsişməsi;
mövcud mənbə məlumatları üçün modelin düzgünlüyünü xarakterizə edən çoxsaylı R;
Fisher F testi(nəzərə alınan nümunədə əhəmiyyətli dərəcədə üstələyir kritik dəyər, 4.06-ya bərabərdir);
t-statistika– modelin fərdi əmsallarının əhəmiyyət dərəcəsini xarakterizə edən dəyərlər.

t-statistika xüsusi diqqətə layiqdir. Çox tez-tez reqressiya modeli qurarkən bu və ya digər x amilinin y-yə təsir edib-etmədiyi məlum deyil. Çıxış dəyərinə təsir etməyən amillərin modelə daxil edilməsi modelin keyfiyyətini aşağı salır. t-statistikasının hesablanması bu kimi amilləri aşkar etməyə kömək edir. Təxmini qiymətləndirmə aşağıdakı kimi edilə bilər: əgər n>>k üçün t-statistikasının dəyəri mütləq dəyərəhəmiyyətli dərəcədə üçdən çox olduqda, müvafiq əmsal əhəmiyyətli hesab edilməli və amil modelə daxil edilməli, əks halda modeldən çıxarılmalıdır. Beləliklə, iki mərhələdən ibarət reqressiya modelinin qurulması texnologiyasını təklif edə bilərik:

1) paketlə proses " Reqressiya"bütün mövcud məlumatlar, t-statistik dəyərləri təhlil edin;

2) əmsalların əhəmiyyətsiz olduğu faktorları olan sütunları mənbə məlumat cədvəlindən çıxarın və onları paketlə emal edin " Reqressiya"yeni masa.

Günortanız xeyir, əziz oxucular.
Əvvəlki məqalələrdə, haqqında praktik nümunələr, təsnifat məsələlərinin həlli yollarını (kredit bal problemi) və mətn məlumatlarının təhlilinin əsaslarını (pasport problemi) göstərdim. Bu gün mən başqa bir problem sinfinə, yəni reqressiyanın bərpasına toxunmaq istərdim. Proqnozlaşdırmada adətən bu sinfə aid məsələlərdən istifadə olunur.
Proqnozlaşdırma probleminin həlli nümunəsi üçün ən böyük UCI deposundan Enerji səmərəliliyi məlumat dəstini götürdüm. Ənənəvi olaraq biz Python-dan pandas və scikit-learn analitik paketləri ilə alətlər kimi istifadə edəcəyik.

Məlumat dəstinin təsviri və problemin ifadəsi

Aşağıdakı otaq atributlarını təsvir edən məlumat dəsti verilmişdir:

Bu, təhlilin aparılacağı otağın xüsusiyyətlərini və proqnozlaşdırılmalı olan yük dəyərlərini ehtiva edir.

İlkin məlumatların təhlili

Əvvəlcə məlumatlarımızı yükləyək və ona baxaq:

pandas import read_csv, DataFrame from sklearn.neighbors idxalı KNeighborsRegressor from sklearn.linear_model import LinearRegression, LogisticRegression from sklearn.svm import SVR from sklearn.ensemble import RandomForestRegressor from import_arn. test_split verilənlər toplusu = read_csv("EnergyEffici ency /ENB2012_data.csv",";") dataset.head()

	X1	X2	X3	X4	X5	X6	Y1	Y2
0	0.98	514.5	294.0	110.25	7	2	15.55	21.33
1	0.98	514.5	294.0	110.25	7	3	15.55	21.33
2	0.98	514.5	294.0	110.25	7	4	15.55	21.33
3	0.98	514.5	294.0	110.25	7	5	15.55	21.33
4	0.90	563.5	318.5	122.50	7	2	20.84	28.28

İndi hər hansı atributun bir-biri ilə əlaqəli olub olmadığını görək. Bu, bütün sütunlar üçün korrelyasiya əmsallarını hesablamaqla edilə bilər. Bunu necə etmək əvvəlki məqalədə təsvir edilmişdir:

Dataset.corr()

	X1	X2	X3	X4	X5	X6	X7	X8	Y1	Y2
X1	1.000000e+00	-9.919015e-01	-2.037817e-01	-8.688234e-01	8.277473e-01	0.000000	1.283986e-17	1.764620e-17	0.622272	0.634339
X2	-9.919015e-01	1.000000e+00	1.955016e-01	8.807195e-01	-8.581477e-01	0.000000	1.318356e-16	-3.558613e-16	-0.658120	-0.672999
X3	-2.037817e-01	1.955016e-01	1.000000e+00	-2.923165e-01	2.809757e-01	0.000000	-7.969726e-19	0,000000e+00	0.455671	0.427117
X4	-8.688234e-01	8.807195e-01	-2.923165e-01	1.000000e+00	-9.725122e-01	0.000000	-1.381805e-16	-1.079129e-16	-0.861828	-0.862547
X5	8.277473e-01	-8.581477e-01	2.809757e-01	-9.725122e-01	1.000000e+00	0.000000	1.861418e-18	0,000000e+00	0.889431	0.895785
X6	0,000000e+00	0,000000e+00	0,000000e+00	0,000000e+00	0,000000e+00	1.000000	0,000000e+00	0,000000e+00	-0.002587	0.014290
X7	1.283986e-17	1.318356e-16	-7.969726e-19	-1.381805e-16	1.861418e-18	0.000000	1.000000e+00	2.129642e-01	0.269841	0.207505
X8	1.764620e-17	-3.558613e-16	0,000000e+00	-1.079129e-16	0,000000e+00	0.000000	2.129642e-01	1.000000e+00	0.087368	0.050525
Y1	6.222722e-01	-6.581202e-01	4.556712e-01	-8.618283e-01	8.894307e-01	-0.002587	2.698410e-01	8.736759e-02	1.000000	0.975862
Y2	6.343391e-01	-6.729989e-01	4.271170e-01	-8.625466e-01	8.957852e-01	0.014290	2.075050e-01	5.052512e-02	0.975862	1.000000

Matrisimizdən göründüyü kimi, aşağıdakı sütunlar bir-biri ilə korrelyasiyaya malikdir (korrelyasiya əmsalının dəyəri 95%-dən çoxdur):

y1 -> y2
x1 -> x2
x4 -> x5

İndi cütlərimizin hansı sütunlarını nümunəmizdən çıxara biləcəyimizi seçək. Bunun üçün hər bir cütdə proqnozlaşdırılan dəyərlərə daha çox təsir edən sütunları seçirik Y1 Və Y2 və onları tərk edin və qalanlarını silin.
Gördüyünüz kimi, korrelyasiya əmsalları olan matrislər açıqdır y1 ,y2 daha çox əhəmiyyət kəsb edir X2 Və X5 , X1 və X4 əvəzinə, son sütunları silə bilərik.

Dataset = dataset.drop(["X1","X4"], ox=1) dataset.head()
Bundan əlavə, sahələrin olduğunu fərq edə bilərsiniz Y1 Və Y2 bir-biri ilə çox sıx əlaqələndirirlər. Ancaq hər iki dəyəri proqnozlaşdırmalı olduğumuz üçün onları "olduğu kimi" buraxırıq.

Model seçimi

Nümunəmizdən proqnozlaşdırılan dəyərləri ayıraq:

Trg = dataset[["Y1","Y2"]] trn = dataset.drop(["Y1","Y2"], ox=1)
Məlumatları emal etdikdən sonra bir model qurmağa davam edə bilərsiniz. Modeli qurmaq üçün aşağıdakı üsullardan istifadə edəcəyik:

Bu üsullar haqqında nəzəriyyəni K.V.Vorontsovun maşın öyrənməsi üzrə mühazirələrində oxumaq olar.
Qiymətləndirməni təyinetmə əmsalından istifadə edəcəyik ( R-kvadrat). Bu əmsal aşağıdakı kimi müəyyən edilir:

Asılı kəmiyyətin şərti fərqi haradadır saat faktorla X.
Əmsal bir interval üzrə qiymət alır və 1-ə nə qədər yaxın olarsa, asılılıq bir o qədər güclü olar.
Yaxşı, indi birbaşa modelin qurulmasına və model seçiminə keçə bilərsiniz. Gəlin daha çox təhlil etmək üçün bütün modellərimizi bir siyahıya daxil edək:

Modellər =
Beləliklə, modellər hazırdır, indi ilkin məlumatları 2 alt nümunəyə ayıracağıq: test Və maarifləndirici. Əvvəlki məqalələrimi oxuyanlar bilirlər ki, bunu scikit-learn paketindən train_test_split() funksiyasından istifadə etməklə etmək olar:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0.4)
İndi 2 parametri proqnozlaşdırmalı olduğumuz üçün onların hər biri üçün reqressiya qurmalıyıq. Bundan əlavə, əlavə təhlil üçün əldə edilən nəticələri müvəqqəti olaraq qeyd edə bilərsiniz DataFrame. Bunu belə edə bilərsiniz:

#müvəqqəti strukturlar yaradın TestModels = DataFrame() tmp = () #modellərdəki model üçün siyahıdan hər bir model üçün: #model adını alın m = str(model) tmp["Model"] = m[:m.index( "( ")] #xrange(Ytrn.shape)-də i üçün müəyyən edilmiş nəticənin hər sütunu üçün: #model modelini məşq edin.fit(Xtrn, Ytrn[:,i]) #tmp təyin əmsalını hesablayın["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #məlumatları və yekun DataFrame-i qeyd edin TestModels = TestModels.append() #model üzrə indeks yaradın ad TestModels.set_index("Model", inplace= Doğru)
Yuxarıdakı koddan göründüyü kimi əmsalı hesablamaq üçün r2_score() funksiyasından istifadə olunur.
Beləliklə, təhlil üçün məlumatlar əldə edilmişdir. İndi qrafikləri tərtib edək və hansı modelin ən yaxşı nəticə göstərdiyini görək:

Əncir, baltalar = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="R2_Y1)") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Nəticələrin və nəticələrin təhlili

Yuxarıdakı qrafiklərdən belə nəticəyə gələ bilərik ki, metod başqalarından daha yaxşı öhdəsindən gəldi Random Forest(təsadüfi meşə). Onun təyinetmə əmsalları hər iki dəyişən üçün digərlərindən daha yüksəkdir:
Əlavə təhlil üçün modelimizi yenidən hazırlayaq:

Model = modellər model.fit(Xtrn, Ytrn)
Diqqətlə araşdırdıqda, asılı nümunənin niyə əvvəlki dəfə bölündüyü sualı yarana bilər. Ytrn dəyişənlərə (sütunlara görə), lakin indi bunu etmirik.
Məsələ ondadır ki, bəzi üsullar, məsələn Random ForestRegressor, bir çox proqnozlaşdırıcı dəyişənlərlə məşğul ola bilər, digərləri isə (məs. SVR) yalnız bir dəyişənlə işləyə bilər. Buna görə də, əvvəlki təlim zamanı bəzi modellərin qurulması prosesində səhvlərə yol verməmək üçün sütun bölmələrindən istifadə etdik.
Modelin seçilməsi, əlbəttə ki, yaxşıdır, lakin hər bir amilin proqnozlaşdırılan dəyərə necə təsir etdiyi barədə məlumatın olması da gözəl olardı. Bu məqsədlə modelin mülkiyyəti var xüsusiyyət_əhəmiyyətləri_.
Bundan istifadə edərək, son modellərdə hər bir amilin çəkisini görə bilərsiniz:

Model.feature_əhəmiyyətləri_
massiv([ 0,40717901, 0,11394948, 0,34984766, 0,00751686, 0,09158358,
0.02992342])

Bizim vəziyyətimizdə ümumi hündürlüyü və sahəsinin istilik və soyutma yükünə ən çox təsir etdiyini görmək olar. Onların proqnoz modelinə ümumi töhfəsi təxminən 72% təşkil edir.
Onu da qeyd etmək lazımdır ki, yuxarıdakı diaqramdan istifadə edərək hər bir amilin ayrı-ayrılıqda isitməyə və ayrı-ayrılıqda soyutmaya təsirini görə bilərsiniz, lakin bu amillər bir-biri ilə çox sıx əlaqəli olduğundan () onların hər ikisi haqqında ümumi bir nəticə çıxardıq, yuxarıda yazılmışdı.

Nəticə

Məqalədə Python və analitik paketlərdən istifadə edərək reqressiya məlumatlarının təhlilinin əsas mərhələlərini göstərməyə çalışdım. pandalar Və öyrənin.
Qeyd etmək lazımdır ki, verilənlər toplusu mümkün qədər rəsmiləşdiriləcək və daxil edilmiş məlumatların ilkin işlənməsi minimal olacaq şəkildə xüsusi seçilmişdir. Fikrimcə, məqalə məlumatların təhlili ilə səyahətə yeni başlayanlar, eləcə də yaxşı nəzəri bazaya malik olan, lakin iş üçün alətlər seçənlər üçün faydalı olacaq.

Suallar:

4. Xətti çoxsaylı reqressiya modelinin parametrlərinin qiymətləndirilməsi.

5. Çox xətti reqressiyanın keyfiyyətinin qiymətləndirilməsi.

6. Çoxfaktorlu modellər əsasında təhlil və proqnozlaşdırma.

Çoxlu reqressiya ikili reqressiyanın ümumiləşdirilməsidir. İzah edilən (asılı) dəyişən Y ilə izahlı (müstəqil) dəyişənlər X 1, X 2,..., X k arasında əlaqəni təsvir etmək üçün istifadə olunur. Çoxsaylı reqressiya xətti və ya qeyri-xətti ola bilər, lakin xətti çoxlu reqressiya iqtisadiyyatda ən çox yayılmışdır.

Nəzəri xətti çoxlu reqressiya modeli aşağıdakı formaya malikdir:

Müvafiq nümunə reqressiyasını qeyd edək:

Cüt reqressiyada olduğu kimi, təsadüfi ε termini reqressiya təhlilinin əsas fərziyyələrini təmin etməlidir. Sonra OLS-dən istifadə edərək nəzəri reqressiya parametrlərinin ən yaxşı qərəzsiz və səmərəli qiymətləndirmələri əldə edilir. Bundan əlavə, X 1, X 2,…, X k dəyişənləri bir-biri ilə əlaqəsiz (xətti müstəqil) olmalıdır. Ən kiçik kvadratlar əsasında alınan reqressiya əmsallarını (2) qiymətləndirmək üçün düsturları yazmaq üçün aşağıdakı qeydi təqdim edirik:

Sonra vektor-matris şəklində yaza bilərik nəzəri model:

və nümunə reqressiya

OLS nümunə reqressiya əmsallarının vektorunu qiymətləndirmək üçün aşağıdakı düstura gətirib çıxarır:

(3)

İki müstəqil dəyişən ilə çoxsaylı xətti reqressiya əmsallarını qiymətləndirmək , tənliklər sistemini həll edə bilərik:

(4)

Qoşalaşmış xətti reqressiyada olduğu kimi, standart reqressiya xətası S çoxlu reqressiya üçün hesablanır:

(5)

və reqressiya əmsallarının standart səhvləri:

(6)

Əmsalların əhəmiyyəti t-testindən istifadə etməklə yoxlanılır.

sərbəstlik dərəcələrinin sayı ilə Tələbə uzadılmasına malik olmaq v= n-k-1.

Reqressiyanın keyfiyyətini qiymətləndirmək üçün təyin əmsalı (indeks) istifadə olunur:

, (8)

1-ə nə qədər yaxın olarsa, reqressiyanın keyfiyyəti bir o qədər yüksək olar.

Determinasiya əmsalının əhəmiyyətini yoxlamaq üçün Fisher testindən və ya F-statistikasından istifadə olunur.

(9)

ilə v 1=k, v 2=n-k-1 sərbəstlik dərəcəsi.

Çoxdəyişənli reqressiyada əlavə izahedici dəyişənlərin əlavə edilməsi determinasiya əmsalını artırır. Bu artımı kompensasiya etmək üçün düzəliş edilmiş (və ya normallaşdırılmış) təyinat əmsalı tətbiq edilir:

(10)

Yeni dəyişən əlavə edərkən izah edilmiş reqressiyanın nisbətindəki artım kiçikdirsə, azala bilər. Bu o deməkdir ki, yeni dəyişən əlavə etmək yersizdir.

Misal 4:

Müəssisənin mənfəətinin yeni texnika və texnologiyaya çəkilən xərclərdən və işçilərin ixtisasının artırılması xərclərindən asılılığını nəzərdən keçirək. 6 analoji müəssisə üzrə statistik məlumatlar toplanmışdır. Məlumat milyonlarla dollardır. vahidlər cədvəl 1-də verilmişdir.

Cədvəl 1

İki faktorlu qurun xətti reqressiya və onun əhəmiyyətini qiymətləndirin. Aşağıdakı qeydi təqdim edək:

X matrisini köçürürük:

Bu matrisin çevrilməsi:

Beləliklə, mənfəətin yeni avadanlıq və mexanizmlərin məsrəflərindən və işçilərin ixtisaslarının artırılması xərclərindən asılılığını aşağıdakı reqressiya ilə təsvir etmək olar:

(5) düsturundan istifadə edərək, burada k=2 standart reqressiya xətasını S=0,636 hesablayırıq.

(6) düsturu ilə reqressiya əmsallarının standart səhvlərini hesablayırıq:

Eynilə:

a 1, a 2 reqressiya əmsallarının əhəmiyyətini yoxlayaq. t calc hesablayaq.

Əhəmiyyət səviyyəsini, sərbəstlik dərəcələrinin sayını seçək

əmsalı deməkdir a 1əhəmiyyətli

a 2 əmsalının əhəmiyyətini qiymətləndirək:

Əmsal a 2əhəmiyyətsiz

(7) düsturu ilə təyinetmə əmsalını hesablayaq. Müəssisənin mənfəəti 96% yeni texnika və texnologiyaya çəkilən xərclərdən, 4% isə digər və təsadüfi amillərdən təkmilləşdirmədən asılıdır. Determinasiya əmsalının əhəmiyyətini yoxlayaq. F hesabını hesablayaq:

Bu. təyin əmsalı əhəmiyyətli, reqressiya tənliyi əhəmiyyətlidir.

Çoxdəyişənli reqressiyaya əsaslanan təhlildə y asılı göstəricisinə amillərin təsirinin müqayisəsi böyük əhəmiyyət kəsb edir. Reqressiya əmsalları bu məqsədlə istifadə edilmir, ölçü vahidlərindəki fərqlər və müxtəlif dərəcələrdə dalğalanmalar. Bu çatışmazlıqlardan sərbəst elastiklik əmsalları:

Elastiklik, digər dəyişənlərin qiymətlərinin dəyişməz qalması şərti ilə dəyişən 1% dəyişdikdə asılı göstərici y-nin orta hesabla neçə faiz dəyişdiyini göstərir. Nə qədər böyükdürsə, müvafiq dəyişənin təsiri də bir o qədər böyükdür. Cüt reqressiyada olduğu kimi, çoxlu reqressiya nöqtə proqnozu ilə interval proqnozu arasında fərq qoyur. Nöqtə proqnozu (sayı) müstəqil dəyişənlərin proqnozlaşdırılan dəyərlərini çoxlu reqressiya tənliyinə əvəz etməklə əldə edilir. ilə işarə edək:

(12)

müstəqil dəyişənlərin proqnozlaşdırılan dəyərlərinin vektoru, sonra nöqtə proqnozu

Çoxsaylı reqressiya halında standart proqnoz xətası aşağıdakı kimi müəyyən edilir:

(15)

Tələbə paylama cədvəlinə uyğun olaraq α əhəmiyyət səviyyəsini seçək. Əhəmiyyət səviyyəsi α və sərbəstlik dərəcələrinin sayı ν = n-k-1 üçün t cr tapırıq. O zaman 1- α ehtimalı olan y p həqiqi dəyəri intervala düşür:

Mövzu 5:

Zaman seriyası.

Suallar:

4. Zaman sıralarının əsas anlayışları.

5. Əsas inkişaf tendensiyası tendensiyadır.

6. Əlavə modelin qurulması.

Zaman seriyası bir neçə ardıcıl an və ya müddət üçün hər hansı bir göstəricinin qiymətlər toplusunu təmsil edir.

Zamanın anı (və ya müddəti) t ilə, göstəricinin zaman anındakı qiyməti isə y(t) ilə işarələnir və adlanır. sıra səviyyəsi .

Zaman seriyasının hər bir səviyyəsi çoxlu sayda amillərin təsiri altında formalaşır və onları 3 qrupa bölmək olar:

Öyrənilən hadisəyə həlledici təsir göstərən və silsilənin əsas tendensiyasını - T(t) trendini təşkil edən uzunmüddətli, daim fəaliyyət göstərən amillər.

S(t) silsiləsində mövsümi dalğalanmaları formalaşdıran qısamüddətli dövri amillər.

ε(t) silsiləsi səviyyələrində təsadüfi dəyişikliklər əmələ gətirən təsadüfi amillər.

Əlavə model zaman seriyası seriyanın hər səviyyəsinin trend, mövsümi və təsadüfi komponentlərin cəmi ilə təmsil olunduğu bir modeldir:

Multiplikativ model seriyanın hər səviyyəsinin sadalanan komponentlərin məhsulu olduğu bir modeldir:

Modellərdən birinin seçimi mövsümi dalğalanmaların strukturunun təhlilinə əsaslanır. Əgər salınımların amplitudası təxminən sabitdirsə, onda əlavə model qurulur. Amplituda artırsa, multiplikativ model.

Ekonometrik təhlilin əsas vəzifəsi sadalanan komponentlərin hər birini müəyyən etməkdir.

Əsas inkişaf tendensiyası (trend) təsadüfi və mövsümi tərəddüdlərdən azad olaraq zamanla sıra səviyyələrində hamar və sabit dəyişiklik adlanır.

Əsas inkişaf meyllərini müəyyən etmək vəzifəsi deyilir zaman sıralarının uyğunlaşdırılması .

Zaman sıralarının uyğunlaşdırılması üsullarına aşağıdakılar daxildir:

1) intervalların genişləndirilməsi üsulu,

2) üsul hərəkətli orta,

3) analitik uyğunlaşdırma.

1) Seriya səviyyələrinin aid olduğu zaman dövrləri genişlənir. Sonra seriyanın səviyyələri böyüdülmüş intervallar üzrə yekunlaşdırılır. Səviyyələrdəki dalğalanmalar səbəbiylə təsadüfi səbəblər, bir-birini ləğv edin. Ümumi tendensiya daha aydın olacaq.

2) Seriyanın birinci səviyyələrinin sayını müəyyən etmək üçün orta qiymət hesablanır. Sonra ikinci səviyyədən başlayaraq seriyanın eyni sayda səviyyələrindən orta hesablanır və s. orta dəyər dinamika seriyası boyunca sürüşərək 1 dövr (zaman nöqtəsi) irəliləyir. Ortanın hesablandığı sıra səviyyələrinin sayı cüt və ya tək ola bilər. Tək ədəd üçün hərəkətli ortalama sürüşmə dövrünün ortası kimi istinad edilir. Düz bir dövr üçün orta dəyərin tapılması t-nin təyini ilə müqayisə edilmir, lakin mərkəzləşdirmə proseduru istifadə olunur, yəni. iki ardıcıl hərəkətli ortalamanın ortasını hesablayın.

3) Sıra səviyyəsinin zamandan asılılığını xarakterizə edən analitik funksiyanın qurulması. Trendləri yaratmaq üçün aşağıdakı funksiyalardan istifadə olunur:

Trend parametrləri ən kiçik kvadratlardan istifadə etməklə müəyyən edilir. Ən yaxşı funksiyanın seçimi R 2 əmsalına əsaslanır.

Bir nümunədən istifadə edərək əlavə bir model quracağıq.

Misal 7:

Müəyyən bir ərazidə 4 il ərzində elektrik enerjisi istehlakının həcminə dair rüblük məlumatlar var. Cədvəl 1-də milyon kVt-da məlumatlar.

Cədvəl 1

Zaman seriyası modelini qurun.

Bu misalda biz rübün sayını müstəqil dəyişən kimi, rüb üçün elektrik istehlakını isə asılı dəyişən y(t) hesab edirik.

Səpələnmə qrafikindən trendin xətti olduğunu görə bilərsiniz. Eyni amplituda mövsümi dalğalanmaların (dövr = 4) mövcudluğunu da görə bilərik, ona görə də əlavə model quracağıq.

Model tikinti daxildir növbəti addımlar:

1. 4 rüb üçün hərəkətli ortalama metodundan istifadə edərək orijinal seriyanı uyğunlaşdıraq və mərkəzləşdirmə aparaq:

1.1. Gəlin hər 4 rüb üçün ardıcıl olaraq seriya səviyyələrini 1 nöqtədə bir yerdəyişmə ilə yekunlaşdıraq.

1.2. Yaranan məbləğləri 4-ə bölmək, hərəkətli ortalamaları tapırıq.

1.3. Bu dəyərləri zamanla faktiki nöqtələrlə uyğunlaşdırırıq, bunun üçün iki ardıcıl hərəkətli ortalamanın orta dəyərini tapırıq - mərkəzləşdirilmiş hərəkətli ortalamalar.

2. Mövsümi dəyişməni hesablayaq. Mövsümi dəyişiklik (t) = y(t) – mərkəzləşdirilmiş hərəkətli orta. Cədvəl 2 quraq.

cədvəl 2

Başdan sona blok nömrəsi t	Elektrik istehlakı Y(t)	4 rüb hərəkətli ortalama	Mərkəzləşdirilmiş hərəkətli orta	Mövsümi dəyişkənliyin qiymətləndirilməsi
	6,0	-	-	-
	4,4	6,1	-	-
	5,0	6,4	6,25	-1,25
	9,0	6,5	6,45	2,55
	7,2	6,75	6,625	0,575
:	:	:	:	:
	6,6	8,35	8,375	-1,775
	7,0	-	-	-
	10,8	-	-	-

3. Cədvəl 3-də mövsümi dəyişikliklərə əsasən, mövsümi komponent hesablanır.

Göstəricilər	il	İlin rüblərinin sayı I II III IV
		-	-	-1,250	2,550
	0,575	-2,075	-1,100	2,700
	0,550	-2,025	-1,475	2,875
	0,675	-1,775	-	-
Ümumi		1,8	-5,875	-3,825	8,125	məbləğ
Orta		0,6	-1,958	-1,275	2,708	0,075
Mövsümi komponent		0,581	-1,977	-1,294	2,690