Bahay Pagtanggal Mga halimbawa ng paglutas ng maraming problema sa regression. Panimula sa Maramihang Pagbabalik

Mga halimbawa ng paglutas ng maraming problema sa regression. Panimula sa Maramihang Pagbabalik

Ang layunin ng multiple regression ay pag-aralan ang relasyon sa pagitan ng isang umaasa at ilang independent variable.

Halimbawa: May data sa halaga ng isang workstation (kapag bumili ng 50 workstation) para sa iba't ibang PDM system. Kinakailangan: suriin ang kaugnayan sa pagitan ng presyo ng isang workstation ng PDM system at ang bilang ng mga katangiang ipinatupad dito, na ibinigay sa Talahanayan 2.

Talahanayan 2 - Mga katangian ng mga PDM system

Numero ng order Sistema ng PDM Presyo Pamamahala ng Configuration ng Produkto Mga modelo ng produkto Pagtutulungan ng magkakasama Pamamahala ng pagbabago ng produkto Daloy ng dokumento Mga archive Maghanap ng mga dokumento Pagpaplano ng proyekto Pamamahala ng paggawa ng produkto
iMAN Oo Oo
PartyYPlus Oo Oo
PDM STEP Suite Oo Oo
Maghanap Oo Oo
Malamig na hangin Oo Oo
Tagapamahala ng Compass Oo Oo
T-Flex Docs Oo Oo
TechnoPro Hindi Hindi

Ang numerical na halaga ng mga katangian (maliban sa "Gastos", "Mga Modelo ng Produkto" at "Pagtutulungan ng magkakasama") ay nangangahulugang ang bilang ng mga kinakailangan ng bawat katangiang ipinatupad.

Gumawa tayo at punan ang isang spreadsheet ng paunang data (Figure 27).

Ang halaga na "1" ng mga variable na "Mod. ed." at "Koleksyon." distrito." tumutugma sa "Oo" na halaga ng source data, at ang halagang "0" sa "Hindi" na halaga ng source data.

Bumuo tayo ng regression sa pagitan ng dependent variable na “Cost” at ng independent variable na “Ex. conf.", "Mod. ed.", "Kolektahin. r-ta", "Hal. mga pagbabago.", "Doc.", "Archives", "Search", "Plan-e", "Control. ginawa."

Upang simulan ang istatistikal na pagsusuri ng pinagmumulan ng data, tawagan ang module na "Multiple Regression" (Figure 22).

Sa dialog box na lalabas (Figure 23), ipahiwatig ang mga variable kung saan isasagawa ang statistical analysis.

Figure 27 - Paunang data

Upang gawin ito, i-click ang pindutan ng Mga Variable at sa dialog box na lilitaw (Figure 28), sa bahagi na tumutugma sa mga dependent variable (Dependant var.), piliin ang "1-Cost", at sa bahagi na tumutugma sa mga independent variable. (Independent variable list), piliin ang lahat ng iba pang variable. Ang pagpili ng ilang mga variable mula sa listahan ay isinasagawa gamit ang "Ctrl" o "Shift" key, o sa pamamagitan ng pagtukoy ng mga numero (saklaw ng mga numero) ng mga variable sa kaukulang field.



Figure 28 - Dialog box para sa pagtatakda ng mga variable para sa statistical analysis

Pagkatapos mapili ang mga variable, i-click ang "OK" na buton sa dialog box para sa pagtatakda ng mga parameter ng "Multiple Regression" module. Sa window na lalabas na may nakasulat na “No of indep. vars. >=(N-1); hindi maaaring baligtarin ang corr. matrix." (Figure 29) pindutin ang "OK" na buton.

Ang mensaheng ito ay lilitaw kapag ang system ay hindi makabuo ng regression para sa lahat ng ipinahayag na independiyenteng mga variable, dahil ang bilang ng mga variable ay mas malaki kaysa sa o katumbas ng bilang ng mga kaso na minus 1.

Sa window na lilitaw (Figure 30) sa tab na "Advanced", maaari mong baguhin ang paraan para sa pagbuo ng regression equation.

Figure 29 - Mensahe ng error

Upang gawin ito, sa field na "Paraan", piliin ang "Ipasa nang sunud-sunod" (step-by-step na may kasama).

Figure 30 - Window para sa pagpili ng isang paraan at pagtatakda ng mga parameter para sa pagbuo ng isang regression equation

Ang stepwise regression method ay binubuo ng pagdaragdag o pagbubukod ng ilang independent variable sa modelo sa bawat hakbang. Kaya, marami sa mga pinaka "makabuluhang" mga variable ay naka-highlight. Pinapayagan ka nitong bawasan ang bilang ng mga variable na naglalarawan sa pagtitiwala.

Stepwise analysis na may elimination (“Backward stepwise”). Sa kasong ito, ang lahat ng mga variable ay unang isasama sa modelo, at pagkatapos ay sa bawat hakbang, ang mga variable na gumagawa ng maliit na kontribusyon sa mga hula ay aalisin. Pagkatapos, bilang resulta ng matagumpay na pagsusuri, ang mga "mahahalagang" variable lamang sa modelo ang maaaring panatilihin, iyon ay, ang mga variable na ang kontribusyon sa diskriminasyon ay mas malaki kaysa sa iba.

Hakbang-hakbang na pagsusuri na may kasama ("Ipasa ang hakbang-hakbang"). Kapag ginagamit ang pamamaraang ito, ang mga independyenteng variable ay sunud-sunod na kasama sa equation ng regression hanggang sa kasiya-siyang inilalarawan ng equation ang orihinal na data. Ang pagsasama ng mga variable ay tinutukoy gamit ang F - test. Sa bawat hakbang, ang lahat ng mga variable ay tinitingnan at ang isa na gumagawa ng pinakamalaking kontribusyon sa pagkakaiba sa pagitan ng mga populasyon ay matatagpuan. Dapat isama ang variable na ito sa modelo sa hakbang na ito at magpatuloy sa susunod na hakbang.

Sa field na “Intercept” (free regression term), maaari mong piliin kung isasama ito sa equation (“Isama sa modelo”) o hindi ito isasaalang-alang at ituring itong katumbas ng zero (“Itakda sa zero”).

Ang parameter na "Tolerance" ay ang tolerance ng mga variable. Tinukoy bilang 1 minus ang parisukat ng koepisyent maramihang ugnayan ang variable na ito kasama ang lahat ng iba pang independent variable sa equation ng regression. Samakatuwid, mas mababa ang tolerance ng isang variable, mas kalabisan ang kontribusyon nito sa equation ng regression. Kung ang tolerance ng alinman sa mga variable sa regression equation ay katumbas o malapit sa zero, kung gayon ang regression equation ay hindi matantya. Samakatuwid, ipinapayong itakda ang parameter ng pagpapaubaya sa 0.05 o 0.1.

Ang parameter na "Ridge regression; lambda:" ay ginagamit kapag ang mga independyenteng variable ay lubos na magkakaugnay, at ang matatag na pagtatantya para sa mga koepisyent ng equation ng regression ay hindi makukuha sa pamamagitan ng pamamaraan. hindi bababa sa mga parisukat. Ang tinukoy na constant (lambda) ay idaragdag sa diagonal ng correlation matrix, na pagkatapos ay muling i-standardize (upang ang lahat ng diagonal na elemento ay katumbas ng 1.0). Sa madaling salita, artipisyal na binabawasan ng parameter na ito ang mga coefficient ng ugnayan upang mas matibay (pa-bias) na mga pagtatantya ng mga parameter ng regression ang makalkula. Sa aming kaso, ang parameter na ito ay hindi ginagamit.

Ang parameter na "Batch processing/printing" ay ginagamit kapag kinakailangan upang agad na maghanda ng ilang talahanayan para sa isang ulat, na sumasalamin sa mga resulta at proseso. pagsusuri ng regression. Ang opsyon na ito ay lubhang kapaki-pakinabang kapag kailangan mong i-print o pag-aralan ang mga resulta ng isang stepwise regression analysis sa bawat hakbang.

Sa tab na "Stepwise" (Figure 31), maaari kang magtakda ng mga parameter para sa mga kundisyon para sa pagsasama ("F to enter") o pagbubukod ("F to remove") ng mga variable kapag gumagawa ng regression equation, pati na rin ang bilang ng hakbang para sa pagbuo ng equation (“Bilang ng mga hakbang”).

Figure 31 – tab na “Stepwise” ng window para sa pagpili ng paraan at pagtatakda ng mga parameter ng konstruksiyon equation ng regression

Ang F ay ang magnitude ng halaga ng F-test.

Kung, sa panahon ng sunud-sunod na pagsusuri na may pagsasama, kinakailangan na ang lahat o halos lahat ng mga variable ay pumasok sa equation ng regression, kung gayon ang halaga ng "F upang ipasok" ay dapat na itakda sa pinakamababa (0.0001), at ang "F upang alisin Ang halaga ng ” ay dapat ding itakda sa minimum.

Kung, sa panahon ng sunud-sunod na pagsusuri na may pagbubukod, kinakailangan na alisin ang lahat ng mga variable (isa-isa) mula sa equation ng regression, kung gayon kinakailangan na itakda ang halaga ng "F para ipasok" na napakalaki, halimbawa 999, at itakda ang halagang "F para tanggalin" malapit sa "F para makapasok".

Dapat tandaan na ang halaga ng parameter na "F para tanggalin" ay dapat palaging mas mababa kaysa sa "F para ipasok".

Ang opsyong "Ipakita ang mga resulta" ay may dalawang opsyon:

2) Sa bawat hakbang – ipakita ang mga resulta ng pagsusuri sa bawat hakbang.

Pagkatapos i-click ang pindutang "OK" sa window para sa pagpili ng mga pamamaraan ng pagsusuri ng regression, lilitaw ang window ng mga resulta ng pagsusuri (Larawan 32).

Figure 32 - Window ng mga resulta ng pagsusuri

Figure 33 - Maikling resulta ng pagsusuri ng regression

Ayon sa mga resulta ng pagsusuri, ang koepisyent ng pagpapasiya ay . Nangangahulugan ito na ang itinayong regression ay nagpapaliwanag ng 99.987% ng pagkalat ng mga halaga na may kaugnayan sa average, i.e. ipinapaliwanag ang halos lahat ng pagkakaiba-iba ng mga variable.

Pinakamahalaga at ang antas ng kahalagahan nito ay nagpapakita na ang nabuong regression ay lubos na makabuluhan.

Upang tingnan mga resulta ng buod regression, i-click ang "Buod: Regression result" na buton. Lalabas ang screen spreadsheet kasama ang mga resulta ng pagsusuri (Figure 33).

Ang ikatlong column (“B”) ay nagpapakita ng mga pagtatantya ng hindi kilalang mga parameter ng modelo, i.e. regression equation coefficients.

Kaya, ang nais na regression ay ganito ang hitsura:

Ang isang qualitatively constructed regression equation ay maaaring bigyang-kahulugan bilang mga sumusunod:

1) Ang halaga ng isang PDM system ay tumataas kasabay ng pagtaas ng bilang ng mga ipinatupad na function para sa pamamahala ng pagbabago, daloy ng dokumento at pagpaplano, at gayundin kung ang system ay may kasamang function ng suporta sa modelo ng produkto;

2) Bumababa ang halaga ng isang PDM system sa pagtaas ng mga function ng pamamahala sa pagsasaayos na ipinatupad at sa pagtaas ng mga kakayahan sa paghahanap.

Ang layunin ng maramihang linear regression ay ang bumuo ng isang linear na modelo ng relasyon sa pagitan ng isang set ng tuluy-tuloy na predictors at isang tuluy-tuloy na dependent variable. Ang sumusunod na equation ng regression ay kadalasang ginagamit:

Dito at ako- mga coefficient ng regression, b 0- libreng miyembro (kung ginamit), e- isang termino na naglalaman ng isang error - iba't ibang mga pagpapalagay ang ginawa tungkol dito, na, gayunpaman, mas madalas na bumaba sa normalidad ng pamamahagi na may zero vector mat. mga inaasahan at matris ng ugnayan.

Ang linear na modelong ito ay mahusay na naglalarawan ng maraming problema sa iba't ibang paksa, halimbawa, ekonomiya, industriya, medisina. Ito ay dahil ang ilang mga problema ay linear sa kalikasan.

Magbigay tayo ng isang simpleng halimbawa. Ipagpalagay na kailangan mong hulaan ang halaga ng paglalagay ng kalsada batay sa mga kilalang parameter nito. Kasabay nito, mayroon kaming data sa mga kalsada na inilatag na, na nagpapahiwatig ng haba, lalim ng simento, dami ng materyal na nagtatrabaho, bilang ng mga manggagawa, at iba pa.

Ito ay malinaw na ang halaga ng kalsada ay magiging kalaunan katumbas ng halaga magkahiwalay ang mga gastos ng lahat ng mga salik na ito. Kakailanganin mo ang isang tiyak na halaga, halimbawa, ng durog na bato, na may alam na halaga bawat tonelada, at isang tiyak na halaga ng aspalto, na may alam ding halaga.

Maaaring kailanganin na putulin ang mga kagubatan para sa pag-install, na hahantong din sa mga karagdagang gastos. Ang lahat ng ito ay magkakasamang magbibigay ng gastos sa paglikha ng kalsada.

Sa kasong ito, ang modelo ay magsasama ng isang libreng miyembro na, halimbawa, ay magiging responsable para sa mga gastos sa organisasyon (na halos pareho para sa lahat ng konstruksiyon at pag-install ng isang partikular na antas) o mga bawas sa buwis.

Ang error ay magsasama ng mga kadahilanan na hindi namin isinasaalang-alang kapag nagtatayo ng modelo (halimbawa, lagay ng panahon sa panahon ng konstruksiyon - sa pangkalahatan ay imposibleng isaalang-alang ito).

Halimbawa: Multiple Regression Analysis

Para sa halimbawang ito, susuriin ang ilang posibleng ugnayan ng rate ng kahirapan at ang antas na hinuhulaan ang porsyento ng mga pamilyang nasa ibaba ng linya ng kahirapan. Samakatuwid, isasaalang-alang natin ang variable na nagpapakilala sa porsyento ng mga pamilya sa ibaba ng linya ng kahirapan upang maging isang dependent variable, at ang natitirang mga variable ay patuloy na predictors.

Mga coefficient ng regression

Upang malaman kung alin sa mga independyenteng variable ang higit na nag-aambag sa paghula ng mga antas ng kahirapan, sinusuri namin standardized coefficients(o Beta) regression.

kanin. 1. Mga pagtatantya ng mga parameter ng mga coefficient ng regression.

Ang mga beta coefficient ay ang mga coefficient na makukuha mo kung na-normalize mo ang lahat ng mga variable sa isang mean na 0 at isang standard deviation na 1. Samakatuwid, ang magnitude ng mga Beta coefficient na ito ay nagbibigay-daan sa iyo na ihambing ang kaugnay na kontribusyon ng bawat independent variable sa dependent variable. Tulad ng makikita mula sa talahanayan na ipinakita sa itaas, ang mga variable na nagbabago sa populasyon mula noong 1960 (POP_ CHING), porsyento ng populasyon na naninirahan sa mga rural na lugar (PT_RURAL) at bilang ng mga taong nagtatrabaho sa agrikultura (N_Empld) ay ang pinakamahalagang hula ng kahirapan mga antas, dahil tanging ang mga ito ay makabuluhan ayon sa istatistika (95% sa kanila agwat ng kumpiyansa hindi kasama ang 0). Ang koepisyent ng regression para sa pagbabago ng populasyon mula noong 1960 (Pop_Chng) ay negatibo, samakatuwid, mas mababa ang pagtaas ng populasyon, ang mas maraming pamilya na nakatira sa ibaba ng linya ng kahirapan sa kani-kanilang county. Ang regression coefficient para sa populasyon (%) na naninirahan sa nayon (Pt_Rural) ay positibo, ibig sabihin, mas mataas ang porsyento mga residente sa kanayunan, mas mataas ang antas ng kahirapan.

Kahalagahan ng mga epekto ng predictor

Tingnan natin ang talahanayan na may pamantayan sa kahalagahan.

kanin. 2. Sabay-sabay na mga resulta para sa bawat ibinigay na variable.

Gaya ng ipinapakita ng Talahanayan na ito, ang mga epekto lamang ng 2 variable ay makabuluhan ayon sa istatistika: pagbabago ng populasyon mula noong 1960 (Pop_Chng) at porsyento ng populasyon na naninirahan sa isang nayon (Pt_Rural), p< .05.

Pagsusuri ng nalalabi. Pagkatapos maglagay ng equation ng regression, halos palaging kailangan mong suriin ang mga hinulaang halaga at nalalabi. Halimbawa, ang malalaking outlier ay maaaring lubos na masira ang mga resulta at humantong sa mga maling konklusyon.

Line-by-line na graph ng mga emisyon

Karaniwang kinakailangan upang suriin ang orihinal o standardized na residues para sa malalaking outlier.

kanin. 3. Mga numero ng pagmamasid at nalalabi.

Ang sukat ng patayong axis ng graph na ito ay naka-plot ayon sa halaga ng sigma, ibig sabihin, karaniwang lihis mga tira Kung ang isa o higit pang mga obserbasyon ay hindi nahuhulog sa loob ng ±3 beses na agwat ng sigma, maaaring sulit na alisin ang mga obserbasyon na iyon (madali itong magawa sa pamamagitan ng mga kundisyon sa pagpili ng pagmamasid) at muling patakbuhin ang pagsusuri upang matiyak na ang mga resulta ay hindi apektado ng mga ito. outliers.

Mga distansya ng Mahalanobis

Karamihan sa mga statistics textbook ay gumugugol ng maraming oras sa mga outlier at residual tungkol sa dependent variable. Gayunpaman, ang papel ng mga outlier sa mga predictor ay madalas na nananatiling hindi nakikilala. Sa panig ng variable na predictor mayroong isang listahan ng mga variable na lumalahok sa iba't ibang mga timbang (regression coefficients) sa paghula ng dependent variable. Maaari mong isipin ang mga independyenteng variable bilang isang multidimensional na espasyo kung saan ang anumang pagmamasid ay maaaring i-plot. Halimbawa, kung mayroon kang dalawang independent variable na may pantay na regression coefficient, maaari kang mag-plot ng scatter plot ng dalawang variable at ilagay ang bawat observation sa plot na iyon. Pagkatapos ay maaari mong markahan ang average na halaga sa graph na ito at kalkulahin ang mga distansya mula sa bawat obserbasyon hanggang sa average na ito (ang tinatawag na sentro ng grabidad) sa dalawang-dimensional na espasyo. Ito ang pangunahing ideya sa likod ng pagkalkula ng distansya ng Mahalanobis. Ngayon tingnan natin ang histogram ng variable ng pagbabago ng populasyon mula noong 1960.

kanin. 4. Histogram ng Mahalanobis distance distribution.

Ito ay sumusunod mula sa graph na mayroong isang outlier sa mga distansyang Mahalanobis.

kanin. 5. Naobserbahan, hinulaang at natitirang halaga.

Pansinin na ang Shelby County (sa unang hanay) ay namumukod-tangi sa iba pang mga county. Kung titingnan mo ang raw data, makikita mo na ang Shelby County talaga ang may pinakamataas na bilang ng mga taong nagtatrabaho sa agrikultura (variable N_Empld). Maaaring makatwirang ipahayag ito bilang isang porsyento sa halip na isang ganap na bilang, kung saan ang layo ng Mahalanobis ng Shelby County ay malamang na hindi kasing laki kumpara sa ibang mga county. Malinaw na ang Shelby County ay isang outlier.

Inalis ang mga Labi

Ang isa pang napakahalagang istatistika na tumutulong sa pagtatasa ng kalubhaan ng isang problema sa paglabas ay ang mga inalis na nalalabi. Ito ang mga standardized na residual para sa kaukulang mga obserbasyon na nakuha kapag ang pagmamasid na iyon ay inalis mula sa pagsusuri. Tandaan na ang multiple regression procedure ay umaangkop sa regression surface upang ipakita ang kaugnayan sa pagitan ng dependent variable at predictor variable. Kung ang isang obserbasyon ay isang outlier (tulad ng Shelby County), may posibilidad na ang ibabaw ng regression ay "hilahin" patungo sa outlier na iyon. Bilang resulta, kung aalisin ang kaukulang obserbasyon, ibang surface (at Beta coefficient) ang makukuha. Samakatuwid, kung ang mga natanggal na nalalabi ay ibang-iba sa mga standardized na nalalabi, magkakaroon ka ng dahilan upang maniwala na ang pagsusuri ng regression ay seryosong bias ng kaukulang obserbasyon. Sa halimbawang ito, ang mga inalis na residual para sa Shelby County ay nagpapakita na ito ay isang outlier, na seryosong pinapakiling ang pagsusuri. Ang scatterplot ay malinaw na nagpapakita ng isang outlier.

kanin. 6. Mga inisyal na nalalabi at Tinanggal na mga nalalabi ng isang variable na nagsasaad ng porsyento ng mga pamilyang naninirahan sa ibaba ng antas ng subsistence.

Karamihan sa kanila ay may higit o hindi gaanong malinaw na mga interpretasyon, gayunpaman, buksan natin ang mga normal na probability graph.

Gaya ng nabanggit na, ipinapalagay ng maramihang regression na mayroong isang linear na relasyon sa pagitan ng mga variable sa equation at ang mga nalalabi ay karaniwang ipinamamahagi. Kung ang mga pagpapalagay na ito ay nilabag, ang konklusyon ay maaaring hindi tumpak. Sasabihin sa iyo ng isang normal na probabilidad na plot ng mga residual kung may mga seryosong paglabag sa mga pagpapalagay na ito o wala.

kanin. 7. Normal na probability graph; Mga paunang balanse.

Ang graph na ito ay ginawa bilang mga sumusunod. Una, ang mga standardized residual ay niraranggo sa pagkakasunud-sunod. Mula sa mga ranggo na ito, ang mga z-scores (i.e., mga karaniwang halaga ng normal na distribusyon) ay maaaring kalkulahin batay sa pagpapalagay na ang data ay sumusunod. normal na pamamahagi. Ang mga z value na ito ay naka-plot sa y axis sa graph.

Kung ang mga naobserbahang nalalabi (naka-plot sa kahabaan ng x-axis) ay karaniwang ipinamamahagi, kung gayon ang lahat ng mga halaga ay mahuhulog sa isang tuwid na linya sa graph. Sa aming graph, ang lahat ng mga punto ay napakalapit sa curve. Kung ang mga nalalabi ay hindi karaniwang ipinamamahagi, pagkatapos ay lumihis sila mula sa linyang ito. Nagiging kapansin-pansin din ang mga outlier sa graph na ito.

Kung may pagkawala ng fit at ang data ay lumilitaw na bumubuo ng isang malinaw na kurba (hal., isang S na hugis) tungkol sa linya, kung gayon ang dependent variable ay maaaring mabago sa ilang paraan (hal., isang logarithmic transformation upang "paliitin" ang buntot ng ang pamamahagi, atbp.). Ang pagtalakay sa pamamaraang ito ay lampas sa saklaw ng halimbawang ito (Neter, Wasserman, at Kutner, 1985, pp. 134–141, ay nagpapakita ng talakayan ng mga pagbabagong nag-aalis ng hindi normalidad at nonlinearity sa data). Gayunpaman, ang mga mananaliksik ay madalas na direktang nagsasagawa ng mga pagsusuri nang hindi sinusuri ang pinagbabatayan na mga pagpapalagay, na humahantong sa mga maling konklusyon.

Ipagpalagay na tinatasa ng isang developer ang halaga ng isang pangkat ng maliliit na gusali ng opisina sa isang tradisyonal na distrito ng negosyo.

Ang isang developer ay maaaring gumamit ng maramihang pagsusuri ng regression upang tantyahin ang presyo ng isang gusali ng opisina lugar na ito batay sa mga sumusunod na variable.

y ay ang tinantyang presyo ng isang gusali ng opisina;

x 1 - kabuuang lugar sa metro kuwadrado;

x 2 - bilang ng mga opisina;

x 3 - bilang ng mga input (0.5 input ay nangangahulugang input lamang para sa paghahatid ng sulat);

x 4 - oras ng pagpapatakbo ng gusali sa mga taon.

Ipinapalagay ng halimbawang ito na mayroon linear dependence sa pagitan ng bawat independent variable (x 1, x 2, x 3 at x 4) at ng dependent variable (y), iyon ay, ang presyo ng isang gusali ng opisina sa isang partikular na lugar. Ang pinagmulan ng data ay ipinapakita sa figure.

Ang mga setting para sa paglutas ng problema ay ipinapakita sa larawan ng window " Regression". Ang mga resulta ng pagkalkula ay inilalagay sa isang hiwalay na sheet sa tatlong talahanayan

Bilang resulta, nakuha namin ang mga sumusunod matematikal na modelo:

y = 52318 + 27.64*x1 + 12530*x2 + 2553*x3 - 234.24*x4.

Ngayon ay matutukoy ng developer ang tinantyang halaga ng isang gusali ng opisina sa parehong lugar. Kung ang gusaling ito ay may lawak na 2500 metro kuwadrado, tatlong opisina, dalawang pasukan at buhay ng serbisyo na 25 taon, maaari mong tantyahin ang halaga nito gamit ang sumusunod na formula:

y = 27.64*2500 + 12530*3 + 2553*2 - 234.24*25 + 52318 = 158,261 c.u.

Sa pagsusuri ng regression, ang pinakamahalagang resulta ay:

  • coefficients ng mga variable at Y-intersection, na siyang mga kinakailangang parameter ng modelo;
  • maramihang R, na nagpapakilala sa katumpakan ng modelo para sa magagamit na mapagkukunan ng data;
  • Fisher's F test(sa halimbawang isinasaalang-alang, ito ay higit na lumampas kritikal na halaga, katumbas ng 4.06);
  • t-statistic- mga halaga na nagpapakilala sa antas ng kahalagahan ng mga indibidwal na coefficient ng modelo.

Ang t-statistics ay nararapat na espesyal na atensyon. Kadalasan, kapag gumagawa ng modelo ng regression, hindi alam kung ito o ang salik na iyon x ay nakakaapekto sa y. Ang pagsasama ng mga salik sa modelo na hindi nakakaapekto sa halaga ng output ay nagpapababa sa kalidad ng modelo. Nakakatulong ang pagkalkula ng mga t-statistics na matukoy ang mga ganitong salik. Ang isang tinatayang pagtatantya ay maaaring gawin tulad ng sumusunod: kung para sa n>>k ang halaga ng t-statistics para sa ganap na halaga makabuluhang higit sa tatlo, ang kaukulang koepisyent ay dapat ituring na makabuluhan, at ang kadahilanan ay dapat isama sa modelo, kung hindi man ay hindi kasama sa modelo. Kaya, maaari kaming magmungkahi ng isang teknolohiya para sa pagbuo ng isang modelo ng regression, na binubuo ng dalawang yugto:

1) proseso gamit ang package " Regression"lahat ng magagamit na data, pag-aralan ang mga halaga ng t-statistic;

2) alisin mula sa talahanayan ng pinagmulan ng data ang mga hanay na may mga kadahilanan kung saan ang mga coefficient ay hindi gaanong mahalaga at iproseso ang mga ito gamit ang package " Regression"bagong table.

Magandang hapon, mahal na mga mambabasa.
Sa mga nakaraang artikulo, sa praktikal na mga halimbawa, nagpakita ako ng mga paraan upang malutas ang mga problema sa pag-uuri (problema sa pagmamarka ng kredito) at ang mga pangunahing kaalaman sa pagsusuri ng impormasyon sa teksto (problema sa pasaporte). Ngayon nais kong hawakan ang isa pang klase ng mga problema, katulad ng pagbawi ng regression. Ang mga problema ng klase na ito ay karaniwang ginagamit sa pagtataya.
Para sa isang halimbawa ng paglutas ng problema sa pagtataya, kinuha ko ang set ng data ng Energy efficiency mula sa pinakamalaking repositoryo ng UCI. Ayon sa kaugalian, gagamitin namin ang Python kasama ang mga analytical package na pandas at scikit-learn bilang mga tool.

Paglalarawan ng set ng data at pahayag ng problema

Dahil sa set ng data na naglalarawan sa mga sumusunod na katangian ng kwarto:

Naglalaman ito ng mga katangian ng silid batay sa kung saan isasagawa ang pagsusuri, at ang mga halaga ng pag-load na kailangang mahulaan.

Paunang pagsusuri ng datos

Una, i-download natin ang aming data at tingnan ito:

Mula sa pag-import ng pandas read_csv, ang DataFrame mula sa sklearn.neighbors ay nag-import ng KNeighborsRegressor mula sa pag-import ng sklearn.linear_model LinearRegression, LogisticRegression mula sa sklearn.svm import SVR mula sa sklearn.ensemble na pag-import ng RandomForestRegressor mula sa sklearn_valis importation ng rklearn = read_csv("EnergyEffici ency /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Ngayon tingnan natin kung ang anumang mga katangian ay nauugnay sa isa't isa. Magagawa ito sa pamamagitan ng pagkalkula ng mga coefficient ng ugnayan para sa lahat ng mga column. Kung paano gawin ito ay inilarawan sa nakaraang artikulo:

Dataset.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1.000000e+00 -9.919015e-01 -2.037817e-01 -8.688234e-01 8.277473e-01 0.000000 1.283986e-17 1.764620e-17 0.622272 0.634339
X2 -9.919015e-01 1.000000e+00 1.955016e-01 8.807195e-01 -8.581477e-01 0.000000 1.318356e-16 -3.558613e-16 -0.658120 -0.672999
X3 -2.037817e-01 1.955016e-01 1.000000e+00 -2.923165e-01 2.809757e-01 0.000000 -7.969726e-19 0.000000e+00 0.455671 0.427117
X4 -8.688234e-01 8.807195e-01 -2.923165e-01 1.000000e+00 -9.725122e-01 0.000000 -1.381805e-16 -1.079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8.581477e-01 2.809757e-01 -9.725122e-01 1.000000e+00 0.000000 1.861418e-18 0.000000e+00 0.889431 0.895785
X6 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 1.000000 0.000000e+00 0.000000e+00 -0.002587 0.014290
X7 1.283986e-17 1.318356e-16 -7.969726e-19 -1.381805e-16 1.861418e-18 0.000000 1.000000e+00 2.129642e-01 0.269841 0.207505
X8 1.764620e-17 -3.558613e-16 0.000000e+00 -1.079129e-16 0.000000e+00 0.000000 2.129642e-01 1.000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6.581202e-01 4.556712e-01 -8.618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6.729989e-01 4.271170e-01 -8.625466e-01 8.957852e-01 0.014290 2.075050e-01 5.052512e-02 0.975862 1.000000

Tulad ng nakikita mo mula sa aming matrix, ang mga sumusunod na column ay magkakaugnay sa isa't isa (ang halaga ng koepisyent ng ugnayan ay higit sa 95%):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
Ngayon, piliin natin kung aling mga column ng ating mga pares ang maaari nating alisin sa ating sample. Upang gawin ito, sa bawat pares, pipiliin namin ang mga column na may mas malaking epekto sa mga hinulaang halaga Y1 At Y2 at iwanan ang mga ito at tanggalin ang natitira.
Gaya ng nakikita mo, ang mga matrice na may mga coefficient ng ugnayan sa y1 ,y2 may higit na kahalagahan X2 At X5 kaysa sa X1 at X4, para maalis natin ang mga huling column.

Dataset = dataset.drop(["X1","X4"], axis=1) dataset.head()
Bilang karagdagan, maaari mong mapansin na ang mga patlang Y1 At Y2 magkaugnay nang napakalapit sa isa't isa. Ngunit, dahil kailangan nating hulaan ang parehong mga halaga, iniiwan natin ang mga ito "as is".

Pagpili ng modelo

Paghiwalayin natin ang mga hinulaang halaga mula sa aming sample:

Trg = dataset[["Y1","Y2"]] trn = dataset.drop(["Y1","Y2"], axis=1)
Pagkatapos ng pagproseso ng data, maaari kang magpatuloy sa pagbuo ng isang modelo. Upang bumuo ng modelo ay gagamitin namin ang mga sumusunod na pamamaraan:

Ang teorya tungkol sa mga pamamaraang ito ay mababasa sa kurso ng mga lektura ni K.V.
Magsasagawa kami ng pagtatasa gamit ang koepisyent ng pagpapasiya ( R-square). Ang koepisyent na ito ay tinutukoy bilang mga sumusunod:

Nasaan ang conditional variance ng dependent quantity sa sa pamamagitan ng kadahilanan X.
Ang koepisyent ay kumukuha ng halaga sa isang pagitan at kung mas malapit ito sa 1, mas malakas ang pagtitiwala.
Well, ngayon ay maaari kang pumunta nang direkta sa pagbuo ng isang modelo at pagpili ng isang modelo. Ilagay natin ang lahat ng ating mga modelo sa isang listahan para sa kadalian ng karagdagang pagsusuri:

Mga modelo =
Kaya't handa na ang mga modelo, ngayon ay hahatiin namin ang aming paunang data sa 2 subsample: pagsusulit At pang-edukasyon. Alam ng mga nakabasa ng aking mga nakaraang artikulo na magagawa ito gamit ang train_test_split() function mula sa scikit-learn package:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0.4)
Ngayon, dahil kailangan nating hulaan ang 2 parameter, kailangan nating bumuo ng regression para sa bawat isa sa kanila. Bilang karagdagan, para sa karagdagang pagsusuri, maaari mong itala ang mga resulta na nakuha sa isang pansamantalang Balangkas ng mga datos. Magagawa mo ito tulad nito:

#create temporary structures TestModels = DataFrame() tmp = () #para sa bawat modelo mula sa listahan para sa modelo sa mga modelo: #get the model name m = str(model) tmp["Model"] = m[:m.index( "( ")] #para sa bawat column ng resultang itinakda para sa i sa xrange(Ytrn.shape): #train ang model model.fit(Xtrn, Ytrn[:,i]) #calculate the coefficient of determination tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #itala ang data at ang huling DataFrame TestModels = TestModels.append() #gumawa ng index ayon sa modelo pangalan TestModels.set_index("Model", inplace= True)
Tulad ng makikita mo mula sa code sa itaas, ang r2_score() function ay ginagamit upang kalkulahin ang coefficient.
Kaya, ang data para sa pagsusuri ay natanggap. I-plot natin ngayon ang mga graph at tingnan kung aling modelo ang nagpakita ng pinakamahusay na resulta:

Fig, axes = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Pagsusuri ng mga resulta at konklusyon

Mula sa mga graph sa itaas, maaari nating tapusin na ang pamamaraan ay nakayanan ang gawain nang mas mahusay kaysa sa iba RandomForest(random na kagubatan). Ang mga coefficients ng determinasyon nito ay mas mataas kaysa sa iba para sa parehong mga variable:
Para sa karagdagang pagsusuri, sanayin nating muli ang ating modelo:

Modelo = models model.fit(Xtrn, Ytrn)
Sa mas malapit na pagsusuri, ang tanong ay maaaring lumitaw kung bakit ang umaasa na sample ay hinati sa nakaraang panahon. Ytrn sa mga variable (sa pamamagitan ng mga column), ngunit ngayon ay hindi namin ginagawa iyon.
Ang punto ay ang ilang mga pamamaraan, tulad ng RandomForestRegressor, ay maaaring makitungo sa maraming variable ng predictor, habang ang iba (hal. SVR) ay maaari lamang gumana sa isang variable. Samakatuwid, sa nakaraang pagsasanay, ginamit namin ang paghahati ng haligi upang maiwasan ang mga error sa proseso ng pagbuo ng ilang mga modelo.
Siyempre, maganda ang pagpili ng modelo, ngunit maganda rin na magkaroon ng impormasyon kung paano nakakaapekto ang bawat salik sa hinulaang halaga. Para sa layuning ito, ang modelo ay may ari-arian feature_importances_.
Gamit ito, makikita mo ang bigat ng bawat salik sa mga huling modelo:

Model.feature_importances_
array([ 0.40717901, 0.11394948, 0.34984766, 0.00751686, 0.09158358,
0.02992342])

Sa aming kaso, makikita na ang pangkalahatang taas at lugar ay nakakaapekto sa pag-init at paglamig ng load. Ang kanilang kabuuang kontribusyon sa modelo ng pagtataya ay halos 72%.
Dapat ding tandaan na gamit ang diagram sa itaas maaari mong makita ang impluwensya ng bawat kadahilanan nang hiwalay sa pag-init at hiwalay sa paglamig, ngunit dahil ang mga salik na ito ay napakalapit na nauugnay sa isa't isa (), gumawa kami ng isang pangkalahatang konklusyon tungkol sa pareho sa kanila, na nakasulat sa itaas.

Konklusyon

Sa artikulong sinubukan kong ipakita ang mga pangunahing yugto sa pagsusuri ng data ng regression gamit ang Python at analytical na mga pakete panda At scikit-matuto.
Dapat tandaan na ang set ng data ay espesyal na pinili sa paraang maging pormal hangga't maaari at ang pangunahing pagproseso ng data ng input ay magiging minimal. Sa palagay ko, ang artikulo ay magiging kapaki-pakinabang para sa mga nagsisimula pa lamang sa kanilang paglalakbay sa pagsusuri ng data, gayundin para sa mga may mahusay na teoretikal na batayan, ngunit pumipili ng mga tool para sa trabaho.

Mga Tanong:

4. Pagtatantya ng mga parameter ng isang linear na modelo ng multiple regression.

5. Pagtatasa ng kalidad ng multiple linear regression.

6. Pagsusuri at pagtataya batay sa mga multifactor na modelo.

Ang multiple regression ay isang generalization ng pairwise regression. Ito ay ginagamit upang ilarawan ang kaugnayan sa pagitan ng ipinaliwanag (umaasa) na variable Y at ang nagpapaliwanag (independiyente) na mga variable X 1, X 2,..., X k. Ang multiple regression ay maaaring maging linear o nonlinear, ngunit ang linear multiple regression ay pinakalaganap sa ekonomiya.

Ang theoretical linear multiple regression model ay may anyo:

Tukuyin natin ang kaukulang sample regression:

Tulad ng sa pairwise regression, ang random na term na ε ay dapat matugunan ang mga pangunahing pagpapalagay ng regression analysis. Pagkatapos, gamit ang OLS, ang pinakamahusay na walang pinapanigan at mahusay na mga pagtatantya ng mga parameter ng teoretikal na regression ay nakuha. Bilang karagdagan, ang mga variable na X 1, X 2,…, X k ay dapat na walang ugnayan (linearly independent) sa isa't isa. Upang maisulat ang mga formula para sa pagtatantya ng mga coefficient ng regression (2), na nakuha batay sa hindi bababa sa mga parisukat, ipinakilala namin ang sumusunod na notasyon:

Pagkatapos ay maaari tayong sumulat sa anyong vector-matrix teoretikal na modelo:

at sample regression

Ang OLS ay humahantong sa sumusunod na formula para sa pagtatantya ng vector ng mga sample na coefficient ng regression:

(3)

Upang matantya ang maramihang mga linear regression coefficient na may dalawang independent variable , maaari nating lutasin ang sistema ng mga equation:

(4)

Tulad ng ipinares na linear regression, ang karaniwang regression error S ay kinakalkula para sa maramihang regression:

(5)

at mga karaniwang error ng regression coefficients:

(6)

Sinusuri ang kahalagahan ng mga koepisyent gamit ang t-test.

pagkakaroon ng extension ng Mag-aaral na may bilang ng mga antas ng kalayaan v= n-k-1.

Upang masuri ang kalidad ng regression, ang determination coefficient (index) ay ginagamit:

, (8)

mas malapit sa 1, mas mataas ang kalidad ng regression.

Upang suriin ang kahalagahan ng koepisyent ng pagpapasiya, ginagamit ang Fisher test o F-statistic.



(9)

Sa v 1=k, v 2=n-k-1 digri ng kalayaan.

Sa multivariate regression, ang pagdaragdag ng mga karagdagang paliwanag na variable ay nagpapataas ng koepisyent ng determinasyon. Upang mabayaran ang pagtaas na ito, ipinakilala ang isang inayos (o normalized) na koepisyent ng determinasyon:

(10)

Kung maliit ang pagtaas sa proporsyon ng ipinaliwanag na regression kapag nagdaragdag ng bagong variable, maaari itong bumaba. Nangangahulugan ito na ang pagdaragdag ng bagong variable ay hindi naaangkop.

Halimbawa 4:

Isaalang-alang natin ang pag-asa ng kita ng negosyo sa mga gastos ng mga bagong kagamitan at teknolohiya at sa mga gastos sa pagpapabuti ng mga kasanayan ng mga manggagawa. Ang data ng istatistika sa 6 na katulad na mga negosyo ay nakolekta. Data sa milyun-milyong dolyar. mga yunit ay ibinigay sa talahanayan 1.

Talahanayan 1

Bumuo ng dalawang-factor linear regression at suriin ang kahalagahan nito. Ipakilala natin ang sumusunod na notasyon:

Inilipat namin ang matrix X:

Inversion ng matrix na ito:

Kaya, ang pag-asa ng kita sa mga gastos ng mga bagong kagamitan at teknolohiya at sa mga gastos sa pagpapabuti ng mga kasanayan ng mga manggagawa ay maaaring ilarawan ng sumusunod na regression:

Gamit ang formula (5), kung saan k=2, kinakalkula namin ang karaniwang regression error S=0.636.

Kinakalkula namin ang mga karaniwang error ng mga coefficient ng regression gamit ang formula (6):

Gayundin:

Suriin natin ang kahalagahan ng regression coefficients a 1, a 2. Kalkulahin natin ang t calc.

Piliin natin ang antas ng kahalagahan, ang bilang ng mga antas ng kalayaan

nangangahulugan ng koepisyent a 1 makabuluhan

Suriin natin ang kahalagahan ng coefficient a 2:

Coefficient a 2 hindi gaanong mahalaga

Kalkulahin natin ang coefficient of determination gamit ang formula (7). Ang kita ng isang negosyo ay nakasalalay ng 96% sa mga gastos ng bagong kagamitan at teknolohiya at sa advanced na pagsasanay ng 4% sa iba at random na mga kadahilanan. Suriin natin ang kahalagahan ng coefficient of determination. Kalkulahin natin ang kinakalkula ng F:

yun. ang koepisyent ng determinasyon ay makabuluhan, ang regression equation ay makabuluhan.

Ang malaking kahalagahan sa pagsusuri batay sa multivariate regression ay ang paghahambing ng impluwensya ng mga salik sa dependent indicator y. Ang mga regression coefficient ay hindi ginagamit para sa layuning ito dahil sa mga pagkakaiba sa mga yunit ng pagsukat at iba't ibang antas pagbabagu-bago. Mula sa mga pagkukulang na ito, ang mga libreng koepisyent ng pagkalastiko:

Ang pagkalastiko ay nagpapakita ng kung anong porsyento sa karaniwan ang dependent indicator y nagbabago kapag ang isang variable ay nagbabago ng 1%, sa kondisyon na ang mga halaga ng iba pang mga variable ay nananatiling hindi nagbabago. Ang mas malaki, mas malaki ang impluwensya ng kaukulang variable. Tulad ng sa pairwise regression, maramihang regression ang nakikilala sa pagitan ng point forecast at interval forecast. Ang point forecast (numero) ay nakuha sa pamamagitan ng pagpapalit ng mga hinulaang halaga ng mga independiyenteng variable sa multiple regression equation. Tukuyin natin sa pamamagitan ng:

(12)

vector ng mga hinulaang halaga ng mga independiyenteng variable, pagkatapos ay ang point forecast

Ang karaniwang error ng hula sa kaso ng maramihang regression ay tinutukoy bilang mga sumusunod:

(15)

Piliin natin ang antas ng kahalagahan α ayon sa talahanayan ng pamamahagi ng Mag-aaral. Para sa antas ng kahalagahan α at ang bilang ng mga antas ng kalayaan ν = n-k-1, makikita natin ang t cr. Pagkatapos ang tunay na halaga y p na may posibilidad na 1- α ay bumaba sa pagitan:


Paksa 5:

Serye ng oras.

Mga Tanong:

4. Pangunahing konsepto ng time series.

5. Ang pangunahing kalakaran sa pag-unlad ay isang kalakaran.

6. Pagbuo ng isang additive model.

Serye ng oras kumakatawan sa isang hanay ng mga halaga ng anumang tagapagpahiwatig para sa ilang magkakasunod na sandali o yugto ng panahon.

Ang sandali (o yugto) ng oras ay tinutukoy ng t, at ang halaga ng tagapagpahiwatig sa sandali ng oras ay tinutukoy ng y(t) at tinatawag antas ng hilera .

Ang bawat antas ng serye ng oras ay nabuo sa ilalim ng impluwensya ng isang malaking bilang ng mga kadahilanan, na maaaring nahahati sa 3 pangkat:

Pangmatagalan, patuloy na nagpapatakbo ng mga kadahilanan na may mapagpasyang impluwensya sa kababalaghan sa ilalim ng pag-aaral at bumubuo sa pangunahing trend ng serye - ang trend T(t).

Panandaliang pana-panahong mga salik na bumubuo ng mga pana-panahong pagbabagu-bago sa serye ng S(t).

Random na mga kadahilanan na bumubuo ng mga random na pagbabago sa mga antas ng serye ε(t).

Additive na modelo Ang time series ay isang modelo kung saan ang bawat antas ng serye ay kinakatawan ng kabuuan ng trend, seasonal at random na mga bahagi:

Multiplicative na modelo ay isang modelo kung saan ang bawat antas ng serye ay produkto ng mga nakalistang bahagi:

Ang pagpili ng isa sa mga modelo ay batay sa isang pagsusuri ng istraktura ng mga pana-panahong pagbabagu-bago. Kung ang amplitude ng mga oscillations ay humigit-kumulang pare-pareho, pagkatapos ay isang additive na modelo ay binuo. Kung ang amplitude ay tumaas, pagkatapos ay ang multiplicative na modelo.

Ang pangunahing gawain ng pagsusuri sa ekonometric ay upang matukoy ang bawat isa sa mga nakalistang bahagi.

Ang pangunahing trend ng pag-unlad (trend) tinatawag na maayos at matatag na pagbabago sa mga antas ng isang serye sa paglipas ng panahon, libre mula sa random at pana-panahong pagbabago.

Ang gawain ng pagkilala sa mga pangunahing uso sa pag-unlad ay tinatawag pagkakahanay ng serye ng oras .

Kasama sa mga paraan ng pag-align ng serye ng oras ang:

1) paraan ng pagpapalaki ng mga pagitan,

2) paraan moving average,

3) analytical alignment.

1) Ang mga yugto ng panahon kung saan nauugnay ang mga antas ng serye ay pinalaki. Pagkatapos ang mga antas ng serye ay summed up sa pinalaki na mga pagitan. Pagbabago sa mga antas dahil sa random na dahilan, kanselahin ang isa't isa. Ang pangkalahatang kalakaran ay lilitaw nang mas malinaw.

2) Upang matukoy ang bilang ng mga unang antas ng serye, kinakalkula ang average na halaga. Pagkatapos ay kinakalkula ang average mula sa parehong bilang ng mga antas ng serye, simula sa pangalawang antas, atbp. ang average na halaga ay dumudulas sa serye ng dynamics, umuusad nang 1 tuldok (point in time). Ang bilang ng mga antas ng serye kung saan kinakalkula ang average ay maaaring maging pantay o kakaiba. Para sa isang kakaibang numero, ang moving average ay tinutukoy bilang gitna ng sliding period. Para sa isang pantay na panahon, ang paghahanap ng average na halaga ay hindi inihambing sa pagpapasiya ng t, ngunit isang pamamaraan ng pagsentro ay ginagamit, i.e. kalkulahin ang average ng dalawang magkasunod na moving average.

3) Pagbuo ng isang analytical function na nagpapakilala sa pagtitiwala ng antas ng serye sa oras. Ang mga sumusunod na function ay ginagamit upang bumuo ng mga trend:

Tinutukoy ang mga parameter ng trend gamit ang hindi bababa sa mga parisukat. Ang pagpili ng pinakamahusay na function ay batay sa koepisyent R 2 .

Bubuo kami ng isang additive model gamit ang isang halimbawa.

Halimbawa 7:

Mayroong quarterly data sa dami ng konsumo ng kuryente sa isang partikular na lugar sa loob ng 4 na taon. Data sa milyong kW sa talahanayan 1.

Talahanayan 1

Bumuo ng modelo ng time series.

Sa halimbawang ito, isinasaalang-alang namin ang quarter number bilang independent variable, at ang pagkonsumo ng kuryente para sa quarter bilang dependent variable y(t).

Mula sa scatterplot makikita mo na linear ang trend. Makikita rin natin ang pagkakaroon ng mga seasonal fluctuation (period = 4) ng parehong amplitude, kaya gagawa tayo ng additive model.

Kasama sa pagbuo ng modelo susunod na hakbang:

1. Ihanay natin ang orihinal na serye gamit ang moving average na paraan para sa 4 na quarters at magsagawa ng pagsentro:

1.1. Ibuod natin ang mga antas ng serye nang sunud-sunod para sa bawat 4 na quarter na may shift na 1 punto sa oras.

1.2. Ang paghahati sa mga resultang halaga sa 4 ay makikita natin ang mga moving average.

1.3. Dinadala namin ang mga halagang ito sa pagsusulatan na may aktwal na mga punto sa oras, kung saan nakita namin ang average na halaga ng dalawang magkasunod na moving average - centered moving average.

2. Kalkulahin natin ang seasonal variation. Pana-panahong pagkakaiba-iba (t) = y(t) – nakasentro sa moving average. Bumuo tayo ng talahanayan 2.

talahanayan 2

End-to-end block number t Pagkonsumo ng kuryente Y(t) 4 quarter moving average Nakasentro sa moving average Pagtataya ng pana-panahong pagkakaiba-iba
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. Batay sa seasonal variation sa Table 3, ang seasonal component ay kinakalkula.

Mga tagapagpahiwatig taon Bilang ng quarter sa taong I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Kabuuan 1,8 -5,875 -3,825 8,125 Sum
Katamtaman 0,6 -1,958 -1,275 2,708 0,075
Pana-panahong bahagi 0,581 -1,977 -1,294 2,690

4. Tanggalin ang seasonal component mula sa paunang antas hilera:

Konklusyon:

Ipinapaliwanag ng additive model ang 98.4% ng kabuuang variation sa mga antas ng orihinal na serye ng oras.



Bago sa site

>

Pinaka sikat