Domov Odstranění Příklady řešení vícenásobných regresních úloh. Úvod do vícenásobné regrese

Příklady řešení vícenásobných regresních úloh. Úvod do vícenásobné regrese

Účelem vícenásobné regrese je analyzovat vztah mezi jednou závislou a několika nezávislými proměnnými.

Příklad: Existují údaje o ceně jedné pracovní stanice (při nákupu 50 pracovních stanic) pro různé PDM systémy. Požadováno: vyhodnoťte vztah mezi cenou pracovní stanice systému PDM a počtem v ní implementovaných charakteristik uvedených v tabulce 2.

Tabulka 2 - Charakteristika systémů PDM

Číslo objednávky PDM systém Cena Správa konfigurace produktu Modely produktů Týmová práce Řízení změn produktu Tok dokumentů Archiv Prohledávejte dokumenty Plánování projektu Řízení výroby produktů
iMAN Ano Ano
PartYPlus Ano Ano
PDM STEP Suite Ano Ano
Vyhledávání Ano Ano
Windchill Ano Ano
Správce kompasu Ano Ano
Dokumenty T-Flex Ano Ano
TechnoPro Ne Ne

Číselná hodnota charakteristik (kromě „Cost“, „Product Models“ a „Týmová práce“) znamená počet požadavků každé implementované charakteristiky.

Vytvořme a vyplňte tabulku s počátečními údaji (obrázek 27).

Hodnota „1“ proměnných „Mod. ed." a „Sbírka“. okres." odpovídá hodnotě „Ano“ zdrojových dat a hodnota „0“ hodnotě „Ne“ zdrojových dat.

Sestavme regresi mezi závisle proměnnou „Náklady“ a nezávislými proměnnými „Př. conf.", "Mod. vyd.", "Sbírat. r-ta", "Př. změnit.”, “Dok.”, “Archiv”, “Vyhledat”, “Plan-e”, “Ovládání. vyrobeno."

Chcete-li zahájit statistickou analýzu zdrojových dat, zavolejte modul „Multiple Regression“ (Obrázek 22).

V zobrazeném dialogovém okně (obrázek 23) označte proměnné, pro které bude provedena statistická analýza.

Obrázek 27 - Počáteční data

Chcete-li to provést, klikněte na tlačítko Proměnné a v zobrazeném dialogovém okně (Obrázek 28) v části odpovídající závislým proměnným (Závislá proměnná) vyberte „1-Cost“ a v části odpovídající nezávislým proměnným (Seznam nezávislých proměnných), vyberte všechny ostatní proměnné. Výběr několika proměnných ze seznamu se provádí pomocí kláves „Ctrl“ nebo „Shift“ nebo zadáním čísel (rozsahu čísel) proměnných v odpovídajícím poli.



Obrázek 28 - Dialogové okno pro nastavení proměnných pro statistickou analýzu

Po výběru proměnných klikněte na tlačítko „OK“ v dialogovém okně pro nastavení parametrů modulu „Vícenásobná regrese“. V okně, které se objeví s nápisem „No of indep. vars. >=(N-l); nelze invertovat kor. matice." (Obrázek 29) stiskněte tlačítko „OK“.

Tato zpráva se objeví, když systém nemůže vytvořit regresi pro všechny deklarované nezávislé proměnné, protože počet proměnných je větší nebo roven počtu případů mínus 1.

V okně, které se objeví (obrázek 30) na kartě „Upřesnit“, můžete změnit metodu sestavení regresní rovnice.

Obrázek 29 - Chybová zpráva

Chcete-li to provést, v poli „Metoda“ vyberte „Postupně vpřed“ (krok za krokem se zahrnutím).

Obrázek 30 - Okno pro výběr metody a nastavení parametrů pro sestavení regresní rovnice

Metoda postupné regrese spočívá v přidání nebo vyloučení nějaké nezávislé proměnné do modelu v každém kroku. Je tak zvýrazněno mnoho „nejvýznamnějších“ proměnných. To vám umožní snížit počet proměnných, které popisují závislost.

Postupná analýza s eliminací („Postupně zpět“). V tomto případě budou do modelu nejprve zahrnuty všechny proměnné a poté budou v každém kroku eliminovány proměnné, které k předpovědím přispívají jen málo. Poté, jako výsledek úspěšné analýzy, mohou být v modelu zachovány pouze „důležité“ proměnné, tedy ty proměnné, jejichž příspěvek k diskriminaci je větší než ostatní.

Analýza krok za krokem se zahrnutím („Postupně vpřed“). Při použití této metody jsou do regresní rovnice postupně zahrnuty nezávislé proměnné, dokud rovnice uspokojivě nepopisuje původní data. Zahrnutí proměnných je stanoveno pomocí F - testu. V každém kroku jsou zkoumány všechny proměnné a je nalezena ta, která nejvíce přispívá k rozdílu mezi populacemi. Tato proměnná musí být v tomto kroku zahrnuta do modelu a přejít k dalšímu kroku.

V poli „Intercept“ (volný regresní člen) si můžete vybrat, zda jej chcete zahrnout do rovnice („Zahrnout do modelu“), nebo jej nezohlednit a považovat jej za rovný nule („Nastavit na nulu“).

Parametr „Tolerance“ je tolerance proměnných. Definováno jako 1 mínus druhá mocnina koeficientu vícenásobná korelace tato proměnná se všemi ostatními nezávislými proměnnými v regresní rovnici. Proto čím nižší je tolerance proměnné, tím redundantnější je její příspěvek k regresní rovnici. Pokud je tolerance kterékoli z proměnných v regresní rovnici rovna nule nebo se jí blíží, nelze regresní rovnici odhadnout. Proto je vhodné nastavit parametr tolerance na 0,05 nebo 0,1.

Parametr „Hřebenová regrese; lambda:" se používá, když jsou nezávislé proměnné vysoce vzájemně korelované a pomocí této metody nelze získat robustní odhady pro koeficienty regresní rovnice nejmenší čtverce. Zadaná konstanta (lambda) bude přidána k úhlopříčce korelační matice, která bude následně znovu standardizována (aby všechny diagonální prvky byly rovny 1,0). Jinými slovy, tento parametr uměle snižuje korelační koeficienty, takže lze vypočítat robustnější (a přesto zkreslené) odhady regresních parametrů. V našem případě se tento parametr nepoužívá.

Parametr „Dávkové zpracování/tisk“ se používá, když je potřeba okamžitě připravit několik tabulek pro report, odrážející výsledky a proces regresní analýza. Tato možnost je velmi užitečná, když potřebujete vytisknout nebo analyzovat výsledky postupné regresní analýzy v každém kroku.

Na záložce „Stepwise“ (Obrázek 31) můžete nastavit parametry pro podmínky pro zahrnutí („F to enter“) nebo vyloučení („F to remove“) proměnných při sestavování regresní rovnice, stejně jako počet kroky pro sestavení rovnice („Počet kroků“).

Obrázek 31 – záložka „Stepwise“ okna pro výběr metody a nastavení parametrů konstrukce regresní rovnice

F je velikost hodnoty F-testu.

Pokud je během analýzy krok za krokem se zahrnutím nutné, aby všechny nebo téměř všechny proměnné vstoupily do regresní rovnice, pak musí být hodnota „F to enter“ nastavena na minimum (0,0001) a „F“ pro odstranění ” hodnota musí být také nastavena na minimum.

Pokud je při postupné analýze s vyloučením nutné odstranit všechny proměnné (po jedné) z regresní rovnice, pak je nutné nastavit hodnotu „F to enter“ velmi vysokou, například 999, a nastavte hodnotu „F to remove“ blízko k „F to enter“.

Je třeba mít na paměti, že hodnota parametru „F to remove“ by měla být vždy menší než „F to enter“.

Možnost „Zobrazit výsledky“ má dvě možnosti:

2) V každém kroku – zobrazení výsledků analýzy v každém kroku.

Po kliknutí na tlačítko „OK“ v okně pro výběr metod regresní analýzy se zobrazí okno s výsledky analýzy (obrázek 32).

Obrázek 32 - Okno výsledků analýzy

Obrázek 33 - Stručné výsledky regresní analýzy

Podle výsledků analýzy je koeficient determinace . To znamená, že konstruovaná regrese vysvětluje 99,987 % rozptylu hodnot vzhledem k průměru, tzn. vysvětluje téměř veškerou variabilitu proměnných.

Velká důležitost a jeho hladina významnosti ukazují, že konstruovaná regrese je vysoce významná.

Chcete-li zobrazit souhrnné výsledky regrese, klikněte na tlačítko „Shrnutí: Výsledek regrese“. Objeví se obrazovka tabulkový procesor s výsledky analýzy (obrázek 33).

Třetí sloupec („B“) zobrazuje odhady neznámých parametrů modelu, tzn. koeficienty regresní rovnice.

Požadovaná regrese tedy vypadá takto:

Kvalitativně konstruovaná regresní rovnice může být interpretována následovně:

1) Náklady na systém PDM se zvyšují s nárůstem počtu implementovaných funkcí pro řízení změn, tok dokumentů a plánování a také pokud systém obsahuje funkci podpory modelu produktu;

2) Náklady na systém PDM se snižují s rostoucími implementovanými funkcemi správy konfigurace a se zvyšujícími se možnostmi vyhledávání.

Cílem vícenásobné lineární regrese je sestrojit lineární model vztahu mezi sadou spojitých prediktorů a spojitou závislou proměnnou. Často se používá následující regresní rovnice:

Tady a já- regresní koeficienty, b 0- bezplatný člen (pokud je použit), E- pojem obsahující chybu - jsou o něm vyvozovány různé domněnky, které však častěji sestupují k normalitě rozdělení s nulovým vektorovým matem. očekávání a korelační matice.

Tento lineární model dobře popisuje mnoho problémů v různých oblastech, např. ekonomie, průmysl, medicína. Je to proto, že některé problémy jsou lineární povahy.

Uveďme si jednoduchý příklad. Předpokládejme, že potřebujete předpovědět náklady na položení silnice na základě jejích známých parametrů. Zároveň máme údaje o již položených komunikacích s uvedením délky, hloubky chodníku, množství pracovního materiálu, počtu pracovníků a podobně.

Je jasné, že náklady na cestu nakonec budou rovnající se částce náklady na všechny tyto faktory samostatně. Budete potřebovat určité množství například drceného kamene se známými náklady na tunu a určité množství asfaltu, rovněž se známými náklady.

Možná bude nutné vykácet lesy kvůli instalaci, což také povede k dalším nákladům. To vše dohromady dá náklady na vytvoření silnice.

V tomto případě bude model obsahovat volného člena, který bude mít například na starosti organizační výdaje (které jsou přibližně stejné pro všechny stavební a instalační práce dané úrovně) nebo daňové odpočty.

Chyba bude zahrnovat faktory, které jsme při stavbě modelu nezohlednili (například počasí při stavbě - to nelze vůbec zohlednit).

Příklad: Vícenásobná regresní analýza

V tomto příkladu bude analyzováno několik možných korelací míry chudoby a míry, která předpovídá procento rodin pod hranicí chudoby. Proměnnou charakterizující procento rodin pod hranicí chudoby proto budeme považovat za závislou proměnnou a zbývající proměnné za spojité prediktory.

Regresní koeficienty

Abychom zjistili, která z nezávislých proměnných přispívá více k predikci úrovně chudoby, zkoumáme standardizované koeficienty(nebo Beta) regrese.

Rýže. 1. Odhady parametrů regresních koeficientů.

Koeficienty Beta jsou koeficienty, které byste získali, kdybyste všechny proměnné normalizovali na průměr 0 a směrodatnou odchylku 1. Velikost těchto koeficientů Beta vám tedy umožňuje porovnat relativní příspěvek každé nezávislé proměnné k závislé proměnné. Jak je vidět z výše uvedené tabulky, nejdůležitějšími prediktory chudoby jsou proměnné změny počtu obyvatel od roku 1960 (POP_CHING), procento populace žijící ve venkovských oblastech (PT_RURAL) a počet lidí zaměstnaných v zemědělství (N_Empld). úrovně, protože pouze oni jsou statisticky významní (95 % z nich interval spolehlivosti nezahrnuje 0). Regresní koeficient pro změnu populace od roku 1960 (Pop_Chng) je záporný, takže čím méně se populace zvyšuje, více rodin kteří žijí pod hranicí chudoby v příslušném kraji. Regresní koeficient pro obyvatelstvo (%) žijící na vesnici (Pt_Rural) je kladný, tj. čím větší procento obyvatelé venkova, tím vyšší je úroveň chudoby.

Význam prediktorových efektů

Podívejme se na tabulku s kritérii významnosti.

Rýže. 2. Simultánní výsledky pro každou danou proměnnou.

Jak ukazuje tato tabulka, statisticky významné jsou pouze účinky 2 proměnných: změna populace od roku 1960 (Pop_Chng) a procento populace žijící na vesnici (Pt_Rural), p< .05.

Analýza reziduí. Po sestavení regresní rovnice musíte téměř vždy zkontrolovat předpokládané hodnoty a rezidua. Například velké odlehlé hodnoty mohou značně zkreslit výsledky a vést k chybným závěrům.

Graf emisí řádek po řádku

Obvykle je nutné zkontrolovat původní nebo standardizované zbytky na velké odlehlé hodnoty.

Rýže. 3. Čísla pozorování a rezidua.

Měřítko svislé osy tohoto grafu je vyneseno podle hodnoty sigma, tj. standardní odchylka zbytky Pokud jedno nebo více pozorování nespadá do intervalu ±3 krát sigma, může být vhodné tato pozorování eliminovat (to lze snadno provést pomocí podmínek výběru pozorování) a znovu spustit analýzu, aby se zajistilo, že výsledky nebudou těmito změnami ovlivněny. odlehlé hodnoty.

Vzdálenosti Mahalanobis

Většina učebnic statistiky tráví hodně času odlehlými hodnotami a rezidui ve vztahu k závislé proměnné. Role odlehlých hodnot v prediktorech však často zůstává neznámá. Na straně prediktorové proměnné je seznam proměnných, které se podílejí s různou vahou (regresní koeficienty) na predikci závislé proměnné. Nezávislé proměnné si můžete představit jako vícerozměrný prostor, do kterého lze zakreslit jakékoli pozorování. Pokud jste například měli dvě nezávislé proměnné se stejnými regresními koeficienty, mohli byste vykreslit bodový graf těchto dvou proměnných a umístit každé pozorování do tohoto grafu. Na tomto grafu byste pak mohli vyznačit průměrnou hodnotu a vypočítat vzdálenosti od každého pozorování k tomuto průměru (tzv. těžiště) ve dvourozměrném prostoru. Toto je hlavní myšlenka výpočtu Mahalanobisovy vzdálenosti. Nyní se podívejme na histogram proměnné změny populace od roku 1960.

Rýže. 4. Histogram distribuce Mahalanobisovy vzdálenosti.

Z grafu vyplývá, že u Mahalanobisových vzdáleností je jedna odlehlá hodnota.

Rýže. 5. Pozorované, predikované a zbytkové hodnoty.

Všimněte si, že Shelby County (v první řadě) vyčnívá ze zbytku okresů. Když se podíváte na nezpracovaná data, zjistíte, že Shelby County má skutečně nejvyšší počet lidí zaměstnaných v zemědělství (proměnná N_Empld). Mohlo by být rozumné vyjádřit to v procentech spíše než jako absolutní číslo, v takovém případě by vzdálenost Mahalanobis v Shelby County pravděpodobně nebyla tak velká ve srovnání s jinými okresy. Shelby County je zjevně odlehlá oblast.

Odstraněné zbytky

Další velmi důležitou statistikou, která pomáhá posoudit závažnost problému s emisemi, jsou odstraněné zbytky. Toto jsou standardizované rezidua pro odpovídající pozorování, která se získají, když je toto pozorování odstraněno z analýzy. Pamatujte, že procedura vícenásobné regrese odpovídá regresnímu povrchu a ukazuje vztah mezi závislou proměnnou a proměnnou prediktoru. Pokud je jedno pozorování odlehlé (jako je Shelby County), pak existuje tendence k tomu, aby se regresní povrch „táhl“ směrem k této odlehlé hodnotě. V důsledku toho, pokud je odpovídající pozorování odstraněno, získá se jiný povrch (a koeficienty Beta). Pokud se tedy odstraněná rezidua velmi liší od standardizovaných reziduí, budete mít důvod se domnívat, že regresní analýza je vážně ovlivněna odpovídajícím pozorováním. V tomto příkladu odstraněné zbytky pro Shelby County ukazují, že jde o odlehlou hodnotu, která vážně zkresluje analýzu. Bodový graf jasně ukazuje odlehlou hodnotu.

Rýže. 6. Počáteční rezidua a Vymazaná rezidua proměnné udávající procento rodin žijících pod hranicí životního minima.

Většina z nich má více či méně jasné výklady, nicméně vraťme se k normálním pravděpodobnostním grafům.

Jak již bylo zmíněno, vícenásobná regrese předpokládá, že mezi proměnnými v rovnici existuje lineární vztah a že rezidua jsou normálně rozdělena. Pokud jsou tyto předpoklady porušeny, závěr může být nepřesný. Normální pravděpodobnostní graf reziduí vám řekne, zda došlo k vážnému porušení těchto předpokladů nebo ne.

Rýže. 7. Normální pravděpodobnostní graf; Počáteční zůstatky.

Tento graf byl vytvořen následovně. Nejprve jsou standardizované zbytky seřazeny v pořadí. Z těchto řad lze vypočítat z-skóre (tj. standardní hodnoty normálního rozdělení) na základě předpokladu, že data vyhovují normální distribuce. Tyto hodnoty z jsou vyneseny na ose y v grafu.

Pokud by pozorovaná rezidua (vynesená na ose x) byla normálně rozložena, pak by všechny hodnoty padaly v grafu na přímku. Na našem grafu leží všechny body velmi blízko křivky. Pokud rezidua nejsou normálně rozdělena, pak se odchylují od této linie. V tomto grafu jsou také patrné odlehlé hodnoty.

Pokud dojde ke ztrátě shody a zdá se, že data tvoří jasnou křivku (např. tvar S) kolem přímky, pak lze závislou proměnnou nějakým způsobem transformovat (např. logaritmickou transformací pro „zmenšení“ konce distribuce atd.). Diskuse o této metodě přesahuje rámec tohoto příkladu (Neter, Wasserman a Kutner, 1985, s. 134–141, prezentují diskusi o transformacích, které odstraňují nenormálnost a nelinearitu v datech). Výzkumníci však velmi často jednoduše provádějí analýzy přímo bez testování základních předpokladů, což vede k chybným závěrům.

Předpokládejme, že developer posuzuje hodnotu skupiny malých kancelářských budov v tradiční obchodní čtvrti.

Developer může použít vícenásobnou regresní analýzu k odhadu ceny kancelářské budovy tato oblast na základě následujících proměnných.

y je odhadovaná cena kancelářské budovy;

x 1 - celková plocha v metrech čtverečních;

x 2 - počet kanceláří;

x 3 - počet vstupů (0,5 vstup znamená vstup pouze pro doručování korespondence);

x 4 - provozní doba budovy v letech.

Tento příklad předpokládá, že existuje lineární závislost mezi každou nezávisle proměnnou (x 1, x 2, x 3 a x 4) a závisle proměnnou (y), tedy cenou kancelářské budovy v dané oblasti. Zdrojová data jsou znázorněna na obrázku.

Nastavení pro řešení problému jsou zobrazena na obrázku okna " Regrese Výsledky výpočtu jsou umístěny na samostatném listu ve třech tabulkách

V důsledku toho jsme dostali následující matematický model:

y = 52318 + 27,64*x1 + 12530*x2 + 2553*x3 - 234,24*x4.

Nyní může developer určit odhadovanou hodnotu kancelářské budovy ve stejné oblasti. Pokud má tato budova rozlohu 2500 metrů čtverečních, tři kanceláře, dva vchody a životnost 25 let, můžete její hodnotu odhadnout pomocí následujícího vzorce:

y = 27,64*2500 + 12530*3 + 2553*2 - 234,24*25 + 52318 = 158 261 c.u.

V regresní analýze jsou nejdůležitější výsledky:

  • koeficienty proměnných a průsečík Y, což jsou požadované parametry modelu;
  • násobek R, charakterizující přesnost modelu pro dostupná zdrojová data;
  • Fisherův F test(v uvažovaném příkladu výrazně převyšuje kritická hodnota, rovno 4,06);
  • t-statistika– hodnoty charakterizující míru významnosti jednotlivých koeficientů modelu.

Zvláštní pozornost si zaslouží t-statistika. Velmi často se při sestavování regresního modelu neví, zda ten či onen faktor x ovlivňuje y. Zahrnutí faktorů do modelu, které neovlivňují výstupní hodnotu, zhoršuje kvalitu modelu. Výpočet t-statistik pomáhá takové faktory odhalit. Přibližný odhad lze provést následovně: jestliže pro n>>k je hodnota t-statistiky pro absolutní hodnota podstatně více než tři, odpovídající koeficient by měl být považován za významný a faktor by měl být zahrnut do modelu, jinak z modelu vyloučen. Můžeme tedy navrhnout technologii pro konstrukci regresního modelu, který se skládá ze dvou fází:

1) proces s balíčkem" Regrese„všechny dostupné údaje, analyzujte t-statistické hodnoty;

2) odstraňte ze zdrojové datové tabulky sloupce s těmi faktory, pro které jsou koeficienty nevýznamné a zpracujte je pomocí balíčku " Regrese"nový stůl.

Dobré odpoledne, milí čtenáři.
V předchozích článcích, na praktické příklady, ukázal jsem způsoby řešení klasifikačních problémů (problém kreditního skóre) a základy analýzy textových informací (pasový problém). Dnes bych se rád dotkl další třídy problémů, a to regresní obnovy. Problémy této třídy se obvykle používají v prognózování.
Jako příklad řešení prognostického problému jsem vzal sadu dat o energetické účinnosti z největšího úložiště UCI. Jako nástroje budeme tradičně používat Python s analytickými balíčky pandas a scikit-learn.

Popis sady dat a prohlášení o problému

Je uveden soubor dat, který popisuje následující atributy místnosti:

Obsahuje charakteristiky místnosti, na základě které bude analýza provedena, a hodnoty zatížení, které je třeba předvídat.

Předběžná analýza dat

Nejprve si stáhněte naše data a podíváme se na ně:

Z Pandas Import Read_csv, DataFrame ze Sklearn.neighbors Import Kneighborsressor ze Sklearn.Linear_MPORT LINEARREGRESSION, LOGISTICREGREGRESSION FROM SKLEARN.SVM IMM IM Port SVR ze Sklearn.enseble Import Randomforgressor z RklearnvalliSPL Imports. ATASET = Read_CSV (" Energy Icience /ENB2012_data.csv",";") dataset.head()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
0 0.98 514.5 294.0 110.25 7 2 0 0 15.55 21.33
1 0.98 514.5 294.0 110.25 7 3 0 0 15.55 21.33
2 0.98 514.5 294.0 110.25 7 4 0 0 15.55 21.33
3 0.98 514.5 294.0 110.25 7 5 0 0 15.55 21.33
4 0.90 563.5 318.5 122.50 7 2 0 0 20.84 28.28

Nyní se podívejme, zda spolu nějaké atributy souvisí. To lze provést výpočtem korelačních koeficientů pro všechny sloupce. Jak to udělat, bylo popsáno v předchozím článku:

Dataset.corr()

X1 X2 X3 X4 X5 X6 X7 X8 Y1 Y2
X1 1,000000e+00 -9,919015e-01 -2,037817e-01 -8,688234e-01 8.277473e-01 0.000000 1,283986e-17 1,764620e-17 0.622272 0.634339
X2 -9,919015e-01 1,000000e+00 1.955016e-01 8.807195e-01 -8,581477e-01 0.000000 1,318356e-16 -3,558613e-16 -0.658120 -0.672999
X3 -2,037817e-01 1.955016e-01 1,000000e+00 -2,923165e-01 2.809757e-01 0.000000 -7,969726e-19 0,000000e+00 0.455671 0.427117
X4 -8,688234e-01 8.807195e-01 -2,923165e-01 1,000000e+00 -9,725122e-01 0.000000 -1,381805e-16 -1,079129e-16 -0.861828 -0.862547
X5 8.277473e-01 -8,581477e-01 2.809757e-01 -9,725122e-01 1,000000e+00 0.000000 1,861418e-18 0,000000e+00 0.889431 0.895785
X6 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 0,000000e+00 1.000000 0,000000e+00 0,000000e+00 -0.002587 0.014290
X7 1,283986e-17 1,318356e-16 -7,969726e-19 -1,381805e-16 1,861418e-18 0.000000 1,000000e+00 2.129642e-01 0.269841 0.207505
X8 1,764620e-17 -3,558613e-16 0,000000e+00 -1,079129e-16 0,000000e+00 0.000000 2.129642e-01 1,000000e+00 0.087368 0.050525
Y1 6.222722e-01 -6,581202e-01 4.556712e-01 -8,618283e-01 8.894307e-01 -0.002587 2.698410e-01 8.736759e-02 1.000000 0.975862
Y2 6.343391e-01 -6,729989e-01 4.271170e-01 -8,625466e-01 8.957852e-01 0.014290 2,075050e-01 5.052512e-02 0.975862 1.000000

Jak můžete vidět z naší matice, následující sloupce spolu korelují (hodnota korelačního koeficientu je větší než 95 %):
  • y1 --> y2
  • x1 --> x2
  • x4 --> x5
Nyní si vybereme, které sloupce našich párů můžeme z našeho vzorku odstranit. Za tímto účelem v každém páru vybereme sloupce, které mají větší vliv na predikované hodnoty Y1 A Y2 a nechat je a zbytek smazat.
Jak vidíte, matice se zapnutými korelačními koeficienty y1 ,y2 mít větší význam X2 A X5 než X1 a X4, takže můžeme odstranit poslední sloupce.

Dataset = dataset.drop(["X1","X4"], axis=1) dataset.head()
Kromě toho si můžete všimnout, že pole Y1 A Y2 spolu velmi úzce korelují. Ale protože potřebujeme předpovědět obě hodnoty, necháme je „tak jak jsou“.

Výběr modelu

Oddělme předpokládané hodnoty od našeho vzorku:

Trg = datová sada[["Y1","Y2"]] trn = datová sada.drop(["Y1","Y2"], osa=1)
Po zpracování dat můžete přistoupit k sestavení modelu. K sestavení modelu použijeme následující metody:

Teorii o těchto metodách si lze přečíst v rámci přednášek K. V. Voroncova o strojovém učení.
Provedeme posouzení pomocí koeficientu determinace ( R-čtverec). Tento koeficient se určuje takto:

Kde je podmíněný rozptyl závislé veličiny na podle faktoru X.
Koeficient nabývá hodnoty na intervalu a čím blíže je 1, tím je závislost silnější.
Nyní můžete přejít přímo ke stavbě modelu a výběru modelu. Pro usnadnění další analýzy dejte všechny naše modely do jednoho seznamu:

Modely =
Takže modely jsou připraveny, nyní rozdělíme naše počáteční data do 2 dílčích vzorků: test A vzdělávací. Ti, kteří četli mé předchozí články, vědí, že to lze provést pomocí funkce train_test_split() z balíčku scikit-learn:

Xtrn, Xtest, Ytrn, Ytest = train_test_split(trn, trg, test_size=0,4)
Nyní, protože potřebujeme předpovědět 2 parametry, musíme pro každý z nich vytvořit regresi. Navíc pro další analýzu můžete získané výsledky dočasně zaznamenat DataFrame. Můžete to udělat takto:

#vytvořit dočasné struktury TestModels = DataFrame() tmp = () #pro každý model ze seznamu pro model v modelech: #získat název modelu m = str(model) tmp["Model"] = m[:m.index( "( ")] #pro každý sloupec výsledkové sady pro i v xrange(Ytrn.shape): #trénujte model modelu.fit(Xtrn, Ytrn[:,i]) #vypočítejte koeficient determinace tmp["R2_Y %s"%str(i +1)] = r2_score(Ytest[:,0], model.predict(Xtest)) #zaznamenejte data a konečný DataFrame TestModels = TestModels.append() #vytvoření indexu podle modelu name TestModels.set_index("Model", inplace= True)
Jak můžete vidět z kódu výše, k výpočtu koeficientu se používá funkce r2_score().
Takže data pro analýzu byla přijata. Pojďme si nyní vykreslit grafy a podívat se, který model ukázal nejlepší výsledek:

Obr, osy = plt.subplots(ncols=2, figsize=(10,4)) TestModels.R2_Y1.plot(ax=axes, kind="bar", title="R2_Y1") TestModels.R2_Y2.plot(ax=axes, kind="bar", color="green", title="R2_Y2") !}

Analýza výsledků a závěry

Z výše uvedených grafů můžeme usoudit, že metoda se s úkolem vyrovnala lépe než ostatní RandomForest(náhodný les). Jeho koeficienty determinace jsou vyšší než ostatní pro obě proměnné:
Pro další analýzu přetrénujme náš model:

Model = modely model.fit(Xtrn, Ytrn)
Při bližším zkoumání může vyvstat otázka, proč byl závislý vzorek rozdělen dříve. Ytrn do proměnných (po sloupcích), ale teď to neděláme.
Jde o to, že některé metody, jako např RandomForestRegressor, může pracovat s více proměnnými prediktoru, zatímco jiné (např. SVR) může pracovat pouze s jednou proměnnou. Proto jsme během předchozího školení používali dělení sloupců, abychom se vyhnuli chybám v procesu sestavování některých modelů.
Výběr modelu je samozřejmě dobrý, ale bylo by také hezké mít informace o tom, jak jednotlivé faktory ovlivňují předpokládanou hodnotu. Pro tento účel má model vlastnost feature_importances_.
Pomocí něj můžete vidět váhu každého faktoru v konečných modelech:

Model.feature_importances_
pole([ 0,40717901, 0,11394948, 0,34984766, 0,00751686, 0,09158358,
0.02992342])

V našem případě je vidět, že celková výška a plocha nejvíce ovlivňuje zatížení vytápění a chlazení. Jejich celkový příspěvek k předpovědnímu modelu je asi 72 %.
Je třeba také poznamenat, že pomocí výše uvedeného diagramu můžete vidět vliv každého faktoru zvlášť na vytápění a zvlášť na chlazení, ale protože tyto faktory spolu velmi úzce korelují (), učinili jsme obecný závěr o obou z nich, který byl napsán výše.

Závěr

V článku jsem se pokusil ukázat hlavní fáze analýzy regresních dat pomocí Pythonu a analytických balíčků pandy A scikit-učit se.
Nutno podotknout, že datový soubor byl speciálně vybrán tak, aby byl co nejvíce formalizován a primární zpracování vstupních dat bylo minimální. Podle mého názoru bude článek užitečný pro ty, kteří svou cestu v analýze dat teprve začínají, i pro ty, kteří mají dobrý teoretický základ, ale vybírají si nástroje pro práci.

otázky:

4. Odhad parametrů lineárního vícenásobného regresního modelu.

5. Hodnocení kvality vícenásobné lineární regrese.

6. Analýza a prognózování založené na multifaktorových modelech.

Vícenásobná regrese je zobecněním párové regrese. Slouží k popisu vztahu mezi vysvětlovanou (závislou) proměnnou Y a vysvětlujícími (nezávisle) proměnnými X 1, X 2,..., X k. Vícenásobná regrese může být buď lineární, nebo nelineární, ale lineární vícenásobná regrese je nejrozšířenější v ekonomii.

Teoretický lineární vícenásobný regresní model má tvar:

Označujeme odpovídající vzorovou regresi:

Stejně jako v párové regresi musí náhodný člen ε splňovat základní předpoklady regresní analýzy. Poté se pomocí OLS získají nejlepší nezkreslené a efektivní odhady teoretických regresních parametrů. Navíc proměnné X 1, X 2,…, X k musí být vzájemně nekorelované (lineárně nezávislé). Abychom mohli zapsat vzorce pro odhadování regresních koeficientů (2), získaných na základě nejmenších čtverců, zavedeme následující zápis:

Pak můžeme psát ve formě vektorové matice teoretický model:

a regrese vzorku

OLS vede k následujícímu vzorci pro odhad vektoru regresních koeficientů vzorku:

(3)

Odhadnout vícenásobné lineární regresní koeficienty se dvěma nezávislými proměnnými , můžeme vyřešit soustavu rovnic:

(4)

Stejně jako u párové lineární regrese se standardní regresní chyba S vypočítá pro vícenásobnou regresi:

(5)

a standardní chyby regresních koeficientů:

(6)

Významnost koeficientů se kontroluje pomocí t-testu.

mající Studentův nástavec s počtem stupňů volnosti v= n-k-1.

K posouzení kvality regrese se používá determinační koeficient (index):

, (8)

čím blíže k 1, tím vyšší je kvalita regrese.

Pro kontrolu významnosti koeficientu determinace se používá Fisherův test nebo F-statistika.



(9)

S v 1=k, v 2=n-k-1 stupňů volnosti.

Při vícerozměrné regresi přidávání dalších vysvětlujících proměnných zvyšuje koeficient determinace. Pro kompenzaci tohoto zvýšení je zaveden upravený (nebo normalizovaný) koeficient determinace:

(10)

Pokud je nárůst podílu vysvětlené regrese při přidávání nové proměnné malý, může se snížit. To znamená, že přidání nové proměnné je nevhodné.

Příklad 4:

Uvažujme závislost zisku podniku na nákladech na nová zařízení a technologie a na nákladech na zlepšení kvalifikace pracovníků. Byly shromážděny statistické údaje o 6 podobných podnicích. Údaje v milionech dolarů. Jednotky jsou uvedeny v tabulce 1.

stůl 1

Sestavte dvoufaktorový lineární regrese a zhodnotit jeho význam. Představme si následující zápis:

Transponujeme matici X:

Inverze této matice:

Závislost zisku na nákladech na nová zařízení a stroje a na nákladech na zlepšení kvalifikace pracovníků lze tedy popsat následující regresí:

Pomocí vzorce (5), kde k=2, vypočteme standardní regresní chybu S=0,636.

Směrodatné chyby regresních koeficientů vypočítáme pomocí vzorce (6):

Rovněž:

Ověřte si význam regresních koeficientů a 1, a 2. Vypočítejme t calc.

Zvolme hladinu významnosti, počet stupňů volnosti

znamená koeficient 1 významný

Vyhodnoťme význam koeficientu a 2:

Součinitel a 2 bezvýznamný

Vypočítejme koeficient determinace pomocí vzorce (7). Zisk podniku závisí z 96 % na nákladech na nové vybavení a technologie a na pokročilém školení ze 4 % na jiných a náhodných faktorech. Ověřme si význam koeficientu determinace. Pojďme vypočítat F vypočítané:

Že. významný je koeficient determinace, významná je regresní rovnice.

Velký význam v analýze založené na vícerozměrné regresi má srovnání vlivu faktorů na závislý ukazatel y. Regresní koeficienty se pro tento účel nepoužívají, kvůli rozdílům v měrných jednotkách a různé míry kolísání. Z těchto nedostatků jsou volné koeficienty pružnosti:

Elasticita ukazuje, o jaké procento se v průměru změní závislý ukazatel y, když se proměnná změní o 1 %, za předpokladu, že hodnoty ostatních proměnných zůstanou nezměněny. Čím větší, tím větší vliv odpovídající proměnné. Stejně jako u párové regrese se vícenásobná regrese rozlišuje mezi bodovou a intervalovou prognózou. Bodová předpověď (číslo) se získá dosazením předpokládaných hodnot nezávislých proměnných do vícenásobné regresní rovnice. Označme podle:

(12)

vektor predikovaných hodnot nezávislých proměnných, poté bodová předpověď

Standardní chyba predikce v případě vícenásobné regrese se určí takto:

(15)

Zvolme hladinu významnosti α podle Studentovy distribuční tabulky. Pro hladinu významnosti α a počet stupňů volnosti ν = n-k-1 zjistíme t cr. Potom skutečná hodnota y p s pravděpodobností 1- α spadá do intervalu:


Téma 5:

Časové řady.

otázky:

4. Základní pojmy časových řad.

5. Hlavním vývojovým trendem je trend.

6. Sestavení aditivního modelu.

Časové řady představují soubor hodnot libovolného ukazatele pro několik po sobě jdoucích okamžiků nebo časových období.

Okamžik (nebo perioda) času se označí t a hodnota ukazatele v okamžiku času se označí y(t) a nazývá se úroveň řádku .

Každá úroveň časové řady se tvoří pod vlivem velkého množství faktorů, které lze rozdělit do 3 skupin:

Dlouhodobé, neustále působící faktory, které mají rozhodující vliv na zkoumaný jev a tvoří hlavní trend řady - trend T(t).

Krátkodobé periodické faktory, které tvoří sezónní výkyvy v řadě S(t).

Náhodné faktory, které tvoří náhodné změny úrovní řady ε(t).

Aditivní modelčasová řada je model, ve kterém je každá úroveň řady reprezentována součtem trendových, sezónních a náhodných složek:

Multiplikativní model je model, ve kterém je každá úroveň série produktem uvedených komponent:

Výběr jednoho z modelů je založen na analýze struktury sezónních výkyvů. Pokud je amplituda kmitů přibližně konstantní, je sestaven aditivní model. Pokud se amplituda zvyšuje, pak multiplikativní model.

Hlavním úkolem ekonometrické analýzy je identifikovat každou z uvedených složek.

Hlavní vývojový trend (trend) nazývá se hladká a stabilní změna úrovní řady v průběhu času, bez náhodných a sezónních výkyvů.

Úkolem identifikace hlavních vývojových trendů je tzv zarovnání časové řady .

Mezi metody zarovnání časových řad patří:

1) metoda zvětšování intervalů,

2) metoda klouzavý průměr,

3) analytické zarovnání.

1) Časová období, ke kterým se úrovně řad vztahují, se zvětší. Poté se úrovně série sečtou ve zvětšených intervalech. Kolísání hladin v důsledku náhodné důvody, zrušte se navzájem. Obecný trend se ukáže jasněji.

2) Pro určení počtu prvních úrovní série se vypočítá průměrná hodnota. Poté se průměr vypočítá ze stejného počtu úrovní série, počínaje druhou úrovní atd. průměrná hodnota klouže podél řady dynamiky a posouvá se dopředu o 1 člen (časový bod). Počet úrovní řady, podle kterých se počítá průměr, může být sudý nebo lichý. Pro liché číslo se klouzavý průměr označuje jako střed klouzavého období. Pro sudé období se zjištění průměrné hodnoty neporovnává se stanovením t, ale používá se postup centrování, tzn. vypočítat průměr dvou po sobě jdoucích klouzavých průměrů.

3) Konstrukce analytické funkce charakterizující závislost úrovně řady na čase. K vytváření trendů se používají následující funkce:

Parametry trendu jsou určeny pomocí nejmenších čtverců. Výběr nejlepší funkce je založen na koeficientu R 2 .

Na příkladu sestavíme aditivní model.

Příklad 7:

Existují čtvrtletní údaje o objemu spotřeby elektřiny v určité oblasti za 4 roky. Údaje v milionech kW v tabulce 1.

stůl 1

Sestavte model časové řady.

V tomto příkladu uvažujeme číslo čtvrtletí jako nezávislou proměnnou a spotřebu elektřiny za čtvrtletí jako závisle proměnnou y(t).

Z bodového grafu můžete vidět, že trend je lineární. Lze také vidět přítomnost sezónních výkyvů (perioda = 4) stejné amplitudy, takže sestavíme aditivní model.

Konstrukce modelu zahrnuje Další kroky:

1. Zarovnejme původní sérii pomocí metody klouzavého průměru pro 4 čtvrtletí a proveďte centrování:

1.1. Shrňme úrovně řady postupně za každé 4 čtvrtletí s posunem o 1 bod v čase.

1.2. Vydělíme-li výsledné částky čtyřmi, zjistíme klouzavé průměry.

1.3. Tyto hodnoty uvedeme do souladu se skutečnými časovými body, pro které zjistíme průměrnou hodnotu dvou po sobě jdoucích klouzavých průměrů - centrovaných klouzavých průměrů.

2. Vypočítejme sezónní variaci. Sezónní variace (t) = y(t) – centrovaný klouzavý průměr. Postavíme tabulku 2.

tabulka 2

Číslo bloku end-to-end t Spotřeba elektřiny Y(t) 4 čtvrtletí klouzavý průměr Středový klouzavý průměr Odhad sezónních výkyvů
6,0 - - -
4,4 6,1 - -
5,0 6,4 6,25 -1,25
9,0 6,5 6,45 2,55
7,2 6,75 6,625 0,575
: : : : :
6,6 8,35 8,375 -1,775
7,0 - - -
10,8 - - -

3. Na základě sezónní odchylky v tabulce 3 se vypočítá sezónní složka.

Indikátory Rok Počet čtvrtletí v roce I II III IV
- - -1,250 2,550
0,575 -2,075 -1,100 2,700
0,550 -2,025 -1,475 2,875
0,675 -1,775 - -
Celkový 1,8 -5,875 -3,825 8,125 Součet
Průměrný 0,6 -1,958 -1,275 2,708 0,075
Sezónní složka 0,581 -1,977 -1,294 2,690

4. Odstraňte sezónní složku z počáteční úrovněřádek:

Závěr:

Aditivní model vysvětluje 98,4 % celkových variací v úrovních původní časové řady.



Novinka na webu

>

Nejoblíbenější