Domov Ortopedie Co je metoda nejmenších čtverců? Aproximace experimentálních dat

Co je metoda nejmenších čtverců? Aproximace experimentálních dat

Aproximace experimentálních dat je metoda založená na nahrazení experimentálně získaných dat analytickou funkcí, která se v uzlových bodech nejvíce shoduje nebo shoduje s původními hodnotami (data získaná během experimentu nebo experimentu). V současné době existují dva způsoby, jak definovat analytickou funkci:

Sestrojením n-stupňového interpolačního polynomu, který projde přímo přes všechny body dané datové pole. V v tomto případě aproximační funkce je reprezentována jako: interpolační polynom v Lagrangeově tvaru nebo interpolační polynom v Newtonově tvaru.

Sestrojením n-stupňového aproximačního polynomu, který projde v bezprostřední blízkosti bodů z daného pole dat. Aproximační funkce tak vyhlazuje veškerý náhodný šum (nebo chyby), které mohou během experimentu vzniknout: naměřené hodnoty během experimentu závisí na náhodných faktorech, které kolísají podle jejich vlastních náhodné zákony(chyby měření nebo přístroje, nepřesnost nebo experimentální chyby). V tomto případě je aproximační funkce určena pomocí metody nejmenší čtverce.

Metoda nejmenších čtverců(v anglické literatuře Ordinary Least Squares, OLS) je matematická metoda založená na určení aproximační funkce, která je zkonstruována v nejbližší blízkosti bodů z daného pole experimentálních dat. Blízkost původní a aproximační funkce F(x) je určena numerickou mírou, a to: součet čtverců odchylek experimentálních dat od aproximační křivky F(x) by měl být nejmenší.

Aproximační křivka vytvořená metodou nejmenších čtverců

Používá se metoda nejmenších čtverců:

Řešení přeurčených soustav rovnic, když počet rovnic převyšuje počet neznámých;

Chcete-li najít řešení v případě běžného (nepřepsaného) nelineární systémy rovnice;

Aproximovat bodové hodnoty pomocí nějaké aproximační funkce.

Aproximační funkce pomocí metody nejmenších čtverců je určena z podmínky minimálního součtu čtverců odchylek vypočítané aproximační funkce z daného pole experimentálních dat. Toto kritérium metody nejmenších čtverců je zapsáno jako následující výraz:

Hodnoty vypočítané aproximační funkce v uzlových bodech,

Dané pole experimentálních dat v uzlových bodech.

Kvadratické kritérium má řadu „dobrých“ vlastností, jako je diferencovatelnost, což poskytuje jedinečné řešení aproximačního problému s polynomiálními aproximačními funkcemi.

V závislosti na podmínkách úlohy je aproximační funkce polynom stupně m

Stupeň aproximační funkce nezávisí na počtu uzlových bodů, ale její rozměr musí být vždy menší než rozměr (počet bodů) daného pole experimentálních dat.

∙ Je-li stupeň aproximační funkce m=1, aproximujeme tabulkovou funkci přímkou ​​(lineární regrese).

∙ Je-li stupeň aproximační funkce m=2, aproximujeme tabulkovou funkci kvadratická parabola(kvadratická aproximace).

∙ Je-li stupeň aproximační funkce m=3, pak tabulkovou funkci aproximujeme kubickou parabolou (kubickou aproximací).

V obecný případ kdy je potřeba sestrojit aproximující polynom stupně m pro daný tabulkové hodnoty, je podmínka pro minimální součet čtverců odchylek přes všechny uzlové body přepsána do následující podoby:

- neznámé koeficienty aproximačního polynomu stupně m;

Počet zadaných hodnot tabulky.

Nezbytnou podmínkou pro existenci minima funkce je rovnost nuly jejích parciálních derivací vzhledem k neznámým proměnným . Jako výsledek dostáváme následující systém rovnice:

Pojďme transformovat výsledek lineární systém rovnice: otevřete závorky a přesuňte volné členy na pravou stranu výrazu. Výsledný systém lineární algebraické výrazy bude napsáno v následujícím tvaru:

Tento systém lineárních algebraických výrazů lze přepsat do maticové formy:

Výsledkem byl systém lineární rovnice rozměr m+1, který se skládá z m+1 neznámých. Tento systém lze řešit jakoukoliv metodou pro řešení lineárních úloh. algebraické rovnice(například Gaussovou metodou). V důsledku řešení budou nalezeny neznámé parametry aproximační funkce, které poskytují minimální součet čtverců odchylek aproximační funkce od původních dat, tzn. nejlepší možná kvadratická aproximace. Je třeba mít na paměti, že pokud se změní byť jen jedna hodnota zdrojových dat, všechny koeficienty změní své hodnoty, protože jsou zcela určeny zdrojovými daty.

Aproximace zdrojových dat lineární závislostí

(lineární regrese)

Jako příklad uvažujme techniku ​​určování aproximační funkce, která je uvedena ve formuláři lineární závislost. V souladu s metodou nejmenších čtverců se podmínka pro minimum součtu čtverců odchylek zapisuje v následujícím tvaru:

Souřadnice uzlů tabulky;

Neznámé koeficienty aproximační funkce, která je specifikována jako lineární závislost.

Nezbytnou podmínkou existence minima funkce je nulová rovnost jejích parciálních derivací vzhledem k neznámým proměnným. Výsledkem je následující soustava rovnic:

Transformujme výslednou lineární soustavu rovnic.

Vyřešíme výslednou soustavu lineárních rovnic. Koeficienty aproximační funkce v analytické formě se určují následovně (Cramerova metoda):

Tyto koeficienty zajišťují konstrukci lineární aproximační funkce v souladu s kritériem minimalizace součtu čtverců aproximační funkce z daných tabulkových hodnot (experimentálních dat).

Algoritmus pro implementaci metody nejmenších čtverců

1. Počáteční údaje:

Je specifikováno pole experimentálních dat s počtem měření N

Je zadán stupeň aproximačního polynomu (m).

2. Algoritmus výpočtu:

2.1. Koeficienty jsou určeny pro konstrukci soustavy rovnic s rozměry

Koeficienty soustavy rovnic ( levá strana rovnice)

- index čísla sloupce čtvercové matice soustavy rovnic

Volné členy soustavy lineárních rovnic ( pravá část rovnice)

- index čísla řádku čtvercové matice soustavy rovnic

2.2. Sestavení soustavy lineárních rovnic s dimenzí.

2.3. Řešení soustavy lineárních rovnic pro určení neznámých koeficientů aproximačního polynomu stupně m.

2.4. Určení součtu čtverců odchylek aproximačního polynomu od původních hodnot ve všech uzlových bodech

Nalezená hodnota součtu kvadrátů odchylek je minimum možné.

Aproximace pomocí dalších funkcí

Je třeba poznamenat, že při aproximaci zdrojových dat v souladu s metodou nejmenších čtverců se někdy jako aproximační funkce používá logaritmická funkce, exponenciální funkce a výkonová funkce.

Logaritmická aproximace

Uvažujme případ, kdy je aproximační funkce dána logaritmickou funkcí tvaru:

Podstatou metody nejmenších čtverců je při hledání parametrů trendového modelu, který nejlépe popisuje tendenci vývoje libovolného náhodného jevu v čase nebo prostoru (trend je čára, která charakterizuje tendenci tohoto vývoje). Úkolem metody nejmenších čtverců (LSM) je najít nejen nějaký trendový model, ale najít nejlepší nebo optimální model. Tento model bude optimální, pokud součet čtvercových odchylek mezi pozorovanými skutečnými hodnotami a odpovídajícími vypočtenými hodnotami trendu je minimální (nejmenší):

kde - standardní odchylka mezi pozorovanou skutečnou hodnotou

a odpovídající vypočítanou trendovou hodnotu,

Skutečná (pozorovaná) hodnota studovaného jevu,

vypočítaná hodnota modelu trendu,

Počet pozorování studovaného jevu.

MNC se samostatně používá poměrně zřídka. Zpravidla se nejčastěji používá pouze jako nezbytná technická technika v korelačních studiích. Je třeba mít na paměti, že informační základ nadnárodních společností může být pouze spolehlivý statistická řada a počet pozorování by neměl být menší než 4, jinak mohou vyhlazovací postupy OLS ztratit zdravý rozum.

Sada nástrojů MNC se scvrkává na následující postupy:

První postup. Ukazuje se, zda vůbec existuje tendence měnit výsledný atribut, když se mění vybraný faktor-argument, nebo jinými slovy, existuje souvislost mezi „ na " A " X ».

Druhý postup. Je určeno, která čára (dráha) může nejlépe popsat nebo charakterizovat tento trend.

Třetí postup.

Příklad. Řekněme, že máme informace o průměrném výnosu slunečnice pro studovanou farmu (tabulka 9.1).

Tabulka 9.1

Číslo pozorování

Produktivita, c/ha

Vzhledem k tomu, že úroveň technologie produkce slunečnice se u nás za posledních 10 let prakticky nezměnila, znamená to, že kolísání výnosu v analyzovaném období bylo zřejmě velmi závislé na výkyvech počasí a klimatických podmínek. Je to opravdu pravda?

První postup OLS. Je testována hypotéza o existenci trendu změn výnosu slunečnice v závislosti na změnách počasí a klimatických podmínek za analyzovaných 10 let.

V tomto příkladu pro " y "je vhodné vzít výtěžek slunečnice a pro" X » – číslo sledovaného roku v analyzovaném období. Testování hypotézy o existenci jakéhokoli vztahu mezi „ X " A " y "může být provedeno dvěma způsoby: ručně a pomocí počítačových programů. Samozřejmě, pokud je k dispozici počítačové vybavení tento problém se vyřeší sám. Abychom však lépe porozuměli nástrojům MNC, je vhodné otestovat hypotézu o existenci vztahu mezi „ X " A " y » ručně, když máte po ruce pouze pero a obyčejnou kalkulačku. V takových případech je hypotéza o existenci trendu nejlépe vizuálně ověřena umístěním grafického obrazu analyzované řady dynamiky - korelačním polem:

Korelační pole v našem příkladu se nachází kolem pomalu rostoucí čáry. To samo o sobě svědčí o existenci určitého trendu změn ve výnosech slunečnice. O přítomnosti jakékoli tendence nelze mluvit pouze tehdy, když korelační pole vypadá jako kruh, kruh, přísně vertikální nebo přísně horizontální mrak nebo se skládá z chaoticky rozptýlených bodů. Ve všech ostatních případech platí hypotéza o existenci vztahu mezi „ X " A " y “ a pokračujte ve výzkumu.

Druhý postup OLS. Zjišťuje se, která linie (trajektorie) může nejlépe popsat nebo charakterizovat trend změn ve výnosu slunečnice za analyzované období.

Pokud máte výpočetní techniku, výběr optimálního trendu probíhá automaticky. Při ručním zpracování volba optimální funkci se provádí zpravidla vizuálně - umístěním korelačního pole. To znamená, že na základě typu grafu se vybere rovnice přímky, která nejlépe odpovídá empirickému trendu (skutečné trajektorii).

Jak je známo, v přírodě existuje obrovské množství funkčních závislostí, takže je extrémně obtížné vizuálně analyzovat i malou část z nich. Naštěstí v reálné ekonomické praxi lze většinu vztahů poměrně přesně popsat buď parabolou, nebo hyperbolou, nebo přímkou. V tomto ohledu se s možností „manuálního“ výběru nejlepší funkce můžete omezit pouze na tyto tři modely.

Hyperbola:

Parabola druhého řádu: :

Je snadné vidět, že v našem příkladu trend změn výnosu slunečnice za analyzovaných 10 let nejlépe charakterizuje přímka, takže regresní rovnice bude rovnicí přímky.

Třetí postup. Parametry se vypočítají regresní rovnice charakterizující daný řádek, nebo jinými slovy, je určen analytický vzorec, který popisuje nejlepší model trend.

Nalezení hodnot parametrů regresní rovnice, v našem případě parametrů a , je jádrem OLS. Tento proces spočívá v řešení soustavy normálních rovnic.

(9.2)

Tento systém rovnic lze celkem snadno vyřešit Gaussovou metodou. Připomeňme, že v důsledku řešení jsou v našem příkladu nalezeny hodnoty parametrů a. Nalezená regresní rovnice tedy bude mít následující tvar:

Má mnoho aplikací, protože umožňuje přibližnou reprezentaci dané funkce jinými jednoduššími. LSM může být extrémně užitečné při zpracování pozorování a aktivně se používá k odhadu některých veličin na základě výsledků měření jiných obsahujících náhodné chyby. V tomto článku se dozvíte, jak implementovat výpočty nejmenších čtverců v Excelu.

Vyjádření problému na konkrétním příkladu

Předpokládejme, že existují dva indikátory X a Y. Navíc Y závisí na X. Protože nás OLS zajímá z hlediska regresní analýzy (v Excelu jsou jeho metody implementovány pomocí vestavěných funkcí), měli bychom okamžitě přejít k uvažování konkrétní problém.

Nechť tedy X je maloobchodní plocha obchodu s potravinami měřená v metrech čtverečních a Y je roční obrat měřený v milionech rublů.

Je třeba udělat prognózu, jaký obrat (Y) bude mít obchod, pokud bude mít tu či onu prodejní plochu. Je zřejmé, že funkce Y = f (X) roste, protože hypermarket prodává více zboží než stánek.

Pár slov o správnosti výchozích dat použitých pro predikci

Řekněme, že máme tabulku vytvořenou pomocí dat pro n obchodů.

Podle matematické statistiky, výsledky budou víceméně správné, pokud se prozkoumají údaje o alespoň 5-6 objektech. Navíc nelze použít „anomální“ výsledky. Zejména elitní malý butik může mít obrat, který je několikanásobně vyšší než obrat velkých maloobchodních prodejen třídy „masmarket“.

Podstata metody

Tabulková data lze zobrazit na kartézské rovině ve tvaru bodů M 1 (x 1, y 1), ... M n (x n, y n). Nyní se řešení úlohy zredukuje na výběr aproximační funkce y = f (x), která má graf procházející co nejblíže bodům M 1, M 2, .. M n.

Samozřejmě můžete použít polynom vysokého stupně, ale tato možnost je nejen obtížně implementovatelná, ale také jednoduše nesprávná, protože nebude odrážet hlavní trend, který je třeba zjistit. Nejrozumnějším řešením je hledat přímku y = ax + b, která nejlépe aproximuje experimentální data, přesněji koeficienty a a b.

Hodnocení přesnosti

Při jakékoli aproximaci je zvláště důležité posouzení její přesnosti. Označme e i rozdíl (odchylku) mezi funkční a experimentální hodnotou pro bod x i, tedy e i = y i - f (x i).

Pro posouzení přesnosti aproximace můžete samozřejmě použít součet odchylek, tj. při výběru přímky pro přibližné znázornění závislosti X na Y musíte dát přednost té s nejmenší hodnotu součty e i ve všech uvažovaných bodech. Všechno však není tak jednoduché, protože spolu s pozitivními odchylkami budou existovat také negativní.

Problém lze řešit pomocí odchylkových modulů nebo jejich čtverců. Poslední metoda je nejpoužívanější. Používá se v mnoha oblastech, včetně regresní analýzy (implementované v Excelu pomocí dvou vestavěných funkcí) a svou účinnost již dlouho prokázala.

Metoda nejmenších čtverců

Excel, jak víte, má vestavěnou funkci AutoSum, která vám umožňuje vypočítat hodnoty všech hodnot umístěných ve vybraném rozsahu. Nic nám tedy nebude bránit vypočítat hodnotu výrazu (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

V matematický zápis vypadá to, že:

Vzhledem k tomu, že bylo původně rozhodnuto o aproximaci pomocí přímky, máme:

Úkolem tedy je najít linii, která nejlépe popisuje konkrétní závislost množství X a Y, dochází k výpočtu minima funkce dvou proměnných:

Chcete-li to provést, musíte srovnat parciální derivace vzhledem k novým proměnným aab k nule a vyřešit primitivní systém sestávající ze dvou rovnic se 2 neznámými tvaru:

Po několika jednoduchých transformacích, včetně dělení 2 a manipulace se součty, dostaneme:

Když to vyřešíme například Cramerovou metodou, získáme stacionární bod s určitými koeficienty a * a b *. To je minimum, tedy pro predikci, jaký obrat bude mít obchod pro určitou oblast, je vhodná přímka y = a * x + b *, což je regresní model pro daný příklad. Samozřejmě vám to neumožní najít přesný výsledek, ale pomůže vám to udělat si představu, zda se vám nákup konkrétní oblasti na kredit obchodu vyplatí.

Jak implementovat nejmenší čtverce v Excelu

Excel má funkci pro výpočet hodnot pomocí nejmenších čtverců. Má následující tvar: „TREND“ (známé hodnoty Y; známé hodnoty X; nové hodnoty X; konstanta). Aplikujme vzorec pro výpočet OLS v Excelu na naši tabulku.

Chcete-li to provést, zadejte znaménko „=“ do buňky, ve které se má zobrazit výsledek výpočtu metodou nejmenších čtverců v Excelu, a vyberte funkci „TREND“. V okně, které se otevře, vyplňte příslušná pole a zvýrazněte:

  • rozsah známých hodnot pro Y (v tomto případě údaje pro obchodní obrat);
  • rozsah x 1 , …x n , tj. velikost prodejní plochy;
  • jak slavný, tak neznámé hodnoty x, u kterých je potřeba zjistit velikost obratu (informace o jejich umístění na listu viz níže).

Vzorec navíc obsahuje logickou proměnnou „Const“. Pokud do příslušného pole zadáte 1, bude to znamenat, že byste měli provést výpočty za předpokladu, že b = 0.

Pokud potřebujete zjistit předpověď pro více než jednu hodnotu x, pak po zadání vzorce byste neměli stisknout „Enter“, ale musíte na klávesnici zadat kombinaci „Shift“ + „Control“ + „Enter“.

Některé funkce

Regresní analýza může být přístupná i pro figuríny. Excelovský vzorec pro predikci hodnoty pole neznámých proměnných — TREND — mohou použít i ti, kteří o nejmenších čtvercích nikdy neslyšeli. Stačí znát některé rysy jeho práce. Zejména:

  • Pokud uspořádáte rozsah známých hodnot proměnné y do jednoho řádku nebo sloupce, pak každý řádek (sloupec) známé hodnoty x bude program považovat za samostatnou proměnnou.
  • Pokud okno TREND neukazuje rozsah se známým x, pak pokud je funkce použita v Excel program bude s ním zacházet jako s polem složeným z celých čísel, jejichž počet odpovídá rozsahu s danými hodnotami proměnné y.
  • Pro výstup pole „předpokládaných“ hodnot je třeba zadat výraz pro výpočet trendu jako maticový vzorec.
  • Pokud nejsou zadány nové hodnoty x, pak je funkce TREND považuje za rovné těm známým. Pokud nejsou zadány, pak se jako argument použije pole 1; 2; 3; 4;…, která je úměrná rozsahu s již zadanými parametry y.
  • Rozsah obsahující nové hodnoty x musí mít stejný nebo více řádků nebo sloupců jako rozsah obsahující dané hodnoty y. Jinými slovy, musí být úměrné nezávislým proměnným.
  • Pole se známými hodnotami x může obsahovat více proměnných. Pokud však mluvíme pouze o jednom, pak je nutné, aby rozsahy s danými hodnotami x a y byly úměrné. V případě více proměnných je nutné, aby se rozsah s danými hodnotami y vešel do jednoho sloupce nebo jednoho řádku.

Funkce PREDICTION

Implementováno pomocí několika funkcí. Jeden z nich se nazývá „PŘEDPOVĚĎ“. Podobá se „TREND“, tedy dává výsledek výpočtů metodou nejmenších čtverců. Ovšem pouze pro jedno X, u kterého je hodnota Y neznámá.

Nyní znáte vzorce v Excelu pro figuríny, které vám umožňují předpovídat budoucí hodnotu konkrétního ukazatele podle lineárního trendu.

Příklad.

Experimentální data o hodnotách proměnných X A na jsou uvedeny v tabulce.

V důsledku jejich zarovnání se získá funkce

Použitím metoda nejmenších čtverců, aproximujte tato data lineární závislostí y=ax+b(zjistit parametry A A b). Zjistěte, která ze dvou čar lépe (ve smyslu metody nejmenších čtverců) zarovnává experimentální data. Udělejte nákres.

Podstata metody nejmenších čtverců (LSM).

Úkolem je najít lineární koeficienty závislosti, při kterých je funkce dvou proměnných A A b má nejmenší hodnotu. Tedy daný A A b součet čtverců odchylek experimentálních dat od nalezené přímky bude nejmenší. To je celý smysl metody nejmenších čtverců.

Řešení příkladu tedy vede k nalezení extrému funkce dvou proměnných.

Odvozovací vzorce pro hledání koeficientů.

Sestaví se a vyřeší soustava dvou rovnic o dvou neznámých. Hledání parciálních derivací funkce podle proměnných A A b, přirovnáme tyto derivace k nule.

Výslednou soustavu rovnic řešíme libovolnou metodou (např substituční metodou nebo Cramerova metoda) a získejte vzorce pro hledání koeficientů pomocí metody nejmenších čtverců (LSM).

Dáno A A b funkce má nejmenší hodnotu. Důkaz této skutečnosti je uveden níže v textu na konci stránky.

To je celá metoda nejmenších čtverců. Vzorec pro zjištění parametru A obsahuje součty ,,, a parametr n- množství experimentálních dat. Hodnoty těchto částek doporučujeme počítat samostatně. Součinitel b zjištěno po výpočtu A.

Je čas si připomenout původní příklad.

Řešení.

V našem příkladu n=5. Vyplňujeme tabulku pro usnadnění výpočtu částek, které jsou zahrnuty ve vzorcích požadovaných koeficientů.

Hodnoty ve čtvrtém řádku tabulky se získají vynásobením hodnot 2. řádku hodnotami 3. řádku pro každé číslo i.

Hodnoty v pátém řádku tabulky se získají umocněním hodnot ve 2. řádku pro každé číslo i.

Hodnoty v posledním sloupci tabulky jsou součty hodnot napříč řádky.

Ke zjištění koeficientů používáme vzorce metody nejmenších čtverců A A b. Dosadíme do nich odpovídající hodnoty z posledního sloupce tabulky:

Proto, y = 0,165x+2,184- požadovaná přibližná přímka.

Zbývá zjistit, která z linek y = 0,165x+2,184 nebo lépe aproximuje původní data, to znamená, že provádí odhad pomocí metody nejmenších čtverců.

Odhad chyby metody nejmenších čtverců.

K tomu je třeba vypočítat součet čtverců odchylek původních dat z těchto řádků A , menší hodnota odpovídá řádku, který se lépe přibližuje původním datům ve smyslu metody nejmenších čtverců.

Od , tedy rovně y = 0,165x+2,184 lépe se blíží původním údajům.

Grafické znázornění metody nejmenších čtverců (LS).

Vše je jasně vidět na grafech. Červená čára je nalezená přímka y = 0,165x+2,184, modrá čára je , růžové tečky jsou původní údaje.

V praxi se při modelování různých procesů - zejména ekonomických, fyzických, technických, sociálních - široce používá jeden nebo druhý způsob výpočtu přibližných hodnot funkcí z jejich známých hodnot v určitých pevných bodech.

Tento druh problému aproximace funkcí často nastává:

    při konstrukci přibližných vzorců pro výpočet hodnot charakteristických veličin studovaného procesu pomocí tabulkových dat získaných jako výsledek experimentu;

    v numerické integraci, derivaci, řešení diferenciální rovnice atd.;

    v případě potřeby vypočítat hodnoty funkcí v mezilehlých bodech uvažovaného intervalu;

    při určování hodnot charakteristických veličin procesu mimo uvažovaný interval, zejména při prognózování.

Pokud pro modelování určitého procesu specifikovaného tabulkou zkonstruujeme funkci, která tento proces přibližně popisuje na základě metody nejmenších čtverců, bude se nazývat aproximační funkce (regrese) a samotná úloha konstrukce aproximačních funkcí bude nazývána aproximační problém.

Tento článek pojednává o možnostech balíku MS Excel pro řešení tohoto typu problémů, navíc poskytuje metody a techniky pro konstrukci (vytváření) regresí pro tabelované funkce (což je základem regresní analýzy).

Excel má dvě možnosti pro vytváření regresí.

    Přidání vybraných regresí ( trendové linie- trendové čáry) do diagramu vytvořeného na základě datové tabulky pro studovanou charakteristiku procesu (dostupné pouze v případě, že existuje vytvořený diagram);

    Použití vestavěných statistických funkcí listu Excel, které vám umožní získat regrese (trendové linie) přímo z tabulky zdrojových dat.

Přidání trendových čar do grafu

Pro tabulku dat, která popisuje proces a je reprezentována diagramem, má Excel účinný nástroj pro regresní analýzu, který vám umožňuje:

    stavět na základě metody nejmenších čtverců a přidat do diagramu pět typů regresí, které modelují zkoumaný proces s různou mírou přesnosti;

    doplňte sestrojenou regresní rovnici do diagramu;

    určit míru korespondence vybrané regrese s údaji zobrazenými v grafu.

Na základě dat z grafu vám Excel umožňuje získat lineární, polynomiální, logaritmické, mocninné a exponenciální typy regresí, které jsou specifikovány rovnicí:

y = y (x)

kde x je nezávislá proměnná, která často nabývá hodnot posloupnosti přirozených čísel (1; 2; 3; ...) a vytváří například odpočet času zkoumaného procesu (charakteristiky).

1 . Lineární regrese je vhodná pro modelování charakteristik, jejichž hodnoty rostou nebo klesají konstantní rychlostí. Toto je nejjednodušší model, který lze sestavit pro studovaný proces. Je konstruován podle rovnice:

y = mx + b

kde m je tangens úhlu sklonu lineární regrese k ose x; b - souřadnice průsečíku lineární regrese s osou pořadnice.

2 . Polynomiální trendová čára je užitečná pro popis charakteristik, které mají několik odlišných extrémů (maxima a minima). Volba stupně polynomu je určena počtem extrémů studované charakteristiky. Polynom druhého stupně tedy může dobře popsat proces, který má pouze jedno maximum nebo minimum; polynom třetího stupně - ne více než dva extrémy; polynom čtvrtého stupně - ne více než tři extrémy atd.

V tomto případě je trendová čára konstruována v souladu s rovnicí:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

kde koeficienty c0, c1, c2,... c6 jsou konstanty, jejichž hodnoty jsou určeny při konstrukci.

3 . Logaritmická trendová čára se úspěšně používá při modelování charakteristik, jejichž hodnoty se zpočátku rychle mění a poté se postupně stabilizují.

y = c ln(x) + b

4 . Trendová čára mocninného zákona dává dobré výsledky, pokud jsou hodnoty studovaného vztahu charakterizovány neustálou změnou tempa růstu. Příkladem takové závislosti je graf rovnoměrně zrychleného pohybu automobilu. Pokud jsou v datech nulové nebo záporné hodnoty, nemůžete použít čáru trendu napájení.

Sestaveno podle rovnice:

y = c xb

kde koeficienty b, c jsou konstanty.

5 . Exponenciální trendová čára by měla být použita, když se rychlost změny v datech neustále zvyšuje. Pro data obsahující nulové nebo záporné hodnoty není tento typ aproximace rovněž použitelný.

Sestaveno podle rovnice:

y = c ebx

kde koeficienty b, c jsou konstanty.

Při výběru trendové čáry Excel automaticky vypočítá hodnotu R2, která charakterizuje spolehlivost aproximace: než bližší hodnotu R2 k jednotě, tím spolehlivěji se trendová čára přibližuje studovanému procesu. V případě potřeby lze hodnotu R2 vždy zobrazit v grafu.

Určeno podle vzorce:

Postup přidání trendové čáry do datové řady:

    aktivovat graf na základě řady dat, tj. klikněte do oblasti grafu. V hlavním menu se objeví položka Diagram;

    po kliknutí na tuto položku se na obrazovce objeví nabídka, ve které byste měli vybrat příkaz Přidat čáru trendu.

Stejné akce lze snadno provést najetím ukazatele myši na graf odpovídající jedné z datových řad a kliknutím pravým tlačítkem myši; V zobrazené kontextové nabídce vyberte příkaz Přidat čáru trendu. Na obrazovce se objeví dialogové okno Trendová čára s otevřenou záložkou Typ (obr. 1).

Po tomto potřebujete:

Na záložce Typ vyberte požadovaný typ čáry trendu (standardně je vybrán typ Lineární). U typu Polynom zadejte v poli Stupeň stupeň vybraného polynomu.

1 . Pole Built on series uvádí všechny datové řady v příslušném grafu. Chcete-li přidat trendovou linii ke konkrétní datové řadě, vyberte její název v poli Built on series.

V případě potřeby můžete přechodem na záložku Parametry (obr. 2) nastavit pro linii trendu následující parametry:

    změňte název spojnice trendu v poli Název aproximující (vyhlazené) křivky.

    nastavte počet období (dopředu nebo dozadu) pro předpověď v poli Předpověď;

    zobrazit rovnici spojnice trendu v oblasti diagramu, pro kterou byste měli zaškrtnout políčko Zobrazit rovnici v diagramu;

    zobrazit hodnotu aproximační spolehlivosti R2 v oblasti diagramu, pro kterou byste měli zaškrtnout políčko Umístit hodnotu aproximační spolehlivosti do diagramu (R^2);

    nastavte průsečík spojnice trendu s osou Y, pro kterou byste měli zaškrtnout políčko pro průsečík křivky s osou Y v bodě;

    Klepnutím na tlačítko OK zavřete dialogové okno.

Chcete-li začít upravovat již nakreslenou trendovou čáru, existují tři způsoby:

    použijte příkaz Vybraná spojnice trendu z nabídky Formát po předchozím výběru spojnice trendu;

    z kontextové nabídky vyberte příkaz Formátovat spojnici trendu, který vyvoláte kliknutím pravým tlačítkem myši na spojnici trendu;

    dvakrát klikněte na trendovou čáru.

Na obrazovce se objeví dialogové okno Formát čáry trendu (obr. 3), které obsahuje tři karty: View, Type, Parameters a obsah posledních dvou se zcela shoduje s podobnými kartami dialogového okna Trend Line (obr. 1). -2). Na kartě Zobrazit můžete nastavit typ čáry, její barvu a tloušťku.

Chcete-li odstranit trendovou linii, která již byla nakreslena, vyberte trendovou linii, kterou chcete odstranit, a stiskněte klávesu Delete.

Výhody uvažovaného nástroje regresní analýzy jsou:

    relativní snadnost konstrukce trendové čáry na grafech bez vytvoření datové tabulky;

    poměrně široký seznam typů navrhovaných trendových čar a tento seznam zahrnuje nejčastěji používané typy regrese;

    schopnost předvídat chování zkoumaného procesu libovolným (v mezích zdravého rozumu) počtem kroků vpřed i vzad;

    schopnost získat rovnici trendové čáry v analytické podobě;

    možnost v případě potřeby získat posouzení spolehlivosti aproximace.

Mezi nevýhody patří následující:

    konstrukce trendové čáry se provádí pouze v případě, že existuje diagram sestavený na sérii dat;

    proces generování datových řad pro studovanou charakteristiku na základě rovnic trendových čar získaných pro ni je poněkud nepřehledný: požadované regresní rovnice se aktualizují s každou změnou hodnot původní datové řady, ale pouze v oblasti diagramu , zatímco datové řady, generovaný na základě staré rovnice trendové čáry, zůstává nezměněn;

    V sestavách kontingenčního grafu změna zobrazení grafu nebo související sestavy kontingenční tabulky nezachová stávající spojnice trendu, což znamená, že před nakreslením spojnic trendu nebo jiným formátováním sestavy kontingenčního grafu byste se měli ujistit, že rozvržení sestavy splňuje požadované požadavky.

Trendové čáry lze použít k doplnění datových řad prezentovaných v grafech, jako je graf, histogram, ploché nestandardizované plošné grafy, sloupcové grafy, bodové grafy, bublinové grafy a akciové grafy.

Trendové čáry nelze přidávat do datových řad ve 3D, normalizovaných, radarových, koláčových a prstencových grafech.

Použití vestavěných funkcí Excelu

Excel má také nástroj pro regresní analýzu pro vykreslování trendových čar mimo oblast grafu. K tomuto účelu můžete použít řadu funkcí statistického listu, ale všechny vám umožňují vytvářet pouze lineární nebo exponenciální regrese.

Excel má několik funkcí pro konstrukci lineární regrese, zejména:

    TREND;

  • SLOPE a ŘEZ.

Stejně jako několik funkcí pro konstrukci exponenciální trendové linie, zejména:

    LGRFPRIBL.

Je třeba poznamenat, že techniky pro konstrukci regresí pomocí funkcí TREND a GROWTH jsou téměř stejné. Totéž lze říci o dvojici funkcí LINEST a LGRFPRIBL. Pro tyto čtyři funkce se při vytváření tabulky hodnot používají funkce Excelu, jako jsou maticové vzorce, což poněkud komplikuje proces vytváření regresí. Poznamenejme také, že konstrukci lineární regrese lze podle našeho názoru nejsnáze provést pomocí funkcí SLOPE a INTERCEPT, kde první z nich určuje sklon lineární regrese a druhá určuje segment zachycený regresí na osa y.

Výhody vestavěného nástroje funkcí pro regresní analýzu jsou:

    poměrně jednoduchý, jednotný proces generování datových řad studované charakteristiky pro všechny vestavěné statistické funkce, které definují trendové linie;

    standardní metodika pro konstrukci trendových čar na základě generovaných datových řad;

    schopnost předvídat chování zkoumaného procesu o požadovaný počet kroků vpřed nebo vzad.

Mezi nevýhody patří skutečnost, že Excel nemá vestavěné funkce pro vytváření jiných (kromě lineárních a exponenciálních) typů trendových čar. Tato okolnost často neumožňuje vybrat dostatečně přesný model zkoumaného procesu a také získat prognózy blízké realitě. Navíc při použití funkcí TREND a GROWTH nejsou známy rovnice trendových čar.

Je třeba poznamenat, že autoři si nekladli za cíl prezentovat průběh regresní analýzy s jakoukoli mírou úplnosti. Jeho hlavním úkolem je ukázat na konkrétních příkladech možnosti balíku Excel při řešení aproximačních úloh; demonstrovat, jaké účinné nástroje má Excel pro vytváření regresí a prognózování; ilustrují, jak lze takové problémy poměrně snadno vyřešit i uživatelem, který nemá rozsáhlé znalosti regresní analýzy.

Příklady řešení konkrétních problémů

Podívejme se na řešení konkrétních problémů pomocí uvedených nástrojů Excelu.

Problém 1

S tabulkou údajů o zisku podniku motorové dopravy za roky 1995-2002. musíte udělat následující:

    Sestavte diagram.

    Přidejte do grafu lineární a polynomiální (kvadratické a kubické) trendové čáry.

    Pomocí rovnic trendových linií získejte tabulková data o ziscích podniku pro každou trendovou linii za období 1995-2004.

    Vytvořte prognózu zisku podniku na roky 2003 a 2004.

Řešení problému

    Do rozsahu buněk A4:C11 listu Excel zadejte list uvedený na Obr. 4.

    Po výběru rozsahu buněk B4:C11 vytvoříme diagram.

    Zkonstruovaný diagram aktivujeme a dle výše popsaného způsobu po výběru typu trendové čáry v dialogovém okně Trendová čára (viz obr. 1) střídavě přidáváme do diagramu lineární, kvadratické a kubické trendové čáry. Ve stejném dialogovém okně otevřete záložku Parametry (viz obr. 2), do pole Název aproximační (vyhlazené) křivky zadejte název přidávaného trendu a v poli Předpověď pro: období nastavte hodnotu 2, protože se plánuje provést prognózu zisku na dva roky dopředu. Chcete-li v oblasti diagramu zobrazit regresní rovnici a hodnotu spolehlivosti aproximace R2, zaškrtněte políčka Zobrazit rovnici na obrazovce a umístěte do diagramu hodnotu spolehlivosti aproximace (R^2). Pro lepší vizuální vnímání měníme typ, barvu a tloušťku konstruovaných trendových čar, k čemuž využíváme záložku Zobrazit dialogového okna Formát čáry trendu (viz obr. 3). Výsledný diagram s přidanými trendovými čarami je na Obr. 5.

    Získat tabulková data o ziscích podniku pro každou trendovou linii za období 1995-2004. Použijme rovnice trendové čáry uvedené na Obr. 5. Chcete-li to provést, zadejte do buněk rozsahu D3:F3 textovou informaci o typu vybrané linie trendu: Lineární trend, Kvadratický trend, Kubický trend. Dále zadejte vzorec lineární regrese do buňky D4 a pomocí značky výplně zkopírujte tento vzorec s relativními odkazy na oblast buněk D5:D13. Je třeba poznamenat, že každá buňka se vzorcem lineární regrese z oblasti buněk D4:D13 má jako argument odpovídající buňku z oblasti A4:A13. Podobně pro kvadratickou regresi vyplňte oblast buněk E4:E13 a pro kubickou regresi vyplňte oblast buněk F4:F13. Byla tak sestavena prognóza hospodářského výsledku podniku pro roky 2003 a 2004. pomocí tří trendů. Výsledná tabulka hodnot je na obr. 6.

Problém 2

    Sestavte diagram.

    Přidejte do grafu logaritmické, mocninné a exponenciální trendové čáry.

    Odvoďte rovnice získaných trendových čar a také hodnoty spolehlivosti aproximace R2 pro každou z nich.

    Pomocí rovnic trendových linií získejte tabulková data o zisku podniku pro každou trendovou linii za roky 1995-2002.

    Pomocí těchto trendových čar vytvořte prognózu zisku společnosti na roky 2003 a 2004.

Řešení problému

Podle metodiky uvedené v řešení problému 1 získáme diagram s logaritmickými, mocninnými a exponenciálními trendovými čarami, které jsou k němu přidány (obr. 7). Dále pomocí získaných rovnic trendových linií vyplníme tabulku hodnot pro zisk podniku, včetně predikovaných hodnot pro roky 2003 a 2004. (obr. 8).

Na Obr. 5 a Obr. je vidět, že model s logaritmickým trendem odpovídá nejnižší hodnotě aproximační spolehlivosti

R2 = 0,8659

Nejvyšší hodnoty R2 odpovídají modelům s polynomiálním trendem: kvadratický (R2 = 0,9263) a kubický (R2 = 0,933).

Problém 3

S tabulkou údajů o zisku podniku motorové dopravy za roky 1995-2002, uvedenou v úloze 1, musíte provést následující kroky.

    Získejte datové řady pro lineární a exponenciální trendové linie pomocí funkcí TREND a GROW.

    Pomocí funkcí TREND a GROWTH vytvořte prognózu zisku podniku na roky 2003 a 2004.

    Sestavte diagram pro původní data a výsledné datové řady.

Řešení problému

Použijme pracovní list pro úlohu 1 (viz obr. 4). Začněme funkcí TREND:

    vyberte rozsah buněk D4:D11, který by měl být vyplněn hodnotami funkce TREND odpovídající známým údajům o zisku podniku;

    Vyvolejte příkaz Funkce z nabídky Vložit. V dialogovém okně Průvodce funkcí, které se zobrazí, vyberte funkci TREND z kategorie Statistické a klepněte na tlačítko OK. Stejnou operaci lze provést kliknutím na tlačítko (Vložit funkci) na standardním panelu nástrojů.

    V zobrazeném dialogovém okně Argumenty funkce zadejte rozsah buněk C4:C11 do pole Známé_hodnoty_y; v poli Known_values_x - rozsah buněk B4:B11;

    Chcete-li, aby se zadaný vzorec stal maticovým vzorcem, použijte kombinaci kláves + + .

Vzorec, který jsme zadali do řádku vzorců, bude vypadat takto: =(TREND(C4:C11,B4:B11)).

V důsledku toho je rozsah buněk D4:D11 vyplněn odpovídajícími hodnotami funkce TREND (obr. 9).

Provést prognózu zisku podniku na roky 2003 a 2004. nutné:

    vyberte rozsah buněk D12:D13, kam budou zadány hodnoty předpovězené funkcí TREND.

    zavolejte funkci TREND a v zobrazeném dialogovém okně Argumenty funkce zadejte do pole Known_values_y rozsah buněk C4:C11; v poli Known_values_x - rozsah buněk B4:B11; a v poli New_values_x - rozsah buněk B12:B13.

    převeďte tento vzorec na maticový vzorec pomocí kombinace kláves Ctrl + Shift + Enter.

    Zadaný vzorec bude vypadat takto: =(TREND(C4:C11;B4:B11;B12:B13)) a rozsah buněk D12:D13 bude vyplněn predikovanými hodnotami funkce TREND (viz obr. 9).

Datová řada se obdobně vyplňuje pomocí funkce GROWTH, která se používá při analýze nelineárních závislostí a funguje úplně stejně jako její lineární protějšek TREND.

Obrázek 10 ukazuje tabulku v režimu zobrazení vzorce.

Pro počáteční data a získanou datovou řadu je diagram znázorněný na Obr. jedenáct.

Problém 4

S tabulkou údajů o příjmu žádostí o služby dispečinkem podniku motorové dopravy za období od 1. do 11. dne aktuálního měsíce musíte provést následující úkony.

    Získejte datové řady pro lineární regresi: pomocí funkcí SLOPE a INTERCEPT; pomocí funkce LINREGRESE.

    Získejte řadu dat pro exponenciální regresi pomocí funkce LGRFPRIBL.

    Pomocí výše uvedených funkcí vytvořte prognózu příjmu žádostí na dispečink na období od 12. do 14. dne aktuálního měsíce.

    Vytvořte diagram pro původní a přijatou datovou řadu.

Řešení problému

Všimněte si, že na rozdíl od funkcí TREND a GROWTH žádná z výše uvedených funkcí (SLOPE, INTERCEPT, LINEST, LGRFPRIB) není regresní. Tyto funkce hrají pouze podpůrnou roli, určující potřebné regresní parametry.

U lineárních a exponenciálních regresí sestavených pomocí funkcí SLOPE, INTERCEPT, LINEST, LGRFPRIB je vzhled jejich rovnic vždy znám, na rozdíl od lineárních a exponenciálních regresí odpovídajících funkcím TREND a GROWTH.

1 . Sestavme lineární regresi pomocí rovnice:

y = mx+b

pomocí funkcí SLOPE a INTERCEPT, přičemž regresní sklon m je určen funkcí SLOPE a volný člen b funkcí INTERCEPT.

Za tímto účelem provádíme následující akce:

    zadejte původní tabulku do oblasti buněk A4:B14;

    hodnota parametru m bude určena v buňce C19. Vyberte funkci Sklon z kategorie Statistické; zadejte rozsah buněk B4:B14 do pole známé_hodnoty_y a rozsah buněk A4:A14 do pole známé_hodnoty_x. Do buňky C19 bude zadán vzorec: =SLOPE(B4:B14,A4:A14);

    Pomocí podobné techniky se určí hodnota parametru b v buňce D19. A jeho obsah bude vypadat takto: =SEGMENT(B4:B14,A4:A14). Hodnoty parametrů mab potřebné pro konstrukci lineární regrese budou tedy uloženy v buňkách C19, resp. D19;

    Dále zadejte vzorec lineární regrese do buňky C4 ve tvaru: =$C*A4+$D. V tomto vzorci se buňky C19 a D19 zapisují s absolutními odkazy (adresa buňky by se při případném kopírování neměla měnit). Absolutní referenční znak $ lze zadat buď z klávesnice nebo pomocí klávesy F4 po umístění kurzoru na adresu buňky. Pomocí úchytu výplně zkopírujte tento vzorec do oblasti buněk C4:C17. Získáme požadované datové řady (obr. 12). Vzhledem k tomu, že počet požadavků je celé číslo, měli byste na kartě Číslo v okně Formát buňky nastavit formát čísla s počtem desetinných míst na 0.

2 . Nyní sestavme lineární regresi danou rovnicí:

y = mx+b

pomocí funkce LINREGRESE.

Pro tohle:

    Zadejte funkci LINREGRESE jako maticový vzorec v oblasti buněk C20:D20: =(LINEST(B4:B14,A4:A14)). V důsledku toho získáme hodnotu parametru m v buňce C20 a hodnotu parametru b v buňce D20;

    zadejte vzorec do buňky D4: =$C*A4+$D;

    zkopírujte tento vzorec pomocí značky výplně do oblasti buněk D4:D17 a získejte požadovanou datovou řadu.

3 . Sestavíme exponenciální regresi pomocí rovnice:

pomocí funkce LGRFPRIBL se provádí podobně:

    V oblasti buněk C21:D21 zadáme funkci LGRFPRIBL jako maticový vzorec: =( LGRFPRIBL (B4:B14,A4:A14)). V tomto případě bude hodnota parametru m určena v buňce C21 a hodnota parametru b bude určena v buňce D21;

    vzorec se zadá do buňky E4: =$D*$C^A4;

    pomocí značky výplně se tento vzorec zkopíruje do rozsahu buněk E4:E17, kde bude umístěna datová řada pro exponenciální regresi (viz obr. 12).

Na Obr. Obrázek 13 ukazuje tabulku, kde můžete vidět funkce, které používáme s požadovanými rozsahy buněk, a také vzorce.

Velikost R 2 volal koeficient determinace.

Úkolem konstrukce regresní závislosti je najít vektor koeficientů m modelu (1), při kterém koeficient R nabývá maximální hodnoty.

K posouzení významnosti R se používá Fisherův F test vypočítaný pomocí vzorce

Kde n- velikost vzorku (počet experimentů);

k je počet modelových koeficientů.

Pokud F překročí nějakou kritickou hodnotu pro data n A k a přijatá pravděpodobnost spolehlivosti, pak se hodnota R považuje za významnou. Tabulky kritické hodnoty F jsou uvedeny v referenčních knihách o matematické statistice.

Význam R je tedy určen nejen jeho hodnotou, ale také poměrem mezi počtem experimentů a počtem koeficientů (parametrů) modelu. Ve skutečnosti je korelační poměr pro n=2 pro jednoduchý lineární model roven 1 (jedna přímka může být vždy nakreslena přes 2 body v rovině). Pokud jsou však experimentální data náhodné proměnné, je třeba takové hodnotě R věřit s velkou opatrností. Obvykle se pro získání významné R a spolehlivé regrese snaží zajistit, aby počet experimentů výrazně převyšoval počet modelových koeficientů (n>k).

K vytvoření lineárního regresního modelu potřebujete:

1) připravte seznam n řádků a m sloupců obsahující experimentální data (sloupec obsahující výstupní hodnotu Y musí být buď první nebo poslední v seznamu); Vezměme například data z předchozího úkolu, přidáme sloupec nazvaný „Číslo období“, očíslujeme čísla období od 1 do 12. (toto budou hodnoty X)

2) přejděte do nabídky Data/Analýza dat/Regrese

Pokud položka „Analýza dat“ v nabídce „Nástroje“ chybí, měli byste přejít na položku „Doplňky“ ve stejné nabídce a zaškrtnout políčko „Analytický balíček“.

3) v dialogovém okně "Regrese" nastavte:

· vstupní interval Y;

· vstupní interval X;

· výstupní interval - levá horní buňka intervalu, do kterého budou umístěny výsledky výpočtu (doporučuje se je umístit na nový list);

4) klikněte na „OK“ a analyzujte výsledky.

Metoda nejmenších čtverců slouží k odhadu parametrů regresní rovnice.
Počet řádků (zdrojová data)

Jednou z metod pro studium stochastických vztahů mezi charakteristikami je regresní analýza.
Regresní analýza je odvození regresní rovnice, pomocí které se zjistí průměrná hodnota náhodné veličiny (výsledkový atribut), pokud je známa hodnota jiné (nebo jiných) proměnných (faktorových atributů). Zahrnuje následující kroky:

  1. výběr formy spojení (typ analytické regresní rovnice);
  2. odhad parametrů rovnic;
  3. posouzení kvality analytické regresní rovnice.
Nejčastěji se k popisu statistického vztahu znaků používá lineární forma. Zaměření na lineární vztahy je vysvětleno jasnou ekonomickou interpretací jejich parametrů, omezenými variacemi proměnných a skutečností, že ve většině případů jsou nelineární formy vztahů převedeny (logaritmováním nebo substitucí proměnných) do lineární formy pro provádění výpočtů. .
V případě lineárního párového vztahu bude mít regresní rovnice tvar: y i =a+b·x i +u i . Parametry aab této rovnice jsou odhadnuty z dat statistické pozorování x a y. Výsledkem takového posouzení je rovnice: , kde , jsou odhady parametrů aab , je hodnota výsledného atributu (proměnné) získaná z regresní rovnice (vypočtená hodnota).

Nejčastěji se používá k odhadu parametrů metoda nejmenších čtverců (LSM).
Metoda nejmenších čtverců poskytuje nejlepší (konzistentní, efektivní a nezaujaté) odhady parametrů regresní rovnice. Ale pouze pokud jsou splněny určité předpoklady týkající se náhodného členu (u) a nezávislé proměnné (x) (viz předpoklady OLS).

Problém odhadu parametrů lineární párové rovnice metodou nejmenších čtverců je následující: získat takové odhady parametrů , , při kterých je součet čtverců odchylek skutečných hodnot výsledné charakteristiky - y i od vypočtených hodnot - minimální.
Formálně Kritérium OLS lze napsat takto: .

Klasifikace metod nejmenších čtverců

  1. Metoda nejmenších čtverců.
  2. Metoda maximální věrohodnosti (pro normální klasický lineární regresní model je postulována normalita regresních reziduí).
  3. Zobecněná metoda nejmenších čtverců OLS se používá v případě autokorelace chyb a v případě heteroskedasticity.
  4. Metoda vážených nejmenších čtverců ( speciální případ OLS s heteroskedastickými rezidui).

Pojďme si pointu ilustrovat klasická metoda nejmenších čtverců graficky. K tomu sestrojíme bodový graf založený na pozorovacích datech (x i, y i, i=1;n) v pravoúhlém souřadnicovém systému (takovýto bodový graf se nazývá korelační pole). Zkusme vybrat přímku, která je nejblíže bodům korelačního pole. Podle metody nejmenších čtverců je přímka vybrána tak, aby součet druhých mocnin vertikálních vzdáleností mezi body korelačního pole a touto přímkou ​​byl minimální.

Matematický zápis tohoto problému: .
Hodnoty y i a x i = 1...n jsou nám známy, jedná se o pozorovací data. Ve funkci S představují konstanty. Proměnné v této funkci jsou požadované odhady parametrů - , . Pro nalezení minima funkce dvou proměnných je nutné pro každý z parametrů vypočítat parciální derivace této funkce a srovnat je s nulou, tzn. .
Výsledkem je systém 2 normálních lineárních rovnic:
Rozhodování tento systém, najdeme požadované odhady parametrů:

Správnost výpočtu parametrů regresní rovnice lze zkontrolovat porovnáním částek (může dojít k určité nesrovnalosti v důsledku zaokrouhlování výpočtů).
Chcete-li vypočítat odhady parametrů, můžete sestavit tabulku 1.
Znaménko regresního koeficientu b udává směr vztahu (je-li b >0, je vztah přímý, je-li b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formálně je hodnota parametru a průměrná hodnota y s x rovným nule. Pokud atribut-faktor nemá a nemůže mít nulovou hodnotu, pak výše uvedená interpretace parametru a nedává smysl.

Posouzení blízkosti vztahu mezi charakteristikami provedené pomocí lineárního párového korelačního koeficientu - r x,y. Lze jej vypočítat pomocí vzorce: . Kromě toho lze lineární párový korelační koeficient určit pomocí regresního koeficientu b: .
Rozsah přípustných hodnot lineárního párového korelačního koeficientu je od –1 do +1. Znaménko korelačního koeficientu udává směr vztahu. Jestliže r x, y >0, pak je spojení přímé; pokud r x, y<0, то связь обратная.
Pokud se tento koeficient co do velikosti blíží jednotce, pak lze vztah mezi charakteristikami interpretovat jako poměrně blízko lineární. Pokud je jeho modul roven jedné ê r x , y ê =1, pak je vztah mezi charakteristikami funkčně lineární. Pokud jsou rysy x a y lineárně nezávislé, pak r x,y je blízko 0.
Pro výpočet r x,y můžete také použít tabulku 1.

stůl 1

N pozorováníx iy ix i ∙y i
1 x 1y 1x 1 rok 1
2 x 2y 2x 2 y 2
...
nx ny nx n y n
Sloupec Součet∑x∑y∑xy
Průměrná hodnota
Pro posouzení kvality výsledné regresní rovnice vypočítejte teoretický koeficient determinace - R 2 yx:

,
kde d 2 je rozptyl y vysvětlený regresní rovnicí;
e 2 - zbytkový (nevysvětlený regresní rovnicí) rozptyl y;
s 2 y - celkový (celkový) rozptyl y.
Koeficient determinace charakterizuje podíl variace (disperze) výsledného atributu y vysvětleného regresí (a následně faktorem x) na celkové variaci (disperzi) y. Koeficient determinace R 2 yx nabývá hodnot od 0 do 1. Hodnota 1-R 2 yx tedy charakterizuje podíl rozptylu y způsobeného vlivem dalších faktorů nezohledněných v modelu a specifikačních chyb.
S párovou lineární regresí R 2 yx = r 2 yx.

Novinka na webu

>

Nejoblíbenější