Dom Gumy Modele wygładzania wykładniczego i prognozowania szeregów czasowych. Prognozowanie w oparciu o wygładzanie wykładnicze

Modele wygładzania wykładniczego i prognozowania szeregów czasowych. Prognozowanie w oparciu o wygładzanie wykładnicze

1. Podstawowe postanowienia metodyczne.

Prosta metoda wygładzania wykładniczego wykorzystuje ważoną (wykładniczą) średnią ruchomą wszystkich danych z poprzednich obserwacji. Model ten najczęściej stosowany jest do danych, w których konieczna jest ocena występowania związku pomiędzy analizowanymi wskaźnikami (trendem) lub zależności analizowanych danych. Celem wygładzania wykładniczego jest oszacowanie stan aktulany, którego wyniki zadecydują o wszystkich kolejnych prognozach.

Zapewnia wygładzanie wykładnicze Stała aktualizacja modelu przy wykorzystaniu najświeższych danych. Metoda ta opiera się na uśrednianiu (wygładzaniu) szeregów czasowych przeszłych obserwacji w kierunku malejącym (wykładniczym). Oznacza to, że nowszym wydarzeniom przypisuje się większą wagę. Wagę przypisuje się w następujący sposób: dla ostatniej obserwacji będzie to waga α, dla przedostatniej – (1-α), dla poprzedniej – (1-α) 2 itd.

W wygładzonej formie nową prognozę (dla okresu t+1) można przedstawić jako średnią ważoną ostatniej obserwacji wielkości w chwili t i jej poprzedniej prognozy dla tego samego okresu t. Ponadto, wartości obserwowanej przypisuje się wagę α, a prognozie wagę (1- α); zakłada się, że 0< α<1. Это правило в общем виде можно записать следующим образом.

Nowa prognoza = [α*(ostatnia obserwacja)]+[(1- α)*ostatnia prognoza]

gdzie jest przewidywana wartość Następny okres;

α – stała wygładzania;

Y t – obserwacja wartości dla obecny okres T;

Poprzednia wygładzona prognoza tej wartości dla okresu t.

Wygładzanie wykładnicze to procedura polegająca na ciągłej weryfikacji wyników prognoz w świetle najnowszych wydarzeń.

Stała wygładzania α jest czynnikiem ważonym. O jego rzeczywistej wartości decyduje stopień, w jakim bieżąca obserwacja powinna wpłynąć na wartość przewidywaną. Jeżeli α jest bliskie 1, to prognoza uwzględnia w istotny sposób wielkość błędu ostatniej prognozy. I odwrotnie, dla małych wartości α przewidywana wartość jest najbliższa poprzedniej prognozie. Można go traktować jako średnią ważoną wszystkich wcześniejszych obserwacji, przy czym wagi maleją wykładniczo wraz ze starzeniem się danych.



Tabela 2.1

Porównanie wpływu różnych wartości stałych wygładzania

Stała α jest kluczem do analizy danych. Jeżeli wymagane jest, aby przewidywane wartości były stabilne, a odchylenia losowe wygładzone, należy wybrać małą wartość α. Duża wartość stałej α ma sens, jeśli potrzebna jest szybka reakcja na zmiany w widmie obserwacji.

2. Praktyczny przykład wygładzania wykładniczego.

Przedstawiono dane firmy dotyczące wielkości sprzedaży (w tysiącach sztuk) za siedem lat, przyjęto stałą wygładzającą równą 0,1 i 0,6. Część testową stanowią dane za 7 lat; na ich podstawie należy ocenić skuteczność każdego modelu. W przypadku wykładniczego wygładzania szeregów przyjmuje się wartość początkową równą 500 (pierwsza wartość danych rzeczywistych lub wartość średnia z 3-5 okresów jest zapisywana w wartości wygładzonej dla drugiego kwartału).

Tabela 2.2

Wstępne dane

Czas Rzeczywista wartość (rzeczywista) Wygładzona wartość Błąd prognozy
rok kwartał 0,1 0,1
Przewyższać według formuły
#Nie dotyczy 0,00
500,00 -150,00
485,00 485,00 -235,00
461,50 461,50 -61,50
455,35 455,35 -5,35
454,82 454,82 -104,82
444,33 444,33 -244,33
419,90 419,90 -119,90
407,91 407,91 -57,91
402,12 402,12 -202,12
381,91 381,91 -231,91
358,72 358,72 41,28
362,84 362,84 187,16
381,56 381,56 -31,56
378,40 378,40 -128,40
365,56 365,56 184,44
384,01 384,01 165,99
400,61 400,61 -0,61
400,55 400,55 -50,55
395,49 395,49 204,51
415,94 415,94 334,06
449,35 449,35 50,65
454,41 454,41 -54,41
448,97 448,97 201,03
469,07 469,07 380,93

Na ryc. Rysunek 2.1 przedstawia prognozę opartą na wygładzaniu wykładniczym ze stałą wygładzania równą 0,1.



Ryż. 2.1. Wygładzanie wykładnicze

Rozwiązanie w Excelu.

1. Wybierz z menu „Narzędzia” – „Analiza danych”. Na liście Narzędzia analityczne wybierz opcję Wygładzanie wykładnicze. Jeśli w menu „Narzędzia” nie ma analizy danych, należy zainstalować „Pakiet analityczny”. W tym celu w zakładce „Opcje” znajdź pozycję „Ustawienia” i w wyświetlonym oknie dialogowym zaznacz pole „Pakiet analityczny” i kliknij OK.

2. Na ekranie otworzy się okno dialogowe pokazane na rys. 2.2.

3. W polu „interwał wejściowy” wprowadź wartości danych źródłowych (plus jedna wolna komórka).

4. Zaznacz checkbox „etykiety” (jeżeli zakres wejściowy zawiera nazwy kolumn).

5. Wpisz wartość (1-α) w polu „współczynnik tłumienia”.

6. W polu „interwał wprowadzania” wpisz wartość komórki, w której chcesz zobaczyć wartości wynikowe.

7. Zaznacz pole wyboru „Opcje” - „Wyjście wykresu”, aby automatycznie go zbudować.

Ryż. 2.2. Okno dialogowe wygładzania wykładniczego

3. Przydział laboratorium.

Wstępne dane dotyczące wielkości produkcji przedsiębiorstwa produkującego ropę naftową za 2 lata przedstawiono w tabeli 2.3:

Tabela 2.3

Wstępne dane

Wykonaj wykładnicze wygładzanie szeregu. Weź wykładniczy współczynnik wygładzania równy 0,1; 0,2; 0,3. Skomentuj uzyskane wyniki. Możesz skorzystać ze statystyk przedstawionych w Załączniku 1.

Problemy z prognozowaniem opierają się na zmianach pewnych danych w czasie (sprzedaż, popyt, dostawy, PKB, emisja gazów cieplarnianych, populacja...) i przewidywaniu tych zmian w przyszłości. Niestety trendy zidentyfikowane na podstawie danych historycznych mogą zostać zakłócone przez wiele nieprzewidzianych okoliczności. Zatem dane w przyszłości mogą znacznie różnić się od tego, co wydarzyło się w przeszłości. To jest problem prognozowania.

Istnieją jednak techniki (zwane wygładzaniem wykładniczym), które pozwalają nie tylko próbować przewidzieć przyszłość, ale także określić ilościowo niepewność wszystkiego, co jest związane z prognozą. Liczbowe wyrażanie niepewności poprzez tworzenie przedziałów prognozy jest naprawdę bezcenne, choć często pomijane w świecie prognostycznym.

Pobierz notatkę w formacie lub, przykłady w formacie

Wstępne dane

Załóżmy, że jesteś fanem „Władcy Pierścieni” i od trzech lat zajmujesz się produkcją i sprzedażą mieczy (ryc. 1). Przedstawmy sprzedaż graficznie (ryc. 2). Popyt podwoił się w ciągu trzech lat – może to trend? Do tego pomysłu wrócimy nieco później. Na wykresie znajduje się kilka szczytów i dolin, co może świadczyć o sezonowości. W szczególności szczyty występują w miesiącach o numerach 12, 24 i 36, czyli w grudniu. Ale może to tylko zbieg okoliczności? Dowiedzmy Się.

Proste wygładzanie wykładnicze

Metody wygładzania wykładniczego polegają na przewidywaniu przyszłości na podstawie danych z przeszłości, gdzie nowsze obserwacje mają większą wagę niż starsze. Ważenie to jest możliwe dzięki stałym wygładzającym. Pierwsza metoda wygładzania wykładniczego, którą wypróbujemy, nazywa się prostym wygładzaniem wykładniczym (SES). Używa tylko jednej stałej wygładzającej.

Proste wygładzanie wykładnicze zakłada, że ​​dane szeregów czasowych składają się z dwóch składników: poziomu (lub średniej) i pewnego błędu wokół tej wartości. Nie ma trendu ani wahań sezonowych – jest po prostu poziom, wokół którego oscyluje popyt, otoczony tu i ówdzie drobnymi błędami. Preferując nowsze obserwacje, TEC może powodować przesunięcia na tym poziomie. W języku formuł

Zapotrzebowanie w chwili t = poziom + błąd losowy wokół poziomu w chwili t

Jak więc znaleźć przybliżoną wartość poziomu? Jeśli przyjmiemy, że wszystkie wartości czasu mają tę samą wartość, to powinniśmy po prostu obliczyć ich wartość średnią. Jest to jednak zły pomysł. Niedawnym obserwacjom należy nadać większą wagę.

Stwórzmy kilka poziomów. Obliczmy linia bazowa w pierwszym roku:

poziom 0 = średnie zapotrzebowanie w pierwszym roku (miesiące 1-12)

Dla popytu na miecze wynosi on 163. Jako prognozę popytu na miesiąc 1 przyjmujemy poziom 0 (163). Popyt na miesiąc 1 wynosi 165, czyli są to 2 miecze powyżej poziomu 0. Warto zaktualizować przybliżenie linii bazowej. Równanie prostego wygładzania wykładniczego wygląda następująco:

poziom 1 = poziom 0 + kilka procent × (popyt 1 – poziom 0)

poziom 2 = poziom 1 + kilka procent × (popyt 2 – poziom 1)

Itp. „Kilka procent” nazywa się stałą wygładzania i oznacza się ją przez alfa. Może to być dowolna liczba od 0 do 100% (0 do 1). Jak wybrać wartość alfa, dowiesz się później. Ogólnie rzecz biorąc, wartość dla różnych punktów w czasie:

Poziom bieżącego okresu = poziom poprzedniego okresu +
alfa × (bieżący okres zapotrzebowania – poziom poprzedniego okresu)

Przyszły popyt jest równy ostatnio obliczonemu poziomowi (rys. 3). Ponieważ nie wiesz, czym jest alfa, na początek ustaw komórkę C2 na 0,5. Po zbudowaniu modelu znajdź taką alfa, aby suma kwadratów błędu – E2 (lub odchylenia standardowego – F2) była minimalna. Aby to zrobić, uruchom opcję Znalezienie rozwiązania. Aby to zrobić, przejdź do menu DANE –> Znalezienie rozwiązania i zainstaluj w oknie Opcje wyszukiwania rozwiązań wymagane wartości (ryc. 4). Aby wyświetlić wyniki prognozy na wykresie, najpierw wybierz zakres A6:B41 i zbuduj prosty wykres liniowy. Następnie kliknij prawym przyciskiem myszy na diagramie i wybierz opcję Wybierz dane. W oknie, które się otworzy, utwórz drugi wiersz i wstaw do niego prognozy z zakresu A42:B53 (rys. 5).

Być może masz tendencję

Aby sprawdzić to założenie, wystarczy dopasować regresja liniowa pod danymi popytu i wykonaj test t wzrostu tej linii trendu (jak w ). Jeżeli nachylenie prostej jest niezerowe i istotne statystycznie (w badaniu z wykorzystaniem testu t-Studenta, wartość R mniejsza niż 0,05), dane wykazują tendencję (ryc. 6).

Użyliśmy funkcji REGLINP, która zwraca 10 statystyk opisowych (jeśli wcześniej nie korzystałeś z tej funkcji, polecam) oraz funkcji INDEKS, która pozwala „wyciągnąć” tylko trzy wymagane statystyki, a nie cały zestaw. Okazało się, że nachylenie wynosi 2,54 i jest istotne, gdyż test Studenta wykazał, że 0,000000012 jest znacznie mniejsze niż 0,05. Zatem trend jest i pozostaje tylko ująć go w prognozie.

Wygładzanie wykładnicze Holta z regulacją trendu

Często nazywa się to wygładzaniem podwójnym wykładniczym, ponieważ ma nie jeden parametr wygładzający – alfa, ale dwa. Jeśli sekwencja czasowa ma trend liniowy, to:

zapotrzebowanie na czas t = poziom + t × trend + losowe odchylenie poziomu w chwili t

Wygładzanie wykładnicze Holta z korektą trendu ma dwa nowe równania, jedno dla poziomu przemieszczania się w czasie, a drugie dla trendu. Równanie poziomu zawiera parametr wygładzający alfa, a równanie trendu zawiera parametr gamma. Oto jak wygląda nowe równanie poziomu:

poziom 1 = poziom 0 + trend 0 + alfa × (popyt 1 – (poziom 0 + trend 0))

zauważ to poziom 0 + trend 0 to tylko jednoetapowa prognoza od wartości początkowych do 1 miesiąca, tzw popyt 1 – (poziom 0 + trend 0)- jest to odchylenie jednoetapowe. Zatem podstawowym równaniem aproksymacyjnym poziomu będzie:

poziom bieżący okres = poziom poprzedni okres + trend poprzedni okres + alfa × (bieżący okres zapotrzebowania – (poziom poprzedni okres) + trend poprzedni okres))

Równanie aktualizacji trendu:

trend bieżący okres = trend poprzedni okres + gamma × alfa × (bieżący okres zapotrzebowania – (poziom poprzedniego okresu) + trend poprzedni okres))

Wygładzanie Holta w Excelu przebiega podobnie proste wygładzanie(Rys. 7) i podobnie jak powyżej, celem jest znalezienie dwóch współczynników poprzez minimalizację sumy kwadratów błędów (ryc. 8). Aby uzyskać początkowy poziom i wartości trendu (w komórkach C5 i D5 na rysunku 7), narysuj wykres dla pierwszych 18 miesięcy sprzedaży i dodaj do niego linię trendu z równaniem. Wpisz początkową wartość trendu 0,8369 i początkowy poziom 155,88 w komórkach C5 i D5. Dane prognozy można przedstawić graficznie (rys. 9).

Ryż. 7. Wygładzanie wykładnicze Holta z korektą trendu; Aby powiększyć obraz, kliknij go prawym przyciskiem myszy i wybierz Otwórz obraz w nowej karcie

Identyfikacja wzorców w danych

Istnieje sposób na sprawdzenie siły modelu predykcyjnego – porównanie błędów ze sobą, przesuniętych o krok (lub kilka kroków). Jeśli odchylenia są losowe, modelu nie da się ulepszyć. Jednakże w danych dotyczących popytu może występować czynnik sezonowy. Koncepcja składnika błędu, który jest skorelowany z jego wersją z innego okresu, nazywa się autokorelacją (więcej informacji na temat autokorelacji można znaleźć w sekcji ). Aby obliczyć autokorelację, zacznij od danych o błędach prognozy dla każdego okresu (kolumna F na rysunku 7 przenosi się do kolumny B na rysunku 10). Następnie zdefiniuj średni błąd prognoza (rys. 10, komórka B39; formuła w komórce: =ŚREDNIA(B3:B38)). W kolumnie C oblicz odchylenie błędu prognozy od średniej; formuła w komórce C3: =B3-B$39. Następnie przesuń sekwencyjnie kolumnę C o jedną kolumnę w prawo i wiersz w dół. Formuły w komórkach D39: =SUMAPRODUKT($C3:$C38,D3:D38), D41: =D39/$C39, D42: =2/SQRT(36), D43: =-2/SQRT(36).

Co to znaczy, że jedna z kolumn D:O jest „synchroniczna” z kolumną C. Na przykład, jeśli kolumny C i D są synchroniczne, to liczba ujemna w jednej z nich musi być ujemna w drugiej, dodatniej? w jednym, pozytywny w przyjacielu. Oznacza to, że suma iloczynów obu kolumn będzie znacząca (różnice się kumulują). Albo, co jest tym samym, niż bliższa wartość w zakresie D41:O41 do zera, tym niższa korelacja kolumny (odpowiednio od D do O) z kolumną C (rys. 11).

O jedną autokorelację wyżej Krytyczna wartość. Błąd przesunięty o rok koreluje sam ze sobą. Oznacza to 12-miesięczny cykl sezonowy. I nie jest to zaskakujące. Jeśli spojrzeć na wykres popytu (ryc. 2), okazuje się, że szczyty popytu występują w każde Święta Bożego Narodzenia oraz dołki w okresie od kwietnia do maja. Rozważmy technikę prognozowania uwzględniającą sezonowość.

Multiplikatywne wygładzanie wykładnicze Holta-Wintersa

Metodę tę nazywa się multiplikatywną (od mnożenia - mnożenia), ponieważ wykorzystuje mnożenie w celu uwzględnienia sezonowości:

Popyt w czasie t = (poziom + t × trend) × korekta sezonowa dla czasu t × wszelkie pozostałe korekty nieregularne, których nie możemy uwzględnić

Wygładzanie Holta-Wintersa jest również nazywane potrójnym wygładzaniem wykładniczym, ponieważ ma trzy parametry wygładzania (alfa, gamma i delta). Na przykład, jeśli istnieje 12-miesięczny cykl sezonowy:

Prognoza na miesiąc 39 = (poziom 36 + 3 × trend 36) x sezonowość 27

Analizując dane, należy dowiedzieć się, co jest trendem w serii danych, a co sezonowością. Aby wykonać obliczenia metodą Holta-Wintersa, należy:

  • Wygładź dane historyczne metodą średniej ruchomej.
  • Porównaj wygładzoną wersję szeregu czasowego danych z oryginałem, aby uzyskać przybliżone oszacowanie sezonowości.
  • Uzyskaj nowe dane bez składnika sezonowego.
  • Znajdź przybliżenia poziomów i trendów na podstawie tych nowych danych.

Zacznij od surowych danych (kolumny A i B na rysunku 12) i dodaj kolumnę C z wygładzonymi wartościami średniej ruchomej. Ponieważ sezonowość ma cykle 12-miesięczne, sensowne jest stosowanie średniej 12-miesięcznej. Jest mały problem z tą średnią. 12 to liczba parzysta. Jeśli wygładzisz popyt w miesiącu 7, czy należy uznać, że jest to średnie zapotrzebowanie z miesięcy 1 do 12, czy z miesięcy 2 do 13? Aby pokonać tę trudność, należy wygładzić popyt za pomocą „średniej kroczącej 2x12”. Oznacza to, że weź połowę dwóch średnich z miesięcy 1–12 i miesięcy 2–13. Formuła w komórce C8: =(ŚREDNIA(B3:B14)+ŚREDNIA(B2:B13))/2.

Nie można uzyskać wygładzonych danych dla miesięcy 1–6 i 31–36, ponieważ nie ma wystarczającej liczby okresów poprzednich i kolejnych. Dla przejrzystości dane oryginalne i wygładzone można odzwierciedlić na diagramie (ryc. 13).

Teraz w kolumnie D podziel pierwotną wartość przez wygładzoną i uzyskaj przybliżoną wartość korekty sezonowej (kolumna D na ryc. 12). Formuła w komórce D8 to =B8/C8. Należy zwrócić uwagę na skoki zapotrzebowania o 20% powyżej normalnego w miesiącach 12 i 24 (grudzień), podczas gdy na wiosnę obserwuje się dołki. Ta technika wygładzania dała ci dwa szacunki punktowe za każdy miesiąc (łącznie 24 miesiące). Kolumna E zawiera średnią z tych dwóch czynników. Formuła w komórce E1: =ŚREDNIA(D14,D26). Dla przejrzystości poziom wahań sezonowych można przedstawić graficznie (ryc. 14).

Można już uzyskać dane wyrównane sezonowo. Formuła w komórce G1 to: =B2/E2. Na podstawie danych z kolumny G skonstruuj wykres, uzupełnij go linią trendu, wyświetl na wykresie równanie trendu (rys. 15) i wykorzystaj współczynniki w kolejnych obliczeniach.

Uformuj nowy arkusz, jak pokazano na ryc. 16. Zastąp wartości z zakresu E5:E16 z rys. 12 obszarów E2:E13. Weź wartości C16 i D16 z równania linii trendu na ryc. 15. Ustaw wartości stałych wygładzania, aby zaczynały się od 0,5. Rozciągnij wartości w linii 17, aby objąć zakres miesięcy od 1 do 36. Uruchom Znalezienie rozwiązania w celu optymalizacji współczynników wygładzania (ryc. 18). Formuła w komórce B53 to: =(C$52+(A53-A$52)*D$52)*E41.

Teraz należy sprawdzić autokorelacje w sporządzonej prognozie (ryc. 18). Ponieważ wszystkie wartości znajdują się pomiędzy górną i dolną granicą, rozumiesz, że model wykonał dobrą robotę, rozumiejąc strukturę wartości popytu.

Konstruowanie przedziału ufności dla prognozy

Mamy więc całkowicie działającą prognozę. Jak ustawić górną i dolną granicę, na podstawie której można przyjąć realistyczne założenia? Pomoże Ci w tym symulacja Monte Carlo, z którą już się spotkałeś (patrz także). Chodzi o to, aby wygenerować przyszłe scenariusze zachowań popytu i zidentyfikować grupę, do której zalicza się 95% z nich.

Usuń prognozę z komórek B53:B64 z arkusza Excel (patrz rys. 17). Tam na podstawie symulacji zarejestrujesz zapotrzebowanie. Ten ostatni można wygenerować za pomocą funkcji NORMINV. W przypadku przyszłych miesięcy wystarczy podać średnią (0), rozkład standardowy (10,37 z komórki $H$2) i Liczba losowa od 0 do 1. Funkcja zwróci odchylenie z prawdopodobieństwem odpowiadającym krzywej dzwonowej. Umieść jednoetapową symulację błędu w komórce G53: =NORMIN(RAND(),0,H$2). Rozciągnij tę formułę do G64, a otrzymasz symulacje błędów prognozy dla 12 miesięcy prognozy jednoetapowej (Rysunek 19). Wartości Twojej symulacji będą się różnić od pokazanych na rysunku (dlatego jest to symulacja!).

Przy niepewności prognozy masz wszystko, czego potrzebujesz, aby zaktualizować poziom, trend i współczynnik sezonowy. Zatem wybierz komórki C52:F52 i rozciągnij je do wiersza 64. W rezultacie otrzymasz symulowany błąd prognozy i samą prognozę. Na podstawie odwrotnej sytuacji możemy przewidzieć wartości popytu. Wstaw formułę do komórki B53: =F53+G53 i rozciągnij ją do B64 (rys. 20, zakres B53:F64). Teraz możesz nacisnąć przycisk F9, każdorazowo aktualizując prognozę. Wyniki 1000 symulacji umieść w komórkach A71:L1070, każdorazowo transponując wartości z zakresu B53:B64 do zakresu A71:L71, A72:L72,...A1070:L1070. Jeśli Ci to przeszkadza, napisz kod VBA.

Teraz masz 1000 scenariuszy na każdy miesiąc i możesz użyć funkcji PERCENTYL, aby uzyskać górną i dolną granicę w środku 95% przedziału ufności. W komórce A66 formuła wygląda następująco: =PERCENTYL(A71:A1070;0,975), a w komórce A67: =PERCENTYL(A71:A1070;0,025).

Tradycyjnie dla przejrzystości dane można przedstawić w formie graficznej (ryc. 21).

Na wykresie są dwa interesujące punkty:

  • Z biegiem czasu błąd staje się coraz większy. To ma sens. Niepewność kumuluje się z każdym miesiącem.
  • W ten sam sposób błąd wzrasta w częściach spadających w okresach sezonowego wzrostu popytu. Wraz z późniejszym spadkiem błąd maleje.

Napisane na podstawie książki Johna Formana. – M.: Wydawnictwo Alpina, 2016. – s. 329–381

Wygładzanie wykładnicze jest bardziej złożoną metodą średniej ważonej. Każda nowa prognoza opiera się na poprzedniej prognozie powiększonej o procent różnicy między tą prognozą a rzeczywistą wartością szeregu w tym momencie.

fa t = fa t -1 + (A t -1 - F t -1) (2)

Gdzie: Ft – prognoza na okres t

F t -1– prognoza na okres t-1

– stała wygładzania

Na - 1 – rzeczywisty popyt lub sprzedaż w danym okresie t-1

Stała wygładzania jest procentem błędu prognozy. Każda nowa prognoza jest równa poprzedniej prognozie powiększonej o procent poprzedniego błędu.

Wrażliwość korekty prognozy na błąd określa stała wygładzania, im jej wartość jest bliższa 0, tym wolniej prognoza będzie dostosowywała się do błędów prognozy (tj. im większy będzie stopień wygładzenia). I odwrotnie, im wartość jest bliższa 1,0, tym wyższa czułość i mniejsze wygładzanie.

Wybór stałej wygładzania jest w dużej mierze kwestią wolnego wyboru lub prób i błędów. Celem jest taki dobór stałej wygładzającej, aby z jednej strony prognoza pozostawała wystarczająco wrażliwa na rzeczywiste zmiany danych szeregów czasowych, a z drugiej dobrze wygładzała skoki spowodowane czynnikami losowymi. Powszechnie stosowane wartości wahają się od 0,05 do 0,50.

Wygładzanie wykładnicze jest jedną z najczęściej stosowanych metod prognozowania, częściowo ze względu na minimalne wymagania dotyczące przechowywania danych i łatwość obliczeń, a częściowo ze względu na łatwość, z jaką można zmienić system współczynników istotności po prostu zmieniając wartość .

Tabela 3. Wygładzanie wykładnicze

Okres Rzeczywisty popyt α = 0,1 α = 0,4
prognoza błąd prognoza błąd
10 000 - - - -
11 200 10 000 11 200-10 000=1 200 10 000 11 200-10 000=1 200
11 500 10 000+0,1(11 200-10 000)=10 120 11 500-10 120=1 380 10 000+0,4(11 200-10 000)=10 480 11 500-10 480=1 020
13 200 10 120+0,1(11 500-10 120)=10 258 13 200-10 258=2 942 10 480+0,4(11 500-10 480)=10 888 13 200-10 888=2 312
14 500 10 258+0,1(13 200-10 258)=10 552 14 500-10 552=3 948 10 888+0,4(13 200-10 888)=11 813 14 500-11 813=2 687
- 10 552+0,1(14 500-10 552)=10 947 - 11 813+0,4(14 500-11 813)=12 888 -



Metody trendu

Istnieją dwa ważne metody, które można wykorzystać do opracowania prognoz w przypadku wystąpienia trendu. Jedna z nich polega na zastosowaniu równania trendu; inny – rozszerzenie wygładzania wykładniczego.

Równanie trendu:

Równanie liniowe trendy wyglądają tak:

Y t = za + δ∙ t (3)

Gdzie: T – zdecydowanie liczba okresów od czasu do czasu t= 0;

Yt– prognoza okresowa T;

α - oznaczający Yt Na t=0

δ – nachylenie linii.

Współczynniki bezpośrednie α I δ , można obliczyć na podstawie danych statystycznych za pewien okres, korzystając z dwóch poniższych równań:

δ= , (4)

α = , (5)

Gdzie: N – liczba okresów,

y– wartość szeregu czasowego

Tabela 3. Poziom trendu.

Koniec dyskusji) Rok Poziom sprzedaży (y) t∙y t 2
10 000 10 000
11 200 22 400
11 500 34 500
13 200 52 800
14 500 72 500
Całkowity: - 60 400 192 200

Obliczmy współczynniki linii trendu:

δ=

A więc linia trendu Y t = α + δ ∙ t

W naszym przypadku, Y t = 43 900+1 100 ∙t,

Gdzie t = 0 dla okresu 0.

Utwórzmy równanie dla okresów 6 (2015) i 7 (2016):

– prognoza na 2015 rok.

Y 7 = 43 900 + 1100*7 = 51 600

Zbudujmy wykres:

Wygładzanie wykładnicze trendów

Jeśli szereg czasowy wykazuje tendencję, można zastosować prostą formę wygładzania wykładniczego. Ta odmiana nazywana jest trendowym wygładzaniem wykładniczym lub czasami podwójnym wygładzaniem. Różni się od prostego wygładzania wykładniczego, które jest stosowane tylko wtedy, gdy dane wahają się wokół pewnej średniej wartości lub wykazują nagłe lub stopniowe zmiany.

Jeśli szereg wykazuje trend i stosuje się proste wygładzanie wykładnicze, wówczas wszystkie prognozy będą opóźnione w stosunku do trendu. Na przykład, jeśli dane wzrosną, wówczas każda prognoza będzie niedoszacowana. Wręcz przeciwnie, zmniejszenie danych daje zawyżoną prognozę. Graficzne przedstawienie danych może pokazać, kiedy podwójne wygładzanie byłoby lepsze niż pojedyncze wygładzanie.

Prognoza skorygowana o trend (TAF) składa się z dwóch elementów: wygładzonego błędu i czynnika trendu.

TAF t +1 = S t + T t, (6)

Gdzie: St – wygładzona prognoza;

T t – ocena aktualnego trendu

I S t = TAF t + α 1 (A t - TAF t) , (7)

T t = T t-1 + α 2 (TAF t –TAF t-1 – T t-1) (8)

Gdzie α 1, α 2– stałe wygładzania.

Aby skorzystać z tej metody, musisz wybrać wartości α 1, α 2 (zwykłym wyborem) i dokonać wstępna prognoza i ocenę trendów.

Tabela 4. Trend wygładzania wykładniczego.

Prosty i logicznie przejrzysty model szeregów czasowych wygląda następująco:

Gdzie B jest stałą oraz ε - błąd losowy. Stały B jest stosunkowo stabilny w każdym przedziale czasowym, ale może również zmieniać się powoli w czasie. Jeden z intuicyjnych sposobów podkreślenia znaczenia B danych polega na zastosowaniu wygładzania średniej ruchomej, w którym najnowszym obserwacjom przypisuje się większe wagi niż przedostatnim, przedostatnim większe wagi niż przedostatnim itp. Proste wygładzanie wykładnicze zostało zaprojektowane dokładnie w ten sposób. Tutaj starszym obserwacjom przypisuje się wykładniczo malejące wagi i w odróżnieniu od średniej kroczącej pod uwagę brane są wszystkie poprzednie obserwacje szeregu, a nie tylko te, które mieściły się w określonym oknie. Dokładny wzór na proste wygładzanie wykładnicze to:

Gdy wzór ten jest stosowany rekurencyjnie, każda nowa wygładzona wartość (która jest również prognozą) jest obliczana jako średnia ważona bieżącej obserwacji i wygładzonej serii. Oczywiście wynik wygładzania zależy od parametru α . Jeśli α równa się 1, wówczas poprzednie obserwacje są całkowicie ignorowane. Jeśli a wynosi 0, bieżące obserwacje są ignorowane. Wartości α pomiędzy 0 a 1 daje wyniki pośrednie. Badanie empiryczne pokazało, że proste wygładzanie wykładnicze często daje wystarczające wyniki dokładna prognoza pogody.

W praktyce zwykle zaleca się przyjmowanie α mniej niż 0,30. Jednak wybranie wartości większej niż 0,30 czasami daje dokładniejsze przewidywanie. Oznacza to, że lepiej oceniać optymalna wartość α opierać się na rzeczywistych danych, a nie na ogólnych zaleceniach.

W praktyce optymalny parametr wygładzania często znajduje się za pomocą procedury wyszukiwania siatki. Możliwy zakres wartości parametrów jest podzielony na siatkę z określonym krokiem. Rozważmy na przykład siatkę wartości z α = 0,1 do α = 0,9 w przyrostach co 0,1. Następnie ta wartość jest wybierana α , dla którego suma kwadratów (lub średnich kwadratów) reszt (obserwowanych wartości minus przewidywania krokowe) jest minimalna.

Microsoft Excel posiada funkcję wygładzania wykładniczego, która jest zwykle używana do wygładzania poziomów empirycznych szeregów czasowych w oparciu o prostą metodę wygładzania wykładniczego. Aby wywołać tę funkcję należy wybrać z paska menu polecenie Narzędzia - Analiza Danych. Na ekranie otworzy się okno Analiza danych, w którym należy wybrać wartość Wygładzanie wykładnicze. W rezultacie pojawi się okno dialogowe Wygładzanie wykładnicze, przedstawiony na ryc. 11,5.


W oknie dialogowym Wygładzanie wykładnicze ustawiane są prawie te same parametry, co w omówionym powyżej oknie dialogowym Średnia ruchoma.

1. Zakres wejściowy – w to pole wprowadza się zakres komórek zawierających wartości badanego parametru.

2. Etykiety – pole wyboru tej opcji jest zaznaczone, jeśli pierwszy wiersz (kolumna) zakresu wejściowego zawiera tytuł. Jeżeli nie ma tytułu, pole wyboru powinno być odznaczone. W takim przypadku dla danych zakresu wyjściowego zostaną automatycznie utworzone standardowe nazwy.

3. Współczynnik tłumienia – w polu tym wpisywana jest wartość wybranego współczynnika wygładzania wykładniczego α . Wartość domyślna to α = 0,3.

4. Opcje wyjściowe – w tej grupie oprócz określenia zakresu komórek danych wyjściowych w polu Zakres wyjściowy można także zażądać, aby wykres był generowany automatycznie zaznaczając opcję Wyjście wykresu oraz obliczyć błędy standardowe zaznaczając opcję Błędy standardowe.

Skorzystajmy z funkcji Wygładzanie wykładnicze aby ponownie rozwiązać omówiony powyżej problem, ale stosując metodę prostego wygładzania wykładniczego. Wybrane wartości parametrów wygładzania przedstawiono na rys. 11,5. Na ryc. 11.6 pokazuje obliczone wskaźniki, a ryc. 11.7 - skonstruowane wykresy.

Temat 3. Wygładzanie i prognozowanie szeregów czasowych w oparciu o modele trendów

Zamiar studiowanie tego tematu ma na celu stworzenie podstawowej podstawy do szkolenia menedżerów w specjalności 080507 z zakresu budowania modeli różne zadania na kierunku ekonomia, rozwijanie u studentów systematycznego podejścia do stawiania i rozwiązywania problemów prognostycznych. Proponowany kurs umożliwi specjalistom szybkie przystosowanie się do pracy praktycznej, lepsze poruszanie się w informacjach naukowo-technicznych i literaturze w swojej specjalności oraz większą pewność w podejmowaniu decyzji, które pojawiają się w ich pracy.

Główny zadania studiowanie tematu to: studenci zdobywają pogłębioną wiedzę teoretyczną na temat stosowania modeli prognostycznych, nabywają trwałe umiejętności w prowadzeniu pracy badawczej, umiejętność rozwiązywania złożonych problemów naukowych związanych z konstrukcją modeli, w tym wielowymiarowych, umiejętność logicznej analizy uzyskane wyniki i określić sposoby znalezienia akceptowalnych decyzji.

Wystarczająco prosta metoda identyfikowanie trendów rozwojowych polega na wygładzaniu szeregów czasowych, czyli zastępowaniu poziomów rzeczywistych poziomami obliczonymi, które charakteryzują się mniejszymi odchyleniami niż dane pierwotne. Odpowiednia transformacja nazywa się filtracja. Przyjrzyjmy się kilku metodom wygładzania.

3.1. Proste średnie

Celem wygładzania jest zbudowanie modelu prognostycznego na kolejne okresy w oparciu o przeszłe obserwacje. W metodzie prostych średnich za dane początkowe przyjmuje się wartości zmiennej Y w momentach T, a wartość prognozy definiuje się jako prostą średnią dla następnego okresu. Wzór obliczeniowy wygląda jak

Gdzie N liczba obserwacji.

W przypadku pojawienia się nowej obserwacji należy uwzględnić nowo uzyskaną prognozę przy prognozowaniu na kolejny okres. Przy stosowaniu tej metody prognoza dokonywana jest poprzez uśrednienie wszystkich poprzednich danych, jednak wadą takiego prognozowania jest trudność wykorzystania go w modelach trendu.

3.2. Metoda średniej ruchomej

Metoda ta polega na przedstawieniu szeregu jako sumy w miarę gładkiego trendu i składnika losowego. Metoda opiera się na idei obliczania wartości teoretycznej w oparciu o przybliżenie lokalne. Aby skonstruować oszacowanie trendu w punkcie T na podstawie wartości serii z przedziału czasu obliczyć teoretyczną wartość szeregu. Najbardziej rozpowszechnionym przypadkiem w praktyce wygładzania szeregów jest sytuacja, gdy wszystkie wagi dla elementów przedziału są sobie równe. Z tego powodu metoda ta nazywa się metoda średniej ruchomej, ponieważ podczas wykonywania zabiegu pojawia się okno o szerokości (2 m + 1) wzdłuż całego rzędu. Szerokość okna jest zwykle przyjmowana jako nieparzysta, ponieważ obliczana jest wartość teoretyczna znaczenie centralne: liczba terminów k = 2 m + 1 z tą samą liczbą poziomów po lewej i prawej stronie chwili T.

Wzór na obliczenie średniej ruchomej w tym przypadku ma postać:

Wariancję średniej ruchomej definiuje się jako σ2/k, dokąd σ 2 oznacza rozproszenie pierwotnych wyrazów szeregu i k przedział wygładzania, zatem im większy przedział wygładzania, tym silniejsze uśrednianie danych i tym mniej zmienna zidentyfikowana tendencja. Najczęściej wygładzanie wykonuje się przy użyciu trzech, pięciu i siedmiu członków oryginalnej serii. W tym przypadku należy wziąć pod uwagę następujące cechy średniej ruchomej: jeśli rozpatrujemy szereg z okresowymi wahaniami o stałej długości, to przy wygładzaniu na podstawie średniej ruchomej z przedziałem wygładzania równym lub wielokrotności okresu, wahania zostaną całkowicie wyeliminowane. Często wygładzanie oparte na średniej ruchomej przekształca szereg na tyle mocno, że zidentyfikowany trend rozwojowy pojawia się tylko w większości Ogólny zarys, oraz mniejsze, ale ważne dla analizy szczegóły (fale, zakręty itp.) znikają; po wygładzeniu małe fale potrafią czasem zmienić kierunek i w miejscu „szczytów” pojawiają się przeciwne „dziury” i odwrotnie. Wszystko to wymaga ostrożności w stosowaniu prostej średniej kroczącej i zmusza do poszukiwania bardziej subtelnych metod opisu.

Metoda średniej ruchomej nie podaje wartości trendu dla pierwszego i ostatniego M członkowie serii. Ta wada jest szczególnie zauważalna, gdy długość rzędów jest krótka.

3.3. Wygładzanie wykładnicze

Średnia wykładnicza t to przykład asymetrycznej ważonej średniej kroczącej, która uwzględnia stopień starzenia danych: starsze informacje o mniejszej wadze są uwzględniane we wzorze na obliczenie wygładzonej wartości poziomu serii

Tutaj — średnia wykładnicza, zastępująca obserwowaną wartość szeregu t(wygładzanie obejmuje wszystkie otrzymane do tej pory dane T), α parametr wygładzający charakteryzujący wagę aktualnej (najnowszej) obserwacji; 0< α <1.

Metodę tę stosuje się do prognozowania niestacjonarnych szeregów czasowych z losowymi zmianami poziomu i nachylenia. W miarę oddalania się w przeszłość od chwili obecnej waga odpowiedniego elementu szeregu szybko (wykładniczo) maleje i praktycznie przestaje mieć jakikolwiek wpływ na wartość.

Łatwo stwierdzić, że ostatnia zależność pozwala na następującą interpretację średniej wykładniczej: jeśli — prognoza wartości serii t, to różnica jest błędem prognozy. Zatem prognoza na następny punkt w czasie t+1 bierze pod uwagę to, co stało się znane w tej chwili T błąd prognozy.

Parametr wygładzający α jest czynnikiem ważącym. Jeśli α jest bliska jedności, wówczas prognoza uwzględnia w istotny sposób wielkość błędu ostatniej prognozy. Przy małych wartościach α przewidywana wartość jest zbliżona do poprzedniej prognozy. Wybór parametru wygładzającego jest problemem dość złożonym. Ogólne rozważania są następujące: metoda jest dobra do przewidywania dość gładkich szeregów. W tym przypadku można wybrać stałą wygładzającą, minimalizując błąd prognozy z jednoetapowym wyprzedzeniem oszacowany na podstawie ostatniej trzeciej części szeregu. Niektórzy eksperci nie zalecają stosowania dużych wartości parametru wygładzania. Na ryc. Rysunek 3.1 przedstawia przykład wygładzonej serii przy użyciu metody wygładzania wykładniczego α= 0,1.

Ryż. 3.1. Wynik wygładzania wykładniczego przy α =0,1
(1 seria oryginalna; 2 serie wygładzone; 3 pozostałości)

3.4. Wygładzanie wykładnicze
z uwzględnieniem trendu (metoda Holta)

Metoda ta uwzględnia lokalny trend liniowy występujący w szeregach czasowych. Jeżeli w szeregu czasowym występuje tendencja wzrostowa, to wraz z oceną aktualnego poziomu konieczna jest także ocena nachylenia. W technice Holta wartości poziomu i nachylenia są wygładzane bezpośrednio przy użyciu różnych stałych dla każdego parametru. Ciągłe wygładzanie pozwala oszacować aktualny poziom i nachylenie, doprecyzowując je w przypadku pojawienia się nowych obserwacji.

Metoda Holta wykorzystuje trzy wzory obliczeniowe:

  1. Szereg wygładzony wykładniczo (oszacowanie bieżącego poziomu)

(3.2)

  1. Ocena trendu

(3.3)

  1. Prognoza dla R okresy przed nami

(3.4)

Gdzie α, β stałe wygładzania z przedziału.

Równanie (3.2) jest podobne do równania (3.1) dla prostego wygładzania wykładniczego, z wyjątkiem składnika trendu. Stały β potrzebne do wygładzenia oszacowania trendu. W równaniu prognozy (3.3) oszacowanie trendu jest mnożone przez liczbę okresów R, na którym opiera się prognoza, a następnie iloczyn ten dodawany jest do bieżącego poziomu wygładzonych danych.

Stały α I β dobierane są subiektywnie lub poprzez minimalizację błędu predykcji. Im większe wagi zostaną przyjęte, tym szybciej nastąpi reakcja na zmiany i tym bardziej płynne będą dane. Mniejsze wagi sprawiają, że struktura wygładzanych wartości jest mniej gładka.

Na ryc. 3.2 pokazuje przykład wygładzania szeregu metodą Holta z wartościami α I β równy 0,1.

Ryż. 3.2. Wynik wygładzania metodą Holta
Na α = 0,1 I β = 0,1

3.5. Wygładzanie wykładnicze z uwzględnieniem trendów i zmian sezonowych (metoda Wintersa)

Gdy w strukturze danych występują sezonowe wahania, w celu ograniczenia błędów prognoz stosuje się trójparametrowy model wygładzania wykładniczego zaproponowany przez Wintersa. Podejście to jest rozwinięciem poprzedniego modelu Holta. Aby uwzględnić wahania sezonowe, zastosowano tutaj dodatkowe równanie, a metodę tę całkowicie opisano czterema równaniami:

  1. Wykładniczo wygładzony szereg

(3.5)

  1. Ocena trendu

(3.6)

  1. Ocena sezonowości

.

(3.7)

  1. Prognoza dla R okresy przed nami

(3.8)

Gdzie α, β, γ ciągłe wygładzanie odpowiednio poziomu, trendu i sezonowości; S- czas trwania okresu wahań sezonowych.

Równanie (3.5) koryguje wygładzony szereg. Termin w tym równaniu uwzględnia sezonowość danych źródłowych. Po uwzględnieniu sezonowości i trendu w równaniach (3.6), (3.7) szacunki są wygładzane, a prognoza dokonywana jest w równaniu (3.8).

Podobnie jak w poprzedniej metodzie, wagi α, β, γ można wybrać subiektywnie lub minimalizując błąd przewidywania. Przed zastosowaniem równania (3.5) konieczne jest określenie wartości początkowych dla wygładzonego szeregu Porucznik, tendencja T t, współczynniki sezonowości St. Zwykle przyjmuje się, że początkowa wartość wygładzonego szeregu jest równa pierwszej obserwacji, następnie trend jest równy zeru, a współczynniki sezonowości ustawiane są na wartość jedności.

Na ryc. Rysunek 3.3 przedstawia przykład wygładzania szeregu metodą Wintersa.

Ryż. 3.3. Wynik wygładzania metodą Wintersa
Na α = 0,1 = 0,1; γ = 0,1(1 - seria oryginalna; 2 serie wygładzone; 3 pozostałości)

3.6. Prognozowanie w oparciu o modele trendów

Dość często szeregi czasowe mają trend liniowy (trend). Zakładając trend liniowy, należy skonstruować linię prostą, która najdokładniej odzwierciedlałaby zmianę dynamiki w rozpatrywanym okresie. Metod konstruowania linii prostej jest kilka, jednak najbardziej obiektywna z formalnego punktu widzenia będzie konstrukcja oparta na minimalizacji sumy ujemnych i dodatnich odchyleń wartości początkowych szeregu od prostej.

Linia prosta w układzie dwóch współrzędnych (x, y) można wyznaczyć na podstawie punktu przecięcia jednej ze współrzędnych Na i kąt nachylenia do osi X. Równanie takiej linii będzie wyglądać Gdzie A- punkt przecięcia; B Kąt pochylenia.

Aby linia prosta odzwierciedlała przebieg dynamiki, należy minimalizować sumę odchyłek pionowych. Przy zastosowaniu prostej sumy odchyleń jako kryterium oceny minimalizacji wynik nie będzie zbyt dobry, gdyż odchylenia ujemne i dodatnie wzajemnie się kompensują. Minimalizowanie sumy wartości bezwzględnych również nie prowadzi do zadowalających wyników, ponieważ estymacje parametrów w tym przypadku są niestabilne, a ponadto występują trudności obliczeniowe w realizacji takiej procedury estymacji. Dlatego najczęściej stosowaną procedurą jest minimalizacja sumy kwadratów odchyleń lub metoda najmniejszych kwadratów(MNC).

Ponieważ szereg wartości początkowych podlega fluktuacjom, model szeregu będzie zawierał błędy, których kwadraty należy zminimalizować

gdzie y i zaobserwowana wartość; y i * wartości teoretyczne modelu; numer obserwacji.

Modelując trend pierwotnych szeregów czasowych za pomocą trendu liniowego, zakładamy to

Dzielenie pierwszego równania przez N, dochodzimy do następnego

Podstawienie otrzymanego wyrażenia do drugiego równania układu (3.10) w miejsce współczynnika B* otrzymujemy:

3.7. Sprawdzanie dopasowania modelu

Jako przykład na ryc. 3.4 przedstawia wykres regresji liniowej pomiędzy mocą samochodu X i jego koszt Na.

Ryż. 3.4. Wykres regresji liniowej

Równanie dla tego przypadku jest następujące: Na=1455,3 + 13,4 X. Analiza wizualna tej figury pokazuje, że dla szeregu obserwacji występują znaczne odchylenia od krzywej teoretycznej. Pozostały wykres pokazano na ryc. 3.5.

Ryż. 3.5. Wykres salda

Analiza reszt linii regresji może stanowić użyteczną miarę tego, jak dobrze oszacowana regresja odzwierciedla rzeczywiste dane. Dobra regresja to taka, która wyjaśnia znaczną część wariancji i odwrotnie, zła regresja nie śledzi dużej ilości zmienności oryginalnych danych. Intuicyjnie jest jasne, że każda dodatkowa informacja ulepszy model, tj. zmniejszy niewyjaśnioną część zmienności zmiennej Na. Aby przeanalizować regresję, rozłożymy wariancję na składowe. To oczywiste

Ostatni wyraz będzie równy zero, ponieważ reprezentuje sumę reszt, więc dochodzimy do następującego wyniku

Gdzie SS 0, SS 1, SS 2 określić odpowiednio sumę całkowitą, regresyjną i resztową kwadratów.

Suma kwadratów regresji mierzy część wariancji wyjaśnioną zależnością liniową; pozostała część wariancji, która nie jest wyjaśniona zależnością liniową.

Każda z tych sum charakteryzuje się odpowiednią liczbą stopni swobody (DOF), która określa liczbę niezależnych od siebie jednostek danych. Innymi słowy, tętno jest powiązane z liczbą obserwacji N oraz liczba parametrów obliczona z całości danych. W rozpatrywanym przypadku do obliczenia SS0 ustalana jest tylko jedna stała (wartość średnia), dlatego też tętno dla SS0 będzie (N1), Tętno dla SS 2 – (n – 2) i tętno dla SS 1 będzie n – (n – 1)=1, ponieważ w równaniu regresji jest n – 1 punktów stałych. Podobnie jak sumy kwadratów, tętno jest powiązane zależnością

Sumy kwadratów związane z rozkładem wariancji wraz z odpowiadającymi im HR można umieścić w tzw. tabeli analizy wariancji (tabela ANOVA ANalytics Of VAriance) (Tabela 3.1).

Tabela 3.1

Tabela ANOVA

Źródło

Suma kwadratów

Środkowy kwadrat

Regresja

SS 2/(n-2)

Używając wprowadzonego skrótu dla sum kwadratów, definiujemy współczynnik determinacji jako stosunek sumy kwadratów regresji do całkowitej sumy kwadratów w postaci

(3.13)

Współczynnik determinacji mierzy udział zmienności zmiennej Y, co można wyjaśnić wykorzystując informacje o zmienności zmiennej niezależnej X. Współczynnik determinacji zmienia się od zera, gdy X nie ma wpływu Y, do jednego, gdy nastąpi zmiana Y w pełni wyjaśnione przez zmianę X.

3.8. Model prognozy regresji

Najlepsza prognoza to ta, która charakteryzuje się minimalną wariancją. W naszym przypadku zwykła OLS daje najlepszą prognozę ze wszystkich metod, które dają obiektywne szacunki oparte na równaniach liniowych. Błąd prognozy związany z procedurą prognozowania może pochodzić z czterech źródeł.

Po pierwsze, losowy charakter błędów addytywnych obsługiwanych przez regresję liniową gwarantuje, że prognoza będzie odbiegać od wartości prawdziwych, nawet jeśli model zostanie poprawnie określony i jego parametry są dokładnie znane.

Po drugie, sam proces estymacji wprowadza błąd w estymacji parametrów, rzadko kiedy mogą one być równe wartościom rzeczywistym, choć średnio są im równe.

Po trzecie, w przypadku prognozy warunkowej (w przypadku dokładnie nieznanych wartości zmiennych niezależnych) wprowadzany jest błąd przy prognozie zmiennych objaśniających.

Po czwarte, może wystąpić błąd, ponieważ specyfikacja modelu jest niedokładna.

W rezultacie źródła błędów można sklasyfikować w następujący sposób:

  1. charakter zmiennej;
  2. charakter modelu;
  3. błąd wprowadzony przez prognozę niezależnych zmiennych losowych;
  4. błąd specyfikacji.

Prognozę bezwarunkową rozważymy wtedy, gdy zmienne niezależne można łatwo i dokładnie przewidzieć. Zacznijmy rozważać problem jakości prognozy za pomocą równania regresji sparowanej.

Stwierdzenie problemu w tym przypadku można sformułować następująco: jaka będzie najlepsza prognoza y T+1, pod warunkiem, że w modelu y = a + bx opcje A I B zostały oszacowane dokładnie oraz wartość xT+1 znany.

Następnie przewidywaną wartość można zdefiniować jako

Błąd prognozy będzie

.

Błąd prognozy ma dwie właściwości:

Powstała wariancja jest minimalna wśród wszystkich możliwych szacunków opartych na równaniach liniowych.

Chociaż A i b są znane, błąd prognozy pojawia się dlatego, że w T+1 może nie leżeć na linii regresji z powodu błędu ε T+1, z zastrzeżeniem rozkładu normalnego z zerową średnią i wariancją σ 2. Aby sprawdzić jakość prognozy, wprowadzamy wartość znormalizowaną

Następnie możesz zdefiniować 95% przedział ufności w następujący sposób:

Gdzie β 0,05 kwantyle rozkładu normalnego.

Granice przedziału 95% można zdefiniować jako

Należy pamiętać, że w tym przypadku szerokość przedział ufności nie zależy od rozmiaru X, a granice przedziału są liniami prostymi równoległymi do linii regresji.

Częściej przy konstruowaniu linii regresji i sprawdzaniu jakości prognozy konieczna jest ocena nie tylko parametrów regresji, ale także wariancji błędu prognozy. Można wykazać, że w tym przypadku wariancja błędu zależy od wartości (), gdzie jest to średnia wartość zmiennej niezależnej. Ponadto im dłuższa seria, tym dokładniejsza jest prognoza. Błąd prognozy maleje, gdy wartość X T+1 zbliża się do średniej wartości zmiennej niezależnej i odwrotnie, w miarę oddalania się od wartości średniej prognoza staje się mniej trafna. Na ryc. Rysunek 3.6 przedstawia wyniki prognozy przy użyciu równania regresji liniowej dla 6 przedziałów czasowych do przodu wraz z przedziałami ufności.

Ryż. 3.6. Prognoza za pomocą równania regresji liniowej

Jak widać z rys. 3.6 ta linia regresji nie opisuje wystarczająco dobrze oryginalnych danych: istnieje duża zmienność w stosunku do linii dopasowania. Jakość modelu można również ocenić na podstawie reszt, które, jeśli model jest zadowalający, powinny być rozłożone w przybliżeniu zgodnie z prawem normalnym. Na ryc. Rysunek 3.7 przedstawia wykres reszt skonstruowany przy użyciu skali prawdopodobieństwa.

Ryc.3.7. Wykres salda

Przy stosowaniu takiej skali dane zgodne z normalnym prawem muszą leżeć na linii prostej. Jak wynika z powyższego rysunku, punkty na początku i na końcu okresu obserwacji odbiegają nieco od linii prostej, co wskazuje, że wybrany model w postaci równania regresji liniowej nie jest dostatecznie wysokiej jakości.

W tabeli Tabela 3.2 przedstawia wyniki prognozy (druga kolumna) wraz z 95% przedziałami ufności (odpowiednio dolna trzecia i górna czwarta kolumna).

Tabela 3.2

Prognozowane wyniki

3.9. Model regresji wieloczynnikowej

W regresji wielowymiarowej dane dla każdego przypadku obejmują wartości zmiennej zależnej i każdej zmiennej niezależnej. Zmienna zależna y jest to zmienna losowa powiązana ze zmiennymi niezależnymi zależnością:

gdzie należy wyznaczyć współczynniki regresji; ε składnik błędu odpowiadający odchyleniu wartości zmiennej zależnej od prawdziwej zależności (zakłada się, że błędy są niezależne i mają rozkład normalny z zerowym oczekiwaniem matematycznym i nieznaną wariancją σ ).

Dla danego zbioru danych oszacowania współczynników regresji można znaleźć za pomocą OLS. Jeżeli oszacowania OLS oznaczymy przez , wówczas odpowiadająca im funkcja regresji będzie miała postać:

Reszty są szacunkami składnika błędu i są podobne do reszt w przypadku prostej regresji liniowej.

Analizę statystyczną modelu regresji wielowymiarowej przeprowadza się podobnie jak prostą analizę regresji liniowej. Standardowe pakiety oprogramowania statystycznego umożliwiają uzyskanie estymatorów OLS dla parametrów modeli oraz estymatorów ich błędów standardowych. Alternatywnie możesz uzyskać wartość T-statystyki umożliwiające sprawdzenie istotności poszczególnych składników modelu regresji oraz wartości F-statystyka sprawdzająca istotność zależności regresyjnej.

Postać podziału sum kwadratów w przypadku regresji wielowymiarowej jest podobna do wyrażenia (3.13), ale zależność dla częstości akcji serca będzie następująca

Podkreślmy to jeszcze raz N reprezentuje objętość obserwacji, oraz k liczba zmiennych w modelu. Całkowita zmienność zmiennej zależnej składa się z dwóch składników: zmienności wyjaśnionej przez zmienne niezależne za pomocą funkcji regresji oraz zmienności niewyjaśnionej.

Tabela ANOVA dla przypadku regresji wieloczynnikowej będzie miała postać pokazaną w tabeli. 3.3.

Tabela 3.3

Tabela ANOVA

Źródło

Suma kwadratów

Środkowy kwadrat

Regresja

SS 2/(n-k-1)

Jako przykład regresji wielowymiarowej wykorzystamy dane z pakietu Statistica (plik data Ubóstwo.Sta) Przedstawione dane opierają się na porównaniu wyników spisów powszechnych z lat 1960 i 1970. dla losowej próby 30 krajów. Nazwy krajów wprowadzono jako nazwy łańcuchowe, a nazwy wszystkich zmiennych w tym pliku podano poniżej:

POP_CHNG zmiany demograficzne w latach 1960-1970;

N_EMPLD liczba osób zatrudnionych w rolnictwie;

PT_POOR odsetek rodzin żyjących poniżej progu ubóstwa;

stawka podatku TAX_RATE;

PT_PHONE odsetek mieszkań wyposażonych w telefon;

PT_RURAL odsetek ludności wiejskiej;

WIEK w średnim wieku.

Jako zmienną zależną wybieramy znak Pt_Zły, a jako niezależne - cała reszta. Obliczone współczynniki regresji pomiędzy wybranymi zmiennymi podano w tabeli. 3.4

Tabela 3.4

Współczynniki regresji

W tabeli tej przedstawiono współczynniki regresji ( W) i standaryzowane współczynniki regresji ( Beta). Stosowanie współczynników W ustala się postać równania regresji, która w tym przypadku ma postać:

Umieszczenie po prawej stronie tylko tych zmiennych wynika z faktu, że tylko te znaki mają wartość prawdopodobieństwa R mniejsza niż 0,05 (patrz czwarta kolumna tabeli 3.4).

Bibliografia

  1. Basovsky L.E. Prognozowanie i planowanie w warunkach rynkowych. – M.: Infra – M, 2003.
  2. Box J., Jenkins G. Analiza szeregów czasowych. Problem 1. Prognozowanie i zarządzanie. – M.: Mir, 1974.
  3. Borovikov V. P., Ivchenko G. I. Prognozowanie w systemie Statistica w środowisku Windows. – M.: Finanse i statystyka, 1999.
  4. Książę V. Przetwarzanie danych na komputerze PC w przykładach. – Petersburg: Piotr, 1997.
  5. Ivchenko B. P., Martyshchenko L. A., Ivantsov I. B. Mikroekonomia informacji. Część 1. Metody analizy i prognozowania. – Petersburg: Nordmed-Izdat, 1997.
  6. Krichevsky M. L. Wprowadzenie do sztucznych sieci neuronowych: Podręcznik. dodatek. – SPb.: SPb. państwo technika morska. Uniwersytet, 1999.
  7. Soshnikova L. A., Tamashevich V. N., Uebe G. i in. Wieloczynnikowa analiza statystyczna w ekonomii. – M.: Unity-Dana, 1999.


Nowość na stronie

>

Najbardziej popularny