Dom Zapalenie jamy ustnej Przeprowadź analizę regresji. Metody statystyki matematycznej

Przeprowadź analizę regresji. Metody statystyki matematycznej

Analiza regresji i korelacji to metody badań statystycznych. Są to najczęstsze sposoby pokazania zależności parametru od jednej lub większej liczby zmiennych niezależnych.

Poniżej o konkretach praktyczne przykłady Przyjrzyjmy się tym dwóm bardzo popularnym wśród ekonomistów analizom. Podamy również przykład uzyskania wyników podczas ich łączenia.

Analiza regresji w Excelu

Pokazuje wpływ niektórych wartości (niezależnych, niezależnych) na zmienną zależną. Np. jak liczba ludności aktywnej zawodowo zależy od liczby przedsiębiorstw, ich wielkości wynagrodzenie i inne parametry. Albo: jak inwestycje zagraniczne, ceny energii itp. wpływają na poziom PKB.

Wynik analizy pozwala na wyróżnienie priorytetów. I na podstawie głównych czynników przewidywać, planować rozwój obszarów priorytetowych i podejmować decyzje zarządcze.

Regresja ma miejsce:

  • liniowy (y = a + bx);
  • paraboliczny (y = a + bx + cx 2);
  • wykładniczy (y = a * exp(bx));
  • potęga (y = a*x^b);
  • hiperboliczny (y = b/x + a);
  • logarytmiczny (y = b * 1n(x) + a);
  • wykładniczy (y = a * b^x).

Spójrzmy na przykład budowy modelu regresji w Excelu i interpretacji wyników. Weźmy regresję liniową.

Zadanie. W 6 przedsiębiorstwach analizowano przeciętne miesięczne wynagrodzenie oraz liczbę odchodzących pracowników. Konieczne jest określenie zależności liczby odchodzących pracowników od przeciętnego wynagrodzenia.

Model regresja liniowa ma następującą postać:

Y = za 0 + za 1 x 1 +…+a k x k.

Gdzie a to współczynniki regresji, x to zmienne wpływające, k to liczba czynników.

W naszym przykładzie Y jest wskaźnikiem odejścia pracowników. Czynnikiem wpływającym są płace (x).

Excel ma wbudowane funkcje, które mogą pomóc w obliczeniu parametrów modelu regresji liniowej. Ale dodatek „Pakiet analityczny” zrobi to szybciej.

Aktywujemy potężne narzędzie analityczne:

Po aktywacji dodatek będzie dostępny w zakładce Dane.

Przeprowadźmy teraz samą analizę regresji.



Przede wszystkim zwracamy uwagę na R-kwadrat i współczynniki.

R-kwadrat to współczynnik determinacji. W naszym przykładzie – 0,755, czyli 75,5%. Oznacza to, że obliczone parametry modelu wyjaśniają 75,5% zależności pomiędzy badanymi parametrami. Im wyższy współczynnik determinacji, tym lepszy model. Dobry - powyżej 0,8. Źle – mniej niż 0,5 (taką analizę trudno uznać za uzasadnioną). W naszym przykładzie – „nieźle”.

Współczynnik 64,1428 pokazuje, jakie będzie Y, jeśli wszystkie zmienne w rozpatrywanym modelu będą równe 0. Oznacza to, że na wartość analizowanego parametru wpływają także inne czynniki, nie opisane w modelu.

Współczynnik -0,16285 pokazuje wagę zmiennej X na Y. Oznacza to, że przeciętne miesięczne wynagrodzenie w tym modelu wpływa na liczbę osób rezygnujących z wagi -0,16285 (jest to niewielki stopień wpływu). Znak „-” wskazuje na negatywny wpływ: im wyższa pensja, tym mniej osób odchodzi. Co jest sprawiedliwe.



Analiza korelacji w programie Excel

Analiza korelacji pomaga określić, czy istnieje związek między wskaźnikami w jednej czy dwóch próbach. Na przykład między czasem pracy maszyny a kosztem napraw, ceną sprzętu a czasem pracy, wzrostem i wagą dzieci itp.

Jeżeli istnieje związek, to czy wzrost jednego parametru powoduje wzrost (korelacja dodatnia), czy spadek (korelacja ujemna) drugiego. Analiza korelacji pomaga analitykowi określić, czy wartość jednego wskaźnika można wykorzystać do przewidywania możliwe znaczenie inny.

Współczynnik korelacji jest oznaczony przez r. Zmienia się od +1 do -1. Klasyfikacja korelacji dla różne obszary będzie inny. Gdy współczynnik wynosi 0 zależność liniowa nie istnieje pomiędzy próbkami.

Przyjrzyjmy się, jak znaleźć współczynnik korelacji za pomocą programu Excel.

Aby znaleźć sparowane współczynniki, używana jest funkcja CORREL.

Cel pracy: Ustalenie, czy istnieje związek pomiędzy czasem pracy tokarki a kosztami jej konserwacji.

Umieść kursor w dowolnej komórce i naciśnij przycisk fx.

  1. W kategorii „Statystyczne” wybierz funkcję KOREL.
  2. Argument „Tablica 1” – pierwszy zakres wartości – czas pracy maszyny: A2:A14.
  3. Argument „Tablica 2” – drugi zakres wartości – koszt naprawy: B2:B14. Kliknij OK.

Aby określić rodzaj połączenia, należy spojrzeć na bezwzględną liczbę współczynnika (każde pole działalności ma swoją skalę).

Dla analiza korelacji kilku parametrów (więcej niż 2), wygodniej jest skorzystać z „Analizy danych” (dodatek „Pakiet analiz”). Należy wybrać korelację z listy i wyznaczyć tablicę. Wszystko.

Otrzymane współczynniki zostaną wyświetlone w macierzy korelacji. Lubię to:

Analiza korelacji i regresji

W praktyce te dwie techniki są często stosowane razem.

Przykład:


Teraz stały się widoczne dane z analizy regresji.

Główny cel analizy regresji polega na określeniu analitycznej formy komunikacji, w której zmiana charakterystyki efektywnej wynika z wpływu jednej lub większej liczby cech czynnika, a zbiór wszystkich pozostałych czynników, które również wpływają na charakterystykę efektywną, przyjmuje się jako wartości stałe i średnie.
Problemy analizy regresji:
a) Ustalenie formy zależności. Jeśli chodzi o naturę i formę relacji między zjawiskami, rozróżnia się dodatnią regresję liniową i nieliniową oraz ujemną regresję liniową i nieliniową.
b) Wyznaczenie funkcji regresji w postaci równania matematycznego tego lub innego rodzaju i ustalenie wpływu zmiennych objaśniających na zmienną zależną.
c) Ocena Nie znane wartości zmienna zależna. Za pomocą funkcji regresji można odtworzyć wartości zmiennej zależnej w przedziale określonych wartości zmiennych objaśniających (tj. rozwiązać problem interpolacji) lub ocenić przebieg procesu poza określonym przedziałem (tj. rozwiązać problem ekstrapolacji). Wynikiem jest oszacowanie wartości zmiennej zależnej.

Regresja sparowana to równanie zależności pomiędzy dwiema zmiennymi y i x: , gdzie y jest zmienną zależną (atrybut wynikowy); x jest niezależną zmienną objaśniającą (czynnikiem-cechą).

Istnieją regresje liniowe i nieliniowe.
Regresja liniowa: y = a + bx + ε
Regresje nieliniowe dzielą się na dwie klasy: regresje nieliniowe względem zmiennych objaśniających uwzględnionych w analizie, ale liniowe względem oszacowanych parametrów oraz regresje nieliniowe względem oszacowanych parametrów.
Regresje nieliniowe w zmiennych objaśniających:

Regresje nieliniowe względem oszacowanych parametrów: Konstrukcja równania regresji sprowadza się do oszacowania jego parametrów. Aby oszacować parametry regresji liniowych w parametrach, należy skorzystać z metody najmniejszych kwadratów(MNC). Metoda najmniejszych kwadratów pozwala uzyskać takie oszacowania parametrów, przy których suma kwadratów odchyleń rzeczywistych wartości charakterystyki wypadkowej y od wartości teoretycznych jest minimalna, tj.
.
Dla równań liniowych i nieliniowych redukowalnych do liniowych należy rozwiązać następny system odnośnie a i b:

Możesz skorzystać z gotowych formuł, które wynikają z tego systemu:

Ocenia się bliskość powiązania pomiędzy badanymi zjawiskami współczynnik liniowy korelacja parami dla regresji liniowej:

oraz wskaźnik korelacji – dla regresji nieliniowej:

Jakość skonstruowanego modelu będzie oceniana za pomocą współczynnika (wskaźnika) determinacji, a także średniego błędu aproksymacji.
Średni błąd aproksymacji - średnie odchylenie obliczonych wartości od rzeczywistych:
.
Dopuszczalny limit wartości wynosi nie więcej niż 8-10%.
Średni współczynnik elastyczności pokazuje, o jaki procent średnio zmieni się wynik y od wartości średniej, gdy współczynnik x zmieni się o 1% od wartości średniej:
.

Zadanie analiza wariancji polega na analizie wariancji zmiennej zależnej:
,
Gdzie - całkowita kwota kwadraty odchyleń;
- suma kwadratów odchyleń wynikających z regresji („wyjaśnione” lub „silnia”);
- resztowa suma kwadratów odchyleń.
Udział wariancji wyjaśniony regresją w całkowitej wariancji wynikowej cechy y charakteryzuje się współczynnikiem (indeksem) determinacji R2:

Współczynnikiem determinacji jest kwadrat współczynnika lub wskaźnika korelacji.

Test F – oceniający jakość równania regresji – polega na sprawdzeniu hipotezy nr o nieistotności statystycznej równania regresji oraz wskaźniku bliskości zależności. W tym celu dokonuje się porównania rzeczywistego faktu F z krytycznymi (tabelarycznymi) wartościami tabeli F kryterium F Fishera. Fakt F określa się na podstawie stosunku wartości współczynnika i wariancji resztowych obliczonych na stopień swobody:
,
gdzie n jest liczbą jednostek populacji; m jest liczbą parametrów zmiennych x.
Tabela F to maksymalna możliwa wartość kryterium pod wpływem czynników losowych przy danych stopniach swobody i poziomie istotności a. Poziom istotności a to prawdopodobieństwo odrzucenia prawidłowej hipotezy, pod warunkiem, że jest ona prawdziwa. Zwykle przyjmuje się, że a jest równe 0,05 lub 0,01.
Jeśli tabela F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Faktem jest, że hipoteza Ho nie jest odrzucana i uznaje się statystyczną nieistotność i zawodność równania regresji.
Dla stawki znaczenie statystyczne dla każdego wskaźnika obliczane są współczynniki regresji i korelacji, test t-Studenta oraz przedziały ufności. Postawiono hipotezę o losowym charakterze wskaźników, tj. o ich nieistotnej różnicy od zera. Ocena istotności współczynników regresji i korelacji za pomocą testu t-Studenta odbywa się poprzez porównanie ich wartości z wielkością błędu losowego:
; ; .
Błędy losowe parametrów regresji liniowej i współczynnika korelacji wyznaczają wzory:



Porównując rzeczywiste i krytyczne (tabelaryczne) wartości statystyki t - tabela t i fakt t - akceptujemy lub odrzucamy hipotezę Ho.
Związek między testem F Fishera a statystyką t-Studenta wyraża się równością

Jeśli t stół< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t jest faktem, że hipoteza Ho nie jest odrzucana i uznaje się losowy charakter powstawania a, b lub.
Aby obliczyć przedział ufności, wyznaczamy maksymalny błąd D dla każdego wskaźnika:
, .
Wzory na obliczanie przedziałów ufności są następujące:
; ;
; ;
Jeśli zero mieści się w przedziale ufności, tj. Jeżeli dolna granica jest ujemna, a górna jest dodatnia, wówczas szacowany parametr przyjmuje się za zero, ponieważ nie może on jednocześnie przyjmować wartości dodatniej i ujemnej.
Wartość prognozowaną wyznacza się poprzez podstawienie odpowiedniej wartości (prognozy) do równania regresji. Obliczany jest średni błąd standardowy prognozy:
,
Gdzie
i jest budowany przedział ufności prognoza:
; ;
Gdzie .

Przykładowe rozwiązanie

Zadanie nr 1. Dla siedmiu terytoriów Uralu w 199X roku znane są wartości dwóch cech.
Tabela 1.
Wymagany: 1. Aby scharakteryzować zależność y od x, oblicz parametry następujących funkcji:
a) liniowy;
b) potęga (należy najpierw wykonać procedurę linearyzacji zmiennych, biorąc logarytm obu części);
c) demonstracyjne;
d) hiperbola równoboczna (trzeba także dowiedzieć się, jak wstępnie zlinearyzować ten model).
2. Ocenić każdy model wykorzystując średni błąd aproksymacji i test F Fishera.

Rozwiązanie (opcja nr 1)

Aby obliczyć parametry a i b regresji liniowej (obliczenia można dokonać za pomocą kalkulatora).
rozwiązać układ równań normalnych dla A I B:
Na podstawie danych początkowych obliczamy :
y X yx x 2 y 2 A ja
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Całkowity 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Poślubić. oznaczający (Razem/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
S 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Równanie regresji: y = 76,88 - 0,35X. Wraz ze wzrostem przeciętnego dziennego wynagrodzenia o 1 rub. udział wydatków na zakup artykułów spożywczych spada średnio o 0,35 punktu procentowego.
Obliczmy współczynnik korelacji par liniowych:

Połączenie jest umiarkowane, odwrotne.
Wyznaczmy współczynnik determinacji:

Zmienność wyniku wynoszącą 12,7% można wytłumaczyć zmianą współczynnika x. Podstawienie rzeczywistych wartości do równania regresji X, ustalmy wartości teoretyczne (obliczone). . Znajdźmy wartość średniego błędu aproksymacji:

Obliczone wartości odbiegają średnio od rzeczywistych o 8,1%.
Obliczmy kryterium F:

od 1< F < ¥ , powinien być wzięty pod uwagę F -1 .
Otrzymana wartość wskazuje na konieczność przyjęcia hipotezy Ale och losowy charakter zidentyfikowanej zależności oraz statystyczna nieistotność parametrów równania i wskaźnika bliskości powiązania.
1b. Konstrukcję modelu potęgowego poprzedza procedura linearyzacji zmiennych. W przykładzie linearyzacja odbywa się poprzez logarytmy obu stron równania:


GdzieY=lg(y), X=lg(x), C=lg(a).

Do obliczeń wykorzystujemy dane zawarte w tabeli. 1.3.

Tabela 1.3

Y X YX Y2 X2 A ja
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Całkowity 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Średnia wartość 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Obliczmy C i b:


Otrzymujemy równanie liniowe: .
Po wykonaniu jego wzmocnienia otrzymujemy:

Podstawiając rzeczywiste wartości do tego równania X, otrzymujemy teoretyczne wartości wyniku. Wykorzystując je obliczymy wskaźniki: szczelności połączenia – wskaźnik korelacji oraz średni błąd aproksymacji

Wyniki modelu prawa potęgowego wskazują, że jest on nieco lepszy funkcja liniowa opisuje związek.

1c. Konstruowanie równania krzywej wykładniczej

poprzedzone procedurą linearyzacji zmiennych poprzez logarytmy obu stron równania:

Do obliczeń wykorzystujemy dane tabelaryczne.

Y X Yx Y2 x 2 A ja
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Całkowity 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Poślubić. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Wartości parametrów regresji A i W wyniósł:


Wynikowe równanie liniowe to: . Wzmocnijmy powstałe równanie i zapiszmy je w zwykłej formie:

Bliskość połączenia ocenimy poprzez wskaźnik korelacji:

Studenci w trakcie studiów bardzo często spotykają się z różnymi równaniami. Jedno z nich – równanie regresji – zostało omówione w tym artykule. Ten typ równania jest używany specjalnie do opisu charakterystyki zależności między parametrami matematycznymi. Ten typ równości są stosowane w statystyce i ekonometrii.

Definicja regresji

W matematyce regresja oznacza pewną wielkość opisującą zależność średniej wartości zbioru danych od wartości innej wielkości. Równanie regresji pokazuje, jako funkcję określonej cechy, średnią wartość innej cechy. Funkcja regresji ma postać proste równanie y = x, gdzie y pełni rolę zmiennej zależnej, a x jest zmienną niezależną (czynnik cechy). W rzeczywistości regresję wyraża się jako y = f (x).

Jakie są rodzaje relacji między zmiennymi?

Ogólnie rzecz biorąc, istnieją dwa przeciwstawne typy relacji: korelacja i regresja.

Pierwsza charakteryzuje się równością zmiennych warunkowych. W w tym przypadku Nie wiadomo z całą pewnością, która zmienna zależy od drugiej.

Jeżeli pomiędzy zmiennymi nie ma równości, a warunki mówią, która zmienna jest objaśniająca, a która zależna, to możemy mówić o istnieniu powiązania drugiego typu. Aby skonstruować równanie regresji liniowej, konieczne będzie ustalenie, jaki typ zależności jest obserwowany.

Rodzaje regresji

Obecnie istnieje 7 różnych typów regresji: hiperboliczna, liniowa, wielokrotna, nieliniowa, parami, odwrotna i logarytmicznie liniowa.

Hiperboliczne, liniowe i logarytmiczne

Równanie regresji liniowej stosuje się w statystyce w celu jasnego wyjaśnienia parametrów równania. Wygląda na to, że y = c+t*x+E. Równanie hiperboliczne ma postać hiperboli regularnej y = c + m / x + E. Równanie logarytmicznie liniowe wyraża zależność za pomocą funkcji logarytmicznej: In y = In c + m * In x + In E.

Wielorakie i nieliniowe

Dwa więcej typy złożone Regresja jest wielokrotna i nieliniowa. Równanie regresja wielokrotna wyraża się funkcją y = f(x 1, x 2 ...x c) + E. W tej sytuacji y pełni rolę zmiennej zależnej, a x pełni rolę zmiennej objaśniającej. Zmienna E ma charakter stochastyczny, uwzględnia wpływ innych czynników w równaniu. Równanie nieliniowe regresja jest nieco kontrowersyjna. Z jednej strony w odniesieniu do branych pod uwagę wskaźników nie ma ona charakteru liniowego, z drugiej zaś w roli wskaźników oceniających ma charakter liniowy.

Regresje odwrotne i sparowane

Odwrotność to rodzaj funkcji, na którą należy dokonać konwersji widok liniowy. W najbardziej tradycyjnych programach aplikacyjnych ma postać funkcji y = 1/c + m*x+E. Równanie regresji parami pokazuje zależność pomiędzy danymi w funkcji y = f (x) + E. Podobnie jak w innych równaniach, y zależy od x, a E jest parametrem stochastycznym.

Pojęcie korelacji

Jest to wskaźnik świadczący o istnieniu związku pomiędzy dwoma zjawiskami lub procesami. Siłę związku wyraża się jako współczynnik korelacji. Jego wartość waha się w przedziale [-1;+1]. Wskaźnik negatywny wskazuje dostępność informacja zwrotna, dodatni - o linii prostej. Jeżeli współczynnik przyjmuje wartość równą 0, wówczas zależności nie ma. Jak bliższa wartość w stronę 1 – im silniejszy związek pomiędzy parametrami, im bliżej 0 – tym słabszy.

Metody

Korelacyjne metody parametryczne pozwalają ocenić siłę związku. Wykorzystuje się je na podstawie estymacji rozkładu do badania parametrów zgodnych z prawem rozkładu normalnego.

Parametry równania regresji liniowej są niezbędne do identyfikacji rodzaju zależności, funkcji równania regresji oraz oceny wskaźników wybranej formuły zależności. Pole korelacji służy jako metoda identyfikacji połączenia. W tym celu wszystkie istniejące dane muszą zostać przedstawione graficznie. Wszystkie znane dane należy przedstawić w prostokątnym dwuwymiarowym układzie współrzędnych. W ten sposób powstaje pole korelacyjne. Wartości współczynnika opisującego zaznaczono na osi odciętych, natomiast wartości współczynnika zależnego na osi rzędnych. Jeśli istnieje funkcjonalna zależność pomiędzy parametrami, są one ułożone w formie linii.

Jeśli współczynnik korelacji takich danych jest mniejszy niż 30%, możemy mówić o praktyce całkowita nieobecność komunikacja. Jeśli wynosi od 30% do 70%, oznacza to obecność połączeń średnio-bliskich. Wskaźnik 100% świadczy o funkcjonalnym połączeniu.

Równanie regresji nieliniowej, podobnie jak równanie liniowe, należy uzupełnić o wskaźnik korelacji (R).

Korelacja dla regresji wielokrotnej

Współczynnikiem determinacji jest wykładnik kwadratowy korelacja wielokrotna. Mówi o ścisłym związku prezentowanego zestawu wskaźników z badaną cechą. Można także mówić o naturze wpływu parametrów na wynik. Za pomocą tego wskaźnika szacuje się równanie regresji wielokrotnej.

Aby obliczyć wskaźnik korelacji wielokrotnej, należy obliczyć jego wskaźnik.

Metoda najmniejszych kwadratów

Metoda ta jest sposobem na oszacowanie współczynników regresji. Jego istotą jest minimalizacja sumy kwadratów odchyleń uzyskanych w wyniku zależności współczynnika od funkcji.

Za pomocą takiej metody można oszacować równanie regresji liniowej parami. Tego typu równania stosuje się w przypadku wykrycia sparowanej zależności liniowej między wskaźnikami.

Parametry równania

Każdy parametr funkcji regresji liniowej ma określone znaczenie. Sparowane równanie regresji liniowej zawiera dwa parametry: c i m. Parametr m pokazuje średnią zmianę końcowego wskaźnika funkcji y, pod warunkiem, że zmienna x zmniejszy się (zwiększy) o jedną jednostkę konwencjonalną. Jeżeli zmienna x wynosi zero, to funkcja jest równa parametrowi c. Jeśli zmienna x nie jest zerowa, wówczas czynnik c nie ma znaczenia ekonomicznego. Jedynym wpływem na funkcję jest znak przed czynnikiem c. Jeśli jest minus, możemy powiedzieć, że zmiana wyniku jest powolna w porównaniu do współczynnika. Jeśli jest plus, oznacza to przyspieszoną zmianę wyniku.

Każdy parametr zmieniający wartość równania regresji można wyrazić za pomocą równania. Na przykład współczynnik c ma postać c = y - mx.

Zgrupowane dane

Istnieją warunki zadań, w których wszystkie informacje są pogrupowane według atrybutu x, ale dla pewnej grupy wskazane są odpowiednie średnie wartości zależnego wskaźnika. W tym przypadku średnie wartości charakteryzują, jak zmienia się wskaźnik w zależności od x. Zatem pogrupowane informacje pomagają znaleźć równanie regresji. Służy do analizy relacji. Jednak ta metoda ma swoje wady. Niestety, średnie wskaźniki często podlegają wahaniom zewnętrznym. Wahania te nie odzwierciedlają wzorca związku; po prostu maskują jego „szum”. Średnie pokazują wzorce zależności znacznie gorsze niż równanie regresji liniowej. Można je jednak wykorzystać jako podstawę do znalezienia równania. Mnożąc liczbę pojedynczej populacji przez odpowiednią średnią, można otrzymać sumę y w obrębie grupy. Następnie musisz zsumować wszystkie otrzymane kwoty i znaleźć końcowy wskaźnik y. Nieco trudniej jest dokonać obliczeń ze wskaźnikiem sumy xy. Jeśli odstępy są małe, możemy warunkowo przyjąć, że wskaźnik x dla wszystkich jednostek (w grupie) będzie taki sam. Należy pomnożyć go przez sumę y, aby otrzymać sumę iloczynów x i y. Następnie wszystkie kwoty sumuje się i otrzymuje całkowitą kwotę xy.

Równanie regresji wielokrotnej parami: ocena ważności związku

Jak wspomniano wcześniej, regresja wielokrotna ma funkcję w postaci y = f (x 1,x 2,…,x m)+E. Najczęściej równanie takie wykorzystuje się do rozwiązania problemu podaży i popytu na produkt, dochodu odsetkowego od nabytych akcji oraz do badania przyczyn i rodzaju funkcji kosztu produkcji. Jest również aktywnie wykorzystywane w różnorodnych badaniach i obliczeniach makroekonomicznych, jednak na poziomie mikroekonomii równanie to jest stosowane nieco rzadziej.

Głównym zadaniem regresji wielokrotnej jest zbudowanie modelu danych zawierającego ogromną ilość informacji w celu dalszego określenia, jaki wpływ ma każdy z czynników indywidualnie i łącznie na modelowany wskaźnik i jego współczynniki. Równanie regresji może przyjmować wiele różnych wartości. W tym przypadku do oceny zależności stosuje się zwykle dwa rodzaje funkcji: liniową i nieliniową.

Funkcja liniowa jest przedstawiona w postaci zależności: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. W tym przypadku a2, am uważa się za „czyste” współczynniki regresji. Są one niezbędne do scharakteryzowania średniej zmiany parametru y wraz ze zmianą (spadkiem lub wzrostem) każdego odpowiedniego parametru x o jedną jednostkę, pod warunkiem stabilnych wartości innych wskaźników.

Równania nieliniowe mają np. postać funkcji potęgowej y=ax 1 b1 x 2 b2 ...x m bm. W tym przypadku wskaźniki b 1, b 2 ..... b m nazywane są współczynnikami elastyczności, pokazują, jak zmieni się wynik (o ile%) wraz ze wzrostem (spadkiem) odpowiedniego wskaźnika x o 1% i przy stabilnym wskaźniku innych czynników.

Jakie czynniki należy wziąć pod uwagę konstruując regresję wielokrotną

Aby poprawnie zbudować regresję wielokrotną, należy dowiedzieć się, na jakie czynniki należy zwrócić szczególną uwagę.

Konieczne jest pewne zrozumienie natury zależności między czynnikami ekonomicznymi a modelowanym obiektem. Czynniki, które będą musiały zostać uwzględnione, muszą spełniać następujące kryteria:

  • Należy poddać pomiarowi ilościowemu. Aby móc zastosować współczynnik opisujący jakość obiektu, należy w każdym przypadku nadać mu postać ilościową.
  • Nie powinno być żadnej wzajemnej korelacji czynników ani relacji funkcjonalnej. Takie działania najczęściej prowadzą do nieodwracalne skutki- układ równań zwyczajnych staje się bezwarunkowy, co pociąga za sobą jego zawodność i niejasność szacunków.
  • W przypadku ogromnego wskaźnika korelacji nie ma możliwości stwierdzenia izolowanego wpływu czynników na końcowy wynik wskaźnika, dlatego współczynniki stają się nieinterpretowalne.

Metody konstrukcyjne

Istnieje wielka ilość metody i techniki wyjaśniające, w jaki sposób można wybrać czynniki do równania. Wszystkie te metody opierają się jednak na doborze współczynników za pomocą wskaźnika korelacji. Wśród nich są:

  • Metoda eliminacji.
  • Metoda przełączania.
  • Analiza regresji krokowej.

Pierwsza metoda polega na odfiltrowaniu wszystkich współczynników z całkowitego zbioru. Druga metoda polega na wprowadzeniu wielu dodatkowych czynników. Cóż, trzecia polega na eliminacji czynników, które zostały wcześniej użyte w równaniu. Każda z tych metod ma prawo istnieć. Mają swoje wady i zalety, ale wszyscy mogą na swój sposób rozwiązać problem eliminacji niepotrzebnych wskaźników. Z reguły wyniki uzyskane każdą indywidualną metodą są dość zbliżone.

Metody analizy wieloczynnikowej

Takie metody wyznaczania czynników opierają się na uwzględnieniu indywidualnych kombinacji wzajemnie powiązanych cech. Należą do nich analiza dyskryminacyjna, rozpoznawanie kształtów, analiza głównych składowych i analiza skupień. Ponadto istnieje również analiza czynnikowa, ale pojawiła się ona w związku z rozwojem metody składowej. Wszystkie mają zastosowanie w określonych okolicznościach, z zastrzeżeniem pewnych warunków i czynników.

W obecności połączenie korelacyjne Pomiędzy znakami czynnika i wyniku lekarze często muszą ustalić, o ile wartość jednego znaku może się zmienić, gdy drugi zmieni się na ogólnie przyjętą jednostkę miary lub ustaloną przez samego badacza.

Na przykład, jak zmieni się masa ciała uczniów I klasy (dziewczynek lub chłopców), jeśli ich wzrost wzrośnie o 1 cm? W tym celu wykorzystuje się metodę analizy regresji.

Do opracowania skal i standardów normatywnych najczęściej wykorzystuje się metodę analizy regresji rozwój fizyczny.

  1. Definicja regresji. Regresja to funkcja, która pozwala na podstawie średniej wartości jednej cechy wyznaczyć średnią wartość innej cechy, która jest skorelowana z pierwszą.

    W tym celu wykorzystuje się współczynnik regresji i szereg innych parametrów. Możesz na przykład obliczyć liczbę przeziębieniaśrednio przy określonych wartościach średniej miesięcznej temperatury powietrza w okresie jesienno-zimowym.

  2. Wyznaczanie współczynnika regresji. Współczynnik regresji to wartość bezwzględna, o którą średnio zmienia się wartość jednej cechy, gdy inna powiązana cecha zmienia się o określoną jednostkę miary.
  3. Wzór na współczynnik regresji. R y/x = r xy x (σ y / σ x)
    gdzie R у/х - współczynnik regresji;
    r xy – współczynnik korelacji pomiędzy cechami x i y;
    (σ y i σ x) - odchylenia standardowe cech x i y.

    W naszym przykładzie;
    σ x = 4,6 (odchylenie standardowe temperatury powietrza w okresie jesienno-zimowym;
    σ y = 8,65 (odchylenie standardowe liczby chorób zakaźnych i przeziębieniowych).
    Zatem R y/x jest współczynnikiem regresji.
    R у/х = -0,96 x (4,6 / 8,65) = 1,8, tj. gdy średnia miesięczna temperatura powietrza (x) spadnie o 1 stopień, średnia liczba chorób zakaźnych i przeziębieniowych (y) w okresie jesienno-zimowym zmieni się o 1,8 przypadku.

  4. Równanie regresji. y = M y + R y/x (x - M x)
    gdzie y jest wartością średnią cechy, którą należy wyznaczyć w przypadku zmiany wartości średniej innej cechy (x);
    x jest znaną średnią wartością innej cechy;
    R y/x – współczynnik regresji;
    M x, M y - znane średnie wartości cech x i y.

    Na przykład średnią liczbę chorób zakaźnych i przeziębieniowych (y) można określić bez specjalnych pomiarów przy dowolnej średniej wartości średniej miesięcznej temperatury powietrza (x). Zatem jeśli x = - 9°, R y/x = 1,8 chorób, M x = -7°, M y = 20 chorób, to y = 20 + 1,8 x (9-7) = 20 + 3,6 = 23,6 choroby.
    Równanie to stosuje się w przypadku liniowej zależności pomiędzy dwiema charakterystykami (x i y).

  5. Cel równania regresji. Równanie regresji służy do konstruowania linii regresji. Ta ostatnia pozwala, bez specjalnych pomiarów, wyznaczyć dowolną wartość średnią (y) jednej cechy w przypadku zmiany wartości (x) innej cechy. Na podstawie tych danych tworzony jest wykres - linia regresji, za pomocą którego można wyznaczyć średnią liczbę przeziębień przy dowolnej wartości średniej miesięcznej temperatury w przedziale pomiędzy obliczonymi wartościami liczby przeziębień.
  6. Regresja Sigma (wzór).
    gdzie σ Rу/х – sigma (odchylenie standardowe) regresji;
    σ y – odchylenie standardowe cechy y;
    r xy - współczynnik korelacji pomiędzy cechami x i y.

    Zatem jeśli σ y - odchylenie standardowe liczby przeziębień = 8,65; r xy – współczynnik korelacji pomiędzy liczbą przeziębień (y) a średnią miesięczną temperaturą powietrza w okresie jesienno-zimowym (x) wynosi – 0,96, wówczas

  7. Przypisanie sigma regresji. Podaje opis miary różnorodności wynikowej cechy (y).

    Charakteryzuje np. zróżnicowanie liczby przeziębień przy określonej wartości średniej miesięcznej temperatury powietrza w okresie jesienno-zimowym. Zatem średnia liczba przeziębień przy temperaturze powietrza x 1 = -6° może wynosić od 15,78 do 20,62 chorób.
    Przy x 2 = -9° średnia liczba przeziębień może wahać się od 21,18 chorób do 26,02 chorób itd.

    Sigma regresji służy do skonstruowania skali regresji, która odzwierciedla odchylenie wartości wynikowej cechy od jej średniej wartości wykreślonej na linii regresji.

  8. Dane wymagane do obliczenia i wykreślenia skali regresji
    • współczynnik regresji - R у/х;
    • równanie regresji - y = M y + R y/x (x-M x);
    • regresja sigma - σ Rx/y
  9. Kolejność obliczeń i graficzne przedstawienie skali regresji.
    • określić współczynnik regresji za pomocą wzoru (patrz ust. 3). Na przykład konieczne jest określenie, o ile średnio zmieni się masa ciała (w określonym wieku w zależności od płci), jeśli Średnia wysokość zmieni się o 1 cm.
    • korzystając ze wzoru na równanie regresji (patrz punkt 4), określ, jaka będzie np. średnia masa ciała (y, y 2, y 3 ...) * dla określonej wartości wzrostu (x, x 2, x 3 ). ..) .
      ________________
      *Wartość „y” należy obliczyć dla co najmniej trzech znanych wartości „x”.

      Jednocześnie znane są średnie wartości masy ciała i wzrostu (M x i M y) dla określonego wieku i płci

    • obliczyć sigma regresji, znając odpowiednie wartości σ y i r xy i podstawiając ich wartości do wzoru (patrz akapit 6).
    • w oparciu o znane wartości x 1, x 2, x 3 i odpowiadające im wartości średnie y 1, y 2 y 3, a także najmniejsze (y - σ rу/х) i największe (y + σ rу /х) wartości (y) konstruują skalę regresji.

      Aby graficznie przedstawić skalę regresji, najpierw na wykresie zaznacza się wartości x, x2, x3 (oś rzędnych), tj. konstruowana jest linia regresji, na przykład zależność masy ciała (y) od wzrostu (x).

      Następnie w odpowiednich punktach zaznaczono y 1, y 2, y 3 wartości liczbowe sigma regresji, tj. znajdź najmniejszy na wykresie i najwyższa wartość r 1, r 2, r 3.

  10. Praktyczne wykorzystanie skali regresji. Opracowywane są skale i standardy normatywne, w szczególności dotyczące rozwoju fizycznego. Za pomocą standardowej skali można dokonać indywidualnej oceny rozwoju dzieci. W tym przypadku rozwój fizyczny ocenia się jako harmonijny, jeżeli np. przy pewnym wzroście masa ciała dziecka mieści się w granicach jednej sigma regresji do średnio obliczonej jednostki masy ciała – (y) dla danego wzrostu (x) ( y ± 1 σ Ry/x).

    Rozwój fizyczny uznaje się za dysharmonijny pod względem masy ciała, jeżeli masa ciała dziecka dla określonego wzrostu mieści się w granicach drugiej sigma regresji: (y ± 2 σ Ry/x)

    Rozwój fizyczny będzie mocno dysharmonijny ze względu zarówno na nadmiar, jak i niedostateczną masę ciała, jeśli masa ciała dla określonego wzrostu będzie mieścić się w trzeciej sigma regresji (y ± 3 σ Ry/x).

Według wyników badania statystyczne rozwoju fizycznego 5-letnich chłopców wiadomo, że ich średni wzrost (x) wynosi 109 cm, a średnia masa ciała (y) to 19 kg. Współczynnik korelacji wzrostu z masą ciała wynosi +0,9, odchylenia standardowe przedstawiono w tabeli.

Wymagany:

  • obliczyć współczynnik regresji;
  • korzystając z równania regresji, określ, jaka będzie oczekiwana masa ciała 5-letnich chłopców przy wzroście równym x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • obliczyć sigma regresji, skonstruować skalę regresji i przedstawić graficznie wyniki jej rozwiązania;
  • wyciągnąć odpowiednie wnioski.

Uwarunkowania problemu i wyniki jego rozwiązania przedstawiono w tabeli zbiorczej.

Tabela 1

Warunki problemu Wyniki rozwiązania problemu
równanie regresji sigma regresji skala regresji (przewidywana masa ciała (w kg))
M σ r xy R y/x X U σ Rx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Wysokość (x) 109cm ± 4,4 cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Masa ciała (y) 19 kg ± 0,8 kg 110cm 19,16 kg 18,81 kg 19,51 kg
120cm 20,76 kg 20,41 kg 21,11 kg

Rozwiązanie.

Wniosek. Zatem skala regresji w obrębie wyliczonych wartości masy ciała pozwala określić ją przy dowolnej innej wartości wzrostu lub oszacować rozwój indywidualny dziecko. Aby to zrobić, przywróć prostopadłość do linii regresji.

  1. Własow V.V. Epidemiologia. - M.: GEOTAR-MED, 2004. - 464 s.
  2. Lisitsyn Yu.P. Zdrowie publiczne i opieka zdrowotna. Podręcznik dla uniwersytetów. - M.: GEOTAR-MED, 2007. - 512 s.
  3. Medyk V.A., Yuryev V.K. Cykl wykładów na temat zdrowia publicznego i opieki zdrowotnej: Część 1. Zdrowie publiczne. - M.: Medycyna, 2003. - 368 s.
  4. Minyaev V.A., Vishnyakov N.I. i inne Medycyna społeczna i organizacja opieki zdrowotnej (Podręcznik w 2 tomach). - Petersburg, 1998. -528 s.
  5. Kucherenko V.Z., Agarkov N.M. i inne Organizacja higieny społecznej i opieki zdrowotnej ( Instruktaż) - Moskwa, 2000. - 432 s.
  6. S. Glanza. Statystyka medyczna i biologiczna. Tłumaczenie z języka angielskiego - M., Praktika, 1998. - 459 s.

Analiza regresji leży u podstaw tworzenia większości modeli ekonometrycznych, do których zaliczają się modele szacowania kosztów. Do budowy modeli wyceny można zastosować tę metodę, jeżeli liczba analogów (obiektów porównywalnych) i liczba czynników kosztowych (elementów porównawczych) są ze sobą powiązane w następujący sposób: P> (5-g-10) x Do, te. powinno być 5-10 razy więcej analogów niż czynników kosztowych. Ten sam wymóg dotyczący stosunku ilości danych do liczby czynników dotyczy innych zadań: ustalenia związku między kosztem a parametrami konsumenckimi obiektu; uzasadnienie procedury obliczania wskaźników korekcyjnych; identyfikacja trendów cenowych; ustalenie związku między zużyciem a zmianami czynników wpływających; uzyskiwanie zależności do obliczania standardów kosztów itp. Spełnienie tego wymagania jest konieczne, aby zmniejszyć prawdopodobieństwo pracy z próbą danych niespełniającą warunku rozkładu normalnego zmiennych losowych.

Relacja regresji odzwierciedla jedynie średni trend zmian wynikowej zmiennej, na przykład kosztu, ze zmian jednej lub większej liczby zmiennych czynnikowych, na przykład lokalizacji, liczby pokoi, powierzchni, piętra itp. Jest to różnica między relacją regresyjną a funkcjonalną, w której wartość zmiennej wynikowej jest ściśle określona dla danej wartości zmiennych czynnikowych.

Obecność zależności regresyjnej / pomiędzy wynikami Na i zmienne czynnikowe x s ..., x k(czynniki) wskazuje, że o tej zależności decyduje nie tylko wpływ wybranych zmiennych czynnikowych, ale także wpływ zmiennych, z których część jest ogólnie nieznana, innych nie można ocenić i uwzględnić:

Na wpływ zmiennych nieuwzględnionych wskazuje drugi człon tego równania ?, co nazywa się błędem aproksymacji.

Wyróżnia się następujące typy zależności regresyjnych:

  • ? regresja parami – związek pomiędzy dwiema zmiennymi (wypadkową i czynnikiem);
  • ? regresja wielokrotna – związek pomiędzy jedną zmienną wynikową a dwiema lub większą liczbą zmiennych czynnikowych uwzględnionych w badaniu.

Głównym zadaniem analizy regresji jest oznaczenie ilościowe bliskość związku między zmiennymi (w regresji parami) i wieloma zmiennymi (w regresji wielokrotnej). Bliskość powiązania wyraża się ilościowo za pomocą współczynnika korelacji.

Zastosowanie analizy regresji pozwala ustalić schemat wpływu głównych czynników (charakterystyk hedonicznych) na badany wskaźnik, zarówno w całości, jak i dla każdego z nich z osobna. Za pomocą analizy regresji, jako metody statystyki matematycznej, można po pierwsze znaleźć i opisać postać analitycznej zależności wynikowej (poszukiwanej) zmiennej od zmiennych czynnikowych, a po drugie ocenić bliskość tę zależność.

Rozwiązując pierwsze zadanie uzyskuje się matematyczny model regresji, za pomocą którego następnie obliczany jest pożądany wskaźnik dla zadanych wartości czynników. Rozwiązanie drugiego problemu pozwala ustalić wiarygodność obliczonego wyniku.

Zatem analizę regresji można zdefiniować jako zbiór formalnych (matematycznych) procedur mających na celu pomiar bliskości, kierunku i analitycznego wyrażenia formy zależności pomiędzy zmiennymi wynikowymi i czynnikowymi, tj. Wynikiem takiej analizy powinien być strukturalnie i ilościowo zdefiniowany model statystyczny w postaci:

Gdzie y-średnia wartość wynikowej zmiennej (pożądany wskaźnik, na przykład koszt, czynsz, stopa kapitalizacji) według P jej obserwacje; x - wartość zmiennej czynnika (/ty czynnik kosztowy); Do - liczba zmiennych czynnikowych.

Funkcjonować f(xl,...,xlc), opisujący zależność uzyskanej zmiennej od czynników czynnikowych nazywany jest równaniem (funkcją) regresji. Termin „regresja” (regresja (łac.) – wycofanie się, powrót do czegoś) wiąże się ze specyfiką jednego z konkretnych problemów rozwiązywanych na etapie tworzenia metody i obecnie nie oddaje całej istoty metody, ale nadal jest używany.

Analiza regresji w przypadek ogólny obejmuje następujące kroki:

  • ? utworzenie próbki jednorodnych obiektów i zebranie wstępnych informacji o tych obiektach;
  • ? wybór głównych czynników wpływających na zmienną wynikową;
  • ? sprawdzenie próbki pod kątem normalności za pomocą X 2 lub test dwumianowy;
  • ? akceptacja hipotezy dotyczącej formy komunikacji;
  • ? przetwarzanie matematyczne dane;
  • ? uzyskanie modelu regresji;
  • ? ocena jego wskaźników statystycznych;
  • ? obliczenia weryfikacyjne z wykorzystaniem modelu regresji;
  • ? analiza wyników.

Określona sekwencja działań ma miejsce podczas badania zarówno relacji parowanej między zmienną czynnikową i jedną zmienną wypadkową, jak i relacji wielokrotnej między zmienną wypadkową i kilkoma silniami.

Zastosowanie analizy regresji nakłada na informacje początkowe pewne wymagania:

  • ? próba statystyczna obiektów musi być jednorodna pod względem funkcjonalnym i konstrukcyjno-technologicznym;
  • ? dość liczne;
  • ? badany wskaźnik kosztów - zmienna wynikowa (cena, koszt, wydatki) - musi zostać doprowadzona do tych samych warunków do obliczenia dla wszystkich obiektów w próbie;
  • ? zmienne czynnikowe muszą być mierzone wystarczająco dokładnie;
  • ? zmienne czynnikowe muszą być niezależne lub minimalnie zależne.

Wymagania dotyczące jednorodności i kompletności próbki są sprzeczne: im bardziej rygorystyczny jest dobór obiektów na podstawie ich jednorodności, tym mniejsza jest otrzymana próbka i odwrotnie, aby powiększyć próbkę, konieczne jest uwzględnienie obiektów, które nie są zbyt podobne do nawzajem.

Po zebraniu danych dotyczących grupy jednorodnych obiektów poddaje się je analizie w celu ustalenia formy powiązania pomiędzy zmiennymi wynikowymi i czynnikowymi w postaci teoretycznej linii regresji. Proces znajdowania teoretycznej linii regresji polega na rozsądnym wyborze krzywej aproksymującej i obliczeniu współczynników jej równania. Linia regresji to gładka krzywa (w konkretnym przypadku linia prosta), która opisuje użycie funkcji matematycznej główny trend badaną zależność i wygładzenie nieregularnych, losowych emisji od wpływu czynników ubocznych.

Aby wyświetlić zależności regresji sparowanej w zadaniach oceny, najczęściej wykorzystuje się następujące funkcje: liniowa - y - 0 + ars + s moc - y - aj&i + s orientacyjny - y- liniowy wykładniczy - y - a 0 + ap* + do. Tutaj - mi błąd aproksymacji spowodowany działaniem nieuwzględnionych czynników losowych.

W tych funkcjach y jest zmienną wynikową; x - zmienna współczynnika (współczynnik); A 0 , a r a 2 - parametry modelu regresji, współczynniki regresji.

Liniowy model wykładniczy należy do klasy tzw. modeli hybrydowych o postaci:

Gdzie

gdzie x (ja = 1, /) - wartości czynników;

b t (i = 0, /) - współczynniki równania regresji.

W tym równaniu składniki A, B I Z odpowiadają kosztowi poszczególnych składników wycenianego składnika majątku, np. kosztowi działki i kosztowi ulepszeń, oraz parametrowi Q jest powszechne. Ma ona na celu korektę wartości wszystkich składników majątku podlegającego wycenie wspólny czynnik wpływów, takich jak lokalizacja.

Wartości czynników znajdujących się w potędze odpowiednich współczynników są zmiennymi binarnymi (0 lub 1). Czynniki stanowiące podstawę stopnia to zmienne dyskretne lub ciągłe.

Czynniki związane ze współczynnikami mnożenia są również ciągłe lub dyskretne.

Specyfikacja odbywa się z reguły metodą empiryczną i obejmuje dwa etapy:

  • ? wykreślanie punktów pola regresji na wykresie;
  • ? graficzna (wizualna) analiza rodzaju możliwej krzywej aproksymującej.

Nie zawsze można wybrać typ krzywej regresji od razu. Aby to ustalić, należy najpierw wykreślić punkty pola regresji w oparciu o oryginalne dane. Następnie wizualnie narysuj linię wzdłuż położenia punktów, próbując znaleźć jakościowy wzór połączenia: równomierny wzrost lub równomierny spadek, wzrost (spadek) wraz ze wzrostem (spadkiem) tempa dynamiki, płynne podejście do pewnego poziom.

Uzupełnieniem tego podejścia empirycznego jest analiza logiczna, wychodząc od znanych już koncepcji dotyczących ekonomicznej i fizycznej natury badanych czynników oraz ich wzajemnego wpływu.

Wiadomo na przykład, że zależności wynikowych zmiennych są wskaźniki ekonomiczne(ceny, czynsze) od szeregu zmiennych czynnikowych - czynniki cenotwórcze (odległość od centrum miejscowości, powierzchnia itp.) mają charakter nieliniowy i można je dość ściśle opisać potęgowo, wykładniczo lub funkcje kwadratowe. Jednak w przypadku małych zakresów zmian czynników akceptowalne wyniki można uzyskać za pomocą funkcji liniowej.

Jeśli jednak nadal nie da się od razu dokonać pewnego wyboru którejkolwiek funkcji, wówczas wybiera się dwie lub trzy funkcje, oblicza się ich parametry, a następnie, stosując odpowiednie kryteria szczelności połączenia, ostatecznie wybiera się funkcję wybrany.

W teorii proces regresji polegający na znajdowaniu kształtu krzywej nazywa się specyfikacja model i jego współczynniki - kalibrowanie modele.

Jeśli okaże się, że zmienna wynikowa y zależy od kilku zmiennych czynnikowych (czynników) x ( , x 2 , ..., x k, następnie uciekają się do budowania modelu regresji wielokrotnej. Zazwyczaj stosowane są trzy formy komunikacji wielokrotnej: liniowa - y - a 0 + a x x x + a^x 2 + ... + a k x k, orientacyjny - y - a 0 a*I a x t- a x b, moc - y - a 0 x x ix 2 a 2. .x^lub ich kombinacje.

Funkcje wykładnicze i potęgowe są bardziej uniwersalne, gdyż przybliżają zależności nieliniowe, które stanowią większość badanych przy ocenie zależności. Ponadto można je wykorzystać w ocenie obiektów i w metodzie modelowanie statystyczne w ocenie masy oraz w metodzie bezpośredniego porównania w ocenie indywidualnej przy ustalaniu współczynników korygujących.

Na etapie kalibracji parametry modelu regresji wyliczane są metodą najmniejszych kwadratów, której istotą jest to, że suma kwadratów odchyleń obliczonych wartości zmiennej wynikowej Na., tj. obliczone za pomocą wybranego równania sprzężenia, z rzeczywistych wartości powinny być minimalne:

Wartości j) (. i ty są zatem znane Q jest funkcją tylko współczynników równania. Aby znaleźć minimum S musisz wziąć pochodne cząstkowe Q przez współczynniki równania i przyrównać je do zera:

W rezultacie otrzymujemy układ równań normalnych, którego liczba jest równa liczbie wyznaczonych współczynników pożądanego równania regresji.

Załóżmy, że musimy znaleźć współczynniki równanie liniowe y - a 0 + ars. Suma kwadratów odchyleń ma postać:

/=1

Zróżniczkuj funkcję Q według nieznanych współczynników 0 i i przyrównujemy pochodne cząstkowe do zera:

Po przekształceniach otrzymujemy:

Gdzie P - liczba oryginalnych wartości rzeczywistych Na nich (liczba analogów).

Podana procedura obliczania współczynników równania regresji ma zastosowanie także do zależności nieliniowych, jeżeli zależności te można zlinearyzować, tj. prowadzić do postaci liniowej poprzez zmianę zmiennych. Funkcje potęgowe i wykładnicze po logarytmie i odpowiedniej zmianie zmiennych przyjmują postać liniową. Na przykład funkcja potęgowa po logarytmie ma postać: In y = 1p 0 +a x 1 godz. Po wymianie zmiennych T- W y, L 0 - W i nr X- W x otrzymujemy funkcję liniową

Y=A 0 + cijX, których współczynniki znajdują się w sposób opisany powyżej.

Metodę najmniejszych kwadratów stosuje się także do obliczania współczynników modelu regresji wielokrotnej. Zatem układ równań normalnych do obliczania funkcji liniowej z dwiema zmiennymi Xj I x 2 po serii przekształceń wygląda to tak:

Zazwyczaj ten system równania rozwiązuje się metodami algebry liniowej. Mnogi funkcja zasilania prowadzić do postaci liniowej, biorąc logarytmy i zmieniając zmienne w taki sam sposób, jak w przypadku funkcji potęgi pary.

W przypadku stosowania modeli hybrydowych współczynniki regresji wielokrotnej wyznacza się za pomocą procedur numerycznych metody kolejnych przybliżeń.

Aby dokonać ostatecznego wyboru spośród kilku równań regresji, konieczne jest przetestowanie każdego równania pod kątem siły związku, która jest mierzona współczynnikiem korelacji, wariancją i współczynnikiem zmienności. Do oceny można również wykorzystać testy Studenta i Fishera. Im większa bliskość połączenia wykazuje krzywa, tym jest ona bardziej korzystna, przy zachowaniu wszystkich pozostałych parametrów.

Jeśli rozwiązuje się problem tej klasy, gdy konieczne jest ustalenie zależności wskaźnika kosztów od czynników kosztowych, wówczas zrozumiała jest chęć uwzględnienia jak największej liczby czynników wpływających i tym samym zbudowania dokładniejszego modelu regresji wielokrotnej . Jednakże zwiększanie liczby czynników utrudniają dwa obiektywne ograniczenia. Po pierwsze, do zbudowania modelu regresji wielokrotnej wymagana jest znacznie większa próbka obiektów niż do zbudowania modelu sparowanego. Ogólnie przyjmuje się, że liczba obiektów w próbie powinna być większa od liczby P czynników co najmniej 5-10 razy. Wynika z tego, że aby zbudować model z trzema czynnikami wpływającymi, należy pobrać próbę około 20 obiektów o różnym zestawie wartości czynników. Po drugie, czynniki dobrane do modelu w swoim wpływie na wskaźnik kosztu muszą być od siebie wystarczająco niezależne. Nie jest to łatwe do zapewnienia, gdyż próbka zwykle łączy w sobie obiekty należące do tej samej rodziny, dla których następuje naturalna zmiana wielu czynników w zależności od obiektu.

Jakość modeli regresji sprawdza się zwykle za pomocą następujących wskaźników statystycznych.

Odchylenie standardowe błędu równania regresji (błąd oszacowania):

Gdzie P - wielkość próby (liczba analogów);

Do - liczba czynników (czynniki kosztowe);

Błąd, niewyjaśniony równanie regresji(ryc. 3.2);

ty - rzeczywista wartość wynikowej zmiennej (na przykład koszt); t- obliczona wartość zmiennej wynikowej.

Ten wskaźnik jest również nazywany standardowy błąd estymacji (błąd RMS). Na rysunku kropki oznaczają konkretne wartości próbek, symbol oznacza linię średnich wartości próbek, a nachylona linia przerywana to linia regresji.


Ryż. 3.2.

Odchylenie standardowe błędu estymacji mierzy wielkość odchylenia rzeczywistych wartości y od odpowiednich obliczonych wartości Na( , uzyskany za pomocą modelu regresji. Jeśli próba, na której opiera się model, podlega prawu rozkładu normalnego, to można argumentować, że 68% wartości rzeczywistych Na są w zasięgu Na ± &mi od linii regresji, a 95% mieści się w tym przedziale Na ± 2d mi. Wskaźnik ten jest wygodny ze względu na jednostki miary sg? dopasuj jednostki miary Na,. W tym zakresie można go wykorzystać do wskazania trafności wyniku uzyskanego w procesie oceny. Na przykład w świadectwie wartości można wskazać, że wartość rynkowa została uzyskana za pomocą modelu regresji V z 95% prawdopodobieństwem znalezienia się w przedziale od (V -2d,.) zanim (j + 2d s).

Współczynnik zmienności otrzymanej zmiennej:

Gdzie y-średnia wartość otrzymanej zmiennej (ryc. 3.2).

W analizie regresji współczynnik zmienności var wynosi odchylenie standardowe wynik wyrażony jako procent średniej wartości wynikowej zmiennej. Współczynnik zmienności może służyć jako kryterium właściwości predykcyjnych wynikowego modelu regresji: im mniejsza jest jego wartość odm, tym wyższe właściwości predykcyjne modelu. Zamiast wskaźnika &e zaleca się stosowanie współczynnika zmienności, ponieważ jest to wskaźnik względny. Stosując ten wskaźnik w praktyce, można zalecić niestosowanie modelu, którego współczynnik zmienności przekracza 33%, gdyż w tym przypadku nie można powiedzieć, że dane próbki podlegają prawu rozkładu normalnego.

Współczynnik determinacji (kwadrat współczynnika korelacji wielokrotnej):

Wskaźnik ten służy do analizy ogólnej jakości powstałego modelu regresji. Wskazuje, jaki procent wariancji otrzymanej zmiennej wyjaśnia wpływ wszystkich zmiennych czynnikowych uwzględnionych w modelu. Współczynnik determinacji zawsze mieści się w przedziale od zera do jeden. Im wartość współczynnika determinacji jest bliższa jedności, tym lepszy model opisuje oryginalną serię danych. Współczynnik determinacji można przedstawić inaczej:

Oto błąd wyjaśniony przez model regresji,

A - błąd, niewyjaśniony

Model regresji. Z ekonomicznego punktu widzenia kryterium to pozwala ocenić, jaki procent zmienności cen wyjaśnia równanie regresji.

Dokładna granica akceptowalności wskaźnika R2 Nie da się określić dla wszystkich przypadków. Należy wziąć pod uwagę zarówno wielkość próby, jak i znaczącą interpretację równania. Z reguły podczas badania danych o obiektach tego samego typu uzyskanych w przybliżeniu w tym samym momencie wartość R2 nie przekracza poziomu 0,6-0,7. Jeśli wszystkie błędy prognoz wynoszą zero, tj. wtedy, gdy związek między zmiennymi wynikowymi a zmiennymi czynnikowymi jest funkcjonalny R2 =1.

Skorygowany współczynnik determinacji:

Konieczność wprowadzenia skorygowanego współczynnika determinacji tłumaczy się tym, że wraz ze wzrostem liczby czynników Do zwykły współczynnik determinacji prawie zawsze wzrasta, ale liczba stopni swobody maleje (p-k- 1). Wprowadzona korekta zawsze zmniejsza wartość R2, ponieważ (P - 1) > (p-k- 1). W rezultacie wartość R2 CKOf) może nawet stać się negatywny. Oznacza to, że wartość R2 przed korektą była bliska zeru, a proporcję wariancji zmiennej wyjaśniono za pomocą równania regresji Na bardzo mały.

Spośród dwóch opcji modeli regresji, które różnią się wartością skorygowanego współczynnika determinacji, ale mają równie dobre inne kryteria jakościowe, preferowana jest opcja z większą wartością skorygowanego współczynnika determinacji. Współczynnik determinacji nie jest korygowany, jeśli (p - k): k> 20.

Współczynnik Fishera:

Kryterium to służy do oceny istotności współczynnika determinacji. Pozostała suma kwadratów reprezentuje miarę błędu przewidywania przy użyciu regresji znanych wartości kosztów y.. Jego porównanie z sumą kwadratów regresji pokazuje, ile razy zależność regresji przewiduje wynik lepszy od średniej Na. Istnieje tabela wartości krytycznych F R Współczynnik Fishera w zależności od liczby stopni swobody licznika - Do, mianownik v 2 = p - k- 1 i poziom istotności a. Jeżeli obliczona wartość testu Fishera F R więcej wartość tabeli, to hipoteza o nieistotności współczynnika determinacji, tj. o rozbieżności pomiędzy powiązaniami zawartymi w równaniu regresji a tymi, które faktycznie istnieją, z prawdopodobieństwem p = 1 – a zostaje odrzucone.

Średni błąd przybliżenia(średnie odchylenie procentowe) oblicza się jako średnią względną różnicę wyrażoną w procentach pomiędzy rzeczywistą i obliczoną wartością zmiennej wynikowej:

Jak mniejsza wartość tego wskaźnika, tym lepsze właściwości predykcyjne modelu. Gdy wskaźnik ten nie przekracza 7%, model jest bardzo dokładny. Jeśli 8 > 15% oznacza niezadowalającą dokładność modelu.

Błąd standardowy współczynnika regresji:

gdzie (/I) -1 .- element diagonalny macierzy (X G X) ~ 1 tys. - liczba czynników;

X- macierz wartości zmiennych czynnikowych:

X 7 - transponowana macierz wartości zmiennych czynnikowych;

(ZhL) _| - macierz odwrotna macierzy.

Im mniejsze są te wskaźniki dla każdego współczynnika regresji, tym bardziej wiarygodne jest oszacowanie odpowiedniego współczynnika regresji.

Test Studenta (statystyka t):

Kryterium to pozwala zmierzyć stopień rzetelności (istotności) zależności określonej przez dany współczynnik regresji. Jeżeli obliczona wartość T. większa niż wartość z tabeli

T av, gdzie v - p - k - 1 to liczba stopni swobody, wówczas hipotezę, że współczynnik ten jest nieistotny statystycznie, odrzuca się z prawdopodobieństwem (100 - a)%. Istnieją specjalne tablice /-rozkładów, które pozwalają na podstawie zadanego poziomu istotności a i liczby stopni swobody v wyznaczyć Krytyczna wartość kryterium. Najczęściej stosowaną wartością a jest 5%.

Wielowspółliniowość, tj. efekt wzajemnych zależności pomiędzy zmiennymi czynnikowymi powoduje konieczność zadowalania się ograniczoną ich liczbą. Jeśli nie zostanie to wzięte pod uwagę, możesz otrzymać nielogiczny model regresji. Aby uniknąć negatywnego efektu wielowspółliniowości, przed zbudowaniem modelu regresji wielokrotnej obliczane są współczynniki korelacji parami r xjxj pomiędzy wybranymi zmiennymi X. I X

Tutaj XjX; -średnia wartość iloczynu dwóch zmiennych czynnikowych;

XjXj- iloczyn średnich wartości dwóch zmiennych czynnikowych;

Oszacowanie wariancji zmiennej czynnikowej x..

Dwie zmienne uważa się za powiązane z regresją (tj. współliniowe), jeśli ich współczynnik korelacji parami wynosi całkowita wartośćściśle więcej niż 0,8. W takim przypadku którąkolwiek z tych zmiennych należy wykluczyć z rozważań.

W celu poszerzenia możliwości analizy ekonomicznej uzyskanych modeli regresji średniej współczynniki sprężystości, określone wzorem:

Gdzie Xj-średnia wartość odpowiedniej zmiennej czynnikowej;

y-średnia wartość wynikowej zmiennej; a ja - współczynnik regresji dla odpowiedniej zmiennej czynnikowej.

Współczynnik elastyczności pokazuje, o jaki procent średnio zmieni się wartość zmiennej wynikowej, gdy zmienna czynnikowa zmieni się o 1%, tj. jak zmienna wynikowa reaguje na zmiany zmiennej czynnikowej. Jak na przykład reaguje cena mkw.? m powierzchni mieszkania w pewnej odległości od centrum miasta.

Z punktu widzenia analizy znaczenia konkretnego współczynnika regresji przydatne jest oszacowanie częściowy współczynnik determinacji:

Oto oszacowanie wariancji wyniku

zmienny. Współczynnik ten pokazuje, o ile procent zmienność otrzymanej zmiennej jest wyjaśniona zmianą i-tej zmiennej czynnikowej uwzględnionej w równaniu regresji.

  • Przez cechy hedoniczne rozumie się cechy przedmiotu, które odzwierciedlają jego właściwości użyteczne (cenne) z punktu widzenia kupujących i sprzedających.


Nowość na stronie

>

Najbardziej popularny