Dom Gumy Jakie są wymagania modelu analizy regresji. Metody statystyki matematycznej

Jakie są wymagania modelu analizy regresji. Metody statystyki matematycznej

PODSUMOWANIE WYNIKÓW

Tabela 8.3a. Statystyka regresji
Statystyka regresji
Liczba mnoga R 0,998364
Plac R 0,99673
Znormalizowany R-kwadrat 0,996321
Standardowy błąd 0,42405
Obserwacje 10

Najpierw rozważmy Górna część obliczenia przedstawiono w tabeli 8.3a – statystyki regresji.

Wartość R-kwadrat, zwana także miarą pewności, charakteryzuje jakość otrzymanej linii regresji. Jakość ta wyraża się stopniem zgodności danych źródłowych z modelem regresji (danymi obliczonymi). Miara pewności zawsze mieści się w przedziale.

W większości przypadków wartość R-kwadrat mieści się pomiędzy tymi wartościami, zwanymi wartościami ekstremalnymi, tj. pomiędzy zerem a jeden.

Jeśli wartość R-kwadrat jest bliska jedności, oznacza to, że skonstruowany model wyjaśnia prawie całą zmienność odpowiednich zmiennych. I odwrotnie, wartość R-kwadrat bliska zeru oznacza, że ​​jakość skonstruowanego modelu jest niska.

W naszym przykładzie miara pewności wynosi 0,99673, co wskazuje na bardzo dobre dopasowanie prostej regresji do danych pierwotnych.

Liczba mnoga R- współczynnik korelacji wielokrotnej R - wyraża stopień zależności zmiennych niezależnych (X) i zmiennej zależnej (Y).

Wielokrotność R jest równa pierwiastek kwadratowy ze współczynnika determinacji wielkość ta przyjmuje wartości z zakresu od zera do jednego.

W prostej analizie regresji liniowej wielokrotność R jest równa współczynnikowi korelacji Pearsona. Rzeczywiście, wielokrotność R w naszym przypadku jest równa współczynnikowi korelacji Pearsona z poprzedniego przykładu (0,998364).

Tabela 8.3b. Współczynniki regresji
Szanse Standardowy błąd statystyka t
Przecięcie Y 2,694545455 0,33176878 8,121757129
Zmienna X 1 2,305454545 0,04668634 49,38177965
* Podano skróconą wersję obliczeń

Rozważmy teraz środkową część obliczeń przedstawioną w tabeli 8.3b. Tutaj podany jest współczynnik regresji b (2,305454545) i przemieszczenie wzdłuż osi rzędnych, tj. stała a (2,694545455).

Na podstawie obliczeń możemy napisać równanie regresji w następujący sposób:

Y= x*2,305454545+2,694545455

Kierunek zależności między zmiennymi wyznacza się na podstawie znaków (ujemnych lub dodatnich) współczynniki regresji(współczynnik b).

Jeśli znak na współczynnik regresji- dodatni, związek pomiędzy zmienną zależną a zmienną niezależną będzie dodatni. W naszym przypadku znak współczynnika regresji jest dodatni, zatem zależność również jest dodatnia.

Jeśli znak na współczynnik regresji- ujemna, związek między zmienną zależną a zmienną niezależną jest ujemny (odwrotny).

W tabeli 8.3c. Zaprezentowano wyniki wyprowadzenia reszt. Aby wyniki te pojawiły się w raporcie, należy podczas uruchamiania narzędzia „Regresja” aktywować pole wyboru „Reszty”.

WYCOFANIE RESZTY

Tabela 8.3c. Resztki
Obserwacja Przewidywany Y Resztki Bilanse standardowe
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Korzystając z tej części raportu, możemy zobaczyć odchylenia każdego punktu od skonstruowanej linii regresji. Największa wartość bezwzględna

Celem analizy regresji jest pomiar związku pomiędzy zmienną zależną a jedną (analiza regresji parami) lub większą liczbą (wielu) zmiennych niezależnych. Zmienne niezależne nazywane są także zmiennymi czynnikowymi, objaśniającymi, determinantami, regresorami i predyktorami.

Zmienna zależna jest czasami nazywana zmienną ustaloną, wyjaśnioną lub zmienną „odpowiedzi”. Niezwykle powszechne zastosowanie analizy regresji w badaniach empirycznych wynika nie tylko z faktu, że jest ona wygodnym narzędziem do testowania hipotez. Regresja, zwłaszcza regresja wielokrotna, jest skuteczna metoda modelowanie i prognozowanie.

Wyjaśnienie zasad pracy z analizą regresji zacznijmy od prostszej metody – metody par.

Analiza regresji sparowanej

Pierwsze kroki przy zastosowaniu analizy regresji będą niemal identyczne z tymi, które wykonaliśmy przy obliczaniu współczynnika korelacji. Trzy główne warunki skuteczności analiza korelacji według metody Pearsona – rozkład normalny zmiennych, pomiar przedziałowy zmiennych, liniowa zależność pomiędzy zmiennymi – mają znaczenie także dla regresji wielokrotnej. W związku z tym w pierwszym etapie konstruowane są wykresy rozrzutu, przeprowadzana jest analiza statystyczna i opisowa zmiennych oraz obliczana jest linia regresji. Podobnie jak w przypadku analizy korelacji, za pomocą tej metody konstruowane są linie regresji najmniejszych kwadratów.

Aby jaśniej zobrazować różnice pomiędzy obydwoma metodami analizy danych, przejdźmy do omówionego już przykładu ze zmiennymi „wsparcie z SPJ” i „udział ludności wiejskiej”. Dane źródłowe są identyczne. Różnica w wykresach rozrzutu będzie taka, że ​​w analizie regresji prawidłowo będzie wykreślić zmienną zależną – w naszym przypadku „wsparcie SPS” na osi Y, podczas gdy w analizie korelacji nie ma to znaczenia. Po oczyszczeniu wartości odstających wykres rozrzutu wygląda następująco:

Podstawową ideą analizy regresji jest to, że posiadanie główny trend dla zmiennych – w postaci linii regresji – można przewidzieć wartość zmiennej zależnej, biorąc pod uwagę wartości zmiennej niezależnej.

Wyobraźmy sobie zwykłą matematykę funkcja liniowa. Dowolną linię prostą w przestrzeni euklidesowej można opisać wzorem:

gdzie a jest stałą określającą przemieszczenie wzdłuż osi rzędnych; b jest współczynnikiem określającym kąt nachylenia linii.

Znając nachylenie i stałą, możesz obliczyć (przewidywać) wartość y dla dowolnego x.

Ten najprostsza funkcja i stworzył podstawę dla modelu analizy regresji z zastrzeżeniem, że nie przewidzimy wartości y dokładnie, ale w pewnym przedział ufności, tj. około.

Stała jest punktem przecięcia linii regresji i osi y (przecięcie F, zwykle oznaczane w pakietach statystycznych jako „przechwytywacz”). W naszym przykładzie głosowania na Związek Sił Prawicy jego zaokrąglona wartość wyniesie 10,55. Współczynnik kątowy b będzie wynosić w przybliżeniu -0,1 (ponieważ w analizie korelacji znak wskazuje rodzaj połączenia - bezpośrednie lub odwrotne). Zatem powstały model będzie miał postać SP C = -0,1 x Sel. nas. + 10,55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Różnicę pomiędzy wartościami pierwotnymi i przewidywanymi nazywamy resztą (z tym fundamentalnym dla statystyki terminem spotkaliśmy się już przy analizie tablic kontyngencji). Zatem dla przypadku „Republiki Adygei” reszta będzie wynosić 3,92 – 5,63 = -1,71. Im większa wartość modułowa reszty, tym mniej skutecznie przewidywana wartość.

Obliczamy przewidywane wartości i reszty dla wszystkich przypadków:
Wydarzenie Usiadł. nas. dzięki

(oryginalny)

dzięki

(przewidywany)

Resztki
Republika Adygei 47 3,92 5,63 -1,71 -
Republika Ałtaju 76 5,4 2,59 2,81
Republika Baszkortostanu 36 6,04 6,78 -0,74
Republika Buriacji 41 8,36 6,25 2,11
Republika Dagestanu 59 1,22 4,37 -3,15
Republika Inguszetii 59 0,38 4,37 3,99
Itp.

Analiza stosunku wartości początkowych i przewidywanych służy ocenie jakości otrzymanego modelu i jego zdolności predykcyjnej. Jednym z głównych wskaźników statystyki regresji jest współczynnik korelacji wielokrotnej R - współczynnik korelacji między pierwotnymi i przewidywanymi wartościami zmiennej zależnej. W analizie regresji parami jest on równy zwykłemu współczynnikowi korelacji Pearsona między zmiennymi zależnymi i niezależnymi, w naszym przypadku - 0,63. Aby sensownie zinterpretować wielokrotne R, należy je przekształcić w współczynnik determinacji. Odbywa się to analogicznie jak w analizie korelacji – poprzez podniesienie do kwadratu. Współczynnik determinacji R-kwadrat (R 2) pokazuje proporcję zmienności zmiennej zależnej, która jest wyjaśniona przez zmienną(-y) niezależną(-e).

W naszym przypadku R 2 = 0,39 (0,63 2); oznacza to, że zmienna „udział ludności wiejskiej” wyjaśnia około 40% zmienności zmiennej „wsparcie z SPJ”. Im większy współczynnik determinacji, tym wyższa jakość modelu.

Kolejnym wskaźnikiem jakości modelu jest błąd standardowy oszacowania. Jest to miara tego, jak szeroko punkty są „rozproszone” wokół linii regresji. Miarą rozrzutu zmiennych interwałowych jest odchylenie standardowe. W związku z tym błąd standardowy oszacowania jest odchyleniem standardowym rozkładu reszt. Im wyższa jego wartość, tym większy rozrzut i gorszy model. W naszym przypadku błąd standardowy wynosi 2,18. To właśnie o tę kwotę nasz model będzie „średnio błądzić” przy przewidywaniu wartości zmiennej „wsparcie SPS”.

Statystyki regresji obejmują również analizę wariancji. Za jego pomocą dowiadujemy się: 1) jaka część zmienności (rozproszenia) zmiennej zależnej jest wyjaśniona przez zmienną niezależną; 2) jaką część wariancji zmiennej zależnej odpowiadają reszty (część niewyjaśniona); 3) jaki jest stosunek tych dwóch wielkości (stosunek /"). Statystyki dyspersji są szczególnie ważne przykładowe badania- pokazuje, jak prawdopodobne jest, że istnieje związek pomiędzy zmiennymi niezależnymi i zależnymi w populacja. Jednak nawet w przypadku badań ciągłych (jak w naszym przykładzie) studiowania wyników analiza wariancji nieprzydatne. W tym przypadku sprawdzają, czy zidentyfikowany wzorzec statystyczny jest efektem zbiegu okoliczności losowych, na ile jest typowy dla zespołu warunków, w jakich żyje badana populacja, tj. ustala się nie prawdziwość wyniku uzyskanego dla jakiejś większej populacji ogólnej, ale stopień jego regularności i braku wpływów przypadkowych.

W naszym przypadku statystyki ANOVA przedstawiają się następująco:

SS zm SM F oznaczający
Regres. 258,77 1,00 258,77 54,29 0.000000001
Reszta 395,59 83,00 L,11
Całkowity 654,36

Współczynnik F wynoszący 54,29 jest znaczący na poziomie 0,0000000001. W związku z tym możemy z całą pewnością odrzucić hipotezę zerową (że odkryta przez nas zależność jest dziełem przypadku).

Kryterium t pełni podobną funkcję, ale w odniesieniu do współczynników regresji (przecięcie kątowe i F). Stosując kryterium / testujemy hipotezę, że w populacji ogólnej współczynniki regresji są równe zeru. W naszym przypadku ponownie możemy z całą pewnością odrzucić hipotezę zerową.

Analiza regresji wielokrotnej

Model regresja wielokrotna prawie identyczny z modelem regresji sparowanej; jedyna różnica polega na tym, że do funkcji liniowej włącza się kolejno kilka zmiennych niezależnych:

Y = b1X1 + b2X2 + …+ bpXp + a.

Jeśli istnieją więcej niż dwie zmienne niezależne, nie jesteśmy w stanie uzyskać wizualnego obrazu ich związku; pod tym względem regresja wielokrotna jest mniej „wizualna” niż regresja parami. Jeśli masz dwie niezależne zmienne, przydatne może być wyświetlenie danych na wykresie rozrzutu 3D. W profesjonalnych pakietach oprogramowania statystycznego (np. Statistica) istnieje możliwość obracania trójwymiarowego wykresu, co pozwala dobrze wizualnie przedstawić strukturę danych.

Podczas pracy z regresją wielokrotną, w przeciwieństwie do regresji parami, konieczne jest określenie algorytmu analizy. Standardowy algorytm uwzględnia wszystkie dostępne predyktory w ostatecznym modelu regresji. Algorytm krok po kroku polega na sekwencyjnym włączaniu (wykluczaniu) zmiennych niezależnych w oparciu o ich „wagę” wyjaśniającą. Metoda krokowa jest dobra, gdy istnieje wiele zmiennych niezależnych; „oczyszcza” model ze szczerze mówiąc słabych predyktorów, czyniąc go bardziej zwartym i zwięzłym.

Dodatkowym warunkiem poprawności regresji wielokrotnej (wraz z przedziałem, normalnością i liniowością) jest brak wielowspółliniowości – występowanie silnych korelacji pomiędzy zmiennymi niezależnymi.

Interpretacja statystyk regresji wielokrotnej uwzględnia wszystkie elementy, które rozważaliśmy w przypadku regresji parami. Ponadto istnieją inne ważne elementy statystyki analizy regresji wielokrotnej.

Pracę z regresją wielokrotną zilustrujemy na przykładzie testowania hipotez wyjaśniających różnice w poziomie aktywności wyborczej pomiędzy regionami Rosji. Specyficzne badania empiryczne sugerują, że na poziom frekwencji wyborczej wpływają:

Czynnik narodowy (zmienna „ludność rosyjska”; operacjonalizowany jako udział ludności rosyjskiej w podmiotach Federacji Rosyjskiej). Zakłada się, że wzrost udziału ludności rosyjskiej prowadzi do spadku frekwencji wyborczej;

Współczynnik urbanizacji (zmienna „ populacja miejska"; operacjonalizowany jako udział ludności miejskiej w podmiotach Federacji Rosyjskiej, z tym czynnikiem pracowaliśmy już w ramach analizy korelacji). Zakłada się, że wzrost udziału ludności miejskiej prowadzi także do spadku frekwencji wyborczej.

Zmienną zależną „intensywność aktywności wyborczej” („aktywność”) operacjonalizuje się na podstawie danych dotyczących średniej frekwencji według regionów w wyborach federalnych w latach 1995–2003. Początkowa tabela danych dla dwóch zmiennych niezależnych i jednej zależnej będzie wyglądać następująco:

Wydarzenie Zmienne
Aktywa. Gor. nas. Rus. nas.
Republika Adygei 64,92 53 68
Republika Ałtaju 68,60 24 60
Republika Buriacji 60,75 59 70
Republika Dagestanu 79,92 41 9
Republika Inguszetii 75,05 41 23
Republika Kałmucji 68,52 39 37
Republika Karaczajo-Czerkieska 66,68 44 42
Republika Karelii 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

Itp. (po oczyszczeniu emisji pozostają 83 z 88 przypadków)

Statystyki opisujące jakość modelu:

1. Wielokrotność R = 0,62; L-kwadrat = 0,38. W rezultacie czynnik narodowy i czynnik urbanizacji wyjaśniają łącznie około 38% zmienności zmiennej „aktywność wyborcza”.

2. Przeciętny błąd wynosi 3,38. Dokładnie tak „przeciętnie błędny” jest skonstruowany model w przewidywaniu poziomu frekwencji.

3. Stosunek /l zmienności wyjaśnionej i niewyjaśnionej wynosi 25,2 na poziomie 0,000000003. Hipotezę zerową o losowości zidentyfikowanych zależności odrzuca się.

4. Kryterium / dla współczynników stałych i regresji zmiennych „ludność miejska” i „ludność rosyjska” jest istotne na poziomie 0,0000001; Odpowiednio 0,00005 i 0,007. Hipoteza zerowa mówiąca o losowości współczynników została odrzucona.

Dodatkowymi statystykami przydatnymi w analizie zależności pomiędzy pierwotnymi i przewidywanymi wartościami zmiennej zależnej są odległość Mahalanobisa i odległość Cooka. Pierwsza jest miarą jednoznaczności przypadku (pokazuje, jak bardzo kombinacja wartości wszystkich zmiennych niezależnych dla ta sprawa odbiega od średniej dla wszystkich zmiennych niezależnych jednocześnie). Druga jest miarą wpływu sprawy. Różne obserwacje mają różny wpływ na nachylenie linii regresji, a odległość Cooka można wykorzystać do porównania ich w tym wskaźniku. Może to być przydatne podczas usuwania wartości odstających (wartość odstającą można uznać za przypadek o zbyt dużym wpływie).

W naszym przykładzie do wyjątkowych i wpływowych przypadków zalicza się Dagestan.

Wydarzenie Oryginalny

wartości

Predska

wartości

Resztki Dystans

Mahalanobisa

Dystans
Adygea 64,92 66,33 -1,40 0,69 0,00
Republika Ałtaju 68,60 69.91 -1,31 6,80 0,01
Republika Buriacji 60,75 65,56 -4,81 0,23 0,01
Republika Dagestanu 79,92 71,01 8,91 10,57 0,44
Republika Inguszetii 75,05 70,21 4,84 6,73 0,08
Republika Kałmucji 68,52 69,59 -1,07 4,20 0,00

Sam model regresji ma następujące parametry: Przecięcie Y (stała) = 75,99; b (poziomo) = -0,1; Kommersant (rosyjski nas.) = -0,06. Ostateczna formuła.

Charakterystyka zależności przyczynowych

Związki przyczynowo-skutkowe- jest to związek między zjawiskami i procesami, gdy zmiana jednego z nich - przyczyny - prowadzi do zmiany drugiego - skutku.

Znaki ze względu na ich znaczenie dla badania relacji dzielą się na dwie klasy.

Nazywa się znaki powodujące zmiany w innych powiązanych cechach silnia (lub czynniki).

Znaki, które zmieniają się pod wpływem znaków czynnikowych, to skuteczny.

Wyróżnia się następujące formy komunikacji: funkcjonalną i stochastyczną. Funkcjonalny jest zależnością, w której pewnej wartości cechy czynnikowej odpowiada jedna i tylko jedna wartość cechy wypadkowej. Powiązanie funkcjonalne przejawia się we wszystkich przypadkach obserwacji i dla każdej konkretnej jednostki badanej populacji.

Zależność funkcjonalną można przedstawić za pomocą następującego równania:
y ja = f(x ja), gdzie: y i - wynikowy znak; f(x ja) - znana funkcja związku między charakterystyką wypadkową i czynnikową; x ja - znak czynnika.
W prawdziwej naturze nie ma połączeń funkcjonalnych. Są to jedynie abstrakcje, przydatne w analizie zjawisk, ale upraszczające rzeczywistość.

Stochastyczny (statystyczny lub losowy)połączenie reprezentuje relację między wielkościami, w której jedna z nich reaguje na zmianę innej ilości lub ilości, zmieniając prawo podziału. Innymi słowy, z tym połączeniem różne znaczenia jedna zmienna odpowiada różnym rozkładom innej zmiennej. Wynika to z faktu, że na zmienną zależną, oprócz rozważanych niezależnych, wpływa szereg nieuwzględnionych lub niekontrolowanych czynników losowych, a także pewne nieuniknione błędy w pomiarze zmiennych. Ze względu na to, że wartości zmiennej zależnej podlegają losowemu rozproszeniu, nie można ich przewidzieć z dostateczną dokładnością, a jedynie wskazać z pewnym prawdopodobieństwem.

Ze względu na niejednoznaczność zależności stochastycznej między Y i X, w szczególności interesujący jest schemat zależności uśredniony po x, tj. wzór zmiany wartości średniej - warunkowe oczekiwanie matematyczne Mx(Y) (oczekiwanie matematyczne zmiennej losowej Y, spotykane pod warunkiem, że zmienna X przyjmie wartość x) zależne od x.

Szczególnym przypadkiem komunikacji stochastycznej jest komunikacja korelacyjna. Korelacja(od łac. korelacja- korelacja, związek). Bezpośrednia definicja terminu korelacja - stochastyczny, prawdopodobny, możliwy połączenie pomiędzy dwoma (para) lub kilkoma (wielokrotnymi) zmienne losowe.

Zależność korelacyjną między dwiema zmiennymi nazywana jest także zależnością statystyczną między tymi zmiennymi, w której każdej wartości jednej zmiennej odpowiada pewna wartość średnia, tj. warunkowe oczekiwanie matematyczne jest inne. Zależność korelacyjna jest szczególnym przypadkiem zależności stochastycznej, w którym zmiana wartości cech czynnikowych (x 1 x 2 ..., x n) pociąga za sobą zmianę średniej wartości wynikowej cechy.



Zwyczajowo rozróżnia się następujące typy korelacji:

1. Korelacja par – związek pomiędzy dwiema cechami (wynikową i czynnikową lub dwuczynnikową).

2. Korelacja cząstkowa - zależność pomiędzy charakterystyką wypadkową i jednoczynnikową ze stałą wartością pozostałych cech czynnikowych uwzględnionych w badaniu.

3. Korelacja wielokrotna– zależność wynikowej od dwóch lub więcej cech czynnikowych uwzględnionych w badaniu.

Cel analizy regresji

Analityczną formą przedstawienia zależności przyczynowo-skutkowych są modele regresji. Trafność naukowa i popularność analizy regresji czyni ją jednym z głównych narzędzi matematycznych służących do modelowania badanego zjawiska. Metodę tę stosuje się do wygładzania danych eksperymentalnych i uzyskiwania ilościowych szacunków wpływu porównawczego różne czynniki do zmiennej wynikowej.

Analiza regresji jest przy ustalaniu analitycznego wyrażenia zależności, w której zmiana jednej wartości (zmiennej zależnej lub cechy wypadkowej) następuje pod wpływem jednego lub większej liczby niezależne ilości(czynniki lub predyktory), a zbiór wszystkich innych czynników, które również wpływają na wartość zależną, przyjmuje się jako wartości stałe i średnie.

Cele analizy regresji:

Ocena zależności funkcjonalnej średniej warunkowej wartości wynikowej cechy y od czynników czynnikowych (x 1, x 2, ..., x n);

Przewidywanie wartości zmiennej zależnej przy użyciu zmiennych niezależnych.

Wyznaczanie udziału poszczególnych zmiennych niezależnych w zmienności zmiennej zależnej.

Za pomocą analizy regresji nie można określić, czy istnieje związek między zmiennymi, gdyż istnienie takiego związku jest warunkiem zastosowania analizy.

W analizie regresji z góry zakłada się, że między wypadkową (U) a charakterystyką czynnikową istnieją związki przyczynowo-skutkowe x 1, x 2 ..., x n.

Funkcjonować , op Określająca zależność wskaźnika od parametrów nazywana jest równaniem (funkcją) regresji 1. Równanie regresji pokazuje oczekiwaną wartość zmiennej zależnej przy określonych wartościach zmiennych niezależnych.
W zależności od liczby czynników uwzględnionych w modelu X modele dzielą się na jednoczynnikowe (model regresji par) i wieloczynnikowe (model regresji wielokrotnej). W zależności od rodzaju funkcji modele dzieli się na liniowe i nieliniowe.

Model regresji sparowanej

Ze względu na wpływ nieuwzględnionych czynników i przyczyn losowych, indywidualne obserwacje y będą w mniejszym lub większym stopniu odbiegać od funkcji regresji f(x). W tym przypadku równanie zależności między dwiema zmiennymi (model regresji sparowanej) można przedstawić jako:

Y=f(X) + ɛ,

gdzie ɛ jest zmienną losową charakteryzującą odchylenie od funkcji regresji. Zmienna ta nazywana jest zakłóceniem lub zakłóceniem (resztkowym lub błędem). Zatem w modelu regresji zmienna zależna Y jest jakaś funkcja f(X) aż do przypadkowych zakłóceń ɛ.

Rozważmy klasyczny model liniowej regresji parami (CLMPR). Wygląda jak

y ja =β 0 +β 1 x i +ɛ ja (i=1,2, …, n),(1)

Gdzie tak, ja– wyjaśnione (zmienna wynikowa, zależna, endogeniczna); x ja– zmienna objaśniająca (predyktor, czynnik, egzogeniczna); β 0 , β 1– współczynniki liczbowe; ɛi– składnik lub błąd losowy (stochastyczny).

Podstawowe warunki (przesłanki, hipotezy) KLMPR:

1) x ja– wielkość deterministyczna (nielosowa) i zakłada się, że wśród wartości x i – nie wszystkie są takie same.

2) Wartość oczekiwana(średnia wartość) zakłóceń ɛi równa się zeru:

М[ɛ i ]=0 (i=1,2, …, n).

3) Rozproszenie zakłócenia jest stałe dla dowolnych wartości i (warunek homoskedastyczności):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Zakłócenia dla różnych obserwacji są nieskorelowane:

cov[ɛ ja, ɛ jot]=M[ɛ ja, ɛ jot]=0 dla i≠j,

gdzie cov[ɛ i, ɛj] jest współczynnikiem kowariancji (momentem korelacji).

5) Zakłócenia są zmiennymi losowymi o rozkładzie normalnym, z zerową średnią i wariancją σ 2:

ɛ ja ≈ N(0, σ 2).

Do otrzymania równania regresji wystarczą pierwsze cztery przesłanki. Wymóg spełnienia piątego warunku jest niezbędny do oceny dokładności równania regresji i jego parametrów.

Komentarz: Koncentrację na zależnościach liniowych tłumaczy się ograniczoną zmiennością zmiennych oraz faktem, że w większości przypadków nieliniowe formy zależności są przekształcane (za pomocą logarytmu lub podstawienia zmiennych) do postaci liniowej w celu wykonania obliczeń.

Tradycyjna metoda najmniejsze kwadraty (LS)

Oszacowanie modelu na podstawie próbki jest równaniem

ŷ ja = za 0 + za 1 x ja(i=1,2, …, n), (2)

gdzie ŷ i – teoretyczne (przybliżone) wartości zmiennej zależnej uzyskane z równania regresji; a 0 , a 1 - współczynniki (parametry) równania regresji (przykładowe oszacowania odpowiednio współczynników β 0, β 1).

Metodą najmniejszych kwadratów nieznane parametry a 0 , a 1 dobiera się tak, aby suma kwadratów odchyleń wartości ŷ i od wartości empirycznych y i (resztkowa suma kwadratów) była minimalna:

Q e =∑e ja 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

gdzie e i = y i - ŷ i – przykładowa estymacja zakłócenia ɛ i, czyli reszta regresji.

Problem sprowadza się do znalezienia takich wartości parametrów a 0 i 1, dla których przyjmuje się funkcję Q e najmniejsza wartość. Zauważ, że funkcja Q e = Q e (a 0 , a 1) jest funkcją dwóch zmiennych a 0 i a 1, dopóki nie znaleźliśmy, a następnie ustaliliśmy ich „najlepsze” (w sensie metody najmniejszych kwadratów) wartości, a x i , y i są stałymi liczbami znalezionymi eksperymentalnie.

Niezbędne warunki ekstrema (3) znajdują się poprzez przyrównanie pochodnych cząstkowych tej funkcji dwóch zmiennych do zera. W rezultacie otrzymujemy system dwójkowy równania liniowe, który nazywany jest układem równań normalnych:

(4)

Współczynnik a 1 to przykładowy współczynnik regresji y na x, który pokazuje, o ile średnio jednostek zmienia się zmienna y, gdy zmienna x zmienia się o jedną jednostkę swojej miary, to znaczy zmianę y na jednostkę zmienności x. Podpisać 1 wskazuje kierunek tej zmiany. Współczynnik a 0 – przemieszczenie, zgodnie z (2) równa wartościŷ i dla x=0 i może nie mieć znaczącej interpretacji. Z tego powodu zmienna zależna jest czasami nazywana odpowiedzią.

Właściwości statystyczne oszacowań współczynników regresji:

Współczynnik szacuje 0, a 1 są bezstronne;

Wariancje estymatorów a 0 , a 1 maleją (dokładność estymatorów rośnie) wraz ze wzrostem liczebności próby n;

Wariancja oszacowania nachylenia a 1 maleje wraz ze wzrostem, dlatego warto tak dobierać x i, aby ich rozrzut wokół wartości średniej był duży;

Dla x¯ > 0 (co jest najbardziej interesujące) istnieje negatywna zależność statystyczna pomiędzy 0 i 1 (wzrost 1 prowadzi do zmniejszenia 0).

Główna cecha analizy regresji: za jej pomocą można uzyskać konkretną informację o tym, jaką formę i charakter ma związek pomiędzy badanymi zmiennymi.

Kolejność etapów analizy regresji

Przyjrzyjmy się pokrótce etapom analizy regresji.

    Sformułowanie problemu. Na tym etapie formułowane są wstępne hipotezy dotyczące zależności badanych zjawisk.

    Definicja zmiennych zależnych i niezależnych (objaśniających).

    Gromadzenie danych statystycznych. Dane należy zebrać dla każdej ze zmiennych uwzględnionych w modelu regresji.

    Formułowanie hipotezy o formie połączenia (prostego lub wielokrotnego, liniowego lub nieliniowego).

    Definicja funkcje regresji (polega na obliczeniu wartości liczbowych parametrów równania regresji)

    Ocena dokładności analizy regresji.

    Interpretacja uzyskanych wyników. Uzyskane wyniki analizy regresji porównuje się ze wstępnymi hipotezami. Oceniana jest poprawność i wiarygodność uzyskanych wyników.

    Prognoza nieznane wartości zmienna zależna.

Stosując analizę regresji można rozwiązać problem prognozowania i klasyfikacji. Przewidywane wartości oblicza się poprzez podstawienie wartości zmiennych objaśniających do równania regresji. Problem klasyfikacji rozwiązuje się w ten sposób: linia regresji dzieli cały zbiór obiektów na dwie klasy, przy czym ta część zbioru, w której wartość funkcji jest większa od zera, należy do jednej klasy, a część, w której jest ona mniejsza od zera należy do innej klasy.

Problemy analizy regresji

Rozważmy główne zadania analizy regresji: ustalenie formy zależności, określenie funkcje regresji, oszacowanie nieznanych wartości zmiennej zależnej.

Ustalenie formy zależności.

Charakter i forma relacji między zmiennymi może tworzyć następujące typy regresji:

    pozytywny regresja liniowa(wyrażony równomiernym wzrostem funkcji);

    dodatnia regresja równomiernie rosnąca;

    dodatnia regresja równomiernie rosnąca;

    ujemna regresja liniowa (wyrażona jako równomierny spadek funkcji);

    ujemna, jednolicie przyspieszona regresja malejąca;

    ujemna regresja równomiernie malejąca.

Jednak opisane odmiany zwykle nie występują w czysta forma, ale w połączeniu ze sobą. W tym przypadku mówimy o połączonych formach regresji.

Definicja funkcji regresji.

Drugie zadanie sprowadza się do określenia wpływu na zmienną zależną czynników głównych lub przyczyn, przy pozostałych czynnikach niezmiennych i z wyłączeniem wpływu elementów losowych na zmienną zależną. Funkcja regresji definiuje się w formie równania matematycznego tego czy innego typu.

Oszacowanie nieznanych wartości zmiennej zależnej.

Rozwiązanie tego problemu sprowadza się do rozwiązania problemu jednego z następujących typów:

    Oszacowanie wartości zmiennej zależnej w rozpatrywanym przedziale danych początkowych, tj. brakujące wartości; w tym przypadku problem interpolacji został rozwiązany.

    Oszacowanie przyszłych wartości zmiennej zależnej, tj. znajdowanie wartości poza określonym przedziałem danych źródłowych; w tym przypadku problem ekstrapolacji został rozwiązany.

Obydwa problemy rozwiązuje się poprzez podstawienie znalezionych oszacowań parametrów dla wartości zmiennych niezależnych do równania regresji. Wynikiem rozwiązania równania jest oszacowanie wartości zmiennej docelowej (zależnej).

Przyjrzyjmy się niektórym założeniom, na których opiera się analiza regresji.

Założenie liniowości, tj. zakłada się, że związek pomiędzy rozpatrywanymi zmiennymi jest liniowy. Zatem w tym przykładzie wykreśliliśmy wykres rozrzutu i mogliśmy zobaczyć wyraźną zależność liniową. Jeśli na wykresie rozproszenia zmiennych widzimy wyraźny brak zależności liniowej, tj. Jeżeli istnieje zależność nieliniowa, należy zastosować metody analizy nieliniowej.

Założenie normalności resztki. Zakłada, że ​​rozkład różnicy pomiędzy wartościami przewidywanymi i obserwowanymi jest normalny. Aby wizualnie określić charakter rozkładu, możesz użyć histogramów resztki.

Korzystając z analizy regresji, należy wziąć pod uwagę jej główne ograniczenie. Polega ona na tym, że analiza regresji pozwala wykryć jedynie zależności, a nie powiązania leżące u podstaw tych zależności.

Analiza regresji pozwala oszacować siłę związku między zmiennymi poprzez obliczenie szacunkowej wartości zmiennej na podstawie kilku znanych wartości.

Równanie regresji.

Równanie regresji wygląda następująco: Y=a+b*X

Za pomocą tego równania zmienną Y wyraża się w postaci stałej a i nachylenia linii (lub nachylenia) b, pomnożonego przez wartość zmiennej X. Stała a nazywana jest również wyrazem wyrazu wolnego, a nachylenie wynosi współczynnik regresji lub współczynnik B.

W większości przypadków (jeśli nie zawsze) występuje pewien rozrzut obserwacji względem linii regresji.

Reszta jest odchyleniem pojedynczego punktu (obserwacji) od linii regresji (wartości przewidywanej).

Aby rozwiązać problem analizy regresji w programie MS Excel należy wybrać z menu Praca„Pakiet analityczny” oraz narzędzie do analizy regresji. Ustalamy przedziały wejściowe X i Y. Przedział wejściowy Y to zakres analizowanych danych zależnych, musi obejmować jedną kolumnę. Przedział wejściowy X to zakres niezależnych danych, które należy przeanalizować. Liczba zakresów wejściowych nie powinna przekraczać 16.

Na wyjściu procedury w zakresie wyjściowym otrzymujemy raport podany w tabela 8.3a-8,3 V.

PODSUMOWANIE WYNIKÓW

Tabela 8.3a. Statystyka regresji

Statystyka regresji

Liczba mnoga R

Plac R

Znormalizowany R-kwadrat

Standardowy błąd

Obserwacje

Przyjrzyjmy się najpierw górnej części obliczeń przedstawionych w tabela 8.3a, - statystyka regresji.

Ogrom Plac R, zwana także miarą pewności, charakteryzuje jakość otrzymanej linii regresji. Jakość ta wyraża się stopniem zgodności danych źródłowych z modelem regresji (danymi obliczonymi). Miara pewności zawsze mieści się w przedziale.

W większości przypadków wartość Plac R znajduje się pomiędzy tymi wartościami, zwane ekstremalnymi, tj. pomiędzy zerem a jeden.

Jeśli wartość Plac R bliski jedności, oznacza to, że skonstruowany model wyjaśnia prawie całą zmienność odpowiednich zmiennych. Odwrotnie, znaczenie Plac R, bliskie zeru, oznacza słabą jakość skonstruowanego modelu.

W naszym przykładzie miara pewności wynosi 0,99673, co wskazuje na bardzo dobre dopasowanie prostej regresji do danych pierwotnych.

liczba mnoga r - współczynnik korelacji wielokrotnej R - wyraża stopień zależności zmiennych niezależnych (X) i zmiennej zależnej (Y).

Liczba mnoga R jest równa pierwiastkowi kwadratowemu współczynnika determinacji; wielkość ta przyjmuje wartości z zakresu od zera do jednego.

W prostej analizie regresji liniowej liczba mnoga r równy współczynnikowi korelacji Pearsona. Naprawdę, liczba mnoga r w naszym przypadku jest on równy współczynnikowi korelacji Pearsona z poprzedniego przykładu (0,998364).

Tabela 8.3b. Współczynniki regresji

Szanse

Standardowy błąd

statystyka t

Przecięcie Y

Zmienna X 1

* Podano skróconą wersję obliczeń

Rozważmy teraz środkową część obliczeń przedstawionych w tabela 8.3b. Tutaj podany jest współczynnik regresji b (2,305454545) i przemieszczenie wzdłuż osi rzędnych, tj. stała a (2,694545455).

Na podstawie obliczeń możemy napisać równanie regresji w następujący sposób:

Y= x*2,305454545+2,694545455

Kierunek zależności między zmiennymi wyznacza się na podstawie znaków (ujemnych lub dodatnich) współczynników regresji (współczynnik b).

Jeżeli znak współczynnika regresji jest dodatni, związek między zmienną zależną a zmienną niezależną będzie dodatni. W naszym przypadku znak współczynnika regresji jest dodatni, zatem zależność również jest dodatnia.

Jeżeli znak współczynnika regresji jest ujemny, wówczas związek między zmienną zależną a zmienną niezależną jest ujemny (odwrotny).

W tabela 8.3c. prezentowane są wyniki wyjściowe resztki. Aby wyniki te pojawiły się w raporcie, należy podczas uruchamiania narzędzia „Regresja” aktywować pole wyboru „Reszty”.

WYCOFANIE RESZTY

Tabela 8.3c. Resztki

Obserwacja

Przewidywany Y

Resztki

Bilanse standardowe

Korzystając z tej części raportu, możemy zobaczyć odchylenia każdego punktu od skonstruowanej linii regresji. Największa wartość bezwzględna reszta w naszym przypadku - 0,778, najmniejszy - 0,043. Aby lepiej zinterpretować te dane, skorzystamy z wykresu danych oryginalnych i skonstruowanej linii regresji przedstawionej w Ryż. 8.3. Jak widać linia regresji jest dość dokładnie „dopasowana” do wartości danych wyjściowych.

Należy wziąć pod uwagę, że rozważany przykład jest dość prosty i nie zawsze możliwe jest jakościowe skonstruowanie linii regresji liniowej.

Ryż. 8.3. Dane źródłowe i linia regresji

Nierozpatrzony pozostał problem szacowania nieznanych przyszłych wartości zmiennej zależnej na podstawie znanych wartości zmiennej niezależnej, tj. problem prognozowania.

Mając równanie regresji, problem prognozowania sprowadza się do rozwiązania równania Y= x*2,305454545+2,694545455 ze znanymi wartościami x. Zaprezentowano wyniki przewidywania zmiennej zależnej Y o sześć kroków do przodu w tabeli 8.4.

Tabela 8.4. Wyniki prognozy zmiennej Y

T (przewidywany)

Zatem w wyniku zastosowania analizy regresji w programie Microsoft Excel:

    zbudował równanie regresji;

    ustalono postać zależności i kierunek zależności między zmiennymi – dodatnia regresja liniowa, która wyraża się w równomiernym wzroście funkcji;

    ustalił kierunek zależności między zmiennymi;

    ocenił jakość otrzymanej linii regresji;

    potrafili dostrzec odchylenia obliczonych danych od danych z pierwotnego zbioru;

    przewidywane przyszłe wartości zmiennej zależnej.

Jeśli funkcja regresji zdefiniowany, zinterpretowany i uzasadniony, a ocena dokładności analizy regresji spełnia wymagania, skonstruowany model i przewidywane wartości można uznać za posiadające wystarczającą wiarygodność.

Uzyskane w ten sposób wartości przewidywane są wartościami średnimi, jakich można się spodziewać.

W tej pracy dokonaliśmy przeglądu głównych cech opisowe statystyki a wśród nich takie pojęcia jak Średnia wartość,mediana,maksymalny,minimum i inne cechy zmienności danych.

Krótko omówiono także tę koncepcję emisje. Rozważane cechy odnoszą się do tzw. eksploracyjnej analizy danych, z której wnioski nie mogą dotyczyć populacji ogólnej, a jedynie próbki danych. Eksploracyjna analiza danych służy do uzyskania podstawowych wniosków i sformułowania hipotez na temat populacji.

Omówiono także podstawy analizy korelacji i regresji, ich zadania i możliwości praktycznego zastosowania.

Metoda analizy regresji służy do wyznaczania parametrów techniczno-ekonomicznych produktów należących do określonego szeregu parametrycznego w celu budowania i wyrównywania relacji wartości. Metodę tę stosuje się do analizy i uzasadnienia poziomu i relacji cen produktów charakteryzujących się obecnością jednego lub większej liczby parametrów technicznych i ekonomicznych, które odzwierciedlają główne właściwości konsumenckie. Analiza regresji pozwala znaleźć wzór empiryczny opisujący zależność ceny od parametrów techniczno-ekonomicznych produktów:

P=f(X1X2,...,Xn),

gdzie P jest wartością ceny jednostkowej produktu, rub.; (X1, X2, ... Xn) - parametry techniczne i ekonomiczne wyrobów.

Metoda analizy regresji – najbardziej zaawansowana ze stosowanych metod normatywno-parametrycznych – jest skuteczna przy przeprowadzaniu obliczeń w oparciu o wykorzystanie nowoczesnych Technologie informacyjne i systemy. Jego zastosowanie obejmuje następujące główne kroki:

  • określenie klasyfikacji parametrycznych grup wyrobów;
  • dobór parametrów mających największy wpływ na cenę produktu;
  • wybór i uzasadnienie formy powiązania zmian cen przy zmianie parametrów;
  • konstrukcja układu równań normalnych i obliczanie współczynników regresji.

Podstawowy grupa kwalifikacyjna produkty, których cena podlega wyrównaniu, to seria parametryczna, w ramach której produkty można grupować w różne konstrukcje w zależności od ich zastosowania, warunków pracy i wymagań itp. Przy tworzeniu serii parametrycznych można zastosować metody automatycznej klasyfikacji, które umożliwiają identyfikację produktów w celu zidentyfikowania ich jednorodnych grup. Doboru parametrów techniczno-ekonomicznych dokonuje się w oparciu o następujące podstawowe wymagania:

  • wybrane parametry obejmują parametry zapisane w normach i warunki techniczne; oprócz parametrów technicznych (moc, nośność, prędkość itp.) stosowane są wskaźniki serializacji produktu, współczynniki złożoności, unifikacja itp.;
  • zestaw wybranych parametrów powinien w sposób wystarczający w pełni charakteryzować konstrukcję, właściwości technologiczne i użytkowe wyrobów wchodzących w skład serii oraz mieć w miarę ścisły związek z ceną;
  • parametry nie powinny być współzależne.

W celu wybrania parametrów techniczno-ekonomicznych mających istotny wpływ na cenę obliczana jest macierz współczynników korelacji par. Na podstawie wielkości współczynników korelacji pomiędzy parametrami można ocenić stopień ich powiązania. Jednocześnie korelacja bliska zeru wskazuje na niewielki wpływ parametru na cenę. Ostateczny dobór parametrów technicznych i ekonomicznych odbywa się w procesie krok po kroku analizy regresji wyposażenie komputera i odpowiednie programy standardowe.

W praktyce cenowej wykorzystuje się następujący zestaw funkcji:

liniowy

P = ao + alXl + ... + antXn,

moc liniowa

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

odwrotny logarytm

P = a0 + a1: In X1 + ... + an: In Xn,

moc

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

orientacyjny

P = e^(a1+a1X1+...+anXn)

hiperboliczny

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

gdzie P jest wyrównaniem cen; X1 X2,..., Xn - wartość parametrów techniczno-ekonomicznych wyrobów serii; a0, a1 ..., an - obliczone współczynniki równania regresji.

W praktycznych pracach nad cenami, w zależności od postaci zależności między cenami a parametrami techniczno-ekonomicznymi, można stosować inne równania regresji. Rodzaj funkcji powiązania ceny ze zbiorem parametrów techniczno-ekonomicznych może być zadany lub wybrany automatycznie podczas przetwarzania komputerowego. Bliskość połączenie korelacyjne pomiędzy ceną a zestawem parametrów ocenia się za pomocą wartości współczynnika korelacji wielokrotnej. Jego bliskość do jednego wskazuje na bliskie połączenie. Za pomocą równania regresji uzyskuje się wyrównane (obliczone) wartości cen produktów danego szeregu parametrycznego. Aby ocenić wyniki wyrównania, obliczane są względne wartości odchylenia obliczonych wartości cen od rzeczywistych:

Tsr = Rf - Rr: R x 100

gdzie Рф, Рр - ceny rzeczywiste i obliczone.

Wartość CR nie powinna przekraczać 8-10%. W przypadku znacznych odchyleń obliczonych wartości od rzeczywistych należy zbadać:

  • poprawność tworzenia serii parametrycznej, ponieważ może zawierać produkty, które swoimi parametrami znacznie różnią się od innych produktów w serii. Należy je wykluczyć;
  • właściwy dobór parametrów techniczno-ekonomicznych. Możliwy jest zestaw parametrów słabo skorelowanych z ceną. W takim przypadku należy kontynuować wyszukiwanie i dobór parametrów.

Procedura i metodyka przeprowadzenia analizy regresji, znalezienia nieznanych parametrów równania i oceny ekonomicznej uzyskanych wyników są przeprowadzane zgodnie z wymaganiami statystyka matematyczna.



Nowość na stronie

>

Najbardziej popularny