Dom Jama ustna Współczynniki korelacji. Współczynnik korelacji wielokrotnej i współczynnik determinacji

Współczynniki korelacji. Współczynnik korelacji wielokrotnej i współczynnik determinacji


  1. Oceń jakość skonstruowanego modelu. Czy jakość modelu uległa poprawie w porównaniu z modelem jednoczynnikowym? Przedstaw ocenę wpływu istotne czynniki na wyniku za pomocą współczynników elastyczności, współczynników  i .
Aby ocenić jakość wybranego modelu wielokrotnego (6), podobnie jak w paragrafie 1.4 tego problemu, posługujemy się współczynnikiem determinacji R- kwadratowy, średni względny błąd przybliżenie i F-Kryterium Fishera.

Współczynnik determinacji R-kwadrat zostanie pobrany z wyników „Regresji” (tabela „Statystyki regresji” dla modelu (6)).

W konsekwencji wahania (zmiany) ceny mieszkania Y Zgodnie z tym równaniem 76,77% wynika ze zróżnicowania miasta regionu X 1 , liczba pokoi w mieszkaniu X 2 i przestrzeń życiowa X 4 .

Korzystamy z oryginalnych danych Y I i reszty znalezione za pomocą narzędzia Regresja (tabela „Wyjście reszty” dla modelu (6)). Obliczmy błędy względne i znajdźmy wartość średnią
.

WYCOFANIE RESZTY


Obserwacja

Przewidywany Y

Resztki

Względ. błąd

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

Przeciętny

101,2375

22,51770962

Korzystając z kolumny błędów względnych, znajdujemy wartość średnią =22.51% (za pomocą funkcji ŚREDNIA).

Z porównania wynika, że ​​22,51%>7%. W rezultacie dokładność modelu jest niezadowalająca.

Używając F – Kryterium Fishera Sprawdźmy znaczenie modelu jako całości. W tym celu zapiszemy wyniki zastosowania narzędzia „Regresja” (tabela „analiza wariancji” dla modelu (6)) F= 39,6702.

Korzystając z funkcji FRIST znajdujemy wartość F kr =3.252 dla poziomu istotności α = 5% i liczby stopni swobody k 1 = 2 , k 2 = 37 .

F> F kr, zatem istotne jest równanie modelu (6), wskazane jest jego zastosowanie, zmienna zależna Y dość dobrze opisują zmienne czynnikowe zawarte w modelu (6) X 1 , X 2. I X 4 .

Dodatkowo za pomocą T –Test t-Studenta Sprawdźmy znaczenie poszczególnych współczynników modelu.

T–Statystyki współczynników równania regresji podane są w wynikach narzędzia „Regresja”. Dla wybranego modelu uzyskano następujące wartości (6):


Szanse

Standardowy błąd

statystyka t

Wartość P

Dolne 95%

Najlepsze 95%

Dolne 95,0%

Górne 95,0%

Przecięcie Y

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2.27E-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

Krytyczna wartość T kr znaleziony dla poziomu istotności α=5% i liczbę stopni swobody k=40–2–1=37 . T kr =2.026 (funkcja STUDAR).

Za darmowe kursy α =–5.643 zdefiniowane statystyki
, T kr Dlatego współczynnik swobodny nie jest istotny i można go wykluczyć z modelu.

Dla współczynnika regresji β 1 =6.859 zdefiniowane statystyki
, β 1 nie jest istotna, można ją usunąć wraz z czynnikiem miasta regionalnego z modelu.

Dla współczynnika regresji β 2 =-1,985 zdefiniowane statystyki
, T kr, zatem współczynnik regresji β 2 nie jest istotna, można ją wykluczyć z modelu wraz ze współczynnikiem liczby pokoi w mieszkaniu.

Dla współczynnika regresji β 4 =2.591 zdefiniowane statystyki
, >t cr, zatem współczynnik regresji β 4 jest znaczący, to i współczynnik powierzchni mieszkalnej mieszkania można zachować w modelu.

Wnioski na temat istotności współczynników modelu wyciąga się na poziomie istotności α=5%. Patrząc na kolumnę wartości P, zauważamy, że wolny współczynnik α można uznać za istotny na poziomie 0,64 = 64%; współczynnik regresji β 1 – na poziomie 0,46 = 46%; współczynnik regresji β 2 – na poziomie 0,8 = 80%; oraz współczynnik regresji β 4 – na poziomie 2,27E-06= 2,26691790951854E-06=0,0000002%.

Kiedy do równania dodawane są nowe zmienne czynnikowe, współczynnik determinacji automatycznie wzrasta R 2 i maleje średni błąd przybliżenia, chociaż nie zawsze poprawia to jakość modelu. Dlatego do porównania jakości modelu (3) i wybranego modelu wielokrotnego (6) stosujemy znormalizowane współczynniki determinacji.

Tak więc, dodając czynnik „miasto regionu” do równania regresji X 1 i współczynnik „liczba pokoi w mieszkaniu” X 2 jakość modelu uległa pogorszeniu, co przemawia za usunięciem czynników X 1 i X 2 z modelu.

Przeprowadźmy dalsze obliczenia.

Średnie współczynniki sprężystości w przypadku modelu liniowego wyznaczane są za pomocą wzorów
.

Korzystając z funkcji ŚREDNIA znajdujemy: S Y, ze wzrostem jedynie współczynnika X 4 dla jednego z jego odchylenie standardowe– wzrasta o 0,914 S Y

Współczynniki delty są określone przez wzory
.

Znajdźmy współczynniki korelacji par za pomocą narzędzia „Korelacja” pakietu „Analiza danych” w programie Excel.


Y

X1

X2

X4

Y

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

Współczynnik determinacji został wyznaczony wcześniej i wynosi 0,7677.

Obliczmy współczynniki delta:

;

Ponieważ Δ 1 1 I X 2 wybrane nieprawidłowo i należy je usunąć z modelu. Oznacza to, że zgodnie z równaniem otrzymanego liniowego modelu trójczynnikowego następuje zmiana otrzymanego współczynnika Y(ceny mieszkań) w 104% można wytłumaczyć wpływem czynnika X 4 (powierzchnia mieszkalna mieszkania), o 4% pod wpływem czynnika X 2 (liczba pokoi) o 0,0859% pod wpływem współczynnika X 1 (miasto regionu).

Analiza regresji to statystyczna metoda badań, która pozwala wykazać zależność konkretnego parametru od jednej lub większej liczby zmiennych niezależnych. W erze przedkomputerowej jego użycie było dość trudne, szczególnie w przypadku dużych ilości danych. Dziś, nauczywszy się budować regresję w Excelu, możesz rozwiązać złożone problemy statystyczne w ciągu zaledwie kilku minut. Poniżej konkretne przykłady z dziedziny ekonomii.

Rodzaje regresji

Samo to pojęcie zostało wprowadzone do matematyki w 1886 roku. Regresja ma miejsce:

  • liniowy;
  • paraboliczny;
  • stateczny;
  • wykładniczy;
  • hiperboliczny;
  • wskazujący;
  • logarytmiczny.

Przykład 1

Rozważmy problem określenia zależności liczby członków zespołu, którzy odeszli, od przeciętnego wynagrodzenia w 6 przedsiębiorstwach przemysłowych.

Zadanie. W sześciu przedsiębiorstwach analizowaliśmy średnią miesięczną wynagrodzenie oraz liczbę pracowników, którzy odeszli z powodu fakultatywnie. W formie tabelarycznej mamy:

Liczba osób, które zrezygnowały

Wynagrodzenie

30 000 rubli

35 000 rubli

40 000 rubli

45 000 rubli

50 000 rubli

55 000 rubli

60 000 rubli

Dla zadania określenia zależności liczby odchodzących pracowników od przeciętnego wynagrodzenia w 6 przedsiębiorstwach model regresji ma postać równania Y = a 0 + a 1 x 1 +...+a k x k, gdzie x i są zmienne wpływające, a i to współczynniki regresji, a k to liczba czynników.

W przypadku tego problemu Y jest wskaźnikiem odchodzenia pracowników, a czynnikiem wpływającym jest wynagrodzenie, które oznaczamy przez X.

Wykorzystanie możliwości procesora arkuszy kalkulacyjnych Excel

Analizę regresji w programie Excel należy poprzedzić zastosowaniem wbudowanych funkcji do istniejących danych tabelarycznych. Jednak do tych celów lepiej jest skorzystać z bardzo przydatnego dodatku „Analytic Pack”. Aby go aktywować, potrzebujesz:

  • z zakładki „Plik” przejdź do sekcji „Opcje”;
  • w oknie, które zostanie otwarte, wybierz wiersz „Dodatki”;
  • kliknij przycisk „Przejdź” znajdujący się poniżej, po prawej stronie linii „Zarządzanie”;
  • zaznacz pole przy nazwie „Pakiet analityczny” i potwierdź swoje działania klikając „OK”.

Jeśli wszystko zostało wykonane poprawnie, wymagany przycisk pojawi się po prawej stronie zakładki „Dane”, znajdującej się nad arkuszem Excel.

w Excelu

Teraz, gdy mamy pod ręką wszystkie niezbędne wirtualne narzędzia do przeprowadzania obliczeń ekonometrycznych, możemy przystąpić do rozwiązywania naszego problemu. Dla tego:

  • kliknąć na przycisk „Analiza danych”;
  • w oknie, które zostanie otwarte, kliknij przycisk „Regresja”;
  • w zakładce, która się pojawi, wprowadź zakres wartości dla Y (liczba odchodzących pracowników) i dla X (ich wynagrodzenia);
  • Nasze działania potwierdzamy wciśnięciem przycisku „Ok”.

W rezultacie program automatycznie wypełni nowy arkusz kalkulacyjny danymi analizy regresji. Notatka! Excel umożliwia ręczne ustawienie preferowanej w tym celu lokalizacji. Może to być na przykład ten sam arkusz, w którym znajdują się wartości Y i X, lub nawet nowy skoroszyt specjalnie zaprojektowany do przechowywania takich danych.

Analiza wyników regresji dla R-kwadrat

W programie Excel dane uzyskane podczas przetwarzania danych w rozważanym przykładzie mają postać:

Przede wszystkim należy zwrócić uwagę na wartość R-kwadrat. Reprezentuje współczynnik determinacji. W tym przykładzie R-kwadrat = 0,755 (75,5%), czyli obliczone parametry modelu wyjaśniają zależność pomiędzy rozpatrywanymi parametrami w 75,5%. Im wyższa wartość współczynnika determinacji, tym lepiej wybrany model jest dostosowany do konkretnego zadania. Za prawidłowy opisuje się sytuację rzeczywistą, gdy wartość R-kwadrat jest większa niż 0,8. Jeśli R-kwadrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza szans

Liczba 64,1428 pokazuje, jaka będzie wartość Y, jeśli wszystkie zmienne xi w rozważanym modelu zostaną wyzerowane. Inaczej mówiąc, można postawić tezę, że na wartość analizowanego parametru wpływają także inne czynniki, które nie są opisane w konkretnym modelu.

Kolejny współczynnik -0,16285, znajdujący się w komórce B18, pokazuje wagę wpływu zmiennej X na Y. Oznacza to, że przeciętne miesięczne wynagrodzenie pracowników w rozpatrywanym modelu wpływa na liczbę osób rezygnujących z wagi -0,16285, tj. stopień jego wpływu jest całkowicie niewielki. Znak „-” wskazuje, że współczynnik jest ujemny. To oczywiste, bo każdy wie, że im wyższe wynagrodzenie w przedsiębiorstwie, tym mniej osób wyraża chęć rozwiązania umowy o pracę lub odejścia.

Regresja wielokrotna

Termin ten odnosi się do równania zależności z kilkoma zmiennymi niezależnymi postaci:

y=f(x 1 +x 2 +…x m) + ε, gdzie y jest charakterystyką wypadkową (zmienna zależna), a x 1, x 2,…x m to charakterystyka czynnikowa (zmienne niezależne).

Oszacowanie parametrów

W przypadku regresji wielokrotnej (MR) przeprowadza się ją metodą najmniejszych kwadratów(MNC). Dla równań liniowych postaci Y = a + b 1 x 1 +…+b m x m + ε konstruujemy układ równań normalnych (patrz niżej)

Aby zrozumieć zasadę tej metody, rozważmy przypadek dwuczynnikowy. Mamy wówczas sytuację opisaną wzorem

Stąd otrzymujemy:

gdzie σ jest wariancją odpowiedniej cechy odzwierciedloną w indeksie.

OLS ma zastosowanie do równania MR w znormalizowanej skali. W tym przypadku otrzymujemy równanie:

w którym t y, t x 1, … t xm są zmiennymi standaryzowanymi, dla których wartości średnie są równe 0; β i to standaryzowane współczynniki regresji, a odchylenie standardowe wynosi 1.

Należy pamiętać, że wszystkie β i in w tym przypadku są określone jako ujednolicone i scentralizowane, dlatego ich wzajemne porównanie uważa się za prawidłowe i akceptowalne. Ponadto zwyczajowo selekcjonuje się czynniki poprzez odrzucanie tych o najniższych wartościach βi.

Problem z użyciem równania regresji liniowej

Załóżmy, że mamy tabelę dynamiki cen konkretnego produktu N w ciągu ostatnich 8 miesięcy. Należy podjąć decyzję o celowości zakupu jego partii w cenie 1850 rubli/t.

numer miesiąca

nazwa miesiąca

cena produktu N

1750 rubli za tonę

1755 rubli za tonę

1767 rubli za tonę

1760 rubli za tonę

1770 rubli za tonę

1790 rubli za tonę

1810 rubli za tonę

1840 rubli za tonę

Aby rozwiązać ten problem w edytorze arkuszy kalkulacyjnych Excel, należy skorzystać z narzędzia „Analiza danych”, znanego już z przedstawionego powyżej przykładu. Następnie wybierz sekcję „Regresja” i ustaw parametry. Należy pamiętać, że w polu „Przedział wejściowy Y” należy wpisać zakres wartości zmiennej zależnej (w tym przypadku ceny towarów w poszczególnych miesiącach roku), a w „Przedział wejściowy X” - dla zmiennej niezależnej (numer miesiąca). Potwierdź akcję, klikając „OK”. Na nowym arkuszu (jeśli tak wskazano) uzyskujemy dane do regresji.

Korzystając z nich konstruujemy równanie liniowe postaci y=ax+b, gdzie parametry a i b są współczynnikami prostej z nazwą numeru miesiąca oraz współczynnikami i liniami „przecięcia Y” z arkusza z wyniki Analiza regresji. Zatem równanie regresji liniowej (LR) dla zadania 3 zapisuje się jako:

Cena produktu N = 11,714* numer miesiąca + 1727,54.

lub w notacji algebraicznej

y = 11,714 x + 1727,54

Analiza wyników

Aby zdecydować, czy otrzymane równanie regresji liniowej jest adekwatne, stosuje się współczynniki korelacji wielokrotnej (MCC) i determinacji, a także test Fishera i test t-Studenta. W arkuszu kalkulacyjnym Excel z wynikami regresji nazywane są one odpowiednio statystyką wielokrotną R, statystyką R-kwadrat, statystyką F i statystyką t.

KMC R umożliwia ocenę bliskości związku probabilistycznego pomiędzy zmiennymi niezależnymi i zależnymi. Jego wysoka wartość wskazuje na dość silny związek pomiędzy zmiennymi „Numer miesiąca” i „Cena produktu N w rublach za 1 tonę”. Jednak natura tej zależności pozostaje nieznana.

Kwadrat współczynnika determinacji R2 (RI) jest liczbową charakterystyką proporcji całkowitego rozrzutu i pokazuje rozrzut której części danych eksperymentalnych, tj. wartości zmiennej zależnej odpowiadają równaniu regresji liniowej. W rozpatrywanym problemie wartość ta wynosi 84,8%, co oznacza, że ​​dane statystyczne są opisywane z dużą dokładnością przez wynikową SD.

Statystyka F, zwana także testem Fishera, służy do oceny istotności zależności liniowej, obalając lub potwierdzając hipotezę o jej istnieniu.

(Test Studenta) pomaga ocenić istotność współczynnika przy nieznanym lub wolnym członie zależności liniowej. Jeżeli wartość testu t > t cr, to hipoteza o nieistotności składnika wolnego równanie liniowe odrzucony.

W rozpatrywanym problemie dla terminu wolnego, korzystając z narzędzi Excela, uzyskano, że t = 169,20903, a p = 2,89E-12, czyli mamy zerowe prawdopodobieństwo, że poprawna hipoteza o nieistotności terminu wolnego zostanie odrzucona . Dla współczynnika dla nieznanego t=5,79405 i p=0,001158. Innymi słowy, prawdopodobieństwo odrzucenia prawidłowej hipotezy o nieistotności współczynnika dla niewiadomej wynosi 0,12%.

Można zatem argumentować, że otrzymane równanie regresji liniowej jest wystarczające.

Problem możliwości nabycia pakietu akcji

Regresję wielokrotną w programie Excel wykonuje się przy użyciu tego samego narzędzia analizy danych. Rozważmy konkretny problem aplikacji.

Zarząd spółki NNN musi podjąć decyzję o celowości zakupu 20% udziałów w MMM JSC. Koszt pakietu (SP) to 70 milionów dolarów amerykańskich. Specjaliści NNN zebrali dane na temat podobnych transakcji. Postanowiono wycenić wartość pakietu akcji według takich parametrów, wyrażonych w milionach dolarów amerykańskich, jak:

  • zobowiązania (VK);
  • roczny wolumen obrotu (VO);
  • należności (VD);
  • koszt środków trwałych (COF).

Dodatkowo wykorzystuje się parametr zaległości płacowych przedsiębiorstwa (V3 P) w tysiącach dolarów amerykańskich.

Rozwiązanie wykorzystujące procesor arkuszy kalkulacyjnych Excel

Przede wszystkim należy utworzyć tabelę danych źródłowych. To wygląda tak:

  • wywołaj okno „Analiza danych”;
  • wybierz sekcję „Regresja”;
  • W polu „Przedział wejściowy Y” należy wpisać zakres wartości zmiennych zależnych z kolumny G;
  • Kliknij na ikonę z czerwoną strzałką znajdującą się po prawej stronie okna „Przedział wprowadzania X” i zaznacz na arkuszu zakres wszystkich wartości z kolumn B, C, D, F.

Zaznacz element „Nowy arkusz” i kliknij „OK”.

Uzyskaj analizę regresji dla zadanego problemu.

Badanie wyników i wnioski

„Zbieramy” równanie regresji z zaokrąglonych danych przedstawionych powyżej w arkuszu kalkulacyjnym Excel:

SP = 0,103*SOF + 0,541*VO - 0,031*VK +0,405*VD +0,691*VZP - 265,844.

W bardziej znanej formie matematycznej można to zapisać jako:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Dane dla MMM SA przedstawia tabela:

Podstawiając je do równania regresji, otrzymujemy liczbę 64,72 miliona dolarów amerykańskich. Oznacza to, że nie warto kupować akcji MMM JSC, gdyż ich wartość wynosząca 70 mln dolarów jest mocno zawyżona.

Jak widać, zastosowanie arkusza kalkulacyjnego Excel i równania regresji pozwoliło na podjęcie świadomej decyzji co do możliwości przeprowadzenia bardzo konkretnej transakcji.

Teraz już wiesz, czym jest regresja. Omówione powyżej przykłady Excela pomogą Ci rozwiązać praktyczne problemy z zakresu ekonometrii.

Badając złożone zjawiska, należy wziąć pod uwagę więcej niż dwa czynniki losowe. Prawidłowe zrozumienie natury zależności między tymi czynnikami można uzyskać tylko wtedy, gdy wszystkie rozpatrywane czynniki losowe zostaną zbadane jednocześnie. Wspólne badanie trzech lub większej liczby czynników losowych pozwoli badaczowi na ustalenie mniej lub bardziej uzasadnionych założeń na temat zależności przyczynowych pomiędzy badanymi zjawiskami. Prostą formą relacji wielokrotnej jest liniowa zależność pomiędzy trzema cechami. Czynniki losowe są oznaczone jako X 1 , X 2 i X 3. Sparowane współczynniki korelacji pomiędzy X 1 i X 2 oznacza się jako R 12, odpowiednio pomiędzy X 1 i X 3 - R 12, pomiędzy X 2 i X 3 - R 23. Jako miarę bliskości liniowej zależności pomiędzy trzema cechami stosuje się wielokrotne współczynniki korelacji, oznaczone R 1 ּ 23 , R 2 ּ 13 , R 3 ּ 12 i częściowe współczynniki korelacji, oznaczone R 12.3 , R 13.2 , R 23.1 .

Współczynnik korelacji wielokrotnej R 1,23 trzech czynników jest wskaźnikiem bliskości liniowej zależności pomiędzy jednym z czynników (wskaźnik przed kropką) a kombinacją dwóch pozostałych czynników (wskaźniki za kropką).

Wartości współczynnika R zawsze mieszczą się w przedziale od 0 do 1. W miarę zbliżania się R do jedności wzrasta stopień liniowej zależności pomiędzy trzema cechami.

Pomiędzy współczynnikiem korelacji wielokrotnej, np. R 2 ּ 13 i dwie pary współczynników korelacji R 12 i R 23 istnieje związek: każdy ze sparowanych współczynników nie może przekroczyć całkowita wartość R 2 ּ 13 .

Wzory do obliczania wielokrotnych współczynników korelacji, gdy znane wartości współczynniki korelacji par r 12, r 13 i r 23 mają postać:

Kwadratowy współczynnik korelacji wielokrotnej R 2 nazywa się współczynnik wielokrotnej determinacji. Pokazuje proporcję zmienności zmiennej zależnej pod wpływem badanych czynników.

Znaczenie korelacji wielokrotnej ocenia się za pomocą: F-kryterium:

N - wielkość próbki; k – liczba czynników. W naszym przypadku k = 3.

hipoteza zerowa o równości współczynnika korelacji wielokrotnej w populacji do zera ( h o:R=0) jest akceptowane, jeśli F F<f t i jest odrzucany, jeśli
F f ³ F T.

wartość teoretyczna F-kryteria są ustalane dla w 1 = k- 1 i w 2 = N - k stopnie swobody i przyjęty poziom istotności a (Załącznik 1).

Przykład obliczenia współczynnika korelacji wielokrotnej. Badając związek między czynnikami, uzyskano współczynniki korelacji par ( N =15): R 12 ==0,6; g13 = 0,3; R 23 = - 0,2.

Konieczne jest sprawdzenie zależności cechy X 2 ze znaku X 1 i X 3, czyli obliczyć współczynnik korelacji wielokrotnej:

Wartość tabeli F-kryteria przy n 1 = 2 i n 2 = 15 – 3 = 12 stopni swobody przy a = 0,05 F 0,05 = 3,89 i przy a = 0,01 F 0,01 = 6,93.

Zatem związek między znakami R 2,13 = 0,74 jest istotne przy
Poziom istotności 1%. F f > F 0,01 .

Sądząc po współczynniku wielokrotnej determinacji R 2 = (0,74) 2 = 0,55, zmienność cechy X 2 jest w 55% związane z wpływem badanych czynników, a 45% zmienności (1-R 2) nie może być wyjaśnione wpływem tych zmiennych.

Prywatny korelacja liniowa

Częściowy współczynnik korelacji jest wskaźnikiem mierzącym stopień koniugacji dwóch cech.

Statystyka matematyczna pozwala ustalić korelację między dwiema cechami ze stałą wartością trzeciej, bez przeprowadzania specjalnego eksperymentu, ale przy użyciu sparowanych współczynników korelacji R 12 , R 13 , R 23 .

Częściowe współczynniki korelacji oblicza się za pomocą wzorów:

Liczby przed kropką wskazują, które cechy badanej zależności, a liczba po kropce oznaczają wpływ, która cecha jest wykluczona (wyeliminowana). Kryterium błędu i istotności dla korelacji częściowej wyznacza się za pomocą tych samych wzorów, co dla korelacji parami:

.

Wartość teoretyczna T- kryterium jest określone w = N– 2 stopnie swobody i przyjęty poziom istotności a (Załącznik 1).

Hipoteza zerowa, że ​​współczynnik korelacji cząstkowej w populacji jest równy zeru ( H o: R= 0) jest akceptowane, jeśli T F< T t i jest odrzucany, jeśli
T f ³ T T.

Współczynniki częściowe mogą przyjmować wartości od -1 do +1. Prywatny współczynniki determinacji znaleźć przez podniesienie do kwadratu współczynników korelacji częściowej:

D 12.3 = R 2 12ּ3 ; D 13.2 = R 2 13ּ2 ; D 23ּ1 = R 2 23ּ1 .

Często dużym zainteresowaniem cieszy się określenie stopnia częściowego wpływu poszczególnych czynników na efektywną cechę przy jednoczesnym wykluczeniu (eliminowaniu) jej powiązania z innymi cechami zakłócającymi tę korelację. Czasami zdarza się, że przy stałej wartości eliminowanej cechy nie da się zauważyć jej statystycznego wpływu na zmienność pozostałych cech. Aby zrozumieć technikę obliczania częściowego współczynnika korelacji, rozważmy przykład. Istnieją trzy opcje X, Y I Z. Dla wielkości próbki N= Wyznacza się 180 sparowanych współczynników korelacji

r xy = 0,799; r xz = 0,57; r yz = 0,507.

Wyznaczmy częściowe współczynniki korelacji:

Częściowy współczynnik korelacji między parametrami X I Y Z (R xyּz = 0,720) pokazuje, że tylko niewielka część związku pomiędzy tymi cechami w ogólnej korelacji ( r xy= 0,799) wynika z wpływu trzeciej cechy ( Z). Podobny wniosek należy wyciągnąć odnośnie współczynnika częściowej korelacji pomiędzy parametrem X i parametr Z ze stałą wartością parametru Y (R X zּу = 0,318 i r xz= 0,57). Przeciwko, współczynnik częściowy korelacje między parametrami Y I Z ze stałą wartością parametru X r zz ּ X= 0,105 znacznie różni się od współczynnik ogólny korelacja r y z = 0,507. Z tego jasno wynika, że ​​jeśli wybierzesz obiekty o tej samej wartości parametru X, to związek między znakami Y I Z będą miały bardzo słaby, ponieważ znaczna część tej zależności wynika ze zmiany parametru X.

W pewnych okolicznościach współczynnik korelacji częściowej może mieć znak przeciwny do współczynnika pary.

Na przykład podczas badania związku między cechami X, Y I Z- uzyskano sparowane współczynniki korelacji (z N = 100): R xy = 0,6; R X z= 0,9;
r y z = 0,4.

Częściowe współczynniki korelacji z wyłączeniem wpływu trzeciej cechy:

Z przykładu jasno wynika, że ​​wartości współczynnik pary i częściowy współczynnik korelacji różnią się znakami.

Metoda korelacji cząstkowej umożliwia obliczenie współczynnika korelacji cząstkowej drugiego rzędu. Współczynnik ten wskazuje związek pomiędzy pierwszą i drugą cechą przy stałej wartości trzeciej i czwartej cechy. Wyznaczanie współczynnika cząstkowego drugiego rzędu opiera się na współczynnikach cząstkowych pierwszego rzędu, korzystając ze wzoru:

Gdzie R 12 . 4 , R 13 ּ4, R 23 ּ4 - współczynniki cząstkowe, których wartość określa się ze wzoru na współczynnik cząstkowy, stosując współczynniki korelacji par R 12 , R 13 , R 14 , R 23 , R 24 , R 34 .

7.1. Analiza regresji liniowej polega na dopasowaniu wykresu do zbioru obserwacji metodą najmniejszych kwadratów. Analiza regresji pozwala nam ustalić związek funkcjonalny między niektórymi zmienna losowa Y i jakiś wpływ Y wartości X. Zależność ta nazywa się równaniem regresji. Są proste ( y=m*x+b) i liczba mnoga ( y=m 1 *x 1 +m 2 *x 2 +... + m k *x k +b) regresja typu liniowego i nieliniowego.
Aby ocenić stopień powiązania między wielkościami, stosuje się go Współczynnik korelacji wielokrotnej Pearsona R(współczynnik korelacji), który może przyjmować wartości od 0 do 1. R=0 jeśli nie ma związku pomiędzy wielkościami, oraz R=1, jeżeli istnieje funkcjonalne powiązanie pomiędzy wielkościami. W większości przypadków R przyjmuje wartości pośrednie od 0 do 1. Wartość R2 zwany współczynnik determinacji.
Zadanie konstrukcji zależności regresyjnej polega na znalezieniu wektora współczynników M model wielokrotnej regresji liniowej, w którym współczynnik R przyjmuje wartość maksymalną.
Aby ocenić znaczenie R ma zastosowanie Test F Fishera, obliczane według wzoru:

Gdzie N– liczba eksperymentów; k– liczba współczynników modelu. Jeśli F przekracza niektóre Krytyczna wartość dla danych N I k i zaakceptowane prawdopodobieństwo pewności, a następnie wartość R uznane za znaczące.

7.2. Narzędzie Regresja z Pakiet analityczny pozwala obliczyć następujące dane:

· szanse funkcja liniowa regresja– metoda najmniejszych kwadratów; o rodzaju funkcji regresji decyduje struktura danych źródłowych;

· współczynnik determinacji i powiązane wielkości(tabela Statystyka regresji);

· tabela wariancji i statystyka kryterialna do testowania istotności regresji(tabela Analiza wariancji );

· odchylenie standardowe i inne jego charakterystyki statystyczne dla każdego współczynnika regresji, pozwalające sprawdzić znaczenie tego współczynnika i zbudować dla niego przedziały ufności;

· Wartości funkcji regresji i reszty– różnice pomiędzy wartościami początkowymi zmiennej Y i obliczone wartości funkcji regresji (tabela Wycofanie salda);

· prawdopodobieństwa odpowiadające wartościom zmiennej Y uporządkowanej rosnąco(tabela Wynik prawdopodobieństwa).

7.3. Wywołaj narzędzie selekcji poprzez Dane > Analiza danych > Regresja.

7.4. W polu Interwał wejściowy Y wprowadź adres zakresu zawierającego wartości zmiennej zależnej Y. Zakres musi składać się z jednej kolumny.
W polu Interwał wejściowy X wprowadź adres zakresu zawierającego wartości zmiennej X. Zakres musi składać się z jednej lub więcej kolumn, ale nie więcej niż 16 kolumn. Jeśli określono w polach Interwał wejściowy Y I Interwał wejściowy X zakresy obejmują nagłówki kolumn, należy zaznaczyć pole opcji Tagi– nagłówki te zostaną wykorzystane w tabelach wynikowych generowanych przez narzędzie Regresja.
Pole wyboru opcji Stała - zero należy ustalić, jeśli równanie regresji ma stałą B jest równa zero.
Opcja Poziom niezawodności ustawia się, gdy konieczne jest skonstruowanie przedziałów ufności dla współczynników regresji z poziomem ufności innym niż 0,95, który jest używany domyślnie. Po zaznaczeniu pola opcji Poziom niezawodności Zostanie udostępnione pole wejściowe, w którym można wprowadzić nową wartość poziomu ufności.
W pobliżu Resztki Istnieją cztery opcje: Resztki, Bilanse standaryzowane, Wykres salda I Harmonogram selekcji. Jeżeli przynajmniej jeden z nich jest zainstalowany, w wynikach wyjściowych pojawi się tabela Wycofanie salda, który wyświetli wartości funkcji regresji oraz reszty - różnice pomiędzy wartościami początkowymi zmiennej Y a obliczonymi wartościami funkcji regresji. W pobliżu Normalne prawdopodobieństwo Jest jedna opcja –; jego instalacja generuje tabelę w wynikach wyjściowych Wynik prawdopodobieństwa i prowadzi do konstrukcji odpowiedniego wykresu.


7,5. Ustaw parametry zgodnie z rysunkiem. Upewnij się, że wartość Y jest pierwszą zmienną (łącznie z komórką z nazwą), a wartość X to pozostałe dwie zmienne (w tym komórki z nazwami). Kliknij OK.

7.6. Na stole Statystyka regresji Podano następujące dane.

Liczba mnoga R– pierwiastek współczynnika determinacji R 2 podany w kolejnym wierszu. Inną nazwą tego wskaźnika jest wskaźnik korelacji lub współczynnik korelacji wielokrotnej.

Plac R– współczynnik determinacji R 2 ; obliczony jako stosunek regresyjna suma kwadratów(komórka C12) do całkowita suma kwadratów(komórka C14).

Znormalizowany R-kwadrat obliczone według wzoru

gdzie n jest liczbą wartości zmiennej Y, k jest liczbą kolumn w przedziale wejściowym zmiennej X.

Standardowy błąd– pierwiastek wariancji resztowej (komórka D13).

Obserwacje– liczba wartości zmiennej Y.

7.7. W Tabela dyspersji w kolumnie SS sumy kwadratów podano w kolumnie zm– liczba stopni swobody. w kolumnie SM- dyspersja. W kolejce Regresja w kolumnie F W celu sprawdzenia istotności regresji obliczono wartość statystyki kryterialnej. Wartość tę oblicza się jako stosunek wariancji regresji do wariancji resztowej (komórki D12 i D13). W kolumnie Znaczenie F obliczane jest prawdopodobieństwo otrzymanej wartości statystyki kryterialnej. Jeżeli prawdopodobieństwo to jest mniejsze niż np. 0,05 (dany poziom istotności), to hipoteza o nieistotności regresji (tj. hipoteza, że ​​wszystkie współczynniki funkcji regresji są równe zero) zostaje odrzucona i regresja zostaje uznane za istotne. W tym przykładzie regresja nie jest znacząca.

7.8. W poniższej tabeli, w kolumnie Szanse, w linii zapisywane są obliczone wartości współczynników funkcji regresji Przecięcie Y zapisywana jest wartość wolnego terminu B. W kolumnie Standardowy błąd Obliczono odchylenia standardowe współczynników.
W kolumnie statystyka t Rejestrowane są stosunki wartości współczynników do ich odchyleń standardowych. Są to wartości statystyki kryterialnej służącej do testowania hipotez o istotności współczynników regresji.
W kolumnie Wartość P obliczane są poziomy istotności odpowiadające wartościom statystyk kryterialnych. Jeśli obliczony poziom istotności jest mniejszy niż określony poziom istotności (na przykład 0,05). wówczas przyjmuje się hipotezę, że współczynnik różni się istotnie od zera; w przeciwnym razie przyjmuje się hipotezę, że współczynnik różni się nieznacznie od zera. W tym przykładzie tylko współczynnik B istotnie różni się od zera, reszta – nieznacznie.
W kolumnach Dolne 95% I Najlepsze 95% podano granice przedziałów ufności o poziomie ufności 0,95. Granice te oblicza się za pomocą wzorów
Dolne 95% = współczynnik – błąd standardowy * t α;
Górne 95% = współczynnik + błąd standardowy * t α.
Tutaj t α– kwantyl rzędu α Rozkłady t-Studenta z (n-k-1) stopniami swobody. W tym przypadku α = 0,95. W ten sam sposób oblicza się granice przedziałów ufności w kolumnach Dolne 90,0% I Najlepsze 90,0%.

7.9. Rozważ tabelę Wycofanie salda z wyników wyjściowych. Ta tabela pojawia się w wynikach wyjściowych tylko wtedy, gdy ustawiona jest co najmniej jedna opcja w obszarze Resztki Okno dialogowe Regresja.

W kolumnie Obserwacja podane są numery seryjne wartości zmiennych Y.
W kolumnie Przewidywany Y dla tych wartości zmiennej obliczane są wartości funkcji regresji y i = f(x i). X, co odpowiada numer seryjny I w kolumnie Obserwacja.
W kolumnie Resztki zawiera różnice (reszty) ε i =Y-y i oraz kolumnę Bilanse standardowe– reszty znormalizowane, które oblicza się jako współczynniki ε i/s ε. gdzie s ε jest odchyleniem standardowym reszt. Kwadrat wartości s ε oblicza się ze wzoru

gdzie jest średnią reszt. Wartość można obliczyć jako stosunek dwóch wartości z tabeli dyspersji: sumy kwadratów reszt (komórka C13) i stopni swobody z wiersza Całkowity(komórka B14).

7.10. Według wartości tabeli Wycofanie salda budowane są dwa typy wykresów: wykresy pozostałości I harmonogramy selekcji(jeśli w obszarze ustawione są odpowiednie opcje Resztki Okno dialogowe Regresja). Są zbudowane dla każdego zmiennego komponentu X osobno.

NA wykresy bilansowe wyświetlane są salda, tj. różnice pomiędzy wartościami pierwotnymi Y i obliczane z funkcji regresji dla każdej wartości składnika zmiennego X.

NA harmonogramy selekcji wyświetla zarówno oryginalne wartości Y, jak i obliczone wartości funkcji regresji dla każdej wartości składnika zmiennej X.

7.11. Ostatnią tabelą wyników wyjściowych jest tabela Wynik prawdopodobieństwa. Pojawia się, jeśli w oknie dialogowym Regresja opcja zainstalowana Normalny wykres prawdopodobieństwa.
Wartości kolumn Percentyl oblicza się w następujący sposób. Krok jest obliczany h = (1/n)*100%, pierwsza wartość to godz./2, to drugie jest równe 100-h/2. Zaczynając od drugiej wartości, każda kolejna wartość jest równa poprzedniej, do której dodawany jest krok H.
W kolumnie Y podane są wartości zmiennych Y, posortowane rosnąco. Na podstawie danych zawartych w tej tabeli tzw harmonogram normalna dystrybucja . Pozwala wizualnie ocenić stopień liniowości zależności pomiędzy zmiennymi X I Y.


8. D analiza wariancji

8.1. Pakiet analityczny pozwala na trzy rodzaje analizy wariancji. O wyborze konkretnego instrumentu decyduje liczba czynników i liczba próbek w badanym zbiorze danych.
służy do testowania hipotezy, że średnie z dwóch lub więcej próbek należących do tej samej próbki są podobne populacja.
Dwukierunkowa ANOVA z powtórzeniami jest bardziej złożoną opcją W analizie jednoczynnikowej, włączając więcej niż jedną próbkę dla każdej grupy danych.
Dwukierunkowa ANOVA bez powtórzeń to dwukierunkowa analiza wariancji, która nie obejmuje więcej niż jednej próby na grupę. Służy do testowania hipotezy, że średnie z dwóch lub więcej próbek są takie same (próbki należą do tej samej populacji).

8.2. Jednokierunkowa ANOVA

8.2.1. Przygotujmy dane do analizy. Utwórz nowy arkusz i skopiuj do niego kolumny A, B, C, D. Usuń pierwsze dwie linie. Przygotowane dane można wykorzystać do przeprowadzenia Jednokierunkowa analiza wariancji.

8.2.2. Wywołaj narzędzie selekcji poprzez Dane > Analiza danych > Jednokierunkowa ANOVA. Wypełnij zgodnie z rysunkiem. Kliknij OK.

8.2.3. Rozważ tabelę Wyniki: Sprawdzać– ilość powtórzeń, Suma– suma wartości wskaźników według wierszy, Dyspersja– częściowa wariancja wskaźnika.

8.2.4. Tabela Analiza wariancji: pierwsza kolumna Źródło zmienności zawiera nazwę dyspersji, SS– suma kwadratów odchyleń, zm- stopień wolności, SM– średni kwadrat, Test F rzeczywisty rozkład F. Wartość P– prawdopodobieństwo, że wariancja odtworzona przez równanie jest równa wariancji reszt. Określa prawdopodobieństwo, że uzyskane ilościowe określenie związku czynników z wynikiem można uznać za losowe. Krytyczny F jest teoretyczną wartością F, którą następnie porównuje się z rzeczywistą wartością F.

8.2.5. Hipoteza zerowa równości oczekiwania matematyczne wszystkich próbek zostanie przyjęta, jeśli nierówność Test F < Krytyczny F. hipotezę tę należy odrzucić. W tym przypadku średnie wartości próbek różnią się znacznie.

Konstrukcję regresji liniowej, ocenę jej parametrów i ich istotności można przeprowadzić znacznie szybciej, korzystając z pakietu Analiza Excela(Regresja). Zastanówmy się nad interpretacją wyników uzyskanych w przypadek ogólny (k zmienne objaśniające) zgodnie z przykładem 3.6.

Na stole statystyki regresji podane są następujące wartości:

Wiele R – współczynnik korelacji wielokrotnej;

R- kwadrat- współczynnik determinacji R 2 ;

Znormalizowany R - kwadrat- skorygowana R 2 skorygowane o liczbę stopni swobody;

Standardowy błąd– błąd standardowy regresji S;

Obserwacje – liczba obserwacji N.

Na stole Analiza wariancji podano:

1. Kolumna zm - liczba stopni swobody równa

dla sznurka Regresja zm = k;

dla sznurka Resztazm = Nk – 1;

dla sznurka Całkowityzm = N– 1.

2. Kolumna SS - suma kwadratów odchyleń równa

dla sznurka Regresja ;

dla sznurka Reszta ;

dla sznurka Całkowity .

3. Kolumna SM wariancji określonych wzorem SM = SS/zm:

dla sznurka Regresja– dyspersja czynników;

dla sznurka Reszta– wariancja rezydualna.

4. Kolumna F – obliczona wartość F-kryterium obliczone ze wzoru

F = SM(regresja)/ SM(reszta).

5. Kolumna Znaczenie F – wartość poziomu istotności odpowiadająca obliczonej F-Statystyka .

Znaczenie F= ROZKŁAD F( F- Statystyka, zm(regresja), zm(reszta)).

Jeśli znaczenie F < стандартного уровня значимости, то R 2 jest istotne statystycznie.

Szanse Standardowy błąd statystyka t Wartość P Dolne 95% Najlepsze 95%
Y 65,92 11,74 5,61 0,00080 38,16 93,68
X 0,107 0,014 7,32 0,00016 0,0728 0,142

Ta tabela pokazuje:

1. Szanse– wartości współczynników A, B.

2. Błąd standardowy– błędy standardowe współczynników regresji Sa, Sb.



3. T- Statystyka– obliczone wartości T -kryteria obliczane według wzoru:

t-statistic = współczynniki/błąd standardowy.

4.R-wartość (znaczenie T) jest wartością poziomu istotności odpowiadającą obliczonej T- Statystyka.

R-wartość = STUDYTYSTYKA(T-Statystyka, zm(reszta)).

Jeśli R-oznaczający< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5. Dolne 95% i górne 95%– niższe i górne granice 95% przedziały ufności dla współczynników teoretycznego równania regresji liniowej.

WYCOFANIE RESZTY
Obserwacja Przewidywano j Pozostałości tj
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

Na stole WYCOFANIE RESZTY wskazany:

w kolumnie Obserwacja– numer obserwacji;

w kolumnie Przepowiedziane y – obliczone wartości zmiennej zależnej;

w kolumnie Resztki mi – różnica pomiędzy obserwowanymi i obliczonymi wartościami zmiennej zależnej.

Przykład 3.6. Istnieją dane (jednostki konwencjonalne) dotyczące kosztów żywności y i dochód na mieszkańca X dla dziewięciu grup rodzin:

X
y

Korzystając z wyników pakietu analiz Excel (Regresja) przeanalizujemy zależność kosztów żywności od dochodu na mieszkańca.

Wyniki analizy regresji zapisuje się zwykle w postaci:

gdzie w nawiasach podano błędy standardowe współczynników regresji.

Współczynniki regresji A = 65,92 oraz b= 0,107. Kierunek komunikacji pomiędzy y I X określa znak współczynnika regresji B= 0,107, tj. połączenie jest bezpośrednie i pozytywne. Współczynnik B= 0,107 pokazuje, że przy wzroście dochodu na mieszkańca o 1 umownie. jednostki koszty żywności wzrosły o 0,107 jednostki konwencjonalnej. jednostki

Oceńmy znaczenie współczynników otrzymanego modelu. Znaczenie współczynników ( a, b) jest sprawdzane przez T-test:

Wartość P ( A) = 0,00080 < 0,01 < 0,05

Wartość P ( B) = 0,00016 < 0,01 < 0,05,

dlatego współczynniki ( a, b) są istotne na poziomie istotności 1%, a tym bardziej na poziomie istotności 5%. Zatem współczynniki regresji są istotne, a model jest adekwatny do danych oryginalnych.

Wyniki estymacji regresji są zgodne nie tylko z uzyskanymi wartościami współczynników regresji, ale także z pewnym ich zbiorem (przedziałem ufności). Z prawdopodobieństwem 95% przedziały ufności dla współczynników wynoszą (38,16 – 93,68) dla A i (0,0728 – 0,142) dla B.

Jakość modelu ocenia się za pomocą współczynnika determinacji R 2 .

Ogrom R 2 = 0,884 oznacza, że ​​czynnik dochodu na mieszkańca może wyjaśnić 88,4% zmienności (rozrzutu) wydatków na żywność.

Znaczenie R 2 jest sprawdzane przez F- test: znaczenie F = 0,00016 < 0,01 < 0,05, следовательно, R 2 jest istotna na poziomie istotności 1%, a tym bardziej na poziomie istotności 5%.

W przypadku parami regresji liniowej współczynnik korelacji można zdefiniować jako . Uzyskana wartość współczynnika korelacji wskazuje, że związek kosztów żywności z dochodem na mieszkańca jest bardzo ścisły.



Nowość na stronie

>

Najbardziej popularny