Dom Usuwanie Testowanie hipotez statystycznych w programie MS EXCEL o równości wartości średniej rozkładu (wariancja nieznana). Testowanie hipotezy o równości średnich dwóch lub więcej populacji

Testowanie hipotez statystycznych w programie MS EXCEL o równości wartości średniej rozkładu (wariancja nieznana). Testowanie hipotezy o równości średnich dwóch lub więcej populacji

3. SPRAWDZENIE HIPOTEZY O RÓWNOŚCI ŚREDNICH

Służy do testowania twierdzenia, że ​​średnie dwóch wskaźników reprezentowanych przez próbki znacznie się różnią. Istnieją trzy rodzaje testów: jeden dla próbek powiązanych i dwa dla próbek niepowiązanych (z tymi samymi i różnymi wariancjami). Jeśli próbki nie są powiązane, należy najpierw przetestować hipotezę równości wariancji, aby określić, którego kryterium użyć. Podobnie jak w przypadku porównywania wariancji, istnieją 2 sposoby rozwiązania problemu, które rozważymy na przykładzie.

PRZYKŁAD 3. Istnieją dane dotyczące liczby sprzedaży towarów w dwóch miastach. Przetestuj na poziomie istotności 0,01 hipotezę statystyczną, że średnia liczba sprzedaży produktów w miastach jest różna.

23 25 23 22 23 24 28 16 18 23 29 26 31 19
22 28 26 26 35 20 27 28 28 26 22 29

Korzystamy z pakietu Data Analysis. W zależności od rodzaju kryterium wybiera się jedno z trzech: „Test t dla dwóch prób w parach dla średnich” – dla prób połączonych oraz „Test t dla dwóch prób z równymi wariancjami” lub „Test t dla dwóch prób z różne wariancje” – dla próbek odłączonych. Wywołaj test z tymi samymi wariancjami, w oknie, które zostanie otwarte, w polach „Przedział zmiennej 1” i „Przedział zmiennej 2” wprowadź linki do danych (odpowiednio A1-N1 i A2-L2, jeśli istnieją dane); etykiety, a następnie zaznacz pole obok „Etykiety” „(nie mamy ich, więc pole wyboru nie jest zaznaczone). Następnie w polu „Alfa” wpisz poziom istotności – 0,01. Pole „Hipotetyczna średnia różnica” pozostaje puste. W sekcji „Opcje wyjściowe” zaznacz pole „Przedział wyjściowy” i umieszczając kursor w polu znajdującym się naprzeciwko napisu, kliknij lewy przycisk w komórce B7. Wynik zostanie wyświetlony, zaczynając od tej komórki. Po kliknięciu „OK” pojawi się tabela wyników. Przesuń granicę pomiędzy kolumnami B i C, C i D, D i E, zwiększając szerokość kolumn B, C i D, tak aby zmieściły się wszystkie etykiety. Procedura wyświetla główne cechy próbki, statystykę t, wartości krytyczne te statystyki i poziomy krytyczne znaczenie „P(T<=t) одностороннее» и «Р(Т<=t) двухстороннее». Если по модулю t-статистика меньше критического, то средние показатели с заданной вероятностью равны. В нашем случае│-1,784242592│ < 2,492159469, следовательно, среднее число продаж значимо не отличается. Следует отметить, что если взять уровень значимости α=0,05, то результаты исследования будут совсем иными.



Test t dla dwóch prób z równymi wariancjami

Przeciętny 23,57142857 26,41666667
Dyspersja 17,34065934 15,35606061
Obserwacje 14 12
Połączona wariancja 16,43105159
Hipotetyczna średnia różnica 0
zm 24
statystyka t -1,784242592
P(T<=t) одностороннее 0,043516846
t krytyczny jednostronny 2,492159469
P(T<=t) двухстороннее 0,087033692
t krytyczny dwukierunkowy 2,796939498

Praca laboratoryjna nr 3

PAROWA REGRESJA LINIOWA

Cel: Opanowanie metod konstruowania równania liniowego regresji sparowanej za pomocą komputera, nauczenie się uzyskiwania i analizowania głównych charakterystyk równania regresji.

Rozważmy metodologię konstruowania równania regresji na przykładzie.

PRZYKŁAD. Podano próbki czynników x i oraz y i. Korzystając z tych przykładów, znajdź równanie regresji liniowej ỹ = ax + b. Znajdź współczynnik korelacji pary. Sprawdź adekwatność modelu regresji na poziomie istotności a = 0,05.

X 0 1 2 3 4 5 6 7 8 9
Y 6,7 6,3 4,4 9,5 5,2 4,3 7,7 7,1 7,1 7,9

Aby znaleźć współczynniki aib równania regresji, użyj funkcji SLOPE i INTERCEPT, kategorie „Statystyczne”. W A5 wpisujemy podpis „a=”, a w sąsiedniej komórce B5 wpisujemy funkcję TILT, umieszczamy kursor w polu „From_value_y”, ustawiamy link do komórek B2-K2 zakreślając je myszką. Wynik to 0,14303. Znajdźmy teraz współczynnik b. W A6 wpisujemy sygnaturę „b=”, a w B6 funkcję CUT z takimi samymi parametrami jak funkcje TILT. Wynik to 5,976364. dlatego równanie regresji liniowej ma postać y=0,14303x+5,976364.

Wykreślmy równanie regresji. W tym celu w trzecim wierszu tabeli wpisujemy wartości funkcji w podanych punktach X (pierwsza linia) – y(x 1). Aby uzyskać te wartości, należy skorzystać z funkcji TREND kategorii Statystyka. W A3 wpisujemy podpis „Y(X)” i umieszczając kursor w B3 wywołujemy funkcję TREND. W polach „From_value_y” i „From_value_x” podajemy link do B2-K2 i B1-K1. w polu „Nowa_wartość_x” wpisujemy także link do B1-K1. w polu „Stała” wpisz 1, jeśli równanie regresji ma postać y=ax+b i 0, jeśli y=ax. W naszym przypadku wpisujemy jeden. Funkcja TREND jest tablicą, więc aby wyświetlić wszystkie jej wartości, zaznacz obszar B3-K3 i naciśnij F2 oraz Ctrl+Shift+Enter. Wynikiem są wartości równania regresji w danych punktach. Budujemy harmonogram. Umieść kursor w dowolnej wolnej komórce, wywołaj kreator diagramów, wybierz kategorię „Zaostrzony”, typ wykresu – linia bez kropek (w prawym dolnym rogu), kliknij „Dalej”, w polu Pole „Diagnostyka”. przejdź do zakładki „Wiersz” i w polu „Wartości X” wpisz link do B1-K1, kliknij „Zakończ”. Rezultatem jest prosta linia regresji. Zobaczmy, jak różnią się wykresy danych eksperymentalnych i równań regresji. W tym celu należy umieścić kursor w dowolnej wolnej komórce, wywołać kreator wykresów, kategoria „Wykres”, typ wykresu – linia przerywana z kropkami (druga od lewej górnej), kliknąć „Dalej”, w polu „Zakres” wpisać link do drugiej i trzeciej linii B2-K3. przejdź do zakładki „Wiersz” i w polu „Etykiety osi X” podaj link do B1-K1, kliknij „Zakończ”. Wynikiem są dwie linie (niebieska – oryginalna, czerwona – równanie regresji). Widać, że linie niewiele się od siebie różnią.

a= 0,14303
b= 5,976364

Aby obliczyć współczynnik korelacji r xy, należy skorzystać z funkcji PEARSON. Ustawiamy wykresy tak, aby znajdowały się nad linią 25, a w A25 robimy podpis „Korelacja”, w B25 wywołujemy funkcję PEARSON, w polach których „Tablica 2” wpisujemy link do danych źródłowych B1 -K1 i B2-K2. wynik to 0,993821. współczynnik determinacji R xy jest kwadratem współczynnika korelacji r xy . W A26 podpisujemy „Określenie”, a w B26 wpisujemy formułę „=B25*B25”. Wynik to 0,265207.

Istnieje jednak jedna funkcja w Excelu, która oblicza wszystkie podstawowe cechy regresji liniowej. To jest funkcja REGLINP. Umieść kursor w B28 i wywołaj funkcję REGLINP, kategoria „Statystyczne”. W polach „From_value_y” i „From_value_x” podajemy link do B2-K2 i B1-K1. pole „Stała” ma takie samo znaczenie jak funkcja TREND; w naszym przypadku jest równe 1. Pole „Stat” musi zawierać 1, jeśli chcesz wyświetlić pełne statystyki dotyczące regresji. W naszym przypadku umieściliśmy jeden tam. Funkcja zwraca tablicę składającą się z 2 kolumn i 5 wierszy. Po wejściu zaznacz myszką komórkę B28-C32 i naciśnij F2 oraz Ctrl+Shift+Enter. Wynikiem jest tabela wartości, w której liczby mają następujące znaczenie:



Współczynnik a

Współczynnik b

Błąd standardowy m o

Błąd standardowy m godz

Współczynnik determinacji R xy

Odchylenie standardowe

F – statystyki

Stopnie swobody n-2

Suma regresji kwadratów S n 2

Resztkowa suma kwadratów S n 2

0,14303 5,976364
0,183849 0,981484
0,070335 1,669889
0,60525 8
1,687758 22,30824

Analiza wyniku: w pierwszym wierszu - współczynniki równania regresji, porównaj je z obliczonymi funkcjami SLOPE i INTERCEPT. Druga linia to błędy standardowe współczynników. Jeżeli jeden z nich ma większą wartość bezwzględną niż sam współczynnik, wówczas współczynnik uważa się za zero. Współczynnik determinacji charakteryzuje jakość związku między czynnikami. Otrzymana wartość 0,070335 wskazuje na bardzo dobrą zależność pomiędzy czynnikami, F – statystyka sprawdza hipotezę o adekwatności modelu regresji. Liczbę tę należy porównać z wartością krytyczną, aby ją uzyskać wpisujemy w E33 sygnaturę „F-critical”, a w F33 funkcję FRIST, której argumenty wpisujemy odpowiednio „0,05” (poziom istotności), „1” (liczba współczynników X) i „8” (stopnie swobody).

Krytyczny F 5,317655

Można zauważyć, że statystyka F jest mniejsza niż wartość krytyczna F, co oznacza, że ​​model regresji nie jest odpowiedni. Ostatnia linia pokazuje sumę kwadratów regresji i resztkowe sumy kwadratów . Ważne jest, aby suma regresji (wyjaśniona regresją) była znacznie większa niż reszta (niewyjaśniona regresją, spowodowana czynnikami losowymi). W naszym przypadku warunek ten nie jest spełniony, co świadczy o słabej regresji.

Wniosek: W trakcie swojej pracy opanowałem metody konstruowania równania liniowego regresji par za pomocą komputera, nauczyłem się uzyskiwać i analizować główne cechy równania regresji.


Praca laboratoryjna nr 4

REGRESJA NIELINIOWA

Cel: opanowanie metod konstruowania głównych typów równań regresji nieliniowej par za pomocą komputera (wewnętrzne modele liniowe), nauczenie się otrzymywania i analizowania wskaźników jakości równań regresji.

Rozważmy przypadek, gdy modele nieliniowe można zredukować do liniowych za pomocą transformacji danych (wewnętrzne modele liniowe).

PRZYKŁAD. Skonstruuj równanie regresji y = f(x) dla próbki x n y n (f = 1,2,…,10). Jako f(x) rozważ cztery rodzaje funkcji - liniową, potęgową, wykładniczą i hiperbolę:

y = topór + B; y = topór B; y = AeBx; y = A/x + B.

Należy znaleźć ich współczynniki A i B, a po porównaniu wskaźników jakości wybrać funkcję, która najlepiej opisuje zależność.

Zysk Y 0,3 1,2 2,8 5,2 8,1 11,0 16,8 16,9 24,7 29,4
Zysk X 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50

Wprowadźmy dane do tabeli wraz z podpisami (komórki A1-K2). Zostawmy trzy linie wolne pod tabelą do wprowadzenia przeliczonych danych, wybierz pierwsze pięć linii, przesuwając palcem wzdłuż lewej szarej ramki wzdłuż liczb od 1 do 5 i wybierz kolor (jasnożółty lub różowy), aby pokolorować tło komórki. Następnie zaczynając od A6 wyświetlamy parametry regresji liniowej. Aby to zrobić, wpisz „Liniowy” w komórce A6 i wprowadź funkcję REGLINP w sąsiedniej komórce B6. W polach „Izv_value_x” podajemy link do B2-K2 i B1-K1, kolejne dwa pola przyjmują wartości jeden. Następnie zakreśl obszar poniżej w 5 liniach i po lewej stronie w 2 liniach i naciśnij F2 i Ctrl+Shift+Enter. Wynikiem jest tabela z parametrami regresji, z której największe zainteresowanie budzi współczynnik determinacji w pierwszej kolumnie, trzeci od góry. W naszym przypadku jest to równe R 1 = 0,951262. Wartość kryterium F pozwalającego sprawdzić adekwatność modelu F 1 = 156,1439

(czwarty rząd, pierwsza kolumna). Równanie regresji ma postać

y = 12,96 x +6,18 (współczynniki a i b podano w komórkach B6 i C6).

Liniowy 12,96 -6,18
1,037152 1,60884
0,951262 2,355101
156,1439 8
866,052 44,372

Wyznaczmy podobne charakterystyki dla pozostałych regresji i w wyniku porównania współczynników determinacji znajdziemy najlepszy model regresji. Rozważmy regresję hiperboliczną. Aby to uzyskać, przekształcamy dane. W trzeciej linii w komórce A3 wpisujemy podpis „1/x”, a w komórce B3 formułę „=1/B2”. Wypełnijmy automatycznie tę komórkę do obszaru B3-K3. Uzyskajmy charakterystykę modelu regresji. W komórce A12 wpisujemy podpis „Hiperbola”, a w sąsiedniej funkcji REGLINP. W polach „From_value_y” i „From_value_x2” podajemy link do B1-K1 i przeliczone dane argumentu x – B3-K3, kolejne dwa pola przyjmują wartości jeden. Następnie zakreśl obszar poniżej 5 linii i 2 linii w lewo i naciśnij F2 i Ctrl+Shift+Enter. Otrzymujemy tabelę parametrów regresji. Współczynnik determinacji w w tym przypadku wynosi R 2 = 0,475661, co jest znacznie gorsze niż w przypadku regresji liniowej. Statystyka F to F2 = 7,257293. Równanie regresji to y = -6,25453x 18,96772.

Hiperbola -6,25453 18,96772
2,321705 3,655951
0,475661 7,724727
7,257293 8
433,0528 477,3712

Rozważmy regresję wykładniczą. Aby to zlinearyzować, otrzymujemy równanie , gdzie ỹ = ln y, ã = b, = ln a. Widać, że należy dokonać transformacji danych - zamień y na ln y. Umieść kursor w komórce A4 i wpisz nagłówek „ln y”. Ustaw kursor w B4 i wprowadź formułę LN (kategoria „Matematyczne”). Jako argument powołujemy się na B1. Korzystając z autouzupełniania, rozszerzamy formułę na czwarty wiersz do komórek B4-K4. Następnie w komórce F6 ustawiamy sygnaturę „Wykładnik” a w sąsiednim G6 wpisujemy funkcję REGLINP, której argumentami będą przekształcone dane B4-K4 (w polu „Measured_value_y”), a pozostałe pola to tak samo jak w przypadku regresji liniowej (B2-K2, jedenaście). Następnie zakreśl komórki G6-H10 i naciśnij F2 oraz Ctrl+Shift+Enter. Wynik to R3 = 0,89079, F3 = 65,25304, co wskazuje na bardzo dobrą regresję. Aby znaleźć współczynniki równania regresji b = ã; ustawiamy kursor w J6 i wpisujemy nagłówek „a=”, a w sąsiednim K6 formułę „=EXP(H6)”, w J7 podajemy nagłówek „b=”, a w K7 formułę „=G6”. Równanie regresji ma postać y = 0,511707 · e 6,197909 x.

Wystawca 1,824212 -0,67 a= 0,511707
0,225827 0,350304 b= 6,197909
0,89079 0,512793
65,25304 8
17,15871 2,103652

Rozważmy regresję mocy. Aby to zlinearyzować, otrzymujemy równanie ỹ = ã, gdzie ỹ = ln y, = ln x, ã = b, = ln a. Widać, że konieczne jest przekształcenie danych - zamień y na ln y i zamień x na ln x. Mamy już linię z ln y. Przekształćmy zmienne x. W komórce A5 wpisujemy podpis „ln x”, a w komórce B5 wpisujemy formułę LN (kategoria „Matematyczne”). Jako argument powołujemy się na B2. Korzystając z autouzupełniania, rozszerzamy formułę do piątego wiersza do komórek B5-K5. Następnie w komórce F12 ustawiamy sygnaturę „Power” a w sąsiedniej G12 wpisujemy funkcję REGLINP, której argumentami będą przekonwertowane dane B4-K4 (w polu „From_value_y”) oraz B5-K5 (w pole „From_value_x”), pozostałe pola to jedynki. Następnie zwolnij komórki G12-H16 i naciśnij F2 i Ctrl+Shift+Enter. Wynik to R 4 = 0,997716, F 4 = 3494,117, co wskazuje na dobrą regresję. Aby znaleźć współczynniki równania regresji b = ã; ustawiamy kursor w J12 i wpisujemy nagłówek „a=”, a w sąsiednim K12 formułę „=EXP(H12)”, w J13 podajemy nagłówek „b=”, a w K13 formułę „=G12”. Równanie regresji to y = 4,90767/x+ 7,341268.

Moc 1,993512 1,590799 a= 4,90767
0,033725 0,023823 b= 7,341268
0,997716 0,074163
3494,117 8
19,21836 0,044002

Sprawdźmy, czy wszystkie równania odpowiednio opisują dane. Aby to zrobić, należy porównać statystykę F każdego kryterium z wartością krytyczną. Aby to uzyskać, w A21 wpisujemy sygnaturę „F-krytyczną”, a w B21 funkcję FRIST, której argumenty wpisujemy odpowiednio „0,05” (poziom istotności), „1” (liczba czynników X w wiersz „Poziom istotności 1”) i „ 8” (stopień swobody 2 = n – 2). Wynik to 5,317655. F – krytyczny jest większy niż F – statystyczny, co oznacza, że ​​model jest adekwatny. Pozostałe regresje są również wystarczające. Aby określić, który model najlepiej opisuje dane, porównujemy wskaźniki determinacji dla każdego modelu R 1, R 2, R 3, R 4. Największy to R4 = 0,997716. Oznacza to, że dane eksperymentalne lepiej opisuje y = 4,90767/x + 7,341268.

Wniosek: W trakcie swojej pracy opanowałem metody konstruowania głównych typów równań regresji nieliniowej parami za pomocą komputera (wewnętrzne modele liniowe), nauczyłem się pozyskiwać i analizować wskaźniki jakości równań regresji.

Y 0,3 1,2 2,8 5,2 8,1 11 16,8 16,9 24,7 29,4
X 0,25 0,5 0,75 1 1,25 1,5 1,75 2 2,25 2,5
1/x 4 2 1,333333 1 0,8 0,666667 0,571429 0,5 0,444444 0,4
w y -1,20397 0,182322 1,029619 1,648659 2,0918641 2,397895 2,821379 2,827314 3,206803 3,380995
w x -1,38629 -0,69315 -0,28768 0 0,2231436 0,405465 0,559616 0,693147 0,81093 0,916291
Liniowy 12,96 -6,18 Wystawca 1,824212 -0,67 a= 0,511707
1,037152 1,60884 0,225827 0,350304 b= 6,197909
0,951262 2,355101 0,89079 0,512793
156,1439 8 65,25304 8
866,052 44,372 17,15871 2,103652
Hiperbola -6,25453 18,96772 Moc 1,993512 1,590799 a= 4,90767
2,321705 3,655951 0,033725 0,023823 b= 7,341268
0,475661 7,724727 0,997716 0,074163
7,257293 8 3494,117 8
433,0528 477,3712 19,21836 0,044002
F - krytyczny 5,317655

Praca laboratoryjna nr 5

REGRESJA WIELOMIANOWA

Cel: Korzystając z danych eksperymentalnych, skonstruuj równanie regresji w postaci y = ax 2 + bx + c.

POSTĘP:

Rozważano zależność plonu danej rośliny y i od ilości nawozów mineralnych zastosowanych do gleby x i. Zakłada się, że zależność ta jest kwadratowa. Należy znaleźć równanie regresji w postaci ỹ = ax 2 + bx + c.

X 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2

Wprowadźmy te dane do arkusza kalkulacyjnego wraz z podpisami w komórkach A1-K2. Zbudujmy wykres. W tym celu zakreśl dane Y (komórki B2-K2), wywołaj kreatora wykresów, wybierz typ wykresu „Wykres”, typ wykresu – wykres z kropkami (drugi od lewej górnej), kliknij „Dalej”, przejdź do Zakładka „Seria” i w zakładce „Etykiety osi X” utwórz łącze do B2-K2 i kliknij „Zakończ”. Wykres można aproksymować wielomianem stopnia 2 y = ax 2 + bx + c. Aby znaleźć współczynniki a, b, c, należy rozwiązać układ równań:

Obliczmy kwoty. Aby to zrobić, wpisz podpis „X^2” w komórce A3, a w komórce B3 wpisz formułę „= B1*B1” i przenieś ją do całej linii B3-K3 za pomocą Autouzupełniania. W komórce A4 wpisujemy podpis „X^3”, a w B4 formułę „=B1*B3” i Autouzupełnianie przenosimy ją na całą linię B4-K4. W komórce A5 wpisujemy „X^4”, a w B5 formułę „=B4*B1”, automatycznie wypełniamy linię. W komórce A6 wpisujemy „X*Y”, a w B8 formułę „=B2*B1”, automatycznie wypełniamy linię. W komórce A7 wpisujemy „X^2*Y”, a w B9 formułę „=B3*B2”, autouzupełniając linię. Teraz liczymy kwoty. Podświetl kolumnę L innym kolorem, klikając nagłówek i wybierając kolor. Umieść kursor w komórce L1 i kliknij przycisk autosumowania z ikoną ∑, aby obliczyć sumę pierwszego wiersza. Za pomocą AutoFill przenosimy formułę do komórek L1-710.

Teraz rozwiązujemy układ równań. W tym celu wprowadzamy główną macierz systemu. W komórce A13 wpisujemy podpis „A=”, a w komórkach macierzy B13-D15 wpisujemy linki odzwierciedlone w tabeli

B C D
13 =L5 =L4 =L3
14 =L3 =L2 =L1
15 =L2 =L1 =9

Wprowadzamy także prawe strony układu równań. W G13 wpisujemy sygnaturę „B=”, a w H13-H15 wpisujemy odpowiednio linki do komórek „=L7”, „=L6”, „=L2”. Układ rozwiązujemy metodą macierzową. Z wyższej matematyki wiadomo, że rozwiązaniem jest A -1 B. Znajdź macierz odwrotną. Aby to zrobić, wpisz podpis „A arr.” w komórce J13. i umieszczając kursor w K13, ustaw formułę MOBR (kategoria „Matematyczne”). Jako argument Tablica podajemy link do komórek B13:D15. Wynikiem powinna być również matryca 4x4. Aby go uzyskać, zakreśl myszką komórki K13-M15, zaznaczając je i wciskając F2 oraz Ctrl+Shift+Enter. Wynikiem jest macierz A -1. Znajdźmy teraz iloczyn tej macierzy i kolumny B (komórki H13-H15). W komórce A18 wpisujemy podpis „Współczynniki”, a w B18 ustawiamy funkcję WIELE (kategoria „Matematyczne”). Argumenty funkcji „Tablica 1” stanowią łącze do macierzy A-1 (komórki K13-M15), natomiast w polu „Tablica 2” podajemy łącze do kolumny B (komórki H13-H16). Następnie wybierz B18-B20 i naciśnij F2 i Ctrl+Shift+Enter. Wynikową tablicą są współczynniki równania regresji a, b, c. W rezultacie otrzymujemy równanie regresji w postaci: y = 1,201082x2 – 5,619177x + 78,48095.

Zbudujmy wykresy danych oryginalnych i uzyskanych na podstawie równania regresji. Aby to zrobić, w komórce A8 wpisz podpis „Regresja”, a w komórce B8 wprowadź formułę „=$B$18*B3+$B$19*B1+$B$20”. Za pomocą AutoFill przenosimy formułę do komórek B8-K8. Aby zbudować wykres należy zaznaczyć komórki B8-K8 i przytrzymując klawisz Ctrl zaznaczyć także komórki B2-M2. Wywołaj kreator wykresów, wybierz typ wykresu „Wykres”, typ wykresu – wykres z punktami (drugi od lewej górnej), kliknij „Dalej”, przejdź do zakładki „Seria” i w polu „Etykiety osi X” wykonaj link do B2-M2, kliknij „Gotowe”. Można zauważyć, że krzywe prawie się pokrywają.

WNIOSEK: w trakcie pracy, na podstawie danych eksperymentalnych, nauczyłem się konstruować równanie regresji w postaci y = ax 2 + bx + c.





Empiryczna gęstość rozkładu badanej zmiennej losowej i obliczenie jej charakterystyki. Określić zakres dostępnych danych, tj. różnica pomiędzy największą i najmniejszą wartością próbki (R = Xmax – Xmin): Dobór liczby przedziałów grupujących k dla liczby obserwacji n<100 – ориентировочное значение интервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде: ...

Danych, można wiarygodnie ocenić zależności statystyczne istniejące pomiędzy zmiennymi badanymi w tym eksperymencie. Wszystkie metody analizy matematycznej i statystycznej są umownie podzielone na pierwotne i wtórne. Metody podstawowe to takie, za pomocą których można uzyskać wskaźniki bezpośrednio odzwierciedlające wyniki pomiarów dokonanych w eksperymencie. W związku z tym pod...

Procesory ogólnego przeznaczenia (na przykład Excel, Lotus 1-2-3 itp.), A także niektóre bazy danych. Zachodnie pakiety statystyczne (SPSS, SAS, BMDP itp.) mają następujące możliwości: Umożliwiają przetwarzanie gigantycznych wolumenów danych. Zawiera narzędzia do opisywania zadań we wbudowanym języku. Umożliwiają budowanie na ich bazie systemów przetwarzania informacji dla całych przedsiębiorstw. Umożliwić...



Kurs masażu i przez 1-2 miesiące po nim. 1.2 Formy masażu leczniczego Formy masażu leczniczego dzielimy na ogólne i prywatne. Formy te są charakterystyczne dla wszystkich rodzajów i metod masażu. Masaż zarówno prywatny, jak i ogólny może być wykonywany przez masażystę w formie masażu wzajemnego, masażu dla par lub automasażu. 1.2.1 Masaż ogólny Masaż ogólny to taki masaż (niezależnie od...

X 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2
X^2 0 1 4 9 16 25 36 49 64 81
X^3 0 1 8 27 64 125 216 343 512 729
X^4 0 1 16 81 256 625 1296 2401 4096 6561
X*Y 0 58,8 144,4 304,5 564 675,5 939,6 1271,9 1732,8 1873,8
X^2*Y 0 58,8 288,8 913,5 2256 3377,5 5637,6 8903,3 13862,4 16864,2
Regresja. 78,48095 85,30121 94,52364 106,1482 120,175 136,6039 155,435 176,6682 200,3036 226,3412
A= 15333 2025 285 B= 52162,1 Arr. 0,003247 -0,03247 0,059524
2025 285 45 7565,3 -0,03247 0,341342 -0,67857
285 45 9 1301,5 0,059524 -0,67857 1,619048
Współczynnik 1,201082 A
5,619177

5 listopada 2012 5 listopada 2012 5 listopada 2012 5 listopada 2012 Wykład 6. Porównanie dwóch próbek 6-1. Hipoteza równości środków. Próbki sparowane 6-2. Przedział ufności dla różnicy średnich. Próbki sparowane 6-3. Hipoteza równości wariancji 6-4. Hipoteza równości udziałów 6-5. Przedział ufności dla różnicy proporcji


2 Ivanov O.V., 2005 W tym wykładzie... W poprzednim wykładzie testowaliśmy hipotezę o równości średnich dwóch populacji ogólnych i skonstruowaliśmy przedział ufności dla różnicy średnich w przypadku próbek niezależnych. Teraz rozważymy kryterium testowania hipotezy równości średnich i skonstruujemy przedział ufności dla różnicy średnich w przypadku sparowanych (zależnych) próbek. Następnie w rozdz. 6-3 zostanie przetestowana hipoteza równości wariancji, w rozdz. 6-4 - hipoteza równości udziałów. Na koniec konstruujemy przedział ufności dla różnicy proporcji.


5 listopada 2012 5 listopada 2012 5 listopada 2012 5 listopada 2012 Hipoteza równości środków. Próbki sparowane Opis problemu Hipotezy i statystyki Sekwencja działań Przykład


4 Ivanov O.V., 2005 Próbki sparowane. Opis problemu Co mamy 1. Dwie proste próbki losowe uzyskane z dwóch populacji ogólnych. Próbki są sparowane (zależne). 2. Obie próbki mają wielkość n 30. Jeżeli nie, to obie próbki są pobierane z populacji o rozkładzie normalnym. Chcemy przetestować hipotezę o różnicy między średnimi dwóch populacji:


5 Ivanov O.V., 2005 Statystyka dla sparowanych próbek Aby przetestować hipotezę, stosuje się statystyki: gdzie jest różnica między dwiema wartościami w jednej parze - średnia ogólna dla różnic w parach - średnia próbki dla różnic w parach - odchylenie standardowe różnice dla próby - liczba par


6 Iwanow O.V., 2005 Przykład. Szkolenie studentów Grupa 15 studentów przystąpiła do testu przed i po szkoleniu. Wyniki testu znajdują się w tabeli. Przetestujmy hipotezę dla prób sparowanych o braku wpływu szkolenia na przygotowanie uczniów na poziomie istotności 0,05. Rozwiązanie. Obliczmy różnice i ich kwadraty. StudentBeforeAfter Σ= 21 Σ= 145


7 Ivanov O.V., 2005 Rozwiązanie Krok 1. Hipotezy główne i alternatywne: Krok 2. Ustalono poziom istotności =0,05. Krok 3. Korzystając z tabeli dla df = 15 – 1=14, znajdujemy wartość krytyczną t = 2,145 i zapisujemy obszar krytyczny: t > 2,145. 2,145."> 2,145."> 2,145." title="7 Ivanov O.V., 2005 Rozwiązanie Krok 1. Hipotezy główne i alternatywne: Krok 2. Ustala się poziom istotności = 0,05. Krok 3. Według tabeli dla df = 15 – 1=14 znajdujemy wartość krytyczną t = 2,145 i zapisujemy obszar krytyczny: t > 2,145."> title="7 Ivanov O.V., 2005 Rozwiązanie Krok 1. Hipotezy główne i alternatywne: Krok 2. Ustalono poziom istotności =0,05. Krok 3. Korzystając z tabeli dla df = 15 – 1=14, znajdujemy wartość krytyczną t = 2,145 i zapisujemy obszar krytyczny: t > 2,145."> !}




9 Ivanov O.V., 2005 Statystyka rozwiązań przyjmuje wartość: Krok 5. Porównaj uzyskaną wartość z obszarem krytycznym. 1,889


5 listopada 2012 5 listopada 2012 5 listopada 2012 5 listopada 2012 Przedział ufności dla różnicy średnich. Próbki sparowane Opis problemu Metoda konstruowania przedziału ufności Przykład


11 Ivanov O.V., 2005 Opis problemu Co mamy Mamy dwie losowo sparowane (zależne) próbki o wielkości n z dwóch populacji ogólnych. Populacje ogólne mają rozkład normalny z parametrami 1, 1 i 2, 2 lub objętości obu próbek wynoszą 30. Naszym celem jest oszacowanie średniej wartości różnic w parach dla dwóch populacji ogólnych. Aby to zrobić, skonstruuj przedział ufności dla średniej w postaci:






5 listopada 2012 5 listopada 2012 5 listopada 2012 5 listopada 2012 Hipoteza równości wariancji Sformułowanie problemu Hipotezy i statystyki Kolejność działań Przykład


15 Ivanov O.V., 2005 Podczas badania... Być może badacz będzie musiał sprawdzić założenie, że wariancje dwóch badanych populacji są równe. W przypadku, gdy te ogólne populacje mają normalna dystrybucja, w tym celu służy test F, zwany także kryterium Fishera. W przeciwieństwie do Studenta Fischer nie pracował w browarze.


16 Ivanov O.V., 2005 Opis problemu Co mamy 1. Dwie proste próbki losowe otrzymane z dwóch populacji o rozkładzie normalnym. 2. Próbki są niezależne. Oznacza to, że pomiędzy badanymi podmiotami nie ma żadnego związku. Chcemy przetestować hipotezę równości wariancji populacji:














23 Ivanov O.V., 2005 Przykład Badacz medyczny chce sprawdzić, czy istnieje różnica między tętnem pacjentów palących i niepalących (liczba uderzeń na minutę). Poniżej przedstawiono wyniki dwóch losowo wybranych grup. Korzystając z α = 0,05, sprawdź, czy lekarz ma rację. Palacze Niepalący


24 Ivanov O.V., 2005 Rozwiązanie Krok 1. Hipotezy główne i alternatywne: Krok 2. Ustalono poziom istotności =0,05. Krok 3. Korzystając z tabeli liczby stopni swobody licznika 25 i mianownika 17, znajdujemy wartość krytyczną f = 2,19 i obszar krytyczny: f > 2,19. Krok 4. Na podstawie próbki obliczamy wartość statystyczną: 2.19. Krok 4. Na podstawie próbki obliczamy wartość statystyki: „>




5 listopada 2012 5 listopada 2012 5 listopada 2012 5 listopada 2012 Hipoteza równych udziałów Opis problemu Hipotezy i statystyki Kolejność działań Przykład


27 Ivanov O.V., 2005 Pytanie Spośród 100 losowo wybranych studentów wydziału socjologii 43 uczestniczy w kursach specjalnych. Spośród 200 losowo wybranych studentów ekonomii 90 bierze udział w kursach specjalnych. Czy odsetek studentów uczęszczających na kursy specjalne różni się pomiędzy wydziałami socjologii i ekonomii? Nie wydaje się, żeby to się znacząco różniło. Jak mogę to sprawdzić? Udział osób uczęszczających na kursy specjalne jest udziałem atrybutu. 43 – liczba „sukcesów”. 43/100 – udział w sukcesie. Terminologia jest taka sama jak w schemacie Bernoulliego.


28 Ivanov O.V., 2005 Opis problemu Co mamy 1. Dwie proste próbki losowe otrzymane z dwóch populacji o rozkładzie normalnym. Próbki są niezależne. 2. Dla próbek spełnione są wartości np 5 i nq 5. Oznacza to, że co najmniej 5 elementów próbki ma badaną wartość charakterystyczną, a co najmniej 5 nie. Chcemy przetestować hipotezę o równości udziałów cechy w dwóch populacjach ogólnych:






31 Iwanow O.V., 2005 Przykład. Kursy specjalne dwóch wydziałów Spośród 100 losowo wybranych studentów wydziału socjologii, 43 uczestniczy w kursach specjalnych. Spośród 200 studentów ekonomii 90 uczestniczy w kursach specjalnych. Na poziomie istotności = 0,05 należy sprawdzić hipotezę, że nie ma różnicy w odsetku studentów uczęszczających na zajęcia specjalne na tych dwóch wydziałach. 33 Ivanov O.V., 2005 Rozwiązanie Krok 1. Hipotezy główne i alternatywne: Krok 2. Ustalono poziom istotności =0,05. Krok 3. Korzystając z tabeli rozkładu normalnego, znajdujemy wartości krytyczne z = – 1,96 i z = 1,96 i konstruujemy obszar krytyczny: z 1,96. Krok 4. Na podstawie próby wyliczamy wartość statystyki.


34 Ivanov O.V., 2005 Rozwiązanie Krok 5. Porównaj uzyskaną wartość z obszarem krytycznym. Otrzymana wartość statystyczna nie mieściła się w obszarze krytycznym. Krok 6. Sformułuj wniosek. Nie ma powodu, aby odrzucać hipotezę główną. Udział osób uczęszczających na kursy specjalne nie różni się istotnie statystycznie.


5 listopada 2012 5 listopada 2012 5 listopada 2012 5 listopada 2012 Przedział ufności dla różnicy proporcji Opis problemu Metoda konstruowania przedziału ufności Przykład





Rozważ dwie niezależne próbki x 1, x 2, ….., x n i y 1, y 2, …, y n, wyekstrahowane z populacji normalnych o równych wariancjach, o wielkościach próbek odpowiednio n i m oraz średnich μ x, μ y i wariancja σ 2 są nieznane. Wymagane jest przetestowanie hipotezy głównej H 0: μ x = μ y z konkurencyjną hipotezą H 1: μ x μ y.

Jak wiadomo, średnie próbki będą miały następujące właściwości: ~N(μ x, σ 2 /n), ~N(μ y, σ 2 /m).

Ich różnica jest wartością normalną ze średnią i wariancja, więc

~ (23).

Załóżmy na chwilę, że prawidłowa jest hipoteza główna H 0: μ x – μ y =0. Następnie i dzieląc wartość przez jej odchylenie standardowe, otrzymujemy normalną standardową sl. Rozmiar ~N(0,1).

Już wcześniej to zauważono ogrom rozłożone zgodnie z prawem z (n-1)-tym stopniem swobody, a - zgodnie z prawem o (m-1) stopniu swobody. Biorąc pod uwagę niezależność tych dwóch sum, stwierdzamy, że tak całkowita kwota rozłożone zgodnie z prawem z n+m-2 stopniami swobody.

Pamiętając krok 7, widzimy, że ułamek przestrzega rozkładu t (Studenta) przy ν=m+n-2 stopniach swobody: Z=t. Fakt ten ma miejsce tylko wtedy, gdy hipoteza H 0 jest prawdziwa.

Zastępując ξ i Q ich wyrażeniami, otrzymujemy rozszerzony wzór na Z:

(24)

Kolejna wartość Z, zwana statystyką kryterialną, pozwala na podjęcie decyzji w następującej kolejności:

1. Wyznacza się obszar D=[-t β,ν , +t β,ν ], zawierający β=1–α obszary pod krzywą rozkładu t ν (tab. 10).

2. Wartość eksperymentalną Z statystyki Z oblicza się ze wzoru (24), dla którego zamiast X 1 i Y 1 podstawione są wartości x 1 i y 1 konkretnych próbek oraz ich średnie z próby i . .

3. Jeśli Z na D, wówczas hipotezę H 0 uważa się za nie sprzeczną z danymi eksperymentalnymi i zostaje ona przyjęta.

Jeżeli Z na D, to hipoteza H1 jest przyjęta.

Jeżeli hipoteza H 0 jest poprawna, wówczas Z spełnia znany rozkład t ν ze średnią zerową i z dużym prawdopodobieństwem β = 1–α wpada w obszar D akceptacji hipotezy H 0 . Kiedy zaobserwowana, eksperymentalna wartość Z na wpada do D. Uważamy to za dowód na korzyść hipotezy H 0.

Gdy Z 0 n leży poza D (jak mówią, leży w obszarze krytycznym K), co jest naturalne, jeśli hipoteza H 1 jest prawdziwa, ale mało prawdopodobne, jeśli H 0 jest prawdziwe, to hipotezę H 0 możemy odrzucić jedynie przyjmując H 1 .

Przykład 31.

Porównuje się dwie odmiany benzyny: A i B. W 11 pojazdach o tej samej mocy, raz przetestowano benzynę klasy A i B na podwoziu okrągłym. Jeden samochód zepsuł się w trasie i nie ma na ten temat danych na temat benzyny B.

Zużycie benzyny na 100 km

Tabela 12

I
X ja 10,51 11,86 10,5 9,1 9,21 10,74 10,75 10,3 11,3 11,8 10,9 n=11
ty 13,22 13,0 11,5 10,4 11,8 11,6 10,64 12,3 11,1 11,6 - m=10

Różnice w zużyciu benzyny klas A i B są nieznane i zakłada się, że są takie same. Czy można na poziomie istotności α=0,05 przyjąć hipotezę, że rzeczywiste średnie koszty μ A i μ B tych rodzajów benzyny są takie same?

Rozwiązanie. Testowanie hipotezy H 0: μ A -μ B = 0 z hipotezą konkurencyjną. H 1:μ 1 μ 2 wykonaj następujące czynności:

1. Znajdź średnie z próby i sumę kwadratów odchyleń Q.

;

;

2. Oblicz wartość eksperymentalną statystyki Z

3. Z Tabeli 10 rozkładu t znajdujemy granicę t β,ν dla liczby stopni swobody ν=m+n–2=19 i β=1–α=0,95. Tabela 10 ma t 0,95,20 = 2,09 i t 0,95,15 = 2,13, ale nie t 0,95,19. Przez interpolację znajdujemy t 0,95,19 =2,09+ =2,10.

4. Sprawdź, który z dwóch obszarów D lub K zawiera numer Strefa. Strefa=-2,7 D=[-2,10; -2,10].

Ponieważ zaobserwowana wartość Z on leży w obszarze krytycznym K = R\D, odrzucamy ją. H 0 i zaakceptuj hipotezę H 1. W tym przypadku mówią, że ich różnica jest znacząca. Gdyby we wszystkich warunkach tego przykładu zmieniło się tylko Q, powiedzmy, Q podwoiło się, wówczas nasz wniosek uległby zmianie. Podwojenie Q doprowadziłoby do zmniejszenia wartości Zon o współczynnik, a wówczas liczba Zon wpadłaby do obszaru dopuszczalnego D, tak że hipoteza H 0 przetrwałaby test i została przyjęta. W tym przypadku rozbieżność między i można by wytłumaczyć naturalnym rozproszeniem danych, a nie faktem, że μ A μ B.

Teoria testowania hipotez jest bardzo obszerna; hipotezy mogą dotyczyć rodzaju prawa rozkładu, jednorodności próbek, niezależności kolejnych wielkości itp.

KRYTERIUM c 2 (PEARSON)

Najczęstsze w praktyce kryterium testowania prostej hipotezy. Ma zastosowanie, gdy prawo dystrybucji nie jest znane. Rozważmy zmienną losową X, nad którą n niezależne testy. Otrzymuje się realizację x 1 , x 2 ,...,x n. Konieczne jest sprawdzenie hipotezy o prawie rozkładu tej zmiennej losowej.

Rozważmy przypadek prostej hipotezy. Prosta hipoteza sprawdza dopasowanie próby do populacji o rozkładzie normalnym (znanej). Budujemy według próbek seria odmian x (1) , x (2) , ..., x (n) . Przedział dzielimy na podprzedziały. Niech te przedziały będą wynosić r. Następnie wyznaczymy prawdopodobieństwo, że X w wyniku testu znajdzie się w przedziale Di, i=1 ,..., r, jeżeli sprawdzana hipoteza jest prawdziwa.

Kryterium nie sprawdza prawdziwości gęstości prawdopodobieństwa, ale prawdziwość liczb

Z każdym przedziałem Di wiążemy zdarzenie losowe A i – trafienie w tym przedziale (trafienie w wyniku testu na X wyniku jego realizacji w Di). Wprowadźmy zmienne losowe. m i to liczba testów z n przeprowadzonych, w których wystąpiło zdarzenie A i. m i są dystrybuowane zgodnie z prawem dwumianu i jeśli hipoteza jest prawdziwa

Dm i = np i (1-p i)

Kryterium c2 ma postać

p 1 + p 2 +...+ p r =1

m 1 +m 2 +...+m r =n

Jeśli testowana hipoteza jest poprawna, wówczas mi reprezentuje częstotliwość występowania zdarzenia, które ma prawdopodobieństwo pi w każdej z n prób, zatem możemy uznać mi za zmienną losową podlegającą prawu dwumianu ze środkiem w punkcie npi. Gdy n jest duże, możemy założyć, że częstotliwość ma rozkład asymptotyczny normalnie przy tych samych parametrach. Jeżeli hipoteza jest słuszna, należy spodziewać się, że będą one miały asymptotyczny rozkład normalny

połączone relacją

Jako miarę rozbieżności pomiędzy danymi próbki m 1 +m 2 +...+m r a teoretycznymi np 1 +np 2 +...+np r należy wziąć pod uwagę wartość

c 2 - suma kwadratów powiązanych asymptotycznie normalnych wielkości zależność liniowa. Spotkaliśmy się wcześniej z podobnym przypadkiem i wiemy, że obecność połączenia liniowego doprowadziła do zmniejszenia liczby stopni swobody o jeden.

Jeżeli testowana hipoteza jest poprawna, wówczas kryterium c 2 ma rozkład zmierzający jako n®¥ do rozkładu c 2 z r-1 stopniami swobody.

Załóżmy, że hipoteza jest fałszywa. Występuje wówczas tendencja do wzrostu wyrazów sumarycznych, tj. jeśli hipoteza jest błędna, wówczas suma ta wpadnie w pewien obszar o dużych wartościach c 2. Za region krytyczny przyjmujemy obszar dodatnich wartości kryterium


W przypadku nieznanych parametrów rozkładu każdy parametr zmniejsza o jeden liczbę stopni swobody dla kryterium Pearsona

8.1. Pojęcie próbek zależnych i niezależnych.

Wybór kryterium testowania hipotezy

zależy przede wszystkim od tego, czy badane próbki są zależne czy niezależne. Wprowadźmy odpowiednie definicje.

def. Próbki nazywane są niezależny, jeżeli postępowanie o dobór jednostek w pierwszej próbie nie jest w żaden sposób powiązane z postępowaniem o dobór jednostek w drugiej próbie.

Przykładem dwóch niezależnych próbek mogą być omówione powyżej próbki mężczyzn i kobiet pracujących w tym samym przedsiębiorstwie (w tej samej branży itp.).

Należy pamiętać, że niezależność dwóch próbek wcale nie oznacza, że ​​nie ma wymogu pewnego rodzaju podobieństwa tych próbek (ich jednorodności). Dlatego też badając poziom dochodów mężczyzn i kobiet, raczej nie dopuścimy do sytuacji, w której mężczyźni będą wybierani spośród moskiewskich biznesmenów, a kobiety z aborygenów z Australii. Kobiety powinny być także Moskalikami, a ponadto „kobietami biznesu”. Ale tutaj nie mówimy o zależności próbek, ale o wymogu jednorodności badanej populacji obiektów, który musi być spełniony zarówno podczas zbierania, jak i analizy danych socjologicznych.

def. Próbki nazywane są zależne lub sparowane, jeśli każda jednostka jednej próbki jest „połączona” z konkretną jednostką drugiej próbki.

Ta ostatnia definicja prawdopodobnie stanie się jaśniejsza, jeśli podamy przykład próbek zależnych.

Załóżmy, że chcemy dowiedzieć się, czy status społeczny ojca jest przeciętnie niższy od statusu społecznego syna (uważamy, że możemy zmierzyć ten złożony i niejednoznacznie rozumiany cechy społeczne osoba). Wydaje się oczywiste, że w takiej sytuacji wskazane jest dobranie par respondentów (ojciec, syn) i założenie, że każdy element pierwszej próby (jeden z ojców) jest „powiązany” z pewnym elementem drugiej próby (jego syn). Te dwie próbki będą nazywane zależnymi.

8.2. Testowanie hipotez dla prób niezależnych

Dla niezależny próbek, wybór kryterium zależy od tego, czy znamy ogólne wariancje s 1 2 i s 2 2 rozpatrywanej cechy dla badanych próbek. Problem ten uznamy za rozwiązany, zakładając, że wariancje próby pokrywają się z wariancjami ogólnymi. W tym przypadku kryterium jest wartość:

Zanim przejdziemy do omówienia sytuacji, gdy ogólne rozbieżności (lub przynajmniej jedna z nich) nie są nam znane, warto zauważyć, co następuje.

Logika stosowania kryterium (8.1) jest podobna do tej, którą opisaliśmy rozważając kryterium „chi-kwadrat” (7.2). Jest tylko jedna zasadnicza różnica. Mówiąc o znaczeniu kryterium (7.2), rozważaliśmy nieskończoną liczbę próbek wielkości n, „wybranych” z naszej populacji ogólnej. Tutaj analizując znaczenie kryterium (8.1) przechodzimy do rozważania liczby nieskończonej para próbki o wielkości n 1 i n 2. Dla każdej pary obliczana jest statystyka postaci (8.1). Całość uzyskanych wartości takich statystyk, zgodnie z naszą notacją, odpowiada rozkładowi normalnemu (jak ustaliliśmy, litera z służy do oznaczenia takiego kryterium, któremu odpowiada rozkład normalny).

Jeśli więc ogólne wariancje nie są nam znane, wówczas zmuszeni jesteśmy zamiast tego użyć ich przykładowych oszacowań s 1 2 i s 2 2. Jednak w tym przypadku rozkład normalny należy zastąpić rozkładem Studenta – z należy zastąpić t (tak jak miało to miejsce w podobnej sytuacji przy konstruowaniu przedziału ufności dla oczekiwań matematycznych). Jednak przy dostatecznie dużych próbach (n 1, n 2 ³ 30), jak już wiemy, rozkład Studenta praktycznie pokrywa się z rozkładem normalnym. Innymi słowy, w przypadku dużych próbek możemy nadal stosować kryterium:

Sytuacja jest bardziej skomplikowana, gdy wariancje są nieznane, a liczebność przynajmniej jednej próby jest niewielka. Wtedy w grę wchodzi inny czynnik. Rodzaj kryterium zależy od tego, czy nieznane wariancje rozpatrywanej cechy w obu analizowanych próbach możemy uznać za równe. Aby się tego dowiedzieć, musimy przetestować hipotezę:

H. 0: s 1 2 = s 2 2. (8.3)

Aby przetestować tę hipotezę, stosuje się kryterium

O specyfice stosowania tego kryterium porozmawiamy poniżej, a teraz będziemy kontynuować dyskusję na temat algorytmu wyboru kryterium, które służy do testowania hipotez o równości oczekiwań matematycznych.

Jeżeli hipoteza (8.3) zostanie odrzucona, wówczas interesujące nas kryterium przybierze postać:

(8.5)

(tj. różni się od kryterium (8.2), które stosowano dla dużych prób, tym, że odpowiadające statystyki nie mają rozkładu normalnego, lecz rozkładu Studenta). W przypadku przyjęcia hipotezy (8.3) zmienia się rodzaj stosowanego kryterium:

(8.6)

Podsumujmy, w jaki sposób dobiera się kryterium do testowania hipotezy o równości ogólnych oczekiwań matematycznych na podstawie analizy dwóch niezależnych próbek.

znany

nieznany

wielkość próbki jest duża

H 0: s 1 = s 2 odrzucone

Przyjęty

8.3. Testowanie hipotez dla próbek zależnych

Przejdźmy do rozpatrywania próbek zależnych. Niech ciągi liczb

X 1, X 2, …, X n;

Y 1 , Y 2 , … , Y n –

są to wartości rozważanej losowej dla elementów dwóch zależnych próbek. Wprowadźmy oznaczenie:

re ja = X ja - Y ja , ja = 1, ... , n.

Dla zależny przykładowe kryterium, które pozwala przetestować hipotezę

następująco:

Zauważ, że właśnie podane wyrażenie dla s D jest niczym więcej niż nowym wyrażeniem dla słynna formuła, wyrażający odchylenie standardowe. W tym przypadku mówimy o odchyleniu standardowym wartości Di. Podobny wzór jest często stosowany w praktyce jako prostsza (w porównaniu do „bezpośredniego” obliczenia sumy kwadratów odchyleń wartości rozważanej wartości od odpowiedniej średniej arytmetycznej) metody obliczania dyspersji.

Jeśli porównamy powyższe wzory z tymi, którymi posługiwaliśmy się przy omawianiu zasad konstruowania przedziału ufności, łatwo zauważyć, że testowanie hipotezy o równości średnich dla przypadku prób zależnych jest w istocie testowaniem równości oczekiwań matematycznych wartości D i do zera. Ogrom

jest odchyleniem standardowym dla D i . Zatem wartość właśnie opisanego kryterium t n -1 jest zasadniczo równa wartości D i wyrażonej jako ułamek odchylenia standardowego. Jak powiedzieliśmy powyżej (omawiając metody konstruowania przedziałów ufności), wskaźnik ten można wykorzystać do oceny prawdopodobieństwa rozważanej wartości Di. Różnica polega na tym, że powyżej mówiliśmy o prostej średniej arytmetycznej o rozkładzie normalnym, a tutaj mówimy o różnicach średnich, takie średnie mają rozkład Studenta. Ale rozumowanie na temat związku między prawdopodobieństwem odchylenia średniej arytmetycznej próbki od zera (z oczekiwanie matematyczne, równe zero), w ilu jednostkach ma obowiązywać to odchylenie.

Przykład. Dochody aptek w jednej z dzielnic miasta przez pewien okres wynosiły 128; 192; 223; 398; 205; 266; 219; 260; 264; 98 (jednostki konwencjonalne). W sąsiedniej dzielnicy w tym samym czasie wynosiły 286; 240; 263; 266; 484; 223; 335.
Dla obu próbek oblicz średnią, skorygowaną wariancję i odchylenie standardowe. Znajdź zakres zmienności, średnie odchylenie bezwzględne (liniowe), współczynnik zmienności, współczynnik liniowy wahania, współczynnik oscylacji.
Zakładając, że to wartość losowa ma rozkład normalny, wyznacz przedział ufności dla średniej ogólnej (w obu przypadkach).
Korzystając z testu Fishera, sprawdź hipotezę równości ogólne rozbieżności. Korzystając z testu Studenta, sprawdź hipotezę o równości średnich ogólnych (hipoteza alternatywna dotyczy ich nierówności).
We wszystkich obliczeniach poziom istotności wynosi α = 0,05.

Rozwiązanie realizujemy za pomocą kalkulatora. Testowanie hipotezy równości wariancji.
1. Znajdź wskaźniki zmienności dla pierwszej próbki.

X|x - x śr. |(x - x średnio) 2
98 127.3 16205.29
128 97.3 9467.29
192 33.3 1108.89
205 20.3 412.09
219 6.3 39.69
223 2.3 5.29
260 34.7 1204.09
264 38.7 1497.69
266 40.7 1656.49
398 172.7 29825.29
2253 573.6 61422.1


.



Wskaźniki zmienności.
.

R = X maks. - X min
R = 398 - 98 = 300
Średnie odchylenie liniowe


Każda wartość szeregu różni się od drugiej średnio o 57,36
Dyspersja


Nieobciążony estymator wariancji


.

Każda wartość szeregu różni się od średniej wartości 225,3 średnio o 78,37
.

.

Współczynnik zmienności

Ponieważ v>30%, ale v Lub

Współczynnik oscylacji

.
.


Korzystając z tabeli Studenta znajdujemy:
Tabela T (n-1;α/2) = Tabela T (9;0,025) = 2,262

(225.3 - 59.09;225.3 + 59.09) = (166.21;284.39)

2. Znajdź wskaźniki zmienności dla drugiej próbki.
Uszeregujmy rząd. Aby to zrobić, sortujemy jego wartości w kolejności rosnącej.
Tabela do obliczania wskaźników.

X|x - x śr. |(x - x średnio) 2
223 76.57 5863.18
240 59.57 3548.76
263 36.57 1337.47
266 33.57 1127.04
286 13.57 184.18
335 35.43 1255.18
484 184.43 34013.9
2097 439.71 47329.71

Aby ocenić szereg dystrybucji, znajdujemy następujące wskaźniki:
Wskaźniki centrów dystrybucyjnych.
Prosta średnia arytmetyczna


Wskaźniki zmienności.
Absolutne różnice.
Zakres zmienności to różnica między wartościami maksymalnymi i minimalnymi charakterystyki szeregu pierwotnego.
R = X maks. - X min
R = 484 - 223 = 261
Średnie odchylenie liniowe- obliczone w celu uwzględnienia różnic wszystkich jednostek badanej populacji.


Każda wartość szeregu różni się od drugiej średnio o 62,82
Dyspersja- charakteryzuje miarę rozproszenia wokół jej wartości średniej (miara rozproszenia, czyli odchylenia od średniej).


Nieobciążony estymator wariancji- spójne oszacowanie wariancji (skorygowana wariancja).


Odchylenie standardowe.

Każda wartość szeregu różni się od średniej wartości 299,57 średnio o 82,23
Oszacowanie odchylenia standardowego.

Miary względnej zmienności.
Względne wskaźniki zmienności obejmują: współczynnik oscylacji, liniowy współczynnik zmienności, względne odchylenie liniowe.
Współczynnik zmienności- miara względnego rozproszenia wartości populacji: pokazuje, jaka część średniej wartości tej wartości stanowi jej średnie rozproszenie.

Ponieważ v ≤ 30%, populacja jest jednorodna, a zróżnicowanie jest słabe. Uzyskanym wynikom można zaufać.
Liniowy współczynnik zmienności Lub Względne odchylenie liniowe- charakteryzuje udział wartości średniej znaku bezwzględnych odchyleń od wartości średniej.

Współczynnik oscylacji- odzwierciedla względne wahania skrajnych wartości cechy wokół średniej.

Estymacja przedziałowa centrum populacji.
Przedział ufności dla średniej ogólnej.

Wyznacz wartość t kp, korzystając z tabeli rozkładu Studenta
Korzystając z tabeli Studenta znajdujemy:
Tabela T (n-1;α/2) = Tabela T (6;0,025) = 2,447

(299.57 - 82.14;299.57 + 82.14) = (217.43;381.71)
Z prawdopodobieństwem 0,95 można stwierdzić, że wartość średnia przy większej liczebności próby nie wypadnie poza znaleziony przedział.
Testujemy hipotezę równości wariancji:
H 0: re x = re y ;
H 1: D x Znajdźmy zaobserwowaną wartość kryterium Fishera:

Ponieważ s y 2 > s x 2, to s b 2 = s y 2, s m 2 = s x 2
Liczba stopni swobody:
fa 1 = n y – 1 = 7 – 1 = 6
fa 2 = n x – 1 = 10 – 1 = 9
Korzystając z tabeli punktów krytycznych rozkładu Fishera-Snedecora na poziomie istotności α = 0,05 i podanych liczbach stopni swobody, znajdujemy F cr (6;9) = 3,37
Ponieważ F obs. Testujemy hipotezę o równości średnich ogólnych:


Znajdźmy wartość eksperymentalną kryterium Studenta:


Liczba stopni swobody f = n x + n y – 2 = 10 + 7 – 2 = 15
Wyznacz wartość t kp, korzystając z tabeli rozkładu Studenta
Korzystając z tabeli Studenta znajdujemy:
Tabela T (f;α/2) = Tabela T (15;0,025) = 2,131
Korzystając z tabeli punktów krytycznych rozkładu Studenta na poziomie istotności α = 0,05 i danej liczbie stopni swobody, znajdujemy t cr = 2,131
Ponieważ obs.



Nowość na stronie

>

Najbardziej popularny