Dom Protetyka i implantacja Metoda najmniejszych kwadratów. Gdzie stosowana jest metoda najmniejszych kwadratów?

Metoda najmniejszych kwadratów. Gdzie stosowana jest metoda najmniejszych kwadratów?

Przykład.

Dane eksperymentalne dotyczące wartości zmiennych X I Na podano w tabeli.

W wyniku ich wyrównania uzyskuje się funkcję

Za pomocą metoda najmniejszych kwadratów , aproksymuj te dane za pomocą zależności liniowej y=topór+b(znajdź parametry A I B). Dowiedz się, która z dwóch linii lepiej (w sensie metody najmniejszych kwadratów) wyrównuje dane eksperymentalne. Narysuj coś.

Istota metody najmniejszych kwadratów (LSM).

Zadanie polega na znalezieniu współczynników zależności liniowej, przy której funkcjonuje funkcja dwóch zmiennych A I B przyjmuje najmniejszą wartość. To znaczy, dane A I B suma kwadratów odchyleń danych eksperymentalnych od znalezionej prostej będzie najmniejsza. Na tym polega cały sens metody najmniejszych kwadratów.

Rozwiązanie przykładu sprowadza się zatem do znalezienia ekstremum funkcji dwóch zmiennych.

Wyprowadzanie wzorów na znalezienie współczynników.

Układ dwóch równań z dwiema niewiadomymi jest kompilowany i rozwiązywany. Znajdowanie pochodnych cząstkowych funkcji przez zmienne A I B, przyrównujemy te pochodne do zera.

Powstały układ równań rozwiązujemy dowolną metodą (np metodą podstawieniową Lub Metoda Cramera) i uzyskać wzory na znalezienie współczynników metodą najmniejszych kwadratów (LSM).

Dany A I B funkcjonować przyjmuje najmniejszą wartość. Podano dowód tego faktu poniżej w tekście na końcu strony.

To cała metoda najmniejszych kwadratów. Wzór na znalezienie parametru A zawiera sumy ,, i parametr N- ilość danych eksperymentalnych. Zalecamy oddzielne obliczanie wartości tych kwot. Współczynnik B znalezione po obliczeniach A.

Czas przypomnieć sobie oryginalny przykład.

Rozwiązanie.

W naszym przykładzie n=5. Wypełniamy tabelę dla wygody obliczenia kwot uwzględnionych we wzorach wymaganych współczynników.

Wartości w czwartym wierszu tabeli uzyskuje się poprzez pomnożenie wartości drugiego wiersza przez wartości trzeciego wiersza dla każdej liczby I.

Wartości w piątym wierszu tabeli uzyskuje się przez podniesienie do kwadratu wartości w drugim wierszu dla każdej liczby I.

Wartości w ostatniej kolumnie tabeli są sumami wartości w wierszach.

Do znalezienia współczynników używamy wzorów metody najmniejszych kwadratów A I B. Podstawiamy do nich odpowiednie wartości z ostatniej kolumny tabeli:

Stąd, y = 0,165x+2,184- żądana przybliżająca linia prosta.

Pozostaje dowiedzieć się, która z linii y = 0,165x+2,184 Lub lepiej przybliża oryginalne dane, czyli dokonuje oszacowania metodą najmniejszych kwadratów.

Estymacja błędu metodą najmniejszych kwadratów.

Aby to zrobić, musisz obliczyć sumę kwadratów odchyleń oryginalnych danych od tych linii I , mniejsza wartość odpowiada linii, która lepiej przybliża oryginalne dane w sensie metody najmniejszych kwadratów.

Od , potem prosto y = 0,165x+2,184 lepiej przybliża oryginalne dane.

Graficzna ilustracja metody najmniejszych kwadratów (LS).

Wszystko doskonale widać na wykresach. Czerwona linia to znaleziona linia prosta y = 0,165x+2,184, niebieska linia to , różowe kropki to dane oryginalne.

W praktyce przy modelowaniu różnych procesów - w szczególności ekonomicznych, fizycznych, technicznych, społecznych - powszechnie stosuje się tę lub inną metodę obliczania przybliżonych wartości funkcji na podstawie ich znanych wartości w określonych punktach stałych.

Często pojawia się tego rodzaju problem aproksymacji funkcji:

    przy konstruowaniu przybliżonych wzorów do obliczania wartości wielkości charakterystycznych badanego procesu na podstawie danych tabelarycznych uzyskanych w wyniku eksperymentu;

    w całkowaniu numerycznym, różniczkowaniu, rozwiązywaniu równania różniczkowe itp.;

    w razie potrzeby obliczyć wartości funkcji w punktach pośrednich rozpatrywanego przedziału;

    przy wyznaczaniu wartości wielkości charakterystycznych procesu poza rozpatrywanym przedziałem, w szczególności przy prognozowaniu.

Jeżeli do modelowania pewnego procesu określonego tabelą skonstruujemy funkcję, która w przybliżeniu opisuje ten proces w oparciu o metodę najmniejszych kwadratów, będzie to nazywać się funkcją aproksymującą (regresją), a samo zadanie konstruowania funkcji aproksymujących będzie nazywane problem przybliżenia.

W artykule omówiono możliwości pakietu MS Excel do rozwiązywania tego typu problemów, ponadto przedstawiono metody i techniki konstruowania (tworzenia) regresji dla funkcji tabelarycznych (co jest podstawą analizy regresji).

W programie Excel dostępne są dwie opcje tworzenia regresji.

    Dodanie wybranych regresji ( linie trendu- linie trendu) na diagram zbudowany na podstawie tabeli danych dla badanej charakterystyki procesu (dostępny tylko w przypadku posiadania skonstruowanego diagramu);

    Wykorzystanie wbudowanych funkcji statystycznych arkusza Excel, pozwalających na uzyskanie regresji (linii trendu) bezpośrednio z tabeli danych źródłowych.

Dodawanie linii trendu do wykresu

W przypadku tabeli danych opisującej proces i przedstawionej w postaci diagramu Excel udostępnia skuteczne narzędzie do analizy regresji, które umożliwia:

    budować w oparciu o metodę najmniejszych kwadratów i dodawać do diagramu pięć rodzajów regresji, które modelują badany proces z różnym stopniem dokładności;

    dodaj do diagramu skonstruowane równanie regresji;

    określić stopień zgodności wybranej regresji z danymi wyświetlanymi na wykresie.

Na podstawie danych wykresowych Excel umożliwia uzyskanie regresji liniowych, wielomianowych, logarytmicznych, potęgowych, wykładniczych, które są określone równaniem:

y = y(x)

gdzie x jest zmienną niezależną, która często przyjmuje wartości ciągu liczb naturalnych (1; 2; 3; ...) i daje na przykład odliczenie czasu badanego procesu (charakterystyka).

1 . Regresja liniowa jest dobra do modelowania cech, których wartości rosną lub maleją w stałym tempie. Jest to najprostszy model do skonstruowania dla badanego procesu. Konstruuje się go według równania:

y = mx + b

gdzie m jest tangensem kąta nachylenia regresja liniowa do osi odciętej; b - współrzędna punktu przecięcia regresji liniowej z osią rzędnych.

2 . Linia trendu wielomianowego jest przydatna do opisywania cech, które mają kilka różnych ekstremów (maksimów i minimów). O wyborze stopnia wielomianu decyduje liczba ekstremów badanej cechy. Zatem wielomian drugiego stopnia może dobrze opisać proces, który ma tylko jedno maksimum lub minimum; wielomian trzeciego stopnia - nie więcej niż dwa ekstrema; wielomian czwartego stopnia - nie więcej niż trzy ekstrema itp.

W tym przypadku linia trendu jest konstruowana zgodnie z równaniem:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

gdzie współczynniki c0, c1, c2,... c6 są stałymi, których wartości wyznaczane są w trakcie budowy.

3 . Linię trendu logarytmicznego z powodzeniem stosuje się przy modelowaniu cech, których wartości początkowo szybko się zmieniają, a następnie stopniowo stabilizują.

y = do ln(x) + b

4 . Linia trendu prawa potęgowego daje dobre wyniki, jeśli wartości badanej zależności charakteryzują się stałą zmianą tempa wzrostu. Przykładem takiej zależności jest wykres ruchu samochodu z jednostajnym przyspieszeniem. Jeśli w danych znajdują się wartości zerowe lub ujemne, nie można użyć linii trendu mocy.

Zbudowane zgodnie z równaniem:

y = doxb

gdzie współczynniki b, c są stałymi.

5 . Jeśli tempo zmian danych stale rośnie, należy zastosować linię trendu wykładniczego. W przypadku danych zawierających wartości zerowe lub ujemne ten rodzaj przybliżenia również nie ma zastosowania.

Zbudowane zgodnie z równaniem:

y = do ebx

gdzie współczynniki b, c są stałymi.

Wybierając linię trendu, Excel automatycznie oblicza wartość R2, która charakteryzuje wiarygodność aproksymacji: niż bliższa wartość R2 do jedności, tym bardziej wiarygodnie linia trendu przybliża badany proces. W razie potrzeby wartość R2 można zawsze wyświetlić na wykresie.

Określone według wzoru:

Aby dodać linię trendu do serii danych:

    aktywuj wykres na podstawie serii danych, czyli kliknij w obszarze wykresu. W menu głównym pojawi się pozycja Diagram;

    po kliknięciu tej pozycji na ekranie pojawi się menu, w którym należy wybrać polecenie Dodaj linię trendu.

Te same działania można łatwo wykonać przesuwając wskaźnik myszy nad wykresem odpowiadającym jednej z serii danych i klikając prawym przyciskiem myszy; W wyświetlonym menu kontekstowym wybierz polecenie Dodaj linię trendu. Na ekranie pojawi się okno dialogowe Trendline z otwartą zakładką Type (rys. 1).

Następnie potrzebujesz:

Wybierz żądany typ linii trendu na karcie Typ (domyślnie wybrany jest typ Liniowy). Dla typu Wielomian w polu Stopień określ stopień wybranego wielomianu.

1 . Pole Seria zbudowana na podstawie zawiera listę wszystkich serii danych na danym wykresie. Aby dodać linię trendu do określonej serii danych, wybierz jej nazwę w polu Zbudowana na serii.

W razie potrzeby wchodząc w zakładkę Parametry (rys. 2) można ustawić następujące parametry linii trendu:

    zmienić nazwę linii trendu w polu Nazwa krzywej aproksymowanej (wygładzonej).

    w polu Prognoza ustaw liczbę okresów (do przodu lub do tyłu) prognozy;

    wyświetlić równanie linii trendu w obszarze wykresu, dla którego należy zaznaczyć checkbox „pokaż równanie na wykresie”;

    wyświetlić w obszarze wykresu wartość wiarygodności aproksymacji R2, dla której należy zaznaczyć opcję Umieść na wykresie wartość wiarygodności aproksymacji (R^2);

    ustawić punkt przecięcia linii trendu z osią Y, dla którego należy zaznaczyć checkbox przecięcia krzywej z osią Y w punkcie;

    Kliknij przycisk OK, aby zamknąć okno dialogowe.

Aby rozpocząć edycję narysowanej już linii trendu, można skorzystać z trzech sposobów:

    użyj polecenia Wybrana linia trendu z menu Format, po wcześniejszym wybraniu linii trendu;

    z menu kontekstowego wybierz polecenie Formatuj linię trendu, które wywołuje się klikając prawym przyciskiem myszy na linię trendu;

    kliknij dwukrotnie linię trendu.

Na ekranie pojawi się okno dialogowe Format linii trendu (rys. 3), zawierające trzy zakładki: Widok, Typ, Parametry, przy czym zawartość dwóch ostatnich całkowicie pokrywa się z podobnymi zakładkami okna dialogowego Linia trendu (rys. 1). -2). Na karcie Widok możesz ustawić rodzaj linii, jej kolor i grubość.

Aby usunąć narysowaną już linię trendu, wybierz linię trendu do usunięcia i naciśnij klawisz Delete.

Zaletami rozważanego narzędzia analizy regresji są:

    względna łatwość konstruowania linii trendu na wykresach bez tworzenia dla niej tabeli danych;

    dość szeroka lista typów proponowanych linii trendu, a lista ta obejmuje najczęściej stosowane typy regresji;

    umiejętność przewidywania zachowania badanego procesu poprzez dowolną (w granicach zdrowego rozsądku) liczbę kroków do przodu, a także do tyłu;

    możliwość otrzymania równania linii trendu w formie analitycznej;

    możliwość, w razie potrzeby, uzyskania oceny wiarygodności przybliżenia.

Wady obejmują:

    konstrukcja linii trendu odbywa się tylko wtedy, gdy istnieje diagram zbudowany na serii danych;

    proces generowania serii danych dla badanej cechy na podstawie uzyskanych dla niej równań linii trendu jest nieco zaśmiecony: wymagane równania regresji są aktualizowane przy każdej zmianie wartości oryginalnej serii danych, ale tylko w obszarze wykresu , chwila serie danych, wygenerowany na podstawie starego równania linii trendu, pozostaje niezmieniony;

    W raportach wykresu przestawnego zmiana widoku wykresu lub powiązanego raportu w formie tabeli przestawnej nie powoduje zachowania istniejących linii trendu, co oznacza, że ​​przed narysowaniem linii trendu lub innym formatowaniem raportu w formie wykresu przestawnego należy upewnić się, że układ raportu spełnia wymagane wymagania.

Linie trendu można wykorzystać do uzupełnienia serii danych prezentowanych na wykresach, takich jak wykresy, histogramy, płaskie, niestandaryzowane wykresy warstwowe, wykresy słupkowe, wykresy punktowe, wykresy bąbelkowe i wykresy giełdowe.

Nie można dodawać linii trendu do serii danych na wykresach 3D, znormalizowanych, radarowych, kołowych i pierścieniowych.

Korzystanie z wbudowanych funkcji programu Excel

Excel posiada także narzędzie do analizy regresji umożliwiające wykreślanie linii trendu poza obszarem wykresu. Istnieje wiele funkcji arkusza statystycznego, których można użyć w tym celu, ale wszystkie pozwalają jedynie na budowanie regresji liniowej lub wykładniczej.

Excel ma kilka funkcji do konstruowania regresji liniowej, w szczególności:

    TENDENCJA;

  • NACHYLENIE i CIĘCIE.

A także kilka funkcji do konstruowania wykładniczej linii trendu, w szczególności:

    LGRFPRIBL.

Należy zauważyć, że techniki konstruowania regresji przy użyciu funkcji TREND i WZROST są prawie takie same. To samo można powiedzieć o parze funkcji LINEST i LGRFPRIBL. W przypadku tych czterech funkcji przy tworzeniu tabeli wartości wykorzystuje się funkcje Excela takie jak formuły tablicowe, co nieco zaśmieca proces budowania regresji. Zauważmy też, że konstrukcję regresji liniowej naszym zdaniem najłatwiej przeprowadzić korzystając z funkcji SLOPE i INTERCEPT, gdzie pierwsza z nich wyznacza nachylenie regresji liniowej, a druga wyznacza odcinek przechwycony przez regresję na oś Y.

Zalety wbudowanego narzędzia funkcyjnego do analizy regresji to:

    dość prosty, jednolity proces generowania serii danych o badanej charakterystyce dla wszystkich wbudowanych funkcji statystycznych wyznaczających linie trendu;

    standardowa metodyka konstruowania linii trendu na podstawie wygenerowanych serii danych;

    umiejętność przewidywania zachowania badanego procesu poprzez wymaganą liczbę kroków do przodu lub do tyłu.

Do wad można zaliczyć fakt, że Excel nie posiada wbudowanych funkcji umożliwiających tworzenie innych (poza liniowymi i wykładniczymi) typów linii trendu. Okoliczność ta często nie pozwala na wybór wystarczająco dokładnego modelu badanego procesu, a także na uzyskanie prognoz bliskich rzeczywistości. Dodatkowo przy korzystaniu z funkcji TREND i WZROST nie są znane równania linii trendu.

Należy zaznaczyć, że autorzy nie postawili sobie za cel przedstawienia przebiegu analizy regresji w jakimkolwiek stopniu kompletności. Jego głównym zadaniem jest pokazanie na konkretnych przykładach możliwości pakietu Excel przy rozwiązywaniu problemów aproksymacyjnych; zademonstrować, jakie skuteczne narzędzia ma Excel do budowania regresji i prognozowania; ilustrują, jak takie problemy mogą być stosunkowo łatwo rozwiązane nawet przez użytkownika, który nie ma rozległej wiedzy na temat analizy regresji.

Przykłady rozwiązania konkretnych problemów

Przyjrzyjmy się rozwiązywaniu konkretnych problemów za pomocą wymienionych narzędzi Excela.

Problem 1

Z tabelą danych o zyskach przedsiębiorstwa transportu samochodowego za lata 1995-2002. musisz wykonać następujące czynności:

    Zbuduj diagram.

    Dodaj do wykresu linie trendu liniowego i wielomianowego (kwadratowego i sześciennego).

    Korzystając z równań linii trendu, uzyskaj dane tabelaryczne dotyczące zysków przedsiębiorstw dla każdej linii trendu w latach 1995-2004.

    Proszę o prognozę zysków przedsiębiorstwa na lata 2003 i 2004.

Rozwiązanie problemu

    W obszarze komórek A4:C11 arkusza Excel wpisz arkusz pokazany na ryc. 4.

    Po wybraniu zakresu komórek B4:C11 budujemy diagram.

    Aktywujemy skonstruowany diagram i zgodnie z metodą opisaną powyżej, po wybraniu rodzaju linii trendu w oknie dialogowym Linia trendu (patrz rys. 1), dodajemy do wykresu naprzemiennie linie trendu liniowego, kwadratowego i sześciennego. W tym samym oknie dialogowym należy otworzyć zakładkę Parametry (patrz rys. 2), w polu Nazwa krzywej aproksymowanej (wygładzanej) wpisać nazwę dodawanego trendu, a w polu Prognoza do przodu na: okresy ustawić wartość wartość 2, ponieważ planuje się sporządzenie prognozy zysków na dwa lata do przodu. Aby wyświetlić równanie regresji i wartość niezawodności aproksymacji R2 w obszarze diagramu, należy włączyć opcję pokazywania równania na ekranie i umieścić na wykresie wartość wiarygodności aproksymacji (R^2). Dla lepszej percepcji wizualnej zmieniamy rodzaj, kolor i grubość konstruowanych linii trendu, do czego służy zakładka Widok okna dialogowego Format linii trendu (patrz rys. 3). Powstały diagram z dodanymi liniami trendu pokazano na ryc. 5.

    Uzyskanie danych tabelarycznych o zyskach przedsiębiorstw dla każdej linii trendu za lata 1995-2004. Skorzystajmy z równań linii trendu przedstawionych na ryc. 5. W tym celu w komórkach zakresu D3:F3 należy wpisać informację tekstową o rodzaju wybranej linii trendu: Trend liniowy, Trend kwadratowy, Trend sześcienny. Następnie wpisz formułę regresji liniowej w komórce D4 i korzystając ze znacznika wypełnienia, skopiuj tę formułę z odniesieniami względnymi do zakresu komórek D5:D13. Należy zaznaczyć, że każda komórka posiadająca formułę regresji liniowej z zakresu komórek D4:D13 ma jako argument odpowiadającą komórkę z zakresu A4:A13. Podobnie w przypadku regresji kwadratowej wypełnij zakres komórek E4:E13, a w przypadku regresji sześciennej wypełnij zakres komórek F4:F13. W związku z tym sporządzono prognozę zysków przedsiębiorstwa na lata 2003 i 2004. wykorzystując trzy trendy. Wynikową tabelę wartości pokazano na ryc. 6.

Problem 2

    Zbuduj diagram.

    Dodaj do wykresu linie trendu logarytmicznego, potęgowego i wykładniczego.

    Wyprowadź równania uzyskanych linii trendu, a także wartości niezawodności przybliżenia R2 dla każdej z nich.

    Korzystając z równań linii trendu, uzyskaj dane tabelaryczne dotyczące zysku przedsiębiorstwa dla każdej linii trendu za lata 1995-2002.

    Korzystając z tych linii trendu, sporządź prognozę zysków firmy na lata 2003 i 2004.

Rozwiązanie problemu

Kierując się metodologią podaną przy rozwiązaniu zadania 1, otrzymujemy diagram z dodanymi do niego liniami trendu logarytmicznego, potęgowego i wykładniczego (rys. 7). Następnie korzystając z otrzymanych równań linii trendu wypełniamy tabelę wartości zysku przedsiębiorstwa zawierającą przewidywane wartości na rok 2003 i 2004. (ryc. 8).

Na ryc. 5 i rys. widać, że model z trendem logarytmicznym odpowiada najniższej wartości niezawodności aproksymacji

R2 = 0,8659

Największe wartości R2 odpowiadają modelom o trendzie wielomianowym: kwadratowym (R2 = 0,9263) i sześciennym (R2 = 0,933).

Problem 3

Mając do dyspozycji tabelę danych o zyskach przedsiębiorstwa transportu samochodowego za lata 1995-2002 podaną w zadaniu 1 należy wykonać następujące czynności.

    Uzyskaj serie danych dla linii trendu liniowego i wykładniczego za pomocą funkcji TREND i GROW.

    Korzystając z funkcji TREND i WZROST, oszacuj prognozę zysków przedsiębiorstwa na lata 2003 i 2004.

    Utwórz diagram dla oryginalnych danych i wynikowych serii danych.

Rozwiązanie problemu

Skorzystajmy z arkusza ćwiczeń dla zadania 1 (patrz rys. 4). Zacznijmy od funkcji TREND:

    wybierz zakres komórek D4:D11, który należy wypełnić wartościami funkcji TREND odpowiadającymi znanym danym o zysku przedsiębiorstwa;

    Wywołaj polecenie Funkcja z menu Wstaw. W wyświetlonym oknie dialogowym Kreator funkcji wybierz funkcję TREND z kategorii Statystyka, a następnie kliknij przycisk OK. Tę samą operację można wykonać, klikając przycisk (Wstaw funkcję) na standardowym pasku narzędzi.

    W wyświetlonym oknie dialogowym Argumenty funkcji wprowadź zakres komórek C4:C11 w polu Znane_wartości_y; w polu Znane_wartości_x - zakres komórek B4:B11;

    Aby wprowadzona formuła stała się formułą tablicową należy użyć kombinacji klawiszy + + .

Formuła, którą wpisaliśmy w pasku formuły, będzie wyglądać następująco: =(TREND(C4:C11,B4:B11)).

W rezultacie zakres komórek D4:D11 zostaje wypełniony odpowiednimi wartościami funkcji TREND (rys. 9).

Sporządzenie prognozy zysków przedsiębiorstwa na lata 2003 i 2004. niezbędny:

    wybierz zakres komórek D12:D13, w którym zostaną wprowadzone wartości przewidywane przez funkcję TREND.

    wywołaj funkcję TREND i w wyświetlonym oknie Argumenty funkcji wpisz w polu Znane_wartości_y - zakres komórek C4:C11; w polu Znane_wartości_x - zakres komórek B4:B11; oraz w polu Nowe_wartości_x - zakres komórek B12:B13.

    zamień tę formułę w formułę tablicową, używając kombinacji klawiszy Ctrl + Shift + Enter.

    Wprowadzona formuła będzie wyglądać następująco: =(TREND(C4:C11;B4:B11;B12:B13)), a zakres komórek D12:D13 zostanie wypełniony przewidywanymi wartościami funkcji TREND (patrz rys. 9).

Serię danych wypełnia się w podobny sposób za pomocą funkcji WZROST, która służy do analizy zależności nieliniowych i działa dokładnie tak samo, jak jej liniowy odpowiednik TREND.

Rysunek 10 przedstawia tabelę w trybie wyświetlania formuły.

Dla danych początkowych i otrzymanych serii danych schemat pokazany na rys. jedenaście.

Problem 4

Mając tabelę danych o przyjęciu zleceń na usługi przez spedycję przedsiębiorstwa transportu samochodowego za okres od 1 do 11 dnia bieżącego miesiąca, należy wykonać następujące czynności.

    Uzyskaj serie danych dla regresji liniowej: za pomocą funkcji SLOPE i INTERCEPT; za pomocą funkcji REGLINP.

    Uzyskaj serię danych dla regresji wykładniczej za pomocą funkcji LGRFPRIBL.

    Korzystając z powyższych funkcji, sporządź prognozę wpływu wniosków do działu spedycyjnego na okres od 12 do 14 dnia bieżącego miesiąca.

    Utwórz diagram dla oryginalnej i otrzymanej serii danych.

Rozwiązanie problemu

Należy zauważyć, że w przeciwieństwie do funkcji TREND i WZROST, żadna z funkcji wymienionych powyżej (NACHYLENIE, PRZECIĘCIE, REGLINP, LGRFPRIB) nie jest regresją. Funkcje te pełnią jedynie rolę pomocniczą, wyznaczając niezbędne parametry regresji.

W przypadku regresji liniowych i wykładniczych budowanych za pomocą funkcji SLOPE, INTERCEPT, LINEST, LGRFPRIB zawsze znany jest wygląd ich równań, w przeciwieństwie do regresji liniowych i wykładniczych odpowiadających funkcjom TREND i GROWTH.

1 . Zbudujmy regresję liniową za pomocą równania:

y = mx+b

za pomocą funkcji SLOPE i INTERCEPT, przy czym nachylenie regresji m jest określone funkcją SLOPE, a człon wolny b jest funkcją INTERCEPT.

W tym celu wykonujemy następujące czynności:

    wprowadź oryginalną tabelę do zakresu komórek A4:B14;

    wartość parametru m zostanie określona w komórce C19. Wybierz funkcję Nachylenie z kategorii Statystyka; wpisz zakres komórek B4:B14 w polu znane_wartości_y oraz zakres komórek A4:A14 w polu znane_wartości_x. Formuła zostanie wpisana w komórkę C19: =NACHYLENIE(B4:B14,A4:A14);

    W podobny sposób określa się wartość parametru b w komórce D19. A jego zawartość będzie wyglądać następująco: =SEGMENT(B4:B14,A4:A14). Zatem wartości parametrów m i b wymagane do skonstruowania regresji liniowej zostaną zapisane odpowiednio w komórkach C19, D19;

    Następnie wprowadź formułę regresji liniowej do komórki C4 w postaci: =$C*A4+$D. W tej formule komórki C19 i D19 zapisywane są z odwołaniami bezwzględnymi (adres komórki nie powinien zmieniać się podczas ewentualnego kopiowania). Znak odniesienia bezwzględnego $ można wpisać z klawiatury lub przy pomocy klawisza F4, po umieszczeniu kursora na adresie komórki. Używając uchwytu wypełniania, skopiuj tę formułę do zakresu komórek C4:C17. Otrzymujemy wymagane serie danych (ryc. 12). Z uwagi na to, że liczba żądań jest liczbą całkowitą, należy w zakładce Liczba okna Format komórki ustawić format liczb z liczbą miejsc po przecinku na 0.

2 . Zbudujmy teraz regresję liniową określoną równaniem:

y = mx+b

za pomocą funkcji REGLINP.

Dla tego:

    Wprowadź funkcję REGLINP jako formułę tablicową w zakresie komórek C20:D20: =(LINEST(B4:B14,A4:A14)). W rezultacie otrzymujemy wartość parametru m w komórce C20 i wartość parametru b w komórce D20;

    wpisz formułę w komórce D4: =$C*A4+$D;

    skopiuj tę formułę za pomocą znacznika wypełnienia do zakresu komórek D4:D17 i uzyskaj żądaną serię danych.

3 . Regresję wykładniczą budujemy za pomocą równania:

przy pomocy funkcji LGRFPRIBL robi się to analogicznie:

    W zakresie komórek C21:D21 wpisujemy funkcję LGRFPRIBL w postaci formuły tablicowej: =( LGRFPRIBL (B4:B14,A4:A14)). W tym przypadku wartość parametru m zostanie określona w komórce C21, a wartość parametru b zostanie określona w komórce D21;

    formułę wpisuje się do komórki E4: =$D*$C^A4;

    za pomocą znacznika wypełnienia formuła ta jest kopiowana do zakresu komórek E4:E17, gdzie będzie zlokalizowany szereg danych dla regresji wykładniczej (patrz rys. 12).

Na ryc. Rysunek 13 przedstawia tabelę, w której możesz zobaczyć funkcje, których używamy z wymaganymi zakresami komórek, a także formuły.

Ogrom R 2 zwany współczynnik determinacji.

Zadaniem konstrukcji zależności regresyjnej jest znalezienie wektora współczynników m modelu (1), przy którym współczynnik R przyjmuje wartość maksymalną.

Do oceny istotności R wykorzystuje się test F Fishera, obliczany ze wzoru

Gdzie N- wielkość próby (liczba eksperymentów);

k jest liczbą współczynników modelu.

Jeśli F przekracza pewną wartość krytyczną dla danych N I k i przyjęte prawdopodobieństwo ufności, wówczas wartość R uważa się za znaczącą. Stoły wartości krytyczne F podano w podręcznikach statystyki matematycznej.

Zatem o istotności R decyduje nie tylko jego wartość, ale także stosunek liczby eksperymentów do liczby współczynników (parametrów) modelu. Rzeczywiście, współczynnik korelacji dla n=2 dla prostego modelu liniowego wynosi 1 (pojedynczą linię prostą można zawsze poprowadzić przez 2 punkty na płaszczyźnie). Jeśli jednak danymi eksperymentalnymi są zmienne losowe, takiej wartości R należy ufać z dużą ostrożnością. Zwykle, aby uzyskać istotny R i wiarygodną regresję, dążą do tego, aby liczba eksperymentów znacznie przekraczała liczbę współczynników modelu (n>k).

Aby zbudować model regresji liniowej, potrzebujesz:

1) przygotować listę n wierszy i m kolumn zawierających dane eksperymentalne (kolumna zawierająca wartość wyjściową Y musi być pierwszy lub ostatni na liście); Weźmy np. dane z poprzedniego zadania, dodając kolumnę „Nr okresu”, ponumerujmy numery okresów od 1 do 12. (będą to wartości X)

2) przejdź do menu Dane/Analiza danych/Regresja

Jeżeli w menu „Narzędzia” brakuje pozycji „Analiza danych”, należy w tym samym menu przejść do pozycji „Dodatki” i zaznaczyć pole wyboru „Pakiet analiz”.

3) w oknie dialogowym „Regresja” ustaw:

· przedział wejściowy Y;

· przedział wejściowy X;

· przedział wyjściowy - lewa górna komórka przedziału, w którym będą umieszczane wyniki obliczeń (zaleca się umieszczenie ich na nowym arkuszu);

4) kliknij „OK” i przeanalizuj wyniki.

Który znajduje najwięcej szerokie zastosowanie w różnych dziedzinach nauki i działalności praktycznej. Może to być fizyka, chemia, biologia, ekonomia, socjologia, psychologia i tak dalej. Zrządzeniem losu często muszę zajmować się gospodarką, dlatego dziś zorganizuję dla Was wycieczkę do niesamowitego kraju zwanego Ekonometria=) ...Jak możesz tego nie chcieć?! Jest tam bardzo dobrze – trzeba się tylko zdecydować! ...Ale prawdopodobnie na pewno chcesz nauczyć się rozwiązywać problemy metoda najmniejszych kwadratów. A szczególnie pilni czytelnicy nauczą się je rozwiązywać nie tylko dokładnie, ale i BARDZO SZYBKO ;-) Ale najpierw ogólne przedstawienie problemu+ dołączony przykład:

Załóżmy, że w pewnym obszarze tematycznym badane są wskaźniki, które mają wyraz ilościowy. Jednocześnie istnieją podstawy, aby sądzić, że wskaźnik zależy od wskaźnika. Założenie to może być hipotezą naukową lub opierać się na podstawowym zdrowym rozsądku. Zostawmy jednak naukę na boku i zajmijmy się bardziej apetycznymi rejonami – czyli sklepami spożywczymi. Oznaczmy przez:

– powierzchnia handlowa sklepu spożywczego mkw.,
– roczny obrót sklepu spożywczego, mln rubli.

Jest całkowicie jasne, że im większa powierzchnia sklepu, tym w większości przypadków większe będą jego obroty.

Załóżmy, że po przeprowadzeniu obserwacji/eksperymentów/obliczeń/tańców z tamburynem dysponujemy danymi liczbowymi:

W przypadku sklepów spożywczych myślę, że wszystko jest jasne: - jest to powierzchnia pierwszego sklepu, - jego roczny obrót, - powierzchnia drugiego sklepu, - jego roczny obrót itp. Notabene posiadanie dostępu do materiałów niejawnych wcale nie jest konieczne – w miarę dokładną ocenę obrotów handlowych można uzyskać za pomocą statystyka matematyczna. Jednak nie dajmy się rozpraszać, kurs szpiegostwa komercyjnego jest już opłacony =)

Dane tabelaryczne można również zapisać w formie punktów i przedstawić w znanej formie System kartezjański .

Odpowiemy ważne pytanie: Ile punktów potrzeba do badania jakościowego?

Im większy tym lepszy. Minimalny akceptowalny set to 5-6 punktów. Ponadto, gdy ilość danych jest niewielka, nie można uwzględnić w próbie wyników „anomalnych”. Na przykład mały elitarny sklep może zarobić o rząd wielkości więcej niż „jego koledzy”, tym samym zniekształcając ogólny wzór, to jest to, co musisz znaleźć!

Mówiąc najprościej, musimy wybrać funkcję, harmonogram który przechodzi jak najbliżej punktów . Ta funkcja nazywa się przybliżanie (przybliżenie - przybliżenie) Lub funkcja teoretyczna . Ogólnie rzecz biorąc, natychmiast pojawia się tutaj oczywisty „kontener” - wielomian wysokiego stopnia, którego wykres przechodzi przez WSZYSTKIE punkty. Ale ta opcja jest skomplikowana i często po prostu niepoprawna. (ponieważ wykres będzie się cały czas „zapętlał” i słabo odzwierciedlał główny trend).

Zatem poszukiwana funkcja musi być dość prosta i jednocześnie odpowiednio odzwierciedlać zależność. Jak można się domyślić, jedna z metod znajdowania takich funkcji nazywa się metoda najmniejszych kwadratów. Najpierw przyjrzyjmy się jego istocie ogólna perspektywa. Niech jakaś funkcja przybliży dane eksperymentalne:


Jak ocenić dokładność tego przybliżenia? Obliczmy także różnice (odchylenia) między eksperymentalnym a znaczenia funkcjonalne (studiujemy rysunek). Pierwszą myślą, która przychodzi na myśl, jest oszacowanie, jak duża jest to suma, problem jednak polega na tym, że różnice mogą być ujemne (Na przykład, ) a odchylenia powstałe w wyniku takiego sumowania będą się wzajemnie znosić. Dlatego też jako oszacowanie dokładności przybliżenia aż prosi się o przyjęcie sumy moduły odchylenia:

lub upadł: (gdyby ktoś nie wiedział: – to ikona sumy, oraz – pomocnicza zmienna „licznik”, która przyjmuje wartości od 1 do ).

Przybliżenie punktów doświadczalnych różne funkcje, otrzymamy różne znaczenia i oczywiście tam, gdzie ta wielkość jest mniejsza, funkcja ta jest dokładniejsza.

Taka metoda istnieje i nazywa się metoda najmniejszego modułu. Jednak w praktyce stało się to znacznie bardziej powszechne metoda najmniejszych kwadratów, w którym możliwe wartości ujemne są eliminowane nie przez moduł, ale przez podniesienie odchyleń do kwadratu:

, po czym dąży się do wybrania takiej funkcji, która będzie sumą kwadratów odchyleń był tak mały, jak to tylko możliwe. Właściwie stąd wzięła się nazwa tej metody.

A teraz wracamy do czegoś innego ważny punkt: jak wspomniano powyżej, wybrana funkcja powinna być dość prosta - ale takich funkcji jest również wiele: liniowy , hiperboliczny, wykładniczy, logarytmiczny, kwadratowy itp. I oczywiście tutaj chciałbym od razu „zmniejszyć pole działania”. Jaką klasę funkcji wybrać do badań? Prymitywne, ale skuteczna technika:

– Najłatwiej jest przedstawić punkty na rysunku i przeanalizuj ich położenie. Jeśli mają tendencję do biegania w linii prostej, powinieneś poszukać równanie linii Z wartości optymalne I . Inaczej mówiąc, zadaniem jest znaleźć TAKIE współczynniki, aby suma kwadratów odchyleń była jak najmniejsza.

Jeśli punkty znajdują się np. wzdłuż hiperbola, to jest oczywiste, że funkcja liniowa daje słabe przybliżenie. W tym przypadku szukamy najbardziej „korzystnych” współczynników dla równania hiperboli – takie, które dają minimalną sumę kwadratów .

Teraz zauważ, że w obu przypadkach mówimy funkcje dwóch zmiennych, którego argumentami są szukane parametry zależności:

Zasadniczo musimy rozwiązać standardowy problem - znaleźć funkcja minimalna dwóch zmiennych.

Przypomnijmy nasz przykład: załóżmy, że punkty „sklepowe” zwykle leżą w linii prostej i istnieją podstawy, aby tak sądzić zależność liniowa obrotów z powierzchni handlowej. Znajdźmy TAKIE współczynniki „a” i „be” takie, że suma kwadratów odchyleń był najmniejszy. Wszystko jest jak zwykle - najpierw Pochodne cząstkowe pierwszego rzędu. Według reguła liniowości Możesz rozróżnić bezpośrednio pod ikoną sumy:

Jeśli chcesz skorzystać ta informacja za esej lub zajęcia - będę bardzo wdzięczny za link w wykazie źródeł tak szczegółowe wyliczenia znajdziesz w kilku miejscach:

Stwórzmy standardowy system:

Każde równanie redukujemy o „dwa” i dodatkowo „rozbijamy” sumy:

Notatka : niezależnie przeanalizuj, dlaczego „a” i „być” można wyjąć poza ikoną sumy. Nawiasem mówiąc, formalnie można to zrobić za pomocą sumy

Przepiszmy system w formie „stosowanej”:

po czym zaczyna się wyłaniać algorytm rozwiązania naszego problemu:

Czy znamy współrzędne punktów? Wiemy. Kwoty czy możemy to znaleźć? Łatwo. Zróbmy najprostsze układ dwóch równań liniowych z dwiema niewiadomymi(„a” i „być”). Rozwiązujemy układ np. Metoda Cramera, w wyniku czego otrzymujemy punkt stacjonarny. Kontrola warunek wystarczający na ekstremum, możemy sprawdzić, że w tym momencie funkcja osiąga dokładnie minimum. Sprawdzenie wiąże się z dodatkowymi obliczeniami, dlatego pozostawimy to za kulisami (w razie potrzeby można obejrzeć brakującą klatkę). Wyciągamy ostateczny wniosek:

Funkcjonować Najlepszym sposobem (przynajmniej w porównaniu z jakąkolwiek inną funkcją liniową) przybliża punkty doświadczalne . Z grubsza rzecz biorąc, jego wykres przebiega jak najbliżej tych punktów. W tradycji ekonometria wynikowa funkcja aproksymująca jest również nazywana sparowane równanie regresji liniowej .

Rozważany problem ma duże znaczenie praktyczne. W naszej przykładowej sytuacji równanie. pozwala przewidzieć jakie obroty handlowe („Igrek”) sklep będzie miał taką czy inną wartość powierzchni sprzedażowej (takie czy inne znaczenie „x”). Tak, powstała prognoza będzie jedynie prognozą, ale w wielu przypadkach okaże się dość dokładna.

Przeanalizuję tylko jeden problem z liczbami „prawdziwymi”, ponieważ nie ma w nim żadnych trudności - wszystkie obliczenia są na poziomie program nauczania 7-8 klas. W 95 procentach przypadków zostaniesz poproszony o znalezienie tylko funkcji liniowej, ale na samym końcu artykułu pokażę, że znalezienie równań optymalnej hiperboli, funkcji wykładniczej i niektórych innych nie jest już trudniejsze.

Tak naprawdę pozostaje tylko rozdać obiecane gadżety - abyście mogli nauczyć się rozwiązywać takie przykłady nie tylko dokładnie, ale i szybko. Dokładnie badamy standard:

Zadanie

W wyniku badania zależności pomiędzy dwoma wskaźnikami otrzymano następujące pary liczb:

Korzystając z metody najmniejszych kwadratów, znajdź funkcję liniową, która najlepiej przybliża funkcję empiryczną (doświadczony) dane. Wykonaj rysunek, na podstawie którego skonstruujesz punkty doświadczalne oraz wykres funkcji aproksymującej w prostokątnym układzie współrzędnych kartezjańskich . Znajdź sumę kwadratów odchyleń między wartościami empirycznymi i teoretycznymi. Dowiedz się, czy ta funkcja byłaby lepsza (z punktu widzenia metody najmniejszych kwadratów) przybliżyć punkty doświadczalne.

Należy pamiętać, że znaczenia „x” są naturalne i ma to charakterystyczne znaczenie znaczące, o którym opowiem nieco później; ale oczywiście mogą być również ułamkowe. Ponadto, w zależności od treści konkretnego zadania, zarówno wartości „X”, jak i „gry” mogą być całkowicie lub częściowo ujemne. Cóż, dostaliśmy zadanie „bez twarzy” i zaczynamy je rozwiązanie:

Szanse optymalna funkcja jako rozwiązanie układu znajdujemy:

W celu bardziej zwięzłego zapisu można pominąć zmienną „licznik”, ponieważ jest już jasne, że sumowanie odbywa się od 1 do .

Wygodniej jest obliczyć wymagane kwoty w formie tabelarycznej:


Obliczenia można przeprowadzić na mikrokalkulatorze, ale znacznie lepiej jest korzystać z Excela - zarówno szybciej, jak i bez błędów; obejrzyj krótki film:

W ten sposób otrzymujemy, co następuje system:

Tutaj możesz pomnożyć drugie równanie przez 3 i odejmij drugie od pierwszego równania wyraz po wyrazie. Ale to szczęście – w praktyce systemy często nie są prezentem, a w takich przypadkach oszczędzają Metoda Cramera:
co oznacza, że ​​system posiada unikalne rozwiązanie.

Sprawdźmy. Rozumiem, że nie chcesz, ale po co pomijać błędy, których absolutnie nie da się przeoczyć? Podstawmy znalezione rozwiązanie do lewa strona każde równanie układu:

Otrzymuje się prawe strony odpowiednich równań, co oznacza, że ​​układ jest rozwiązany poprawnie.

Zatem pożądana funkcja aproksymująca: – od wszystkie funkcje liniowe To ona najlepiej przybliża dane eksperymentalne.

w odróżnieniu prosty zależności obrotów sklepu od jego powierzchni, znaleziona zależność wynosi odwracać (zasada „im więcej, tym mniej”), a fakt ten jest natychmiast ujawniany przez negatyw nachylenie. Funkcjonować mówi nam, że wraz ze wzrostem pewnego wskaźnika o 1 jednostkę wartość wskaźnika zależnego maleje przeciętny o 0,65 jednostki. Jak mówią, im wyższa cena gryki, tym mniej się jej sprzedaje.

Aby wykreślić wykres funkcji aproksymującej, znajdujemy jej dwie wartości:

i wykonaj rysunek:


Zbudowana linia prosta nazywa się linia trendu (mianowicie liniowa linia trendu, tj przypadek ogólny trend niekoniecznie jest linią prostą). Każdemu znane jest wyrażenie „być w trendzie” i myślę, że to określenie nie wymaga dodatkowego komentarza.

Obliczmy sumę kwadratów odchyleń pomiędzy wartościami empirycznymi i teoretycznymi. Geometrycznie jest to suma kwadratów długości odcinków „malinowych”. (z czego dwa są tak małe, że nawet ich nie widać).

Podsumujmy obliczenia w tabeli:


Ponownie można to zrobić ręcznie; na wszelki wypadek podam przykład dla pierwszego punktu:

ale o wiele skuteczniej jest zrobić to w znany już sposób:

Powtarzamy jeszcze raz: Jakie jest znaczenie uzyskanego wyniku? Z wszystkie funkcje liniowe funkcja wskaźnik jest najmniejszy, czyli w swojej rodzinie jest najlepszym przybliżeniem. I tutaj, nawiasem mówiąc, ostatnie pytanie problemu nie jest przypadkowe: co by było, gdyby proponowana funkcja wykładnicza czy lepiej byłoby przybliżyć punkty eksperymentalne?

Znajdźmy odpowiednią sumę kwadratów odchyleń - dla rozróżnienia oznaczę je literą „epsilon”. Technika jest dokładnie taka sama:


I znowu, na wszelki wypadek, obliczenia dla 1. punktu:

W Excelu używamy funkcji standardowej DO POTĘGI (składnię można znaleźć w Pomocy programu Excel).

Wniosek: , co oznacza, że ​​funkcja wykładnicza przybliża punkty eksperymentalne gorzej niż linia prosta .

Ale tutaj należy zauważyć, że „gorsze” jest nie znaczy jeszcze, co jest nie tak. Teraz stworzyłem taki wykres funkcja wykładnicza– i również przechodzi blisko punktów - do tego stopnia, że ​​bez badań analitycznych trudno stwierdzić, która funkcja jest dokładniejsza.

Na tym kończy się rozwiązanie i wracam do kwestii naturalnych wartości argumentu. W różne badania z reguły ekonomiczne lub socjologiczne naturalne „X” służą do numerowania miesięcy, lat lub innych równych przedziałów czasu. Rozważmy na przykład następujący problem.

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów ( OLS, OLS, zwykła metoda najmniejszych kwadratów) - jedna z podstawowych metod analizy regresji służąca do estymacji nieznanych parametrów modeli regresji na podstawie przykładowych danych. Metoda polega na minimalizacji sumy kwadratów reszt regresji.

Należy zauważyć, że samą metodę najmniejszych kwadratów można nazwać metodą rozwiązywania problemu w dowolnym obszarze, jeśli rozwiązanie leży lub spełnia jakieś kryterium minimalizacji sumy kwadratów niektórych funkcji wymaganych zmiennych. Zatem metodę najmniejszych kwadratów można zastosować także do przybliżonego przedstawienia (aproksymacji) danej funkcji przez inne (prostsze) funkcje, gdy znajdujemy zbiór wielkości spełniających równania lub ograniczenia, których liczba przekracza liczbę tych wielkości itp.

Esencja MNC

Niech zostanie podany jakiś (parametryczny) model probabilistycznej (regresji) zależności pomiędzy (objaśnioną) zmienną y i wiele czynników (zmiennych objaśniających) X

gdzie jest wektorem nieznanych parametrów modelu

- losowy błąd modelu.

Niech będą też przykładowe obserwacje wartości tych zmiennych. Niech będzie numerem obserwacji (). Następnie są wartości zmiennych w obserwacji. Następnie dla zadanych wartości parametrów b można obliczyć teoretyczne (modelowe) wartości zmiennej objaśnianej y:

Wielkość reszt zależy od wartości parametrów b.

Istotą metody najmniejszych kwadratów (zwykłej, klasycznej) jest znalezienie parametrów b, dla których suma kwadratów reszt (ang. Pozostała suma kwadratów) będzie minimalne:

W ogólnym przypadku problem ten można rozwiązać metodami optymalizacji numerycznej (minimalizacji). W tym przypadku o tym mówią nieliniowa metoda najmniejszych kwadratów(NLS lub NLLS – angielski) Nieliniowa metoda najmniejszych kwadratów). W wielu przypadkach możliwe jest otrzymanie rozwiązania analitycznego. Aby rozwiązać problem minimalizacji, należy znaleźć punkty stacjonarne funkcji, różniczkując ją ze względu na nieznane parametry b, przyrównując pochodne do zera i rozwiązując otrzymany układ równań:

Jeśli błędy losowe modelu mają rozkład normalny, mają tę samą wariancję i są nieskorelowane, oszacowania parametrów OLS są takie same jak oszacowania największej wiarygodności (MLM).

OLS w przypadku modelu liniowego

Niech zależność regresji będzie liniowa:

Pozwalać y jest wektorem kolumnowym obserwacji zmiennej objaśnianej i jest macierzą obserwacji czynnikowych (wiersze macierzy są wektorami wartości czynników w tę obserwację, w kolumnach - wektor wartości danego współczynnika we wszystkich obserwacjach). Reprezentacja macierzowa modelu liniowego ma postać:

Wtedy wektor oszacowań zmiennej objaśnianej i wektor reszt regresji będą równe

W związku z tym suma kwadratów reszt regresji będzie równa

Różniczkując tę ​​funkcję względem wektora parametrów i przyrównując pochodne do zera, otrzymujemy układ równań (w postaci macierzowej):

.

Rozwiązanie tego układu równań daje ogólna formuła Szacunki OLS dla modelu liniowego:

Dla celów analitycznych przydatna jest druga reprezentacja tego wzoru. Jeśli w modelu regresji dane wyśrodkowany, wówczas w tej reprezentacji pierwsza macierz ma znaczenie przykładowej macierzy kowariancji czynników, a druga jest wektorem kowariancji czynników ze zmienną zależną. Jeśli dodatkowo dane są również znormalizowany do MSE (czyli ostatecznie standaryzowane), wówczas pierwsza macierz ma znaczenie przykładowej macierzy korelacji czynników, drugi wektor - wektor przykładowych korelacji czynników ze zmienną zależną.

Ważna właściwość szacunków OLS dla modeli ze stałą- linia skonstruowanej regresji przechodzi przez środek ciężkości danych próbnych, czyli spełniona jest równość:

W szczególności w skrajnym przypadku, gdy jedynym regresorem jest stała, stwierdzamy, że estymacja OLS jedynego parametru (samej stałej) jest równa średniej wartości zmiennej objaśnianej. Oznacza to, że średnia arytmetyczna jest znana dobre właściwości z praw wielkich liczb, jest jednocześnie oszacowaniem metodą najmniejszych kwadratów – spełnia kryterium minimalnej sumy kwadratów odchyleń od niego.

Przykład: najprostsza regresja (parami).

W przypadku sparowanej regresji liniowej wzory obliczeniowe są uproszczone (można obejść się bez algebry macierzowej):

Własności estymatorów OLS

Przede wszystkim zauważamy, że dla modeli liniowych szacunki OLS są szacunki liniowe, jak wynika z powyższego wzoru. W przypadku bezstronnych szacunków OLS jest to konieczne i wystarczające do wykonania najważniejszy warunek analiza regresji: w zależności od czynników matematyczne oczekiwanie błędu losowego musi być równe zero. Ten stan w szczególności jest spełniony, jeśli

  1. wartość oczekiwana błędy losowe wynoszą zero, oraz
  2. czynniki i błędy losowe są niezależnymi zmiennymi losowymi.

Warunek drugi – warunek egzogeniczności czynników – jest zasadniczy. Jeśli ta właściwość nie jest spełniona, możemy założyć, że prawie wszystkie szacunki będą wyjątkowo niezadowalające: nie będą nawet spójne (to znaczy nawet bardzo duża ilość danych nie pozwala nam w tym przypadku uzyskać szacunków wysokiej jakości) ). W klasycznym przypadku przyjmuje się mocniejsze założenie o determinizmie czynników, w przeciwieństwie do błędu losowego, co automatycznie oznacza, że ​​warunek egzogeniczności jest spełniony. W ogólnym przypadku, dla spójności estymatorów wystarczy spełnienie warunku egzogeniczności wraz ze zbieżnością macierzy do jakiejś macierzy nieosobliwej w miarę zwiększania się liczebności próby do nieskończoności.

Aby oprócz spójności i bezstronności estymacje metodą (zwykłych) najmniejszych kwadratów były także efektywne (najlepsze w klasie estymatorów liniowych nieobciążonych), muszą zostać spełnione dodatkowe właściwości błędu losowego:

Założenia te można sformułować dla macierzy kowariancji wektora błędu losowego

Model liniowy spełniający te warunki nazywa się klasyczny. Szacunki OLS dla klasycznej regresji liniowej są bezstronnymi, spójnymi i najbardziej efektywnymi estymacjami w klasie wszystkich liniowych nieobciążonych estymatorów (w literaturze angielskiej czasami używany jest skrót NIEBIESKI (Najlepszy liniowy estymator niepodparty) - najlepsze liniowe, nieobciążone oszacowanie; w literaturze rosyjskiej częściej przytacza się twierdzenie Gaussa-Markowa). Jak łatwo wykazać, macierz kowariancji wektora oszacowań współczynników będzie równa:

Uogólnione OLS

Metoda najmniejszych kwadratów pozwala na szerokie uogólnienia. Zamiast minimalizować sumę kwadratów reszt, można zminimalizować pewną dodatnio określoną postać kwadratową wektora reszt, gdzie jest pewna symetryczna macierz dodatnich określonych wag. Szczególnym przypadkiem tego podejścia są konwencjonalne metody najmniejszych kwadratów, gdzie macierz wag jest proporcjonalna do macierzy jednostkowej. Jak wiadomo z teorii macierzy symetrycznych (lub operatorów), dla takich macierzy następuje rozkład. W związku z tym określony funkcjonał można przedstawić w następujący sposób, to znaczy funkcjonał ten można przedstawić jako sumę kwadratów niektórych przekształconych „reszt”. Można zatem wyróżnić klasę metod najmniejszych kwadratów – metody LS (ang. Least Squares).

Udowodniono (twierdzenie Aitkena), że dla uogólnionego modelu regresji liniowej (w którym nie nakłada się ograniczeń na macierz kowariancji błędów losowych) najbardziej efektywne (w klasie liniowych estymatorów nieobciążonych) są tzw. estymaty. uogólnione najmniejsze kwadraty (GLS – uogólnione najmniejsze kwadraty)- metoda LS z macierzą wag równą macierzy odwrotnej kowariancji błędów losowych: .

Można wykazać, że wzór na estymatory GLS parametrów modelu liniowego ma postać

Macierz kowariancji tych szacunków będzie odpowiednio równa

Tak naprawdę istota OLS polega na pewnej (liniowej) transformacji (P) danych pierwotnych i zastosowaniu zwykłego OLS do danych przekształconych. Celem tej transformacji jest to, że dla przekształconych danych błędy losowe spełniają już klasyczne założenia.

Ważony OLS

W przypadku diagonalnej macierzy wag (a więc i macierzy kowariancji błędów losowych) mamy do czynienia z tzw. ważoną metodą najmniejszych kwadratów (WLS). W w tym przypadku ważona suma kwadratów reszt modelu jest minimalizowana, to znaczy każda obserwacja otrzymuje „wagę” odwrotnie proporcjonalną do wariancji błędu losowego w tej obserwacji: . W rzeczywistości dane są przekształcane poprzez ważenie obserwacji (podzielenie przez kwotę proporcjonalną do oczekiwanej odchylenie standardowe błędy losowe), a do danych ważonych stosuje się zwykłą metodę OLS.

Kilka szczególnych przypadków wykorzystania MNC w praktyce

Aproksymacja zależności liniowej

Rozważmy przypadek, gdy w wyniku badania zależności pewnej wielkości skalarnej od pewnej wielkości skalarnej (może to być na przykład zależność napięcia od natężenia prądu: , gdzie jest wartością stałą, rezystancja przewodnik) przeprowadzono pomiary tych wielkości, w wyniku czego otrzymano wartości i odpowiadające im wartości. Dane pomiarowe należy zapisać w tabeli.

Tabela. Wyniki pomiarów.

Pomiar nr.
1
2
3
4
5
6

Pytanie brzmi: jaką wartość współczynnika można wybrać, aby najlepiej opisać zależność? Według metody najmniejszych kwadratów wartość ta powinna być taka, aby suma kwadratów odchyleń wartości od wartości

był minimalny

Suma kwadratów odchyleń ma jedno ekstremum – minimum, co pozwala nam zastosować ten wzór. Znajdźmy z tego wzoru wartość współczynnika. Aby to zrobić, przekształcamy jego lewą stronę w następujący sposób:

Ostatni wzór pozwala nam znaleźć wartość współczynnika, czyli to, co było wymagane w zadaniu.

Fabuła

Zanim początek XIX V. naukowcy nie mieli pewnych zasad rozwiązywania układu równań, w którym liczba niewiadomych jest mniejsza niż liczba równań; Do tego czasu stosowano techniki prywatne, zależne od rodzaju równań i dowcipu kalkulatorów, dlatego też pojawiły się różne kalkulatory, bazujące na tych samych danych obserwacyjnych. różne wnioski. Za pierwsze zastosowanie tej metody odpowiedzialny był Gauss (1795), a Legendre (1805) niezależnie odkrył ją i opublikował pod tytułem nowoczesna nazwa(fr. Méthode des moindres quarrés ) . Laplace powiązał tę metodę z teorią prawdopodobieństwa, a amerykański matematyk Adrain (1808) rozważał jej zastosowania w teorii prawdopodobieństwa. Metoda ta była szeroko rozpowszechniona i udoskonalona dzięki dalszym badaniom Encke, Bessela, Hansena i innych.

Alternatywne zastosowania OLS

Ideę metody najmniejszych kwadratów można zastosować także w innych przypadkach niezwiązanych bezpośrednio z analizą regresji. Faktem jest, że suma kwadratów jest jedną z najczęstszych miar bliskości wektorów (metryka euklidesowa w przestrzeniach skończenie wymiarowych).

Jednym z zastosowań jest „rozwiązywanie” systemów równania liniowe, w którym liczba równań więcej numeru zmienne

gdzie macierz nie jest kwadratowa, ale prostokątna.

Taki układ równań w ogólnym przypadku nie ma rozwiązania (jeśli ranga jest rzeczywiście większa niż liczba zmiennych). Zatem układ ten można „rozwiązać” jedynie w sensie doboru takiego wektora, aby zminimalizować „odległość” pomiędzy wektorami a . Aby to zrobić, możesz zastosować kryterium minimalizacji sumy kwadratów różnic lewej i właściwe części równania układu, tj. Łatwo pokazać, że rozwiązanie tego problemu minimalizacji prowadzi do rozwiązania następny system równania

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów ( OLS, OLS, zwykła metoda najmniejszych kwadratów) - jedna z podstawowych metod analizy regresji służąca do estymacji nieznanych parametrów modeli regresji na podstawie przykładowych danych. Metoda polega na minimalizacji sumy kwadratów reszt regresji.

Należy zauważyć, że samą metodę najmniejszych kwadratów można nazwać metodą rozwiązywania problemu w dowolnym obszarze, jeśli rozwiązanie leży lub spełnia jakieś kryterium minimalizacji sumy kwadratów niektórych funkcji wymaganych zmiennych. Zatem metodę najmniejszych kwadratów można zastosować także do przybliżonego przedstawienia (aproksymacji) danej funkcji przez inne (prostsze) funkcje, gdy znajdujemy zbiór wielkości spełniających równania lub ograniczenia, których liczba przekracza liczbę tych wielkości itp.

Esencja MNC

Niech zostanie podany jakiś (parametryczny) model probabilistycznej (regresji) zależności pomiędzy (objaśnioną) zmienną y i wiele czynników (zmiennych objaśniających) X

gdzie jest wektorem nieznanych parametrów modelu

- losowy błąd modelu.

Niech będą też przykładowe obserwacje wartości tych zmiennych. Niech będzie numerem obserwacji (). Następnie są wartości zmiennych w obserwacji. Następnie dla zadanych wartości parametrów b można obliczyć teoretyczne (modelowe) wartości zmiennej objaśnianej y:

Wielkość reszt zależy od wartości parametrów b.

Istotą metody najmniejszych kwadratów (zwykłej, klasycznej) jest znalezienie parametrów b, dla których suma kwadratów reszt (ang. Pozostała suma kwadratów) będzie minimalne:

W ogólnym przypadku problem ten można rozwiązać metodami optymalizacji numerycznej (minimalizacji). W tym przypadku o tym mówią nieliniowa metoda najmniejszych kwadratów(NLS lub NLLS – angielski) Nieliniowa metoda najmniejszych kwadratów). W wielu przypadkach możliwe jest otrzymanie rozwiązania analitycznego. Aby rozwiązać problem minimalizacji, należy znaleźć punkty stacjonarne funkcji, różniczkując ją ze względu na nieznane parametry b, przyrównując pochodne do zera i rozwiązując otrzymany układ równań:

Jeśli błędy losowe modelu mają rozkład normalny, mają tę samą wariancję i są nieskorelowane, oszacowania parametrów OLS są takie same jak oszacowania największej wiarygodności (MLM).

OLS w przypadku modelu liniowego

Niech zależność regresji będzie liniowa:

Pozwalać y jest wektorem kolumnowym obserwacji zmiennej objaśnianej i jest macierzą obserwacji czynnikowych (wiersze macierzy są wektorami wartości czynników w danej obserwacji, kolumny są wektorem wartości danego czynnika we wszystkich obserwacjach). Reprezentacja macierzowa modelu liniowego ma postać:

Wtedy wektor oszacowań zmiennej objaśnianej i wektor reszt regresji będą równe

W związku z tym suma kwadratów reszt regresji będzie równa

Różniczkując tę ​​funkcję względem wektora parametrów i przyrównując pochodne do zera, otrzymujemy układ równań (w postaci macierzowej):

.

Rozwiązanie tego układu równań daje ogólny wzór na szacunki metodą najmniejszych kwadratów dla modelu liniowego:

Dla celów analitycznych przydatna jest druga reprezentacja tego wzoru. Jeśli w modelu regresji dane wyśrodkowany, wówczas w tej reprezentacji pierwsza macierz ma znaczenie przykładowej macierzy kowariancji czynników, a druga jest wektorem kowariancji czynników ze zmienną zależną. Jeśli dodatkowo dane są również znormalizowany do MSE (czyli ostatecznie standaryzowane), wówczas pierwsza macierz ma znaczenie przykładowej macierzy korelacji czynników, drugi wektor - wektor przykładowych korelacji czynników ze zmienną zależną.

Ważna właściwość szacunków OLS dla modeli ze stałą- linia skonstruowanej regresji przechodzi przez środek ciężkości danych próbnych, czyli spełniona jest równość:

W szczególności w skrajnym przypadku, gdy jedynym regresorem jest stała, stwierdzamy, że estymacja OLS jedynego parametru (samej stałej) jest równa średniej wartości zmiennej objaśnianej. Oznacza to, że średnia arytmetyczna, znana ze swoich dobrych własności z praw wielkich liczb, jest jednocześnie estymacją metodą najmniejszych kwadratów – spełnia kryterium minimalnej sumy kwadratów odchyleń od niej.

Przykład: najprostsza regresja (parami).

W przypadku sparowanej regresji liniowej wzory obliczeniowe są uproszczone (można obejść się bez algebry macierzowej):

Własności estymatorów OLS

Przede wszystkim zauważamy, że w przypadku modeli liniowych estymatory OLS są estymatorami liniowymi, jak wynika z powyższego wzoru. Dla obiektywnych estymatorów OLS konieczne i wystarczające jest spełnienie najważniejszego warunku analizy regresji: matematyczne oczekiwanie błędu losowego, uzależnione od czynników, musi być równe zero. Warunek ten jest w szczególności spełniony, jeżeli

  1. matematyczne oczekiwanie błędów losowych wynosi zero, oraz
  2. czynniki i błędy losowe są niezależnymi zmiennymi losowymi.

Warunek drugi – warunek egzogeniczności czynników – jest zasadniczy. Jeśli ta właściwość nie jest spełniona, możemy założyć, że prawie wszystkie szacunki będą wyjątkowo niezadowalające: nie będą nawet spójne (to znaczy nawet bardzo duża ilość danych nie pozwala nam w tym przypadku uzyskać szacunków wysokiej jakości) ). W klasycznym przypadku przyjmuje się mocniejsze założenie o determinizmie czynników, w przeciwieństwie do błędu losowego, co automatycznie oznacza, że ​​warunek egzogeniczności jest spełniony. W ogólnym przypadku, dla spójności estymatorów wystarczy spełnienie warunku egzogeniczności wraz ze zbieżnością macierzy do jakiejś macierzy nieosobliwej w miarę zwiększania się liczebności próby do nieskończoności.

Aby oprócz spójności i bezstronności estymacje metodą (zwykłych) najmniejszych kwadratów były także efektywne (najlepsze w klasie estymatorów liniowych nieobciążonych), muszą zostać spełnione dodatkowe właściwości błędu losowego:

Założenia te można sformułować dla macierzy kowariancji wektora błędu losowego

Model liniowy spełniający te warunki nazywa się klasyczny. Szacunki OLS dla klasycznej regresji liniowej są bezstronnymi, spójnymi i najbardziej efektywnymi estymacjami w klasie wszystkich liniowych nieobciążonych estymatorów (w literaturze angielskiej czasami używany jest skrót NIEBIESKI (Najlepszy liniowy estymator niepodparty) - najlepsze liniowe, nieobciążone oszacowanie; w literaturze rosyjskiej częściej przytacza się twierdzenie Gaussa-Markowa). Jak łatwo wykazać, macierz kowariancji wektora oszacowań współczynników będzie równa:

Uogólnione OLS

Metoda najmniejszych kwadratów pozwala na szerokie uogólnienia. Zamiast minimalizować sumę kwadratów reszt, można zminimalizować pewną dodatnio określoną postać kwadratową wektora reszt, gdzie jest pewna symetryczna macierz dodatnich określonych wag. Szczególnym przypadkiem tego podejścia są konwencjonalne metody najmniejszych kwadratów, gdzie macierz wag jest proporcjonalna do macierzy jednostkowej. Jak wiadomo z teorii macierzy symetrycznych (lub operatorów), dla takich macierzy następuje rozkład. W związku z tym określony funkcjonał można przedstawić w następujący sposób, to znaczy funkcjonał ten można przedstawić jako sumę kwadratów niektórych przekształconych „reszt”. Można zatem wyróżnić klasę metod najmniejszych kwadratów – metody LS (ang. Least Squares).

Udowodniono (twierdzenie Aitkena), że dla uogólnionego modelu regresji liniowej (w którym nie nakłada się ograniczeń na macierz kowariancji błędów losowych) najbardziej efektywne (w klasie liniowych estymatorów nieobciążonych) są tzw. estymaty. uogólnione najmniejsze kwadraty (GLS – uogólnione najmniejsze kwadraty)- metoda LS z macierzą wag równą macierzy odwrotnej kowariancji błędów losowych: .

Można wykazać, że wzór na estymatory GLS parametrów modelu liniowego ma postać

Macierz kowariancji tych szacunków będzie odpowiednio równa

Tak naprawdę istota OLS polega na pewnej (liniowej) transformacji (P) danych pierwotnych i zastosowaniu zwykłego OLS do danych przekształconych. Celem tej transformacji jest to, że dla przekształconych danych błędy losowe spełniają już klasyczne założenia.

Ważony OLS

W przypadku diagonalnej macierzy wag (a więc i macierzy kowariancji błędów losowych) mamy do czynienia z tzw. ważoną metodą najmniejszych kwadratów (WLS). W tym przypadku suma ważona kwadratów reszt modelu jest minimalizowana, czyli każda obserwacja otrzymuje „wagę” odwrotnie proporcjonalną do wariancji błędu losowego w tej obserwacji: . W rzeczywistości dane są przekształcane poprzez ważenie obserwacji (podzielenie przez kwotę proporcjonalną do oszacowanego odchylenia standardowego błędów losowych), a do danych ważonych stosuje się zwykły OLS.

Kilka szczególnych przypadków wykorzystania MNC w praktyce

Aproksymacja zależności liniowej

Rozważmy przypadek, gdy w wyniku badania zależności pewnej wielkości skalarnej od pewnej wielkości skalarnej (może to być na przykład zależność napięcia od natężenia prądu: , gdzie jest wartością stałą, rezystancja przewodnik) przeprowadzono pomiary tych wielkości, w wyniku czego otrzymano wartości i odpowiadające im wartości. Dane pomiarowe należy zapisać w tabeli.

Tabela. Wyniki pomiarów.

Pomiar nr.
1
2
3
4
5
6

Pytanie brzmi: jaką wartość współczynnika można wybrać, aby najlepiej opisać zależność? Według metody najmniejszych kwadratów wartość ta powinna być taka, aby suma kwadratów odchyleń wartości od wartości

był minimalny

Suma kwadratów odchyleń ma jedno ekstremum – minimum, co pozwala nam zastosować ten wzór. Znajdźmy z tego wzoru wartość współczynnika. Aby to zrobić, przekształcamy jego lewą stronę w następujący sposób:

Ostatni wzór pozwala nam znaleźć wartość współczynnika, czyli to, co było wymagane w zadaniu.

Fabuła

Do początków XIX wieku. naukowcy nie mieli pewnych zasad rozwiązywania układu równań, w którym liczba niewiadomych jest mniejsza niż liczba równań; Do tego czasu stosowano techniki prywatne, zależne od rodzaju równań i dowcipu kalkulatorów, dlatego różne kalkulatory, bazując na tych samych danych obserwacyjnych, dochodziły do ​​różnych wniosków. Gauss (1795) jako pierwszy zastosował tę metodę, a Legendre (1805) niezależnie odkrył ją i opublikował pod jej współczesną nazwą (francuską. Méthode des moindres quarrés ) . Laplace powiązał tę metodę z teorią prawdopodobieństwa, a amerykański matematyk Adrain (1808) rozważał jej zastosowania w teorii prawdopodobieństwa. Metoda ta była szeroko rozpowszechniona i udoskonalona dzięki dalszym badaniom Encke, Bessela, Hansena i innych.

Alternatywne zastosowania OLS

Ideę metody najmniejszych kwadratów można zastosować także w innych przypadkach niezwiązanych bezpośrednio z analizą regresji. Faktem jest, że suma kwadratów jest jedną z najczęstszych miar bliskości wektorów (metryka euklidesowa w przestrzeniach skończenie wymiarowych).

Jednym z zastosowań jest „rozwiązanie” układów równań liniowych, w których liczba równań jest większa niż liczba zmiennych

gdzie macierz nie jest kwadratowa, ale prostokątna.

Taki układ równań w ogólnym przypadku nie ma rozwiązania (jeśli ranga jest rzeczywiście większa niż liczba zmiennych). Zatem układ ten można „rozwiązać” jedynie w sensie dobrania takiego wektora, aby zminimalizować „odległość” pomiędzy wektorami a . Można w tym celu zastosować kryterium minimalizacji sumy kwadratów różnic pomiędzy lewą i prawą stroną równań układu, tj. Łatwo pokazać, że rozwiązanie tego problemu minimalizacji prowadzi do rozwiązania następującego układu równań

Jeśli niektóre wielkość fizyczna zależy od innej wielkości, wówczas zależność tę można zbadać, mierząc y przy różnych wartościach x. W wyniku pomiarów uzyskuje się szereg wartości:

x 1, x 2, ..., x i, ..., x n;

y 1 , y 2 , ..., y ja , ... , y n .

Na podstawie danych takiego eksperymentu można skonstruować wykres zależności y = ƒ(x). Otrzymana krzywa pozwala ocenić postać funkcji ƒ(x). Jednak stałe współczynniki, które wchodzą w skład tej funkcji, pozostają nieznane. Można je wyznaczyć metodą najmniejszych kwadratów. Punkty eksperymentalne z reguły nie leżą dokładnie na krzywej. Metoda najmniejszych kwadratów wymaga, aby suma kwadratów odchyleń punktów doświadczalnych od krzywej, tj. 2 był najmniejszy.

W praktyce metodę tę najczęściej (i najprościej) stosuje się w przypadku zależności liniowej, tj. Gdy

y = kx Lub y = a + bx.

Zależność liniowa bardzo rozpowszechnione w fizyce. A nawet gdy zależność jest nieliniowa, zazwyczaj starają się skonstruować wykres tak, aby otrzymać linię prostą. Przykładowo, jeśli przyjmiemy, że współczynnik załamania światła szkła n jest powiązany z długością fali światła λ zależnością n = a + b/λ 2, to na wykresie wykreślana jest zależność n od λ -2.

Rozważ zależność y = kx(linia prosta przechodząca przez początek). Skomponujmy wartość φ z sumy kwadratów odchyleń naszych punktów od prostej

Wartość φ jest zawsze dodatnia i okazuje się tym mniejsza, im bliżej prostej znajdują się nasze punkty. Metoda najmniejszych kwadratów zakłada, że ​​wartość k należy dobrać tak, aby φ miało minimum


Lub
(19)

Obliczenia pokazują, że błąd średniokwadratowy przy określaniu wartości k jest równy

, (20)
gdzie n jest liczbą pomiarów.

Rozważmy teraz trochę więcej ciężki przypadek, gdy punkty muszą spełniać wzór y = a + bx(linia prosta, która nie przechodzi przez początek).

Zadanie polega na znalezieniu, mając dany zbiór wartości x i , y i najlepsze wartości a i b.

Skomponujmy ponownie formę kwadratową φ, równa kwocie kwadratowe odchylenia punktów x i, y i od linii prostej

i znajdź wartości aib, dla których φ ma minimum

;

.

.

Daje wspólne rozwiązanie tych równań

(21)

Pierwiastki średniokwadratowe błędów wyznaczania a i b są równe

(23)

.  (24)

Opracowując wyniki pomiarów tą metodą, wygodnie jest podsumować wszystkie dane w tabeli, w której wstępnie wyliczone są wszystkie wielkości zawarte we wzorach (19)(24). Formy tych tabel podano w poniższych przykładach.

Przykład 1. Zbadano podstawowe równanie dynamiki ruch obrotowyε = M/J (linia przechodząca przez początek). Przy różnych wartościach momentu M mierzono przyspieszenie kątowe ε pewnego ciała. Należy wyznaczyć moment bezwładności tego ciała. Wyniki pomiarów momentu siły i przyspieszenia kątowego zestawiono w kolumnach drugiej i trzeciej tabela 5.

Tabela 5
N M, Nm ε, s -1 M 2 M ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Korzystając ze wzoru (19) wyznaczamy:

.

Aby wyznaczyć pierwiastek błędu średniokwadratowego, korzystamy ze wzoru (20)

0.005775kg-1 · M -2 .

Zgodnie ze wzorem (18) mamy

; .

S J = (2,996 0,005775)/0,3337 = 0,05185 kgm2.

Ustaliwszy niezawodność P = 0,95, korzystając z tabeli współczynników Studenta dla n = 5, znajdujemy t = 2,78 i wyznaczamy absolutny błądΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kgm2.

Zapiszmy wyniki w postaci:

J = (3,0 ± 0,2) kgm2;


Przykład 2. Obliczmy współczynnik temperaturowy oporu metalu metodą najmniejszych kwadratów. Opór zależy liniowo od temperatury

R t = R 0 (1 + α t°) = R 0 + R 0 α t°.

Wolny człon określa rezystancję R 0 w temperaturze 0 ° C, a współczynnik nachylenia jest iloczynem współczynnika temperaturowego α i rezystancji R 0 .

Wyniki pomiarów i obliczeń podano w tabeli ( patrz tabela 6).

Tabela 6
N t°, s r, Och t-¯t (t-¯t) 2 (t-¯t)r r - bt - a (r - bt - a) 2 ,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Korzystając ze wzorów (21), (22) wyznaczamy

R 0 = ¯ R- α R 0 ¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Om.

Znajdźmy błąd w definicji α. Ponieważ , to zgodnie ze wzorem (18) mamy:

.

Korzystając ze wzorów (23), (24) mamy

;

0.014126 Om.

Ustalając niezawodność na P = 0,95, korzystając z tabeli współczynników Studenta dla n = 6, znajdujemy t = 2,57 i wyznaczamy błąd bezwzględny Δα = 2,57 0,000132 = 0,000338 stopień -1.

α = (23 ± 4) 10 -4 grad-1 przy P = 0,95.


Przykład 3. Wymagane jest określenie promienia krzywizny soczewki za pomocą pierścieni Newtona. Zmierzono promienie pierścieni Newtona r m i wyznaczono numery tych pierścieni m. Promienie pierścieni Newtona są powiązane z promieniem krzywizny soczewki R i liczbą pierścieni za pomocą równania

r 2 m = mλR - 2d 0 R,

gdzie d 0 grubość szczeliny między soczewką a płytką płasko-równoległą (lub odkształcenie soczewki),

λ długość fali padającego światła.

λ = (600 ± 6) nm;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,

wtedy równanie przyjmie postać y = a + bx.

.

Wyniki pomiarów i obliczeń są wpisywane tabela 7.

Tabela 7
N x = m y = r 2, 10 -2 mm 2 m -¯ m (m-¯m) 2 (m -¯ m)r y - bx - a, 10 -4 (y - bx - a) 2 , 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –



Nowość na stronie

>

Najbardziej popularny