Додому Ортопедія Що таке спосіб найменших квадратів. Апроксимація дослідних даних

Що таке спосіб найменших квадратів. Апроксимація дослідних даних

Апроксимація дослідних даних - це метод, заснований на заміні експериментально отриманих даних аналітичною функцією, що найбільш близько проходить або збігається в вузлових точках з вихідними значеннями (даними отриманими в ході досвіду або експерименту). В даний час існує два способи визначення аналітичної функції:

За допомогою побудови інтерполяційного багаточлена n-ступеня, що проходить безпосередньо через усі точкизаданого масиву даних. У даному випадкуапроксимуюча функція подається у вигляді: інтерполяційного багаточлена у формі Лагранжа або інтерполяційного багаточлена у формі Ньютона.

За допомогою побудови апроксимуючого багаточлена n-ступеня, що проходить в найближчій близькості від точокіз заданого масиву даних. Таким чином, апроксимуюча функція згладжує всі випадкові перешкоди (або похибки), які можуть виникати при виконанні експерименту: значення, що вимірюються в ході досвіду, залежать від випадкових факторів, які коливаються за своїм власним випадковим законам(Похибки вимірювань або приладів, неточність або помилки досвіду). В даному випадку апроксимуюча функція визначається за методом найменших квадратів.

Метод найменших квадратів(В англомовній літературі Ordinary Least Squares, OLS) - математичний метод, заснований на визначенні апроксимуючої функції, яка будується в найближчій близькості від точок із заданого масиву експериментальних даних. Близькість вихідної та апроксимуючої функції F(x) визначається числовою мірою, а саме: сума квадратів відхилень експериментальних даних від апроксимуючої кривої F(x) має бути найменшою.

Апроксимуюча крива, побудована за методом найменших квадратів

Метод найменших квадратів використовується:

Для вирішення перевизначених систем рівнянь коли кількість рівнянь перевищує кількість невідомих;

Для пошуку рішення у разі звичайних (не перевизначених) нелінійних системрівнянь;

Для апроксимації точкових значень деякою апроксимуючою функцією.

Апроксимуюча функція методом найменших квадратів визначається з умови мінімуму суми квадратів відхилень розрахункової апроксимуючої функції від заданого масиву експериментальних даних. Цей критерій методу найменших квадратів записується у вигляді наступного виразу:

Значення розрахункової апроксимуючої функції у вузлових точках

Заданий масив експериментальних даних у вузлових точках.

Квадратичний критерій має низку "хороших" властивостей, таких, як диференційність, забезпечення єдиного розв'язання задачі апроксимації при поліноміальних апроксимуючих функціях.

Залежно від умов завдання апроксимуюча функція є багаточленом ступеня m

Ступінь апроксимуючої функції не залежить від числа вузлових точок, але її розмірність повинна бути завжди меншою за розмірність (кількість точок) заданого масиву експериментальних даних.

∙ Якщо ступінь апроксимуючої функції m=1, то ми апроксимуємо табличну функцію прямою лінією (лінійна регресія).

∙ Якщо ступінь апроксимуючої функції m=2, то ми апроксимуємо табличну функцію квадратичною параболою(квадратична апроксимація).

∙ Якщо ступінь апроксимуючої функції m=3, то ми апроксимуємо табличну функцію кубічною параболою (кубічна апроксимація).

У загальному випадку, коли потрібно побудувати апроксимуючий багаточлен ступеня m для заданих табличних значень, Умова мінімуму суми квадратів відхилень по всіх вузлових точках листується в наступному вигляді:

- невідомі коефіцієнти апроксимуючого багаточлена ступеня m;

Кількість заданих табличних значень.

Необхідною умовою існування мінімуму функції є рівність нуля її приватних похідних за невідомими змінними . В результаті отримаємо наступну системурівнянь:

Перетворимо отриману лінійну системурівнянь: розкриємо дужки і перенесемо вільні доданки в праву частину виразу. В результаті отримана система лінійних алгебраїчних виразівбуде записуватись у наступному вигляді:

Дана система лінійних виразів алгебри може бути переписана в матричному вигляді:

В результаті було отримано систему лінійних рівняньрозмірністю m+1, що складається з m+1 невідомих. Дана система може бути вирішена за допомогою будь-якого методу вирішення лінійних алгебраїчних рівнянь(Наприклад, методом Гауса). Через війну рішення знайдено невідомі параметри апроксимуючої функції, які забезпечують мінімальну суму квадратів відхилень апроксимуючої функції від вихідних даних, тобто. найкраще можливе квадратичне наближення. Слід пам'ятати, що при зміні навіть одного значення вихідних даних усі коефіцієнти змінять свої значення, оскільки вони повністю визначаються вихідними даними.

Апроксимація вихідних даних лінійною залежністю

(лінійна регресія)

Як приклад, розглянемо методику визначення апроксимуючої функції, яка задана у вигляді лінійної залежності. Відповідно до методу найменших квадратів умова мінімуму суми квадратів відхилень записується у такому вигляді:

Координати вузлових точок таблиці;

Невідомі коефіцієнти апроксимуючої функції, заданої у вигляді лінійної залежності.

Необхідною умовою існування мінімуму функції є рівність нуля її приватних похідних за невідомими змінними. В результаті отримуємо таку систему рівнянь:

Перетворимо отриману лінійну систему рівнянь.

Вирішуємо отриману систему лінійних рівнянь. Коефіцієнти апроксимуючої функції в аналітичному вигляді визначаються в такий спосіб (метод Крамера):

Дані коефіцієнти забезпечують побудову лінійної апроксимуючої функції відповідно до критерію мінімізації суми квадратів апроксимуючої функції від заданих табличних значень (експериментальні дані).

Алгоритм реалізації методу найменших квадратів

1. Початкові дані:

Задано масив експериментальних даних із кількістю вимірювань N

Задано ступінь апроксимуючого багаточлена (m)

2. Алгоритм обчислення:

2.1. Визначаються коефіцієнти для побудови системи рівнянь розмірністю

Коефіцієнти системи рівнянь ( ліва частинарівняння)

- Індекс номера стовпця квадратної матриці системи рівнянь

Вільні члени системи лінійних рівнянь ( права частинарівняння)

- індекс номера рядка квадратної матриці системи рівнянь

2.2. Формування системи лінійних рівнянь розмірністю.

2.3. Розв'язання системи лінійних рівнянь з метою визначення невідомих коефіцієнтів апроксимуючого багаточлена ступеня m.

2.4.Визначення суми квадратів відхилень апроксимуючого багаточлена від вихідних значень по всіх вузлових точках

Знайдене значення суми квадратів відхилень є мінімально можливим.

Апроксимація за допомогою інших функцій

Слід зазначити, що при апроксимації вихідних даних відповідно до методу найменших квадратів як апроксимуючу функцію іноді використовують логарифмічну функцію, експоненційну функціюта статечну функцію.

Логарифмічна апроксимація

Розглянемо випадок, коли апроксимуюча функція задана логарифмічною функцією виду:

Сутність методу найменших квадратів полягає у відшуканні параметрів моделі тренда, яка найкраще описує тенденцію розвитку якогось випадкового явища у часі чи просторі (тренд – це лінія, що й характеризує тенденцію цього розвитку). Завдання методу найменших квадратів (МНК) зводиться до знаходження не просто якоїсь моделі тренду, а до знаходження кращої чи оптимальної моделі. Ця модель буде оптимальною, якщо сума квадратичних відхилень між фактичними величинами, що спостерігаються, і відповідними ним розрахунковими величинами тренда буде мінімальною (найменшою):

де - квадратичне відхиленняміж фактичною величиною, що спостерігається

та відповідною їй розрахунковою величиною тренду,

Фактичне (спостерігається) значення досліджуваного явища,

Розрахункове значення моделі тренду,

Число спостережень за явищем, що вивчається.

МНК самостійно застосовується досить рідко. Як правило, найчастіше його використовують лише як необхідний технічний прийом при кореляційних дослідженнях. Слід пам'ятати, що інформаційною основою МНК може бути лише достовірний статистичний ряд, причому кількість спостережень має бути менше 4-х, інакше, що згладжують процедури МНК можуть втратити здоровий глузд.

Інструментарій МНК зводиться до таких процедур:

Перша процедура. З'ясовується, чи взагалі існує якась тенденція зміни результативної ознаки при зміні обраного фактора-аргументу, або іншими словами, чи є зв'язок між « у » та « х ».

Друга процедура. Визначається, яка лінія (траєкторія) здатна найкраще описати чи охарактеризувати цю тенденцію.

Третя процедура.

приклад. Допустимо, ми маємо інформацію про середню врожайність соняшнику по досліджуваному господарству (табл. 9.1).

Таблиця 9.1

Номер спостереження

Врожайність, ц/га

Оскільки рівень технології при виробництві соняшнику в нашій країні за останні 10 років практично не змінився, отже, мабуть, коливання врожайності в аналізований період дуже залежали від коливання погодно-кліматичних умов. Чи це так?

Перша процедура МНК. Перевіряється гіпотеза про існування тенденції зміни врожайності соняшнику залежно від зміни погодно-кліматичних умов за 10 років, що аналізуються.

У цьому прикладі за « y » Доцільно прийняти врожайність соняшнику, а за « x » - Номер спостережуваного року в аналізованому періоді. Перевірку гіпотези про існування будь-якого взаємозв'язку між « x » та « y » можна виконати двома способами: вручну та за допомогою комп'ютерних програм. Звичайно, за наявності комп'ютерної технікиЦя проблема вирішується сама собою. Але щоб краще зрозуміти інструментарій МНК доцільно виконати перевірку гіпотези про існування зв'язку між « x » та « y » вручну, коли під рукою знаходяться лише ручка та звичайний калькулятор. У таких випадках гіпотезу про існування тенденції найкраще перевірити візуальним способом щодо розташування графічного зображення аналізованого ряду динаміки - кореляційного поля:

Кореляційне поле в нашому прикладі розташоване навколо лінії, що повільно зростає. Це вже само собою говорить про існування певної тенденції в зміні врожайності соняшника. Не можна говорити про наявність будь-якої тенденції лише тоді, коли кореляційне поле схоже на коло, коло, строго вертикальну або строго горизонтальну хмару, або ж складається з хаотично розкиданих точок. В інших випадках слід підтвердити гіпотезу про існування взаємозв'язку між « x » та « y », та продовжити дослідження.

Друга процедура МНК. Визначається, яка лінія (траєкторія) здатна найкраще описати чи охарактеризувати тенденцію зміни врожайності соняшника за аналізований період.

За наявності комп'ютерної техніки вибір оптимального тренда відбувається автоматично. При «ручній» обробці вибір оптимальної функціїздійснюється, як правило, візуальним способом - розташування кореляційного поля. Тобто, на вигляд графіка підбирається рівняння лінії, яка найкраще підходить до емпіричного тренду (до фактичної траєкторії).

Як відомо, у природі існує величезна різноманітність функціональних залежностей, тому візуальним способом проаналізувати навіть незначну їх частину – вкрай важко. На щастя, в реальній економічній практиці більшість взаємозв'язків досить точно можуть бути описані або параболою, або гіперболою, або прямою лінією. У зв'язку з цим, при «ручному» варіанті вибору кращої функції, можна обмежитися тільки цими трьома моделями.

Гіперболу:

Парабола другого порядку: :

Неважко помітити, що у нашому прикладі найкраще тенденцію зміни врожайності соняшника за аналізовані 10 років характеризує пряма лінія, тому рівнянням регресії буде пряма рівняння.

Третя процедура. Розраховуються параметри регресійного рівняння, Що характеризує цю лінію, або іншими словами, визначається аналітична формула, що описує найкращу модельтренд.

Знаходження значень параметрів рівняння регресії, у разі параметрів і , є серцевиною МНК. Цей процес зводиться до вирішення системи нормальних рівнянь.

(9.2)

Ця система рівнянь досить легко вирішується методом Гаусса. Нагадаємо, що в результаті рішення в нашому прикладі знаходяться значення параметрів і . Таким чином, знайдене рівняння регресії матиме такий вигляд:

Він має безліч застосувань, оскільки дозволяє здійснювати наближене уявлення заданої функції іншими більш простими. МНК може виявитися надзвичайно корисним при обробці спостережень і його активно використовують для оцінки одних величин за результатами вимірювань інших, що містять випадкові помилки. З цієї статті ви дізнаєтеся, як реалізувати обчислення методом найменших квадратів в Excel.

Постановка задачі на конкретному прикладі

Припустимо, є два показники X і Y. Причому Y залежить від X. Так як МНК цікавить нас з погляду регресійного аналізу (в Excel його методи реалізуються за допомогою вбудованих функцій), то відразу ж перейти до розгляду конкретної задачі.

Отже, нехай X — торгова площа продовольчого магазину, яка вимірюється у квадратних метрах, а Y — річний товарообіг, який визначається мільйонами рублів.

Потрібно зробити прогноз, який товарообіг (Y) матиме магазин, якщо в нього та чи інша торгова площа. Очевидно, що функція Y = f(X) зростаюча, оскільки гіпермаркет продає більше товарів, ніж ларьок.

Декілька слів про коректність вихідних даних, що використовуються для передбачення

Припустимо, ми маємо таблицю, побудовану за даними для n магазинів.

Згідно математичної статистики, результати будуть більш-менш коректними, якщо досліджуються дані щодо хоча б 5-6 об'єктів. Крім того, не можна використовувати "аномальні" результати. Зокрема, невеликий елітний бутік може мати товарообіг у рази більший, ніж товарообіг великих торгових точок класу «масмаркет».

Суть методу

Дані таблиці можна зобразити на декартовій площині у вигляді точок M 1 (x 1 y 1), … M n (x n y n). Тепер розв'язання задачі зведеться до підбору апроксимуючої функції y = f(x), що має графік, що проходить якомога ближче до точок M1, M2,.. Mn.

Звичайно, можна використовувати багаточлен високого ступеня, але такий варіант не тільки важко реалізувати, але й просто некоректний, тому що не відображатиме основну тенденцію, яку і потрібно виявити. Найрозумнішим рішенням є пошук прямої у = ax + b, яка найкраще наближає експериментальні дані, a точніше, коефіцієнтів – a та b.

Оцінка точності

При будь-якій апроксимації особливої ​​важливості набуває оцінка її точності. Позначимо через e i різницю (відхилення) між функціональними та експериментальними значеннями для точки x i , тобто e i = y i - f (x i).

Очевидно, що для оцінки точності апроксимації можна використовувати суму відхилень, тобто при виборі прямої для наближеного уявлення залежності X від Y потрібно віддавати перевагу тій, у якої найменше значеннясуми e i у всіх точках, що розглядаються. Однак, не все так просто, тому що поряд із позитивними відхиленнями практично будуть присутні і негативні.

Вирішити питання можна, використовуючи модулі відхилень або їх квадрати. Останній метод набув найбільш широкого поширення. Він використовується в багатьох областях, включаючи регресійний аналіз (в Excel його реалізація здійснюється за допомогою двох вбудованих функцій) і давно довів свою ефективність.

Метод найменших квадратів

В Excel, як відомо, існує вбудована функція автосуми, що дозволяє обчислити значення всіх значень, які розташовані у виділеному діапазоні. Таким чином, ніщо не завадить нам розрахувати значення виразу (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

У математичного записуце має вигляд:

Оскільки спочатку було прийнято рішення про апроксимування за допомогою прямої, то маємо:

Таким чином, задача знаходження прямої, яка найкраще описує конкретну залежністьвеличин X і Y, зводиться до обчислення мінімуму функції двох змінних:

Для цього потрібно прирівняти до нуля приватні похідні за новими змінними a і b, і вирішити примітивну систему, що складається з двох рівнянь з двома невідомими видами:

Після нехитрих перетворень, включаючи поділ на 2 та маніпуляції із сумами, отримаємо:

Вирішуючи її, наприклад, методом Крамера, отримуємо стаціонарну точку з деякими коефіцієнтами a* та b*. Це і є мінімум, тобто для передбачення, який товарообіг буде у магазину при певній площі, підійде пряма y = a * x + b * , Що являє собою регресійну модель для прикладу, про який йдеться. Звичайно, вона не дозволить знайти точний результат, але допоможе одержати уявлення про те, чи окупиться покупка в кредит магазину конкретної площі.

Як реалізувати метод найменших квадратів в Excel

У "Ексель" є функція для розрахунку значення МНК. Вона має такий вигляд: «ТЕНДЕНЦІЯ» (відоме значення Y; відоме значення X; нові значення X; конст.). Застосуємо формулу розрахунку МНК Excel до нашої таблиці.

Для цього в комірку, в якій має бути відображено результат розрахунку за методом найменших квадратів в Excel, введемо знак = і виберемо функцію ТЕНДЕНЦІЯ. У вікні заповнимо відповідні поля, виділяючи:

  • діапазон відомих значень для Y (у разі дані для товарообігу);
  • діапазон x 1, … x n, тобто величини торгових площ;
  • і відомі, і невідомі значення x, для якого потрібно з'ясувати розмір товарообігу (інформацію про їхнє розташування на робочому аркуші див. далі).

Крім того, у формулі є логічна змінна «Конст». Якщо ввести у відповідне їй поле 1, це означатиме, що слід здійснити обчислення, вважаючи, що b = 0.

Якщо потрібно дізнатися прогноз більш ніж одного значення x, то після введення формули слід натиснути не на «Введення», а потрібно набрати на клавіатурі комбінацію «Shift» + «Control» + «Enter» («Введення»).

Деякі особливості

Регресійний аналіз може бути доступним навіть чайникам. Формула Excel для передбачення значення масиву невідомих змінних – «ТЕНДЕНЦІЯ» – може використовуватися навіть тими, хто ніколи не чув про метод найменших квадратів. Достатньо просто знати деякі особливості її роботи. Зокрема:

  • Якщо розташувати діапазон відомих значень змінної y в одному рядку або стовпці, то кожен рядок (стовпець) з відомими значеннями x буде сприйматися програмою як окрема змінна.
  • Якщо у вікні «ТЕНДЕНЦІЯ» не вказаний діапазон з відомими x, то у разі використання функції Excel програмабуде розглядати його як масив, що складається з цілих чисел, кількість яких відповідає діапазону із заданими значеннями змінної y.
  • Щоб одержати на виході масив "передбачених" значень, вираз для обчислення тенденції потрібно вводити як формулу масиву.
  • Якщо не вказано нових значень x, то функція «ТЕНДЕНЦІЯ» вважає їх рівним відомим. Якщо вони не задані, то як аргумент береться масив 1; 2; 3; 4;…, який пропорційний діапазону з вже заданими параметрами y.
  • Діапазон, що містить нові значення x, повинен складатися з такої ж чи більшої кількості рядків або стовпців, як діапазон із заданими значеннями y. Іншими словами він має бути пропорційним незалежним змінним.
  • У масиві з відомими значеннями x може бути кілька змінних. Однак якщо йдеться лише про одну, то потрібно, щоб діапазони із заданими значеннями x та y були пропорційні. У разі кількох змінних потрібно, щоб діапазон із заданими значеннями y вміщався в одному стовпчику або в одному рядку.

Функція «ПЕРЕДСКАЗ»

Реалізується за допомогою кількох функцій. Одна з них називається «Предказ». Вона аналогічна «ТЕНДЕНЦІЇ», тобто видає результат обчислень методом найменших квадратів. Однак лише для одного X, для якого невідомо значення Y.

Тепер ви знаєте формули в Excel для чайників, що дозволяють спрогнозувати величину майбутнього значення того чи іншого показника згідно з лінійним трендом.

приклад.

Експериментальні дані про значення змінних хі унаведено у таблиці.

В результаті їх вирівнювання отримано функцію

Використовуючи метод найменших квадратів, апроксимувати ці дані лінійною залежністю y=ax+b(Знайти параметри аі b). З'ясувати, яка з двох ліній краще (у сенсі способу менших квадратів) вирівнює експериментальні дані. Зробити креслення.

Суть методу найменших квадратів (МНК).

Завдання полягає у знаходженні коефіцієнтів лінійної залежності, при яких функція двох змінних аі b набуває найменшого значення. Тобто, за даними аі bсума квадратів відхилень експериментальних даних від знайденої прямої буде найменшою. У цьому суть методу найменших квадратів.

Таким чином, рішення прикладу зводиться до знаходження екстремуму функції двох змінних.

Висновок формул знаходження коефіцієнтів.

Складається та вирішується система із двох рівнянь із двома невідомими. Знаходимо приватні похідні функції за змінними аі b, Прирівнюємо ці похідні до нуля.

Вирішуємо отриману систему рівнянь будь-яким методом (наприклад методом підстановкиабо методом Крамера) та отримуємо формули для знаходження коефіцієнтів за методом найменших квадратів (МНК).

За даними аі bфункція набуває найменшого значення. Доказ цього факту наведено нижче за текстом наприкінці сторінки.

Ось і весь спосіб найменших квадратів. Формула для знаходження параметра aмістить суми ,,,і параметр n- Кількість експериментальних даних. Значення цих сум рекомендуємо обчислювати окремо. Коефіцієнт bзнаходиться після обчислення a.

Настав час згадати про вихідний приклад.

Рішення.

У нашому прикладі n=5. Заповнюємо таблицю для зручності обчислення сум, що входять до формул шуканих коефіцієнтів.

Значення у четвертому рядку таблиці отримані множенням значень 2-го рядка на значення 3-го рядка для кожного номера i.

Значення у п'ятому рядку таблиці отримані зведенням у квадрат значень другого рядка для кожного номера i.

Значення останнього стовпця таблиці – це суми значень рядків.

Використовуємо формули методу найменших квадратів для знаходження коефіцієнтів аі b. Підставляємо у них відповідні значення з останнього стовпця таблиці:

Отже, y = 0.165x+2.184- пряма апроксимуюча.

Залишилося з'ясувати, яка з ліній y = 0.165x+2.184або краще апроксимує вихідні дані, тобто провести оцінку шляхом найменших квадратів.

Оцінка похибки способу менших квадратів.

Для цього потрібно обчислити суми квадратів відхилень вихідних даних від цих ліній і менше значення відповідає лінії, яка краще в сенсі методу найменших квадратів апроксимує вихідні дані.

Оскільки , то пряма y = 0.165x+2.184краще наближає вихідні дані.

Графічна ілюстрація методу найменших квадратів (МНК).

На графіках все чудово видно. Червона лінія – це знайдена пряма y = 0.165x+2.184, синя лінія – це , Рожеві точки - це вихідні дані.

На практиці при моделюванні різних процесів - зокрема, економічних, фізичних, технічних, соціальних - широко використовуються ті чи інші способи обчислення наближених значень функцій за відомими значеннями в деяких фіксованих точках.

Такі завдання наближення функцій часто виникають:

    при побудові наближених формул для обчислення значень характерних величин досліджуваного процесу за табличними даними, отриманими в результаті експерименту;

    при чисельному інтегруванні, диференціюванні, рішенні диференціальних рівняньі т.д.;

    при необхідності обчислення значень функцій у проміжних точках інтервалу, що розглядається;

    щодо значень характерних величин процесу поза розглядуваного інтервалу, зокрема при прогнозуванні.

Якщо для моделювання деякого процесу, заданого таблицею, побудувати функцію, що наближено описує даний процес на основі методу найменших квадратів, вона буде називатися апроксимуючою функцією (регресією), а завдання побудови апроксимуючих функцій - завданням апроксимації.

У цій статті розглянуто можливості пакета MS Excel для вирішення такого роду завдань, крім того, наведено методи та прийоми побудови (створення) регресій для таблично заданих функцій (що є основою регресійного аналізу).

Excel для побудови регресій є дві можливості.

    Додавання обраних регресій ( ліній тренду- trendlines) у діаграму, побудовану на основі таблиці даних для досліджуваної характеристики процесу (доступно лише за наявності побудованої діаграми);

    Використання вбудованих статистичних функцій робочого листа Excel, дозволяють отримувати регресії (лінії тренду) безпосередньо з урахуванням таблиці вихідних даних.

Додавання ліній тренду до діаграми

Для таблиці даних, що описують деякий процес і представлених діаграмою, Excel є ефективний інструмент регресійного аналізу, що дозволяє:

    будувати на основі методу найменших квадратів і додавати в діаграму п'ять типів регресій, які з тим чи іншим ступенем точності моделюють досліджуваний процес;

    додавати до діаграми рівняння побудованої регресії;

    визначати ступінь відповідності обраної регресії даних, що відображаються на діаграмі.

На основі даних діаграми Excel дозволяє отримувати лінійний, поліноміальний, логарифмічний, статечний, експоненційний типи регресій, які задаються рівнянням:

y = y(x)

де x - незалежна змінна, яка часто набуває значення послідовності натурального ряду чисел (1; 2; 3; …) і здійснює, наприклад, відлік часу протікання досліджуваного процесу (характеристики).

1 . Лінійна регресія хороша при моделюванні характеристик, значення яких збільшуються або зменшуються з постійною швидкістю. Це найпростіша у побудові модель досліджуваного процесу. Вона будується відповідно до рівняння:

y = mx + b

де m - тангенс кута нахилу лінійної регресіїдо осі абсцис; b - координата точки перетину лінійної регресії з віссю ординат.

2 . Поліноміальна лінія тренду корисна для опису характеристик, що мають кілька яскраво виражених екстремумів (максимумів та мінімумів). Вибір ступеня полінома визначається кількістю екстремумів досліджуваної характеристики. Так, поліном другого ступеня може добре описати процес, що має лише один максимум або мінімум; поліном третього ступеня - трохи більше двох екстремумів; поліном четвертого ступеня - трохи більше трьох екстремумів тощо.

У цьому випадку лінія тренду будується відповідно до рівняння:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

де коефіцієнти c0, c1, c2, c6 - константи, значення яких визначаються в ході побудови.

3 . Логарифмічна лінія тренду успішно застосовується при моделюванні характеристик, значення яких спочатку швидко змінюються, та був поступово стабілізуються.

y = c ln(x) + b

4 . Ступінна лінія тренду дає хороші результати, якщо значення досліджуваної залежності характеризуються постійною зміною швидкості зростання. Прикладом такої залежності може бути графік рівноприскореного руху автомобіля. Якщо серед даних зустрічаються нульові чи негативні значення, використовувати статечну лінію тренда не можна.

Будується відповідно до рівняння:

y = c xb

де коефіцієнти b, с – константи.

5 . Експонентну лінію тренда слід використовувати у тому випадку, якщо швидкість зміни даних безперервно зростає. Для даних, що містять нульові або негативні значення, цей вид наближення також не застосовується.

Будується відповідно до рівняння:

y = c ebx

де коефіцієнти b, с – константи.

При підборі лінії тренду Excel автоматично розраховує значення величини R2, яка характеризує достовірність апроксимації: ближче значення R2 до одиниці, тим надійніше лінія тренду апроксимує досліджуваний процес. За потреби значення R2 завжди можна відобразити на діаграмі.

Визначається за такою формулою:

Для додавання лінії тренду до ряду даних слід:

    активізувати побудовану з урахуванням низки даних діаграму, т. е. клацнути у межах області діаграми. У головному меню з'явиться пункт Діаграма;

    після натискання на цьому пункті на екрані з'явиться меню, в якому слід вибрати команду Додати лінію тренда.

Ці ж дії легко реалізуються, якщо навести покажчик миші на графік, що відповідає одному з рядів даних, та клацнути правою кнопкою миші; у контекстному меню, що з'явилося, вибрати команду Додати лінію тренда. На екрані з'явиться діалогове вікно Лінія тренду з відкритою вкладкою Тип (рис. 1).

Після цього необхідно:

Вибрати на вкладці Тип необхідний тип лінії тренда (за замовчуванням вибирається тип Лінійний). Для Поліноміального типу в полі Ступінь слід задати ступінь обраного полінома.

1 . У полі Побудований ряд перераховані всі ряди даних аналізованої діаграми. Для додавання лінії тренда до конкретного ряду даних слід у полі Побудований на ряді вибрати його ім'я.

При необхідності, перейшовши на вкладку Параметри (мал. 2), можна для лінії тренда задати такі параметри:

    змінити назву лінії тренду в полі Назва апроксимуючої (згладженої) кривої.

    задати кількість періодів (вперед чи назад) для прогнозу у полі Прогноз;

    вивести в ділянку діаграми рівняння лінії тренду, для чого слід включити прапорець показати рівняння на діаграмі;

    вивести в ділянку діаграми значення достовірності апроксимації R2, для чого слід включити прапорець помістити на діаграму величину достовірності апроксимації (R^2);

    задати точку перетину лінії тренду з віссю Y, для чого слід включити прапорець перетин кривої з віссю Y в точці;

    клацнути на кнопці OK, щоб закрити діалогове вікно.

Для того, щоб розпочати редагування вже побудованої лінії тренду, існує три способи:

    скористатися командою Виділена лінія тренду з меню Формат, вибравши попередньо лінію тренда;

    вибрати команду Формат лінії тренда з контекстного меню, яке викликається клацанням правої кнопки миші по лінії тренду;

    подвійним клацанням по лінії тренду.

На екрані з'явиться діалогове вікно Формат лінії тренду (рис. 3), що містить три вкладки: Вид, Тип, Параметри, причому вміст останніх двох повністю збігається з аналогічними вкладками діалогового вікна Лінія тренду (рис.1-2). На вкладці Вигляд можна задати тип лінії, її колір та товщину.

Для видалення вже побудованої лінії тренда слід вибрати лінію тренда, що видаляється, і натиснути клавішу Delete.

Перевагами розглянутого інструменту регресійного аналізу є:

    відносна легкість побудови на діаграмах лінії тренду без створення нею таблиці даних;

    досить широкий перелік типів запропонованих ліній трендів, причому цей перелік входять найчастіше використовувані типи регресії;

    можливість прогнозування поведінки досліджуваного процесу на довільне (не більше здорового глузду) кількість кроків уперед, і навіть назад;

    можливість одержання рівняння лінії тренда в аналітичному вигляді;

    можливість, за потреби, отримання оцінки достовірності проведеної апроксимації.

До недоліків можна віднести такі моменти:

    побудова лінії тренду здійснюється лише за наявності діаграми, побудованої ряді даних;

    процес формування рядів даних для досліджуваної характеристики на основі отриманих для неї рівнянь ліній тренду дещо захаращений: шукані рівняння регресій оновлюються при кожній зміні значень вихідного ряду даних, але тільки в межах області діаграми, тоді як ряд даних, сформований на основі старого рівняння лінії тренду, залишається без зміни;

    у звітах зведених діаграм при зміні представлення діаграми або пов'язаного звіту зведеної таблиці наявні лінії тренду не зберігаються, тобто до проведення ліній тренду чи іншого форматування звіту зведених діаграм слід переконатися, що макет звіту відповідає необхідним вимогам.

Лініями тренду можна доповнити ряди даних, представлені на діаграмах типу графік, гістограма, плоскі ненормовані діаграми з областями, лінійчасті, точкові, пухирцеві та біржові.

Не можна доповнити лініями тренду ряди даних на об'ємних, нормованих, пелюсткових, кругових та кільцевих діаграмах.

Використання вбудованих функцій Excel

В Excel є також інструмент регресійного аналізу для побудови ліній тренду поза ділянкою діаграми. З цією метою можна використовувати низку статистичних функцій робочого листа, проте вони дозволяють будувати лише лінійні чи експоненційні регресії.

В Excel є кілька функцій для побудови лінійної регресії, зокрема:

    ТЕНДЕНЦІЯ;

  • Нахил і відрізок.

А також кілька функцій для побудови експоненційної лінії тренду, зокрема:

    ЛДРФПРИБЛ.

Слід зазначити, що прийоми побудови регресій за допомогою функцій ТЕНДЕНЦІЯ та РОСТ практично збігаються. Те саме можна сказати і про пару функцій Лінейн і ЛГРФПРИБЛ. Для чотирьох цих функцій під час створення таблиці значень використовуються такі можливості Excel, як формули масивів, що дещо захаращує процес побудови регресій. Зауважимо також, що побудова лінійної регресії, на наш погляд, найлегше здійснити за допомогою функцій НАКЛОН і ВІДРІЗОК, де перша визначає кутовий коефіцієнт лінійної регресії, а друга - відрізок, що відсікається регресією на осі ординат.

Достоїнствами інструменту вбудованих функцій для регресійного аналізу є:

    досить простий однотипний процес формування рядів даних досліджуваної характеристики всім вбудованих статистичних функцій, що задають лінії тренда;

    стандартна методика побудови ліній тренду на основі сформованих рядів даних;

    можливість прогнозування поведінки досліджуваного процесу необхідну кількість кроків уперед чи назад.

А до недоліків відноситься те, що в Excel немає вбудованих функцій для створення інших (крім лінійного та експонентного) типів ліній тренду. Ця обставина часто дозволяє підібрати досить точну модель досліджуваного процесу, і навіть отримати близькі до реальності прогнози. Крім того, при використанні функцій ТЕНДЕНЦІЯ та РОСТ не відомі рівняння ліній тренду.

Слід зазначити, що автори не ставили за мету статті викладення курсу регресійного аналізу з тим чи іншим ступенем повноти. Основне її завдання - на конкретних прикладах показати можливості пакета Excel під час вирішення завдань апроксимації; продемонструвати, якими ефективними інструментами для побудови регресій та прогнозування має Excel; проілюструвати, як щодо легко такі завдання можуть бути вирішені навіть користувачем, який не володіє глибокими знаннями регресійного аналізу.

Приклади вирішення конкретних завдань

Розглянемо рішення конкретних завдань за допомогою перерахованих інструментів Excel.

Завдання 1

З таблицею даних про прибуток автотранспортного підприємства за 1995-2002 рр. необхідно виконати такі дії.

    Побудувати діаграму.

    У діаграму додати лінійну та поліноміальну (квадратичну та кубічну) лінії тренду.

    Використовуючи рівняння ліній тренду, отримати табличні дані щодо прибутку підприємства для кожної лінії тренду за 1995-2004 роки.

    Скласти прогноз щодо прибутку підприємства на 2003 та 2004 роки.

Рішення завдання

    У діапазон осередків A4:C11 робочого листа Excel вводимо робочу таблицю, подану на рис. 4.

    Виділивши діапазон осередків В4: С11, будуємо діаграму.

    Активізуємо побудовану діаграму та за описаною вище методикою після вибору типу лінії тренду в діалоговому вікні Лінія тренду (див. рис. 1) по черзі додаємо в діаграму лінійну, квадратичну та кубічну лінії тренду. У цьому ж діалоговому вікні відкриваємо вкладку Параметри (див. рис. 2), в полі Назва апроксимуючої (згладженої) кривої вводимо найменування тренда, що додається, а в полі Прогноз вперед на: періодів задаємо значення 2, так як планується зробити прогноз по прибутку на два року наперед. Для виведення в області діаграми рівняння регресії та значення достовірності апроксимації R2 включаємо прапорці показувати рівняння на екрані та помістити на діаграму величину достовірності апроксимації (R^2). Для кращого візуального сприйняття змінюємо тип, колір та товщину побудованих ліній тренду, для чого скористаємось вкладкою Вид діалогового вікна Формат лінії тренду (див. рис. 3). Отримана діаграма з доданими лініями тренду представлена ​​на рис. 5.

    Для отримання табличних даних щодо прибутку підприємства для кожної лінії тренду за 1995-2004 роки. скористаємось рівняннями ліній тренду, представленими на рис. 5. Для цього в комірки діапазону D3:F3 вводимо текстову інформацію про тип обраної лінії тренду: Лінійний тренд, Квадратичний тренд, Кубічний тренд. Далі вводимо в комірку D4 формулу лінійної регресії і, використовуючи маркер заповнення, копіюємо цю формулу з відносними посиланнями діапазону комірок D5:D13. Слід зазначити, що кожному осередку з формулою лінійної регресії з діапазону осередків D4:D13 як аргумент стоїть відповідний осередок з діапазону A4:A13. Аналогічно для квадратичної регресії заповнюється діапазон осередків E4: E13, а кубічної регресії - діапазон осередків F4: F13. Таким чином, складено прогноз щодо прибутку підприємства на 2003 та 2004 роки. за допомогою трьох трендів. Отримана таблиця значень представлена ​​рис. 6.

Завдання 2

    Побудувати діаграму.

    У діаграму додати логарифмічну, статечну та експоненційну лінії тренду.

    Вивести рівняння отриманих ліній тренду, і навіть величини достовірності апроксимації R2 кожної з них.

    Використовуючи рівняння ліній тренду, отримати табличні дані про прибуток підприємства кожної лінії тренду за 1995-2002 гг.

    Скласти прогноз про прибуток підприємства на 2003 та 2004 рр., використовуючи ці лінії тренду.

Рішення завдання

Дотримуючись методики, наведеної при вирішенні задачі 1, отримуємо діаграму з доданими до неї логарифмічної, статечної та експоненційної лініями тренду (рис. 7). Далі, використовуючи отримані рівняння ліній тренду, заповнюємо таблицю значень із прибутку підприємства, включаючи прогнозовані значення на 2003 та 2004 роки. (Рис. 8).

На рис. 5 та рис. видно, що моделі з логарифмічним трендом відповідає найменше значення достовірності апроксимації.

R2 = 0,8659

Найбільші значення R2 відповідають моделям з поліноміальним трендом: квадратичним (R2 = 0,9263) і кубічним (R2 = 0,933).

Завдання 3

З таблицею даних про прибуток автотранспортного підприємства за 1995-2002 рр., що наведена в задачі 1, необхідно виконати такі дії.

    Отримати ряди даних для лінійної та експоненційної лінії тренду з використанням функцій ТЕНДЕНЦІЯ та РОСТ.

    Використовуючи функції ТЕНДЕНЦІЯ та РОСТ, скласти прогноз про прибуток підприємства на 2003 та 2004 роки.

    Для вихідних даних та отриманих рядів даних побудувати діаграму.

Рішення завдання

Скористайтеся робочою таблицею задачі 1 (див. рис. 4). Почнемо з функції ТЕНДЕНЦІЯ:

    виділяємо діапазон осередків D4:D11, який слід заповнити значеннями функції ТЕНДЕНЦІЯ, що відповідають відомим даним про прибуток підприємства;

    викликаємо команду Функція з меню Вставка. У діалоговому вікні Майстер функцій виділяємо функцію ТЕНДЕНЦІЯ з категорії Статистичні, після чого клацаємо по кнопці ОК. Цю операцію можна здійснити натисканням кнопки (Вставка функції) стандартної панелі інструментів.

    У діалоговому вікні, що з'явилося Аргументи функції вводимо в поле Відомі_значення_y діапазон осередків C4:C11; у полі Відомі_значення_х - діапазон осередків B4: B11;

    щоб формула, що вводиться, стала формулою масиву, використовуємо комбінацію клавіш + + .

Введена нами формула у рядку формул матиме вигляд: =(ТЕНДЕНЦІЯ(C4:C11;B4:B11)).

В результаті діапазон комірок D4:D11 заповнюється відповідними значеннями функції ТЕНДЕНЦІЯ (рис. 9).

Для складання прогнозу про прибуток підприємства на 2003 та 2004 роки. необхідно:

    виділити діапазон осередків D12:D13, куди заноситимуться значення, прогнозовані функцією ТЕНДЕНЦІЯ.

    викликати функцію ТЕНДЕНЦІЯ і в діалоговому вікні, що з'явилося Аргументи функції ввести в поле Відомі_значення_y - діапазон осередків C4:C11; у полі Відомі_значення_х - діапазон осередків B4: B11; а в полі Нові_значення_х - діапазон осередків B12: B13.

    перетворити цю формулу на формулу масиву, використовуючи комбінацію клавіш Ctrl + Shift + Enter.

    Введена формула матиме вигляд: =(ТЕНДЕНЦІЯ(C4:C11;B4:B11;B12:B13)), а діапазон осередків D12:D13 заповниться прогнозованими значеннями функції ТЕНДЕНЦІЯ (див. рис. 9).

Аналогічно заповнюється ряд даних за допомогою функції РОСТ, яка використовується при аналізі нелінійних залежностей і працює так само, як її лінійний аналог ТЕНДЕНЦІЯ.

На рис.10 представлена ​​таблиця як показу формул.

Для вихідних даних та отриманих рядів даних побудовано діаграму, зображену на рис. 11.

Завдання 4

З таблицею даних про вступ до диспетчерської служби автотранспортного підприємства заявок на послуги за період з 1 до 11 числа поточного місяця необхідно виконати такі дії.

    Отримати ряди даних для лінійної регресії: використовуючи функції НАКЛОН та ВІДРІЗОК; використовуючи функцію Лінейн.

    Отримати ряд даних для експоненційної регресії з використанням функції ЛГРФПРИБЛ.

    Використовуючи вищезгадані функції, скласти прогноз про надходження заявок до диспетчерської служби на період з 12 до 14 числа поточного місяця.

    Для вихідних та отриманих рядів даних побудувати діаграму.

Рішення завдання

Зазначимо, що, на відміну від функцій ТЕНДЕНЦІЯ і ЗРОСТАННЯ, жодна з перерахованих вище функцій (НАХИЛ, ВІДРІЗОК, ЛІНІЙН, ЛГРФПРИБ) не є регресією. Ці функції грають лише допоміжну роль, визначаючи необхідні параметри регресії.

Для лінійної та експоненційної регресій, побудованих за допомогою функцій НАКЛОН, ВІДРІЗОК, ЛІНІЙН, ЛГРФПРИБ, зовнішній вигляд їх рівнянь завжди відомий, на відміну від лінійної та експоненційної регресій, що відповідають функціям ТЕНДЕНЦІЯ та РОЗДІЛ.

1 . Побудуємо лінійну регресію, яка має рівняння:

y = mx+b

за допомогою функцій НАХИЛ і ВІДРІЗОК, причому кутовий коефіцієнт регресії m визначається функцією НАХИЛ, а вільний член b - функцією ВІДРІЗОК.

Для цього здійснюємо такі дії:

    заносимо вихідну таблицю в діапазон осередків A4: B14;

    значення параметра m буде визначатися в комірці С19. Вибираємо з категорії Статистичні функції Нахил; заносимо діапазон осередків B4:B14 у поле відомі_значення_y та діапазон осередків А4:А14 у поле відомі_значення_х. У комірку С19 буде введена формула: = НАХЛАН(B4:B14;A4:A14);

    за аналогічною методикою визначається значення параметра b у комірці D19. І її вміст матиме вигляд: = відрізок (B4: B14; A4: A14). Таким чином, необхідні для побудови лінійної регресії значення параметрів m і b зберігатимуться відповідно в осередках C19, D19;

    далі заносимо в комірку С4 формулу лінійної регресії як: =$C*A4+$D. У цій формулі осередки С19 та D19 записані з абсолютними посиланнями (адреса осередку не повинна змінюватися при можливому копіюванні). Знак абсолютного посилання $ можна набити або з клавіатури або за допомогою клавіші F4, попередньо встановивши курсор на адресу комірки. Скориставшись маркером заповнення, скопіюємо цю формулу в діапазон осередків С4:С17. Отримуємо потрібний ряд даних (рис. 12). У зв'язку з тим, що кількість заявок - ціле число, слід встановити на вкладці Число вікна Формат осередків числовий формат із числом десяткових знаків 0.

2 . Тепер збудуємо лінійну регресію, задану рівнянням:

y = mx+b

за допомогою функції ЛІНІЙН.

Для цього:

    вводимо в діапазон осередків C20:D20 функцію ЛІНІЙН як формулу масиву: =(ЛІНЕЙН(B4:B14;A4:A14)). В результаті отримуємо в комірці C20 значення параметра m, а в комірці D20 значення параметра b;

    вводимо в комірку D4 формулу: = $ C * A4 + $ D;

    копіюємо цю формулу за допомогою маркера заповнення в діапазон осередків D4: D17 і отримуємо ряд даних, що шукається.

3 . Будуємо експоненційну регресію, яка має рівняння:

за допомогою функції ЛГРФПРИБЛ воно виконується аналогічно:

    в діапазон осередків C21:D21 вводимо функцію ЛГРФПРИБЛ як формулу масиву: =( ЛГРФПРИБЛ (B4:B14;A4:A14)). При цьому в комірці C21 буде визначено значення параметра m, а в комірці D21 значення параметра b;

    у комірку E4 вводиться формула: =$D*$C^A4;

    за допомогою маркера заповнення ця формула копіюється в діапазон клітин E4:E17, де і розташується ряд даних для експоненційної регресії (див. рис. 12).

На рис. 13 наведено таблицю, де видно використовувані нами функції з необхідними діапазонами осередків, а також формули.

Величина R 2 називається коефіцієнтом детермінації.

Завданням побудови регресійної залежності є знаходження вектора коефіцієнтів m моделі (1) при якому коефіцієнт R набуває максимального значення.

Для оцінки значущості R застосовується F-критерій Фішера, що обчислюється за формулою

де n- розмір вибірки (кількість експериментів);

k – число коефіцієнтів моделі.

Якщо F перевищує деяке критичне значення для даних nі kі прийнятої довірчої ймовірності, величина R вважається істотною. Таблиці критичних значень F наводяться у довідниках з математичної статистики.

Отже, значимість R визначається як його величиною, а й співвідношенням між кількістю експериментів і кількістю коефіцієнтів (параметрів) моделі. Дійсно, кореляційне відношення для n=2 для простої лінійної моделі дорівнює 1 (через 2 точки на площині завжди можна провести єдину пряму). Однак, якщо експериментальні дані є випадковими величинами, довіряти такому значенню R слід з великою обережністю. Зазвичай отримання значимого R і достовірної регресії прагнуть до того, щоб кількість експериментів істотно перевищувала кількість коефіцієнтів моделі (n>k).

Для побудови лінійної регресійної моделі необхідно:

1) підготувати список з n рядків і m стовпців, що містить експериментальні дані (стовпець, що містить вихідну величину Yмає бути або першим, або останнім у списку); Наприклад візьмемо дані попереднього завдання, додавши стовпець під назвою "№ періоду", пронумеруємо номери періодів від 1 до 12. (це значення Х)

2) звернутися до меню Дані/Аналіз даних/Регресія

Якщо пункт "Аналіз даних" у меню "Сервіс" відсутній, слід звернутися до пункту "Надбудови" того ж меню і встановити прапорець "Пакет аналізу".

3) у діалоговому вікні "Регресія" задати:

· Вхідний інтервал Y;

· Вхідний інтервал X;

· Вихідний інтервал - верхній лівий осередок інтервалу, в який будуть розміщуватися результати обчислень (рекомендується розмістити на новому робочому аркуші);

4) натиснути "Ok" та проаналізувати результати.

Метод найменших квадратіввикористовується для оцінки параметрів рівняння регресії.
Кількість рядків (вихідних даних)

Одним із методів вивчення стохастичних зв'язків між ознаками є регресійний аналіз.
Регресійний аналіз є висновок рівняння регресії, за допомогою якого знаходиться середня величина випадкової змінної (ознака-результату), якщо величина іншої (або інших) змінних (ознак-факторів) відома. Він включає такі етапи:

  1. вибір форми зв'язку (виду аналітичного рівняння регресії);
  2. оцінку параметрів рівняння;
  3. оцінку якості аналітичного рівняння регресії
Найчастіше для опису статистичного зв'язку ознак використовується лінійна форма. Увага до лінійного зв'язку пояснюється чіткою економічною інтерпретацією її параметрів, обмеженою варіацією змінних і тим, що здебільшого нелінійні форми зв'язку до виконання розрахунків перетворять (шляхом логарифмування чи заміни змінних) в лінійну форму.
У разі лінійного парного зв'язку рівняння регресії набуде вигляду: y i =a+b·x i +u i . Параметри даного рівняння а та b оцінюються за даними статистичного спостереження x та y . Результатом такої оцінки є рівняння: , де - оцінки параметрів a і b - значення результативної ознаки (змінної), отримане за рівнянням регресії (розрахункове значення).

Найчастіше для оцінки параметрів використовують Метод найменших квадратів (МНК).
Метод найменших квадратів дає найкращі (заможні, ефективні та незміщені) оцінки параметрів рівняння регресії. Але тільки в тому випадку, якщо виконуються певні передумови щодо випадкового члена (u) та незалежної змінної (x) (див. передумови МНК).

Завдання оцінювання параметрів лінійного парного рівняння методом найменших квадратівполягає в наступному: отримати такі оцінки параметрів , при яких сума квадратів відхилень фактичних значень результативної ознаки - y i від розрахункових значень - мінімальна.
Формально критерій МНКможна записати так: .

Класифікація методів найменших квадратів

  1. Метод найменших квадратів.
  2. Метод максимальної правдоподібності (для нормальної класичної лінійної моделі регресії постулюється нормальність регресійних залишків).
  3. Узагальнений метод найменших квадратів ОМНК застосовується у разі автокореляції помилок та у разі гетероскедастичності.
  4. Метод зважених найменших квадратів ( окремий випадокОМНК із гетероскедастичними залишками).

Проілюструємо суть класичного методунайменших квадратів графічно. Для цього побудуємо точковий графік за даними спостережень (x i , y i , i = 1; n) у прямокутній системі координат (такий точковий графік називають кореляційним полем). Спробуємо підібрати пряму лінію, яка найближче розташована до точок кореляційного поля. Відповідно до методу найменших квадратів лінія вибирається так, щоб сума квадратів відстаней по вертикалі між точками кореляційного поля та цією лінією була б мінімальною.

Математичний запис даної задачі: .
Значення y i x i =1...n нам відомі, це дані спостережень. У функції S вони є константи. Змінними у цій функції є оцінки параметрів - , . Щоб визначити мінімум функції двох змінних потрібно обчислити приватні похідні цієї функції у кожному з властивостей і прирівняти їх нулю, тобто. .
В результаті отримаємо систему з двох нормальних лінійних рівнянь:
Вирішуючи цю системузнайдемо шукані оцінки параметрів:

Правильність розрахунку параметрів рівняння регресії може бути перевірена порівнянням сум (можлива деяка розбіжність через заокруглення розрахунків).
Для розрахунку оцінок параметрів можна побудувати таблицю 1.
Знак коефіцієнта регресії b вказує напрямок зв'язку (якщо b >0, зв'язок прямий, якщо b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Формально значення параметра - середнє значення y при х рівному нулю. Якщо ознака-фактор немає і може мати нульового значення, то вищевказане трактування параметра немає сенсу.

Оцінка тісноти зв'язку між ознаками здійснюється за допомогою коефіцієнта лінійної парної кореляції - r x, y. Він може бути розрахований за формулою: . Крім того, коефіцієнт лінійної парної кореляції може бути визначений через коефіцієнт регресії b: .
Область допустимих значень лінійного коефіцієнта парної кореляції від -1 до +1. Знак коефіцієнта кореляції вказує напрямок зв'язку. Якщо r x, y >0, то зв'язок прямий; якщо r x, y<0, то связь обратная.
Якщо цей коефіцієнт по модулю близький до одиниці, то зв'язок між ознаками може бути інтерпретований як досить тісний лінійний. Якщо його модуль дорівнює одиниці r x , y = 1, то зв'язок між ознаками функціональна лінійна. Якщо ознаки х і y лінійно незалежні, то r x y близький до 0.
Для розрахунку r x, y можна також використовувати таблицю 1.

Таблиця 1

N спостереженняx iy ix i ∙y i
1 x 1y 1x 1 · y 1
2 x 2y 2x 2 · y 2
...
nx ny nx n ·y n
Сума по стовпцю∑x∑y∑x·y
Середнє значення
Для оцінки якості отриманого рівняння регресії розраховують теоретичний коефіцієнт детермінації - R 2 yx:

,
де d 2 - Пояснена рівнянням регресії дисперсія y;
e 2 - залишкова (непояснена рівнянням регресії) дисперсія y;
s 2 y - загальна (повна) дисперсія y.
Коефіцієнт детермінації характеризує частку варіації (дисперсії) результативної ознаки y, що пояснюється регресією (а, отже, і фактором х), у загальній варіації (дисперсії) y. Коефіцієнт детермінації R 2 yx набуває значення від 0 до 1. Відповідно величина 1-R 2 yx характеризує частку дисперсії y , викликану впливом інших неврахованих у моделі факторів та помилками специфікації.
При парній лінійній регресії R 2 yx = r 2 yx.

Нове на сайті

>

Найпопулярніше