Додому Протезування та імплантація Точковий метод найменших квадратів. Де застосовується метод найменших квадратів

Точковий метод найменших квадратів. Де застосовується метод найменших квадратів

приклад.

Експериментальні дані про значення змінних хі унаведено у таблиці.

В результаті їх вирівнювання отримано функцію

Використовуючи метод найменших квадратів , апроксимувати ці дані лінійною залежністю y=ax+b(Знайти параметри аі b). З'ясувати, яка з двох ліній краще (у сенсі способу менших квадратів) вирівнює експериментальні дані. Зробити креслення.

Суть методу найменших квадратів (МНК).

Завдання полягає у знаходженні коефіцієнтів лінійної залежності, при яких функція двох змінних аі b набуває найменшого значення. Тобто, за даними аі bсума квадратів відхилень експериментальних даних від знайденої прямої буде найменшою. У цьому суть методу найменших квадратів.

Таким чином, рішення прикладу зводиться до знаходження екстремуму функції двох змінних.

Висновок формул знаходження коефіцієнтів.

Складається та вирішується система із двох рівнянь із двома невідомими. Знаходимо приватні похідні функції за змінними аі b, Прирівнюємо ці похідні до нуля.

Вирішуємо отриману систему рівнянь будь-яким методом (наприклад методом підстановкиабо методом Крамера) та отримуємо формули для знаходження коефіцієнтів за методом найменших квадратів (МНК).

За даними аі bфункція набуває найменшого значення. Доказ цього факту наведено нижче за текстом наприкінці сторінки.

Ось і весь спосіб найменших квадратів. Формула для знаходження параметра aмістить суми ,,,і параметр n- Кількість експериментальних даних. Значення цих сум рекомендуємо обчислювати окремо. Коефіцієнт bзнаходиться після обчислення a.

Настав час згадати про вихідний приклад.

Рішення.

У нашому прикладі n=5. Заповнюємо таблицю для зручності обчислення сум, що входять до формул шуканих коефіцієнтів.

Значення у четвертому рядку таблиці отримані множенням значень 2-го рядка на значення 3-го рядка для кожного номера i.

Значення у п'ятому рядку таблиці отримані зведенням у квадрат значень другого рядка для кожного номера i.

Значення останнього стовпця таблиці – це суми значень рядків.

Використовуємо формули методу найменших квадратів для знаходження коефіцієнтів аі b. Підставляємо у них відповідні значення з останнього стовпця таблиці:

Отже, y = 0.165x+2.184- пряма апроксимуюча.

Залишилося з'ясувати, яка з ліній y = 0.165x+2.184або краще апроксимує вихідні дані, тобто провести оцінку шляхом найменших квадратів.

Оцінка похибки способу менших квадратів.

Для цього потрібно обчислити суми квадратів відхилень вихідних даних від цих ліній і менше значення відповідає лінії, яка краще в сенсі методу найменших квадратів апроксимує вихідні дані.

Оскільки , то пряма y = 0.165x+2.184краще наближає вихідні дані.

Графічна ілюстрація методу найменших квадратів (МНК).

На графіках все чудово видно. Червона лінія – це знайдена пряма y = 0.165x+2.184, синя лінія – це , Рожеві точки - це вихідні дані.

На практиці при моделюванні різних процесів - зокрема, економічних, фізичних, технічних, соціальних - широко використовуються ті чи інші способи обчислення наближених значень функцій за відомими значеннями в деяких фіксованих точках.

Такі завдання наближення функцій часто виникають:

    при побудові наближених формул для обчислення значень характерних величин досліджуваного процесу за табличними даними, отриманими в результаті експерименту;

    при чисельному інтегруванні, диференціюванні, рішенні диференціальних рівняньі т.д.;

    при необхідності обчислення значень функцій у проміжних точках інтервалу, що розглядається;

    щодо значень характерних величин процесу поза розглядуваного інтервалу, зокрема при прогнозуванні.

Якщо для моделювання деякого процесу, заданого таблицею, побудувати функцію, що наближено описує даний процес на основі методу найменших квадратів, вона буде називатися апроксимуючою функцією (регресією), а завдання побудови апроксимуючих функцій - завданням апроксимації.

У цій статті розглянуто можливості пакета MS Excel для вирішення такого роду завдань, крім того, наведено методи та прийоми побудови (створення) регресій для таблично заданих функцій (що є основою регресійного аналізу).

Excel для побудови регресій є дві можливості.

    Додавання обраних регресій ( ліній тренду- trendlines) у діаграму, побудовану на основі таблиці даних для досліджуваної характеристики процесу (доступно лише за наявності побудованої діаграми);

    Використання вбудованих статистичних функцій робочого листа Excel, дозволяють отримувати регресії (лінії тренду) безпосередньо з урахуванням таблиці вихідних даних.

Додавання ліній тренду до діаграми

Для таблиці даних, що описують деякий процес і представлених діаграмою, Excel є ефективний інструмент регресійного аналізу, що дозволяє:

    будувати на основі методу найменших квадратів і додавати в діаграму п'ять типів регресій, які з тим чи іншим ступенем точності моделюють досліджуваний процес;

    додавати до діаграми рівняння побудованої регресії;

    визначати ступінь відповідності обраної регресії даних, що відображаються на діаграмі.

На основі даних діаграми Excel дозволяє отримувати лінійний, поліноміальний, логарифмічний, статечний, експоненційний типи регресій, які задаються рівнянням:

y = y(x)

де x - незалежна змінна, яка часто набуває значення послідовності натурального ряду чисел (1; 2; 3; …) і здійснює, наприклад, відлік часу протікання досліджуваного процесу (характеристики).

1 . Лінійна регресія хороша при моделюванні характеристик, значення яких збільшуються або зменшуються з постійною швидкістю. Це найпростіша у побудові модель досліджуваного процесу. Вона будується відповідно до рівняння:

y = mx + b

де m - тангенс кута нахилу лінійної регресіїдо осі абсцис; b - координата точки перетину лінійної регресії з віссю ординат.

2 . Поліноміальна лінія тренду корисна для опису характеристик, що мають кілька яскраво виражених екстремумів (максимумів та мінімумів). Вибір ступеня полінома визначається кількістю екстремумів досліджуваної характеристики. Так, поліном другого ступеня може добре описати процес, що має лише один максимум або мінімум; поліном третього ступеня - трохи більше двох екстремумів; поліном четвертого ступеня - трохи більше трьох екстремумів тощо.

У цьому випадку лінія тренду будується відповідно до рівняння:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

де коефіцієнти c0, c1, c2, c6 - константи, значення яких визначаються в ході побудови.

3 . Логарифмічна лінія тренду успішно застосовується при моделюванні характеристик, значення яких спочатку швидко змінюються, та був поступово стабілізуються.

y = c ln(x) + b

4 . Ступінна лінія тренду дає хороші результати, якщо значення досліджуваної залежності характеризуються постійною зміною швидкості зростання. Прикладом такої залежності може бути графік рівноприскореного руху автомобіля. Якщо серед даних зустрічаються нульові чи негативні значення, використовувати статечну лінію тренда не можна.

Будується відповідно до рівняння:

y = c xb

де коефіцієнти b, с – константи.

5 . Експонентну лінію тренда слід використовувати у тому випадку, якщо швидкість зміни даних безперервно зростає. Для даних, що містять нульові або негативні значення, цей вид наближення також не застосовується.

Будується відповідно до рівняння:

y = c ebx

де коефіцієнти b, с – константи.

При підборі лінії тренду Excel автоматично розраховує значення величини R2, яка характеризує достовірність апроксимації: ближче значення R2 до одиниці, тим надійніше лінія тренду апроксимує досліджуваний процес. За потреби значення R2 завжди можна відобразити на діаграмі.

Визначається за такою формулою:

Для додавання лінії тренду до ряду даних слід:

    активізувати побудовану з урахуванням низки даних діаграму, т. е. клацнути у межах області діаграми. У головному меню з'явиться пункт Діаграма;

    після натискання на цьому пункті на екрані з'явиться меню, в якому слід вибрати команду Додати лінію тренда.

Ці ж дії легко реалізуються, якщо навести покажчик миші на графік, що відповідає одному з рядів даних, та клацнути правою кнопкою миші; у контекстному меню, що з'явилося, вибрати команду Додати лінію тренда. На екрані з'явиться діалогове вікно Лінія тренду з відкритою вкладкою Тип (рис. 1).

Після цього необхідно:

Вибрати на вкладці Тип необхідний тип лінії тренда (за замовчуванням вибирається тип Лінійний). Для Поліноміального типу в полі Ступінь слід задати ступінь обраного полінома.

1 . У полі Побудований ряд перераховані всі ряди даних аналізованої діаграми. Для додавання лінії тренда до конкретного ряду даних слід у полі Побудований на ряді вибрати його ім'я.

При необхідності, перейшовши на вкладку Параметри (мал. 2), можна для лінії тренда задати такі параметри:

    змінити назву лінії тренду в полі Назва апроксимуючої (згладженої) кривої.

    встановити кількість періодів (вперед або назад) для прогнозу в полі Прогноз;

    вивести в ділянку діаграми рівняння лінії тренду, для чого слід включити прапорець показати рівняння на діаграмі;

    вивести в ділянку діаграми значення достовірності апроксимації R2, для чого слід включити прапорець помістити на діаграму величину достовірності апроксимації (R^2);

    задати точку перетину лінії тренду з віссю Y, для чого слід включити прапорець перетин кривої з віссю Y в точці;

    клацнути на кнопці OK, щоб закрити діалогове вікно.

Для того, щоб розпочати редагування вже побудованої лінії тренду, існує три способи:

    скористатися командою Виділена лінія тренду з меню Формат, вибравши попередньо лінію тренда;

    вибрати команду Формат лінії тренда з контекстного меню, яке викликається клацанням правої кнопки миші по лінії тренду;

    подвійним клацанням по лінії тренду.

На екрані з'явиться діалогове вікно Формат лінії тренду (рис. 3), що містить три вкладки: Вид, Тип, Параметри, причому вміст останніх двох повністю збігається з аналогічними вкладками діалогового вікна Лінія тренду (рис.1-2). На вкладці Вигляд можна задати тип лінії, її колір та товщину.

Для видалення вже побудованої лінії тренда слід вибрати лінію тренда, що видаляється, і натиснути клавішу Delete.

Перевагами розглянутого інструменту регресійного аналізу є:

    відносна легкість побудови на діаграмах лінії тренду без створення нею таблиці даних;

    досить широкий перелік типів запропонованих ліній трендів, причому цей перелік входять найчастіше використовувані типи регресії;

    можливість прогнозування поведінки досліджуваного процесу на довільне (не більше здорового глузду) кількість кроків уперед, і навіть назад;

    можливість одержання рівняння лінії тренда в аналітичному вигляді;

    можливість, за потреби, отримання оцінки достовірності проведеної апроксимації.

До недоліків можна віднести такі моменти:

    побудова лінії тренду здійснюється лише за наявності діаграми, побудованої ряді даних;

    процес формування рядів даних для досліджуваної характеристики на основі отриманих для неї рівнянь ліній тренду дещо захаращений: шукані рівняння регресій оновлюються при кожній зміні значень вихідного ряду даних, але тільки в межах області діаграми, тоді як ряд даних, сформований на основі старого рівняння лінії тренду, залишається без зміни;

    у звітах зведених діаграм при зміні представлення діаграми або пов'язаного звіту зведеної таблиці наявні лінії тренду не зберігаються, тобто до проведення ліній тренду чи іншого форматування звіту зведених діаграм слід переконатися, що макет звіту відповідає необхідним вимогам.

Лініями тренду можна доповнити ряди даних, представлені на діаграмах типу графік, гістограма, плоскі ненормовані діаграми з областями, лінійчасті, точкові, пухирцеві та біржові.

Не можна доповнити лініями тренду ряди даних на об'ємних, нормованих, пелюсткових, кругових та кільцевих діаграмах.

Використання вбудованих функцій Excel

В Excel є також інструмент регресійного аналізу для побудови ліній тренду поза ділянкою діаграми. З цією метою можна використовувати низку статистичних функцій робочого листа, проте вони дозволяють будувати лише лінійні чи експоненційні регресії.

В Excel є кілька функцій для побудови лінійної регресії, зокрема:

    ТЕНДЕНЦІЯ;

  • Нахил і відрізок.

А також кілька функцій для побудови експоненційної лінії тренду, зокрема:

    ЛДРФПРИБЛ.

Слід зазначити, що прийоми побудови регресій за допомогою функцій ТЕНДЕНЦІЯ та РОСТ практично збігаються. Те саме можна сказати і про пару функцій Лінейн і ЛГРФПРИБЛ. Для чотирьох цих функцій під час створення таблиці значень використовуються такі можливості Excel, як формули масивів, що дещо захаращує процес побудови регресій. Зауважимо також, що побудова лінійної регресії, на наш погляд, найлегше здійснити за допомогою функцій НАКЛОН і ВІДРІЗОК, де перша визначає кутовий коефіцієнт лінійної регресії, а друга - відрізок, що відсікається регресією на осі ординат.

Достоїнствами інструменту вбудованих функцій для регресійного аналізу є:

    досить простий однотипний процес формування рядів даних досліджуваної характеристики всім вбудованих статистичних функцій, що задають лінії тренда;

    стандартна методика побудови ліній тренду на основі сформованих рядів даних;

    можливість прогнозування поведінки досліджуваного процесу необхідну кількість кроків уперед чи назад.

А до недоліків відноситься те, що в Excel немає вбудованих функцій для створення інших (крім лінійного та експонентного) типів ліній тренду. Ця обставина часто дозволяє підібрати досить точну модель досліджуваного процесу, і навіть отримати близькі до реальності прогнози. Крім того, при використанні функцій ТЕНДЕНЦІЯ та РОСТ не відомі рівняння ліній тренду.

Слід зазначити, що автори не ставили за мету статті викладення курсу регресійного аналізу з тим чи іншим ступенем повноти. Основне її завдання - на конкретних прикладах показати можливості пакета Excel під час вирішення завдань апроксимації; продемонструвати, якими ефективними інструментами для побудови регресій та прогнозування має Excel; проілюструвати, як щодо легко такі завдання можуть бути вирішені навіть користувачем, який не володіє глибокими знаннями регресійного аналізу.

Приклади вирішення конкретних завдань

Розглянемо рішення конкретних завдань за допомогою перерахованих інструментів Excel.

Завдання 1

З таблицею даних про прибуток автотранспортного підприємства за 1995-2002 рр. необхідно виконати такі дії.

    Побудувати діаграму.

    У діаграму додати лінійну та поліноміальну (квадратичну та кубічну) лінії тренду.

    Використовуючи рівняння ліній тренду, отримати табличні дані щодо прибутку підприємства для кожної лінії тренду за 1995-2004 роки.

    Скласти прогноз щодо прибутку підприємства на 2003 та 2004 роки.

Рішення завдання

    У діапазон осередків A4:C11 робочого листа Excel вводимо робочу таблицю, подану на рис. 4.

    Виділивши діапазон осередків В4: С11, будуємо діаграму.

    Активізуємо побудовану діаграму та за описаною вище методикою після вибору типу лінії тренду в діалоговому вікні Лінія тренду (див. рис. 1) по черзі додаємо в діаграму лінійну, квадратичну та кубічну лінії тренду. У цьому ж діалоговому вікні відкриваємо вкладку Параметри (див. рис. 2), в полі Назва апроксимуючої (згладженої) кривої вводимо найменування тренда, що додається, а в полі Прогноз вперед на: періодів задаємо значення 2, так як планується зробити прогноз по прибутку на два року наперед. Для виведення в області діаграми рівняння регресії та значення достовірності апроксимації R2 включаємо прапорці показувати рівняння на екрані та помістити на діаграму величину достовірності апроксимації (R^2). Для кращого візуального сприйняття змінюємо тип, колір та товщину побудованих ліній тренду, для чого скористаємось вкладкою Вид діалогового вікна Формат лінії тренду (див. рис. 3). Отримана діаграма з доданими лініями тренду представлена ​​на рис. 5.

    Для отримання табличних даних щодо прибутку підприємства для кожної лінії тренду за 1995-2004 роки.

скористаємось рівняннями ліній тренду, представленими на рис. 5. Для цього в комірки діапазону D3:F3 вводимо текстову інформацію про тип обраної лінії тренду: Лінійний тренд, Квадратичний тренд, Кубічний тренд. Далі вводимо в комірку D4 формулу лінійної регресії і, використовуючи маркер заповнення, копіюємо цю формулу з відносними посиланнями діапазону комірок D5:D13. Слід зазначити, що кожному осередку з формулою лінійної регресії з діапазону осередків D4:D13 як аргумент стоїть відповідний осередок з діапазону A4:A13. Аналогічно для квадратичної регресії заповнюється діапазон осередків E4: E13, а кубічної регресії - діапазон осередків F4: F13. Таким чином, складено прогноз щодо прибутку підприємства на 2003 та 2004 роки. за допомогою трьох трендів. Отримана таблиця значень представлена ​​рис. 6.

    Побудувати діаграму.

    Завдання 2

    У діаграму додати логарифмічну, статечну та експоненційну лінії тренду.

    Вивести рівняння отриманих ліній тренду, і навіть величини достовірності апроксимації R2 кожної з них.

    Використовуючи рівняння ліній тренду, отримати табличні дані про прибуток підприємства кожної лінії тренду за 1995-2002 гг.

Рішення завдання

Дотримуючись методики, наведеної при вирішенні задачі 1, отримуємо діаграму з доданими до неї логарифмічної, статечної та експоненційної лініями тренду (рис. 7). Далі, використовуючи отримані рівняння ліній тренду, заповнюємо таблицю значень із прибутку підприємства, включаючи прогнозовані значення на 2003 та 2004 роки. (Рис. 8).

На рис. 5 та рис. видно, що моделі з логарифмічним трендом відповідає найменше значення достовірності апроксимації.

R2 = 0,8659

Найбільші значення R2 відповідають моделям з поліноміальним трендом: квадратичним (R2 = 0,9263) і кубічним (R2 = 0,933).

Завдання 3

З таблицею даних про прибуток автотранспортного підприємства за 1995-2002 рр., що наведена в задачі 1, необхідно виконати такі дії.

    Отримати ряди даних для лінійної та експоненційної лінії тренду з використанням функцій ТЕНДЕНЦІЯ та РОСТ.

    Використовуючи функції ТЕНДЕНЦІЯ та РОСТ, скласти прогноз про прибуток підприємства на 2003 та 2004 роки.

    Для вихідних даних та отриманих рядів даних побудувати діаграму.

Рішення завдання

Скористайтеся робочою таблицею задачі 1 (див. рис. 4). Почнемо з функції ТЕНДЕНЦІЯ:

    виділяємо діапазон осередків D4:D11, який слід заповнити значеннями функції ТЕНДЕНЦІЯ, що відповідають відомим даним про прибуток підприємства;

    викликаємо команду Функція з меню Вставка. У діалоговому вікні Майстер функцій виділяємо функцію ТЕНДЕНЦІЯ з категорії Статистичні, після чого клацаємо по кнопці ОК. Цю операцію можна здійснити натисканням кнопки (Вставка функції) стандартної панелі інструментів.

    У діалоговому вікні, що з'явилося, Аргументи функції вводимо в поле Відомі_значення_y діапазон осередків C4:C11; у полі Відомі_значення_х - діапазон осередків B4: B11;

    щоб формула, що вводиться, стала формулою масиву, використовуємо комбінацію клавіш + + .

Введена нами формула у рядку формул матиме вигляд: =(ТЕНДЕНЦІЯ(C4:C11;B4:B11)).

В результаті діапазон осередків D4:D11 заповнюється відповідними значеннями функції ТЕНДЕНЦІЯ (рис. 9).

Для складання прогнозу про прибуток підприємства на 2003 та 2004 роки. необхідно:

    виділити діапазон осередків D12:D13, куди заноситимуться значення, прогнозовані функцією ТЕНДЕНЦІЯ.

    викликати функцію ТЕНДЕНЦІЯ і в діалоговому вікні, що з'явилося Аргументи функції ввести в поле Відомі_значення_y - діапазон осередків C4:C11; у полі Відомі_значення_х - діапазон осередків B4: B11; а в полі Нові_значення_х - діапазон осередків B12: B13.

    перетворити цю формулу на формулу масиву, використовуючи комбінацію клавіш Ctrl + Shift + Enter.

    Введена формула матиме вигляд: =(ТЕНДЕНЦІЯ(C4:C11;B4:B11;B12:B13)), а діапазон осередків D12:D13 заповниться прогнозованими значеннями функції ТЕНДЕНЦІЯ (див. рис. 9).

Аналогічно заповнюється ряд даних за допомогою функції РОСТ, яка використовується при аналізі нелінійних залежностей і працює так само, як її лінійний аналог ТЕНДЕНЦІЯ.

На рис.10 представлена ​​таблиця як показу формул.

Для вихідних даних та отриманих рядів даних побудовано діаграму, зображену на рис. 11.

Завдання 4

З таблицею даних про вступ до диспетчерської служби автотранспортного підприємства заявок на послуги за період з 1 до 11 числа поточного місяця необхідно виконати такі дії.

    Отримати ряди даних для лінійної регресії: використовуючи функції НАКЛОН та ВІДРІЗОК; використовуючи функцію Лінейн.

    Отримати ряд даних для експоненційної регресії з використанням функції ЛГРФПРИБЛ.

    Використовуючи вищезгадані функції, скласти прогноз про надходження заявок до диспетчерської служби на період з 12 до 14 числа поточного місяця.

    Для вихідних та отриманих рядів даних побудувати діаграму.

Рішення завдання

Зазначимо, що, на відміну від функцій ТЕНДЕНЦІЯ і ЗРОСТАННЯ, жодна з перерахованих вище функцій (НАХИЛ, ВІДРІЗОК, ЛІНІЙН, ЛГРФПРИБ) не є регресією. Ці функції грають лише допоміжну роль, визначаючи необхідні параметри регресії.

Для лінійної та експоненційної регресій, побудованих за допомогою функцій НАКЛОН, ВІДРІЗОК, ЛІНІЙН, ЛГРФПРИБ, зовнішній вигляд їх рівнянь завжди відомий, на відміну від лінійної та експоненційної регресій, що відповідають функціям ТЕНДЕНЦІЯ та РОЗДІЛ.

1 . Побудуємо лінійну регресію, яка має рівняння:

y = mx+b

за допомогою функцій НАХИЛ і ВІДРІЗОК, причому кутовий коефіцієнт регресії m визначається функцією НАХИЛ, а вільний член b - функцією ВІДРІЗОК.

Для цього здійснюємо такі дії:

    заносимо вихідну таблицю в діапазон осередків A4: B14;

    значення параметра m буде визначатися в комірці С19. Вибираємо з категорії Статистичні функції Нахил; заносимо діапазон осередків B4:B14 у поле відомі_значення_y та діапазон осередків А4:А14 у поле відомі_значення_х.

    У комірку С19 буде введена формула: = НАХЛАН(B4:B14;A4:A14);

    далі заносимо в комірку С4 формулу лінійної регресії як: =$C*A4+$D. У цій формулі осередки С19 та D19 записані з абсолютними посиланнями (адреса осередку не повинна змінюватися при можливому копіюванні). Знак абсолютного посилання $ можна набити або з клавіатури або за допомогою клавіші F4, попередньо встановивши курсор на адресу комірки.

2 Скориставшись маркером заповнення, скопіюємо цю формулу в діапазон осередків С4:С17. Отримуємо потрібний ряд даних (рис. 12). У зв'язку з тим, що кількість заявок - ціле число, слід встановити на вкладці Число вікна Формат осередків числовий формат із числом десяткових знаків 0.

y = mx+b

. Тепер збудуємо лінійну регресію, задану рівнянням:

за допомогою функції ЛІНІЙН.

    Для цього:

    вводимо в діапазон осередків C20:D20 функцію ЛІНІЙН як формулу масиву: =(ЛІНЕЙН(B4:B14;A4:A14)). В результаті отримуємо в комірці C20 значення параметра m, а в комірці D20 значення параметра b;

    вводимо в комірку D4 формулу: = $ C * A4 + $ D;

3 копіюємо цю формулу за допомогою маркера заповнення в діапазон осередків D4: D17 і отримуємо ряд даних, що шукається.

. Будуємо експоненційну регресію, яка має рівняння:

    за допомогою функції ЛГРФПРИБЛ воно виконується аналогічно:

    в діапазон осередків C21:D21 вводимо функцію ЛГРФПРИБЛ як формулу масиву: =( ЛГРФПРИБЛ (B4:B14;A4:A14)). При цьому в комірці C21 буде визначено значення параметра m, а в комірці D21 значення параметра b;

    у комірку E4 вводиться формула: =$D*$C^A4;

за допомогою маркера заповнення ця формула копіюється в діапазон клітин E4:E17, де і розташується ряд даних для експоненційної регресії (див. рис. 12).

На рис. 13 наведено таблицю, де видно використовувані нами функції з необхідними діапазонами осередків, а також формули. Величина 2 R називається.

коефіцієнтом детермінації

Завданням побудови регресійної залежності є знаходження вектора коефіцієнтів m моделі (1) при якому коефіцієнт R набуває максимального значення.

Для оцінки значущості R застосовується F-критерій Фішера, що обчислюється за формулою nде

- розмір вибірки (кількість експериментів);

k – число коефіцієнтів моделі. nі Якщо F перевищує деяке критичне значення для даних k і прийнятої довірчої ймовірності, величина R вважається істотною. Таблицікритичних значень

Отже, значимість R визначається як його величиною, а й співвідношенням між кількістю експериментів і кількістю коефіцієнтів (параметрів) моделі. Дійсно, кореляційне відношення для n=2 для простої лінійної моделі дорівнює 1 (через 2 точки на площині завжди можна провести єдину пряму). Однак, якщо експериментальні дані є випадковими величинами, довіряти такому значенню R слід з великою обережністю. Зазвичай отримання значимого R і достовірної регресії прагнуть до того, щоб кількість експериментів істотно перевищувала кількість коефіцієнтів моделі (n>k).

Для побудови лінійної регресійної моделі необхідно:

1) підготувати список з n рядків і m стовпців, що містить експериментальні дані (стовпець, що містить вихідну величину Yмає бути або першим, або останнім у списку); Наприклад візьмемо дані попереднього завдання, додавши стовпець під назвою "№ періоду", пронумеруємо номери періодів від 1 до 12. (це значення Х)

2) звернутися до меню Дані/Аналіз даних/Регресія

Якщо пункт "Аналіз даних" у меню "Сервіс" відсутній, слід звернутися до пункту "Надбудови" того ж меню і встановити прапорець "Пакет аналізу".

3) у діалоговому вікні "Регресія" задати:

· Вхідний інтервал Y;

· Вхідний інтервал X;

· Вихідний інтервал - верхній лівий осередок інтервалу, в який будуть розміщуватися результати обчислень (рекомендується розмістити на новому робочому аркуші);

4) натиснути "Ok" та проаналізувати результати.

Яке знаходить саме широке застосуванняу різних галузях науки та практичної діяльності. Це може бути фізика, хімія, біологія, економіка, соціологія, психологія і таке інше. Волею долі мені часто доводиться мати справу з економікою, і тому сьогодні я оформлю вам путівку до дивовижної країни під назвою Економетрика=) …Як це не хочете?! Там дуже добре – треба тільки наважитися! …Але ось те, що ви, напевно, точно хочете – так це навчитися вирішувати завдання методом найменших квадратів. І особливо старанні читачі навчаться вирішувати їх не тільки безпомилково, але ще й ДУЖЕ ШВИДКО;-) Але спочатку загальна постановка задачі+ супутній приклад:

Нехай у деякій предметної області досліджуються показники, які мають кількісне вираз. У цьому є підстави вважати, що показник залежить від показника . Це може бути як наукової гіпотезою, і грунтуватися на елементарному здоровому глузді. Залишимо, проте, науку осторонь і досліджуємо більш апетитні області - зокрема, продовольчі магазини. Позначимо через:

– торгову площу продовольчого магазину, кв.м.,
- Річний товарообіг продовольчого магазину, млн. руб.

Цілком зрозуміло, що чим більша площа магазину, тим у більшості випадків буде більшим його товарообіг.

Припустимо, що після проведення спостережень/дослідів/підрахунків/танців з бубном у нашому розпорядженні виявляються числові дані:

З гастрономами, гадаю, все зрозуміло: - це площа 1-го магазину, - його річний товарообіг, - площа 2-го магазину, - його річний товарообіг і т.д. До речі, зовсім не обов'язково мати доступ до секретних матеріалів – досить точну оцінку товарообігу можна отримати засобами математичної статистики. Втім, не відволікаємось, курс комерційного шпигунства – він уже платний =)

Табличні дані також можна записати у вигляді точок та зобразити у звичній для нас декартовій системі .

Відповімо на важливе питання: скільки точок потрібно якісного дослідження?

Чим більше тим краще. Мінімально допустимий набір складається з 5-6 пікселів. Крім того, при невеликій кількості даних у вибірку не можна включати «аномальні» результати. Так, наприклад, невеликий елітний магазин може рятувати на порядки більше "своїх колег", спотворюючи тим самим загальну закономірність, Яку і потрібно знайти!

Якщо дуже просто - нам потрібно підібрати функцію, графікякою проходить якомога ближче до точок . Таку функцію називають апроксимуючою (апроксимація – наближення)або теоретичною функцією . Взагалі кажучи, тут одразу з'являється очевидний «претендент» – багаточлен високого ступеня, графік якого проходить через всі точки. Але цей варіант складний, а часто й просто некоректний (т.к. графік буде весь час «петляти» і погано відображатиме головну тенденцію).

Таким чином, розшукувана функція повинна бути досить простою і в той же час відображати залежність адекватно. Як ви здогадуєтеся, один із методів знаходження таких функцій і називається методом найменших квадратів. Спочатку розберемо його суть у загальному вигляді. Нехай деяка функція наближає експериментальні дані:


Як оцінити точність наближення? Обчислимо і різниці (відхилення) між експериментальними та функціональними значеннями (Вивчаємо креслення). Перша думка, яка спадає на думку – це оцінити, наскільки велика сума, але проблема полягає в тому, що різниці можуть бути і негативні. (наприклад, ) та відхилення внаслідок такого підсумовування будуть взаємознищуватись. Тому як оцінка точності наближення напрошується прийняти суму модуліввідхилень:

або в згорнутому вигляді: (раптом хто не знає: – це значок суми, а – допоміжна змінна-«лічильник», яка набуває значення від 1 до ).

Наближаючи експериментальні точки різними функціями, ми будемо отримувати різні значення, і, очевидно, де ця сума менше – та функція і точніше.

Такий метод існує і називається він методом найменших модулів. Однак на практиці набув значно більшого поширення метод найменших квадратів, В якому можливі негативні значення ліквідуються не модулем, а зведенням відхилень у квадрат:

, після чого зусилля спрямовані на підбір такої функції, щоб сума квадратів відхилень була якнайменше. Власне, звідси й назва методу.

І зараз ми повертаємось до іншого важливому моменту: Як зазначалося вище, функція, що підбирається, повинна бути досить проста - але ж і таких функцій теж чимало: лінійна , гіперболічна, експоненційна, логарифмічна, квадратична і т.д. І, звичайно, тут одразу б хотілося «скоротити поле діяльності». Який клас функцій вибрати на дослідження? Примітивний, але ефективний прийом:

- Найпростіше зобразити точки на кресленні та проаналізувати їх розташування. Якщо вони мають тенденцію розташовуватися по прямій, слід шукати рівняння прямої з оптимальними значеннямита . Іншими словами, завдання полягає у знаходженні ТАКИХ коефіцієнтів – щоб сума квадратів відхилень була найменшою.

Якщо ж точки розташовані, наприклад, по гіперболі, то свідомо зрозуміло, що лінійна функція даватиме погане наближення. У цьому випадку шукаємо найбільш «вигідні» коефіцієнти для рівняння гіперболи – ті, що дають мінімальну суму квадратів .

А тепер зверніть увагу, що в обох випадках мова йде про функції двох змінних, аргументами якої є параметри залежностей, що розшукуються:

І по суті нам потрібно вирішити стандартне завдання – знайти мінімум функції двох змінних.

Згадаймо про наш приклад: припустимо, що «магазинні» точки мають тенденцію розташовуватися по прямій лінії і є підстави вважати наявність лінійної залежностітоварообігу від торгової площі Знайдемо ТАКІ коефіцієнти «а» та «бе», щоб сума квадратів відхилень була найменшою. Все як завжди - спочатку приватні похідні 1-го порядку. Згідно правилу лінійностідиференціювати можна прямо під значком суми:

Якщо хочете використати цю інформаціюдля реферату або курсовика – буду дуже вдячний за посилання в списку джерел, такі докладні викладки знайдете мало де:

Складемо стандартну систему:

Скорочуємо кожне рівняння на «двійку» і, крім того, «розвалюємо» суми:

Примітка : самостійно проаналізуйте, чому «а» та «бе» можна винести за значок суми До речі, формально це можна зробити і із сумою

Перепишемо систему у «прикладному» вигляді:

після чого починає промальовуватися алгоритм розв'язання нашого завдання:

Координати точок ми знаємо? Знаємо. Суми знайти можемо? Легко. Складаємо найпростішу систему двох лінійних рівнянь із двома невідомими(«а» та «бе»). Систему вирішуємо, наприклад, методом Крамера, у результаті отримуємо стаціонарну точку . Перевіряючи достатня умова екстремуму, можна переконатися, що у цій точці функція досягає саме мінімуму. Перевірка пов'язана з додатковими викладками і тому залишимо її за кадром (при необхідності кадр, що бракує, можна подивитися ). Робимо остаточний висновок:

Функція найкращим чином (принаймні, порівняно з будь-якою іншою лінійною функцією)наближає експериментальні точки . Грубо кажучи, її графік відбувається максимально близько до цих точок. У традиціях економетрикиотриману апроксимуючу функцію також називають рівнянням парної лінійної регресії .

Розглянуте завдання має велике практичне значення. У ситуації з нашим прикладом, рівняння дозволяє прогнозувати, який товарообіг («Ігрек»)буде біля магазину при тому чи іншому значенні торгової площі (Тому чи іншому значенні «ікс»). Так, отриманий прогноз буде лише прогнозом, але у багатьох випадках він виявиться досить точним.

Я розберу лише одне завдання з «реальними» числами, оскільки ніяких труднощів у ньому немає – всі обчислення на рівні шкільної програми 7-8 класи. У 95 відсотків випадків вам буде запропоновано знайти саме лінійну функцію, але в самому кінці статті я покажу, що нітрохи не складніше знайти рівняння оптимальної гіперболи, експоненти та деяких інших функцій.

По суті, залишилося роздати обіцяні плюшки – щоб ви навчилися вирішувати такі приклади не лише безпомилково, а ще й швидко. Уважно вивчаємо стандарт:

Завдання

В результаті дослідження взаємозв'язку двох показників отримані такі пари чисел:

Методом найменших квадратів знайти лінійну функцію, яка найкраще наближає емпіричні (досвідчені)дані. Зробити креслення, на якому в декартовій прямокутній системі координат побудувати експериментальні точки та графік апроксимуючої функції . Знайти суму квадратів відхилень між емпіричними та теоретичними значеннями. З'ясувати, чи буде функція кращою (з погляду методу найменших квадратів)наближати експериментальні точки.

Зауважте, що «іксові» значення – натуральні, і це має характерний змістовний зміст, про який я розповім трохи згодом; але вони, зрозуміло, можуть і дробовими. Крім того, залежно від змісту того чи іншого завдання як «іксові», так і «ігрові» значення повністю або частково можуть бути негативними. Ну а у нас дане «безлике» завдання, і ми починаємо її Рішення:

Коефіцієнти оптимальної функціїзнайдемо як рішення системи:

З метою більш компактного запису змінну-«лічильник» можна опустити, оскільки і так зрозуміло, що підсумовування здійснюється від 1 до .

Розрахунок потрібних сум зручніше оформити у табличному вигляді:


Обчислення можна провести на мікрокалькуляторі, але краще використовувати Ексель - і швидше, і без помилок; дивимося короткий відеоролик:

Таким чином, отримуємо наступну систему:

Тут можна помножити друге рівняння на 3 та від 1-го рівняння почленно відняти 2-е. Але це везіння - на практиці системи частіше не подарункові, і в таких випадках рятує метод Крамера:
Отже, система має єдине рішення.

Виконаємо перевірку. Розумію, що не хочеться, але навіщо пропускати помилки там, де їх можна стовідсотково не пропустити? Підставимо знайдене рішення у ліву частинукожного рівняння системи:

Отримано праві частини відповідних рівнянь, отже система вирішена правильно.

Таким чином, шукана апроксимуюча функція: – з всіх лінійних функційекспериментальні дані найкраще наближає саме вона.

На відміну від прямий залежності товарообігу магазину від його площі, знайдена залежність є зворотній (Принцип «що більше – тим менше»), і цей факт відразу виявляється по негативному кутовому коефіцієнту. Функція повідомляє нам про те, що зі збільшення якогось показника на 1 одиницю значення залежного показника зменшується в середньомуна 0,65 одиниць. Як то кажуть, що вище ціна на гречку, то менше її продано.

Для побудови графіка апроксимуючої функції знайдемо два її значення:

і виконаємо креслення:


Побудована пряма називається лінією тренду (а саме – лінією лінійного тренду, тобто в загальному випадкутренд – це не обов'язково пряма лінія). Всім знайомий вислів «бути в тренді», і, думаю, що цей термін не потребує додаткових коментарів.

Обчислимо суму квадратів відхилень між емпіричними та теоретичними значеннями. Геометрично – це сума квадратів довжин «малинових» відрізків (два з яких настільки малі, що їх навіть не видно).

Обчислення зведемо до таблиці:


Їх можна знову ж таки провести вручну, про всяк випадок наведу приклад для 1-ї точки:

але набагато ефективніше вчинити вже відомим чином:

Ще раз повторимо: у чому сенс отриманого результату?З всіх лінійних функційу функції показник є найменшим, тобто у своїй родині це найкраще наближення. І тут, до речі, не випадкове заключне питання завдання: а раптом запропонована експоненційна функція краще наближати експериментальні точки?

Знайдемо відповідну суму квадратів відхилень – щоб розрізняти, я позначу їх літерою «епсілон». Техніка така сама:


І знову на будь-який пожежний обчислення для 1-ї точки:

В Екселі користуємося стандартною функцією EXP (Синтаксис можна подивитися в екселевський Довідці).

Висновок: , отже, експоненційна функція наближає експериментальні точки гірше, ніж пряма .

Але тут слід зазначити, що «гірше» – це ще не означає, що погано. Зараз побудував графік цієї експоненційної функції- І він теж проходить близько до точок - Так, що без аналітичного дослідження і сказати важко, яка функція точніше.

На цьому рішення закінчено, і я повертаюся до питання про натуральні значення аргументу. У різних дослідженнях, як правило, економічних чи соціологічних, натуральними «іксами» нумерують місяці, роки чи інші рівні часові проміжки. Розглянемо, наприклад, таке завдання.

Метод найменших квадратів

Метод найменших квадратів ( МНК, OLS, Ordinary Least Squares) - один із базових методів регресійного аналізу для оцінки невідомих параметрів регресійних моделей за вибірковими даними. Метод ґрунтується на мінімізації суми квадратів залишків регресії.

Необхідно відзначити, що власне методом найменших квадратів можна назвати метод вирішення задачі в будь-якій області, якщо рішення полягає або задовольняє деякий критерій мінімізації суми квадратів деяких функцій від змінних, що шукаються. Тому метод найменших квадратів може застосовуватися також для наближеного представлення (апроксимації) заданої функції іншими (простішими) функціями, при знаходженні сукупності величин, що задовольняють рівнянь або обмежень, кількість яких перевищує кількість цих величин і т.д.

Сутність МНК

Нехай задана деяка (параметрична) модель імовірнісної (регресійної) залежності між (з'ясованою) змінною yі безліччю факторів (що пояснюють змінних) x

де - вектор невідомих параметрів моделі

- Випадкова помилка моделі.

Нехай також є вибіркові спостереження значень вказаних змінних. Нехай – номер спостереження (). Тоді - значення змінних у спостереженні. Тоді при заданих значеннях параметрів b можна розрахувати теоретичні (модельні) значення змінної, що пояснюється y:

Розмір залишків залежить від значень параметрів b.

Сутність МНК (звичайного, класичного) у тому, щоб знайти такі параметри b, у яких сума квадратів залишків (англ. Residual Sum of Squares) буде мінімальною:

У випадку вирішення цього завдання може здійснюватися чисельними методами оптимізації (мінімізації). У цьому випадку говорять про нелінійному МНК(NLS або NLLS – англ. Non-Linear Least Squares). У багатьох випадках можна одержати аналітичне рішення. Для вирішення задачі мінімізації необхідно знайти стаціонарні точки функції, продиференціювавши її за невідомими параметрами b, прирівнявши похідні до нуля і вирішивши отриману систему рівнянь:

Якщо випадкові помилки моделі мають нормальний розподіл , мають однакову дисперсію і некорельовані між собою, МНК оцінки параметрів збігаються з оцінками методу максимальної правдоподібності (ММП).

МНК у разі лінійної моделі

Нехай регресійна залежність є лінійною:

Нехай y- вектор-стовпець спостережень пояснюваної змінної, а - матриця спостережень факторів (рядки матриці - вектори значень факторів даному спостереженні, Стовпці - вектор значень даного фактора у всіх спостереженнях). Матричне уявлення лінійної моделі має вигляд:

Тоді вектор оцінок змінної, що пояснюється, і вектор залишків регресії дорівнюватимуть

відповідно сума квадратів залишків регресії дорівнюватиме

Диференціюючи цю функцію за вектором параметрів та прирівнявши похідні до нуля, отримаємо систему рівнянь (у матричній формі):

.

Вирішення цієї системи рівнянь і дає загальну формулуМНК-оцінок для лінійної моделі:

Для аналітичних цілей виявляється корисним останнє уявлення цієї формули. Якщо у регресійній моделі дані центровані, то цьому поданні перша матриця має сенс вибіркової ковариационной матриці чинників, а друга - вектор ковариаций чинників із залежною змінною. Якщо дані ще й нормованіна СКО (тобто зрештою стандартизовано), то перша матриця має сенс вибіркової кореляційної матриці факторів, другий вектор - вектора вибіркових кореляцій факторів із залежною змінною.

Важлива властивість МНК-оцінок для моделей з константою- лінія побудованої регресії проходить через центр тяжкості вибіркових даних, тобто виконується рівність:

Зокрема, у крайньому випадку, коли єдиним регресором є константа, отримуємо, що МНК-оцінка єдиного параметра (власне константи) дорівнює середньому значенню змінної, що пояснюється. Тобто середнє арифметичне, відоме своїми добрими властивостямиіз законів великих чисел, також є МНК-оцінкою - задовольняє критерію мінімуму суми квадратів відхилень від неї.

Приклад: найпростіша (парна) регресія

У разі парної лінійної регресії формули розрахунку спрощуються (можна обійтися без матричної алгебри):

Властивості МНК-оцінок

Насамперед зазначимо, що для лінійних моделей МНК-оцінки є лінійними оцінками, як це випливає з вищенаведеної формули. Для незміщеності МНК-оцінок необхідне та достатньо виконання найважливішої умовирегресійного аналізу: умовне за факторами математичне очікування випадкової помилки має дорівнювати нулю. Ця умова, зокрема, виконано, якщо

  1. математичне очікуваннявипадкових помилок дорівнює нулю, і
  2. фактори та випадкові помилки - незалежні випадкові величини.

Друга умова - умова екзогенності факторів - важлива. Якщо це властивість не виконано, можна вважати, що будь-які оцінки будуть вкрай незадовільними: де вони навіть заможними (тобто навіть дуже великий обсяг даних Демшевського не дозволяє отримати якісні оцінки у разі). У класичному випадку робиться сильніша припущення про детермінованість факторів, на відміну від випадкової помилки, що автоматично означає виконання умови екзогенності. У випадку для спроможності оцінок досить виконання умови екзогенності разом із збіжністю матриці до деякої невиродженої матриці зі збільшенням обсягу вибірки до нескінченності.

Для того, щоб крім спроможності та незміщеності, оцінки (звичайного) МНК були ще й ефективними (найкращими в класі лінійних незміщених оцінок) необхідно виконання додаткових властивостей випадкової помилки:

Дані припущення можна сформулювати для коварійної матриці вектора випадкових помилок

Лінійна модель, що задовольняє такі умови, називається класичною. МНК-оцінки для класичної лінійної регресії є незміщеними, заможними та найбільш ефективними оцінками в класі всіх лінійних незміщених оцінок (в англомовній літературі іноді вживають абревіатуру BLUE (Best Linear Unbaised Estimator) - найкраща лінійна незміщена оцінка; у вітчизняній літературі найчастіше наводиться теорема Гауса – Маркова). Як неважко показати, ковариационная матриця вектора оцінок коефіцієнтів дорівнюватиме:

Узагальнений МНК

Метод найменших квадратів припускає широке узагальнення. Замість мінімізації суми квадратів залишків можна мінімізувати деяку позитивно визначену квадратичну форму від вектора залишків де - деяка симетрична позитивно визначена вагова матриця. Звичайний МНК є окремим випадком даного підходу, коли вагова матриця пропорційна одиничній матриці. Як відомо з теорії симетричних матриць (або операторів) для таких матриць існує розкладання. Отже, зазначений функціонал можна уявити наступним чином , тобто цей функціонал можна як суму квадратів деяких перетворених «залишків». Отже, можна назвати клас методів найменших квадратів - LS-методи (Least Squares).

Доведено (теорема Айткена), що для узагальненої лінійної регресійної моделі (у якій на коварійну матрицю випадкових помилок не накладається жодних обмежень) найефективнішими (у класі лінійних незміщених оцінок) є оцінки т.з. узагальненого МНК (ОМНК, GLS - Generalized Least Squares)- LS-метода з ваговою матрицею, що дорівнює зворотній коварійній матриці випадкових помилок: .

Можна показати, що формула ОМНК оцінок параметрів лінійної моделі має вигляд

Коваріаційна матриця цих оцінок відповідно дорівнюватиме

Фактично сутність ОМНК полягає у певному (лінійному) перетворенні (P) вихідних даних та застосуванні звичайного МНК до перетворених даних. Ціль цього перетворення - для перетворених даних випадкові помилки вже задовольняють класичним припущенням.

Зважений МНК

У випадку діагональної вагової матриці (а значить і матриці коварійної випадкових помилок) маємо так званий зважений МНК (WLS - Weighted Least Squares). У даному випадкумінімізується зважена сума квадратів залишків моделі, тобто кожне спостереження отримує «вагу», обернено пропорційну дисперсії випадкової помилки в даному спостереженні: . Фактично дані перетворюються зважуванням спостережень (розподілом на величину, пропорційну передбачуваному стандартного відхиленнявипадкових помилок), а до виважених даних застосовується стандартний МНК.

Деякі окремі випадки застосування МНК на практиці

Апроксимація лінійної залежності

Розглянемо випадок, коли в результаті вивчення залежності деякої скалярної величини від деякої скалярної величини (Це може бути, наприклад, залежність напруги від сили струму : де - постійна величина, опір провідника) було проведено вимірювань цих величин, в результаті яких були отримані значення і відповідні їм значення. Дані вимірювань мають бути записані у таблиці.

Таблиця. Результати вимірів.

№ виміру
1
2
3
4
5
6

Питання звучить так: яке значення коефіцієнта можна підібрати, щоб якнайкраще описати залежність? Відповідно до МНК це значення має бути таким, щоб сума квадратів відхилень величин від величин

була мінімальною

Сума квадратів відхилень має один екстремум – мінімум, що дозволяє нам використовувати цю формулу. Знайдемо з цієї формули значення коефіцієнта. І тому перетворимо її ліву частину так:

Остання формула дозволяє знайти значення коефіцієнта , що й потрібно завдання.

Історія

До початку XIXв. вчені у відсутності певних правил на вирішення системи рівнянь , у якій число невідомих менше, ніж число рівнянь; до цього часу використовувалися приватні прийоми, що залежали від виду рівнянь і від дотепності обчислювачів, і тому різні обчислювачі, виходячи з тих даних спостережень, приходили до різним висновкам. Гаусс (1795) належить перше застосування методу, а Лежандр (1805) незалежно відкрив і опублікував його під сучасною назвою(Фр. Méthode des moindres quarrés ). Лаплас пов'язав метод з теорією ймовірностей, а американський математик Едрейн (1808) розглянув його теоретико-імовірнісні додатки. Метод поширений і вдосконалений подальшими дослідженнями Енке, Бесселя, Ганзена та інших.

Альтернативне використання МНК

Ідея методу найменших квадратів може бути використана також в інших випадках, які не пов'язані безпосередньо з регресійним аналізом. Справа в тому, що сума квадратів є одним із найпоширеніших заходів близькості для векторів (евклідова метрика в кінцевомірних просторах).

Одне із застосувань – «вирішення» систем лінійних рівнянь, у яких число рівнянь більше числазмінних

де матриця не квадратна, а прямокутна розміру.

Така система рівнянь, у випадку немає рішення (якщо ранг насправді більше числа змінних). Тому цю систему можна «вирішити» тільки в сенсі вибору такого вектора, щоб мінімізувати «відстань» між векторами та . Для цього можна застосувати критерій мінімізації суми квадратів різниць лівої та правої частинрівнянь системи, тобто . Неважко показати, що вирішення цього завдання мінімізації призводить до вирішення наступної системирівнянь

Метод найменших квадратів

Метод найменших квадратів ( МНК, OLS, Ordinary Least Squares) - один із базових методів регресійного аналізу для оцінки невідомих параметрів регресійних моделей за вибірковими даними. Метод ґрунтується на мінімізації суми квадратів залишків регресії.

Необхідно відзначити, що власне методом найменших квадратів можна назвати метод вирішення задачі в будь-якій області, якщо рішення полягає або задовольняє деякий критерій мінімізації суми квадратів деяких функцій від змінних, що шукаються. Тому метод найменших квадратів може застосовуватися також для наближеного представлення (апроксимації) заданої функції іншими (простішими) функціями, при знаходженні сукупності величин, що задовольняють рівнянь або обмежень, кількість яких перевищує кількість цих величин і т.д.

Сутність МНК

Нехай задана деяка (параметрична) модель імовірнісної (регресійної) залежності між (з'ясованою) змінною yі безліччю факторів (що пояснюють змінних) x

де - вектор невідомих параметрів моделі

- Випадкова помилка моделі.

Нехай також є вибіркові спостереження значень вказаних змінних. Нехай – номер спостереження (). Тоді - значення змінних у спостереженні. Тоді при заданих значеннях параметрів b можна розрахувати теоретичні (модельні) значення змінної, що пояснюється y:

Розмір залишків залежить від значень параметрів b.

Сутність МНК (звичайного, класичного) у тому, щоб знайти такі параметри b, у яких сума квадратів залишків (англ. Residual Sum of Squares) буде мінімальною:

У випадку вирішення цього завдання може здійснюватися чисельними методами оптимізації (мінімізації). У цьому випадку говорять про нелінійному МНК(NLS або NLLS – англ. Non-Linear Least Squares). У багатьох випадках можна одержати аналітичне рішення. Для вирішення задачі мінімізації необхідно знайти стаціонарні точки функції, продиференціювавши її за невідомими параметрами b, прирівнявши похідні до нуля і вирішивши отриману систему рівнянь:

Якщо випадкові помилки моделі мають нормальний розподіл , мають однакову дисперсію і некорельовані між собою, МНК оцінки параметрів збігаються з оцінками методу максимальної правдоподібності (ММП).

МНК у разі лінійної моделі

Нехай регресійна залежність є лінійною:

Нехай y- Вектор-стовпець спостережень пояснюваної змінної, а - матриця спостережень факторів (рядки матриці - вектори значень факторів у даному спостереженні, по стовпцях - вектор значень даного фактора у всіх спостереженнях). Матричне уявлення лінійної моделі має вигляд:

Тоді вектор оцінок змінної, що пояснюється, і вектор залишків регресії дорівнюватимуть

відповідно сума квадратів залишків регресії дорівнюватиме

Диференціюючи цю функцію за вектором параметрів та прирівнявши похідні до нуля, отримаємо систему рівнянь (у матричній формі):

.

Вирішення цієї системи рівнянь і дає загальну формулу МНК-оцінок для лінійної моделі:

Для аналітичних цілей виявляється корисним останнє уявлення цієї формули. Якщо у регресійній моделі дані центровані, то цьому поданні перша матриця має сенс вибіркової ковариационной матриці чинників, а друга - вектор ковариаций чинників із залежною змінною. Якщо дані ще й нормованіна СКО (тобто зрештою стандартизовано), то перша матриця має сенс вибіркової кореляційної матриці факторів, другий вектор - вектора вибіркових кореляцій факторів із залежною змінною.

Важлива властивість МНК-оцінок для моделей з константою- лінія побудованої регресії проходить через центр тяжкості вибіркових даних, тобто виконується рівність:

Зокрема, у крайньому випадку, коли єдиним регресором є константа, отримуємо, що МНК-оцінка єдиного параметра (власне константи) дорівнює середньому значенню змінної, що пояснюється. Тобто середнє арифметичне, відоме своїми добрими властивостями із законів великих чисел, також є МНК-оцінкою – задовольняє критерію мінімуму суми квадратів відхилень від неї.

Приклад: найпростіша (парна) регресія

У разі парної лінійної регресії формули розрахунку спрощуються (можна обійтися без матричної алгебри):

Властивості МНК-оцінок

Насамперед, зазначимо, що для лінійних моделей МНК-оцінки є лінійними оцінками, як це випливає з вищенаведеної формули. Для незміщеності МНК-оцінок необхідно і достатньо виконання найважливішої умови регресійного аналізу: умовне за факторами математичне очікування випадкової помилки має дорівнювати нулю. Ця умова, зокрема, виконана, якщо

  1. математичне очікування випадкових помилок дорівнює нулю, та
  2. фактори та випадкові помилки - незалежні випадкові величини.

Друга умова - умова екзогенності факторів - важлива. Якщо це властивість не виконано, можна вважати, що будь-які оцінки будуть вкрай незадовільними: де вони навіть заможними (тобто навіть дуже великий обсяг даних Демшевського не дозволяє отримати якісні оцінки у разі). У класичному випадку робиться сильніша припущення про детермінованість факторів, на відміну від випадкової помилки, що автоматично означає виконання умови екзогенності. У випадку для спроможності оцінок досить виконання умови екзогенності разом із збіжністю матриці до деякої невиродженої матриці зі збільшенням обсягу вибірки до нескінченності.

Для того, щоб крім спроможності та незміщеності, оцінки (звичайного) МНК були ще й ефективними (найкращими в класі лінійних незміщених оцінок) необхідно виконання додаткових властивостей випадкової помилки:

Дані припущення можна сформулювати для коварійної матриці вектора випадкових помилок

Лінійна модель, що задовольняє такі умови, називається класичною. МНК-оцінки для класичної лінійної регресії є незміщеними, заможними та найбільш ефективними оцінками в класі всіх лінійних незміщених оцінок (в англомовній літературі іноді вживають абревіатуру BLUE (Best Linear Unbaised Estimator) - найкраща лінійна незміщена оцінка; у вітчизняній літературі найчастіше наводиться теорема Гауса – Маркова). Як неважко показати, ковариационная матриця вектора оцінок коефіцієнтів дорівнюватиме:

Узагальнений МНК

Метод найменших квадратів припускає широке узагальнення. Замість мінімізації суми квадратів залишків можна мінімізувати деяку позитивно визначену квадратичну форму від вектора залишків де - деяка симетрична позитивно визначена вагова матриця. Звичайний МНК є окремим випадком даного підходу, коли вагова матриця пропорційна одиничній матриці. Як відомо з теорії симетричних матриць (або операторів) для таких матриць існує розкладання. Отже, зазначений функціонал можна уявити наступним чином , тобто цей функціонал можна як суму квадратів деяких перетворених «залишків». Отже, можна назвати клас методів найменших квадратів - LS-методи (Least Squares).

Доведено (теорема Айткена), що для узагальненої лінійної регресійної моделі (у якій на коварійну матрицю випадкових помилок не накладається жодних обмежень) найефективнішими (у класі лінійних незміщених оцінок) є оцінки т.з. узагальненого МНК (ОМНК, GLS - Generalized Least Squares)- LS-метода з ваговою матрицею, що дорівнює зворотній коварійній матриці випадкових помилок: .

Можна показати, що формула ОМНК оцінок параметрів лінійної моделі має вигляд

Коваріаційна матриця цих оцінок відповідно дорівнюватиме

Фактично сутність ОМНК полягає у певному (лінійному) перетворенні (P) вихідних даних та застосуванні звичайного МНК до перетворених даних. Ціль цього перетворення - для перетворених даних випадкові помилки вже задовольняють класичним припущенням.

Зважений МНК

У випадку діагональної вагової матриці (а значить і матриці коварійної випадкових помилок) маємо так званий зважений МНК (WLS - Weighted Least Squares). У разі мінімізується зважена сума квадратів залишків моделі, тобто кожне спостереження отримує «вага», зворотно пропорційний дисперсії випадкової помилки у цьому спостереженні: . Фактично дані перетворюються зважуванням спостережень (розподілом на величину, пропорційну передбачуваному стандартному відхилення випадкових помилок), а зваженим даним застосовується звичайний МНК.

Деякі окремі випадки застосування МНК на практиці

Апроксимація лінійної залежності

Розглянемо випадок, коли в результаті вивчення залежності деякої скалярної величини від деякої скалярної величини (Це може бути, наприклад, залежність напруги від сили струму : де - постійна величина, опір провідника) було проведено вимірювань цих величин, в результаті яких були отримані значення і відповідні їм значення. Дані вимірювань мають бути записані у таблиці.

Таблиця. Результати вимірів.

№ виміру
1
2
3
4
5
6

Питання звучить так: яке значення коефіцієнта можна підібрати, щоб якнайкраще описати залежність? Відповідно до МНК це значення має бути таким, щоб сума квадратів відхилень величин від величин

була мінімальною

Сума квадратів відхилень має один екстремум – мінімум, що дозволяє нам використовувати цю формулу. Знайдемо з цієї формули значення коефіцієнта. І тому перетворимо її ліву частину так:

Остання формула дозволяє знайти значення коефіцієнта , що й потрібно завдання.

Історія

На початок ХІХ ст. вчені у відсутності певних правил на вирішення системи рівнянь , у якій число невідомих менше, ніж число рівнянь; до цього часу використовувалися приватні прийоми, що залежали від виду рівнянь і від дотепності обчислювачів, і тому різні обчислювачі, виходячи з тих самих даних спостережень, приходили до різних висновків. Гаусс (1795) належить перше застосування методу, а Лежандр (1805) незалежно відкрив і опублікував його під сучасною назвою (фр. Méthode des moindres quarrés ). Лаплас пов'язав метод з теорією ймовірностей, а американський математик Едрейн (1808) розглянув його теоретико-імовірнісні додатки. Метод поширений і вдосконалений подальшими дослідженнями Енке, Бесселя, Ганзена та інших.

Альтернативне використання МНК

Ідея методу найменших квадратів може бути використана також в інших випадках, які не пов'язані безпосередньо з регресійним аналізом. Справа в тому, що сума квадратів є одним із найпоширеніших заходів близькості для векторів (евклідова метрика в кінцевомірних просторах).

Одне із застосувань - «вирішення» систем лінійних рівнянь, у яких число рівнянь більше числа змінних

де матриця не квадратна, а прямокутна розміру.

Така система рівнянь, у випадку немає рішення (якщо ранг насправді більше числа змінних). Тому цю систему можна «вирішити» тільки в сенсі вибору такого вектора, щоб мінімізувати «відстань» між векторами та . І тому можна застосувати критерій мінімізації суми квадратів різниць лівої та правої частин рівнянь системи, тобто . Неважко показати, що вирішення цього завдання мінімізації призводить до вирішення наступної системи рівнянь

Якщо деяка фізична величиназалежить від іншої величини, то цю залежність можна досліджувати, вимірюючи y за різних значень x . В результаті вимірів виходить ряд значень:

x 1, x 2, ..., x i, ..., x n;

y 1 , y 2 , ..., y i , ... , y n .

За даними такого експерименту, можна побудувати графік залежності y = ƒ(x). Отримана крива дозволяє судити про вид функції ƒ(x). Однак постійні коефіцієнти, що входять до цієї функції, залишаються невідомими. Визначити їх дозволяє метод найменших квадратів. Експериментальні точки, зазвичай, не лягають точно на криву. Метод найменших квадратів вимагає, щоб сума квадратів відхилень експериментальних точок від кривої, тобто.

2 була найменшою.

Насправді цей метод найчастіше (і найпростіше) використовується у разі лінійної залежності, тобто. коли y = kx або

y = a + bx.Лінійна залежність

дуже поширена у фізиці. І навіть коли нелінійна залежність, зазвичай намагаються будувати графік так, щоб отримати пряму лінію. Наприклад, якщо припускають, що показник заломлення скла n пов'язаний з довжиною λ світлової хвилі співвідношенням n = a + b/λ 2 то на графіку будують залежність n від λ -2 . Насправді цей метод найчастіше (і найпростіше) використовується у разі лінійної залежності, тобто. колиРозглянемо залежність

(Пряма, що проходить через початок координат). Складемо величину φ | суму квадратів відхилень наших точок від прямої


Величина φ завжди позитивна і виявляється тим меншою, чим ближче до прямої лежать наші точки. Метод найменших квадратів стверджує, що для k слід вибирати таке значення, при якому має мінімум
(19)

або

, (20)
Обчислення показує, що середньоквадратична помилка визначення величини k дорівнює при цьому

де n число вимірювань. Розглянемо тепер трохи більшеважкий випадок , коли точки повинні задовольнити формулу y = a + bx

(Пряма, що не проходить через початок координат). Завдання полягає в тому, щоб за наявним набором значень x i , y i знайтинайкращі значення

a та b. Знову складемо квадратичну форму?рівну сумі

квадратів відхилень точок x i , y i від прямої

;

.

.

і знайдемо значення a і b , при яких має мінімум

(21)

Спільне рішення цих рівнянь дає

(23)

Середньоквадратичні помилки визначення a та b рівні

.  (24)

При обробці результатів вимірювання цим методом зручно всі дані зводити в таблицю, в якій попередньо підраховуються всі суми, що входять до формул (19) (24). Форми цих таблиць наведені в наведених нижче прикладах.приклад 1. Досліджувалося основне рівняння динамікиобертального руху ε = M/J (пряма, яка проходить через початок координат). При різних значеннях моменту M вимірювалося кутове прискорення деякого тіла ε. Потрібно визначити момент інерції цього тіла. Результати вимірювань моменту сили та кутового прискорення занесені до другого та третього стовпців.

Таблиця 5
n M, Н · м ε, c -1 M 2 M · ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

За формулою (19) визначаємо:

.

Для визначення середньоквадратичної помилки скористаємося формулою (20)

0.005775кг-1 · м -2 .

За формулою (18) маємо

; .

S J = (2.996 · 0.005775) / 0.3337 = 0.05185 кг · м 2.

Задавшись надійністю P = 0.95, за таблицею коефіцієнтів Стьюдента для n = 5, знаходимо t = 2.78 і визначаємо абсолютну помилкуΔJ = 2.78 · 0.05185 = 0.1441 ≈ 0.2 кг · м 2.

Результати запишемо у вигляді:

J = (3.0 ± 0.2) кг · м 2;


приклад 2.Обчислимо температурний коефіцієнт опору металу методом найменших квадратів. Опір залежить від температури за лінійним законом

R t = R 0 (1 + α t °) = R 0 + R 0 α t °.

Вільний член визначає опір R 0 при температурі 0° C , а кутовий коефіцієнт твір температурного коефіцієнта α на опір R 0 .

Результати вимірювань та розрахунків наведені в таблиці ( див. таблицю 6).

Таблиця 6
n t°, c r, Ом t-¯ t (t-¯ t) 2 (t-¯ t)r r - bt - a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

За формулами (21), (22) визначаємо

R 0 = ? R - α R 0 ? Ом.

Знайдемо помилку у визначенні α. Оскільки , то за формулою (18) маємо:

.

Користуючись формулами (23), (24) маємо

;

0.014126 Ом.

Задавшись надійністю P = 0.95, за таблицею коефіцієнтів Стьюдента для n = 6, знаходимо t = 2.57 та визначаємо абсолютну помилку Δα = 2.57 · 0.000132 = 0.000338 град -1.

α = (23 ± 4) · 10 -4 град-1 за P = 0.95.


приклад 3.Потрібно визначити радіус кривизни лінзи по кільцях Ньютона. Вимірювалися радіуси кілець Ньютона r m та визначалися номери цих кілець m. Радіуси кілець Ньютона пов'язані з радіусом кривизни лінзи R і номером кільця рівнянням

r 2 m = mλR - 2d 0 R,

де d 0 товщина зазору між лінзою і плоскопаралельною пластинкою (або деформація лінзи),

λ | довжина хвилі падаючого світла.

λ = (600 ± 6) нм;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,

тоді рівняння набуде вигляду , коли точки повинні задовольнити формулу.

.

Результати вимірювань та обчислень занесені до таблицю 7.

Таблиця 7
n x = m y = r 2 10 -2 мм 2 m - m (m - m) 2 (m - m)y y - bx - a, 10 -4 (y - bx - a) 2 , 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –



Нове на сайті

>

Найпопулярніше