У дома Стоматит Провеждане на регресионен анализ. Методи на математическата статистика

Провеждане на регресионен анализ. Методи на математическата статистика

Регресионният и корелационният анализ са статистически методи за изследване. Това са най-често срещаните начини за показване на зависимостта на параметър от една или повече независими променливи.

По-долу за конкретни практически примериНека да разгледаме тези два много популярни анализа сред икономистите. Ще дадем и пример за получаване на резултати при комбинирането им.

Регресионен анализ в Excel

Показва влиянието на някои стойности (независими, независими) върху зависимата променлива. Например как броят на икономически активното население зависи от броя на предприятията, от размера заплатии други параметри. Или: как влияят на нивото на БВП чуждите инвестиции, цените на енергията и т.н.

Резултатът от анализа ви позволява да подчертаете приоритетите. И въз основа на основните фактори прогнозирайте, планирайте развитието на приоритетните области и вземете управленски решения.

Регресията се случва:

  • линеен (y = a + bx);
  • параболичен (y = a + bx + cx 2);
  • експоненциален (y = a * exp(bx));
  • мощност (y = a*x^b);
  • хиперболичен (y = b/x + a);
  • логаритмичен (y = b * 1n(x) + a);
  • експоненциален (y = a * b^x).

Нека да разгледаме пример за изграждане на регресионен модел в Excel и интерпретиране на резултатите. Да вземем линейния тип регресия.

Задача. В 6 предприятия са анализирани средната месечна заплата и броят на напусналите служители. Необходимо е да се определи зависимостта на броя на напусналите служители от средната работна заплата.

Модел линейна регресияима следната форма:

Y = a 0 + a 1 x 1 +…+a k x k.

Където a са регресионни коефициенти, x са влияещи променливи, k е броят на факторите.

В нашия пример Y е индикаторът за напускане на служители. Влияещият фактор е работната заплата (x).

Excel има вградени функции, които могат да ви помогнат да изчислите параметрите на линеен регресионен модел. Но добавката „Пакет за анализ“ ще направи това по-бързо.

Активираме мощен аналитичен инструмент:

След като бъде активирана, добавката ще бъде налична в раздела Данни.

Сега нека направим самия регресионен анализ.



На първо място, обръщаме внимание на R-квадрат и коефициентите.

R-квадрат е коефициентът на детерминация. В нашия пример – 0,755, или 75,5%. Това означава, че изчислените параметри на модела обясняват 75,5% от връзката между изследваните параметри. Колкото по-висок е коефициентът на детерминация, толкова по-добър е моделът. Добър - над 0,8. Лошо – по-малко от 0,5 (такъв анализ едва ли може да се счита за разумен). В нашия пример – „не е зле“.

Коефициентът 64.1428 показва какво ще бъде Y, ако всички променливи в разглеждания модел са равни на 0. Тоест стойността на анализирания параметър се влияе и от други фактори, които не са описани в модела.

Коефициентът -0.16285 показва тежестта на променливата X върху Y. Тоест средната месечна заплата в рамките на този модел влияе върху броя на напусналите с тежест -0.16285 (това е малка степен на влияние). Знакът „-“ показва отрицателно въздействие: колкото по-висока е заплатата, толкова по-малко хора напускат. Което е справедливо.



Корелационен анализ в Excel

Корелационният анализ помага да се определи дали има връзка между показателите в една или две проби. Например между времето за работа на една машина и цената на ремонта, цената на оборудването и продължителността на работа, височината и теглото на децата и т.н.

Ако има връзка, тогава увеличението на един параметър води ли до увеличение (положителна корелация) или намаление (отрицателна) на другия. Корелационният анализ помага на анализатора да определи дали стойността на един индикатор може да се използва за прогнозиране възможно значениедруг.

Коефициентът на корелация се означава с r. Варира от +1 до -1. Класификация на корелациите за различни областище бъде различно. Когато коефициентът е 0 линейна зависимостне съществува между пробите.

Нека да разгледаме как да намерим коефициента на корелация с помощта на Excel.

За намиране на сдвоени коефициенти се използва функцията CORREL.

Цел: Определете дали има връзка между времето за работа на струг и разходите за неговата поддръжка.

Поставете курсора в произволна клетка и натиснете бутона fx.

  1. В категорията „Статистически“ изберете функцията CORREL.
  2. Аргумент "Масив 1" - първият диапазон от стойности - време на работа на машината: A2:A14.
  3. Аргумент “Масив 2” - втори диапазон от стойности – цена на ремонта: B2:B14. Натиснете OK.

За да определите вида на връзката, трябва да погледнете абсолютното число на коефициента (всяка сфера на дейност има своя собствена скала).

За корелационен анализняколко параметъра (повече от 2), по-удобно е да използвате „Анализ на данни“ (добавката „Пакет за анализ“). Трябва да изберете корелация от списъка и да посочите масива. Всичко.

Получените коефициенти ще бъдат показани в корелационната матрица. Като този:

Корелационен и регресионен анализ

На практика тези две техники често се използват заедно.

Пример:


Сега данните от регресионния анализ станаха видими.

Основната цел на регресионния анализсе състои в определяне на аналитична форма на комуникация, при която промяната в ефективната характеристика се дължи на влиянието на една или повече факторни характеристики, а наборът от всички други фактори, които също влияят на ефективната характеристика, се приемат като постоянни и средни стойности.
Проблеми на регресионния анализ:
а) Установяване на формата на зависимост. По отношение на характера и формата на връзката между явленията се прави разлика между положителна линейна и нелинейна и отрицателна линейна и нелинейна регресия.
б) Определяне на регресионната функция под формата на математическо уравнение от един или друг тип и установяване на влиянието на обяснителните променливи върху зависимата променлива.
в) Оценка Не известни стойностизависима променлива. С помощта на регресионната функция можете да възпроизведете стойностите на зависимата променлива в интервала от определени стойности на обяснителните променливи (т.е. да решите проблема с интерполацията) или да оцените хода на процеса извън определения интервал (т.е. решаване на проблема с екстраполацията). Резултатът е оценка на стойността на зависимата променлива.

Сдвоената регресия е уравнение за връзката между две променливи y и x: , където y е зависимата променлива (резултантен атрибут); x е независима обяснителна променлива (фактор на характеристиката).

Има линейни и нелинейни регресии.
Линейна регресия: y = a + bx + ε
Нелинейните регресии се разделят на два класа: регресии, които са нелинейни по отношение на обяснителните променливи, включени в анализа, но линейни по отношение на оценените параметри, и регресии, които са нелинейни по отношение на оценените параметри.
Регресии, които са нелинейни в обяснителните променливи:

Регресии, които са нелинейни по отношение на оценените параметри: Изграждането на регресионно уравнение се свежда до оценяване на неговите параметри. За да оцените параметрите на линейните по параметри регресии, използвайте метода най-малки квадрати(MNC). Методът на най-малките квадрати позволява да се получат такива оценки на параметрите, при които сумата от квадратните отклонения на действителните стойности на резултантната характеристика y от теоретичните е минимална, т.е.
.
Решете линейни и нелинейни уравнения, сводими до линейни следваща системаотносно а и б:

Можете да използвате готови формули, които следват от тази система:

Оценява се тясната връзка между изследваните явления линеен коефициентдвойна корелация за линейна регресия:

и индекс на корелация - за нелинейна регресия:

Качеството на изградения модел ще бъде оценено чрез коефициента (индекса) на детерминация, както и средната грешка на апроксимацията.
Средна грешка на приближаване - средно отклонение на изчислените стойности от действителните:
.
Допустимата граница на стойностите е не повече от 8-10%.
Средният коефициент на еластичност показва с какъв процент средно резултатът y ще се промени от средната си стойност, когато факторът x се промени с 1% от средната си стойност:
.

Задача дисперсионен анализсе състои от анализиране на дисперсията на зависимата променлива:
,
Където - обща сумаквадратни отклонения;
- сумата на квадратните отклонения, дължащи се на регресия („обяснено“ или „факториално“);
- остатъчна сума на квадратите на отклоненията.
Делът на дисперсията, обяснен с регресия в общата дисперсия на резултантната характеристика y, се характеризира с коефициента (индекс) на детерминация R2:

Коефициентът на детерминация е квадратът на коефициента или корелационния индекс.

F-тестът - оценка на качеството на регресионното уравнение - се състои от тестване на хипотеза № за статистическата незначимост на регресионното уравнение и показателя за близостта на връзката. За да направите това, се прави сравнение между действителния F факт и критичните (таблични) F таблични стойности на F-критерия на Fisher. Фактът F се определя от съотношението на стойностите на фактора и остатъчните дисперсии, изчислени за степен на свобода:
,
където n е броят на единиците от съвкупността; m е броят на параметрите за променливите x.
F таблица е максимално възможната стойност на критерия под въздействието на случайни фактори при дадени степени на свобода и ниво на значимост a. Нивото на значимост a е вероятността за отхвърляне на правилната хипотеза, при условие че е вярна. Обикновено a се приема равно на 0,05 или 0,01.
Ако F таблица< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Фактически, тогава хипотезата H o не се отхвърля и се признава статистическата незначимост и ненадеждността на регресионното уравнение.
За ставка статистическа значимостизчисляват се коефициенти на регресия и корелация, t-тест на Стюдънт и доверителни интервали за всеки показател. Излага се хипотеза за случайния характер на показателите, т.е. за тяхната незначителна разлика от нула. Оценяването на значимостта на коефициентите на регресия и корелация с помощта на t-теста на Student се извършва чрез сравняване на техните стойности с големината на случайната грешка:
; ; .
Случайните грешки на параметрите на линейната регресия и коефициента на корелация се определят по формулите:



Сравнявайки действителните и критичните (таблични) стойности на t-статистиката - t таблица и t факт - приемаме или отхвърляме хипотезата H o.
Връзката между F-теста на Fisher и t-статистиката на Student се изразява чрез равенството

Ако t маса< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t е факт, че хипотезата H o не се отхвърля и се признава случайният характер на формирането на a, b или.
За да изчислим доверителния интервал, определяме максималната грешка D за всеки индикатор:
, .
Формулите за изчисляване на доверителните интервали са както следва:
; ;
; ;
Ако нулата попада в доверителния интервал, т.е. Ако долната граница е отрицателна, а горната граница е положителна, тогава оцененият параметър се приема за нула, тъй като не може едновременно да приема както положителни, така и отрицателни стойности.
Прогнозната стойност се определя чрез заместване на съответната (прогнозна) стойност в регресионното уравнение. Средната стандартна грешка на прогнозата се изчислява:
,
Където
и се строи доверителен интервалпрогноза:
; ;
Където .

Примерно решение

Задача No1. За седем територии на Уралския регион през 199X са известни стойностите на две характеристики.
Маса 1.
Задължително: 1. За да характеризирате зависимостта на y от x, изчислете параметрите на следните функции:
а) линейни;
б) мощност (първо трябва да извършите процедурата за линеаризиране на променливите, като вземете логаритъм на двете части);
в) демонстративни;
г) равностранна хипербола (трябва също така да разберете как предварително да линеаризирате този модел).
2. Оценете всеки модел, като използвате средната грешка на приближението и F теста на Fisher.

Решение (Вариант № 1)

За изчисляване на параметрите a и b на линейната регресия (изчислението може да се направи с помощта на калкулатор).
решаване на система от нормални уравнения за АИ б:
Въз основа на първоначалните данни изчисляваме :
г х yx х 2 y 2 A i
л 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Обща сума 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ср. значение (Общо/n) 57,89 54,90 3166,05 3048,34 3383,68 х х 8,1
с 5,74 5,86 х х х х х х
s 2 32,92 34,34 х х х х х х


Регресионно уравнение: y = 76,88 - 0,35Х.С увеличение на средната дневна заплата с 1 rub. делът на разходите за закупуване на хранителни продукти намалява средно с 0.35 процентни пункта.
Нека изчислим коефициента на корелация на линейната двойка:

Връзката е умерена, обратна.
Нека определим коефициента на детерминация:

Разликата от 12,7% в резултата се обяснява с промяната в фактора x. Заместване на действителните стойности в регресионното уравнение Х,нека определим теоретичните (изчислените) стойности . Нека намерим стойността на средната грешка на приближението:

Средно изчислените стойности се отклоняват от действителните с 8,1%.
Нека изчислим F-критерия:

от 1< Е < ¥ , трябва да се има предвид Е -1 .
Получената стойност показва необходимостта от приемане на хипотезата но ослучайният характер на установената зависимост и статистическата незначимост на параметрите на уравнението и показателя за близостта на връзката.
1б.Изграждането на мощностен модел се предшества от процедурата на линеаризация на променливите. В примера линеаризацията се извършва чрез вземане на логаритми от двете страни на уравнението:


КъдетоY=lg(y), X=lg(x), C=lg(a).

За изчисления използваме данните в табл. 1.3.

Таблица 1.3

Y х YX Y2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Обща сума 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Средна стойност 1,7605 1,7370 3,0572 3,1011 3,0194 х х 28,27 8,0
σ 0,0425 0,0484 х х х х х х х
σ 2 0,0018 0,0023 х х х х х х х

Нека изчислим C и b:


Получаваме линейно уравнение: .
След като извършихме неговото потенциране, получаваме:

Заместване на действителните стойности в това уравнение Х,получаваме теоретични стойности на резултата. Използвайки ги, ще изчислим показателите: плътност на връзката - индекс на корелация и средна апроксимационна грешка

Изпълнението на модела на степенния закон показва, че е малко по-добро линейна функцияописва връзката.

. Построяване на уравнението на експоненциална крива

предшествано от процедура за линеаризиране на променливи чрез вземане на логаритми от двете страни на уравнението:

За изчисления използваме данните от таблицата.

Y х Yx Y2 х 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Обща сума 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ср. зн. 1,7605 54,9 96,5711 3,1011 3048,34 х х 28,68 8,0
σ 0,0425 5,86 х х х х х х х
σ 2 0,0018 34,339 х х х х х х х

Стойностите на регресионните параметри A и INвъзлиза на:


Полученото линейно уравнение е: . Нека потенцираме полученото уравнение и го запишем в обичайната форма:

Ще оценим близостта на връзката чрез индекса на корелация:

По време на обучението си студентите много често се сблъскват с различни уравнения. Едно от тях - регресионното уравнение - е разгледано в тази статия. Този тип уравнение се използва специално за описание на характеристиките на връзката между математическите параметри. Този видравенствата се използват в статистиката и иконометрията.

Определение за регресия

В математиката регресията означава определено количество, което описва зависимостта на средната стойност на набор от данни от стойностите на друго количество. Регресионното уравнение показва, като функция на определена характеристика, средната стойност на друга характеристика. Регресионната функция има формата просто уравнение y = x, в която y действа като зависима променлива, а x като независима променлива (фактор на характеристиките). Всъщност регресията се изразява като y = f (x).

Какви са видовете връзки между променливите?

Като цяло има два противоположни типа връзки: корелация и регресия.

Първият се характеризира с равенството на условните променливи. IN в такъв случайНе е известно със сигурност коя променлива зависи от другата.

Ако няма равенство между променливите и условията казват коя променлива е обяснителна и коя е зависима, тогава можем да говорим за наличие на връзка от втори тип. За да се състави уравнение на линейна регресия, ще е необходимо да се установи какъв тип връзка се наблюдава.

Видове регресии

Днес има 7 различни вида регресия: хиперболична, линейна, множествена, нелинейна, двойна, обратна, логаритмично линейна.

Хиперболични, линейни и логаритмични

Уравнението на линейната регресия се използва в статистиката за ясно обяснение на параметрите на уравнението. Изглежда като y = c+t*x+E. Хиперболичното уравнение има формата на правилна хипербола y = c + m / x + E. Логаритмично линейно уравнение изразява връзката с помощта на логаритмична функция: In y = In c + m * In x + In E.

Множествени и нелинейни

Още две сложни типовеРегресията е множествена и нелинейна. Уравнението множествена регресиясе изразява чрез функцията y = f(x 1, x 2 ...x c) + E. В тази ситуация y действа като зависима променлива, а x действа като обяснителна променлива. Променливата E е стохастична; тя включва влиянието на други фактори в уравнението. Нелинейно уравнениерегресията е малко спорна. От една страна, по отношение на взетите под внимание показатели, тя не е линейна, но от друга страна, в ролята на оценяващи показатели, е линейна.

Обратни и сдвоени видове регресии

Обратната е вид функция, към която трябва да се преобразува линеен изглед. В най-традиционните приложни програми той има формата на функция y = 1/c + m*x+E. Уравнение за регресия по двойки показва връзката между данните като функция на y = f (x) + E. Точно както в други уравнения, y зависи от x, а E е стохастичен параметър.

Понятие за корелация

Това е индикатор, показващ наличието на връзка между две явления или процеси. Силата на връзката се изразява като корелационен коефициент. Стойността му варира в интервала [-1;+1]. Отрицателен показателпоказва наличност обратна връзка, положителен - за права линия. Ако коефициентът приеме стойност, равна на 0, тогава няма връзка. как по-близка стойносткъм 1 - толкова по-силна е връзката между параметрите, колкото по-близо до 0 - толкова по-слаба е тя.

Методи

Корелационните параметрични методи могат да оценят силата на връзката. Те се използват на базата на оценка на разпределението за изследване на параметри, които се подчиняват на закона за нормалното разпределение.

Параметрите на уравнението на линейната регресия са необходими за идентифициране на вида на зависимостта, функцията на уравнението на регресията и оценка на показателите на избраната формула за връзка. Корелационното поле се използва като метод за идентифициране на връзката. За да направите това, всички съществуващи данни трябва да бъдат изобразени графично. Всички известни данни трябва да бъдат нанесени в правоъгълна двумерна координатна система. Така се образува корелационно поле. Стойностите на описващия фактор са отбелязани по абсцисната ос, докато стойностите на зависимия фактор са отбелязани по ординатната ос. Ако има функционална връзка между параметрите, те се подреждат под формата на линия.

Ако коефициентът на корелация на такива данни е по-малък от 30%, можем да говорим за практически пълно отсъствиекомуникации. Ако е между 30% и 70%, това показва наличието на средно-тесни връзки. 100% индикатор е доказателство за функционална връзка.

Нелинейното регресионно уравнение, също като линейното, трябва да бъде допълнено с корелационен индекс (R).

Корелация за множествена регресия

Коефициентът на детерминация е квадратният показател множествена корелация. Той говори за тясната връзка на представения набор от показатели с изследваната характеристика. Може да се говори и за естеството на влиянието на параметрите върху резултата. Уравнението на множествената регресия се оценява с помощта на този показател.

За да се изчисли индикаторът за множествена корелация, е необходимо да се изчисли неговият индекс.

Метод на най-малките квадрати

Този метод е начин за оценка на регресионните фактори. Същността му е да се минимизира сумата от квадратите на отклоненията, получени в резултат на зависимостта на фактора от функцията.

Уравнение на двойна линейна регресия може да бъде изчислено с помощта на такъв метод. Този тип уравнения се използват, когато се открие сдвоена линейна връзка между индикатори.

Параметри на уравнението

Всеки параметър на линейната регресионна функция има специфично значение. Уравнението на сдвоената линейна регресия съдържа два параметъра: c и m. Параметърът m показва средната промяна в крайния показател на функцията y, при условие че променливата x намалява (увеличава) с една условна единица. Ако променливата x е нула, тогава функцията е равна на параметъра c. Ако променливата x не е нула, тогава факторът c няма икономическо значение. Единственото влияние върху функцията е знакът пред фактора c. Ако има минус, тогава можем да кажем, че промяната в резултата е бавна в сравнение с фактора. Ако има плюс, това означава ускорена промяна в резултата.

Всеки параметър, който променя стойността на регресионното уравнение, може да бъде изразен чрез уравнение. Например фактор c има формата c = y - mx.

Групирани данни

Има условия на задачата, при които цялата информация е групирана по атрибут x, но за определена група са посочени съответните средни стойности на зависимия индикатор. В този случай средните стойности характеризират как се променя индикаторът в зависимост от x. По този начин групираната информация помага да се намери регресионното уравнение. Използва се като анализ на взаимоотношенията. Този метод обаче има своите недостатъци. За съжаление средните показатели често са подложени на външни колебания. Тези колебания не отразяват модела на връзката; те просто маскират нейния „шум“. Средните стойности показват модели на връзка много по-лоши от уравнение на линейна регресия. Те обаче могат да се използват като основа за намиране на уравнение. Чрез умножаване на броя на отделна популация по съответната средна стойност, може да се получи сумата y в рамките на групата. След това трябва да съберете всички получени суми и да намерите крайния индикатор y. Малко по-трудно е да се правят изчисления с индикатора за сума xy. Ако интервалите са малки, можем условно да приемем, че показателят x за всички единици (в групата) е еднакъв. Трябва да го умножите по сумата от y, за да намерите сумата от произведенията на x и y. След това всички суми се събират заедно и се получава общата сума xy.

Уравнение за множествена регресия по двойки: оценка на важността на връзката

Както беше обсъдено по-рано, множествената регресия има функция от формата y = f (x 1,x 2,…,x m)+E. Най-често такова уравнение се използва за решаване на проблема с търсенето и предлагането на даден продукт, доходите от лихви върху обратно изкупени акции и за изследване на причините и вида на функцията на производствените разходи. Също така се използва активно в голямо разнообразие от макроикономически изследвания и изчисления, но на ниво микроикономика това уравнение се използва малко по-рядко.

Основната задача на множествената регресия е да се изгради модел от данни, съдържащ огромно количество информация, за да се определи допълнително какво влияние има всеки от факторите поотделно и в тяхната съвкупност върху показателя, който трябва да се моделира и неговите коефициенти. Регресионното уравнение може да приема голямо разнообразие от стойности. В този случай за оценка на връзката обикновено се използват два вида функции: линейни и нелинейни.

Линейната функция е изобразена под формата на следната зависимост: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. В този случай a2, a m се считат за „чисти“ регресионни коефициенти. Те са необходими за характеризиране на средната промяна на параметъра y с промяна (намаляване или увеличаване) на всеки съответен параметър x с една единица, при условие на стабилни стойности на други показатели.

Нелинейните уравнения имат например формата на степенна функция y=ax 1 b1 x 2 b2 ...x m bm. В този случай показателите b 1, b 2 ..... b m се наричат ​​коефициенти на еластичност, те показват как ще се промени резултатът (с колко%) с увеличение (намаляване) на съответния показател x с 1% и със стабилен показател на други фактори.

Какви фактори трябва да се вземат предвид при конструирането на множествена регресия

За да се изгради правилно множествената регресия, е необходимо да се установи на кои фактори трябва да се обърне специално внимание.

Необходимо е да има известно разбиране за естеството на връзките между икономическите фактори и това, което се моделира. Факторите, които ще трябва да бъдат включени, трябва да отговарят на следните критерии:

  • Трябва да се подложи на количествено измерване. За да се използва фактор, който описва качеството на даден обект, във всеки случай трябва да му се даде количествена форма.
  • Не трябва да има взаимовръзка на факторите или функционална връзка. Такива действия най-често водят до необратими последици- системата от обикновени уравнения става безусловна и това води до нейната ненадеждност и неясни оценки.
  • В случай на огромен индикатор за корелация, няма начин да се установи изолираното влияние на факторите върху крайния резултат на индикатора, следователно коефициентите стават неинтерпретируеми.

Методи на изграждане

Съществува голяма сумаметоди и техники, които обясняват как факторите могат да бъдат избрани за уравнение. Всички тези методи обаче се основават на избора на коефициенти с помощта на корелационен индикатор. Сред тях са:

  • Метод на елиминиране.
  • Метод на превключване.
  • Поетапен регресионен анализ.

Първият метод включва филтриране на всички коефициенти от общия набор. Вторият метод включва въвеждането на много допълнителни фактори. Е, третото е елиминирането на факторите, които преди са били използвани за уравнението. Всеки от тези методи има право на съществуване. Те имат своите плюсове и минуси, но всички те могат да решат проблема с премахването на ненужните индикатори по свой начин. По правило резултатите, получени от всеки отделен метод, са доста близки.

Методи за многомерен анализ

Такива методи за определяне на фактори се основават на разглеждане на индивидуални комбинации от взаимосвързани характеристики. Те включват дискриминантен анализ, разпознаване на формата, анализ на главните компоненти и клъстерен анализ. Освен това има и факторен анализ, но той се появи поради развитието на компонентния метод. Всички те се прилагат при определени обстоятелства, при определени условия и фактори.

В присъствието на корелационна връзкамежду факторните и резултантните знаци, лекарите често трябва да установят с каква стойност може да се промени стойността на един знак, когато другият се промени до общоприета мерна единица или такава, установена от самия изследовател.

Например, как ще се промени телесното тегло на ученици от 1-ви клас (момичета или момчета), ако височината им се увеличи с 1 см. За тези цели се използва методът на регресионния анализ.

Методът на регресионния анализ най-често се използва за разработване на нормативни скали и стандарти физическо развитие.

  1. Определение за регресия. Регресията е функция, която позволява от средната стойност на една характеристика да се определи средната стойност на друга характеристика, която е в корелация с първата.

    За тази цел се използва коефициентът на регресия и редица други параметри. Например можете да изчислите числото настинкисредно при определени стойности на средната месечна температура на въздуха през есенно-зимния период.

  2. Определяне на регресионния коефициент. Коефициентът на регресия е абсолютната стойност, с която средно се променя стойността на една характеристика, когато друга свързана характеристика се променя с определена мерна единица.
  3. Формула за коефициент на регресия. R y/x = r xy x (σ y / σ x)
    където R у/х - коефициент на регресия;
    r xy - коефициент на корелация между характеристиките x и y;
    (σ y и σ x) - стандартните отклонения на характеристиките x и y.

    В нашия пример;
    σ x = 4,6 (стандартно отклонение на температурата на въздуха през есенно-зимния период;
    σ y = 8,65 (стандартно отклонение на броя на инфекциозните и простудни заболявания).
    Следователно R y/x е регресионният коефициент.
    R у/х = -0,96 х (4,6 / 8,65) = 1,8, т.е. при понижаване на средната месечна температура на въздуха (x) с 1 градус средният брой на инфекциозните и простудни заболявания (y) през есенно-зимния период ще се промени с 1,8 случая.

  4. Регресионно уравнение. y = M y + R y/x (x - M x)
    където y е средната стойност на характеристиката, която трябва да се определи при промяна на средната стойност на друга характеристика (x);
    x е известната средна стойност на друга характеристика;
    R y/x - коефициент на регресия;
    M x, M y - известни средни стойности на характеристиките x и y.

    Например средният брой инфекциозни и простудни заболявания (y) може да се определи без специални измервания при всяка средна стойност на средната месечна температура на въздуха (x). И така, ако x = - 9°, R y/x = 1,8 заболявания, M x = -7°, M y = 20 заболявания, тогава y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 заболявания.
    Това уравнение се прилага в случай на линейна зависимост между две характеристики (x и y).

  5. Предназначение на регресионното уравнение. Регресионното уравнение се използва за построяване на регресионна линия. Последното позволява, без специални измервания, да се определи всяка средна стойност (y) на една характеристика, ако стойността (x) на друга характеристика се промени. Въз основа на тези данни се изгражда графика - регресионна линия, който може да се използва за определяне на средния брой настинки при всяка стойност на средната месечна температура в диапазона между изчислените стойности на броя на настинките.
  6. Регресионна сигма (формула).
    където σ Rу/х - сигма (стандартно отклонение) на регресията;
    σ y - стандартно отклонение на характеристиката y;
    r xy - коефициент на корелация между характеристиките x и y.

    Така че, ако σ y - стандартно отклонение на броя на настинките = 8,65; r xy - коефициентът на корелация между броя на настинките (y) и средната месечна температура на въздуха през есенно-зимния период (x) е равен на - 0,96, тогава

  7. Задаване на сигма на регресия. Дава описание на мярката за разнообразие на получената характеристика (y).

    Например, той характеризира разнообразието на броя на простудните заболявания при определена стойност на средната месечна температура на въздуха през есенно-зимния период. Така средният брой на настинки при температура на въздуха x 1 = -6° може да варира от 15,78 заболявания до 20,62 заболявания.
    При x 2 = -9°, средният брой на настинки може да варира от 21,18 заболявания до 26,02 заболявания и т.н.

    Регресионната сигма се използва за конструиране на регресионна скала, която отразява отклонението на стойностите на получената характеристика от нейната средна стойност, нанесена на регресионната линия.

  8. Данни, необходими за изчисляване и начертаване на регресионната скала
    • коефициент на регресия - R у/х;
    • регресионно уравнение - y = M y + R y/x (x-M x);
    • регресионна сигма - σ Rx/y
  9. Последователност на изчисленията и графично представяне на регресионната скала.
    • определете коефициента на регресия, като използвате формулата (вижте параграф 3). Например, необходимо е да се определи колко ще се промени средно телесното тегло (на определена възраст в зависимост от пола), ако средна височинаще се промени с 1 см.
    • като използвате формулата на регресионното уравнение (вижте точка 4), определете какво ще бъде например средното телесно тегло (y, y 2, y 3 ...) * за определена стойност на височина (x, x 2, x 3 . ..) .
      ________________
      * Стойността на "y" трябва да се изчисли за поне три известни стойности на "x".

      В същото време са известни средните стойности на телесното тегло и височината (M x и M y) за определена възраст и пол

    • изчислете регресионната сигма, като знаете съответните стойности на σ y и r xy и замените техните стойности във формулата (вижте параграф 6).
    • въз основа на известните стойности x 1, x 2, x 3 и съответните средни стойности y 1, y 2 y 3, както и най-малките (y - σ rу/х) и най-големите (y + σ rу /х) стойности (y) конструират регресионна скала.

      За графично представяне на регресионната скала, стойностите x, x2, x3 (ординатната ос) първо се маркират на графиката, т.е. построена е регресионна линия, например зависимостта на телесното тегло (y) от височината (x).

      След това в съответните точки се отбелязват y 1, y 2, y 3 числови стойностирегресионна сигма, т.е. намерете най-малкото на графиката и най-висока стойност y 1, y 2, y 3.

  10. Практическо използване на регресионната скала. Разработват се нормативни скали и стандарти, по-специално за физическо развитие. Използвайки стандартна скала, можете да дадете индивидуална оценка на развитието на децата. В този случай физическото развитие се оценява като хармонично, ако например при определена височина телесното тегло на детето е в рамките на една сигма регресия към средната изчислена единица телесно тегло - (y) за дадена височина (x) ( y ± 1 σ Ry/x).

    Физическото развитие се счита за дисхармонично по отношение на телесното тегло, ако телесното тегло на детето за определен ръст е в рамките на втората сигма на регресия: (y ± 2 σ Ry/x)

    Физическото развитие ще бъде рязко дисхармонично както поради наднормено, така и поради недостатъчно телесно тегло, ако телесното тегло за определен ръст е в рамките на третата сигма на регресия (y ± 3 σ Ry/x).

Според резултатите статистически изследванияфизическото развитие на 5-годишните момчета е известно, че средният им ръст (x) е 109 cm, а средното телесно тегло (y) е 19 kg. Коефициентът на корелация между височината и телесното тегло е +0,9, стандартните отклонения са представени в таблицата.

Задължително:

  • изчисляване на коефициента на регресия;
  • използвайки регресионното уравнение, определете какво ще бъде очакваното телесно тегло на 5-годишни момчета с височина, равна на x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • изчислява регресионната сигма, конструира регресионна скала и представя графично резултатите от нейното решение;
  • направи подходящи заключения.

Условията на задачата и резултатите от нейното решение са представени в обобщената таблица.

маса 1

Условия на проблема Резултати от решаването на проблема
регресионно уравнение регресия сигма регресионна скала (очаквано телесно тегло (в kg))
М σ r xy R y/x х U σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Височина (x) 109 см ± 4,4 см +0,9 0,16 100см 17.56 кг ± 0,35 кг 17,21 кг 17.91 кг
Телесна маса (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18.81 кг 19,51 кг
120 см 20.76 кг 20.41 кг 21,11 кг

Решение.

Заключение.По този начин регресионната скала в рамките на изчислените стойности на телесното тегло ви позволява да я определите при всяка друга стойност на височина или оценка индивидуално развитиедете. За да направите това, възстановете перпендикуляра на регресионната линия.

  1. Власов В.В. Епидемиология. - М.: ГЕОТАР-МЕД, 2004. - 464 с.
  2. Лисицин Ю.П. Общественото здравеи здравеопазването. Учебник за ВУЗ. - М.: ГЕОТАР-МЕД, 2007. - 512 с.
  3. Медик V.A., Юриев V.K. Лекционен курс по обществено здраве и здравеопазване: Част 1. Обществено здраве. - М.: Медицина, 2003. - 368 с.
  4. Миняев В.А., Вишняков Н.И. и др.. Социална медицина и организация на здравеопазването (Наръчник в 2 тома). - Санкт Петербург, 1998. -528 с.
  5. Кучеренко В.З., Агарков Н.М. и др.Социална хигиена и организация на здравеопазването ( Урок) - Москва, 2000. - 432 с.
  6. С. Гланц. Медицинска и биологична статистика. Превод от английски - М., Практика, 1998. - 459 с.

Регресионен анализе в основата на създаването на повечето иконометрични модели, които включват модели за оценка на разходите. За изграждане на модели за оценка този метод може да се използва, ако броят на аналозите (сравними обекти) и броят на факторите на разходите (елементи за сравнение) са свързани помежду си, както следва: П> (5 -g-10) x Да се,тези. трябва да има 5-10 пъти повече аналози от разходните фактори. Същото изискване за съотношението на количеството данни и броя на факторите важи и за други задачи: установяване на връзка между разходите и потребителските параметри на обекта; обосновка на процедурата за изчисляване на коригиращи индекси; идентифициране на ценовите тенденции; установяване на връзка между износването и изменението на въздействащите фактори; получаване на зависимости за изчисляване на разходни стандарти и др. Спазването на това изискване е необходимо, за да се намали вероятността от работа с извадка от данни, която не отговаря на изискването за нормално разпределение на случайни променливи.

Регресионната връзка отразява само средната тенденция на промени в произтичащата променлива, например цена, от промени в една или повече факторни променливи, например местоположение, брой стаи, площ, етаж и т.н. Това е разликата между регресионната връзка и функционалната, при която стойността на резултантната променлива е строго определена за дадена стойност на факторните променливи.

Наличието на регресионна връзка /между резултант прии факторни променливи x p ..., x k(фактори) показва, че тази връзка се определя не само от влиянието на избрани факторни променливи, но и от влиянието на променливи, някои от които обикновено са неизвестни, други не могат да бъдат оценени и взети под внимание:

Влиянието на неотчетените променливи е показано от втория член на това уравнение ?, което се нарича апроксимационна грешка.

Разграничават се следните видове регресионни зависимости:

  • ? двойна регресия - връзка между две променливи (резултант и фактор);
  • ? множествена регресия - връзката между една променлива на резултата и две или повече факторни променливи, включени в изследването.

Основната задача на регресионния анализ е количествено определянеблизостта на връзката между променливите (при сдвоена регресия) и множество променливи (при множествена регресия). Тясността на връзката се изразява количествено чрез коефициента на корелация.

Използването на регресионен анализ позволява да се установи моделът на влияние на основните фактори (хедонични характеристики) върху изследвания показател, както в тяхната цялост, така и за всеки от тях поотделно. С помощта на регресионния анализ, като метод на математическата статистика, е възможно, първо, да се намери и опише формата на аналитичната зависимост на получената (търсена) променлива от факторните и, второ, да се оцени близостта на тази зависимост.

Чрез решаването на първата задача се получава математически регресионен модел, с помощта на който след това се изчислява желаният показател за зададени стойности на факторите. Решаването на втората задача ни позволява да установим надеждността на изчисления резултат.

По този начин регресионният анализ може да се дефинира като набор от формални (математически) процедури, предназначени да измерват близостта, посоката и аналитичния израз на формата на връзката между резултантните и факторните променливи, т.е. резултатът от такъв анализ трябва да бъде структурно и количествено дефиниран статистически модел от формата:

Където y -средната стойност на получената променлива (желания индикатор, например цена, наем, норма на капитализация) от Пнейните наблюдения; x - стойност на факторната променлива (/-ти разходен фактор); Да се ​​-брой факторни променливи.

функция f(x l ,...,x lc),описващ зависимостта на получената променлива от факторните фактори се нарича регресионно уравнение (функция). Терминът „регресия“ (регресия (лат.) - отстъпление, връщане към нещо) се свързва със спецификата на един от конкретните проблеми, решени на етапа на формиране на метода, и в момента не отразява цялата същност на метода, но продължава да се използва.

Регресионен анализ в общ случайвключва следните стъпки:

  • ? формиране на извадка от еднородни обекти и събиране на първоначална информация за тези обекти;
  • ? избор на основните фактори, влияещи върху резултантната променлива;
  • ? проверка на пробата за нормалност с помощта х 2 или биномен тест;
  • ? приемане на хипотеза за формата на комуникация;
  • ? математическа обработкаданни;
  • ? получаване на регресионен модел;
  • ? оценка на статистическите му показатели;
  • ? изчисления за проверка с помощта на регресионен модел;
  • ? анализ на резултатите.

Посочената последователност от операции се извършва, когато се изучава както сдвоена връзка между факторна променлива и една резултатна променлива, така и множествена връзка между резултатна променлива и няколко факторни.

Използването на регресионен анализ налага определени изисквания към първоначалната информация:

  • ? статистическата извадка от обекти трябва да е еднородна във функционално и конструктивно-технологично отношение;
  • ? доста многобройни;
  • ? изследваният разходен показател - получената променлива (цена, себестойност, разходи) - трябва да се доведе до едни и същи условия за изчисляването му за всички обекти в извадката;
  • ? факторните променливи трябва да се измерват достатъчно точно;
  • ? факторните променливи трябва да са независими или минимално зависими.

Изискванията за хомогенност и пълнота на извадката са в конфликт: колкото по-строг е подборът на обекти въз основа на тяхната хомогенност, толкова по-малка е получената извадка и, обратно, за разширяване на извадката е необходимо да се включат обекти, които не са много сходни с взаимно.

След като се съберат данни за група хомогенни обекти, те се анализират, за да се установи формата на връзката между получените и факторните променливи под формата на теоретична регресионна линия. Процесът на намиране на теоретична регресионна линия се състои от разумен избор на апроксимираща крива и изчисляване на коефициентите на нейното уравнение. Регресионна линия е гладка крива (в конкретен случай права линия), която описва с помощта на математическа функция обща тенденцияизследваната зависимост и изглаждане на неравномерни, случайни емисии от влиянието на странични фактори.

За показване на сдвоени регресионни зависимости в задачите за оценка най-често се използват следните функции: линейни - y - a 0 + ars + sмощност - y - aj&i + sпоказателен - y -линеен експоненциален - y - a 0 + ap* + c.Тук - дапроксимационна грешка, причинена от действието на неотчетени случайни фактори.

В тези функции y е резултантната променлива; x - факторна променлива (фактор); А 0 , a r a 2 -параметри на регресионния модел, регресионни коефициенти.

Линейният експоненциален модел принадлежи към класа на така наречените хибридни модели от вида:

Където

където x (i = 1, /) - стойности на факторите;

b t (i = 0, /) - коефициенти на регресионното уравнение.

В това уравнение компонентите А, БИ Зсъответстват на стойността на отделните компоненти на оценявания актив, например цената на парцела и разходите за подобрения, и параметърът Qе често срещано. Предназначен е да коригира стойността на всички компоненти на оценявания актив общ факторвлияния като местоположение.

Стойностите на факторите, които са в силата на съответните коефициенти, са двоични променливи (0 или 1). Факторите в основата на степента са дискретни или непрекъснати променливи.

Факторите, свързани с коефициентите на умножение, също са непрекъснати или дискретни.

Спецификацията се извършва, като правило, с помощта на емпиричен подход и включва два етапа:

  • ? нанасяне на регресионни полеви точки върху графика;
  • ? графичен (визуален) анализ на вида на възможната апроксимираща крива.

Типът на регресионната крива не винаги може да бъде избран веднага. За да го определите, първо начертайте точките на регресионното поле въз основа на оригиналните данни. След това визуално начертайте линия по позицията на точките, опитвайки се да разберете качествения модел на връзката: равномерен растеж или равномерен спад, растеж (намаляване) с увеличаване (намаляване) на скоростта на динамика, плавен подход към определен ниво.

Този емпиричен подход се допълва от логически анализ, изхождащ от вече известни представи за икономическата и физическата природа на изследваните фактори и тяхното взаимно влияние.

Например, известно е, че зависимостите на получените променливи са икономически показатели(цени, наеми) от редица факторни променливи - ценообразуващите фактори (разстояние от центъра на населеното място, площ и т.н.) са нелинейни по своята същност и могат да бъдат описани доста строго чрез степенна, експоненциална или квадратични функции. Но за малки диапазони на промените на факторите могат да се получат приемливи резултати с помощта на линейна функция.

Ако все пак е невъзможно незабавно да се направи уверен избор на която и да е функция, тогава се избират две или три функции, изчисляват се техните параметри и след това, като се използват подходящи критерии за близостта на връзката, функцията накрая се определя избрани.

На теория регресионният процес на намиране на формата на крива се нарича спецификациямодел и неговите коефициенти - калибриранемодели.

Ако се установи, че получената променлива y зависи от няколко факторни променливи (фактори) x ( , x 2 , ..., x k,тогава те прибягват до изграждане на модел на множествена регресия. Обикновено се използват три форми на множествена комуникация: линейна - y - a 0 + a x x x + a^x 2 + ... + a k x k,показателен - y - a 0 a*i a x t- a x b,мощност - y - a 0 x x ix 2 a 2. .x^или комбинации от тях.

Експоненциалните и степенните функции са по-универсални, тъй като те апроксимират нелинейни зависимости, които са по-голямата част от изследваните при оценката на зависимостите. Освен това те могат да се използват при оценка на обекти и в метода статистическо моделиранепри масово оценяване, а при метода на пряко сравнение при индивидуално оценяване при установяване на корекционни коефициенти.

На етапа на калибриране параметрите на регресионния модел се изчисляват с помощта на метода на най-малките квадрати, чиято същност е, че сумата от квадратните отклонения на изчислените стойности на получената променлива при., т.е. изчислено с помощта на избраното уравнение на свързване, от действителните стойности трябва да бъдат минимални:

Стойности j) (. и u.са известни, следователно Qе функция само на коефициентите на уравнението. За да намерите минимума Стрябва да вземете частични производни Qпо коефициентите на уравнението и ги приравнете към нула:

В резултат на това получаваме система от нормални уравнения, чийто брой е равен на броя на определените коефициенти на желаното регресионно уравнение.

Да предположим, че трябва да намерим коефициентите линейно уравнение y - a 0 + ars.Сумата от квадратите на отклоненията има формата:

/=1

Разграничете функцията Qс неизвестни коефициенти а 0и и приравняваме частните производни на нула:

След трансформациите получаваме:

Където П -брой първоначални действителни стойности притях (брой аналози).

Дадената процедура за изчисляване на коефициентите на регресионното уравнение е приложима и за нелинейни зависимости, ако тези зависимости могат да бъдат линеаризирани, т.е. водят до линейна форма, използвайки промяна на променливи. Степенната и експоненциалната функции след логаритъм и подходяща промяна на променливите придобиват линеен вид. Например степенна функция след логаритъм приема формата: In y = 1p 0 +a x 1ф. След замяна на променливи Y-в y, L 0 -в и № X-В x получаваме линейна функция

Y=A 0 + cijX,чиито коефициенти се намират по описания по-горе начин.

Методът на най-малките квадрати се използва и за изчисляване на коефициентите на модел на множествена регресия. По този начин, система от нормални уравнения за изчисляване на линейна функция с две променливи XjИ х 2след серия от трансформации изглежда така:

Обикновено тази системауравненията се решават с помощта на методи на линейна алгебра. множествено число степенна функцияводят до линейна форма, като вземат логаритми и променят променливи по същия начин като двойка степенна функция.

Когато се използват хибридни модели, коефициентите на множествена регресия се намират чрез числени процедури на метода на последователните приближения.

За да направите окончателен избор от няколко регресионни уравнения, е необходимо да тествате всяко уравнение за силата на връзката, която се измерва чрез коефициента на корелация, дисперсията и коефициента на вариация. За оценка могат да се използват и тестовете на Стюдънт и Фишер. Колкото по-голяма е близостта на връзката, която показва една крива, толкова по-предпочитана е тя, при равни други условия.

Ако се решава проблем от този клас, когато е необходимо да се установи зависимостта на показателя за разходите от факторите на разходите, тогава е разбираемо желанието да се вземат предвид колкото е възможно повече влияещи фактори и по този начин да се изгради по-точен модел на множествена регресия . Разширяването на броя на факторите обаче е възпрепятствано от две обективни ограничения. Първо, за изграждане на модел на множествена регресия е необходима много по-голяма извадка от обекти, отколкото за изграждане на сдвоен модел. Общоприето е, че броят на обектите в извадката трябва да надвишава броя Пфактори поне 5-10 пъти. От това следва, че за да се изгради модел с три влияещи фактора, е необходимо да се събере извадка от приблизително 20 обекта с различен набор от факторни стойности. На второ място, факторите, избрани за модела, по отношение на влиянието си върху показателя за разходите трябва да бъдат достатъчно независими един от друг. Това не е лесно да се гарантира, тъй като извадката обикновено комбинира обекти, принадлежащи към едно и също семейство, за което има естествена промяна в много фактори от обект на обект.

Качеството на регресионните модели обикновено се проверява с помощта на следните статистически показатели.

Стандартно отклонение на грешката на регресионното уравнение (грешка в оценката):

Където П -размер на извадката (брой аналози);

Да се ​​-брой фактори (разходни фактори);

Грешка, необяснима регресионно уравнение(фиг. 3.2);

u. -действителната стойност на получената променлива (например цена); y t -изчислената стойност на променливата резултат.

Този индикатор се нарича още стандартна грешка на оценката (RMS грешка). На фигурата точките показват конкретни стойности на извадката, символът указва линията на средните стойности на извадката, а наклонената тире-пунктирана линия е регресионната линия.


Ориз. 3.2.

Стандартното отклонение на грешката при оценката измерва степента на отклонение на действителните стойности на y от съответните изчислени стойности при( , получен с помощта на регресионен модел. Ако извадката, на която се основава моделът, е подчинена на нормалния закон за разпределение, тогава може да се твърди, че 68% от реалните стойности приса в диапазона при ± &eот регресионната линия, а 95% е в диапазона при ± 2d д. Този индикатор е удобен, защото мерните единици sg?съответстват на мерните единици при,. В тази връзка може да се използва за обозначаване на точността на резултата, получен в процеса на оценка. Например в сертификат за стойност можете да посочите, че пазарната стойност е получена с помощта на регресионен модел Vс 95% вероятност да бъде в диапазона от (V -2d,.)преди + 2d s).

Коефициент на вариация на получената променлива:

Където y -средната стойност на получената променлива (фиг. 3.2).

При регресионния анализ коефициентът на вариация var е стандартно отклонениерезултат, изразен като процент от средната стойност на получената променлива. Коефициентът на вариация може да служи като критерий за предсказуемите качества на получения регресионен модел: колкото по-малка е стойността вартолкова по-високи са прогностичните качества на модела. Използването на коефициента на вариация е за предпочитане пред показателя &e, тъй като той е относителен показател. Когато се използва този показател на практика, може да се препоръча да не се използва модел, чийто коефициент на вариация надвишава 33%, тъй като в този случай не може да се каже, че извадковите данни са обект на нормален закон за разпределение.

Коефициент на определяне (коефициент на множествена корелация на квадрат):

Този индикатор се използва за анализ на цялостното качество на получения регресионен модел. Той показва какъв процент от дисперсията в получената променлива се обяснява с влиянието на всички факторни променливи, включени в модела. Коефициентът на детерминация винаги е в диапазона от нула до единица. Колкото по-близка е стойността на коефициента на детерминация до единица, толкова по-добър моделописва оригиналната поредица от данни. Коефициентът на детерминация може да бъде представен по различен начин:

Ето грешката, обяснена от регресионния модел,

А - грешка, необяснима

регресионен модел. От икономическа гледна точка този критерий ни позволява да преценим какъв процент от ценовите вариации се обяснява с регресионното уравнение.

Точната граница на допустимост на индикатора R 2Невъзможно е да се посочи за всички случаи. Трябва да се вземат предвид както размерът на извадката, така и смислената интерпретация на уравнението. Като правило, когато се изучават данни за обекти от един и същи тип, получени в приблизително един и същи момент от време, стойността R 2не надвишава нивото от 0,6-0,7. Ако всички прогнозни грешки са нула, т.е. когато връзката между резултатната и факторната променлива е функционална, тогава R 2 =1.

Коригиран коефициент на детерминация:

Необходимостта от въвеждане на коригиран коефициент на детерминация се обяснява с факта, че с увеличаване на броя на факторите Да сеобичайният коефициент на детерминация почти винаги се увеличава, но броят на степените на свобода намалява (п - к- 1). Въведената корекция винаги намалява стойността R2,тъй като - 1) > (п-к- 1). В резултат на това стойността R 2 CKOf)дори може да стане отрицателен. Това означава, че стойността R 2беше близо до нула преди корекцията и делът на дисперсията на променливата беше обяснен с помощта на регресионното уравнение примного малък.

От двата варианта на регресионни модели, които се различават по стойността на коригирания коефициент на детерминация, но имат еднакво добри други критерии за качество, за предпочитане е вариантът с по-голяма стойност на коригирания коефициент на детерминация. Коефициентът на детерминация не се коригира, ако (p - k): k> 20.

Коефициент на Фишер:

Този критерий се използва за оценка на значимостта на коефициента на детерминация. Остатъчен сбор от квадрати представлява мярка за грешка при прогнозиране, като се използва регресия на известни стойности на разходите г..Неговото сравнение с регресионната сума на квадратите показва колко пъти регресионната зависимост прогнозира резултата по-добре от средната при. Има таблица с критични стойности Ф РКоефициент на Фишер в зависимост от броя на степените на свобода на числителя - Да се, знаменател v 2 = p - k- 1 и ниво на значимост а. Ако изчислената стойност на теста на Фишер Ф РПовече ▼ таблична стойност, то хипотезата за незначимост на коефициента на детерминация, т.е. за несъответствието между връзките, заложени в уравнението на регресията, и тези, които реално съществуват, с вероятност p = 1 - a се отхвърля.

Средна апроксимационна грешка(средно процентно отклонение) се изчислява като средната относителна разлика, изразена като процент, между действителните и изчислените стойности на получената променлива:

как по-малка стойностна този показател, толкова по-добри са прогнозните качества на модела. Когато този показател не надвишава 7%, моделът е с висока точност. Ако 8 > 15% показва незадоволителна точност на модела.

Стандартна грешка на регресионния коефициент:

където (/I) -1 .- диагонален елемент на матрицата (X G X)~ 1 k -брой фактори;

Х-матрица на стойностите на факторната променлива:

X 7 -транспонирана матрица от стойности на факторни променливи;

(ЖЛ) _| - матрица, обратна на матрицата.

Колкото по-малки са тези показатели за всеки регресионен коефициент, толкова по-надеждна е оценката на съответния регресионен коефициент.

Тест на Стюдънт (t-статистика):

Този критерий ви позволява да измерите степента на надеждност (значимост) на връзката, определена от даден регресионен коефициент. Ако изчислената стойност T. по-голяма от стойността на таблицата

Tав, къде v - p - k - 1 е броят на степените на свобода, тогава хипотезата, че този коефициент е статистически незначим, се отхвърля с вероятност (100 - a)%. Има специални таблици на /-разпределения, които позволяват въз основа на дадено ниво на значимост a и броя на степените на свобода v да се определи критична стойносткритерий. Най-често използваната стойност за a е 5%.

Мултиколинеарност, т.е. ефектът от взаимните връзки между факторните променливи води до необходимостта да се задоволяваме с ограничен брой от тях. Ако това не се вземе предвид, тогава можете да получите нелогичен регресионен модел. За да се избегне отрицателният ефект от мултиколинеарността, коефициентите на корелация по двойки се изчисляват преди изграждането на модел на множествена регресия r xjxjмежду избрани променливи Х.И х

Тук XjX; -средната стойност на произведението на две факторни променливи;

XjXj-произведението на средните стойности на две факторни променливи;

Оценка на дисперсията на факторната променлива x..

Две променливи се считат за свързани с регресията (т.е. колинеарни), ако техният корелационен коефициент по двойки е абсолютна стойностстрого повече от 0,8. В този случай всяка от тези променливи трябва да бъде изключена от разглеждане.

За да се разширят възможностите на икономическия анализ на получените регресионни модели, средно коефициенти на еластичност,определя се по формулата:

Където Xj-средната стойност на съответната факторна променлива;

y -средната стойност на получената променлива; а аз -регресионен коефициент за съответната факторна променлива.

Коефициентът на еластичност показва с какъв процент средно ще се промени стойността на получената променлива, когато факторната променлива се промени с 1%, т.е. как получената променлива реагира на промените във факторната променлива. Например как реагира цената на кв.м. м жилищна площ на разстояние от центъра на града.

От гледна точка на анализиране на значимостта на конкретен регресионен коефициент е полезно да се оцени частичен коефициент на детерминация:

Ето оценката на дисперсията на полученото

променлива. Този коефициент показва с какъв процент вариацията в получената променлива се обяснява с вариацията в i-тата факторна променлива, включена в регресионното уравнение.

  • Хедоничните характеристики се разбират като характеристики на обект, които отразяват неговите полезни (ценни) свойства от гледна точка на купувачи и продавачи.


Ново в сайта

>

Най - известен