Побудова лінійної регресійної моделі (стр. 3 из 4)

Коефіцієнт кореляції є більш інформативним параметром у порівнянні з коефіцієнтом детермінації, тому що його знак дозволяє судити про позитивну чи негативну кореляцію (і, тим самим, регресії). Відповідно область значень коефіцієнта детермінації

0≤R²≤1.

Важливою властивістю коефіцієнтів кореляції і детермінації є їхня незалежність від зміни розмірності величин X і (чи) Y, а також від їхньої пропорційної зміни. Скажемо, ми вивчаємо залежність товарообігу Y торгового підприємства від торгової площі X [м²]. Коефіцієнт регресії b при цьому виміряється в ден. од./м², наприклад, грн./м² , чи євро/м². Перехід від однієї одиниці до іншої супроводжується пропорційною зміною коефіцієнта регресії b (а також і постійної складовий а, якщо змінюється показник Y). Разом з тим на коефіцієнти R² і R такі перерахування не впливають, вони є безрозмірними відносними показниками (коефіцієнт R² можна, наприклад, виразити в %).

6. Ступені вільності, аналіз дисперсій

Завжди варто пам'ятати, що однієї з основних задач моделювання є в остаточному підсумку одержати результат прогнозу показника Y для якогось цікавлячого економіста значення фактора х_р (у точці прогнозу). Скажемо, при побудові моделі сімейних витрат на харчування в залежності від числа членів родини у вибірку ввійшли родини до 5 чоловік, а ми хочемо спрогнозувати ці витрати для родини з 7 чоловік (х_р = 7). Середнє значення прогнозу показника в точці прогнозу х_р легко визначається з рівняння моделі:

М[у_р ] = М[а + bх_р + ε_p ] = а + b хр = у_р.

Таким чином, середнє значення прогнозу лежить на прямій, що визначає теоретичну залежність моделі.

Після перебування середнього значення прогнозу завжди виникає традиційне питання: яка точність прогнозу, яка ступінь його надійності. Звичайно для цього залучаються интервальні оцінки помилок моделювання (довірчий інтервал разом з довірчою імовірністю). Для кожного значення прогнозу помилки виявляються різними. Це природно, якщо згадати, що помилки, наприклад, у прогнозі погоди ростуть зі збільшенням часу до точки прогнозу (прогноз на завтра більш точний, чим на тиждень уперед).

Визначимо дисперсію і середньоквадратичну помилку прогнозу показника у_р. У специфікації моделі для відхилень замінимо точку спостереження х, на прогнозну крапку х_р:

Вхідні в останнє вираження випадкові величини некорельовані, тому дисперсія показника складається з дисперсій доданків і дорівнює

Як і раніше, замість точного значення дисперсії помилок σ² (яке невідомо в рамках вибіркового спостереження) варто підставити її оцінку, тоді стандартна помилка прогнозу показника стає рівною

Ця середньоквадратична помилка (чи стандартна помилка), як і випливало очікувати, пропорційна стандартній помилці регресії S і росте зі збільшенням різниці між прогнозним і середнім значеннями фактора

. Гранична помилка для визначення довірчого інтервалу дорівнює

а границі довірчого інтервалу прогнозованого показника

розширюються пропорційно квантилю t_α(n - 2) розподілу Стьюдента з (п - 2) ступенями вільності і рівнем значимості α.

Очевидно, з видаленням крапки прогнозного фактора хр від середнього зона довірчого інтервалу розширюється (рис.4). Це відповідає інтуїтивному сприйняттю помилок прогнозу, що звичайно зростають при видаленні від середніх показників. Максимальна точність прогнозу досягається в крапці х – х^* .

Рис. 4

7. Перевірка простої регресійної моделі на адекватність

Для оцінки знайденої економетричної моделі на адекватність порівнюють розрахункове значення критерію Фішера із табличним.

Розрахункове значення критерію Фішера знаходиться за формулою:

де

n – число спостережень,

m – число включених у регресію факторів, які чинять суттєвий вплив на показник.

Для даної надійної ймовірності р (а=1-р рівня значущості) і числа ступенів вільності k₁=m, k₂=n-m-1 знаходиться табличне значення F(a, k₁, k₂). Отримане розрахункове значення порівнюється з табличним. При цьому, якщо F_роз > F(a, k₁, k₂), то з надійністю р = 1-а можна вважати, що розглянута економетрична модель адекватна вихідним даним. У протилежному випадку з надійністю р розглянуту лінійну регресію не можна вважати адекватною.

8. F - критерій Фішера

Теорія статистичної перевірки гіпотез у додатку до регресійного аналізу розроблена англійським математиком Фишером.

Нехай Н₀ - гіпотеза про те, що статистичного зв'язку між X і Y немає (чи вона не істотна, статистично не значима), а Н₁ - гіпотеза про те, що зв'язок є (чи вона істотна, статистично значима). Припустимо, що виконується основна гіпотеза про відсутність зв'язку. У цьому випадку щире значення коефіцієнта регресії β = 0 і F-статистика стає рівною

Очевидно, що з ростом значення F (чи коефіцієнта детермінації R²) збільшується ступінь статистичного зв'язку між фактором і показником (тому що вона прямо пропорційна коефіцієнту регресії і назад пропорційна випадковим помилкам моделі). Задамо імовірність:

як імовірність того, що при перевищенні розрахунковим значенням F (2.47) деякого критичного значення F_Kp гіпотеза про відсутність зв'язку Н₀ вірна. Очевидно, з імовірністю (1 - α) вона при тім же умові невірна. Закритичну область F > F_Kp будемо вважати областю дії гіпотези Н₁, а докритичну F < F_Kp - областю дії гіпотези Н₀. Тоді імовірність є імовірність помилки першого роду: α=P(H₀|H₁), тобто імовірність прийняття основної гіпотези H₀, тоді як насправді справедлива альтернативна гіпотеза Н₁. Графічно ця імовірність визначається як площа під щільністю імовірності p(F) при F > F_k_p. Імовірність α (її іноді називають коефіцієнтом значимості) звичайно вибирають малої (рівної 0,05 чи 0,01), після чого для заданих значень імовірності а розраховуються чисельно критичні значення F_Kp відповідно з урахуванням залежності. Ці значення табулюються, тобто заносяться в таблиці критичних коефіцієнтів чи детермінації критичних значень F-статистики.

Рис. 5

Визначення значимості статистичного зв'язку для моделі лінійної регресії здійснюється по наступної методики. На основі вибіркових даних будується модель і визначається коефіцієнт детермінації R², що потім порівнюється з критичним коефіцієнтом детермінації R²_Kp. Останній знаходять по таблиці критичних значень коефіцієнта детермінації. Вхідними даними таблиці є коефіцієнт значимості α = 0,05 (чи 0,01), номер стовпця таблиці к₁ = п - 1, номер рядка к₂₌п-к, де к - число параметрів моделі (для двовимірної моделі до = 2 і використовується перший стовпчик таблиці). Нагадаємо, що параметр к₁ - це число ступенів волі чисельника F-статистики, к₂ - число ступенів волі знаменника F-статистики. Коефіцієнт детермінації можна перерахувати в F-статистику (критерій Фишера), у загальному випадку по формулі:

Розраховане для моделі значення F порівнюється з критичним. При F > F_Kp (чи R² > R²_кр) робиться висновок, що з імовірністю, рівної (1 - α), зв'язок істотний (статистично значимий). У противному випадку говорять, що лінійний зв'язок незначимий (чи більш загальний статистичний зв'язок не встановлений).

Задача

Побудувати економетричну модель за наведеними даними. Оцінити параметри моделі. Зробити економічні висновки. Оцінити тісноту та значимість зв’язку між змінними.

Номер підприємства	1	2	3	4	5	6	7
Випуск продукції, тис. шт.	9,33	8,31	8,25	7,50	6,90	6,15	5,66
Витрати матеріалу на од., г. од.	19,66	20,53	21,31	22,59	23,27	24,44	25,85

Рішення:

Номер підприємства	1	2	3	4	5	6	7	Σ
Випуск продукції, тис. шт. х	9,33	8,31	8,25	7,50	6,90	6,15	5,66	52,10
Витрати матеріалу на од., г. од. у	19,66	20,53	21,31	22,59	23,27	24,44	25,85	157,65
	87,0489	69,0561	68,0625	56,25	47,61	37,8225	32,0356	397,8856
	183,4278	170,6043	175,8075	169,425	160,563	150,306	146,311	1156,4446
	1,8871	0,8671	0,8071	0,0571	-0,5429	-1,2929	-1,7829	0
	-2,8614	-1,9914	-1,2114	0,0686	0,7486	1,9186	3,3286	0
	3,5611	0,7519	0,6514	0,0033	0,2947	1,6716	3,1787	10,1127
	8,1876	3,9657	1,4674	0,0047	0,5604	3,681	11,0796	28,9464
	19,3639	21,0706	21,171	22,4259	23,4298	24,6847	25,5046	157,6505
	0,2961	-0,5406	0,139	0,1641	-0,1598	-0,2447	0,3454	0
	2,7626	-4,4924	1,1468	1,2308	-1,1026	-1,5049	1,955	0
	0,0877	0,2922	0,0193	0,0269	0,0255	0,0599	0,1193	0,6308

Середні арифметичні показника і фактора: