ho - бесплатный хостинг!

Лінійний парний регресійний аналіз

Навчальні питання:
1. Функціональна,статистична та кореляційна залежності. Лінійна парна регресія. Основні припущення регресійного аналізу.
2. Властивості оцінок параметрів лінійної парної регресійної моделі.
3. Статистичні критерії перевірки значущості. Коефіцієнт детермінації.
4. Довірчі інтервали функції регресії та її параметрів.

1. Функціональна, статистична та кореляційна залежності. Лінійна парна регресія. Основи основні припущення регресійного аналізу

Моделі та методи регресійного аналізу займають центральне місто у математичному апараті економетрії. Задачею регресійного аналізу являється установлення форми залежності між змінними, оцінка функції регресіі, прогноз значень залежної змінної.

1.1. Функціональна, статистична та кореляційна залежності

У природознавчих науках часто йде мова о функціональній залежності, коли кожному значенню однієї змінної відповідає цілком певне значення іншої.

В економиці у багатьох випадках між змінними існують залежності, коли кожному значенню однієї змінної відповідає не деяке певне, а множина можливих значень іншої змінної. Іначе кажучи, кожному значенню однієї змінної відповідає певне (умовне) розподілення іншой змінної. Така залежність отримала назву статистичної (або імовірної,стохастичної).

Виникнення поняття статистичної залежності обумовлюється тим, що залежна змінна підпадає під вплив неконтролюємих або неврахованих факторів, а також тим, що вимірювання значень змінних неминуче супроводжується декотрими випадковими похибками.

В силу невизначенності статистичной залежності між X та Y для дослідження представляє інтерес усереднена по X схема залежності. Тобто закономірність у вимірюванні умовного математичного сподівання Mx(y).

Якщо залежність між двома змінними така, що кожному значенню однієї змінної відповідає певне умовне математичне сподівання іншої, то така статистична залежність називається кореляційною:

Mx(y)=F(x).

У регресійному аналізі розглядаються залежність випадкової змінної Y від однієї (або декількох) невипадкової незалежної змінної X. Така залежність може виникнути у випадку, коли при кожному значенні змінної X відповідні значення Y підпадають під вплив неконтролюємих факторів. Така залежність Y від Х (іноді її називають регресійною) також може бути представлена у вигляді модельного рівняння рівняння регресії.

Y - функція відгуку, пояснювальна, ендогенна, результативна ознака, вихідна, результативна; Х - пояснююча, екзогенна, предикторна, фактор, регресор, факторний признак.

1.2. Лінійна парна регресія

Якщо за розташуванням точок даних можна припустити наявність лінійної регресіїної моделі

Y=β01X+ε,       (1)

або

то рівняння регресії шукається у вигляді лінійного рівняння

ŷ=b0+b1х,       (2)

де ŷ - це оцінка Mx(y), b0 - оцінка β0, b1 - оцінка β1.

Згідно методу найменших квадратів (1МНК) невідомі параметри b0 та b1 обираються таким чином, щоб сума квадратів відхилень емпіричних значень yi від теоретичних значень ŷi була найменшою:

За необхідними умовами екстремуму:

Відкіля після перетворень отримаємо систему нормальних рівнянь:

де

Після розв'язання останньої системи отримуємо коефіцієнт регресії Y по Х:

.       (3)

Коефіцієнт регресії Y по X показує, наскільки одиниць у середньому змінюються змінна Y при збільшені змінної X на одну одиницю.

Формула обчислення параметру b0:

b0= .       (4)

Для оцінки щільності кореляційного зв'язку використовується коефіцієнт кореляції:

       (5)

де Sx, Sy - середньоквадратичні відхилення.

Властивості коефіцієнта кореляції:

1. Коефіцієнт кореляції приймає значення на відрізку [-1;1], тобто . Чим ближче до одиниці, тим тісніше зв'язок.

Дві кореляційні залежності наведені на рис. 1. Очевидно, що у випадку а залежність між змінними менш щільна, і коефіцієнт кореляції повинен бути менш, ніж у випадку б, так як точки кореляційного поля а подальш відстоять від лінії регресії, ніж точки поля б.


Рис. 1.

2. Якщо то кореляційний зв'язок прямий (рис. 2.а), якщо , - обернений (рис. 2.б).


Рис. 2.

3. При кореляційна залежність являється лінійною функціональною залежністю. При цьому усі значення, що спостерігаються, розташовані на прямій лінії (рис. 3).


Рис. 3.

4. При лінійна кореляційна залежність відсутня. Це означає або відсутність будь-якої залежності між змінними x та y (рис. 4.а), або належність деякої нелінійної залежності (рис. 4.б).


Рис. 4.

На практиці для оцінки ступені взаємозв'язку можна керуватись наступними емпіричними правилами:
1) - існує практично лінійна залежність;
2) - сильна ступінь лінійної залежності;
3) - належність лінійного зв'язку;
4) - лінійний зв'язок виявити не вдалося.

1.3. Основні припущення регресійного аналізу

Відмітимо основні припущення регресійного аналізу:

1. В моделі (1) похибка εi (або залежна зміна yi) є випадковою величиною, а фактор xi - невипадкова величина ().

2. Математичне сподівання похибки εi дорівнює нулю:

.

3. Дисперсія похибки εi (або залежної змінної yi) постійна для будь-якого i:

,

тобто виконується умова гомоскедастичності (рівнозміненосні похибки).

4. Похибки εi та εj не корельовані:

5. Похибка εi (або залежна змінна yi) являється нормально розподіленою випадковою величиною.

Модель (1), для якої виконуються припущення 1-5 називається класичною нормальною лінійною регрессійною моделлю (CNLR-model).

Для отримання рівняння регресії достатьньо припущень 1-4. Вимога виконання припущення 5 (тобто розглядання "нормальної регресії") необхідно для оцінки точності рівняння регресії та її параметрів.

2. Властивості оцінок параметрів лінійної парної регресії

Оцінкою моделі (1) являється рівняння регресії (2). Параметри цього рівняння визначаються за 1МНК.

Дії неврахованих випадкових факторів та похибок спостережень у моделі (1) визначається за допомогою дисперсії похибок або остаточної дисперсії ε2. Незміщеною оцінкою цієї дисперсії є вибіркова остаточна дисперсія:

.       (6)

Виникає питання, чи являються оцінки a, b, S2 параметрів α, β, δ2 "найкращими"?

3. Статистичні критерії перевірки значущості. Коефіцієнт детермінації

Перевірити значущість рівняння регресії - означає встановити, чи відповідає математична модель, що виражає залежність між змінними, експериментальним даним, чи достатньо залучених у рівняння факторів (одного або декількох) для опису залежної змінної.

Для оцінки значущості рівняння регресії (2) використовується F-тест. Для цього виконується зрівняння фактичного Fфакт та критичного (табличного) Fтабл значення F-критерію Фішера.

       (7)

Fтабл=Fα,k1,k2 - це максимально можливе значення критерію під впливом випадкових факторів при даних ступенях свободи k1=m-1 і k1=m-n і рівні значущості α, де m - кількість параметрів, що оцінюються (для ЛПР m=2, так як оцінюються параметри b0 та b1), n - кількість спостережень, α - зазвичай приймається 0,05 (в економіці) або 0,01.

Знайти Fтабл можна у таблицях F-розподілу Фішера-Снедекора або за функцією "FPACП" в MS Excel.

F-тест.

Якщо Fфакт>Fтабл, рівняння регресії статистично значуще на рівні значущості α. Якщо Fфакт<Fтабл, то признається статистична незначущість рівняння регресії.

Інакше, F-тест проводиться із зрівнянням значущості Fфакт, тобто αF, з заданим рівнем значущості α: якщо αF<α, рівняння регресії значуще на рівні значущості α; якщо αF>α, то рівняння регресії статистично незначуще.

Для оцінки значущості коефіцієнтів регресії b0, b1 використовується t-тест. Для цього зрівнюються фактичне tфакт та критичне (табличне) tтабл значення t-критерія Стьюдента. tфакт для коефіцієнтів b0, b1 визначається за наступними формулами:

.       (8)

tтабл=t1-α;n-2 - це максимально можливе значення критерію під впливом випадкових факторів при n-2 ступенях свободи і рівні значущості α. Значення tтабл міститься у таблицях t-розподілу Стьюдента або за функцією "СТЬЮДРАСПОБР" в MS Exсel.

t-тест.

Якщо tbi>t1-α;n-2, коефіцієнт bi - статистично значущий на рівні значущості α. Якщо tbi<t1-α;n-2, то признається статистична незначущість коефіцієнта bi.

Другий варіант: якщо рівень значущості t-критерія коефіцієнта bi, αbi<α коефіцієнт bi - значущий, якщо αbi>α, bi - незначущий на рівні значущості α.

Значущість коефіцієнта кореляції:

,       (9)

де - статистика Стьюдента.

Оцінка адекватності регресійної моделі. Коефіцієнт детермінації.

Оцінка адекватності регресійної моделі робиться на підставі коефіцієнта детермінації:

       (10)

Величина R2 показує, яка частка варіації залежної змінної обумовлена варіацією фактора.

Властивості коефіцієнта детермінації:

1. Для ЛПР R2=r2.

2. Коефіцієнт детермінації приймає значення на відрізку [0;1], тобто 0R21. Чим ближче R2 до одиниці, тим краще регресія апроксимує емпіричні дані.

3. Якщо R2=1, між змінними x та у існує лінійна функціональна залежність.

4. Якщо R2=0, то варіація залежної змінної повністю обумовлена впливом випадкових та неврахованих у моделі змінних.

На практиці для оцінки ступені апроксимації рівнянням регресії вихідних даних використовують наступні емпіричні правила:

1). R2>0,95 - висока точність апроксимації.

2). 0,8<R2<0,95 - задовільна апроксимація.

3). R2<0,6 - незадовільна апроксимація.

Обчислення коефіцієнта еластичності:

Коефіцієнт еластичності Е показує - наскільки відсотків (від середньої) змінюється у середньому y при зміненні тільки x на 1% та обчислюється за формулою:

.       (11)

4. Довірчі інтервали функції регресії та її параметрів

Довірчий інтервал функції регресії (прогнозу).

Прогнозне значення визначається шляхом підстановки в рівняння регресії відповідного значення фактору :

.       (12)

Довірчий інтервал прогнозу обчислюється за наступними формулами:

,       (13)

де - умовне математичне сподівання залежної змінної;
- оцінка стандартної похибки прогнозу, яка обчислюється за формулою:

       (14)

       (15)

оцінка середньоквадратичного відхилення похибок.

Зауваження. Прогноз значень залежної змінної за рівнянням регресії виправданий, якщо значення x пояснюючої змінної Х не виходить за діапазон її значень за вибіркою.

Довірчі інтервали для коефіцієнтів регресійної моделі.

Формули для обчислення довірчих інтервалів для коефіцієнтів мають наступний вигляд:

       (16)

       (17)