20.09.2019

Tenglama parametrlari uchun eng kichik kvadratlar usulining tavsifi. Eng kichik kvadratlar usuli yordamida prognozni ishlab chiqish. Muammoni hal qilish misoli. MMKlarning ayrim ilovalari


Hizalangandan so'ng biz quyidagi ko'rinishdagi funktsiyani olamiz: g (x) = x + 1 3 + 1 .

Tegishli parametrlarni hisoblash orqali biz bu ma'lumotlarni y = a x + b chiziqli munosabat bilan taxmin qilishimiz mumkin. Buning uchun biz eng kichik kvadratlar deb ataladigan usulni qo'llashimiz kerak. Qaysi chiziq eksperimental ma'lumotlarni to'g'ri tekislashini tekshirish uchun siz ham chizma qilishingiz kerak bo'ladi.

Yandex.RTB R-A-339285-1

OLS (eng kichik kvadratlar usuli) aniq nima?

Biz qilishimiz kerak bo'lgan asosiy narsa, ikkita o'zgaruvchining F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 funktsiyasining qiymati eng kichik bo'ladigan shunday chiziqli bog'liqlik koeffitsientlarini topishdir. . Boshqacha qilib aytganda, a va b ning ma'lum qiymatlari uchun olingan to'g'ri chiziqdan taqdim etilgan ma'lumotlarning kvadratik og'ishlarining yig'indisi minimal qiymatga ega bo'ladi. Bu eng kichik kvadratlar usulining ma'nosidir. Misolni yechish uchun ikkita o‘zgaruvchi funksiyasining ekstremumini topishimiz kifoya.

Koeffitsientlarni hisoblash uchun formulalar qanday olinadi

Koeffitsientlarni hisoblash formulalarini olish uchun ikkita o'zgaruvchili tenglamalar tizimini tuzish va yechish kerak. Buning uchun F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 ifodaning a va b ga nisbatan qisman hosilalarini hisoblab, 0 ga tenglashtiramiz.

d F (a , b) d a = 0 d F (a , b) d b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑n i = ∑ i = y ∑ i = y 1 n ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

Tenglamalar tizimini yechish uchun har qanday usullardan, masalan, almashtirish yoki Kramer usulidan foydalanish mumkin. Natijada, biz eng kichik kvadratlar usuli yordamida koeffitsientlarni hisoblaydigan formulalarni olishimiz kerak.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 a n y i - ∑ i = 1 n y i - i

Biz funktsiya bajariladigan o'zgaruvchilarning qiymatlarini hisoblab chiqdik
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 minimal qiymatni oladi. Uchinchi xatboshida biz nima uchun bunday ekanligini isbotlaymiz.

Bu eng kichik kvadratlar usulini amalda qo'llashdir. Uning a parametrini topishda qo‘llaniladigan formulasi ∑ i = 1 n x i, ∑ i = 1 n y i, ∑ i = 1 n x i y i, ∑ i = 1 n x i 2 va parametrni o‘z ichiga oladi.
n - eksperimental ma'lumotlarning miqdorini bildiradi. Sizga har bir miqdorni alohida hisoblashingizni maslahat beramiz. Koeffitsient qiymati b darhol a dan keyin hisoblanadi.

Keling, asl misolga qaytaylik.

1-misol

Bu erda bizda n beshga teng. Koeffitsient formulalariga kiritilgan kerakli miqdorlarni hisoblashni qulayroq qilish uchun biz jadvalni to'ldiramiz.

i = 1 i = 2 i = 3 i = 4 i = 5 ∑ i = 1 5
x i 0 1 2 4 5 12
y i 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Yechim

To'rtinchi qatorda ikkinchi qatordagi qiymatlarni har bir i uchun uchinchisining qiymatlariga ko'paytirish orqali olingan ma'lumotlar mavjud. Beshinchi qator ikkinchi kvadratdan olingan ma'lumotlarni o'z ichiga oladi. Oxirgi ustun alohida satrlar qiymatlarining yig'indisini ko'rsatadi.

Bizga kerakli a va b koeffitsientlarni hisoblash uchun eng kichik kvadratlar usulidan foydalanamiz. Buning uchun oxirgi ustundagi kerakli qiymatlarni almashtiring va summalarni hisoblang:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i i - ∑ i = 1 n ∑ i =∑ i = ∑ y i =∑3, - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Biz kerakli yaqinlashuvchi to'g'ri chiziq y = 0, 165 x + 2, 184 kabi ko'rinishini oldik. Endi biz qaysi chiziq ma'lumotlarga eng yaxshi yaqinlashishini aniqlashimiz kerak - g (x) = x + 1 3 + 1 yoki 0 , 165 x + 2 , 184 . Keling, eng kichik kvadratlar usuli yordamida taxmin qilaylik.

Xatoni hisoblash uchun s 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 va s 2 = ∑ i = 1 n (y i -) chiziqlaridagi ma'lumotlarning kvadratik og'ishlari yig'indilarini topishimiz kerak. g (x i)) 2, minimal qiymat ko'proq mos keladigan chiziqqa mos keladi.

s 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 s 2 = ∑ 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0 , 096

Javob: s 1 dan boshlab< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0, 165 x + 2, 184.

Eng kichik kvadratlar usuli grafik rasmda aniq ko'rsatilgan. Qizil chiziq g (x) = x + 1 3 + 1 to'g'ri chiziqni, ko'k chiziq y = 0, 165 x + 2, 184 ni belgilaydi. Xom ma'lumotlar pushti nuqta bilan belgilangan.

Keling, nima uchun aynan shu turdagi taxminlar kerakligini tushuntirib beraylik.

Ular ma'lumotlarni tekislashni talab qiladigan muammolarda, shuningdek, ma'lumotlarni interpolyatsiya qilish yoki ekstrapolyatsiya qilish kerak bo'lgan muammolarda qo'llanilishi mumkin. Masalan, yuqorida muhokama qilingan masalada x = 3 yoki x = 6 da kuzatilgan y kattalikning qiymatini topish mumkin. Bunday misollarga alohida maqola bag'ishladik.

LSM usulining isboti

Funktsiya hisoblangan a va b uchun minimal qiymatni olishi uchun ma'lum bir nuqtada F (a, b) ko'rinishdagi funktsiya differentsialining kvadratik shakli matritsasi = ∑ i = 1 n ( y i - (a x i + b)) 2 musbat aniqlovchi bo‘lsin. Keling, sizga qanday ko'rinishi kerakligini ko'rsatamiz.

2-misol

Bizda quyidagi shakldagi ikkinchi darajali differentsial mavjud:

d 2 F (a ; b) = d 2 F (a ; b) d a 2 d 2 a + 2 d 2 F (a ; b) d a d b d a d b + d 2 F (a ; b) d b 2 d 2b

Yechim

d 2 F (a ; b) d a 2 = d d F (a ; b) d a d a = = d - 2 ∑ i = 1 n (y i - (a x i + b)) x i d a = 2 ∑ i = 1 n (x i) 2 d 2 F (a ; b) d a d b = d d F (a ; b) d a d b = = d - 2 ∑ i = 1 n (y i - (a x i + b) ) x i d b = 2 ∑ i = 1 n x i d 2 F (a ; b) d b 2 = d d F (a ; b) d b d b = d - 2 ∑ i = 1 n (y i - (a x i +) b)) d b = 2 ∑ i = 1 n (1) = 2 n

Boshqacha qilib aytganda, uni quyidagicha yozish mumkin: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n kvadrat shakldagi matritsani oldik.

Bunday holda, alohida elementlarning qiymatlari a va b ga qarab o'zgarmaydi. Bu matritsa ijobiy aniqmi? Bu savolga javob berish uchun keling, uning burchakli kichiklari ijobiy yoki yo'qligini tekshiramiz.

Birinchi tartibli burchakli minorni hisoblang: 2 ∑ i = 1 n (x i) 2 > 0 . X i nuqtalari bir-biriga to'g'ri kelmagani uchun tengsizlik qat'iydir. Keyingi hisob-kitoblarda buni yodda tutamiz.

Ikkinchi tartibli burchakli minorni hisoblaymiz:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ x i = 12

Shundan so'ng n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 tengsizlikni matematik induksiya yordamida isbotlashga o'tamiz.

  1. Keling, bu tengsizlik ixtiyoriy n uchun haqiqiy yoki yo'qligini tekshiramiz. Keling, 2 ni olamiz va hisoblaymiz:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Biz to'g'ri tenglikni oldik (agar x 1 va x 2 qiymatlari mos kelmasa).

  1. Keling, bu tengsizlik n uchun to'g'ri bo'ladi, deb taxmin qilaylik, ya'ni. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – rost.
  2. Endi n + 1 uchun to'g'riligini isbotlaymiz, ya'ni. bu (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0, agar n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 bo'lsa.

Biz hisoblaymiz:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 +2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = +1 n xi = +1 n xi n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1) - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

Jingalak qavslar ichiga olingan ifoda 0 dan katta bo'ladi (biz 2-bosqichda taxmin qilganimiz asosida) va qolgan shartlar 0 dan katta bo'ladi, chunki ularning barchasi raqamlar kvadratidir. Biz tengsizlikni isbotladik.

Javob: topilgan a va b funksiyaning eng kichik qiymatiga mos keladi F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, demak ular eng kichik kvadratlar usulining kerakli parametrlaridir. (LSM).

Agar siz matnda xatolikni sezsangiz, uni belgilang va Ctrl+Enter tugmalarini bosing

Eng kichik kvadrat usuli regressiya tenglamasining parametrlarini baholash uchun ishlatiladi.
Chiziqlar soni (dastlabki ma'lumotlar)

Xususiyatlar orasidagi stoxastik munosabatlarni o'rganish usullaridan biri regressiya tahlilidir.
Regressiya tahlili - regressiya tenglamasining hosilasi bo'lib, agar boshqa (yoki boshqa) o'zgaruvchilarning (xususiyat-omillar) qiymati ma'lum bo'lsa, tasodifiy o'zgaruvchining (xususiyat-natija) o'rtacha qiymatini topish uchun foydalaniladi. U quyidagi bosqichlarni o'z ichiga oladi:

  1. ulanish shaklini tanlash (analitik regressiya tenglamasining turi);
  2. tenglama parametrlarini baholash;
  3. analitik regressiya tenglamasining sifatini baholash.
Ko'pincha, chiziqli shakl xususiyatlarning statistik munosabatlarini tavsiflash uchun ishlatiladi. Chiziqli munosabatlarga e'tibor uning parametrlarining aniq iqtisodiy talqini bilan izohlanadi, o'zgaruvchilarning o'zgarishi bilan chegaralanadi va ko'p hollarda munosabatlarning nochiziqli shakllari (logarifmlarni olish yoki o'zgaruvchilarni o'zgartirish orqali) chiziqli munosabatlarga aylantiriladi. hisob-kitoblarni amalga oshirish uchun shakl.
Chiziqli juft munosabatda regressiya tenglamasi quyidagi ko rinishda bo ladi: y i =a+b·x i +u i . Bu tenglamaning parametrlari a va b statistik kuzatish ma'lumotlari bo'yicha baholanadi x va y . Bunday baholash natijasi tenglama bo'ladi: , bu erda , - a va b parametrlarining baholari , - regressiya tenglamasi (hisoblangan qiymat) bilan olingan samarali xususiyat (o'zgaruvchi) qiymati.

Parametrlarni baholash uchun eng ko'p ishlatiladigan Eng kichik kvadratlar usuli (LSM).
Eng kichik kvadratlar usuli regressiya tenglamasi parametrlarining eng yaxshi (barqaror, samarali va xolis) baholarini beradi. Biroq, faqat tasodifiy atama (u) va mustaqil o'zgaruvchi (x) haqida ma'lum taxminlar bajarilsa (OLS taxminlariga qarang).

Chiziqli juftlik tenglama parametrlarini eng kichik kvadratlar usulida baholash masalasi quyidagilardan iborat: parametrlarning bunday baholarini olish uchun , , bunda samarali xususiyatning haqiqiy qiymatlarining kvadratik og'ishlarining yig'indisi - y i hisoblangan qiymatlardan minimal bo'ladi.
Rasmiy ravishda OLS mezoni shunday yozilishi mumkin: .

Eng kichik kvadratlar usullarini tasniflash

  1. Eng kichik kvadrat usuli.
  2. Maksimal ehtimollik usuli (oddiy klassik chiziqli regressiya modeli uchun regressiya qoldiqlarining normalligi taxmin qilingan).
  3. GLSM ning umumlashtirilgan eng kichik kvadratlar usuli xato avtokorrelyatsiyasi va heteroskedastiklik holatlarida qo'llaniladi.
  4. Og'irlangan eng kichik kvadratlar usuli (heteroskedastik qoldiqlar bilan GLSM ning maxsus holati).

Mohiyatni tasvirlab bering Grafik eng kichik kvadratlarning klassik usuli. Buning uchun kuzatuv ma’lumotlariga (x i , y i , i=1;n) ko‘ra to‘g‘ri burchakli koordinatalar sistemasida (bunday nuqtali chizma korrelyatsiya maydoni deb ataladi) nuqta chizmasini quramiz. Keling, korrelyatsiya maydonining nuqtalariga eng yaqin bo'lgan to'g'ri chiziqni topishga harakat qilaylik. Eng kichik kvadratlar usuliga ko'ra, chiziq korrelyatsiya maydonining nuqtalari va bu chiziq orasidagi kvadrat vertikal masofalar yig'indisi minimal bo'lishi uchun tanlanadi.

Ushbu muammoning matematik belgilari: .
y i va x i =1...n qiymatlari bizga ma’lum, bular kuzatish ma’lumotlari. S funksiyada ular doimiydir. Ushbu funktsiyadagi o'zgaruvchilar parametrlarning kerakli baholari - , . 2 ta o'zgaruvchidan iborat funktsiyaning minimalini topish uchun ushbu funktsiyaning har bir parametrga nisbatan qisman hosilalarini hisoblash va ularni nolga tenglashtirish kerak, ya'ni. .
Natijada biz 2 ta normal chiziqli tenglamalar tizimini olamiz:
Ushbu tizimni yechish orqali biz kerakli parametr baholarini topamiz:

Regressiya tenglamasining parametrlarini hisoblashning to'g'riligini yig'indilarni solishtirish orqali tekshirish mumkin (hisob-kitoblarni yaxlitlash tufayli ba'zi nomuvofiqliklar mumkin).
Parametrlarni hisoblash uchun siz 1-jadvalni tuzishingiz mumkin.
Regressiya koeffitsienti b belgisi munosabatlarning yo'nalishini ko'rsatadi (agar b > 0 bo'lsa, bog'liqlik to'g'ridan-to'g'ri, agar b bo'lsa<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Rasmiy ravishda, a parametrining qiymati nolga teng bo'lgan x uchun y ning o'rtacha qiymati. Agar belgi-omil nol qiymatga ega bo'lmasa va bo'lolmasa, u holda a parametrining yuqoridagi talqini mantiqiy emas.

Xususiyatlar o'rtasidagi munosabatlarning mustahkamligini baholash chiziqli juft korrelyatsiya koeffitsienti yordamida amalga oshiriladi - r x,y . Uni quyidagi formula yordamida hisoblash mumkin: . Bundan tashqari, chiziqli juft korrelyatsiya koeffitsienti b regressiya koeffitsienti orqali aniqlanishi mumkin: .
Juftlik korrelyatsiyasining chiziqli koeffitsientining ruxsat etilgan qiymatlari diapazoni -1 dan +1 gacha. Korrelyatsiya koeffitsientining belgisi munosabatlarning yo'nalishini ko'rsatadi. Agar r x, y >0 bo'lsa, u holda ulanish to'g'ridan-to'g'ri bo'ladi; agar r x, y bo'lsa<0, то связь обратная.
Agar ushbu koeffitsient modul bo'yicha birlikka yaqin bo'lsa, u holda xususiyatlar o'rtasidagi munosabatlar juda yaqin chiziqli deb talqin qilinishi mumkin. Agar uning moduli bitta ê r x, y ê =1 ga teng bo'lsa, u holda xususiyatlar orasidagi bog'lanish funksional chiziqli bo'ladi. Agar x va y xususiyatlar chiziqli mustaqil bo'lsa, u holda r x,y 0 ga yaqin.
r x,y ni hisoblash uchun 1-jadvaldan ham foydalanish mumkin.

1-jadval

N kuzatishx iy ix i ∙ y i
1 x 1y 1x 1 y 1
2 x 2y2x 2 y 2
...
nx ny nx n y n
Ustun summasi∑x∑y∑x y
O'rtacha qiymati
Olingan regressiya tenglamasining sifatini baholash uchun nazariy aniqlash koeffitsienti hisoblanadi - R 2 yx:

,
bu yerda d 2 - regressiya tenglamasi bilan izohlangan y dispersiya;
e 2 - qoldiq (regressiya tenglamasi bilan izohlanmagan) dispersiya y ;
s 2 y - umumiy (jami) dispersiya y.
Determinatsiya koeffitsienti regressiya (demak, x omil) bilan izohlanadigan natijaviy y xususiyatning oʻzgaruvchanlik (dispersiya) y umumiy oʻzgarishidagi (dispersiya) ulushini tavsiflaydi. Aniqlash koeffitsienti R 2 yx 0 dan 1 gacha bo'lgan qiymatlarni oladi. Shunga ko'ra, 1-R 2 yx qiymati model va spetsifikatsiya xatolarida hisobga olinmagan boshqa omillar ta'siridan kelib chiqqan y dispersiya nisbatini tavsiflaydi.
Juftlangan chiziqli regressiya bilan R 2 yx =r 2 yx .

Eng kichik kvadratlar usuli (OLS, inglizcha. Ordinary Least Squares, OLS)- istalgan o'zgaruvchilardan ba'zi funktsiyalarning kvadratik og'ishlari yig'indisini minimallashtirishga asoslangan turli muammolarni hal qilish uchun ishlatiladigan matematik usul. U haddan tashqari aniqlangan tenglamalar tizimini "yechish" uchun (tenglamalar soni noma'lumlar sonidan oshib ketganda), oddiy (ortiqcha aniqlanmagan) chiziqli bo'lmagan tenglamalar tizimlarida yechim topish, nuqta qiymatlarini yaqinlashtirish uchun ishlatilishi mumkin. ma'lum bir funktsiyaga ega. OLS - namunaviy ma'lumotlardan regressiya modellarining noma'lum parametrlarini baholash uchun regressiya tahlilining asosiy usullaridan biri.

Entsiklopedik YouTube

    1 / 5

    ✪ Eng kichik kvadratlar usuli. Mavzu

    ✪ Eng kichik kvadratlar, 1/2-dars. Chiziqli funksiya

    ✪ Ekonometrika. Ma’ruza 5. Eng kichik kvadratlar usuli

    ✪ Mitin I. V. - Jismoniy natijalarni qayta ishlash. tajriba - Eng kichik kvadratlar usuli (4-ma'ruza)

    ✪ Ekonometrika: №2 eng kichik kvadratlar usulining mohiyati

    Subtitrlar

Hikoya

XIX asr boshlarigacha. olimlar noma'lumlar soni tenglamalar sonidan kam bo'lgan tenglamalar tizimini echish uchun ma'lum qoidalarga ega emas edilar; Shu vaqtgacha, tenglamalar turiga va kalkulyatorlarning zukkoligiga qarab alohida usullar qo'llanilgan va shuning uchun bir xil kuzatish ma'lumotlaridan boshlab turli xil kalkulyatorlar turli xil xulosalarga kelishgan. Usulning birinchi qo'llanilishi Gauss (1795) hisoblanadi va Legendre (1805) uni mustaqil ravishda kashf etdi va zamonaviy nomi bilan nashr etdi (fr. Metode des moindres janjal). Laplas usulni ehtimollar nazariyasi bilan bog'ladi va amerikalik matematik Adrain (1808) uning ehtimollik qo'llanilishini ko'rib chiqdi. Usul Encke, Bessel, Hansen va boshqalarning keyingi tadqiqotlari natijasida keng tarqalgan va takomillashtirilgan.

Eng kichik kvadratlar usulining mohiyati

Mayli x (\displaystyle x)- to'plam n (\displaystyle n) noma'lum o'zgaruvchilar (parametrlar), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- bu o'zgaruvchilar to'plamidan funktsiyalar to'plami. Muammo shundaki, bunday qiymatlarni tanlash x (\displaystyle x) bu funksiyalarning qiymatlari ba'zi qiymatlarga imkon qadar yaqin bo'lishi uchun y i (\displaystyle y_(i)). Aslida, biz haddan tashqari aniqlangan tenglamalar tizimining "yechimi" haqida gapiramiz f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) ko'rsatilgan ma'noda tizimning chap va o'ng qismlarining maksimal yaqinligi. LSM ning mohiyati "yaqinlik o'lchovi" sifatida chap va o'ng qismlarning kvadratik og'ishlarining yig'indisini tanlashdir. | f i (x) - y i | (\displaystyle |f_(i)(x)-y_(i)|). Shunday qilib, LSMning mohiyatini quyidagicha ifodalash mumkin:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_() i)(x))^(2)\o‘ng strelka \min _(x)).

Agar tenglamalar tizimi yechimga ega bo'lsa, kvadratlar yig'indisining minimali nolga teng bo'ladi va tenglamalar tizimining aniq echimlarini analitik yoki, masalan, turli xil raqamli optimallashtirish usullari bilan topish mumkin. Agar tizim haddan tashqari aniqlangan bo'lsa, ya'ni ochiq aytganda, mustaqil tenglamalar soni noma'lum o'zgaruvchilar sonidan ko'p bo'lsa, unda tizim aniq echimga ega emas va eng kichik kvadratlar usuli bizga qandaydir "optimal" vektorni topishga imkon beradi. x (\displaystyle x) vektorlarning maksimal yaqinligi ma'nosida y (\displaystyle y) va f (x) (\displaystyle f(x)) yoki og'ish vektorining maksimal yaqinligi e (\displaystyle e) nolga (yaqinlik Yevklid masofasi ma’nosida tushuniladi).

Misol - chiziqli tenglamalar tizimi

Xususan, chiziqli tenglamalar tizimini “yechish” uchun eng kichik kvadratlar usulidan foydalanish mumkin

A x = b (\displaystyle Ax=b),

qayerda A (\displaystyle A) to'rtburchak o'lchamdagi matritsa m × n , m > n (\displaystyle m\times n,m>n)(ya'ni, A matritsasining qatorlari soni talab qilinadigan o'zgaruvchilar sonidan kattaroqdir).

Bunday tenglamalar tizimi odatda yechimga ega emas. Shuning uchun bu tizimni faqat shunday vektorni tanlash ma'nosida "hal qilish" mumkin x (\displaystyle x) vektorlar orasidagi "masofa" ni minimallashtirish A x (\displaystyle Axe) va b (\displaystyle b). Buning uchun siz tizim tenglamalarining chap va o'ng qismlarining kvadratik farqlari yig'indisini minimallashtirish mezonini qo'llashingiz mumkin, ya'ni (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\o‘ng strelka \min ). Ushbu minimallashtirish masalasini yechish quyidagi tenglamalar tizimini echishga olib kelishini ko'rsatish oson

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\O‘ng strelka x=(A^(T)A)^(-1)A^ (T)b).

Regressiya tahlilida OLS (ma'lumotlarning yaqinlashuvi)

Bo'lsin n (\displaystyle n) ba'zi o'zgaruvchilarning qiymatlari y (\displaystyle y)(bu kuzatishlar, tajribalar va boshqalar natijalari bo'lishi mumkin) va tegishli o'zgaruvchilar x (\displaystyle x). Muammo o'rtasidagi munosabatlarni o'rnatishdir y (\displaystyle y) va x (\displaystyle x) ba'zi noma'lum parametrlarga qadar ma'lum bo'lgan ba'zi funksiyalar bo'yicha taxminan b (\displaystyle b), ya'ni aslida parametrlarning eng yaxshi qiymatlarini toping b (\displaystyle b), qiymatlarni maksimal darajada yaqinlashtirish f (x , b) (\displaystyle f(x,b)) haqiqiy qadriyatlarga y (\displaystyle y). Aslida, bu haddan tashqari aniqlangan tenglamalar tizimini "yechish" holatiga qisqartiradi b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

Regressiya tahlilida, xususan, ekonometrikada o'zgaruvchilar o'rtasidagi munosabatlarning ehtimollik modellari qo'llaniladi.

Y t = f (x t , b) + e t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

qayerda e t (\displaystyle \varepsilon _(t))- shunday deyiladi tasodifiy xatolar modellar.

Shunga ko'ra, kuzatilgan qiymatlarning og'ishlari y (\displaystyle y) modelidan f (x , b) (\displaystyle f(x,b)) allaqachon modelning o'zida taxmin qilingan. LSM (oddiy, klassik) ning mohiyati shunday parametrlarni topishdir b (\displaystyle b), bunda kvadratik og'ishlar yig'indisi (xatolar, regressiya modellari uchun ular ko'pincha regressiya qoldiqlari deb ataladi) e t (\displaystyle e_(t)) minimal bo'ladi:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\shapka (b))_(OLS)=\arg \min _(b)RSS(b)),

qayerda R S S (\displaystyle RSS)- Ingliz. Kvadratlarning qoldiq yig'indisi quyidagicha aniqlanadi:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\sum _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

Umumiy holda, bu muammoni optimallashtirishning raqamli usullari (minimalizatsiya) bilan hal qilish mumkin. Bunday holda, kimdir gapiradi chiziqli bo'lmagan eng kichik kvadratlar(NLS yoki NLLS - o'z. Non-Linear Least Squares). Ko'p hollarda analitik yechimni olish mumkin. Minimallashtirish masalasini hal qilish uchun funksiyaning statsionar nuqtalarini topish kerak R S S (b) (\displaystyle RSS(b)), uni noma'lum parametrlarga nisbatan farqlash b (\displaystyle b), hosilalarni nolga tenglash va natijada olingan tenglamalar tizimini yechish:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_) (t),b))(\frac (\qisman f(x_(t),b))(\qisman b))=0).

Lineer regressiya holatida LSM

Regressiyaga bog'liqlik chiziqli bo'lsin:

y t = ∑ j = 1 k b j x t j + e = x t T b + e t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Mayli y- izohlanayotgan o'zgaruvchining kuzatishlar ustun vektori va X (\displaystyle X)- bu (n × k) (\displaystyle ((n\times k)))- omillarni kuzatish matritsasi (matritsa qatorlari - ushbu kuzatishdagi omillar qiymatlari vektorlari, ustunlar bo'yicha - barcha kuzatishlarda ushbu omil qiymatlari vektori). Chiziqli modelning matritsali ko'rinishi quyidagi ko'rinishga ega:

y = Xb + e (\displaystyle y=Xb+\varepsilon ).

Keyin tushuntirilgan o'zgaruvchini baholash vektori va regressiya qoldiqlari vektori teng bo'ladi.

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\shapka (y))=Xb,\quad e=y-(\shapka (y))=y-Xb).

shunga ko'ra, regressiya qoldiqlari kvadratlari yig'indisi teng bo'ladi

R S S = e T e = (y - X b) T (y - X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Ushbu funktsiyani parametr vektoriga nisbatan farqlash b (\displaystyle b) va hosilalarni nolga tenglashtirib, biz tenglamalar tizimini olamiz (matritsa shaklida):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

Shifrlangan matritsa shaklida ushbu tenglamalar tizimi quyidagicha ko'rinadi:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 2 ∑ x t 2 x t 3 k … ∑ x t 2 x t 3 … ∑ x t … S X t 3 x t z a dìn ni ā n t a g tonna ʿ a burcha № 1 s) (m 1 y 1 y t Sn t a ʿ a n t a ts), (\ displeystle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ sum x_(t2)x_(tk) \\\sum x_(t3)x_(t1)&\sum x_(t3)x_(t2)&\sum x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_( k)\\\end(pmatrix))=(\boshlash(pmatritsa)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t) )\\\vdots \\\ summa x_(tk)y_(t)\\\end(pmatrix))) bu erda barcha summalar barcha ruxsat etilgan qiymatlar ustidan olinadi t (\displaystyle t).

Agar konstanta modelga kiritilgan bo'lsa (odatdagidek), u holda x t 1 = 1 (\displaystyle x_(t1)=1) Barcha uchun t (\displaystyle t), shuning uchun tenglamalar sistemasi matritsasining yuqori chap burchagida kuzatishlar soni joylashgan. n (\displaystyle n), va birinchi qator va birinchi ustunning qolgan elementlarida - faqat o'zgaruvchilar qiymatlarining yig'indisi: ∑ x t j (\displaystyle \sum x_(tj)) va tizimning o'ng tomonining birinchi elementi - ∑ y t (\displaystyle \sum y_(t)).

Ushbu tenglamalar tizimining yechimi chiziqli model uchun eng kichik kvadratlarni baholash uchun umumiy formulani beradi:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\shapka (b))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\o'ng)^(-1)(\frac (1)(n) ))X^(T)y=V_(x)^(-1)C_(xy)).

Analitik maqsadlar uchun ushbu formulaning oxirgi ko'rinishi foydali bo'lib chiqadi (tenglamalar tizimida n ga bo'linganda yig'indi o'rniga arifmetik vositalar paydo bo'ladi). Agar regressiya modelidagi ma'lumotlar markazlashtirilgan, u holda bu tasvirda birinchi matritsa omillarning tanlanma kovariatsiya matritsasi ma'nosiga ega, ikkinchisi esa bog'liq o'zgaruvchiga ega bo'lgan omillarning kovarianslari vektoridir. Agar, qo'shimcha ravishda, ma'lumotlar ham bo'lsa normallashtirilgan SKOda (ya'ni, oxir-oqibat standartlashtirilgan), keyin birinchi matritsa omillarning tanlanma korrelyatsiya matritsasi ma'nosiga ega bo'ladi, ikkinchi vektor - bog'liq o'zgaruvchi bilan omillarning tanlama korrelyatsiya vektori.

Modellar uchun LLS taxminlarining muhim xususiyati doimiy bilan- tuzilgan regressiya chizig'i namunaviy ma'lumotlarning og'irlik markazidan o'tadi, ya'ni tenglik bajariladi:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\shapka (b_(1))))+\sum _(j=2)^(k) (\shapka (b))_(j)(\bar (x))_(j)).

Xususan, ekstremal holatda, yagona regressor doimiy bo'lsa, biz bitta parametrning OLS bahosi (konstantaning o'zi) tushuntirilayotgan o'zgaruvchining o'rtacha qiymatiga teng ekanligini aniqlaymiz. Ya'ni, katta sonlar qonunlaridan o'zining yaxshi xossalari bilan ma'lum bo'lgan o'rtacha arifmetik qiymat ham eng kichik kvadratlar bahosidir - u undan eng kam kvadratik chetlanishlar yig'indisi mezonini qondiradi.

Eng oddiy maxsus holatlar

Juft chiziqli regressiya holatida y t = a + b x t + e t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), bir o'zgaruvchining boshqasiga chiziqli bog'liqligi taxmin qilinganda, hisoblash formulalari soddalashtiriladi (siz matritsa algebrasisiz ham qilishingiz mumkin). Tenglamalar tizimi quyidagi shaklga ega:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar) (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar(y))\\ (\overline(xy))\\\end(pmatrix))).

Bu erdan koeffitsientlar uchun taxminlarni topish oson:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(holatlar)) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline) (xy))-(\bar (x))(\bar (y))))((\overline (x^(2))))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(holatlar)))

Umuman olganda, doimiy bo'lgan modellar afzal bo'lishiga qaramay, ba'zi hollarda nazariy mulohazalardan ma'lumki, doimiy a (\displaystyle a) nolga teng bo'lishi kerak. Masalan, fizikada kuchlanish va oqim o'rtasidagi munosabatlar shaklga ega U = I ⋅ R (\displaystyle U=I\cdot R); kuchlanish va oqimni o'lchash, qarshilikni baholash kerak. Bunday holda, biz model haqida gapiramiz y = b x (\displaystyle y=bx). Bunday holda, tenglamalar tizimi o'rniga bizda bitta tenglama mavjud

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Shuning uchun bitta koeffitsientni baholash formulasi shaklga ega

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\shapka (b))=(\frac (\sum _(t=1)^(n)x_(t) )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Polinom modelining holati

Agar ma'lumotlar bitta o'zgaruvchining polinom regressiya funktsiyasi bilan jihozlangan bo'lsa f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \chegaralar _(i=1)^(k)b_(i)x^(i)), keyin, idrok darajalar x i (\displaystyle x^(i)) har biri uchun mustaqil omillar sifatida i (\displaystyle i) chiziqli model parametrlarini baholashning umumiy formulasi asosida modelning parametrlarini baholash mumkin. Buning uchun umumiy formulada bunday talqin bilan hisobga olish kifoya x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) va x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Shunday qilib, bu holda matritsa tenglamalari quyidagi shaklni oladi:

(n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x t 2 ... ∑ n x t k + 1 ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t k + 1 ... ∑ b [∑t = b [∑t ] b [∑t 2] ∑ n x t y t ⋮ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ summa \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatritsa))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatritsa)).

OLS smetalarining statistik xususiyatlari

Avvalo shuni ta'kidlaymizki, chiziqli modellar uchun eng kichik kvadratlar bahosi yuqoridagi formuladan kelib chiqqan holda chiziqli taxminlardir. Noto'g'ri OLS baholari uchun regressiya tahlilining eng muhim shartini bajarish zarur va etarli: omillarga bog'liq holda, tasodifiy xatoning matematik kutilishi nolga teng bo'lishi kerak. Bu shart qondiriladi, xususan, agar

  1. tasodifiy xatolarning matematik kutish nolga teng, va
  2. omillar va tasodifiy xatolar mustaqil tasodifiy qiymatlardir.

Ikkinchi shart - ekzogen omillarning holati - asosiy hisoblanadi. Agar bu xususiyat qoniqtirmasa, deyarli har qanday hisob-kitoblar juda qoniqarsiz bo'ladi deb taxmin qilishimiz mumkin: ular hatto izchil bo'lmaydi (ya'ni, hatto juda katta miqdordagi ma'lumotlar ham bu holatda sifatli baho olishga imkon bermaydi). Klassik holatda, tasodifiy xatodan farqli o'laroq, omillarning determinizmi haqida kuchliroq taxmin qilinadi, bu avtomatik ravishda ekzogen shartning qondirilishini anglatadi. Umumiy holda, hisob-kitoblarning izchilligi uchun matritsaning yaqinlashuvi bilan birga ekzogenlik shartini qondirish kifoya. V x (\displaystyle V_(x)) ba'zi bir degenerativ bo'lmagan matritsaga, chunki namuna hajmi cheksizgacha oshadi.

Barqarorlik va xolislikka qo'shimcha ravishda (odatiy) LSM baholari ham samarali bo'lishi uchun (chiziqli xolis baholar sinfidagi eng yaxshisi) tasodifiy xatoning qo'shimcha xususiyatlari qondirilishi kerak:

Ushbu taxminlar tasodifiy xatolar vektorining kovariant matritsasi uchun shakllantirilishi mumkin. V (e) = s 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Ushbu shartlarni qondiradigan chiziqli model deyiladi klassik. Klassik chiziqli regressiya uchun eng kichik kvadratlar baholovchilari xolis, izchil va barcha chiziqli xolis baholovchilar sinfidagi eng samarali baholovchilardir (qisqartma). ko'k (Eng yaxshi chiziqli xolis baholovchi) eng yaxshi chiziqli xolis bahodir; mahalliy adabiyotda Gauss - Markov teoremasi ko'proq keltiriladi). Ko'rsatish oson bo'lganidek, koeffitsientlarni baholash vektorining kovariatsiya matritsasi quyidagilarga teng bo'ladi:

V (b ^ O L S) = s 2 (X T X) - 1 (\displaystyle V((\shapka (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1) )).

Samaradorlik shuni anglatadiki, ushbu kovariatsiya matritsasi "minimal" (koeffitsientlarning har qanday chiziqli birikmasi, xususan, koeffitsientlarning o'zlari minimal dispersiyaga ega), ya'ni chiziqli xolis baholar sinfida OLS baholari eng yaxshisidir. Ushbu matritsaning diagonal elementlari - koeffitsientlar baholarining dispersiyalari - olingan baholar sifatining muhim parametrlari hisoblanadi. Biroq, kovariatsiya matritsasi hisoblab bo'lmaydi, chunki tasodifiy xato dispersiyasi noma'lum. Tasodifiy xatolar dispersiyasining xolis va izchil (klassik chiziqli model uchun) bahosi quyidagi qiymat ekanligini isbotlash mumkin:

S 2 = R S S / (n - k) (\displaystyle s^(2)=RSS/(n-k)).

Ushbu qiymatni kovariatsiya matritsasi formulasiga almashtirib, biz kovariatsiya matritsasining taxminiy qiymatini olamiz. Olingan hisob-kitoblar ham xolis va izchil. Xato dispersiyasini (demak, koeffitsientlarning dispersiyalarini) baholash va model parametrlarini baholash mustaqil tasodifiy o'zgaruvchilar bo'lishi ham muhimdir, bu esa model koeffitsientlari haqidagi gipotezalarni tekshirish uchun test statistikasini olish imkonini beradi.

Shuni ta'kidlash kerakki, agar klassik taxminlar bajarilmasa, eng kichik kvadratlar parametrlarini baholash eng samarali emas va bu erda W (\displaystyle W) ba'zi bir simmetrik musbat aniq og'irlik matritsasi. Oddiy eng kichik kvadratlar bu yondashuvning alohida holati bo'lib, og'irlik matritsasi identifikatsiya matritsasiga mutanosib bo'lganda. Ma'lumki, simmetrik matritsalar (yoki operatorlar) uchun parchalanish mavjud W = P T P (\displaystyle W=P^(T)P). Shuning uchun bu funktsiyani quyidagicha ifodalash mumkin e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), ya'ni bu funksionalni ba'zi o'zgartirilgan "qoldiqlar" kvadratlari yig'indisi sifatida ifodalash mumkin. Shunday qilib, biz eng kichik kvadratlar usullari sinfini - LS-metodlarini (Kichik kvadratchalar) ajratishimiz mumkin.

(Aitken teoremasi) umumlashtirilgan chiziqli regressiya modeli uchun (tasodifiy xatolarning kovariatsiya matritsasiga hech qanday cheklovlar qo'yilmagan) eng samarali (chiziqli xolis baholar sinfida) deb ataladigan taxminlar ekanligi isbotlangan. . umumlashtirilgan OLS (OMNK, GLS - Umumlashtirilgan eng kichik kvadratlar)- tasodifiy xatolarning teskari kovariatsiya matritsasiga teng vazn matritsasi bilan LS-usuli: W = V e − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Chiziqli model parametrlarining GLS-baholash formulasi shaklga ega ekanligini ko'rsatish mumkin

B ^ G L S = (X T V - 1 X) - 1 X T V - 1 y (\displaystyle (\shapka (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Ushbu baholarning kovariatsiya matritsasi mos ravishda teng bo'ladi

V (b ^ G L S) = (X T V - 1 X) - 1 (\displaystyle V((\shapka (b))_(GLS))=(X^(T)V^(-1)X)^(- bitta)).

Aslida, OLSning mohiyati dastlabki ma'lumotlarning ma'lum (chiziqli) transformatsiyasida (P) va o'zgartirilgan ma'lumotlarga odatiy eng kichik kvadratlarni qo'llashda yotadi. Ushbu transformatsiyaning maqsadi shundaki, o'zgartirilgan ma'lumotlar uchun tasodifiy xatolar allaqachon klassik taxminlarni qondiradi.

Og'irlangan eng kichik kvadratlar

Diagonal og'irlik matritsasi (va shuning uchun tasodifiy xatolarning kovariatsiya matritsasi) bo'lsa, bizda eng kichik vaznli kvadratlar (WLS - Weighted Least Squares) deb ataladigan narsa bor. Bunday holda, model qoldiqlari kvadratlarining vaznli yig'indisi minimallashtiriladi, ya'ni har bir kuzatuv ushbu kuzatuvdagi tasodifiy xatoning dispersiyasiga teskari proportsional bo'lgan "og'irlik" ni oladi: e T W e = ∑ t = 1 n e t 2 s t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma _(t)^(2)))). Darhaqiqat, ma'lumotlar kuzatuvlarni tortish yo'li bilan o'zgartiriladi (tasodifiy xatolarning taxmin qilingan standart og'ishiga proportsional miqdorga bo'linadi) va vaznli ma'lumotlarga oddiy eng kichik kvadratlar qo'llaniladi.

ISBN 978-5-7749-0473-0.

  • Ekonometriya. Darslik / Ed. Eliseeva I. I. - 2-nashr. - M. : Moliya va statistika, 2006. - 576 p. - ISBN 5-279-02786-3.
  • Aleksandrova N.V. Matematik atamalar, tushunchalar, belgilar tarixi: lug'at-ma'lumotnoma. - 3-nashr - M. : LKI, 2008. - 248 b. - ISBN 978-5-382-00839-4. I.V.Mitin, Rusakov V.S. Eksperimental ma'lumotlarni tahlil qilish va qayta ishlash - 5-nashr - 24p.
  • Eng kichik kvadratlar usuli (LSM) tasodifiy xatolarni o'z ichiga olgan ko'plab o'lchovlar natijalaridan foydalangan holda turli miqdorlarni baholashga imkon beradi.

    Xarakterli MNC

    Ushbu usulning asosiy g'oyasi shundan iboratki, kvadratik xatolar yig'indisi minimallashtirishga intilayotgan muammoni hal qilishning to'g'riligi mezoni sifatida ko'rib chiqiladi. Ushbu usuldan foydalanganda ham raqamli, ham analitik yondashuvlar qo'llanilishi mumkin.

    Xususan, raqamli amalga oshirish sifatida, eng kichik kvadratlar usuli noma'lum tasodifiy o'zgaruvchining iloji boricha ko'proq o'lchovlarini amalga oshirishni nazarda tutadi. Bundan tashqari, hisob-kitoblar qanchalik ko'p bo'lsa, yechim shunchalik aniq bo'ladi. Ushbu hisob-kitoblar to'plami (dastlabki ma'lumotlar) bo'yicha yana bir taklif qilingan echimlar to'plami olinadi, ulardan eng yaxshisi tanlanadi. Agar yechimlar to'plami parametrlangan bo'lsa, u holda eng kichik kvadratlar usuli parametrlarning optimal qiymatini topishga qisqartiriladi.

    Dastlabki ma'lumotlar (o'lchovlar) va taklif qilingan echimlar to'plami bo'yicha LSMni amalga oshirishga analitik yondashuv sifatida ba'zilari (funktsional) aniqlanadi, ular tasdiqlanishi kerak bo'lgan ma'lum bir gipoteza sifatida olingan formula bilan ifodalanishi mumkin. . Bunday holda, eng kichik kvadratlar usuli dastlabki ma'lumotlardagi kvadrat xatolar to'plamida ushbu funktsiyaning minimalini topishga qisqartiriladi.

    E'tibor bering, xatolarning o'zi emas, balki xatolar kvadratlari. Nega? Haqiqat shundaki, ko'pincha o'lchovlarning aniq qiymatdan og'ishi ham ijobiy, ham salbiydir. O'rtacha qiymatni aniqlashda oddiy yig'ish smeta sifati to'g'risida noto'g'ri xulosa chiqarishga olib kelishi mumkin, chunki ijobiy va salbiy qiymatlarning o'zaro bekor qilinishi o'lchovlar to'plamining tanlab olish quvvatini kamaytiradi. Va, natijada, baholashning to'g'riligi.

    Buning oldini olish uchun kvadrat og'ishlar yig'iladi. Bundan ham ko'proq, o'lchangan qiymatning o'lchamini va yakuniy bahoni kvadratik xatolar yig'indisidan tenglashtirish uchun,

    MMKlarning ayrim ilovalari

    MNC turli sohalarda keng qo'llaniladi. Masalan, ehtimollar nazariyasi va matematik statistikada tasodifiy o'zgaruvchining qiymatlari diapazonining kengligini aniqlaydigan standart og'ish kabi tasodifiy o'zgaruvchining xarakteristikasini aniqlash uchun usul qo'llaniladi.

    Eng kichik kvadrat usuli

    Eng kichik kvadrat usuli ( MNK, OLS, oddiy eng kichik kvadratlar) - namunaviy ma'lumotlardan regressiya modellarining noma'lum parametrlarini baholash uchun regressiya tahlilining asosiy usullaridan biri. Usul regressiya qoldiqlarining kvadratlari yig'indisini minimallashtirishga asoslangan.

    Shuni ta'kidlash kerakki, eng kichik kvadratlar usulini har qanday sohadagi masalani yechish usuli deb atash mumkin, agar yechim noma'lum o'zgaruvchilarning ba'zi funktsiyalari kvadratlari yig'indisini minimallashtirish uchun ma'lum bir mezondan iborat bo'lsa yoki qanoatlantirsa. Shuning uchun, eng kichik kvadratlar usuli, shuningdek, tenglamalar yoki cheklovlarni qanoatlantiradigan, soni ushbu miqdorlar sonidan oshib ketadigan miqdorlar to'plamini topishda berilgan funktsiyani boshqa (oddiyroq) funktsiyalar bilan taxminiy ko'rsatish (yaqinlash) uchun ham qo'llanilishi mumkin. , va boshqalar.

    MNCning mohiyati

    (tushuntirilgan) o'zgaruvchi o'rtasidagi ehtimollik (regressiya) bog'liqligining ba'zi (parametrik) modeli bo'lsin. y va ko'plab omillar (tushuntiruvchi o'zgaruvchilar) x

    noma'lum model parametrlarining vektori qayerda

    - tasodifiy model xatosi.

    Ko'rsatilgan o'zgaruvchilar qiymatlarining namunaviy kuzatuvlari ham bo'lsin. Kuzatuv raqami () bo'lsin. Keyin --chi kuzatishdagi o'zgaruvchilarning qiymatlari. Keyin b parametrlarining berilgan qiymatlari uchun tushuntirilgan y o'zgaruvchining nazariy (model) qiymatlarini hisoblash mumkin:

    Qoldiqlarning qiymati b parametrlarining qiymatlariga bog'liq.

    LSM (oddiy, klassik) ning mohiyati shunday b parametrlarni topishdan iborat bo'lib, ular uchun qoldiq kvadratlari yig'indisi (ingliz. Kvadratlarning qoldiq yig'indisi) minimal bo'ladi:

    Umumiy holda, bu muammoni optimallashtirishning raqamli usullari (minimalizatsiya) bilan hal qilish mumkin. Bunday holda, kimdir gapiradi chiziqli bo'lmagan eng kichik kvadratlar(NLS yoki NLLS - ingliz. Chiziqli bo'lmagan eng kichik kvadratlar). Ko'p hollarda analitik yechimni olish mumkin. Minimallashtirish masalasini yechish uchun funktsiyaning noma’lum parametrlari b bo‘yicha differensiallash, hosilalarini nolga tenglashtirish va hosil bo‘lgan tenglamalar tizimini yechish yo‘li bilan uning statsionar nuqtalarini topish kerak:

    Agar modelning tasodifiy xatolari normal taqsimlangan bo'lsa, bir xil dispersiyaga ega bo'lsa va bir-biri bilan bog'liq bo'lmasa, eng kichik kvadratlar parametrlari taxminlari maksimal ehtimollik usuli (MLM) taxminlari bilan bir xil bo'ladi.

    Chiziqli model holatida LSM

    Regressiyaga bog'liqlik chiziqli bo'lsin:

    Mayli y- izohlangan o'zgaruvchini kuzatishning ustun vektori va - omillarni kuzatish matritsasi (matritsa qatorlari - berilgan kuzatishdagi omil qiymatlari vektorlari, ustunlar bo'yicha - barcha kuzatishlarda berilgan omil qiymatlari vektori) . Chiziqli modelning matritsa ko'rinishi quyidagi shaklga ega:

    Keyin tushuntirilgan o'zgaruvchini baholash vektori va regressiya qoldiqlari vektori teng bo'ladi.

    shunga ko'ra, regressiya qoldiqlari kvadratlari yig'indisi teng bo'ladi

    Ushbu funktsiyani parametr vektoriga nisbatan farqlash va hosilalarni nolga tenglashtirib, biz tenglamalar tizimini olamiz (matritsa shaklida):

    .

    Ushbu tenglamalar tizimining yechimi chiziqli model uchun eng kichik kvadratlarni baholash uchun umumiy formulani beradi:

    Analitik maqsadlar uchun ushbu formulaning oxirgi ko'rinishi foydali bo'lib chiqadi. Agar regressiya modelidagi ma'lumotlar markazlashtirilgan, u holda bu tasvirda birinchi matritsa omillarning tanlanma kovariatsiya matritsasi ma'nosiga ega, ikkinchisi esa bog'liq o'zgaruvchiga ega bo'lgan omillarning kovarianslari vektoridir. Agar, qo'shimcha ravishda, ma'lumotlar ham bo'lsa normallashtirilgan SKOda (ya'ni, oxir-oqibat standartlashtirilgan), keyin birinchi matritsa omillarning tanlanma korrelyatsiya matritsasi ma'nosiga ega bo'ladi, ikkinchi vektor - bog'liq o'zgaruvchi bilan omillarning tanlama korrelyatsiya vektori.

    Modellar uchun LLS taxminlarining muhim xususiyati doimiy bilan- tuzilgan regressiya chizig'i namunaviy ma'lumotlarning og'irlik markazidan o'tadi, ya'ni tenglik bajariladi:

    Xususan, ekstremal holatda, yagona regressor doimiy bo'lsa, biz bitta parametrning OLS bahosi (konstantaning o'zi) tushuntirilayotgan o'zgaruvchining o'rtacha qiymatiga teng ekanligini aniqlaymiz. Ya'ni, katta sonlar qonunlaridan o'zining yaxshi xossalari bilan ma'lum bo'lgan o'rtacha arifmetik qiymat ham eng kichik kvadratlar bahosidir - u undan eng kam kvadratik chetlanishlar yig'indisi mezonini qondiradi.

    Misol: oddiy (juftlik) regressiya

    Juftlangan chiziqli regressiya holatida hisoblash formulalari soddalashtirilgan (siz matritsa algebrasisiz ham qilishingiz mumkin):

    OLS baholarining xossalari

    Avvalo shuni ta'kidlaymizki, chiziqli modellar uchun eng kichik kvadratlar bahosi yuqoridagi formuladan kelib chiqqan holda chiziqli taxminlardir. OLSni xolis baholash uchun regressiya tahlilining eng muhim shartini bajarish zarur va yetarli: omillarga bog‘liq bo‘lgan tasodifiy xatoning matematik kutilishi nolga teng bo‘lishi kerak. Bu shart qondiriladi, xususan, agar

    1. tasodifiy xatolarning matematik kutish nolga teng, va
    2. omillar va tasodifiy xatolar mustaqil tasodifiy o'zgaruvchilardir.

    Ikkinchi shart - ekzogen omillarning holati - asosiy hisoblanadi. Agar bu xususiyat qoniqtirmasa, deyarli har qanday hisob-kitoblar juda qoniqarsiz bo'ladi deb taxmin qilishimiz mumkin: ular hatto izchil bo'lmaydi (ya'ni, hatto juda katta miqdordagi ma'lumotlar ham bu holatda sifatli baho olishga imkon bermaydi). Klassik holatda, tasodifiy xatodan farqli o'laroq, omillarning determinizmi haqida kuchliroq taxmin qilinadi, bu avtomatik ravishda ekzogen shartning qondirilishini anglatadi. Umumiy holda, baholarning izchilligi uchun matritsaning ba'zi yagona bo'lmagan matritsaga yaqinlashishi bilan birga ekzogenlik shartini bajarish, tanlanma hajmini cheksizgacha oshirish kifoya qiladi.

    Barqarorlik va xolislikka qo'shimcha ravishda (odatiy) LSM baholari ham samarali bo'lishi uchun (chiziqli xolis baholar sinfidagi eng yaxshisi) tasodifiy xatoning qo'shimcha xususiyatlari qondirilishi kerak:

    Ushbu taxminlar tasodifiy xato vektorining kovariatsiya matritsasi uchun shakllantirilishi mumkin

    Ushbu shartlarni qondiradigan chiziqli model deyiladi klassik. Klassik chiziqli regressiya uchun eng kichik kvadratlar baholovchilari xolis, izchil va barcha chiziqli xolis baholovchilar sinfidagi eng samarali baholovchilardir (qisqartma). ko'k (Eng yaxshi chiziqli asossiz baholovchi) eng yaxshi chiziqli xolis bahodir; mahalliy adabiyotda Gauss-Markov teoremasi ko'proq keltiriladi). Ko'rsatish oson bo'lganidek, koeffitsientlarni baholash vektorining kovariatsiya matritsasi quyidagilarga teng bo'ladi:

    Umumlashtirilgan eng kichik kvadratlar

    Eng kichik kvadratlar usuli keng umumlashtirish imkonini beradi. Qoldiqlarning kvadratlari yig'indisini minimallashtirish o'rniga, qoldiq vektorning ba'zi ijobiy aniq kvadrat shaklini minimallashtirish mumkin, bu erda nosimmetrik musbat aniq og'irlik matritsasi. Oddiy eng kichik kvadratlar bu yondashuvning alohida holati bo'lib, og'irlik matritsasi identifikatsiya matritsasiga mutanosib bo'lganda. Simmetrik matritsalar (yoki operatorlar) nazariyasidan ma'lumki, bunday matritsalar uchun parchalanish mavjud. Shuning uchun ko'rsatilgan funksionalni quyidagicha ifodalash mumkin, ya'ni bu funktsiyani o'zgartirilgan ba'zi "qoldiqlar" kvadratlari yig'indisi sifatida ko'rsatish mumkin. Shunday qilib, biz eng kichik kvadratlar usullari sinfini - LS-metodlarini (Kichik kvadratchalar) ajratishimiz mumkin.

    (Aitken teoremasi) umumlashtirilgan chiziqli regressiya modeli uchun (tasodifiy xatolarning kovariatsiya matritsasiga hech qanday cheklovlar qo'yilmagan) eng samarali (chiziqli xolis baholar sinfida) deb ataladigan taxminlar ekanligi isbotlangan. . umumlashtirilgan OLS (OMNK, GLS - Umumlashtirilgan eng kichik kvadratlar)- Tasodifiy xatolarning teskari kovariatsiya matritsasiga teng vazn matritsasi bilan LS-usuli: .

    Chiziqli model parametrlarining GLS-baholash formulasi shaklga ega ekanligini ko'rsatish mumkin

    Ushbu baholarning kovariatsiya matritsasi mos ravishda teng bo'ladi

    Aslida, OLSning mohiyati dastlabki ma'lumotlarning ma'lum (chiziqli) transformatsiyasida (P) va o'zgartirilgan ma'lumotlarga odatiy eng kichik kvadratlarni qo'llashda yotadi. Ushbu transformatsiyaning maqsadi shundaki, o'zgartirilgan ma'lumotlar uchun tasodifiy xatolar allaqachon klassik taxminlarni qondiradi.

    Og'irlangan eng kichik kvadratlar

    Diagonal og'irlik matritsasi (va shuning uchun tasodifiy xatolarning kovariatsiya matritsasi) bo'lsa, bizda eng kichik vaznli kvadratlar (WLS - Weighted Least Squares) deb ataladigan narsa bor. Bunda model qoldiqlari kvadratlarining vaznli yig'indisi minimallashtiriladi, ya'ni har bir kuzatish ushbu kuzatishdagi tasodifiy xatoning dispersiyasiga teskari proportsional "vazn" oladi: . Darhaqiqat, ma'lumotlar kuzatuvlarni tortish yo'li bilan o'zgartiriladi (tasodifiy xatolarning taxmin qilingan standart og'ishiga proportsional miqdorga bo'linadi) va vaznli ma'lumotlarga oddiy eng kichik kvadratlar qo'llaniladi.

    LSMni amalda qo'llashning ba'zi maxsus holatlari

    Chiziqli yaqinlashish

    Muayyan skalyar miqdorning ma'lum bir skalyar miqdorga bog'liqligini o'rganish natijasida (Bu, masalan, kuchlanishning oqim kuchiga bog'liqligi bo'lishi mumkin: , bu erda doimiy qiymat, o'tkazgichning qarshiligi bo'lishi mumkin) ), bu miqdorlar o'lchandi, buning natijasida qiymatlar va ularning tegishli qiymatlari. O'lchov ma'lumotlari jadvalga yozilishi kerak.

    Jadval. O'lchov natijalari.

    o'lchov raqami.
    1
    2
    3
    4
    5
    6

    Savol quyidagicha ko'rinadi: bog'liqlikni eng yaxshi tavsiflash uchun koeffitsientning qaysi qiymatini tanlash mumkin? Eng kichik kvadratlarga ko'ra, bu qiymat qiymatlardan qiymatlarning kvadratik og'ishlarining yig'indisi bo'lishi kerak.

    minimal edi

    Kvadrat og'ishlar yig'indisi bitta ekstremumga ega - minimal, bu bizga ushbu formuladan foydalanishga imkon beradi. Bu formuladan koeffitsient qiymatini topamiz. Buning uchun uning chap tomonini quyidagicha aylantiramiz:

    Oxirgi formula bizga koeffitsientning qiymatini topishga imkon beradi , muammoda talab qilingan.

    Hikoya

    XIX asr boshlarigacha. olimlar noma'lumlar soni tenglamalar sonidan kam bo'lgan tenglamalar tizimini echish uchun ma'lum qoidalarga ega emas edilar; Shu vaqtgacha, tenglamalar turiga va kalkulyatorlarning zukkoligiga qarab alohida usullar qo'llanilgan va shuning uchun bir xil kuzatish ma'lumotlaridan boshlab turli xil kalkulyatorlar turli xil xulosalarga kelishgan. Usulning birinchi qo'llanilishi Gauss (1795) hisoblanadi va Legendre (1805) uni mustaqil ravishda kashf etdi va zamonaviy nomi bilan nashr etdi (fr. Metode des moindres janjal ). Laplas usulni ehtimollar nazariyasi bilan bog'ladi va amerikalik matematik Adrain (1808) uning ehtimollik qo'llanilishini ko'rib chiqdi. Usul Encke, Bessel, Hansen va boshqalarning keyingi tadqiqotlari natijasida keng tarqalgan va takomillashtirilgan.

    MMKlardan muqobil foydalanish

    Eng kichik kvadratlar usuli g'oyasi regressiya tahlili bilan bevosita bog'liq bo'lmagan boshqa holatlarda ham qo'llanilishi mumkin. Gap shundaki, kvadratlar yig'indisi vektorlar uchun eng keng tarqalgan yaqinlik o'lchovlaridan biridir (cheklangan o'lchovli fazolarda Evklid metrikasi).

    Ilovalardan biri bu chiziqli tenglamalar tizimini "echish" bo'lib, unda tenglamalar soni o'zgaruvchilar sonidan ko'p bo'ladi.

    bu erda matritsa kvadrat emas, balki to'rtburchaklar.

    Bunday tenglamalar tizimi, umumiy holatda, hech qanday yechimga ega emas (agar daraja haqiqatda o'zgaruvchilar sonidan katta bo'lsa). Shuning uchun, bu tizimni faqat vektorlar orasidagi "masofa" ni minimallashtirish uchun bunday vektorni tanlash ma'nosida "hal qilish" mumkin. Buning uchun tizim tenglamalarining chap va o'ng qismlarining kvadrat ayirmalari yig'indisini minimallashtirish mezonini qo'llash mumkin, ya'ni . Ushbu minimallashtirish masalasini yechish quyidagi tenglamalar tizimini echishga olib kelishini ko'rsatish oson