Se una certa quantità fisica dipende da un'altra quantità, allora questa dipendenza può essere studiata misurando y a diversi valori di x. Come risultato delle misurazioni, si ottengono una serie di valori:
x1, x2, ..., xi, ..., xn;
y 1 , y 2 , ..., y io , ... , y n .
Sulla base dei dati di tale esperimento, è possibile costruire un grafico della dipendenza y = ƒ(x). La curva risultante permette di giudicare la forma della funzione ƒ(x). Tuttavia, i coefficienti costanti che entrano in questa funzione rimangono sconosciuti. Possono essere determinati utilizzando il metodo dei minimi quadrati. I punti sperimentali, di regola, non giacciono esattamente sulla curva. Il metodo dei minimi quadrati richiede che la somma dei quadrati delle deviazioni dei punti sperimentali dalla curva, cioè 2 era il più piccolo.
In pratica, questo metodo viene utilizzato più spesso (e più semplicemente) nel caso di una relazione lineare, ad es. Quando
y = kx O y = a + bx.
La dipendenza lineare è molto diffusa in fisica. E anche quando la relazione non è lineare, di solito si cerca di costruire un grafico in modo da ottenere una linea retta. Ad esempio, se si presuppone che l'indice di rifrazione del vetro n sia correlato alla lunghezza d'onda della luce λ dalla relazione n = a + b/λ 2, nel grafico viene rappresentata la dipendenza di n da λ -2.
Considera la dipendenza y = kx(una retta passante per l'origine). Componiamo il valore φ la somma dei quadrati delle deviazioni dei nostri punti dalla retta
Il valore di φ è sempre positivo e risulta tanto minore quanto più i nostri punti sono vicini alla retta. Il metodo dei minimi quadrati afferma che il valore di k dovrebbe essere scelto in modo tale che φ abbia un minimo
O
(19)
Il calcolo mostra che l'errore quadratico medio nel determinare il valore di k è uguale a
, (20)
dove n è il numero di misurazioni.
Consideriamo ora un caso leggermente più difficile, in cui i punti devono soddisfare la formula y = a + bx(una retta che non passa per l'origine).
Il compito è trovare i migliori valori di a e b dall'insieme di valori disponibili x i, y i.
Componiamo nuovamente la forma quadratica φ, pari alla somma dei quadrati degli scostamenti dei punti x i, y i dalla retta
e trovare i valori di a e b per i quali φ ha minimo
;
.
.La soluzione congiunta di queste equazioni dà
(21)
Gli errori quadratici medi della determinazione di a e b sono uguali
(23)
.  (24)
Quando si elaborano i risultati della misurazione utilizzando questo metodo, è conveniente riassumere tutti i dati in una tabella in cui vengono calcolati preliminarmente tutti gli importi inclusi nelle formule (19)(24). Le forme di queste tabelle sono fornite negli esempi seguenti.
Esempio 1.È stata studiata l'equazione di base della dinamica del moto rotatorio ε = M/J (una retta passante per l'origine). A diversi valori del momento M, è stata misurata l'accelerazione angolare ε di un determinato corpo. È necessario determinare il momento di inerzia di questo corpo. I risultati delle misurazioni del momento di forza e dell'accelerazione angolare sono elencati nella seconda e terza colonna tabella 5.
Tabella 5
N | M, N m | ε, s -1 | M2 | Mε | ε - kM | (ε - kM) 2 |
1 | 1.44 | 0.52 | 2.0736 | 0.7488 | 0.039432 | 0.001555 |
2 | 3.12 | 1.06 | 9.7344 | 3.3072 | 0.018768 | 0.000352 |
3 | 4.59 | 1.45 | 21.0681 | 6.6555 | -0.08181 | 0.006693 |
4 | 5.90 | 1.92 | 34.81 | 11.328 | -0.049 | 0.002401 |
5 | 7.45 | 2.56 | 55.5025 | 19.072 | 0.073725 | 0.005435 |
∑ | | | 123.1886 | 41.1115 | | 0.016436 |
Utilizzando la formula (19) determiniamo:
.
Per determinare l'errore quadratico medio, utilizziamo la formula (20)
0.005775kg-1 · M -2 .
Secondo la formula (18) abbiamo
; .S J = (2,996 0,005775)/0,3337 = 0,05185 kgm2.
Fissata l'affidabilità P = 0,95, utilizzando la tabella dei coefficienti di Student per n = 5, troviamo t = 2,78 e determiniamo l'errore assoluto ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kgm2.
Scriviamo i risultati nel modulo:
J = (3,0 ± 0,2) kgm2;
Esempio 2. Calcoliamo il coefficiente di temperatura della resistenza del metallo utilizzando il metodo dei minimi quadrati. La resistenza dipende linearmente dalla temperatura
R t = R 0 (1 + α t°) = R 0 + R 0 α t°.
Il termine libero determina la resistenza R 0 ad una temperatura di 0 ° C, e il coefficiente di pendenza è il prodotto del coefficiente di temperatura α e della resistenza R 0 .
I risultati delle misurazioni e dei calcoli sono riportati nella tabella ( vedere la tabella 6).
Tabella 6
N | t°, s | r, Ohm | t-¯t | (t-¯t) 2 | (t-¯t)r | r - bt - a | (r - bt - a) 2 .10 -6 |
1 | 23 | 1.242 | -62.8333 | 3948.028 | -78.039 | 0.007673 | 58.8722 |
2 | 59 | 1.326 | -26.8333 | 720.0278 | -35.581 | -0.00353 | 12.4959 |
3 | 84 | 1.386 | -1.83333 | 3.361111 | -2.541 | -0.00965 | 93.1506 |
4 | 96 | 1.417 | 10.16667 | 103.3611 | 14.40617 | -0.01039 | 107.898 |
5 | 120 | 1.512 | 34.16667 | 1167.361 | 51.66 | 0.021141 | 446.932 |
6 | 133 | 1.520 | 47.16667 | 2224.694 | 71.69333 | -0.00524 | 27.4556 |
∑ | 515 | 8.403 | | 8166.833 | 21.5985 | | 746.804 |
∑/n | 85.83333 | 1.4005 | | | | | |
Usando le formule (21), (22) determiniamo
R 0 = ¯ R- α R 0 ¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Ohm.
Troviamo un errore nella definizione di α. Poiché , allora secondo la formula (18) abbiamo:
.
Usando le formule (23), (24) abbiamo
;
0.014126 Ohm.
Avendo fissato l'affidabilità a P = 0,95, utilizzando la tabella dei coefficienti di Student per n = 6, troviamo t = 2,57 e determiniamo l'errore assoluto Δα = 2,57 0,000132 = 0,000338 gradi -1.
α = (23 ± 4) 10 -4 salve-1 a P = 0,95.
Esempio 3.È necessario determinare il raggio di curvatura della lente utilizzando gli anelli di Newton. Furono misurati i raggi degli anelli di Newton r m e fu determinato il numero di questi anelli m. I raggi degli anelli di Newton sono legati al raggio di curvatura della lente R e al numero dell'anello mediante l'equazione
r 2 m = mλR - 2d 0 R,
dove d 0 lo spessore dello spazio tra la lente e la piastra piano parallela (o la deformazione della lente),
λ lunghezza d'onda della luce incidente.
λ = (600 ± 6) nm;
r2m = y;
m = x;
λR = b;
-2d 0 R = un,
allora l'equazione assumerà la forma y = a + bx.
.Vengono inseriti i risultati delle misurazioni e dei calcoli tabella 7.
Tabella 7
N | x = m | y = r 2, 10 -2 mm 2 | mm | (m -¯m) 2 | (m -¯ m)y | y - bx - a, 10 -4 | (y - bx - a) 2 , 10 -6 |
1 | 1 | 6.101 | -2.5 | 6.25 | -0.152525 | 12.01 | 1.44229 |
2 | 2 | 11.834 | -1.5 | 2.25 | -0.17751 | -9.6 | 0.930766 |
3 | 3 | 17.808 | -0.5 | 0.25 | -0.08904 | -7.2 | 0.519086 |
4 | 4 | 23.814 | 0.5 | 0.25 | 0.11907 | -1.6 | 0.0243955 |
5 | 5 | 29.812 | 1.5 | 2.25 | 0.44718 | 3.28 | 0.107646 |
6 | 6 | 35.760 | 2.5 | 6.25 | 0.894 | 3.12 | 0.0975819 |
∑ | 21 | 125.129 | | 17.5 | 1.041175 | | 3.12176 |
∑/n | 3.5 | 20.8548333 | | | | | |
Metodo dei minimi quadrati ordinari (OLS).- un metodo matematico utilizzato per risolvere vari problemi, basato sulla minimizzazione della somma dei quadrati delle deviazioni di alcune funzioni dalle variabili desiderate. Può essere utilizzato per "risolvere" sistemi di equazioni sovradeterminati (quando il numero di equazioni supera il numero di incognite), per trovare soluzioni nel caso di sistemi di equazioni non lineari ordinari (non sovradeterminati), per approssimare valori puntuali di alcuni funzione. OLS è uno dei metodi di base dell'analisi di regressione per stimare parametri sconosciuti di modelli di regressione da dati campione.
YouTube enciclopedico
1 / 5
✪ Metodo dei minimi quadrati. Soggetto
✪ Metodo dei minimi quadrati, lezione 1/2. Funzione lineare
✪ Econometria. Lezione 5. Metodo dei minimi quadrati
✪ Mitin I.V. - Elaborazione dei risultati fisici. esperimento - Metodo dei minimi quadrati (Lezione 4)
✪ Econometria: l'essenza del metodo dei minimi quadrati n.2
Sottotitoli
Storia
Fino all'inizio del XIX secolo. gli scienziati non avevano regole specifiche per risolvere un sistema di equazioni in cui il numero di incognite è inferiore al numero di equazioni; Fino a quel momento venivano utilizzate tecniche private che dipendevano dal tipo di equazioni e dall'ingegno dei calcolatori, e quindi calcolatori diversi, basandosi sugli stessi dati osservativi, giungevano a conclusioni diverse. Gauss (1795) fu il primo a utilizzare il metodo e Legendre (1805) lo scoprì e lo pubblicò indipendentemente con il suo nome moderno (francese. Metodo dei moindres quarrés). Laplace collegò il metodo con la teoria della probabilità e il matematico americano Adrain (1808) ne considerò le applicazioni teoriche della probabilità. Il metodo fu diffuso e migliorato da ulteriori ricerche di Encke, Bessel, Hansen e altri.
L'essenza del metodo dei minimi quadrati
Permettere x (\displaystyle x)- corredo n (\displaystyle n) variabili sconosciute (parametri), f io (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- un insieme di funzioni da questo insieme di variabili. Il compito è selezionare tali valori x (\displaystyle x), in modo che i valori di queste funzioni siano il più vicino possibile a determinati valori y io (\displaystyle y_(i)). In sostanza si tratta della “soluzione” di un sistema di equazioni sovradeterminato f io (x) = y io (\displaystyle f_(i)(x)=y_(i)), io = 1 , … , m (\displaystyle i=1,\ldots,m) nel senso indicato di massima vicinanza delle parti sinistra e destra del sistema. L’essenza del metodo dei minimi quadrati è quella di selezionare come “misura di prossimità” la somma delle deviazioni al quadrato dei lati sinistro e destro | f io (x) − y io | (\displaystyle |f_(i)(x)-y_(i)|). Pertanto, l’essenza della MNC può essere espressa come segue:
∑ io e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\frecciadestra \min _(x)).Se il sistema di equazioni ha una soluzione, allora il minimo della somma dei quadrati sarà uguale a zero e le soluzioni esatte del sistema di equazioni possono essere trovate analiticamente o, ad esempio, utilizzando vari metodi di ottimizzazione numerica. Se il sistema è sovradeterminato, cioè, in parole povere, il numero di equazioni indipendenti è maggiore del numero di variabili desiderate, allora il sistema non ha una soluzione esatta e il metodo dei minimi quadrati ci consente di trovare qualche vettore “ottimale” x (\displaystyle x) nel senso di massima vicinanza dei vettori y (\displaystyle y) E f(x) (\displaystyle f(x)) o massima vicinanza del vettore di deviazione e (\displaystyle e) a zero (la vicinanza è intesa nel senso della distanza euclidea).
Esempio: sistema di equazioni lineari
In particolare, il metodo dei minimi quadrati può essere utilizzato per “risolvere” un sistema di equazioni lineari
A x = b (\displaystyle Ax=b),Dove A (\displaystyle A) matrice di dimensioni rettangolari m × n , m > n (\displaystyle m\times n,m>n)(ovvero il numero di righe della matrice A è maggiore del numero di variabili cercate).
Nel caso generale, un tale sistema di equazioni non ha soluzione. Pertanto, questo sistema può essere “risolto” solo nel senso di scegliere un tale vettore x (\displaystyle x) per ridurre al minimo la "distanza" tra i vettori Ax (\displaystyle Ax) E b (\displaystyle b). Per fare ciò si può applicare il criterio di minimizzare la somma dei quadrati delle differenze tra i membri sinistro e destro delle equazioni del sistema, ovvero (A x − b) T (A x − b) → min x (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min _(x)). È facile dimostrare che la soluzione di questo problema di minimizzazione porta alla soluzione del seguente sistema di equazioni
A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (T)b).OLS nell'analisi di regressione (approssimazione dei dati)
Lascia che ci sia n (\displaystyle n) valori di qualche variabile y (\displaystyle y)(questo potrebbe essere il risultato di osservazioni, esperimenti, ecc.) e variabili correlate x (\displaystyle x). La sfida è garantire che la relazione tra y (\displaystyle y) E x (\displaystyle x) approssimato da qualche funzione nota entro alcuni parametri sconosciuti b (\displaystyle b), cioè trovare effettivamente i migliori valori dei parametri b (\displaystyle b), approssimando al massimo i valori f (x , b) (\displaystyle f(x,b)) ai valori effettivi y (\displaystyle y). In realtà, questo si riduce al caso di “risolvere” un sistema di equazioni sovradeterminato rispetto a b (\displaystyle b):
F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots,n).
Nell'analisi di regressione e in particolare in econometria vengono utilizzati modelli probabilistici di dipendenza tra variabili
Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),
Dove ε t (\displaystyle \varepsilon _(t))- così chiamato errori casuali Modelli.
Di conseguenza, deviazioni dei valori osservati y (\displaystyle y) dal modello f (x , b) (\displaystyle f(x,b))è già assunto nel modello stesso. L'essenza del metodo dei minimi quadrati (ordinario, classico) è trovare tali parametri b (\displaystyle b), a cui la somma delle deviazioni al quadrato (errori, per i modelli di regressione sono spesso chiamati residui di regressione) e t (\displaystyle e_(t)) sarà minimo:
b ^ O L S = arg min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),Dove R S S (\displaystyle RSS)- Inglese La somma residua dei quadrati è definita come:
R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\sum _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).Nel caso generale, questo problema può essere risolto mediante metodi di ottimizzazione numerica (minimizzazione). In questo caso ne parlano minimi quadrati non lineari(NLS o NLLS - Minimi quadrati non lineari inglesi). In molti casi è possibile ottenere una soluzione analitica. Per risolvere il problema di minimizzazione è necessario trovare i punti stazionari della funzione R S S (b) (\displaystyle RSS(b)), differenziandolo secondo parametri sconosciuti b (\displaystyle b), eguagliando le derivate a zero e risolvendo il sistema di equazioni risultante:
∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\partial f(x_(t),b))(\partial b))=0).OLS nel caso di regressione lineare
Sia lineare la dipendenza dalla regressione:
y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).Permettere sìè il vettore colonna delle osservazioni della variabile da spiegare, e X (\displaystyle X)- Questo (n × k) (\displaystyle ((n\times k)))-matrice delle osservazioni dei fattori (le righe della matrice sono vettori dei valori dei fattori in una data osservazione, le colonne sono un vettore dei valori di un dato fattore in tutte le osservazioni). La rappresentazione matriciale del modello lineare ha la forma:
y = X b + ε (\displaystyle y=Xb+\varepsilon ).Allora il vettore delle stime della variabile spiegata e il vettore dei residui di regressione saranno uguali
y ^ = X b , e = y - y ^ = y - X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).Di conseguenza, la somma dei quadrati dei residui della regressione sarà uguale a
R S S = e T e = (y - X b) T (y - X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).Differenziando questa funzione rispetto al vettore dei parametri b (\displaystyle b) ed eguagliando le derivate a zero, otteniamo un sistema di equazioni (in forma matriciale):
(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).In forma di matrice decifrata, questo sistema di equazioni si presenta così:
(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 x t 1 ∑ x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x t 1 y t ∑ x t 2 y t ∑xt3 y t ⋮ ∑ x t k y t) , (\displaystyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\somma x_(t1)x_(tk)\\\somma x_(t2)x_(t1)&\somma x_(t2)^(2)&\somma x_(t2)x_(t3)&\ldots &\ somma x_(t2)x_(tk)\\\somma x_(t3)x_(t1)&\somma x_(t3)x_(t2)&\somma x_(t3)^(2)&\ldots &\somma x_ (t3)x_(tk)\\\vdots &\vdots &\vdots &\ddots &\vdots \\\somma x_(tk)x_(t1)&\somma x_(tk)x_(t2)&\somma x_ (tk)x_(t3)&\ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix)),) dove tutte le somme vengono prese su tutti i valori validi t (\displaystyle t).
Se nel modello è inclusa una costante (come al solito), allora xt1 = 1 (\displaystyle x_(t1)=1) davanti a tutti t (\displaystyle t), quindi, nell'angolo in alto a sinistra della matrice del sistema di equazioni c'è il numero di osservazioni n (\displaystyle n), e nei restanti elementi della prima riga e della prima colonna - semplicemente le somme dei valori delle variabili: ∑ x t j (\displaystyle \sum x_(tj)) e il primo elemento del lato destro del sistema è ∑ y t (\displaystyle \sum y_(t)).
La soluzione di questo sistema di equazioni fornisce la formula generale per le stime dei minimi quadrati per un modello lineare:
b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T )X)^(-1)X^(T)y=\sinistra((\frac (1)(n))X^(T)X\destra)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).Per scopi analitici, l'ultima rappresentazione di questa formula risulta utile (nel sistema di equazioni quando si divide per n, al posto delle somme compaiono le medie aritmetiche). Se in un modello di regressione i dati centrato, quindi in questa rappresentazione la prima matrice ha il significato di matrice di covarianza campionaria di fattori, e la seconda è un vettore di covarianza di fattori con la variabile dipendente. Se in aggiunta i dati sono anche normalizzato a MSE (cioè, in definitiva standardizzato), quindi la prima matrice ha il significato di una matrice di correlazione campionaria di fattori, il secondo vettore - un vettore di correlazioni campionarie di fattori con la variabile dipendente.
Una proprietà importante delle stime OLS per i modelli con costante- la retta della regressione costruita passa per il baricentro dei dati del campione, ovvero l'uguaglianza è soddisfatta:
y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\hat (b))_(j)(\bar (x))_(j)).In particolare, nel caso estremo, quando l'unico regressore è una costante, troviamo che la stima OLS dell'unico parametro (la costante stessa) è pari al valore medio della variabile spiegata. Cioè, la media aritmetica, nota per le sue buone proprietà derivanti dalle leggi dei grandi numeri, è anche una stima dei minimi quadrati: soddisfa il criterio della somma minima delle deviazioni quadrate da essa.
I casi speciali più semplici
Nel caso di regressione lineare accoppiata y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), quando viene stimata la dipendenza lineare di una variabile da un'altra, le formule di calcolo vengono semplificate (puoi fare a meno dell'algebra delle matrici). Il sistema di equazioni ha la forma:
(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline (xy))\\\end(pmatrix))).Da qui è facile trovare le stime dei coefficienti:
( b ^ = Cov (x , y) Var (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))Nonostante nel caso generale siano preferibili i modelli con una costante, in alcuni casi è noto da considerazioni teoriche che una costante un (\displaystyle un) deve essere uguale a zero. Ad esempio, in fisica la relazione tra tensione e corrente è U = I ⋅ R (\displaystyle U=I\cdot R); Quando si misura tensione e corrente, è necessario stimare la resistenza. In questo caso parliamo del modello y = bx (\displaystyle y=bx). In questo caso, invece di un sistema di equazioni abbiamo una singola equazione
(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).
Pertanto la formula per la stima del singolo coefficiente ha la forma
B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).
Il caso di un modello polinomiale
Se i dati sono adattati da una funzione di regressione polinomiale di una variabile f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), quindi, percepire i gradi x io (\displaystyle x^(i)) come fattori indipendenti per ciascuno io (\displaystyle i)è possibile stimare i parametri del modello in base alla formula generale per la stima dei parametri di un modello lineare. Per fare ciò, è sufficiente tener conto nella formula generale di questa interpretazione x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) E x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Di conseguenza, le equazioni della matrice in questo caso assumeranno la forma:
(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x t 2 … ∑ n x t k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 … ∑ n x t 2 k) [ b 0 b 1 ⋮ b k ] = [ ∑ n y t ∑ n x t y t ⋮ ∑ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ somma \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrice)).)
Proprietà statistiche degli stimatori OLS
Innanzitutto, notiamo che per i modelli lineari, le stime OLS sono stime lineari, come segue dalla formula sopra. Per stime OLS imparziali, è necessario e sufficiente soddisfare la condizione più importante dell'analisi di regressione: l'aspettativa matematica di un errore casuale, condizionata ai fattori, deve essere uguale a zero. Questa condizione, in particolare, è soddisfatta se
- l'aspettativa matematica di errori casuali è zero e
- i fattori e gli errori casuali sono variabili casuali indipendenti.
La seconda condizione – la condizione di esogeneità dei fattori – è fondamentale. Se questa proprietà non viene soddisfatta, allora possiamo presumere che quasi tutte le stime saranno estremamente insoddisfacenti: non saranno nemmeno coerenti (cioè, anche una quantità molto grande di dati non ci consente di ottenere stime di alta qualità in questo caso ). Nel caso classico, viene fatta un’ipotesi più forte sul determinismo dei fattori, in contrapposizione all’errore casuale, il che significa automaticamente che la condizione di esogeneità è soddisfatta. Nel caso generale, per la consistenza delle stime, è sufficiente soddisfare la condizione di esogeneità insieme alla convergenza della matrice V x (\displaystyle V_(x)) ad una matrice non singolare man mano che la dimensione del campione aumenta all’infinito.
Affinché, oltre alla coerenza e all'imparzialità, anche le stime dei minimi quadrati (ordinari) siano efficaci (le migliori nella classe delle stime lineari imparziali), devono essere soddisfatte ulteriori proprietà dell'errore casuale:
Queste ipotesi possono essere formulate per la matrice di covarianza del vettore di errore casuale V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).
Viene chiamato un modello lineare che soddisfa queste condizioni classico. Le stime OLS per la regressione lineare classica sono imparziali, coerenti e le stime più efficaci nella classe di tutte le stime lineari imparziali (nella letteratura inglese a volte viene utilizzata l'abbreviazione BLU (Miglior stimatore lineare imparziale) - la migliore stima lineare imparziale; Nella letteratura russa, il teorema di Gauss-Markov è più spesso citato). Come è facile mostrare, la matrice di covarianza del vettore delle stime dei coefficienti sarà pari a:
V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).
Efficienza significa che questa matrice di covarianza è “minima” (qualsiasi combinazione lineare di coefficienti, e in particolare i coefficienti stessi, hanno una varianza minima), cioè nella classe degli stimatori lineari imparziali, gli stimatori OLS sono i migliori. Gli elementi diagonali di questa matrice - le varianze delle stime dei coefficienti - sono parametri importanti della qualità delle stime ottenute. Tuttavia, non è possibile calcolare la matrice di covarianza perché la varianza dell’errore casuale è sconosciuta. Si può dimostrare che una stima imparziale e coerente (per un modello lineare classico) della varianza degli errori casuali è la quantità:
S 2 = R S S / (n - k) (\displaystyle s^(2)=RSS/(n-k)).
Sostituendo questo valore nella formula della matrice di covarianza, otteniamo una stima della matrice di covarianza. Anche le stime risultanti sono imparziali e coerenti. È anche importante che la stima della varianza dell'errore (e quindi della varianza dei coefficienti) e le stime dei parametri del modello siano variabili casuali indipendenti, il che rende possibile ottenere statistiche di test per testare ipotesi sui coefficienti del modello.
Va notato che se le ipotesi classiche non sono soddisfatte, le stime dei parametri OLS non sono le più efficienti e, dove W (\displaystyle W)è una matrice simmetrica di pesi definiti positivi. I minimi quadrati convenzionali sono un caso speciale di questo approccio, in cui la matrice dei pesi è proporzionale alla matrice identità. Come è noto, per le matrici (o operatori) simmetriche è previsto uno sviluppo W = P T P (\displaystyle W=P^(T)P). Pertanto, il funzionale specificato può essere rappresentato come segue e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), cioè questo funzionale può essere rappresentato come la somma dei quadrati di alcuni “resti” trasformati. Pertanto, possiamo distinguere una classe di metodi dei minimi quadrati: i metodi LS (Least Squares).
È stato dimostrato (teorema di Aitken) che per un modello di regressione lineare generalizzato (in cui non sono imposte restrizioni sulla matrice di covarianza degli errori casuali), le più efficaci (nella classe delle stime lineari imparziali) sono le cosiddette stime. Minimi quadrati generalizzati (GLS - Minimi quadrati generalizzati)- Metodo LS con matrice dei pesi pari alla matrice di covarianza inversa degli errori casuali: W = V ε - 1 (\displaystyle W=V_(\varepsilon )^(-1)).
Si può dimostrare che la formula per le stime GLS dei parametri di un modello lineare ha la forma
B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).
La matrice di covarianza di tali stime sarà pertanto pari a
V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).
Infatti, l'essenza dell'OLS risiede in una certa trasformazione (lineare) (P) dei dati originali e nell'applicazione dell'OLS ordinario ai dati trasformati. Lo scopo di questa trasformazione è che per i dati trasformati gli errori casuali soddisfino già le ipotesi classiche.
OLS ponderati
Nel caso di una matrice dei pesi diagonale (e quindi di una matrice di covarianza di errori casuali), abbiamo i cosiddetti minimi quadrati pesati (WLS). In questo caso, la somma ponderata dei quadrati dei residui del modello è minimizzata, cioè ogni osservazione riceve un “peso” che è inversamente proporzionale alla varianza dell’errore casuale in tale osservazione: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma_(t)^(2)))). Infatti, i dati vengono trasformati ponderando le osservazioni (dividendo per un importo proporzionale alla deviazione standard stimata degli errori casuali) e ai dati ponderati viene applicato l'OLS ordinario.
ISBN 978-5-7749-0473-0 .
Esempio.
Dati sperimentali sui valori delle variabili X E A sono riportati nella tabella.
Come risultato del loro allineamento, si ottiene la funzione
Utilizzando metodo dei minimi quadrati, approssimare questi dati con una dipendenza lineare y=asse+b(trova parametri UN E B). Scopri quale delle due rette allinea meglio (nel senso del metodo dei minimi quadrati) i dati sperimentali. Fai un disegno.
L'essenza del metodo dei minimi quadrati (LSM).
Il compito è trovare i coefficienti di dipendenza lineare a cui corrisponde la funzione di due variabili UN E B assume il valore più piccolo. Cioè, dato UN E B la somma dei quadrati delle deviazioni dei dati sperimentali dalla retta trovata sarà la più piccola. Questo è il punto centrale del metodo dei minimi quadrati.
Pertanto, per risolvere l'esempio si tratta di trovare l'estremo di una funzione di due variabili.
Derivare formule per trovare coefficienti.
Viene compilato e risolto un sistema di due equazioni in due incognite. Trovare le derivate parziali di una funzione rispetto alle variabili UN E B, equiparamo queste derivate a zero.
Risolviamo il sistema di equazioni risultante utilizzando qualsiasi metodo (ad esempio con il metodo di sostituzione o ) e ottenere formule per trovare i coefficienti utilizzando il metodo dei minimi quadrati (LSM).
Dato UN E B funzione assume il valore più piccolo. La prova di questo fatto è data.
Questo è l'intero metodo dei minimi quadrati. Formula per trovare il parametro UN contiene le somme , , e il parametro N- quantità di dati sperimentali. Consigliamo di calcolare separatamente i valori di tali importi. Coefficiente B trovato dopo il calcolo UN.
È tempo di ricordare l'esempio originale.
Soluzione.
Nel nostro esempio n=5. Compiliamo la tabella per comodità di calcolo degli importi inclusi nelle formule dei coefficienti richiesti.
I valori della quarta riga della tabella si ottengono moltiplicando i valori della 2a riga per i valori della 3a riga per ciascun numero io.
I valori della quinta riga della tabella si ottengono elevando al quadrato i valori della 2a riga per ogni numero io.
I valori nell'ultima colonna della tabella sono le somme dei valori nelle righe.
Usiamo le formule del metodo dei minimi quadrati per trovare i coefficienti UN E B. Sostituiamo in essi i valori corrispondenti dall'ultima colonna della tabella:
Quindi, y = 0,165x+2,184- la retta approssimata desiderata.
Resta da scoprire quale delle linee y = 0,165x+2,184 O approssima meglio i dati originali, ovvero effettua una stima utilizzando il metodo dei minimi quadrati.
Stima dell'errore del metodo dei minimi quadrati.
Per fare ciò, è necessario calcolare la somma delle deviazioni quadrate dei dati originali da queste linee E , un valore minore corrisponde a una linea che approssima meglio i dati originali nel senso del metodo dei minimi quadrati.
Da allora dritto y = 0,165x+2,184 approssima meglio i dati originali.
Illustrazione grafica del metodo dei minimi quadrati (LS).
Tutto è chiaramente visibile sui grafici. La linea rossa è la retta trovata y = 0,165x+2,184, la linea blu è , i punti rosa sono i dati originali.
Perché è necessario questo, perché tutte queste approssimazioni?
Personalmente lo utilizzo per risolvere problemi di livellamento dei dati, problemi di interpolazione ed estrapolazione (nell'esempio originale potrebbe essere chiesto loro di trovare il valore di un valore osservato sì A x=3 o quando x=6 utilizzando il metodo dei minimi quadrati). Ma di questo ne parleremo più avanti in un’altra sezione del sito.
Prova.
In modo che quando trovato UN E B funzione assume il valore più piccolo, è necessario che a questo punto venga creata la matrice della forma quadratica del differenziale del secondo ordine per la funzione era definito positivo. Mostriamolo.
3.5. Metodo dei minimi quadrati
Il primo lavoro che gettò le basi del metodo dei minimi quadrati fu svolto da Legendre nel 1805. Nell'articolo “Nuovi metodi per determinare le orbite delle comete”, scrisse: “Dopo che tutte le condizioni del problema sono state pienamente utilizzate, è necessario determinare i coefficienti in modo che l'entità dei loro errori sia la minima possibile. Il modo più semplice per raggiungere questo obiettivo è un metodo che consiste nel trovare la somma minima degli errori quadratici." Attualmente, il metodo è utilizzato molto ampiamente quando si approssimano le dipendenze funzionali sconosciute specificate da molti campioni sperimentali al fine di ottenere un'espressione analitica che sia meglio approssimata ad un esperimento su vasta scala.
Supponiamo che, sulla base di un esperimento, sia necessario stabilire la dipendenza funzionale della quantità y da x : Supponiamo che come risultato dell'esperimento abbiamo ottenutoN valori sìper i valori corrispondenti dell'argomentoX. Se i punti sperimentali si trovano sul piano delle coordinate come in figura, allora, sapendo che durante l'esperimento si verificano errori, possiamo supporre che la dipendenza sia lineare, cioèsì= ascia+ BSi noti che il metodo non impone restrizioni sul tipo di funzione, ad es. può essere applicato a qualsiasi dipendenza funzionale.
Dal punto di vista dello sperimentatore, spesso è più naturale considerare la sequenza del campionamentofissato in anticipo, vale a dire è una variabile indipendente e conta - variabile dipendente Ciò è particolarmente chiaro se sotto sono intesi come momenti nel tempo, cosa che viene utilizzata più ampiamente nelle applicazioni tecniche, ma questo è solo un caso speciale molto comune. Ad esempio, è necessario classificare alcuni campioni per dimensione. Quindi la variabile indipendente sarà il numero del campione, la variabile dipendente sarà la sua dimensione individuale.
Il metodo dei minimi quadrati è descritto in dettaglio in molte pubblicazioni didattiche e scientifiche, soprattutto in termini di approssimazione di funzioni nell'ingegneria elettrica e radiofonica, nonché in libri sulla teoria della probabilità e sulla statistica matematica.
Torniamo al disegno. Le linee tratteggiate mostrano che gli errori possono verificarsi non solo a causa di procedure di misurazione imperfette, ma anche a causa di imprecisioni nella specificazione della variabile indipendente.Con il tipo di funzione selezionato Non resta che selezionare i parametri in esso contenutiUN E BÈ chiaro che il numero di parametri può essere più di due, cosa tipica solo delle funzioni lineari. In generale, assumeremo
.(1)
Devi selezionare le quoteUN, B, C... in modo che la condizione sia soddisfatta
. (2)
Troviamo i valori UN, B, C..., ruotando al minimo il lato sinistro di (2). Per fare ciò, determiniamo i punti stazionari (punti in cui la derivata prima si annulla) differenziando il lato sinistro di (2) rispetto aUN, B, C:
(3)
ecc. Il sistema di equazioni risultante contiene tante equazioni quante incogniteUN, B, C…. È impossibile risolvere un sistema del genere in forma generale, quindi è necessario specificare, almeno approssimativamente, un tipo specifico di funzione. Successivamente considereremo due casi: funzioni lineari e quadratiche.
Funzione lineare .
Consideriamo la somma dei quadrati delle differenze tra i valori sperimentali e i valori della funzione nei punti corrispondenti:
(4)
Selezioniamo i parametriUN E Bin modo che questo importo abbia il valore più piccolo. Pertanto, il compito si riduce a trovare i valoriUN E B, in cui la funzione ha un minimo, cioè studiare la funzione di due variabili indipendentiUN E Bal minimo. Per fare questo, differenziamo perUN E B:
;
.
O
(5)
Sostituendo i dati sperimentali e , otteniamo un sistema di due equazioni lineari in due incogniteUN E B. Avendo risolto questo sistema, possiamo scrivere la funzione .
Assicuriamoci che per i valori trovatiUN E Bha un minimo. Per fare ciò, troviamo , e :
, , .
Quindi,
− = ,
>0,
quelli. è soddisfatta una condizione minima sufficiente per una funzione di due variabili.
Funzione quadratica .
Lascia che l'esperimento ottenga i valori della funzione nei punti . Supponiamo inoltre, sulla base di informazioni a priori, che la funzione sia quadratica:
.
Dobbiamo trovare i coefficientiUN, B E C.Abbiamo
– funzione di tre variabiliUN, B, C.
In questo caso il sistema (3) assume la forma:
O:
Avendo risolto questo sistema di equazioni lineari, determiniamo le incogniteUN, B, C.
Esempio.Lascia che si ottengano quattro valori della funzione desiderata in base all'esperimento y = (x ) con quattro valori dell'argomento, riportati nella tabella: