Supponiamo di avere le coppie di dati
con nodi
a due a due distinti, e numerosi. Cerco
dove
è una base, e
per ogni
, cioè
è il polinomio che minimizza lo scarto quadratico medio. Inoltre, introducendo nella sommatoria pesi
positivi, in modo da dare più importanza a determinati addendi rispetto ad altri, si ha
lo scopo è quello di minimizzare lo scarto quadratico medio pesato.
Consideriamo per semplicità la base canonica dell'insieme dei polinomi, quindi
. Consideriamo
e inserendo l'espressione di
nel lato destro della formula 1:
che è un funzionale nei parametri da determinare. Cerchiamo il valore dei parametri per cui otteniamo la minimizzazione di
.
Il minimo rende stazionario il gradiente di
, quindi calcoliamo le derivate parziali. Per ogni
, si ha
e invertendo le sommatorie
Abbiamo un sistema lineare di
equazioni nelle
incognite a
. Riscrivendo il tutto in maniera compatta abbiamo il sistema:
dove
mentre
Per dimostrare che la soluzione di tale sistema è un minimo, analizziamo la matrice
. Dobbiamo verificare che l'hessiana è definita positiva e simmetrica.
La matrice
è definita positiva (e di conseguenza esiste unica la soluzione del problema, e a
è un minimo per
.)
Fattorizziamo la matrice
per decomporla in pezzi, nella forma
è una matrice rettangolare di
righe e
colonne, con
,
è una matrice quadrata
, mentre
è
.
è definita nel modo seguente.
La matrice della forma
è detta matrice delle equazioni normali pesate. Il termine noto si può scrivere come
.
Dimostriamo che
è simmetrica.
perché
è diagonale.
Dimostriamo che
è definita positiva.
Per ogni
, dobbiamo dimostrare che
e definendo
si ha
Supponiamo che
abbia rango massimo. Allora
, e siccome
è definita positiva per definizione,
.
Dimostriamo che
ha rango massimo.
Caso particolare: consideriamo
. Allora
Per esteso
Questa è la sottomatrice principale della matrice di Vandermonde. Siccome i nodi sono a due a due distinti, la Vandermonde è non singolare, allora ogni sua sottomatrice ha colonne linearmente indipendenti.
ha rango massimo.
Considerando per lo spazio
una qualsiasi altra base invece di quella canonica, vale la medesima proprietà.
Infatti la matrice del cambiamento di base è non singolare e quindi il rango è conservato.
Nel caso della base canonica dei polinomi,
In particolare:
Abbiamo una matrice con elementi costanti lungo le antidiagonali. Una matrice con questa struttura viene chiamata matrice di Henkel.
Data la scrittura
, l'approssimazione ai minimi quadrati, come impostato inizialmente, consiste nella risoluzione del sistema sovradeterminato
di
equazioni in
incognite. Infatti, per minimizzare la norma del residuo, risolviamo
Non c'è una soluzione classica di questo sistema, ma dobbiamo cercare una soluzione più debole.
Per minimizzare la norma euclidea del residuo, vogliamo determinare il vettore
tale che
Invece di determinare la soluzione di
cerchiamo la soluzione di
(sistema delle equazioni normali). Se supponiamo di avere pesi
generici, possiamo definire
Possiamo pensare questa norma come la norma euclidea al quadrato di
.
Prima possibilità: consideriamo la fattorizzazione di Cholesky, per matrici simmetriche e definite positive come
.
Risolviamo quindi i sistemi
Consideriamo per semplicità
.
Analizziamo il costo computazionale nella costruzione di
:
ha
elementi, e ognuno richiede
prodotti.
è simmetrica quindi basta calcolare metà degli elementi, per un totale di
operazioni.
Siccome il costo della fattorizzazione di Cholesky di
è
, in totale abbiamo:
operazioni. Quando i dati sono molti (
grande) si hanno problemi di accuratezza e di rappresentabilità nella fattorizzazione di Cholesky.
Supponiamo di avere
di rango massimo (nel problema corrisponde a
). Calcoliamo la fattorizzazione
di
.
Considerata
(nel caso di matrici rettangolari abbiamo
colonne da annullare), otteniamo una matrice
con
righe e
colonne, suddivisa in due blocchi:
triangolare superiore e
blocco trapezoidale di zeri delle sottocolonne annullate.
Il blocco superiore è sicuramente non singolare, perché
ha rango massimo.
ma siccome
è unitaria conserva la norma 2:
e ponendo
, siccome
ha due blocchi e il secondo è nullo, e siccome
, si ha
Cerchiamo
che per quanto appena osservato è
Il primo addendo è minimo quando
e rimane
Si conclude che, data la matrice
, si calcola la fattorizzazione
e si risolve quindi
Il costo è
per la fattorizzazione e
per la risoluzione del sistema lineare, e in totale
che è maggiore di quello della fattorizzazione di Cholesky. Questo metodo però è più sicuro della fattorizzazione di Cholesky.
Tornando al problema di approssimazione, ci si chiede qual è la relazione tra
che viene dall'applicazione della
ad
generica e
che otteniamo facendo la Cholesky. Queste matrici sono uguali a meno di matrici di fase (diagonali unitarie).
e
differisce per una matrice di fase da
.
Nel caso di pesi diversi da 1, si deve considerare la norma euclidea pesata e si può ripetere il procedimento analogo.
Consideriamo la norma 2 di
quindi consideriamo
di
.
Applicando la
ad
,
.
Costruendo
con la Cholesky, si ha
.
Quindi le equazioni normali hanno lo svantaggio di un indice di condizionamento quadrato rispetto a quello di
.