Algebra 1/Statistica/Statistica Descrittiva: differenze tra le versioni
Riga 954: | Riga 954: | ||
=== Varianza e scarto quadratico medio === |
=== Varianza e scarto quadratico medio === |
||
L’indice di variabilità più utilizzato è la varianza o lo scarto quadratico medio. |
|||
{{Algebra1/Definizione| La ''varianza'' è la media dei quadrati degli scarti fra le singole osservazioni e la loro media aritmetica: |
|||
{{Testo centrato| |
|||
<math>\text{Var}=\tfrac{ \left[ (x_1-M)^2+(x_2-M)^2+ \cdots +(x_n-M)^2 \right] }{n}=\tfrac{1}{n}\sum_{i=1}^n (x_i-M)^2.</math>}} |
|||
Lo ''scarto quadratico medio'' è la radice quadrata della varianza: <math>\sigma=\sqrt{\text{Var}}</math>. }} |
|||
Se i dati si presentano sotto forma di distribuzione di frequenza, la media deve essere ponderata con le singole frequenze, cioè: |
|||
{{Testo centrato| |
|||
<math>\begin{align} |
|||
\text{Var}&=\tfrac{\left[(m_1-M)^2\cdot f_1+(m_2-M)^2\cdot f_2+ \cdots +(m_k-M)^2\cdot f_k \right]}{f_1+f_2+\ldots+f_k}=\tfrac {\sum_{i=1}^k(m_i-M)^2\cdot f_i}{\sum_{i=1}^k f_i}=\\ |
|||
&=\tfrac{1}{n}\sum_{i=1}^k(m_i-M)^2\cdot f_i. |
|||
\end{align}</math>}} |
|||
La varianza assume valore zero quando tutti i valori coincidono con la media ed è tanto più grande quanto più i singoli valori si discostano dalla media. Poiché tale indice è influenzato sia dal valore della media che dall’unità di misura utilizzato, spesso si utilizza un indice detto coefficiente di variazione. |
|||
=== Coefficiente di variazione === |
Versione delle 17:56, 15 giu 2016
Indagine statistica
Il termine statistica significa scienza dello stato. Questo termine venne usato per la prima volta nel secolo per indicare lo studio dei dati utili al governo degli stati prevalentemente relativi a fenomeni di carattere demografico (nascite, morti, ecc.). Negli anni, la statistica si è estesa ai campi più disparati: fisica, psicologia, ricerca di mercato, indici di gradimento, sondaggi, meteorologia, …È nata essenzialmente con lo scopo di descrivere i fenomeni (statistica descrittiva), successivamente è divenuta uno strumento utile anche per fare previsioni (statistica inferenziale). A grandi linee si può definire come la scienza che si occupa della raccolta e dell’analisi dei dati relativi ad un certo gruppo di persone, animali o oggetti al fine di descrivere in maniera sintetica un fenomeno che li riguarda e fare eventualmente previsioni sul suo andamento futuro.
Ad esempio, la statistica cerca di rispondere a domande del tipo:
- quanta acqua sarà necessaria in Italia fra 3 anni?
- quanta corrente elettrica sarà necessaria per il fabbisogno nazionale fra 5 anni?
- quale sarà il tasso di disoccupazione nazionale fra 1 anno?
Definizione: L’insieme di elementi oggetto dell’indagine statistica è detta popolazione o universo, mentre ciascun elemento della popolazione è detto unità statistica.
Sono esempi di popolazione statistica gli abitanti di una città in un certo anno, i prezzi di un determinato bene, le temperature massime registrate in una giornata in un particolare luogo, i ciclomotori circolanti in Italia, gli alunni di una scuola.
Definizione: Per ogni unità statistica si possono studiare una o più caratteristiche ed ognuna di tali caratteristiche costituisce un carattere della popolazione oggetto di indagine. I caratteri possono essere di tipo qualitativo o quantitativo. Si definisce modalità del carattere indagato ciascuno dei diversi modi in cui esso può presentarsi.
Sono esempi di carattere qualitativo il colore degli occhi, il colore dei capelli, il tipo di scuola frequentato, il gradimento di un certo programma televisivo. Le modalità di un carattere qualitativo sono espresse mediante nomi o aggettivi. I caratteri qualitativi sono a loro volta suddivisi in ordinabili, cioè può essere definita una relazione di ordine tra essi (per ogni coppia di elementi si può stabilire quale dei due è il primo e quale il secondo – es. il tipo di scuola frequentato è ordinabile a partire dalla scuola dell’infanzia fino alla laurea, il gradimento di un programma televisivo è ordinabile a partire dalla completa mancanza di gradimento fino al gradimento massimo) e non ordinabili o sconnessi (es. colore degli occhi, colore dei capelli).
Sono invece caratteri quantitativi l’età, l’altezza, il numero di auto prodotte da una fabbrica, …, ovvero le modalità di un carattere quantitativo sono espresse mediante numeri. I caratteri quantitativi possono essere di tipo discreto, quando assumono solo valori puntuali, oppure di tipo continuo, quando possono assumere tutti gli infiniti valori compresi in un determinato intervallo. Sono esempi di caratteri quantitativi discreti il numero di figli in una famiglia, i pezzi prodotti in una catena di montaggio; sono esempi di caratteri quantitativi continui l’altezza di una persona, il peso di una persona, la lunghezza di un fiume.
L’indagine statistica può riguardare l’intera popolazione (in tal caso si parla di censimento) oppure solo una sua parte (in tal caso si parla di indagine a campione). Supponiamo di voler effettuare un’indagine relativa alle persone che fumano in Italia. Il fenomeno collettivo in esame è il fumo, la popolazione di riferimento è costituita dalla popolazione italiana in età adulta, l’unità statistica è rappresentata da ogni cittadino oggetto dell’indagine, i caratteri oggetto dell’indagine possono essere “fumatore/non fumatore”, “numero di sigarette fumate”, che cosa si fuma (es. pipa, sigaro, sigaretta). Data l’elevata numerosità della popolazione di riferimento la tipologia di indagine preferibile è quella a campione.
A sua volta, l’indagine a campione può essere effettuata su un campione casuale, quando si scelgono a caso i campioni all’interno della popolazione o su un campione stratificato, quando si suddivide la popolazione in classi o strati senza specifici criteri e per ogni strato si prende a caso un campione.
Fasi di un’indagine statistica
Definizione: Dato un carattere oggetto di rilevazione, si definisce frequenza il numero delle unità statistiche su cui una sua modalità si presenta.
Affinché un’indagine statistica sia rigorosa (e quindi garantisca un’elevata affidabilità) è necessario che sia strutturata secondo le seguenti fasi:
- Studio del problema e impostazione dell’indagine statistica. Si individua in maniera precisa lo scopo della ricerca, il fenomeno sul quale indagare, la popolazione statistica di riferimento, le singole unità statistiche ed il carattere, o caratteri, oggetto di indagine.
- Rilevazione dei dati statistici. La rilevazione non è altro che la raccolta dei dati statistici riguardanti ogni elemento della popolazione e relativi al fenomeno che si vuole analizzare. La rilevazione può avvenire secondo diverse modalità:
- rilevazione diretta o globale
- viene eseguita direttamente su tutte le unità statistiche che formano la popolazione;
- rilevazione indiretta o parziale
- eseguita solo su una parte della popolazione. Si deve scegliere in tal caso un sottoinsieme della popolazione, detto campione, che deve essere rappresentativo della popolazione di riferimento, ovvero deve essere il più possibile eterogeneo rispetto alle caratteristiche della popolazione e contenere al suo interno un numero non troppo ristretto di unità.
- Spoglio delle schede e tabulazione. Contemporaneamente o successivamente al rilevamento, i dati raccolti vengono ordinati, suddivisi in classi omogenee e riassunti tramite tabelle dette tabelle statistiche.
- Rappresentazione dei dati statistici. La rappresentazione può avvenire attraverso diversi tipi di grafico:
- diagramma cartesiano
- rappresentazione nel piano cartesiano dei valori della variabile sull’asse orizzontale e delle relative frequenze sull’asse verticale;
- ideogramma
- si rappresenta un certo numero di dati con un simbolo;
- diagramma a barre o a colonne
- grafico composto da segmenti o barre (orizzontali o verticali) proporzionali alle frequenze;
- areogramma
- grafico a forma di cerchio composto da settori circolari con aree direttamente proporzionali alle frequenze;
- istogramma
- grafico composto da rettangoli aventi area proporzionale alla frequenza.
- Elaborazione dei dati. Con specifici algoritmi di calcolo, vengono elaborati i dati tabulati al fine di costruire opportuni indici di sintesi.
- Interpretazione dei risultati. Attraverso i grafici e gli indici è possibile descrivere le caratteristiche peculiari del fenomeno analizzato.
Analizziamo in dettaglio le singole fasi che seguono la raccolta dei dati.
Spoglio delle schede e tabulazione
Dopo aver raccolto i dati per ciascuna modalità del carattere o per ciascuna classe individuata si deve determinare:
- la frequenza assoluta, cioè il numero di volte con cui si presenta una modalità del carattere indagato;
- la frequenza relativa, cioè il rapporto tra la frequenza assoluta e il numero totale dei casi presi in esame;
- la frequenza percentuale, cioè la frequenza relativa moltiplicata per 100.
Si compila poi una tabella di frequenza che sintetizza la raccolta dei dati, come nell’esempio seguente.
Esempio: La tabella seguente fornisce la distribuzione di frequenze assolute degli alunni di una classe rispetto al carattere sesso. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Per costruirla, si è operata la classificazione della popolazione degli alunni della classe rispetto ad un determinato carattere (il sesso), sono state individuate le modalità con cui questo si è manifestato (femmina, maschio) ed è stato effettuato il conteggio delle unità in corrispondenza di ciascuna modalità (frequenza assoluta). Dalle frequenze assolute si ricavano le frequenze relative: alunni su sono femmine: la frazione è di femmine sul totale degli alunni. Quindi Dall’operazione diviso otteniamo (approssimando a due cifre decimali) che è la frequenza relativa. La frazione può essere espressa in forma percentuale: equivale a dire su ed è consuetudine scriverlo in forma percentuale . Tale valore è la frequenza percentuale.
Ripetendo lo stesso procedimento per i maschi si ottiene la seguente tabella delle frequenze:
Riassumendo Rappresentazione graficaLa rappresentazione grafica dei dati statistici facilita notevolmente lo studio delle caratteristiche del fenomeno che si sta esaminando; infatti dopo aver impostato l’indagine, raccolto, classificato ed elaborato i dati nelle tabelle, i dati non sempre si presentano in una forma di facile lettura ed il loro significato e la loro interpretazione rimane poco chiara. Attraverso la rappresentazione grafica, i risultati dell’indagine emergono immediatamente, in maniera diretta e sintetica. La rappresentazione grafica può avvenire utilizzando diversi tipi di grafico a seconda delle caratteristiche da analizzare. Diagramma cartesianoLa rappresentazione grafica attraverso un diagramma cartesiano dà, in modo immediato, informazioni sull’andamento globale del fenomeno e viene utilizzata prevalentemente per la rappresentazione di serie storiche (per esempio, per rappresentare il numero di auto prodotte per anno da una fabbrica) oppure quando si hanno due caratteri quantitativi e si vuol analizzare il tipo di legame esistente fra di essi.
IdeogrammaNella rappresentazione grafica attraverso ideogramma si rappresenta un certo numero di dati con un simbolo che si assume come unità grafica; il simbolo deve richiamare l’oggetto dell’indagine e dare quindi una visione immediata del fenomeno. Ad esempio si può utilizzare un uomo stilizzato per rappresentare un dato riguardante il numero di persone che vivono in un determinato territorio, una macchina per la produzione annua di automobili in una fabbrica, e così via. Tale tipo di rappresentazione è spesso usata in campo pubblicitario perché caratterizzata da un evidente impatto visivo.
Diagramma a barre o a colonneQuesto tipo di rappresentazione, detta anche diagramma a nastri o a bastoni, viene usata quando si vuole fornire un’idea delle frequenze delle diverse modalità di un fenomeno. In genere si usa per caratteri qualitativi o quantitativi discreti. Per poter valutare il significato statistico della lunghezza delle barre (o delle colonne) è necessario scegliere opportunamente una scala di riferimento: la larghezza della barra (o della colonna) è arbitraria ma uguale per tutte le barre (o colonne) e la sua lunghezza è proporzionale alla caratteristica che si deve rappresentare. Le barre (o le colonne) possono inoltre essere suddivise in parti di colori diversi per indicare le singole componenti o i singoli fenomeni che si vogliono analizzare. La differenza fra la rappresentazione a barre e quella a colonne consiste soltanto nell’orientamento del grafico: nel diagramma a barre si indicano le modalità del carattere sull’asse verticale e le frequenze sull’asse orizzontale, mentre in quello a colonne le modalità del carattere sono riportate sull’asse orizzontale e le frequenze su quello verticale. Di seguito vengono riportate le due tipologie di grafico accompagnate dalla tabella di riferimento:
AreogrammaQuesto tipo di rappresentazione, detta anche grafico a torta, viene utilizzato quando si vogliono evidenziare le parti che compongono un fenomeno, per esempio per indicare come si dividono gli alunni di una classe in maschi e femmine, o per rappresentare in che modo le varie voci di spesa incidono sul bilancio familiare. Il grafico si ottiene dividendo un cerchio in settori circolari con aree direttamente proporzionali alle frequenze che rappresentano. Per disegnare l’areogramma, si disegna una circonferenza di diametro arbitrario e si fa corrispondere l’angolo al centro di , con il di frequenza percentuale; per ottenere l’angolo corrispondente ad una certa frequenza percentuale si risolve la proporzione . Si suddivide così la circonferenza negli angoli ottenuti e si evidenziano in maniera differente tra loro i settori circolari ottenuti.
IstogrammaSi utilizza la rappresentazione grafica attraverso istogramma quando il carattere analizzato è di tipo quantitativo ed i dati sono raggruppati in classi. Prima di tutto si distribuiscono i dati in classi o gruppi e si determina il numero di unità appartenenti a ciascuna classe; questo numero è detto frequenza della classe. Riportando tali dati in una tabella si ottiene la distribuzione delle frequenze. Poiché le classi potrebbero avere ampiezze diverse si calcola la densità di frequenza, definita come il rapporto fra la frequenza della classe e la relativa ampiezza. Per disegnare un istogramma si tracciano due assi; sull’asse verticale, orientato verso l’alto, si fissa un segmento unitario e vi si riportano le densità di frequenza. L’asse orizzontale, orientato verso destra, è invece suddiviso in tanti segmenti la cui ampiezza è pari a quella delle singole classi. Il grafico consiste in un insieme di rettangoli aventi per base ogni classe e altezza la densità di frequenza corrispondente. In tal modo l’area di ogni rettangolo rappresenta la frequenza corrispondente a ciascuna classe.
Indici di posizioneNel caso in cui il carattere considerato nell’indagine sia di tipo quantitativo, l’andamento dei dati raccolti può essere sinteticamente descritto per mezzo di opportuni indici. Gli indici di posizione vengono utilizzati per dare un’indicazione sulla distribuzione delle frequenze per mezzo di un solo numero. A seconda del carattere oggetto dell’indagine statistica possono essere utilizzati indici differenti. ModaDefinizione: La moda è la modalità del carattere indagato che si presenta più frequentemente.
In una successione di modalità , , …, con le relative frequenze , , …, , la moda è la modalità che ha la frequenza maggiore. Questo valore può essere calcolato per qualunque tipo di carattere, sia qualitativo che quantitativo. Se il carattere è quantitativo continuo con dati raggruppati in classi non è possibile determinare con esattezza la moda, ci si limita ad individuare la classe modale definita come la classe cui è associata la massima densità di frequenza.
Media aritmeticaDefinizione: La media aritmetica (semplice) è il valore ottenuto sommando tutti i dati e dividendo tale somma per il numero dei dati.
Se abbiamo dati , , …, , la media aritmetica semplice è data da:
Definizione: Si definisce scarto dalla media (aritmetica) la differenza tra i valori osservati e la media.
Se , , , sono i valori osservati e la loro media aritmetica, gli scarti sono
, , …, .
Definizione: La media aritmetica ponderata è il valore ottenuto moltiplicando ciascuna modalità del carattere dato con la propria frequenza, sommando tutti i prodotti fra loro e dividendo poi per la somma delle frequenze (che equivale al numero totale delle unità statistiche considerate).
La media aritmetica ponderata si usa nel caso in cui le unità statistiche sono molte ed è già stata fatta la tabella delle frequenze. Avendo quindi le modalità del carattere , , , e le relative frequenze , , , , la media aritmetica ponderata è data da:
Il valore della media aritmetica semplice effettuata sulle singole unità statistiche coincide con quella ponderata effettuata sul raggruppamento dei dati per modalità del carattere considerato (tabella delle frequenze). MedianaDefinizione: La mediana di una successione di dati disposti in ordine crescente è il valore equidistante dagli estremi, cioè è
Poiché per calcolare la mediana i dati devono essere ordinati, è bene sottolineare che tale indice non può essere calcolato se il carattere in esame è di tipo qualitativo non ordinabile. Esempio: Supponiamo di avere 7 dati disposti in ordine crescente: 5, 8, 10, 14, 18, 20, 25. Allora la mediana è il valore centrale, quello che occupa la quarta posizione, cioè il 14. Esempio: Supponiamo di avere 8 dati disposti in ordine crescente: 1, 5, 8, 10, 14, 18, 20, 25. La mediana è la media aritmetica dei dati che occupano la 4a e la 5a posizione, cioè .
Indici di variabilitàGli indici di variabilità vengono calcolati per analizzare in che modo i termini di una distribuzione si concentrano intorno ad un valore medio. Definizione: Il campo di variazione è la differenza fra il valore massimo ed il valore minimo assunti dalla variabile: .
Tale indice dà un’informazione molto grossolana perché tiene conto solo del primo e dell’ultimo termine della distribuzione e non tiene conto di tutti i valori intermedi. Si considerino, ad esempio, le seguenti distribuzioni di stature:
Entrambe le distribuzioni hanno lo stesso valore massimo e lo stesso valore minimo e quindi lo stesso campo di variazione, ma mentre nella prima i valori sono concentrati verso il valore minimo nella seconda si concentrano intorno al valore massimo. L’indice non dà quindi alcuna indicazione su quest’ultima informazione. Né può essere utilizzato come indice di variabilità la media degli scarti fra le singole osservazioni e la loro media aritmetica perché tale valore è sempre uguale a zero. Scarto medio assolutoDefinizione: Si definisce scarto medio assoluto la media aritmetica dei valori assoluti degli scarti; esso indica quanto i valori rilevati si disperdono intorno al valore medio della distribuzione:
Facendo riferimento alla distribuzione
si ha che lo scarto medio assoluto è . Si può allora affermare che in ogni tipologia di classe si hanno in media iscritti. Varianza e scarto quadratico medioL’indice di variabilità più utilizzato è la varianza o lo scarto quadratico medio. Definizione: La varianza è la media dei quadrati degli scarti fra le singole osservazioni e la loro media aritmetica: Lo scarto quadratico medio è la radice quadrata della varianza: .
Se i dati si presentano sotto forma di distribuzione di frequenza, la media deve essere ponderata con le singole frequenze, cioè: La varianza assume valore zero quando tutti i valori coincidono con la media ed è tanto più grande quanto più i singoli valori si discostano dalla media. Poiché tale indice è influenzato sia dal valore della media che dall’unità di misura utilizzato, spesso si utilizza un indice detto coefficiente di variazione. Coefficiente di variazione |