20.09.2019

Formula di varianza delle caratteristiche. Indicatori relativi di variazione. La varianza è convenientemente calcolata da una formula che è facile da ottenere utilizzando le proprietà della varianza


I principali indicatori generalizzanti di variazione nelle statistiche sono la dispersione e la deviazione standard.

Dispersione esso significato aritmetico deviazioni al quadrato di ciascun valore della caratteristica dalla media totale. La varianza è solitamente chiamata il quadrato medio delle deviazioni ed è indicata con  2 . A seconda dei dati iniziali, la varianza può essere calcolata dalla media aritmetica, semplice o pesata:

 dispersione non ponderata (semplice);

 varianza ponderata.

Deviazione standard è una caratteristica generalizzante delle dimensioni assolute variazioni caratteristica nell'aggregato. È espresso nelle stesse unità del segno (in metri, tonnellate, percentuale, ettari, ecc.).

La deviazione standard è la radice quadrata della varianza ed è indicata da :

 deviazione standard non ponderata;

 deviazione standard ponderata.

La deviazione standard è una misura dell'affidabilità della media. Minore è la deviazione standard, migliore è la media aritmetica che riflette l'intera popolazione rappresentata.

Il calcolo della deviazione standard è preceduto dal calcolo della varianza.

La procedura per calcolare la varianza ponderata è la seguente:

1) determinare la media aritmetica pesata:

2) calcolare gli scostamenti delle opzioni dalla media:

3) al quadrato la deviazione di ciascuna opzione dalla media:

4) moltiplicare le deviazioni al quadrato per i pesi (frequenze):

5) riassumere i lavori ricevuti:

6) l'importo risultante viene diviso per la somma dei pesi:

Esempio 2.1

Calcola la media aritmetica pesata:

I valori delle deviazioni dalla media e i loro quadrati sono presentati nella tabella. Definiamo la varianza:

La deviazione standard sarà pari a:

Se i dati di origine sono presentati come un intervallo serie di distribuzione , devi prima determinare il valore discreto della funzione, quindi applicare il metodo descritto.

Esempio 2.2

Mostriamo il calcolo della varianza per le serie di intervallo sui dati sulla distribuzione della superficie seminata del colcos per la resa del frumento.

La media aritmetica è:

Calcoliamo la varianza:

6.3. Calcolo della dispersione secondo la formula dei dati individuali

Tecnica di calcolo dispersione complesso e per grandi valori di opzioni e frequenze può essere ingombrante. I calcoli possono essere semplificati utilizzando le proprietà di dispersione.

La dispersione ha le seguenti proprietà.

1. Una diminuzione o un aumento dei pesi (frequenze) di una caratteristica variabile di un certo numero di volte non cambia la dispersione.

2. Diminuendo o aumentando ogni valore di caratteristica dello stesso valore costante MA la dispersione non cambia.

3. Diminuendo o aumentando il valore di ciascuna caratteristica di un certo numero di volte K rispettivamente riduce o aumenta la varianza in K 2 volte deviazione standard  dentro K una volta.

4. La varianza di una caratteristica rispetto a un valore arbitrario è sempre maggiore della varianza relativa alla media aritmetica per il quadrato della differenza tra i valori medi e arbitrari:

Se una MA 0, allora si arriva alla seguente uguaglianza:

cioè, la varianza di una caratteristica è uguale alla differenza tra il quadrato medio dei valori della caratteristica e il quadrato della media.

Ogni proprietà può essere utilizzata da sola o in combinazione con altre nel calcolo della varianza.

La procedura per calcolare la varianza è semplice:

1) determinare significato aritmetico :

2) al quadrato la media aritmetica:

3) al quadrato la deviazione di ciascuna variante della serie:

X io 2 .

4) trova la somma dei quadrati delle opzioni:

5) dividere la somma dei quadrati delle opzioni per il loro numero, ovvero determinare il quadrato medio:

6) determinare la differenza tra il quadrato medio dell'elemento e il quadrato della media:

Esempio 3.1 Abbiamo i seguenti dati sulla produttività dei lavoratori:

Facciamo i seguenti calcoli:

Spesso nelle statistiche, quando si analizza un fenomeno o un processo, è necessario tenere conto non solo delle informazioni sui livelli medi degli indicatori studiati, ma anche dispersione o variazione dei valori delle singole unità , che è una caratteristica importante della popolazione studiata.

I prezzi delle azioni, i volumi della domanda e dell'offerta, i tassi di interesse in diversi periodi di tempo e in luoghi diversi sono soggetti alle maggiori variazioni.

I principali indicatori che caratterizzano la variazione , sono l'intervallo, la varianza, la deviazione standard e il coefficiente di variazione.

Variazione dell'intervallo è la differenza tra i valori massimo e minimo dell'attributo: R = Xmax – Xmin. Lo svantaggio di questo indicatore è che valuta solo i limiti della variazione del tratto e non riflette la sua fluttuazione all'interno di questi limiti.

Dispersione privo di questa mancanza. Viene calcolato come il quadrato medio delle deviazioni dei valori degli attributi dal loro valore medio:

Metodo semplificato per calcolare la varianza si effettua con le seguenti formule (semplice e ponderata):

Esempi dell'applicazione di queste formule sono presentati nelle attività 1 e 2.

Un indicatore ampiamente utilizzato in pratica è deviazione standard :

La deviazione standard è definita come la radice quadrata della varianza e ha la stessa dimensione del tratto in studio.

Gli indicatori considerati consentono di ottenere il valore assoluto della variazione, ovvero valutarlo in unità di misura del tratto in studio. A differenza di loro, il coefficiente di variazione misura la fluttuazione in termini relativi - rispetto al livello medio, che in molti casi è preferibile.

Formula per il calcolo del coefficiente di variazione.

Esempi di risoluzione di problemi sull'argomento "Indicatori di variazione nelle statistiche"

Compito 1 . Nello studio dell'influenza della pubblicità sulla dimensione del deposito mensile medio nelle banche della regione, sono state esaminate 2 banche. Si ottengono i seguenti risultati:

Definire:
1) per ciascuna banca: a) deposito medio mensile; b) dispersione del contributo;
2) il deposito medio mensile per due banche insieme;
3) Dispersione del deposito per 2 banche, a seconda della pubblicità;
4) Dispersione del deposito per 2 banche, a seconda di tutti i fattori tranne la pubblicità;
5) Variazione totale utilizzando la regola dell'addizione;
6) Coefficiente di determinazione;
7) Relazione di correlazione.

Soluzione

1) Facciamo una tabella di calcolo per una banca con pubblicità . Per determinare il deposito medio mensile, troviamo i punti medi degli intervalli. In questo caso, il valore dell'intervallo aperto (il primo) è condizionatamente equiparato al valore dell'intervallo ad esso adiacente (il secondo).

Troviamo la dimensione media del contributo utilizzando la formula della media aritmetica pesata:

29.000/50 = 580 rubli

La dispersione del contributo si trova con la formula:

23 400/50 = 468

Eseguiremo azioni simili per una banca senza pubblicità :

2) Trova il deposito medio per due banche insieme. Xav \u003d (580 × 50 + 542,8 × 50) / 100 \u003d 561,4 rubli.

3) La varianza del deposito, per due banche, a seconda della pubblicità, la troveremo con la formula: σ 2 =pq (formula della varianza di un attributo alternativo). Qui p=0,5 è la proporzione di fattori che dipendono dalla pubblicità; q=1-0,5, quindi σ 2 =0,5*0,5=0,25.

4) Poiché la quota di altri fattori è 0,5, anche la varianza del deposito per due banche, che dipende da tutti i fattori tranne la pubblicità, è 0,25.

5) Determinare la varianza totale utilizzando la regola dell'addizione.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 \u003d σ 2 fatto + σ 2 resto \u003d 552,08 + 345,96 \u003d 898,04

6) Coefficiente di determinazione η 2 = σ 2 fatto / σ 2 = 345,96/898,04 = 0,39 = 39% - l'entità del contributo dipende dalla pubblicità del 39%.

7) Rapporto di correlazione empirica η = √η 2 = √0,39 = 0,62 - la relazione è abbastanza stretta.

Compito 2 . Esiste un raggruppamento di imprese in base al valore dei prodotti commerciabili:

Determinare: 1) la dispersione del valore dei prodotti commerciabili; 2) deviazione standard; 3) coefficiente di variazione.

Soluzione

1) Per condizione, viene presentata una serie di distribuzioni di intervallo. Deve essere espresso in modo discreto, cioè trovare la metà dell'intervallo (x "). Nei gruppi di intervalli chiusi, troviamo la metà con una semplice media aritmetica. Nei gruppi con un limite superiore, come differenza tra questo limite superiore e metà della dimensione dell'intervallo che lo segue (200-(400 -200):2=100).

Nei gruppi con un limite inferiore - la somma di questo limite inferiore e metà della dimensione dell'intervallo precedente (800+(800-600):2=900).

Il calcolo del valore medio dei prodotti commerciabili avviene secondo la formula:

Хср = k×((Σ((x"-a):k)×f):Σf)+a. Qui a=500 è la dimensione della variante alla frequenza più alta, k=600-400=200 è la dimensione dell'intervallo alla frequenza più alta Mettiamo il risultato in una tabella:

Quindi, il valore medio della produzione commerciabile per il periodo in esame nel suo insieme è Xav = (-5:37) × 200 + 500 = 472,97 mila rubli.

2) Troviamo la dispersione usando la seguente formula:

σ 2 \u003d (33/37) * 2002-(472,97-500) 2 \u003d 35.675,67-730,62 \u003d 34.945,05

3) deviazione standard: σ = ±√σ 2 = ±√34 945,05 ≈ ±186,94 mila rubli.

4) coefficiente di variazione: V \u003d (σ / Xav) * 100 \u003d (186,94 / 472,97) * 100 \u003d 39,52%

Gamma di variazione (o gamma di variazione) -è la differenza tra i valori massimo e minimo della caratteristica:

Nel nostro esempio, l'intervallo di variazione della produzione di turni dei lavoratori è: nella prima brigata R=105-95=10 bambini, nella seconda brigata R=125-75=50 bambini. (5 volte di più). Ciò suggerisce che l'uscita della 1a brigata è più "stabile", ma la seconda brigata ha più riserve per la crescita della produzione, perché. se tutti i lavoratori raggiungono la produzione massima per questa brigata, può produrre 3 * 125 = 375 parti e nella 1a brigata solo 105 * 3 = 315 parti.
Se i valori estremi dell'attributo non sono tipici per la popolazione, vengono utilizzati gli intervalli di quartile o decile. L'intervallo di quartile RQ= Q3-Q1 copre il 50% della popolazione, il primo intervallo di decile RD1 = D9-D1 copre l'80% dei dati, il secondo intervallo di decile RD2= D8-D2 copre il 60%.
Lo svantaggio dell'indicatore dell'intervallo di variazione è che il suo valore non riflette tutte le fluttuazioni del tratto.
L'indicatore generalizzante più semplice che riflette tutte le fluttuazioni di un tratto è deviazione lineare media, che è la media aritmetica degli scostamenti assoluti delle singole opzioni dal loro valore medio:

,
per i dati raggruppati
,
dove хi è il valore dell'attributo in una serie discreta o al centro dell'intervallo nella distribuzione dell'intervallo.
Nelle formule precedenti si prendono modulo le differenze del numeratore, altrimenti, per la proprietà della media aritmetica, il numeratore sarà sempre uguale a zero. Pertanto, la deviazione lineare media viene utilizzata raramente nella pratica statistica, solo nei casi in cui la somma degli indicatori senza tener conto del segno ha un senso economico. Con il suo aiuto, ad esempio, vengono analizzate la composizione dei dipendenti, la redditività della produzione e il fatturato del commercio estero.
Variazione delle caratteristicheè il quadrato medio delle deviazioni della variante dal loro valore medio:
semplice varianza
,
varianza ponderata
.
La formula per il calcolo della varianza può essere semplificata:

Pertanto, la varianza è uguale alla differenza tra la media dei quadrati della variante e il quadrato della media della variante della popolazione:
.
Tuttavia, a causa della somma delle deviazioni al quadrato, la varianza fornisce un'idea distorta delle deviazioni, quindi la media viene calcolata da essa. deviazione standard, che mostra quanto le varianti specifiche dell'attributo si discostano in media dal loro valore medio. Calcolato prendendo la radice quadrata della varianza:
per dati non raggruppati
,
per la serie di variazioni

Minore è il valore della varianza e della deviazione standard, più omogenea è la popolazione, più affidabile (tipico) sarà il valore medio.
La deviazione media lineare e quadrata media sono numeri denominati, cioè sono espressi in unità di misura dell'attributo, sono identici nel contenuto e vicini nel valore.
Si raccomanda di calcolare gli indicatori assoluti di variazione mediante tabelle.
Tabella 3 - Calcolo delle caratteristiche di variazione (sull'esempio del periodo dei dati sull'output dei turni delle squadre di lavoro)


Numero di lavoratori

La metà dell'intervallo

Valori stimati

Totale:

Produzione media di turni dei lavoratori:

Deviazione lineare media:

Dispersione in uscita:

La deviazione standard della produzione dei singoli lavoratori dalla produzione media:
.

1 Calcolo della dispersione con il metodo dei momenti

Il calcolo delle varianze è associato a calcoli macchinosi (soprattutto se la media è espressa come un numero grande con più cifre decimali). I calcoli possono essere semplificati utilizzando una formula semplificata e proprietà di dispersione.
La dispersione ha le seguenti proprietà:

  1. se tutti i valori dell'attributo vengono ridotti o aumentati dello stesso valore A, la varianza non diminuirà da questo:

,

, quindi o
Usando le proprietà della varianza e riducendo prima tutte le varianti della popolazione per il valore A, e poi dividendo per il valore dell'intervallo h, otteniamo una formula per calcolare la varianza in serie variazionali con intervalli uguali modo dei momenti:
,
dove è la dispersione calcolata con il metodo dei momenti;
h è il valore dell'intervallo della serie di variazioni;
– nuovi valori di variante (trasformati);
A è un valore costante, che viene utilizzato come metà dell'intervallo con la frequenza più alta; o la variante con la frequenza più alta;
è il quadrato del momento del primo ordine;
è un momento del secondo ordine.
Calcoliamo la varianza con il metodo dei momenti in base ai dati sull'output del turno del team di lavoro.
Tabella 4 - Calcolo della dispersione con il metodo dei momenti


Gruppi di addetti alla produzione, pz.

Numero di lavoratori

La metà dell'intervallo

Valori stimati

Procedura di calcolo:


  1. calcola la varianza:

2 Calcolo della varianza di una caratteristica alternativa

Tra i segni studiati dalla statistica, ci sono quelli che hanno solo due significati che si escludono a vicenda. Questi sono segni alternativi. Vengono assegnati loro due valori quantitativi, rispettivamente: opzioni 1 e 0. La frequenza delle opzioni 1, che è indicata da p, è la proporzione di unità che hanno questa caratteristica. La differenza 1-p=q è la frequenza delle opzioni 0. Quindi,


xi

Media aritmetica della caratteristica alternativa
, poiché p+q=1.

Variazione delle caratteristiche
, perché 1-p=q
Pertanto, la varianza di un attributo alternativo è uguale al prodotto della proporzione di unità che hanno questo attributo e della proporzione di unità che non hanno questo attributo.
Se i valori 1 e 0 sono ugualmente frequenti, cioè p=q, la varianza raggiunge il suo massimo pq=0,25.
La variabile varianza viene utilizzata nelle indagini campionarie, ad esempio la qualità del prodotto.

3 Dispersione intergruppo. Regola di addizione della varianza

La dispersione, a differenza di altre caratteristiche della variazione, è una quantità additiva. Cioè, in aggregato, che è diviso in gruppi secondo il criterio del fattore X , varianza risultante y può essere scomposto in varianza all'interno di ciascun gruppo (all'interno del gruppo) e varianza tra gruppi (tra gruppo). Quindi, insieme allo studio della variazione del tratto nell'intera popolazione, diventa possibile studiare la variazione in ciascun gruppo, così come tra questi gruppi.

Variazione totale misura la variazione di un tratto a sull'intera popolazione sotto l'influenza di tutti i fattori che hanno determinato tale variazione (deviazioni). È uguale al quadrato medio delle deviazioni dei singoli valori della caratteristica a della media complessiva e può essere calcolata come varianza semplice o ponderata.
Varianza intergruppo caratterizza la variazione della caratteristica effettiva a, causato dall'influenza del fattore segno X alla base del raggruppamento. Caratterizza la variazione delle medie del gruppo ed è uguale al quadrato medio delle deviazioni delle medie del gruppo dalla media totale:
,
dove è la media aritmetica dell'i-esimo gruppo;
– numero di unità nell'i-esimo gruppo (frequenza dell'i-esimo gruppo);
è la media totale della popolazione.
Varianza intragruppo riflette la variazione casuale, cioè quella parte della variazione che è causata dall'influenza di fattori non contabilizzati e non dipende dall'attributo-fattore alla base del raggruppamento. Caratterizza la variazione dei valori individuali rispetto alle medie di gruppo, è uguale al quadrato medio delle deviazioni dei valori individuali del tratto a all'interno di un gruppo dalla media aritmetica di questo gruppo (media del gruppo) e viene calcolata come varianza semplice o ponderata per ciascun gruppo:
o ,
dove è il numero di unità nel gruppo.
Sulla base delle varianze intragruppo per ciascun gruppo, è possibile determinare la media complessiva delle varianze all'interno del gruppo:
.
Viene chiamata la relazione tra le tre varianze regole di addizione della varianza, secondo cui la varianza totale è uguale alla somma della varianza infragruppo e della media delle varianze infragruppo:

Esempio. Studiando l'influenza della categoria tariffaria (qualifica) dei lavoratori sul livello di produttività del loro lavoro, sono stati ottenuti i seguenti dati.
Tabella 5 - Distribuzione dei lavoratori per produzione oraria media.



p/p

Operai di 4a categoria

Operai di 5a categoria

Allenarsi
operaio, pz.,

Allenarsi
operaio, pz.,

1
2
3
4
5
6

7
9
9
10
12
13

7-10=-3
9-10=-1
-1
0
2
3

9
1
1
0
4
9

1
2
3
4

14
14
15
17

14-15=-1
-1
0
2

1
1
0
4

In questo esempio, i lavoratori sono divisi in due gruppi in base al fattore X- qualifiche, che sono caratterizzate dal loro grado. Il tratto effettivo - produzione - varia sia sotto la sua influenza (variazione intergruppo) sia a causa di altri fattori casuali (variazione intragruppo). La sfida consiste nel misurare queste variazioni utilizzando tre varianze: totale, tra i gruppi e all'interno del gruppo. Il coefficiente di determinazione empirico mostra la proporzione della variazione della caratteristica risultante a sotto l'influenza di un segno di fattore X. Il resto della variazione totale a causato da cambiamenti in altri fattori.
Nell'esempio, il coefficiente di determinazione empirico è:
o 66,7%,
Ciò significa che il 66,7% della variazione della produttività del lavoro dei lavoratori è dovuto alle differenze nelle qualifiche e il 33,3% all'influenza di altri fattori.
Relazione di correlazione empirica mostra la stretta relazione tra il raggruppamento e le caratteristiche effettive. Si calcola come radice quadrata del coefficiente di determinazione empirico:

Il rapporto di correlazione empirica, così come, può assumere valori da 0 a 1.
Se non c'è connessione, allora =0. In questo caso, =0, cioè le medie del gruppo sono uguali tra loro e non vi è alcuna variazione intergruppo. Ciò significa che il segno di raggruppamento - il fattore non influisce sulla formazione della variazione generale.
Se la relazione è funzionale, allora =1. In questo caso, la varianza delle medie di gruppo è uguale alla varianza totale (), cioè non vi è alcuna variazione intragruppo. Ciò significa che la caratteristica di raggruppamento determina completamente la variazione della caratteristica risultante da studiare.
Quanto più vicino è il valore della relazione di correlazione a uno, tanto più vicina, vicina alla dipendenza funzionale, la relazione tra le caratteristiche.
Per una valutazione qualitativa della vicinanza della connessione tra i segni si utilizzano le relazioni di Chaddock.

Nell'esempio , che indica una stretta relazione tra la produttività dei lavoratori e le loro qualifiche.

Dispersionevariabile casuale- una misura della dispersione di un dato variabile casuale, cioè lei deviazioni dall'aspettativa matematica. In statistica, la notazione (sigma al quadrato) è spesso usata per denotare la varianza. Si chiama la radice quadrata della varianza deviazione standard o diffusione standard. La deviazione standard viene misurata nelle stesse unità della variabile casuale stessa e la varianza viene misurata nei quadrati di tale unità.

Sebbene sia molto conveniente utilizzare un solo valore (come media o moda e mediana) per stimare l'intero campione, questo approccio può facilmente portare a conclusioni errate. La ragione di questa situazione non risiede nel valore in sé, ma nel fatto che un valore non riflette in alcun modo la diffusione dei valori dei dati.

Ad esempio, nel campione:

la media è 5.

Tuttavia, non vi è alcun elemento nel campione stesso con un valore di 5. Potrebbe essere necessario sapere quanto ogni elemento del campione è vicino al suo valore medio. O, in altre parole, è necessario conoscere la varianza dei valori. Conoscendo la misura in cui i dati sono cambiati, puoi interpretare meglio significare, mediano e moda. Il grado di variazione dei valori campione è determinato calcolando la loro varianza e deviazione standard.



La varianza e la radice quadrata della varianza, chiamata deviazione standard, caratterizzano la deviazione media dalla media campionaria. Tra queste due quantità, la più importante è deviazione standard. Questo valore può essere rappresentato come la distanza media alla quale gli elementi sono dall'elemento centrale del campione.

La dispersione è difficile da interpretare in modo significativo. Tuttavia, la radice quadrata di questo valore è la deviazione standard e si presta bene all'interpretazione.

La deviazione standard viene calcolata determinando prima la varianza e quindi calcolando la radice quadrata della varianza.

Ad esempio, per l'array di dati mostrato in figura, si otterranno i seguenti valori:

Immagine 1

Qui, la media delle differenze al quadrato è 717,43. Per ottenere la deviazione standard, resta solo da prendere la radice quadrata di questo numero.

Il risultato sarà di circa 26.78.

Va ricordato che la deviazione standard è interpretata come la distanza media alla quale gli elementi sono dalla media campionaria.

La deviazione standard mostra quanto bene la media descrive l'intero campione.

Diciamo che sei il capo del reparto produzione per l'assemblaggio di un PC. Il rapporto trimestrale afferma che l'output per l'ultimo trimestre è stato di 2500 PC. È cattivo o buono? Hai chiesto (o c'è già questa colonna nel rapporto) di visualizzare la deviazione standard per questi dati nel rapporto. Il numero di deviazione standard, ad esempio, è 2000. A te, come capo del dipartimento, diventa chiaro che la linea di produzione ha bisogno di un controllo migliore (scostamenti troppo grandi nel numero di PC da assemblare).

Ricordiamo che quando la deviazione standard è grande, i dati sono ampiamente sparsi attorno alla media e quando la deviazione standard è piccola, si raggruppano vicino alla media.

Quattro funzioni statistiche VARP(), VARP(), STDEV() e STDEV() sono progettate per calcolare la varianza e la deviazione standard dei numeri in un intervallo di celle. Prima di poter calcolare la varianza e la deviazione standard di un set di dati, è necessario determinare se i dati rappresentano la popolazione o un campione della popolazione. Nel caso di un campione della popolazione generale, dovrebbero essere utilizzate le funzioni VARP() e STDEV(), e nel caso della popolazione generale, dovrebbero essere utilizzate le funzioni VARP() e STDEV():

Popolazione Funzione

VARP()

STDLUNGO()
Campione

VARI()

DEV.ST()

La varianza (così come la deviazione standard), come abbiamo notato, indica la misura in cui i valori inclusi nel set di dati sono sparsi attorno alla media aritmetica.

Un piccolo valore della varianza o deviazione standard indica che tutti i dati sono centrati attorno alla media aritmetica e un valore grande di questi valori indica che i dati sono sparsi su un ampio intervallo di valori.

La varianza è piuttosto difficile da interpretare in modo significativo (cosa significa un valore piccolo, un valore grande?). Prestazione Compiti 3 ti permetterà di mostrare visivamente, su un grafico, il significato della varianza per un set di dati.

Compiti

· Esercizio 1.

· 2.1. Fornisci i concetti: varianza e deviazione standard; la loro designazione simbolica nell'elaborazione di dati statistici.

· 2.2. Redigere un foglio di lavoro secondo la Figura 1 ed eseguire i calcoli necessari.

· 2.3. Fornisci le formule di base utilizzate nei calcoli

· 2.4. Spiega tutte le notazioni ( , , )

· 2.5. Spiegare il significato pratico del concetto di varianza e deviazione standard.

Compito 2.

1.1. Fornire i concetti: popolazione generale e campione; aspettativa matematica e media aritmetica della loro designazione simbolica nell'elaborazione di dati statistici.

1.2. In conformità con la Figura 2, redigere un foglio di lavoro ed eseguire calcoli.

1.3. Fornire le formule di base utilizzate nei calcoli (per la popolazione generale e il campione).

figura 2

1.4. Spiegare perché è possibile ottenere tali valori di mezzi aritmetici in campioni come 46.43 e 48.78 (vedi file Appendice). Concludere.

Compito 3.

Ci sono due campioni con un diverso set di dati, ma la media per loro sarà la stessa:

Figura 3

3.1. Redigere un foglio di lavoro secondo la Figura 3 ed eseguire i calcoli necessari.

3.2. Fornisci le formule di calcolo di base.

3.3. Costruisci grafici secondo le figure 4, 5.

3.4. Spiega le dipendenze risultanti.

3.5. Eseguire calcoli simili per questi due campioni.

Campione iniziale 11119999

Seleziona i valori del secondo campione in modo che la media aritmetica per il secondo campione sia la stessa, ad esempio:

Scegli tu stesso i valori per il secondo campione. Disporre i calcoli e tracciare come le figure 3, 4, 5. Mostra le formule principali che sono state utilizzate nei calcoli.

Trai le conclusioni appropriate.

Tutti i compiti dovrebbero essere presentati sotto forma di un rapporto con tutte le figure, i grafici, le formule e le brevi spiegazioni necessarie.

Nota: la costruzione dei grafici deve essere spiegata con figure e brevi spiegazioni.

La dispersione è una misura della dispersione che descrive la deviazione relativa tra i valori dei dati e la media. È la misura di dispersione più comunemente usata in statistica, calcolata sommando, al quadrato, la deviazione di ciascun valore di dato dalla media. La formula per calcolare la varianza è mostrata di seguito:

s 2 - varianza campionaria;

x cf è il valore medio del campione;

n dimensione del campione (numero di valori di dati),

(x i – x cf) è la deviazione dal valore medio per ciascun valore del set di dati.

Per comprendere meglio la formula, diamo un'occhiata a un esempio. Non mi piace molto cucinare, quindi lo faccio raramente. Tuttavia, per non morire di fame, di tanto in tanto devo andare ai fornelli per mettere in atto il piano per saturare il mio corpo con proteine, grassi e carboidrati. Il set di dati di seguito mostra quante volte Renat cuoce gli alimenti ogni mese:

Il primo passo per calcolare la varianza è determinare la media campionaria, che nel nostro esempio è 7,8 volte al mese. I restanti calcoli possono essere facilitati con l'aiuto della tabella seguente.

La fase finale del calcolo della varianza si presenta così:

Per coloro a cui piace fare tutti i calcoli in una volta, l'equazione sarà simile a questa:

Utilizzando il metodo del conteggio grezzo (esempio di cottura)

Esiste un modo più efficiente per calcolare la varianza, noto come metodo di "conteggio grezzo". Sebbene a prima vista l'equazione possa sembrare piuttosto ingombrante, in realtà non è così spaventosa. Puoi verificarlo e quindi decidere quale metodo ti piace di più.

è la somma di ogni valore di dati dopo la quadratura,

è il quadrato della somma di tutti i valori dei dati.

Non perdere la testa in questo momento. Mettiamo tutto sotto forma di tabella, quindi vedrai che ci sono meno calcoli qui rispetto all'esempio precedente.

Come puoi vedere, il risultato è lo stesso di quando si utilizza il metodo precedente. I vantaggi di questo metodo diventano evidenti man mano che la dimensione del campione (n) cresce.

Calcolo della varianza in Excel

Come probabilmente hai già intuito, Excel ha una formula che ti consente di calcolare la varianza. Inoltre, a partire da Excel 2010, puoi trovare 4 varietà della formula di dispersione:

1) VAR.V - Restituisce la varianza del campione. I valori booleani e il testo vengono ignorati.

2) VAR.G - Restituisce la varianza della popolazione. I valori booleani e il testo vengono ignorati.

3) VASP - Restituisce la varianza del campione, tenendo conto dei valori booleani e di testo.

4) VARP - Restituisce la varianza della popolazione, tenendo conto dei valori logici e testuali.

Per prima cosa, diamo un'occhiata alla differenza tra un campione e una popolazione. Lo scopo della statistica descrittiva è riassumere o visualizzare i dati in modo tale da ottenere rapidamente un quadro generale, per così dire, una panoramica. L'inferenza statistica consente di fare inferenze su una popolazione sulla base di un campione di dati di questa popolazione. La popolazione rappresenta tutti i possibili risultati o misurazioni che ci interessano. Un campione è un sottoinsieme di una popolazione.

Ad esempio, siamo interessati alla totalità di un gruppo di studenti di una delle università russe e dobbiamo determinare il punteggio medio del gruppo. Possiamo calcolare il rendimento medio degli studenti e quindi la cifra risultante sarà un parametro, poiché l'intera popolazione sarà coinvolta nei nostri calcoli. Tuttavia, se vogliamo calcolare il GPA di tutti gli studenti nel nostro paese, allora questo gruppo sarà il nostro campione.

La differenza nella formula per il calcolo della varianza tra il campione e la popolazione è al denominatore. Dove per il campione sarà uguale a (n-1), e per la popolazione generale solo n.

Ora affrontiamo le funzioni di calcolo della varianza con le desinenze MA, nella descrizione della quale si dice che il calcolo tiene conto del testo e dei valori logici. In questo caso, quando si calcola la varianza di un set di dati specifico in cui si verificano valori non numerici, Excel interpreterà il testo e i valori booleani falsi come 0 e i valori booleani veri come 1.

Quindi, se si dispone di una matrice di dati, non sarà difficile calcolarne la varianza utilizzando una delle funzioni di Excel sopra elencate.