15.10.2019

Tipi di grandezze in statistica. Metodo medio, teoria


Nella fase dell'elaborazione statistica, è possibile impostare una varietà di compiti di ricerca, per la cui soluzione è necessario selezionare la media appropriata. In questo caso, è necessario essere guidati dalla seguente regola: i valori che rappresentano il numeratore e il denominatore della media devono essere correlati logicamente.

  • medie di potenza;
  • medie strutturali.

Introduciamo le seguenti convenzioni:

I valori per i quali viene calcolata la media;

Media, dove la linea sopra indica che c'è una media dei singoli valori;

Frequenza (ripetibilità dei singoli valori di una caratteristica).

Vari mezzi sono derivati ​​dalla formula media potenza generale:

(5.1)

per k = 1 - media aritmetica; k = -1 - armonica media; k = 0 - media geometrica; k = -2 - radice quadrata media.

I valori medi sono semplici e ponderati.

Medie ponderate chiamano i valori che tengono conto del fatto che alcune varianti dei valori del tratto possono avere numeri diversi, in relazione ai quali ogni opzione deve essere moltiplicata per questo numero. In altre parole, i "pesi" sono i numeri di unità della popolazione in diversi gruppi, ad es. ogni opzione è "ponderata" dalla sua frequenza. La frequenza f è chiamata peso statistico o peso medio.

È noto che le transazioni sono state effettuate entro 5 giorni (5 transazioni), il numero di azioni vendute al tasso di vendita è stato distribuito come segue:

1 - 800 ac. - 1010 rubli.

2 - 650 ac. - 990 rubli.

3 - 700 ac. - 1015 rubli.

4 - 550 ac. - 900 rubli.

5 - 850 ac. - 1150 rubli.

Il rapporto iniziale per determinare il prezzo medio delle azioni è il rapporto tra l'importo totale delle transazioni (OSS) e il numero di azioni vendute (KPA):

= 1010 · 800 + 990 · 650 + 1015 · 700 + 900 · 550 + 1150 · 850 = 3 634 500;

KPA = 800 + 650 + 700 + 550 + 850 = 3550.

In questo caso, il prezzo medio delle azioni è stato:

È necessario conoscere le proprietà della media aritmetica, che è molto importante sia per il suo utilizzo che per il suo calcolo. Sono tre le proprietà principali che più di tutte hanno determinato l'uso diffuso della media aritmetica nei calcoli statistici ed economici.

Proprietà uno (zero): la somma delle deviazioni positive dei singoli valori di una caratteristica dal suo valore medio è uguale alla somma delle deviazioni negative. Questa è una proprietà molto importante, poiché mostra che eventuali deviazioni (sia c + che c -) causate da cause casuali verranno annullate reciprocamente.

Prova:

Seconda proprietà (minimo): la somma dei quadrati delle deviazioni dei singoli valori della caratteristica dalla media aritmetica è inferiore a quella di qualsiasi altro numero (a), ad es. c'è un numero minimo.

Prova.

Componiamo la somma dei quadrati delle deviazioni dalla variabile a:

(5.4)

Per trovare l'estremo di questa funzione, è necessario eguagliare la sua derivata rispetto a a a zero:

Da qui otteniamo:

(5.5)

Di conseguenza, si raggiunge l'estremo della somma degli scarti quadratici a. Questo estremo è un minimo, poiché la funzione non può avere un massimo.

Proprietà terzo: la media aritmetica di un valore costante è uguale a questa costante: at a = const.

Oltre a queste tre importantissime proprietà della media aritmetica, vi sono le cosiddette proprietà del design, che stanno gradualmente perdendo la loro importanza in relazione all'uso della tecnologia informatica:

  • se il valore individuale dell'attributo di ciascuna unità viene moltiplicato o diviso per un numero costante, la media aritmetica aumenterà o diminuirà dello stesso importo;
  • la media aritmetica non cambierà se il peso (frequenza) di ciascun valore di attributo viene diviso per un numero costante;
  • se i singoli valori dell'attributo di ciascuna unità vengono ridotti o aumentati della stessa quantità, la media aritmetica diminuirà o aumenterà della stessa quantità.

Armonica media... Questa media è chiamata media aritmetica inversa, poiché questo valore viene utilizzato quando k = -1.

Armonica media semplice viene utilizzato quando i pesi dei valori caratteristici sono gli stessi. La sua formula può essere derivata dalla formula di base sostituendo k = -1:

Ad esempio, dobbiamo calcolare la velocità media di due auto che hanno percorso lo stesso percorso, ma a velocità diverse: la prima a 100 km/h, la seconda a 90 km/h.

Utilizzando il metodo della media armonica, calcoliamo la velocità media:

Nella pratica statistica, viene più spesso utilizzata la ponderazione armonica, la cui formula ha la forma:

Questa formula viene utilizzata nei casi in cui i pesi (oi volumi di eventi) non sono uguali per ciascun attributo. Nel rapporto originale per il calcolo della media, il numeratore è noto, ma il denominatore è sconosciuto.

Ad esempio, nel calcolo del prezzo medio, dovremmo utilizzare il rapporto tra l'importo venduto e il numero di unità vendute. Non conosciamo il numero di unità vendute (stiamo parlando di beni diversi), ma conosciamo l'importo delle vendite di questi beni diversi.

Supponiamo che tu voglia conoscere il prezzo medio dei beni venduti:

Noi abbiamo

Se usi la formula della media aritmetica qui, puoi ottenere il prezzo medio, che non sarà realistico:

Media geometrica... Molto spesso, la media geometrica trova la sua applicazione nel determinare i tassi di crescita medi (tassi di crescita medi), quando i valori individuali del tratto sono presentati sotto forma di valori relativi. Si usa anche se si vuole trovare la media tra i valori minimo e massimo di una caratteristica (ad esempio tra 100 e 1.000.000). Esistono formule per la media geometrica semplice e ponderata.

Per semplice media geometrica:

Per la media geometrica pesata:

Radice quadratica media... La sua principale area di applicazione è misurare la variazione di una caratteristica nell'aggregato (calcolando la deviazione standard).

Formula quadratica media radice semplice:

Formula quadratica media ponderata:

(5.11)

Di conseguenza, possiamo dire che la soluzione di successo dei problemi della ricerca statistica dipende dalla corretta scelta del tipo di valore medio in ogni caso specifico.

La scelta della media assume la seguente sequenza:

a) l'istituzione di un indicatore generalizzato della popolazione;

b) determinazione del rapporto matematico dei valori per un dato indicatore generalizzante;

c) sostituzione dei singoli valori con valori medi;

d) calcolo della media mediante l'apposita equazione.

I valori medi si riferiscono a indicatori statistici generalizzanti che forniscono una caratteristica riassuntiva (finale) dei fenomeni sociali di massa, poiché sono costruiti sulla base di un gran numero di valori individuali di un attributo variabile. Per chiarire l'essenza del valore medio, è necessario considerare le caratteristiche della formazione dei valori dei segni di quei fenomeni, in base ai quali viene calcolato il valore medio.

È noto che le unità di ciascun fenomeno di massa hanno numerose caratteristiche. Qualunque di questi segni prendiamo, i suoi valori per le singole unità saranno diversi, cambieranno o, come si dice nelle statistiche, varieranno da un'unità all'altra. Quindi, ad esempio, lo stipendio di un dipendente è determinato dalle sue qualifiche, dalla natura del lavoro, dall'anzianità di servizio e da una serie di altri fattori, quindi varia entro limiti molto ampi. L'influenza cumulativa di tutti i fattori determina l'entità dei guadagni di ciascun dipendente; tuttavia, possiamo parlare dei salari mensili medi dei lavoratori nei diversi settori dell'economia. Qui operiamo con un valore tipico e caratteristico di un attributo variabile, riferito a un'unità di una grande popolazione.

La media riflette che generale, che è tipico per tutte le unità della popolazione studiata. Allo stesso tempo, bilancia l'influenza di tutti i fattori che agiscono sul valore della caratteristica delle singole unità dell'aggregato, come se si estinguessero reciprocamente. Il livello (o la dimensione) di qualsiasi fenomeno sociale è determinato dall'azione di due gruppi di fattori. Alcuni di essi sono generali e principali, che agiscono costantemente, strettamente correlati alla natura del fenomeno o processo studiato e formano che tipico per tutte le unità della popolazione studiata, che si riflette nella media. Altri sono individuale, la loro azione è meno pronunciata ed è di natura episodica, accidentale. Agiscono nella direzione opposta, determinano le differenze tra le caratteristiche quantitative delle singole unità dell'aggregato, cercando di modificare il valore costante delle caratteristiche studiate. L'effetto dei singoli segni si estingue nella media. Nell'influenza aggregata di fattori tipici e individuali, che si equilibra e si estingue reciprocamente in caratteristiche generalizzanti, il fondamentale la legge dei grandi numeri.

Nell'aggregato, i valori individuali dei tratti si fondono in una massa comune e, per così dire, si dissolvono. Quindi e valore medio agisce come "impersonale", che può deviare dai valori individuali dei segni, non coincidendo quantitativamente con nessuno di essi. Il valore medio riflette il generale, caratteristico e tipico per l'intera popolazione a causa della reciproca cancellazione in essa di differenze casuali e atipiche tra le caratteristiche delle sue singole unità, poiché il suo valore è determinato, per così dire, dalla risultante totale di tutti cause.

Tuttavia, affinché la media rifletta il valore più tipico del tratto, non dovrebbe essere determinata per alcuna popolazione, ma solo per popolazioni costituite da unità qualitativamente omogenee. Questo requisito è la condizione principale per l'applicazione scientificamente fondata delle medie e presuppone una stretta connessione tra il metodo delle medie e il metodo dei raggruppamenti nell'analisi dei fenomeni socio-economici. Di conseguenza, il valore medio è un indicatore generalizzante che caratterizza il livello tipico di una variabile caratteristica per unità di una popolazione omogenea in determinate condizioni di luogo e di tempo.

Determinando, quindi, l'essenza delle medie, è necessario sottolineare che il calcolo corretto di qualsiasi media implica il soddisfacimento dei seguenti requisiti:

  • omogeneità qualitativa della popolazione su cui si calcola il valore medio. Ciò significa che il calcolo dei valori medi dovrebbe essere basato sul metodo del raggruppamento, che garantisce l'identificazione di fenomeni omogenei dello stesso tipo;
  • eliminazione dell'influenza sul calcolo della media di ragioni e fattori casuali puramente individuali. Ciò si ottiene nel caso in cui il calcolo della media si basi su un materiale sufficientemente massiccio in cui si manifesta l'azione della legge dei grandi numeri e tutti gli incidenti si annullano reciprocamente;
  • quando si calcola la media, è importante stabilire lo scopo del suo calcolo e il cosiddetto definendo show-tel(proprietà) a cui dovrebbe mirare.

L'indicatore di definizione può agire come la somma dei valori dell'attributo mediato, la somma dei suoi valori inversi, il prodotto dei suoi valori, ecc. questo caso non cambierà l'indicatore di definizione. Sulla base di questa connessione tra l'indicatore determinante e il valore medio, viene costruito un primo rapporto quantitativo per il calcolo diretto del valore medio. La capacità delle medie di preservare le proprietà delle popolazioni statistiche si chiama proprietà di definizione.

Il valore medio calcolato complessivamente per la popolazione si chiama media generale; valori medi calcolati per ogni gruppo - medie di gruppo. La media complessiva riflette le caratteristiche generali del fenomeno in esame, la media di gruppo fornisce una caratteristica del fenomeno che si sviluppa nelle condizioni specifiche di un dato gruppo.

I metodi di calcolo possono essere diversi, quindi, in statistica, si distinguono diversi tipi di media, i principali dei quali sono la media aritmetica, la media armonica e la media geometrica.

Nell'analisi economica, l'uso dei valori medi è lo strumento principale per valutare i risultati del progresso scientifico e tecnologico, degli eventi sociali e della ricerca di riserve per lo sviluppo economico. Allo stesso tempo, va ricordato che l'eccessivo entusiasmo per le medie può portare a conclusioni distorte quando si effettuano analisi economiche e statistiche. Ciò è dovuto al fatto che i valori medi, essendo indicatori generalizzanti, si estinguono, ignorano quelle differenze nelle caratteristiche quantitative delle singole unità della popolazione che effettivamente esistono e possono essere di interesse autonomo.

Tipi di medie

Nelle statistiche vengono utilizzati vari tipi di medie, che sono divise in due grandi classi:

  • medie di potenza (media armonica, media geometrica, media aritmetica, media quadratica, media cubica);
  • mezzi strutturali (moda, mediana).

Calcolare medie di potenza devono essere utilizzati tutti i valori caratteristici disponibili. Moda e mediano sono determinati solo dalla struttura della distribuzione, quindi sono chiamati medie strutturali, posizionali. La mediana e la moda sono spesso utilizzate come caratteristica media in quelle popolazioni in cui il calcolo della media della potenza è impossibile o poco pratico.

Il tipo più comune di media è la media aritmetica. Sotto significato aritmetico si intende il significato di una caratteristica che ogni unità della popolazione avrebbe se il totale di tutti i valori della caratteristica fosse distribuito equamente tra tutte le unità della popolazione. Il calcolo di questo valore si riduce alla somma di tutti i valori dell'attributo variabile e dividendo la somma risultante per il numero totale di unità nella popolazione. Ad esempio, cinque lavoratori hanno eseguito un ordine per la produzione di parti, mentre il primo ha realizzato 5 parti, il secondo - 7, il terzo - 4, il quarto - 10, il quinto - 12. Poiché nei dati iniziali il valore di ciascuno l'opzione è stata incontrata solo una volta, per determinare il lavoratore medio dovrebbe applicare la semplice formula della media aritmetica:

cioè, nel nostro esempio, la produzione media di un lavoratore è uguale a

Insieme alla semplice media aritmetica, studiano media aritmetica ponderata. Ad esempio, calcoliamo l'età media degli studenti in un gruppo di 20, le cui età vanno dai 18 ai 22, dove xi- varianti della caratteristica mediata, fi- frequenza, che mostra quante volte si verifica io-th valore aggregato (Tabella 5.1).

Tabella 5.1

Età media degli studenti

Applicando la formula per la media ponderata aritmetica, si ottiene:


Esiste una certa regola per la scelta della media aritmetica ponderata: se esiste una serie di dati su due indicatori, per uno dei quali è necessario calcolare

il valore medio e allo stesso tempo i valori numerici del denominatore della sua formula logica sono noti e i valori del numeratore sono sconosciuti, ma possono essere trovati come prodotto di questi indicatori, quindi il valore medio deve essere calcolato utilizzando la formula della media aritmetica ponderata.

In alcuni casi, la natura dei dati statistici iniziali è tale che il calcolo della media aritmetica perde di significato e l'unico indicatore generalizzante può essere solo un altro tipo di media - armonico medio. Allo stato attuale, le proprietà computazionali della media aritmetica hanno perso la loro rilevanza nel calcolo degli indicatori statistici generalizzanti in connessione con la diffusa introduzione della tecnologia di calcolo elettronico. Il valore armonico medio, che può essere anche semplice e ponderato, ha acquisito grande importanza pratica. Se i valori numerici del numeratore della formula logica sono noti e i valori del denominatore sono sconosciuti, ma possono essere trovati come divisione del quoziente di un indicatore per un altro, il valore medio viene calcolato utilizzando l'armonica formula media ponderata.

Ad esempio, si sappia che l'auto ha percorso i primi 210 km a 70 km/h e i restanti 150 km a 75 km/h. È impossibile determinare la velocità media di un'auto durante l'intero viaggio di 360 km utilizzando la formula della media aritmetica. Poiché le opzioni sono velocità nelle singole sezioni xj= 70 km/h e X2= 75 km/h, e i pesi (fi) sono i corrispondenti segmenti del percorso, allora i prodotti delle opzioni per i pesi non avranno significato né fisico né economico. In questo caso, i quozienti da dividere i tratti di sentiero nelle corrispondenti velocità (opzioni xi), cioè il tempo impiegato per percorrere i singoli tratti di sentiero (fi / xi). Se i segmenti del percorso sono indicati con fi, l'intero percorso è espresso come Σfi e il tempo trascorso sull'intero percorso è espresso come Σ fi / xi , Quindi la velocità media può essere trovata come il quoziente della divisione dell'intero percorso per il tempo totale trascorso:

Nel nostro esempio, otteniamo:

Se, quando si utilizzano i pesi armonici medi di tutte le opzioni (f) sono uguali, invece di quello ponderato, è possibile utilizzare media armonica semplice (non ponderata):

dove xi sono opzioni individuali; n- il numero di varianti della caratteristica media. Nell'esempio della velocità, la media armonica semplice potrebbe essere applicata se i segmenti di percorso percorsi a velocità diverse fossero uguali.

Qualsiasi valore medio dovrebbe essere calcolato in modo che quando sostituisce ogni variante della caratteristica mediata, il valore di qualche indicatore finale e generalizzante, che è associato all'indicatore medio, non cambia. Quindi, quando si sostituiscono le velocità effettive sulle singole sezioni del percorso con il loro valore medio (velocità media), la distanza totale non dovrebbe cambiare.

La forma (formula) del valore medio è determinata dalla natura (meccanismo) del rapporto di questo indicatore finale con la media, quindi l'indicatore finale, il cui valore non dovrebbe cambiare quando si sostituiscono le opzioni con il loro valore medio, è chiamato indicatore di definizione. Per derivare la formula per la media, è necessario comporre e risolvere un'equazione utilizzando il rapporto dell'indicatore medio con quello determinante. Questa equazione è costruita sostituendo le varianti dell'attributo mediato (indicatore) con il loro valore medio.

Oltre alla media aritmetica e alla media armonica, in statistica vengono utilizzati altri tipi (forme) della media. Sono tutti casi particolari. media della legge di potenza. Se calcoliamo tutti i tipi di medie di legge di potenza per gli stessi dati, allora i valori

risulteranno uguali, qui vale la regola ranghi maggiori medio. Con un aumento dell'esponente delle medie, aumenta anche il valore medio stesso. Le formule più utilizzate nella ricerca pratica per il calcolo di vari tipi di valori medi della legge di potenza sono presentate in Tabella. 5.2.

Tabella 5.2


La media geometrica viene applicata quando disponibile. n fattori di crescita, mentre i valori individuali della caratteristica sono, di regola, i valori relativi della dinamica, costruiti sotto forma di quantità a catena, in relazione al livello precedente di ciascun livello nella serie di dinamiche . La media caratterizza quindi il tasso di crescita medio. Media geometrica semplice calcolato dalla formula

Formula media geometrica ponderata Somiglia a questo:

Le formule fornite sono identiche, ma una viene applicata ai tassi o ai tassi di crescita attuali e la seconda ai valori assoluti dei livelli della serie.

Radice quadratica media viene utilizzato quando si calcola con i valori delle funzioni quadrate, viene utilizzato per misurare il grado di variabilità dei singoli valori di una caratteristica attorno alla media aritmetica nella serie di distribuzione e viene calcolato dalla formula

Quadrato medio ponderato calcolato con una formula diversa:

Cubico medio viene utilizzato quando si calcola con i valori delle funzioni cubiche e viene calcolato dalla formula

cubo medio ponderato:

Tutte le medie discusse sopra possono essere presentate sotto forma di una formula generale:

dove è il valore medio; - valore individuale; n- il numero di unità della popolazione studiata; Kè un esponente che determina il tipo di media.

Quando si utilizzano gli stessi dati iniziali, più K nella formula generale della media della legge di potenza, maggiore è il valore medio. Da ciò ne consegue che esiste una relazione regolare tra i valori delle medie di potenza:

I valori medi sopra descritti danno un'idea generalizzata dell'aggregato studiato, e da questo punto di vista il loro valore teorico, applicato e conoscitivo è indiscutibile. Ma capita che il valore della media non coincida con nessuna delle opzioni realmente esistenti, quindi, oltre alle medie considerate nell'analisi statistica, è consigliabile utilizzare i valori di opzioni specifiche, che occupano un posto abbastanza posizione definita in una serie ordinata (classificata) di valori di una caratteristica. Tra questi valori, i più comuni sono strutturale, o descrittivo, medio- modalità (Mo) e mediana (Me).

Moda- il valore della caratteristica, che si trova più spesso in una data popolazione. Per quanto riguarda la serie di varianti, la moda è il valore più frequente della serie classificata, ovvero la variante con la frequenza più alta. La moda può essere utilizzata per determinare quali negozi sono più visitati e il prezzo più comune per un prodotto. Mostra la dimensione di una caratteristica caratteristica di una parte significativa della popolazione ed è determinata dalla formula

dove x0 è il limite inferiore dell'intervallo; h- la dimensione dell'intervallo; fm- frequenza dell'intervallo; fm_ 1 - frequenza dell'intervallo precedente; fm + 1 - frequenza dell'intervallo successivo.

Medianoè chiamata la variante situata al centro della riga classificata. La mediana divide la riga in due parti uguali in modo tale che lo stesso numero di unità di popolazione si trovi su entrambi i lati di essa. Allo stesso tempo, in una metà delle unità della popolazione, il valore dell'attributo variabile è inferiore alla mediana, nell'altra - più di esso. La mediana viene utilizzata quando si studia un elemento, il cui valore è maggiore o uguale o contemporaneamente minore o uguale alla metà degli elementi della serie di distribuzione. La mediana dà un'idea generale di dove sono concentrati i valori degli attributi, in altre parole, dove si trova il loro centro.

La natura descrittiva della mediana si manifesta nel fatto che caratterizza il confine quantitativo dei valori dell'attributo variabile, che ha la metà delle unità di popolazione. Il problema di trovare la mediana per una serie di variazioni discrete è facile da risolvere. Se assegniamo numeri ordinali a tutte le unità della serie, allora il numero ordinale della variante mediana è definito come (n +1) / 2 con un numero dispari di membri n.Se il numero di membri della serie è un numero pari , allora la mediana sarà la media delle due opzioni con numeri ordinali n/ 2 e n / 2 + 1.

Quando si determina la mediana nelle serie di variazione dell'intervallo, viene determinato per primo l'intervallo in cui si trova (intervallo mediano). Questo intervallo è caratterizzato dal fatto che la sua somma di frequenze accumulata è uguale o superiore alla metà della somma di tutte le frequenze della serie. La mediana della serie di variazione dell'intervallo viene calcolata utilizzando la formula

dove X0- il limite inferiore dell'intervallo; h- la dimensione dell'intervallo; fm- frequenza dell'intervallo; F- il numero dei membri della serie;

∫m-1 è la somma dei membri accumulati della serie precedente a questa.

Insieme alla mediana, per una caratterizzazione più completa della struttura della popolazione studiata, vengono utilizzati altri valori delle opzioni, che occupano una posizione abbastanza definita nelle serie classificate. Questi includono quartili e decili. I quartili dividono la serie per la somma delle frequenze in 4 parti uguali e i decili in 10 parti uguali. Ci sono tre quartili e nove decili.

La mediana e la moda, contrariamente alla media aritmetica, non estinguono le differenze individuali nei valori dell'attributo variabile e quindi sono caratteristiche aggiuntive e molto importanti della popolazione statistica. In pratica, vengono spesso utilizzati al posto o accanto alla media. È particolarmente consigliabile calcolare la mediana e la moda nei casi in cui la popolazione studiata contiene un certo numero di unità con un valore molto grande o molto piccolo della caratteristica variabile. Questi, non molto tipici per i valori aggregati delle opzioni, che influiscono sul valore della media aritmetica, non influiscono sui valori della mediana e della moda, il che rende questi ultimi indicatori molto preziosi per l'analisi economica e statistica.

Indicatori di variazione

Lo scopo dello studio statistico è identificare le principali proprietà e modelli della popolazione statistica studiata. Nel processo di elaborazione sommaria dei dati di osservazione statistica, costruiscono ranghi di distribuzione. Esistono due tipi di serie di distribuzione: attributiva e variazionale, a seconda che il tratto preso come base del raggruppamento sia qualitativo o quantitativo.

variazionale sono chiamate serie di distribuzione, costruite su base quantitativa. I valori delle caratteristiche quantitative nelle singole unità della popolazione non sono costanti, più o meno differiscono tra loro. Questa differenza nella dimensione del tratto è chiamata variazioni. I singoli valori numerici di un tratto che si verificano nella popolazione studiata sono chiamati opzioni per i valori. La presenza di variazione nelle singole unità della popolazione è dovuta all'influenza di un gran numero di fattori sulla formazione del livello del tratto. Lo studio della natura e del grado di variazione delle caratteristiche nelle singole unità della popolazione è la questione più importante di qualsiasi studio statistico. Gli indici di variazione sono usati per descrivere la misura della variabilità delle caratteristiche.

Un altro compito importante della ricerca statistica è determinare il ruolo dei singoli fattori o dei loro gruppi nella variazione di determinate caratteristiche dell'aggregato. Per risolvere un tale problema nelle statistiche, vengono utilizzati metodi speciali di studio della variazione, basati sull'uso di un sistema di indicatori, con l'aiuto del quale viene misurata la variazione. In pratica, il ricercatore si trova di fronte a un numero sufficientemente elevato di opzioni per i valori dell'attributo, che non dà un'idea della distribuzione delle unità per il valore dell'attributo nell'aggregato. Per questo, la disposizione di tutte le varianti dei valori dell'attributo viene eseguita in ordine crescente o decrescente. Questo processo si chiama la classifica della serie. La serie classificata dà immediatamente un'idea generale dei valori che l'attributo assume nell'aggregato.

L'insufficienza del valore medio per una caratteristica esaustiva della popolazione rende necessario integrare i valori medi con indicatori che consentano di valutare la tipicità di tali medie misurando la variabilità (variazione) del tratto oggetto di studio. L'utilizzo di questi indicatori di variazione permette di rendere l'analisi statistica più completa e significativa, e quindi di comprendere meglio l'essenza dei fenomeni sociali studiati.

I segni più semplici di variazione sono minimo e massimo - questo è il valore più piccolo e più grande del tratto nell'aggregato. Viene chiamato il numero di ripetizioni delle singole varianti dei valori caratteristici frequenza di ripetizione. Indichiamo la frequenza di ripetizione del valore della caratteristica fi, la somma delle frequenze pari al volume della popolazione studiata sarà:

dove K- il numero di opzioni per i valori della caratteristica. È conveniente sostituire le frequenze con le frequenze - wi. Frequenza- l'indicatore di frequenza relativo - può essere espresso in frazioni di unità o in percentuale e consente di confrontare la serie di variazioni con un diverso numero di osservazioni. Formalmente abbiamo:

Vari indicatori assoluti e relativi vengono utilizzati per misurare la variazione di una caratteristica. Gli indicatori assoluti di variazione includono la deviazione lineare media, l'intervallo di variazione, la varianza, la deviazione standard.

Scorri variazione(R) è la differenza tra i valori massimo e minimo del tratto nella popolazione studiata: R= Xmax - Xmin. Questo indicatore fornisce solo l'idea più generale della variabilità del tratto in esame, poiché mostra la differenza solo tra i valori limite delle opzioni. È completamente estraneo alle frequenze nella serie di variazioni, cioè alla natura della distribuzione, e la sua dipendenza può dargli un carattere instabile e casuale solo dai valori estremi del tratto. Il range di variazione non fornisce alcuna informazione sulle caratteristiche delle popolazioni studiate e non consente di valutare il grado di tipicità dei valori medi ottenuti. L'ambito di questo indicatore è limitato a popolazioni abbastanza omogenee, più precisamente, l'indicatore caratterizza la variazione di una caratteristica basata sulla considerazione della variabilità di tutti i valori della caratteristica.

Per caratterizzare la variazione di una caratteristica, è necessario generalizzare le deviazioni di tutti i valori da qualsiasi valore tipico della popolazione studiata. Tali indicatori

le variazioni, come la deviazione lineare media, la varianza e la deviazione standard, si basano sulla considerazione delle deviazioni dei valori dell'attributo delle singole unità della popolazione dalla media aritmetica.

Deviazione lineare media rappresenta la media aritmetica dei valori assoluti delle deviazioni delle singole opzioni dalla loro media aritmetica:


Il valore assoluto (modulo) della deviazione della variante dalla media aritmetica; F- frequenza.

La prima formula viene applicata se ciascuna delle opzioni si verifica nell'aggregato solo una volta e la seconda - in righe con frequenze disuguali.

Esiste un altro modo per calcolare la media delle deviazioni delle opzioni dalla media aritmetica. Questo metodo, molto diffuso in statistica, si riduce al calcolo dei quadrati degli scostamenti delle opzioni dalla media con la loro successiva media. In tal modo, otteniamo un nuovo indicatore di variazione: la varianza.

Dispersione(σ 2) è la media dei quadrati delle deviazioni delle opzioni per i valori della caratteristica dal loro valore medio:

La seconda formula viene applicata se le varianti hanno i propri pesi (o frequenze della serie di varianti).

Nell'analisi economica e statistica, la variazione di una caratteristica viene solitamente valutata utilizzando la deviazione standard. Deviazione standard(σ) è la radice quadrata della varianza:

La media lineare e la deviazione standard mostrano quanto il valore del tratto oscilla in media nelle unità della popolazione studiata e sono espresse nelle stesse unità di misura delle opzioni.

Nella pratica statistica, è spesso necessario confrontare la variazione di varie caratteristiche. Ad esempio, è di grande interesse confrontare le variazioni dell'età del personale e delle loro qualifiche, l'anzianità di servizio e la retribuzione, ecc. Per tali confronti, gli indici di variabilità assoluta delle caratteristiche - la media lineare e la deviazione standard - non sono adatto. È impossibile, infatti, confrontare la variabilità dell'anzianità di servizio, espressa in anni, con la variabilità delle retribuzioni, espressa in rubli e copechi.

Quando si confronta la variabilità di vari caratteri nell'aggregato, è conveniente utilizzare indicatori di variazione relativi. Questi indicatori sono calcolati come rapporto tra indicatori assoluti e media aritmetica (o mediana). Utilizzando il range di variazione, la deviazione lineare media, la deviazione standard come indicatore assoluto di variazione, si ottengono i relativi indicatori di fluttuazione:


L'indicatore di variabilità relativa più comunemente utilizzato, che caratterizza l'omogeneità della popolazione. Una popolazione è considerata omogenea se il coefficiente di variazione non supera il 33% per distribuzioni prossime alla normalità.

Nella maggior parte dei casi, i dati sono concentrati intorno a qualche punto centrale. Pertanto, per descrivere qualsiasi dataset, è sufficiente indicare il valore medio. Consideriamo in sequenza tre caratteristiche numeriche che vengono utilizzate per stimare il valore medio della distribuzione: media aritmetica, mediana e moda.

Media

La media aritmetica (spesso chiamata semplicemente media) è la stima più comune della media di una distribuzione. È il risultato della divisione della somma di tutti i valori numerici osservati per il loro numero. Per un campione di numeri X 1, X 2, ..., Xn, la media campionaria (indicata dal simbolo ) è uguale a = (X 1 + X 2 + ... + Xn) / n, o

dove è la media campionaria, n- misura di prova, Xio- i-esimo elemento del campione.

Scarica una nota in formato o, esempi in formato

Si consideri il calcolo della media aritmetica del rendimento medio annuo quinquennale di 15 fondi comuni di investimento ad altissimo rischio (Figura 1).

Riso. 1. Rendimento medio annuo di 15 fondi comuni di investimento ad altissimo rischio

La media campionaria è calcolata come segue:

Si tratta di un buon rendimento, soprattutto rispetto al 3-4% del reddito che i depositanti di banche o cooperative di credito hanno ricevuto nello stesso periodo di tempo. Se ordini i ritorni, è facile vedere che otto fondi hanno rendimenti più alti e sette - al di sotto della media. La media aritmetica funge da punto di equilibrio in modo che i fondi a basso reddito controbilancino i fondi ad alto reddito. Tutti gli elementi del campione sono coinvolti nel calcolo della media. Nessuna delle altre stime della media della distribuzione ha questa proprietà.

Quando calcolare la media aritmetica. Poiché la media aritmetica dipende da tutti gli elementi del campione, la presenza di valori estremi influisce in modo significativo sul risultato. In tali situazioni, la media aritmetica può distorcere il significato dei dati numerici. Pertanto, quando si descrive un dataset contenente valori estremi, è necessario indicare la mediana o la media aritmetica e la mediana. Ad esempio, se si rimuove il rendimento del fondo RS Emerging Growth dal campione, il rendimento medio del campione di 14 fondi diminuirà di quasi l'1% al 5,19%.

Mediano

La mediana è la mediana di un array ordinato di numeri. Se l'array non contiene numeri duplicati, metà dei suoi elementi sarà inferiore e metà in più della mediana. Se il campione contiene valori estremi, è meglio usare la mediana piuttosto che la media aritmetica per stimare la media. Per calcolare la mediana di un campione, è necessario prima ordinarlo.

Questa formula è ambigua. Il suo risultato dipende dal fatto che il numero sia pari o dispari. n:

  • Se il campione contiene un numero dispari di elementi, la mediana è (n + 1) / 2 esimo elemento.
  • Se il campione contiene un numero pari di elementi, la mediana si trova tra i due elementi medi del campione ed è uguale alla media aritmetica calcolata su questi due elementi.

Per calcolare la mediana di un campione di 15 rendimenti di fondi comuni di investimento ad altissimo rischio, è necessario prima ordinare i dati originali (Figura 2). Quindi la mediana sarà opposta al numero dell'elemento centrale del campione; nel nostro esempio # 8. Excel ha una funzione speciale = MEDIAN () che funziona anche con array non ordinati.

Riso. 2. Mediana 15 fondi

Quindi la mediana è 6.5. Ciò significa che la redditività di una metà dei fondi con un livello di rischio molto elevato non supera il 6,5, mentre la redditività dell'altra metà non lo supera. Si noti che la mediana di 6,5 non è molto superiore alla media di 6,08.

Se il rendimento del fondo RS Emerging Growth viene rimosso dal campione, la mediana dei restanti 14 fondi diminuirà al 6,2%, cioè non in modo così significativo come la media aritmetica (Fig. 3).

Riso. 3. Mediana 14 fondi

Moda

Il termine è stato coniato per la prima volta da Pearson nel 1894. La moda è il numero che compare più spesso nel campione (più alla moda). La moda descrive bene, ad esempio, la reazione tipica dei conducenti a un semaforo per smettere di guidare. Un classico esempio dell'uso della moda è la scelta della taglia del lotto di scarpe prodotto o del colore della carta da parati. Se una distribuzione ha più modi, allora si dice che è multimodale o multimodale (ha due o più "picchi"). La multimodalità della distribuzione fornisce importanti informazioni sulla natura della variabile oggetto di studio. Ad esempio, nei sondaggi di opinione, se una variabile rappresenta una preferenza o un atteggiamento verso qualcosa, la multimodalità può significare che ci sono diverse opinioni decisamente diverse. La multimodalità funge anche da indicatore che il campione non è omogeneo e che le osservazioni sono possibilmente generate da due o più distribuzioni “sovrapposte”. A differenza della media aritmetica, i valori anomali non influiscono sulla moda. Per le variabili casuali a distribuzione continua, ad esempio, per gli indicatori dei rendimenti medi annui dei fondi comuni, la moda a volte non esiste affatto (o non ha senso). Poiché questi indicatori possono assumere un'ampia varietà di valori, i valori ripetuti sono estremamente rari.

quartili

I quartili sono metriche utilizzate più spesso per stimare la distribuzione dei dati quando si descrivono le proprietà di campioni numerici di grandi dimensioni. Mentre la mediana divide a metà un array ordinato (il 50% degli elementi dell'array è inferiore alla mediana e il 50% in più), i quartili dividono il set di dati ordinato in quattro parti. I valori Q 1, mediana e Q 3 sono rispettivamente il 25°, 50° e 75° percentile. Il primo quartile, Q 1, è il numero che divide il campione in due parti: il 25% degli elementi è inferiore e il 75% è superiore al primo quartile.

Il terzo quartile, Q 3, è il numero che divide anche il campione in due parti: il 75% degli elementi è inferiore e il 25% è superiore al terzo quartile.

Per calcolare i quartili nelle versioni di Excel precedenti al 2007, è stata utilizzata la funzione = QUARTILE (matrice; parte). A partire dalla versione Excel2010, si applicano due funzioni:

  • = QUARTILE.INC (array, parte)
  • = QUARTILE.EXC (array, parte)

Queste due funzioni danno valori leggermente diversi (Figura 4). Ad esempio, calcolando i quartili di un campione contenente dati sul rendimento medio annuo di 15 fondi comuni di investimento ad altissimo rischio, Q 1 = 1,8 o –0,7 rispettivamente per QUARTILE.INCL e QUARTILE.EXCL. A proposito, la funzione QUARTILE usata in precedenza corrisponde alla moderna funzione QUARTILE. Per calcolare i quartili in Excel utilizzando le formule di cui sopra, non è necessario ordinare l'array di dati.

Riso. 4. Calcolo dei quartili in Excel

Sottolineiamo ancora. Excel può calcolare i quartili per unidimensionale serie discreta contenente i valori di una variabile casuale. Il calcolo dei quartili per un'allocazione basata sulla frequenza è riportato nella sezione seguente.

Media geometrica

A differenza della media aritmetica, la media geometrica consente di stimare il grado di variazione di una variabile nel tempo. La media geometrica è la radice n-esimo grado dal lavoro n valori (in Excel viene utilizzata la funzione = SRGEOM):

G= (X 1 * X 2 *… * X n) 1 / n

Un parametro simile - la media geometrica del tasso di rendimento - è determinato dalla formula:

G = [(1 + R 1) * (1 + R 2) *… * (1 + R n)] 1 / n - 1,

dove R io- tasso di rendimento per io esimo periodo di tempo.

Ad esempio, supponiamo che l'investimento iniziale sia di $ 100.000. Entro la fine del primo anno scende a $ 50.000 ed entro la fine del secondo anno torna agli originali $ 100.000. Il tasso di rendimento di questo investimento su un periodo di due anni è uguale a 0, poiché i fondi iniziale e finale sono uguali tra loro. Tuttavia, la media aritmetica dei tassi di rendimento annuali è = (–0,5 + 1) / 2 = 0,25 o 25%, poiché il tasso di rendimento nel primo anno R 1 = (50.000 - 100.000) / 100.000 = –0,5 , e nel secondo R 2 = (100.000 - 50.000) / 50.000 = 1. Allo stesso tempo, la media geometrica del tasso di profitto per due anni è: G = [(1-0,5) * (1 + 1 )] 1 /2 - 1 = ½ - 1 = 1 - 1 = 0. Pertanto, la media geometrica riflette in modo più accurato la variazione (più precisamente, l'assenza di variazioni) del volume degli investimenti su un periodo di due anni rispetto alla media aritmetica.

Fatti interessanti. Primo, la media geometrica sarà sempre minore della media aritmetica degli stessi numeri. Tranne quando tutti i numeri presi sono uguali tra loro. In secondo luogo, considerando le proprietà di un triangolo rettangolo, puoi capire perché la media è chiamata geometrica. L'altezza di un triangolo rettangolo, abbassato all'ipotenusa, è la media proporzionale tra le proiezioni dei cateti sull'ipotenusa, e ogni cateto è la media proporzionale tra l'ipotenusa e la sua proiezione sull'ipotenusa (Fig. 5). Questo dà un modo geometrico di costruire la media geometrica di due (lunghezze) di segmenti: è necessario costruire un cerchio sulla somma di questi due segmenti come sul diametro, quindi l'altezza ripristinata dal punto della loro connessione all'intersezione con il cerchio darà il valore desiderato:

Riso. 5. La natura geometrica della media geometrica (disegno da Wikipedia)

La seconda importante proprietà dei dati numerici è la loro variazione caratterizzare il grado di varianza dei dati. Due campioni diversi possono differire sia nei valori medi che nelle variazioni. Tuttavia, come mostrato in Fig. 6 e 7, i due campioni possono avere la stessa variazione ma mezzi diversi, oppure gli stessi mezzi e variazioni completamente diverse. I dati corrispondenti al poligono B in Fig. 7, cambia molto meno dei dati su cui il poligono A.

Riso. 6. Due distribuzioni simmetriche a campana con la stessa diffusione e diversi valori medi

Riso. 7. Due distribuzioni simmetriche a campana con gli stessi valori medi e diversa dispersione

Esistono cinque stime della variazione dei dati:

  • scopo,
  • intervallo interquartile,
  • dispersione,
  • deviazione standard,
  • il coefficiente di variazione.

Oscillazione

L'intervallo è la differenza tra gli elementi più grandi e più piccoli del campione:

Scorri = XMax - Xmin

L'intervallo di un campione contenente dati sui rendimenti medi annui di 15 fondi comuni di investimento ad altissimo rischio può essere calcolato utilizzando un array ordinato (vedi Figura 4): Span = 18,5 - (–6,1) = 24,6. Ciò significa che la differenza tra il rendimento medio annuo massimo e minimo dei fondi con un livello di rischio molto elevato è del 24,6%.

Span misura la dispersione complessiva dei dati. Sebbene la dimensione del campione sia una stima molto semplice della diffusione complessiva dei dati, il suo punto debole è che non tiene conto di come i dati sono distribuiti tra gli elementi minimo e massimo. Questo effetto è chiaramente visibile in Fig. 8, che illustra campioni aventi lo stesso intervallo. La scala B dimostra che se il campione contiene almeno un valore estremo, l'intervallo di campionamento risulta essere una stima molto imprecisa della dispersione dei dati.

Riso. 8. Confronto di tre campioni con lo stesso range; il triangolo simboleggia il sostegno della bilancia e la sua posizione corrisponde alla media del campione

Intervallo interquartile

L'intervallo interquartile, o medio, è la differenza tra il terzo e il primo quartile del campione:

Interquartile = Q 3 - Q 1

Questo valore consente di stimare lo spread del 50% degli elementi e non tenere conto dell'influenza degli elementi estremi. L'intervallo interquartile di un campione contenente dati sul rendimento medio annuo di 15 fondi comuni di investimento ad altissimo rischio può essere calcolato utilizzando i dati di Fig. 4 (ad esempio, per la funzione QUARTILE.EXC): Interquartile = 9,8 - (–0,7) = 10,5. L'intervallo delimitato dai numeri 9.8 e -0,7 è spesso indicato come metà centrale.

Va notato che i valori di Q 1 e Q 3, e quindi dell'intervallo interquartile, non dipendono dalla presenza di outlier, poiché il loro calcolo non tiene conto di alcun valore che sarebbe inferiore a Q 1 o superiore rispetto a Q3. La somma di caratteristiche quantitative come la mediana, il primo e il terzo quartile e l'intervallo interquartile, che non sono influenzati da valori anomali, sono chiamate misure robuste.

Sebbene l'intervallo e l'intervallo interquartile forniscano rispettivamente una stima della diffusione complessiva e media del campione, nessuna di queste stime tiene conto della distribuzione dei dati. Dispersione e deviazione standard sono privi di questo svantaggio. Queste metriche forniscono una stima del grado di fluttuazione dei dati intorno alla media. Varianza di campionamentoè un'approssimazione della media aritmetica, calcolata dai quadrati delle differenze tra ciascun elemento del campione e la media campionaria. Per un campione X 1, X 2, ... X n, la varianza campionaria (indicata dal simbolo S 2 è data dalla seguente formula:

In generale, la varianza campionaria è la somma dei quadrati delle differenze tra gli elementi del campione e la media campionaria, divisa per il valore pari alla dimensione del campione meno uno:

dove - significato aritmetico, n- misura di prova, X io - io esimo elemento campione X... In Excel prima del 2007, la funzione = VARP () è stata utilizzata per calcolare la varianza del campione; dal 2010 viene utilizzata la funzione = VARP ().

La stima più pratica e ampiamente accettata della diffusione dei dati è deviazione standard del campione... Questo indicatore è indicato dal simbolo S ed è uguale alla radice quadrata della varianza campionaria:

In Excel prima del 2007, la funzione = DEV.ST () è stata utilizzata per calcolare la deviazione standard del campione; dal 2010 viene utilizzata la funzione = DEV.ST.V (). Per il calcolo di queste funzioni, il set di dati può essere non ordinato.

Né la varianza del campione né la deviazione standard del campione possono essere negative. L'unica situazione in cui gli indicatori S 2 e S possono essere zero è se tutti gli elementi del campione sono uguali tra loro. In questo caso altamente improbabile, anche l'intervallo e l'intervallo interquartile sono zero.

I dati numerici sono intrinsecamente volatili. Qualsiasi variabile può assumere molti valori diversi. Ad esempio, diversi fondi comuni di investimento hanno tassi di rendimento e di perdita diversi. A causa della variabilità dei dati numerici, è molto importante studiare non solo le stime della media, che sono di natura cumulativa, ma anche le stime della varianza, che caratterizzano la dispersione dei dati.

La varianza e la deviazione standard consentono di stimare la diffusione dei dati attorno alla media, in altre parole, per determinare quanti elementi del campione sono inferiori alla media e quanti sono di più. La dispersione ha alcune preziose proprietà matematiche. Tuttavia, il suo valore è il quadrato dell'unità di misura: percentuale quadrata, dollaro quadrato, pollice quadrato, ecc. Pertanto, la misura naturale della varianza è la deviazione standard, che è espressa in unità di misura comuni: percentuale di reddito, dollari o pollici.

La deviazione standard consente di stimare la quantità di fluttuazione degli elementi del campione attorno alla media. In quasi tutte le situazioni, la maggior parte dei valori osservati si trova nell'intervallo più o meno una deviazione standard dalla media. Pertanto, conoscendo la media aritmetica degli elementi del campione e la deviazione standard campionaria, è possibile determinare l'intervallo a cui appartiene la maggior parte dei dati.

La deviazione standard del rendimento sui 15 fondi comuni di investimento ad altissimo rischio è 6,6 (Figura 9). Ciò significa che la redditività della maggior parte dei fondi differisce dal valore medio di non più del 6,6% (ovvero oscilla nell'intervallo da - S= 6,2 - 6,6 = da -0,4 a + S= 12,8). In questo intervallo si colloca infatti il ​​rendimento medio annuo quinquennale del 53,3% (8 su 15) dei fondi.

Riso. 9. Deviazione standard del campione

Si noti che quando vengono aggiunte le differenze al quadrato, il campione più lontano dalla media acquista più peso rispetto al campione più vicino. Questa proprietà è la ragione principale per cui la media aritmetica è più spesso utilizzata per stimare la media di una distribuzione.

Il coefficiente di variazione

A differenza delle precedenti stime dello spread, il coefficiente di variazione è una stima relativa. Viene sempre misurato in percentuale, non in termini di dati grezzi. Il coefficiente di variazione, indicato con CV, misura la dispersione dei dati rispetto alla media. Il coefficiente di variazione è uguale alla deviazione standard divisa per la media aritmetica e moltiplicata per 100%:

dove S- deviazione standard del campione, - campione medio.

Il coefficiente di variazione consente di confrontare due campioni, i cui elementi sono espressi in diverse unità di misura. Ad esempio, un responsabile della consegna della posta intende rinnovare la flotta di camion. Quando si caricano i pacchi, ci sono due tipi di restrizioni da considerare: il peso (in libbre) e il volume (in piedi cubi) di ciascun pacco. Per un campione di 200 sacchi, supponiamo che il peso medio sia 26,0 libbre, la deviazione standard del peso sia 3,9 libbre, il volume medio del sacchetto sia 8,8 piedi cubi e la deviazione standard del volume sia 2,2 piedi cubi. Come si confronta la gamma di peso e volume delle borse?

Poiché le unità di misura per peso e volume differiscono tra loro, il gestore deve confrontare la relativa dispersione di questi valori. Il coefficiente di variazione del peso è CV W = 3,9 / 26,0 * 100% = 15% e il coefficiente di variazione del volume CV V = 2,2 / 8,8 * 100% = 25%. Pertanto, lo spread relativo nel volume dei pacchetti è molto maggiore dello spread relativo nel loro peso.

Modulo di distribuzione

La terza proprietà importante del campione è la forma della sua distribuzione. Questa distribuzione può essere simmetrica o asimmetrica. Per descrivere la forma della distribuzione è necessario calcolarne la media e la mediana. Se questi due indicatori coincidono, la variabile è considerata distribuita simmetricamente. Se il valore medio di una variabile è maggiore della mediana, la sua distribuzione ha un'asimmetria positiva (Fig. 10). Se la mediana è maggiore della media, la distribuzione della variabile è distorta negativamente. L'asimmetria positiva si verifica quando la media aumenta a valori insolitamente alti. L'asimmetria negativa si verifica quando la media scende a valori insolitamente piccoli. Una variabile è distribuita simmetricamente se non assume valori estremi in nessuna delle direzioni, in modo che i valori alto e basso della variabile si bilanciano a vicenda.

Riso. 10. Tre tipi di distribuzioni

I dati sulla scala A hanno un'asimmetria negativa. Questa figura mostra una coda lunga e un'inclinazione a sinistra causata da valori insolitamente bassi. Questi valori estremamente piccoli spostano la media a sinistra e diventa inferiore alla mediana. I dati riportati sulla scala B sono distribuiti simmetricamente. Le metà sinistra e destra della distribuzione sono le loro immagini speculari. I valori grandi e piccoli si bilanciano a vicenda e la media e la mediana sono uguali. I dati mostrati sulla scala B sono distorti positivamente. Questa figura mostra una coda lunga e un'inclinazione a destra causata da valori insolitamente alti. Questi valori troppo alti spostano la media a destra e diventa più grande della mediana.

In Excel è possibile ottenere statistiche descrittive utilizzando il componente aggiuntivo Pacchetto di analisi... Scorri il menu DatiAnalisi dei dati, nella finestra che si apre, seleziona la riga Statistiche descrittive e clicca Ok... Nella finestra Statistiche descrittive assicurati di indicare Intervallo di input(fig. 11). Se vuoi vedere le statistiche descrittive sullo stesso foglio dei dati originali, seleziona il pulsante di opzione Intervallo di uscita e specificare la cella in cui deve essere posizionato l'angolo superiore sinistro delle statistiche di output (nel nostro esempio, $ C $ 1). Se desideri esportare i dati su un nuovo foglio o su una nuova cartella di lavoro, seleziona semplicemente il pulsante di opzione appropriato. Seleziona la casella accanto a Statistiche riassuntive... Facoltativamente, puoi anche scegliere Livello di difficoltà,kth più piccolo ekth più grande.

Se in deposito Dati nell'area di Analisi non hai un pittogramma Analisi dei dati, devi prima installare il componente aggiuntivo Pacchetto di analisi(vedi, per esempio,).

Riso. 11. Statistiche descrittive del rendimento medio annuo quinquennale dei fondi con livelli di rischio molto elevati, calcolate utilizzando il componente aggiuntivo Analisi dei dati Programmi Excel

Excel calcola una serie di statistiche discusse sopra: media, mediana, moda, deviazione standard, varianza, intervallo ( intervallo), dimensione minima, massima e del campione ( dai un'occhiata). Inoltre, Excel calcola alcune statistiche per noi nuove: errore standard, curtosi e asimmetria. Errore standard uguale alla deviazione standard divisa per la radice quadrata della dimensione del campione. Asimmetria caratterizza la deviazione dalla simmetria della distribuzione ed è una funzione che dipende dal cubo delle differenze tra gli elementi del campione e la media. La curtosi è una misura della concentrazione relativa dei dati attorno alla media rispetto alle code della distribuzione e dipende dalle differenze tra il campione e la media elevata alla quarta potenza.

Calcolo di statistiche descrittive per una popolazione

La media, la diffusione e la forma della distribuzione discussa sopra sono caratteristiche determinate dal campione. Tuttavia, se il set di dati contiene dimensioni numeriche per l'intera popolazione, è possibile calcolarne i parametri. Questi parametri includono l'aspettativa matematica, la varianza e la deviazione standard della popolazione generale.

Valore attesoè uguale alla somma di tutti i valori della popolazione generale divisa per la dimensione della popolazione generale:

dove µ - valore atteso, Xio- io-esima osservazione di una variabile X, n- il volume della popolazione generale. Excel utilizza la stessa funzione per calcolare l'aspettativa matematica della media aritmetica: = MEDIA ().

Varianza della popolazione uguale alla somma dei quadrati delle differenze tra gli elementi della popolazione generale e mat. aspettativa divisa per la dimensione della popolazione generale:

dove 2- varianza della popolazione generale. In Excel prima del 2007, la funzione = VARP () viene utilizzata per calcolare la varianza di una popolazione, dal 2010 = VARP.G ().

Deviazione standard della popolazioneè uguale alla radice quadrata della varianza della popolazione:

In Excel prima del 2007, la funzione = STDEVP () viene utilizzata per calcolare la deviazione standard della popolazione, dal 2010 = STDEV.Y (). Si noti che le formule per la varianza della popolazione e la deviazione standard sono diverse dalle formule per la varianza del campione e la deviazione standard. Quando si calcolano le statistiche del campione S 2 e S il denominatore della frazione è n - 1, e quando si calcolano i parametri 2 e σ - il volume della popolazione generale n.

Regola del pollice

Nella maggior parte delle situazioni, una grande proporzione di osservazioni è concentrata intorno alla mediana, formando un cluster. Nei set di dati con asimmetria positiva, questo cluster si trova a sinistra (cioè, sotto) l'aspettativa matematica, e nei set di dati con asimmetria negativa, questo cluster si trova a destra (cioè, sopra) l'aspettativa matematica. Per i dati simmetrici, la media e la mediana sono le stesse e le osservazioni sono concentrate attorno alla media, formando una distribuzione a campana. Se la distribuzione non ha un'asimmetria pronunciata e i dati sono concentrati attorno a un certo centro di gravità, si può applicare una regola empirica per valutare la variabilità, che dice: se i dati hanno una distribuzione a campana, allora circa 68 % delle osservazioni non sono più di una deviazione standard dall'aspettativa matematica circa il 95% delle osservazioni non sono più di due deviazioni standard dall'aspettativa matematica e il 99,7% delle osservazioni non sono più di tre deviazioni standard dall'aspettativa matematica aspettativa.

Pertanto, la deviazione standard, che è una stima della variazione media attorno alla media, aiuta a capire come sono distribuite le osservazioni e a identificare i valori anomali. Ne consegue da una regola empirica che per le distribuzioni a campana, solo un valore su venti differisce dall'aspettativa matematica di più di due deviazioni standard. Pertanto, valori al di fuori dell'intervallo µ ± 2σ, possono essere considerati outlier. Inoltre, solo tre osservazioni su 1000 differiscono dall'aspettativa matematica di più di tre deviazioni standard. Pertanto, i valori al di fuori dell'intervallo µ ± 3σ sono quasi sempre outlier. Per distribuzioni molto asimmetriche o non a campana, si può applicare la regola empirica di Biename-Chebyshev.

Più di cento anni fa, i matematici Biename e Chebyshev scoprirono indipendentemente l'utile proprietà della deviazione standard. Hanno scoperto che per qualsiasi set di dati, indipendentemente dalla forma della distribuzione, la percentuale di osservazioni che giace a una distanza non superiore a K deviazioni standard dall'aspettativa matematica, non meno (1 – 1/ k2) * 100%.

Ad esempio, se K= 2, la regola di Biename-Chebyshev afferma che almeno (1 - (1/2) 2) x 100% = 75% delle osservazioni deve trovarsi nell'intervallo µ ± 2σ... Questa regola vale per chiunque K maggiore di uno. La regola di Biename-Chebyshev è molto generale ed è valida per distribuzioni di qualsiasi tipo. Indica il numero minimo di osservazioni, la distanza dalla quale l'aspettativa matematica non supera il valore specificato. Tuttavia, se la distribuzione è a campana, la regola empirica stima in modo più accurato la concentrazione dei dati attorno al valore atteso.

Calcolo di statistiche descrittive per una distribuzione basata sulla frequenza

Se i dati originali non sono disponibili, l'assegnazione della frequenza diventa l'unica fonte di informazioni. In tali situazioni, è possibile calcolare i valori approssimativi degli indicatori di distribuzione quantitativi, come media aritmetica, deviazione standard, quartili.

Se i dati del campione sono presentati sotto forma di una distribuzione di frequenza, è possibile calcolare un valore approssimativo della media aritmetica, assumendo che tutti i valori all'interno di ciascuna classe siano concentrati nel punto medio della classe:

dove - campione medio, n- il numero di osservazioni, o la dimensione del campione, insieme a- il numero di classi nella distribuzione di frequenza, m j- punto medio J-vai a lezione, FJè la frequenza corrispondente J classe.

Per calcolare la deviazione standard dalla distribuzione di frequenza, si assume inoltre che tutti i valori all'interno di ciascuna classe siano centrati nel punto medio della classe.

Per capire come vengono determinati i quartili della serie in base alle frequenze, si consideri il calcolo del quartile inferiore basato sui dati del 2013 sulla distribuzione della popolazione della Russia in termini di reddito monetario medio pro capite (Fig. 12).

Riso. 12. La quota della popolazione della Russia con un reddito medio pro capite in denaro in media al mese, rubli

Per calcolare il primo quartile di una serie di variazioni di intervallo, puoi utilizzare la formula:

dove Q1 è il valore del primo quartile, хQ1 è il limite inferiore dell'intervallo contenente il primo quartile (l'intervallo è determinato dalla frequenza cumulativa, la prima superiore al 25%); i è la dimensione dell'intervallo; f è la somma delle frequenze dell'intero campione; probabilmente sempre uguale al 100%; SQ1-1 è la frequenza cumulativa dell'intervallo che precede l'intervallo contenente il quartile inferiore; fQ1 è la frequenza dell'intervallo contenente il quartile inferiore. La formula per il terzo quartile differisce in quanto in tutti i punti, invece di Q1, è necessario utilizzare Q3 e invece di ¼, sostituire ¾.

Nel nostro esempio (Fig. 12), il quartile inferiore si trova nell'intervallo 7000,1 - 10.000, la cui frequenza cumulativa è del 26,4%. Il limite inferiore di questo intervallo è 7000 rubli, il valore dell'intervallo è 3000 rubli, la frequenza cumulativa dell'intervallo che precede l'intervallo contenente il quartile inferiore è 13,4%, la frequenza dell'intervallo contenente il quartile inferiore è 13,0%. Quindi: Q1 = 7000 + 3000 * (¼ * 100 - 13,4) / 13 = 9677 rubli.

Insidie ​​con statistiche descrittive

In questo post, abbiamo esaminato come descrivere un set di dati utilizzando varie statistiche che ne stimano la media, la diffusione e la distribuzione. Il passo successivo è l'analisi e l'interpretazione dei dati. Finora abbiamo studiato le proprietà oggettive dei dati e ora passiamo alla loro interpretazione soggettiva. Due errori attendono il ricercatore: un argomento di analisi scelto in modo errato e un'interpretazione errata dei risultati.

L'analisi della performance di 15 fondi comuni di investimento ad altissimo rischio è abbastanza imparziale. Ha portato a conclusioni completamente obiettive: tutti i fondi comuni di investimento hanno rendimenti diversi, lo spread dei rendimenti dei fondi varia da -6,1 a 18,5 e il rendimento medio è 6,08. L'obiettività dell'analisi dei dati è assicurata dalla corretta scelta degli indicatori di distribuzione quantitativa totale. Sono stati considerati diversi metodi di stima della media e della diffusione dei dati, indicandone vantaggi e svantaggi. Come scegliere le statistiche giuste che forniscono un'analisi obiettiva e imparziale? Se la distribuzione dei tuoi dati è leggermente distorta, dovresti scegliere la mediana rispetto alla media aritmetica? Quale indicatore caratterizza più accuratamente la diffusione dei dati: deviazione standard o range? Si dovrebbe indicare un'asimmetria positiva della distribuzione?

D'altra parte, l'interpretazione dei dati è un processo soggettivo. Persone diverse giungono a conclusioni diverse quando interpretano gli stessi risultati. Ognuno ha il suo punto di vista. Qualcuno considera buoni gli indicatori complessivi della redditività media annua di 15 fondi con un livello di rischio molto elevato ed è abbastanza soddisfatto del reddito ricevuto. Altri potrebbero pensare che questi fondi abbiano un rendimento troppo basso. Pertanto, la soggettività dovrebbe essere compensata dall'onestà, dalla neutralità e dalla chiarezza delle conclusioni.

Problemi etici

L'analisi dei dati è indissolubilmente legata a questioni etiche. Si dovrebbe essere critici nei confronti dell'informazione diffusa da giornali, radio, televisione e Internet. Nel tempo imparerai a essere scettico non solo sui risultati, ma anche sugli obiettivi, sull'oggetto e sull'obiettività della ricerca. Il famoso politico britannico Benjamin Disraeli lo ha detto meglio di tutti: "Ci sono tre tipi di bugie: bugie, bugie sfacciate e statistiche".

Come indicato nella nota, sorgono questioni etiche nella selezione dei risultati da rendicontare. Dovrebbero essere pubblicati sia i risultati positivi che quelli negativi. Inoltre, quando si effettua una relazione o una relazione scritta, i risultati devono essere presentati in modo onesto, neutrale e obiettivo. Distinguere tra presentazione non riuscita e disonesta. Per fare ciò, è necessario determinare quali fossero le intenzioni di chi parla. A volte il presentatore perde informazioni importanti per ignoranza e, a volte, deliberatamente (ad esempio, se usa la media aritmetica per stimare la media di dati chiaramente asimmetrici per ottenere il risultato desiderato). È anche ingiusto sorvolare su risultati che non corrispondono al punto di vista del ricercatore.

Materiali utilizzati del libro Levin e altre statistiche per manager. - M.: Williams, 2004 .-- p. 178-209

Funzione QUARTILE mantenuta per compatibilità con le versioni precedenti di Excel

Argomento 3. Metodo delle medie

Taglia media in statistica, una caratteristica generalizzata di fenomeni e processi qualitativamente omogenei è chiamata per ogni attributo variabile, che mostra il livello dell'attributo, riferito a un'unità della popolazione.
valore medio astratto, perché caratterizza il valore di una caratteristica per qualche unità impersonale della popolazione.L'essenza il valore medio consiste nel fatto che attraverso l'individuale e l'accidentale si rivela il generale e il necessario, cioè la tendenza e la regolarità nello sviluppo dei fenomeni di massa. I segni che sono generalizzati nei valori medi sono inerenti a tutte le unità della popolazione. Per questo motivo, il valore medio è di grande importanza per identificare modelli inerenti ai fenomeni di massa e non rilevabili nelle singole unità della popolazione. A partire da W. Petty, le medie cominciarono ad essere considerate il principale metodo di analisi statistica.

Principi generali per l'uso delle medie:

1) è necessario operare una scelta ragionevole dell'unità della popolazione per la quale si calcola il valore medio;

2) nel determinare il valore medio, è necessario procedere dal contenuto qualitativo della caratteristica mediata, tenere conto della relazione delle caratteristiche studiate, nonché dei dati disponibili per il calcolo;

3) i valori medi dovrebbero essere calcolati per popolazioni qualitativamente omogenee, che si ottengono con il metodo del raggruppamento, che prevede il calcolo di un sistema di indicatori generalizzanti;

4) le medie complessive dovrebbero essere supportate dalle medie di gruppo.

A seconda della natura dei dati primari, del campo di applicazione e del metodo di calcolo in statistica, si distinguono: principali tipi di mezzo:

1) medie di potenza(media aritmetica, armonica, geometrica, quadratica media e cubica);

2) mezzi strutturali (non parametrici)(moda e mediana).

In statistica, solo un tipo di media completamente definito fornisce la caratteristica corretta della popolazione studiata per un attributo variabile in ogni singolo caso. La questione di quale tipo di media debba essere applicata in un caso particolare viene risolta attraverso un'analisi specifica della popolazione studiata, e anche sulla base del principio di significatività dei risultati quando si sommano o quando si pesa. Questi e altri principi in statistica sono espressi teoria delle medie.

Ad esempio, la media aritmetica e la media armonica vengono utilizzate per caratterizzare il valore medio di un attributo variabile nella popolazione studiata. La media geometrica viene utilizzata solo quando si calcola il tasso medio di dinamica e il quadrato medio solo quando si calcolano gli indicatori di variazione.

Le formule per il calcolo dei valori medi sono presentate nella Tabella 3.1.



Tabella 3.1 - Formule per il calcolo dei valori medi

Tipi di medie Formule di calcolo
semplice ponderato
1. Media aritmetica
2. Armonica media
3. Media geometrica
4. Radice quadratica media

Leggenda:- i valori per i quali viene calcolata la media; - media, dove la riga in alto indica che c'è una media dei singoli valori; - frequenza (ripetibilità dei singoli valori di una caratteristica).

Ovviamente, si ottengono medie diverse da la formula generale della media delle potenze (3.1):

, (3.1)

per k = + 1 - media aritmetica; k = -1 - armonica media; k = 0 - media geometrica; k = +2 - radice quadrata media.

I valori medi sono semplici e ponderati. Medie ponderate vengono chiamati i valori che tengono conto che alcune varianti dei valori dell'attributo possono avere numeri diversi; a tal proposito, ogni opzione va moltiplicata per tale numero. In questo caso, i "pesi" sono i numeri di unità della popolazione in diversi gruppi, ad es. ogni opzione è "ponderata" dalla sua frequenza. La frequenza f è chiamata peso statistico o peso medio.

Se si indaga su un aggregato con caratteristiche qualitativamente omogenee, il valore medio appare qui come media tipica. Ad esempio, per gruppi di lavoratori di un determinato settore a reddito fisso, viene determinata una spesa media tipica per i beni di prima necessità.

Quando si studia una popolazione con caratteristiche qualitativamente eterogenee, possono emergere indicatori medi atipici. Questi, ad esempio, sono gli indicatori medi del reddito nazionale prodotto pro capite (diverse fasce di età). I valori medi generalizzano valori qualitativamente eterogenei di tratti o aggregati spaziali sistemici (comunità internazionale, continente, stato, regione, regione, ecc.) o aggregati dinamici estesi nel tempo (secolo, decennio, anno, stagione, ecc.) . Tali medie sono chiamate medie di sistema.

Infine scelta corretta della media assume la seguente sequenza:

a) l'istituzione di un indicatore generalizzato della popolazione;

b) determinazione del rapporto matematico dei valori per un dato indicatore generalizzante;

c) sostituzione dei singoli valori con valori medi;

d) calcolo della media mediante l'apposita equazione.

3.2 Media aritmetica e sue proprietà e tecnica di calcolo. Armonica media

Significato aritmetico- il tipo più comune di taglia media; viene calcolato in quei casi in cui il volume dell'attributo medio è formato come somma dei suoi valori per le singole unità della popolazione statistica studiata.

Le proprietà più importanti della media aritmetica :

1. Il prodotto della media per la somma delle frequenze è sempre uguale alla somma dei prodotti della variante (valori individuali) per le frequenze.

2. Se sottrai (aggiungi) un numero arbitrario da ciascuna opzione, la nuova media diminuirà (aumenterà) dello stesso numero.

3. Se ogni opzione viene moltiplicata (divisa) per un numero arbitrario, la nuova media aumenterà (diminuirà) dello stesso importo

4. Se tutte le frequenze (pesi) sono divise o moltiplicate per qualsiasi numero, la media aritmetica non cambierà.

5. La somma degli scostamenti delle singole opzioni dalla media aritmetica è sempre uguale a zero.

È possibile sottrarre un valore costante arbitrario da tutti i valori dell'attributo (preferibilmente il valore della media delle varianti o delle varianti con la frequenza più alta), ridurre le differenze ottenute di un fattore comune (meglio del valore dell'intervallo), ed esprimere le frequenze nei particolari (in percentuale) e moltiplicare la media calcolata per un fattore comune e aggiungere una costante arbitraria.
Questo metodo di calcolo della media aritmetica è chiamato metodo di calcolo dallo zero condizionale.

Armonica media detta media aritmetica inversa, poiché questo valore si ottiene quando k = -1. Armonica media semplice utilizzato quando i pesi dei valori caratteristici sono gli stessi. Ad esempio, è necessario calcolare la velocità media di due auto che hanno percorso lo stesso percorso, ma a velocità diverse: la prima - a una velocità di 100 km / h, la seconda - 90 km / h. Utilizzando il metodo della media armonica, calcoliamo la velocità media:

Nella pratica statistica, è più spesso usato media ponderata armonica - per quei casi in cui i pesi (oi volumi di eventi) per ogni attributo non sono uguali, e nel rapporto iniziale per il calcolo della media, il numeratore è noto, ma il denominatore è sconosciuto.

Ad esempio, nel calcolo del prezzo medio, dovremmo utilizzare il rapporto tra l'importo venduto e il numero di unità vendute. Non conosciamo il numero di unità vendute (stiamo parlando di beni diversi), ma conosciamo l'importo delle vendite di questi beni diversi. Supponiamo che sia necessario conoscere il prezzo medio dei beni venduti (tabella 3.2).

Tabella 3.2 - Dati iniziali

Noi abbiamo:

Se usi la formula della media aritmetica qui, puoi ottenere il prezzo medio, che non sarà realistico:

Se, nel calcolare il prezzo medio per i pesi, prendiamo il numero di merci, la formula per la media ponderata aritmetica fornisce il risultato corretto. Se usiamo il costo delle parti come pesi, allora la media armonica dà il risultato corretto.
Questo è, medial'armonica non è un tipo speciale di media, ma piuttosto un metodo speciale per calcolare la media aritmetica. In statistica, è ancora consuetudine individuare la media armonica come un tipo separato di media, poiché con il suo aiuto, la tecnica di calcolo della media aritmetica può essere semplificata e, soprattutto, può essere presa in considerazione la natura del materiale statistico disponibile.

Si può anche verificare la correttezza della scelta della forma della media (aritmetica o armonica) criterio aggiuntivo: se si utilizzano valori assoluti come pesi, eventuali azioni intermedie nel calcolo della media dovrebbero fornire indicatori significativi. Ad esempio, per calcolare il prezzo medio, moltiplicando il prezzo per il numero di merci, si ottiene il loro valore. E dividendo il valore dei beni per i loro prezzi dà la quantità di beni.

Utilizzando la media armonica, le statistiche determinano anche la percentuale media di adempimento del piano (basato sull'adempimento effettivo del piano), il tempo medio dedicato all'esecuzione delle operazioni (basato sui dati sul tempo medio dedicato a un'operazione e il tempo di lavoro totale per i singoli dipendenti ), eccetera.

Media geometrica trova la sua applicazione nella determinazione dei tassi di crescita medi (tassi di crescita medi), quando i singoli valori del tratto sono presentati sotto forma di valori relativi. Si usa anche se si vuole trovare la media tra i valori minimo e massimo di una caratteristica (ad esempio tra 100 e 1.000.000).

Radice quadratica media utilizzato per misurare la variazione di una caratteristica nell'aggregato (calcolando la deviazione standard).

In statistica c'è regola del maggiorante dei mezzi:

X danno.< Х геом. < Х арифм. < Х квадр. < Х куб.

Teoria generale della statistica: appunti delle lezioni Konik Nina Vladimirovna

2. Tipi di valori medi

2. Tipi di valori medi

Nelle statistiche vengono utilizzati vari tipi di medie, che sono divise in due grandi classi:

1) medie di potenza (media armonica, media geometrica, media aritmetica, media quadratica, media cubica);

2) medie strutturali (moda, mediana). Per calcolare le medie di potenza, devono essere utilizzati tutti i valori caratteristici disponibili. La modalità e la mediana sono determinate solo dalla struttura di distribuzione. Pertanto, sono chiamate medie strutturali e posizionali. La mediana e la moda sono spesso utilizzate come caratteristica media in quelle popolazioni in cui il calcolo della media della potenza è impossibile o poco pratico.

Il tipo più comune di media è la media aritmetica. La media aritmetica è il significato dell'attributo che ogni unità della popolazione avrebbe se il totale di tutti i valori dell'attributo fosse distribuito equamente tra tutte le unità della popolazione. Nel caso generale, il suo calcolo si riduce alla somma di tutti i valori dell'attributo variabile e dividendo la somma risultante per il numero totale di unità nella popolazione. Ad esempio, cinque lavoratori hanno evaso un ordine per la produzione di parti, mentre il primo ha realizzato 5 parti, il secondo - 7, il terzo - 4, il quarto - 10, il quinto - 12. Poiché nei dati iniziali, il valore di ogni opzione è stata soddisfatta solo una volta per determinare la produzione media di un lavoratore, dovresti applicare la semplice formula della media aritmetica:

cioè, nel nostro esempio, la produzione media di un lavoratore

Insieme alla media aritmetica semplice, viene studiata la media aritmetica ponderata. Ad esempio, calcoliamo l'età media degli studenti in un gruppo di 20 persone, la cui età varia dai 18 ai 22 anni, dove xi sono le varianti della caratteristica media, f è la frequenza che mostra quante volte l'i-esimo il valore si verifica nell'aggregato.

Applicando la formula per la media ponderata aritmetica, si ottiene:

Per scegliere la media aritmetica ponderata, esiste una certa regola: se esiste una serie di dati su due indicatori correlati, per uno dei quali è necessario calcolare la media e allo stesso tempo i valori numerici del denominatore della sua formula logica sono noti e i valori del numeratore non sono noti, ma possono essere trovati come prodotto di questi indicatori, la media dovrebbe essere calcolata utilizzando la formula della media aritmetica ponderata.

In alcuni casi, la natura dei dati statistici iniziali è tale che il calcolo della media aritmetica perde il suo significato e l'unico indicatore generalizzante può essere solo un altro tipo di media: la media armonica. Allo stato attuale, le proprietà computazionali della media aritmetica hanno perso la loro rilevanza nel calcolo degli indicatori statistici generalizzanti in connessione con la diffusa introduzione della tecnologia di calcolo elettronico. Il valore armonico medio, che può essere anche semplice e ponderato, ha acquisito grande importanza pratica. Se sono noti i valori numerici del numeratore della formula logica e non sono noti i valori del denominatore, il valore medio viene calcolato utilizzando la formula della media ponderata armonica.

Se, quando si utilizzano i pesi armonici medi di tutte le opzioni (f;) sono uguali, invece di quello ponderato, è possibile utilizzare un'armonica media semplice (non ponderata):

dove x sono opzioni individuali;

n è il numero di varianti della caratteristica media.

Ad esempio, la media armonica semplice può essere applicata alla velocità se i segmenti di percorso percorsi a velocità diverse sono uguali.

Qualsiasi valore medio dovrebbe essere calcolato in modo tale che quando sostituisce ogni variante dell'attributo mediato, il valore di qualche indicatore finale e generalizzante, che è associato all'indicatore medio, non cambia. Quindi, quando si sostituiscono le velocità effettive sulle singole sezioni del percorso con il loro valore medio, la velocità media) non dovrebbe modificare la distanza totale.

La formula per la media è determinata dalla natura (meccanismo) del rapporto di questo indicatore finale con la media. Pertanto, l'indicatore finale, il cui valore non dovrebbe cambiare quando si sostituiscono le opzioni con il loro valore medio, è chiamato indicatore di definizione. Per derivare la formula per la media, è necessario comporre e risolvere un'equazione utilizzando il rapporto dell'indicatore medio con quello determinante. Questa equazione è costruita sostituendo le varianti dell'attributo mediato (indicatore) con il loro valore medio.

Oltre alla media aritmetica e alla media armonica, le statistiche utilizzano altri tipi (forme) della media. Tutti loro sono casi speciali della media di potenza. Se calcoliamo tutti i tipi di medie della legge di potenza per gli stessi dati, i loro valori risulteranno essere gli stessi, qui si applica la regola delle medie maggiori. Con un aumento dell'esponente delle medie, aumenta anche il valore medio stesso.

La media geometrica viene utilizzata quando sono presenti n fattori di crescita, mentre i singoli valori della caratteristica sono, di regola, i valori relativi della dinamica, costruiti sotto forma di quantità a catena, in relazione al precedente livello di ogni livello nella serie di dinamiche. La media caratterizza quindi il tasso di crescita medio. La media geometrica semplice si calcola con la formula:

La formula per la media geometrica ponderata è la seguente:

Le formule fornite sono identiche, ma una viene applicata ai tassi o ai tassi di crescita attuali e la seconda ai valori assoluti dei livelli della serie.

Il quadrato medio viene utilizzato nel calcolo dei valori delle funzioni quadrate, viene utilizzato per misurare il grado di variabilità dei singoli valori di una caratteristica attorno alla media aritmetica nella serie di distribuzione e viene calcolato dalla formula:

Il quadrato medio ponderato viene calcolato utilizzando una formula diversa:

La media cubica viene utilizzata per il calcolo dei valori delle funzioni cubiche e viene calcolata dalla formula:

e la media ponderata cubica:

Tutte le medie discusse sopra possono essere presentate sotto forma di una formula generale:

dove X- valore medio;

x - valore individuale;

n è il numero di unità della popolazione studiata;

k è un esponente che determina il tipo di media.

Quando si utilizzano gli stessi dati iniziali, maggiore è il valore k nella formula generale della media della legge di potenza, maggiore è il valore medio. Da ciò ne consegue che esiste una relazione regolare tra i valori delle medie di potenza:

I valori medi sopra descritti danno un'idea generalizzata dell'aggregato studiato e, da questo punto di vista, il loro significato teorico, applicato e cognitivo è indiscutibile. Ma capita che il valore della media non coincida con nessuna delle opzioni realmente esistenti. Pertanto, oltre alle medie considerate, nell'analisi statistica è consigliabile utilizzare i valori di varianti specifiche, che occupano una posizione ben definita in una serie ordinata (classificata) di valori di una caratteristica. Tra questi valori, i più comuni sono medie strutturali (o descrittive)- modalità (Mo) e mediana (Me).

Moda- il valore di una caratteristica che si trova più spesso in una data popolazione. Per quanto riguarda la serie di varianti, la moda è il valore più frequente della serie classificata, ovvero la variante con la frequenza più alta. La moda può essere utilizzata per determinare quali negozi sono più visitati e il prezzo più comune per un prodotto. Mostra la dimensione di una caratteristica inerente a una parte significativa della popolazione ed è determinata dalla formula:

dove x 0- il limite inferiore dell'intervallo;

h- la dimensione dell'intervallo;

f m- frequenza dell'intervallo;

f m1- la frequenza dell'intervallo precedente;

fm + 1È la frequenza dell'intervallo successivo.

Medianoè chiamata la variante situata al centro della riga classificata. La mediana divide la riga in due parti uguali in modo tale che lo stesso numero di unità di popolazione si trovi su entrambi i lati di essa. Allo stesso tempo, in una metà delle unità della popolazione, il valore dell'attributo variabile è inferiore alla mediana, nell'altra - più di esso. La mediana viene utilizzata quando si studia un elemento, il cui valore è maggiore o uguale o contemporaneamente minore o uguale alla metà degli elementi della serie di distribuzione. La mediana dà un'idea generale di dove sono concentrati i valori degli attributi, in altre parole, dove si trova il loro centro.

La natura descrittiva della mediana si manifesta nel fatto che caratterizza il confine quantitativo dei valori dell'attributo variabile, che ha la metà delle unità di popolazione. Il problema di trovare la mediana per una serie di variazioni discrete è facile da risolvere. Se assegniamo numeri ordinali a tutte le unità della serie, allora il numero ordinale della variante mediana è definito come (n + 1) / 2con un numero dispari di membri n 2 e n / 2 + 1.

Quando si determina la mediana nelle serie di variazione dell'intervallo, viene determinato per primo l'intervallo in cui si trova (intervallo mediano). Questo intervallo è caratterizzato dal fatto che la sua somma di frequenze accumulata è uguale o superiore alla metà della somma di tutte le frequenze della serie. Il calcolo della mediana della serie di variazioni di intervallo viene effettuato secondo la formula:

dove x 0- il limite inferiore dell'intervallo;

h- la dimensione dell'intervallo;

f m- frequenza dell'intervallo;

f è il numero di membri della serie;

? m -1- la somma dei membri accumulati della serie precedente a questa.

Insieme alla mediana, per una caratterizzazione più completa della struttura della popolazione studiata, vengono utilizzati altri valori delle opzioni, che occupano una posizione abbastanza definita nelle serie classificate. Questi includono quartili e decili. I quartili dividono una serie per la somma delle frequenze in quattro parti uguali e i decili in dieci parti uguali. Ci sono tre quartili e nove decili.

La mediana e la moda, contrariamente alla media aritmetica, non estinguono le differenze individuali nei valori dell'attributo variabile e quindi sono caratteristiche aggiuntive e molto importanti della popolazione statistica. In pratica, vengono spesso utilizzati al posto o accanto alla media. È particolarmente consigliabile calcolare la mediana e la moda nei casi in cui la popolazione studiata contiene un certo numero di unità con un valore molto grande o molto piccolo della caratteristica variabile. Questi valori non molto caratteristici delle opzioni per un insieme, che influiscono sul valore della media aritmetica, non influiscono sui valori della mediana e della moda, il che rende questi ultimi indicatori molto preziosi per l'analisi economica e statistica.

Dal libro Il Gold Standard: Teoria, Storia, Politica l'autore Il team di autori

IM Kulischer Breve storia della circolazione monetaria dal Medioevo ai tempi moderni Ristampa da: Kulischer IM Storia della vita economica dell'Europa occidentale. Chelyabinsk: Socium, 2004.Vol.I, p. 368-90; vol II, p.

Dal libro Teoria della contabilità: appunti delle lezioni l'autore Daraeva Yulia Anatolievna

1. Tipi di inventario L'inventario è un controllo dell'effettiva disponibilità della proprietà dell'impresa. La proprietà dell'impresa, di regola, comprende: immobilizzazioni; attività immateriali, altre rimanenze, disponibilità liquide, passività finanziarie riflesse in

Dal libro Trader's Trading System: The Success Factor l'autore Safin Veniamin Iltuzarovich

Capitolo 5 Creazione di sistemi di trading basati su medie mobili 5.1. Introduzione Quasi tutti i libri sull'analisi tecnica hanno scritto sui sistemi di trading basati su medie mobili. E molti trader alle prime armi cercano di lavorare sullo scambio utilizzando questi sistemi. ma

Dal libro Forex: è semplice autore Kaverina Irina

Moving Averages Convergence Divergence (MACD) è un semplice oscillatore da due medie mobili esponenzialmente livellate. Disegnato come una linea (vedi figura 9.1).

l'autore Shcherbina Lidia Vladimirovna

20. Scopo e tipi di indicatori e valori statistici Esistono due tipi di indicatori di sviluppo economico e sociale della società: pianificato e rendicontato. Gli indicatori pianificati rappresentano determinati valori specifici degli indicatori. Segnalazione

Dal libro Teoria generale della statistica l'autore Shcherbina Lidia Vladimirovna

24. Tipi di medie In statistica vengono utilizzati vari tipi di medie, che si dividono in due grandi classi: 1) medie di potenza (media armonica, media geometrica, media aritmetica, radice quadrata, media cubica); 2)

Dal libro Enterprise Economics: lecture notes l'autore

4. Tipi di prezzi Il sistema dei prezzi è un unico insieme ordinato di diversi tipi di prezzi che servono e regolano i rapporti economici tra i vari partecipanti ai mercati nazionali e mondiali Differenziazione dei prezzi per industria e settore dei servizi

Dal libro Economia aziendale l'autore Dushenkina Elena Alekseevna

31. Tipi di prezzi Il sistema dei prezzi è un insieme di diversi tipi di prezzi che servono e regolano le relazioni economiche tra i vari partecipanti ai mercati nazionali e mondiali.La differenziazione dei prezzi per industria e settore dei servizi si basa sulla contabilità

l'autore Konik Nina Vladimirovna

1. Scopo e tipi di indicatori statistici e quantità La natura e il contenuto degli indicatori statistici corrispondono a quei fenomeni e processi economici e sociali che li riflettono. Tutte le categorie o concetti economici e sociali sono astratti

Dal libro Teoria generale della statistica: appunti delle lezioni l'autore Konik Nina Vladimirovna

2. Tipi di medie In statistica vengono utilizzati vari tipi di medie, che si dividono in due grandi classi: 1) medie di potenza (media armonica, media geometrica, media aritmetica, quadratica media, media cubica); 2) media strutturale

l'autore

28. Tipi di valori relativi Considera i seguenti tipi di valori relativi: 1. L'importo relativo di adempimento degli obblighi contrattuali è un indicatore che caratterizza il livello di adempimento da parte di un'impresa delle proprie obbligazioni contrattuali. Pagamento

Dal libro Teoria della statistica l'autore Burkhanova Inessa Viktorovna

29. Caratteristiche generali dei valori medi Il valore medio è una caratteristica generalizzante delle unità di popolazione per alcuni attributi variabili.Il valore medio è una delle tecniche di generalizzazione comuni.I valori medi consentono di confrontare i livelli di uno e

Dal libro Teoria della statistica l'autore Burkhanova Inessa Viktorovna

30. Tipi di medie La statistica matematica utilizza diverse medie, quali: media aritmetica; media geometrica; armonica media; radice quadrata della media Nello studio dei valori medi, vengono utilizzati i seguenti indicatori e

Dal libro Teoria della statistica l'autore Burkhanova Inessa Viktorovna

44. Altri indici aggregati: indice di adempimento del piano, media aritmetica e indice di media armonica, indici dei valori medi 1. Indice di adempimento del piano. Quando lo si calcola, i dati effettivi vengono confrontati con quelli pianificati e i pesi dell'indice possono essere indicatori

Dal libro Immobiliare. Come pubblicizzarlo l'autore Nazaikin Alexander

Dal libro Strumenti strategici chiave di Evans Vaughan

18. Smoothing with Moving Averages Tool "La vita è come le montagne russe, quindi rotolaci dentro", mormorò Ronan Keating. Questa affermazione molto probabilmente si applica non solo alla vita, ma anche al mercato. Anche lì a volte devi solo guidare.