20.09.2019

Viene fornita una serie statistica. Serie statistiche, istogramma e ordine di costruzione


Serie di distribuzione

Serie di distribuzione statistica rappresentano una distribuzione ordinata delle unità di popolazione in gruppi e raggruppamenti. Le serie di distribuzione studiano la struttura della popolazione, permettendoci di studiarne l'omogeneità, la portata e i confini. Serie di distribuzione formata da alta qualità vengono chiamati i segni attributivo. Quando raggruppato per quantitativo le serie di variazione si distinguono per la caratteristica. Variazionale serie - serie di distribuzione delle unità di popolazione secondo caratteristiche che hanno un'espressione quantitativa, cioè formate da valori numerici.

Le serie di variazioni in base alla loro struttura si dividono in:

  1. Discreto(discontinuo) – basato su variazioni discontinue di un tratto. Si tratta di serie in cui i valori delle varianti hanno valori interi (cioè non possono assumere valori frazionari). Le caratteristiche discrete differiscono l'una dall'altra per una quantità specifica.
  2. Intervallo(continuo) – hanno qualsiasi espressione quantitativa, comprese quelle frazionarie e sono presentati sotto forma di intervalli. Le caratteristiche continue possono differire l'una dall'altra di una quantità arbitrariamente piccola.

Le serie di variazioni hanno due elementi:

  1. opzione(X)
  2. frequenza(F)

Opzione– un valore separato di una caratteristica variabile, che assume nella serie di distribuzione.

Frequenza– il numero delle singole varianti o di ciascun gruppo della serie di varianti. In alcuni casi viene utilizzato frequenza. Vengono chiamate frequenze espresse in % o frazioni di percentuale frequenze e sono calcolati come il rapporto tra le varianti di frequenza locali e la somma delle frequenze accumulate.

A sua volta, la frequenza è:

  • Locale
  • accumulato (cumulativo - in base alla competenza)

Se la serie di variazioni ha intervalli disuguali, le frequenze nei singoli intervalli non sono confrontabili, poiché dipendono dalla larghezza dell'intervallo. In questi casi viene calcolata la densità di distribuzione, che dà un’idea corretta della natura della distribuzione delle varianti (unità di popolazione). La densità di distribuzione, a sua volta, è:

  • densità di distribuzione assoluta: il rapporto tra la frequenza e il valore (larghezza) dell'intervallo
  • densità di distribuzione relativa: il rapporto tra la frequenza e l'ampiezza dell'intervallo

Intervalli

Frequenza locale (f)

Frequenza cumulativa (Σf)

Frequenza (ω)

Densità di distribuzione (φ)

20-30

0,03

30-40

0,05

40-50

0,01

50-60

0,01

Per caratterizzare le serie distributive vengono utilizzati i seguenti indicatori:

  • media potenza
  • moda
  • mediano

Esempio:

Condizione

È nota la distribuzione di 20 punti vendita simili in base all'utile giornaliero (migliaia di rubli):

11,3; 10,2; 13,9; 10,7; 11,8; 8,2; 12,4; 9,6; 13,1; 10,6; 6,3; 11,3; 10,2; 15,1; 10,5; 11,0; 15,1; 11,6; 10,4; 11,7.

  1. Creare una serie di distribuzione a intervalli.
  2. Costruisci un istogramma della distribuzione della densità di frequenza relativa.

Soluzione

Scriviamo i dati iniziali sotto forma di serie classificata:

6,3; 8,2; 9,6; 10,2; 10,2; 10,4; 10,5; 10,6; 10,7; 11,0; 11,3; 11,3; 11,6; 11,7; 11,8; 12,4; 13,1; 13,9; 15,1; 15,1.

L'intervallo di variazioni nel campione è 6–16. Divideremo questo intervallo in diversi intervalli. Calcoliamo la larghezza (passo) dell'intervallo utilizzando la formula:

Va tenuto presente che minore è l'intervallo, più accurati saranno i risultati. Nel nostro caso, assumiamo che la dimensione dell'intervallo sia pari a 2 unità, ovvero h=2.Il rapporto tra il numero di gruppi (n) e il numero di unità di popolazione (N) è espresso dalla formula di Sturgess, a condizione che questa distribuzione rispetti la legge della distribuzione normale (ND) e siano applicati intervalli uguali:

Nel lavoro pratico, puoi utilizzare i dati della tabella:

N 15-24 25-44 45-89 90-179 180-359 360-719 720-1439
N 5 6 7 8 9 10 11

Otteniamo cinque intervalli: il primo 6–8, il secondo 8–10, il terzo 10–12, il quarto 12–14, il quinto 14–16.

Determiniamo la frequenza di una variante campione che rientra in ciascun intervallo.

Un valore della serie cade nel primo intervallo: 6,3, quindi f 1 =1. Il secondo intervallo contiene due valori: 8.2 e 9.6, quindi f 2 =2. Allo stesso modo troviamo f 3 =12, f 4 =3, f 5 =2. Determiniamo le frequenze relative della variante campione che rientra in ciascun intervallo:

in 1 intervallo

al 2° intervallo

a intervallo 3

ad intervallo 4

ad intervallo 5

Somma delle frequenze relative

Pertanto i calcoli sono stati eseguiti correttamente.

Definiamo la densità delle frequenze relative come il rapporto tra la frequenza relativa (ω i) e la larghezza dell'intervallo (h):

per il primo intervallo

per il secondo intervallo

per il terzo intervallo

per il quarto intervallo

per il quinto intervallo

I risultati dei calcoli effettuati sono riassunti in una tabella.

Serie di intervalli di distribuzione degli utili aziendali

Intervallo del valore del profitto (h) 6 — 8 8 – 10 10 — 12 12 — 14 14 — 16
Opzione frequenza (f i) 1 2 12 3 2
Frequenze relative (ωi) 0,05 0,10 0,60 0,15 0,10
Densità di frequenza relativa (φ i) 0,025 0,050 0,300 0,075 0,050

Istogramma di distribuzione

Costruiamo un istogramma che mostri la dipendenza della densità delle frequenze relative dal valore dell'opzione. Sull'asse orizzontale tracciamo la scala dei possibili valori dell'opzione, sull'asse verticale - la densità delle frequenze relative; Il valore della densità relativa è considerato costante all'interno dell'intervallo corrispondente. Otteniamo un grafico a barre chiamato istogramma della distribuzione della densità di frequenza relativa.

Guarda anche

Una forma particolare di raggruppamento dei dati è rappresentata dai cosiddetti serie statistiche, o valori numerici di una caratteristica situata in un certo ordine. A seconda delle caratteristiche studiate, le serie statistiche sono suddivise in serie attributive, variazionali, dinamiche, di regressione, serie di valori di caratteristiche classificate e serie di frequenze accumulate. Utilizzato più spesso in psicologia variazionale righe, righe regressione e righe valori classificati delle caratteristiche.

La serie di variazioni di una distribuzione è una doppia serie di numeri che mostra come i valori numerici di una caratteristica sono correlati alla loro frequenza in un dato campione. Ad esempio, uno psicologo ha condotto un test di intelligenza utilizzando il test di Wechsler su 25 scolari e i punteggi grezzi per il secondo sottotest sono risultati i seguenti: 6, 9, 5, 7, 10, 8, 9, 10, 8, 11, 9, 12, 9, 8, 10, 11, 9, 10, 8, 10, 7, 9, 10, 9, 11. Come puoi vedere, alcuni numeri compaiono più volte in questa riga. Pertanto, tenendo conto del numero di ripetizioni, queste serie possono essere presentate in una forma più comoda e compatta:

Questa è la serie di variazioni. I numeri che mostrano quante volte le singole opzioni si verificano in una data popolazione sono chiamati frequenze o pesi delle opzioni. Sono designati da una lettera minuscola dell'alfabeto latino. f i e hanno un indice “i” corrispondente al numero della variabile nella serie di variazioni.

La rappresentazione percentuale delle frequenze è utile nei casi in cui è necessario confrontare serie di variazioni molto diverse in volume. Ad esempio, durante il test della preparazione scolastica dei bambini in città, insediamento urbano e villaggio, sono stati esaminati campioni di bambini rispettivamente di 1000, 300 e 100 persone. La differenza nelle dimensioni del campione è evidente. Pertanto, è meglio confrontare i risultati dei test utilizzando le percentuali di frequenza.

La serie di cui sopra (3.1) può essere rappresentata diversamente. Se gli elementi della serie sono disposti in ordine crescente si otterranno le cosiddette serie di variazione classificate:

Questa forma di rappresentazione (3.3) è preferibile alla (3.1), poiché illustra meglio il modello di variazione dell'attributo.

Le frequenze che caratterizzano le serie di variazioni classificate possono essere sommate o accumulate. Le frequenze accumulate si ottengono sommando sequenzialmente i valori di frequenza dalla prima all'ultima frequenza.

Ad esempio, esaminiamo nuovamente la riga 3.3. Trasformiamolo nella serie 3.4 in cui introduciamo una riga aggiuntiva e la chiamiamo “cumulati di frequenza”:

Diamo uno sguardo più da vicino a come è andata a finire l'ultima riga. All'inizio della serie di frequenze c'è 1. Nella serie cumulativa, 2 è al secondo posto: questa è la somma della prima e della seconda frequenza, ad es. 1 + 1, al terzo posto c'è 4, questa è la somma della seconda (frequenza già accumulata) e della terza frequenza, cioè 2 + 2, sul quarto 8 = 4 + 4, ecc.


Scopo(a volte questa quantità viene chiamata diffusione) i campioni sono indicati dalla lettera R. Questo è l'indicatore più semplice che può essere ottenuto per un campione: la differenza tra i valori massimo e minimo di una determinata serie di variazioni, ad es.

È chiaro che più varia la caratteristica misurata, maggiore è il valore R, e viceversa.

Tuttavia, può accadere che due serie di campioni abbiano media e intervallo uguali, ma la natura della variazione di queste serie sarà diversa. Ad esempio, dati due campioni:

Se le medie e gli spread sono uguali per queste due serie di campioni, la natura della loro variazione è diversa. Per comprendere più chiaramente la natura della variazione nei campioni, è necessario fare riferimento alle loro distribuzioni.

Tabelle e grafici della distribuzione di frequenza

Di norma, l'analisi dei dati inizia con lo studio della frequenza con cui si verificano determinati valori della caratteristica (variabile) di interesse per il ricercatore nell'insieme di osservazioni disponibili. A questo scopo stanno costruendo tabelle e grafici della distribuzione della frequenza. Spesso costituiscono la base per ottenere risultati di ricerca preziosi e significativi.

Se una caratteristica assume solo pochi valori possibili (fino a 10-15), la tabella di distribuzione della frequenza mostra la frequenza con cui si verifica ciascun valore caratteristico. Se viene indicato quante volte si verifica ciascun valore caratteristico, questa è una tabella assoluto distribuzione di frequenza, se viene indicata la proporzione di osservazioni che cadono su un particolare valore di una caratteristica, allora si parla di parente frequenze di distribuzione.

In molti casi una caratteristica può assumere molti valori diversi, ad esempio se misuriamo il tempo necessario per risolvere un problema di test. In questo caso, è possibile giudicare la distribuzione della caratteristica tabella delle frequenze raggruppate, in cui le frequenze sono raggruppate per ranghi o intervalli di valori degli attributi.

Un altro tipo di tabelle di distribuzione sono le tabelle di distribuzione accumulato frequenza Mostrano come le frequenze si accumulano all’aumentare dei valori delle caratteristiche. Di fronte a ciascun valore (intervallo) è indicata la somma delle frequenze di accadimento di tutte quelle osservazioni per le quali il valore della caratteristica non supera questo valore (meno del limite superiore di questo intervallo). Le frequenze accumulate sono contenute nelle colonne di destra della tabella. 3.2 e 3.3.

Per una rappresentazione più visiva, viene costruito un grafico della distribuzione della frequenza o un grafico delle frequenze accumulate: un istogramma o una curva di distribuzione uniforme.

Un istogramma della distribuzione della frequenza è un grafico a barre, ciascuna colonna del quale si basa su un valore di attributo o un intervallo di bit specifico (per frequenze raggruppate). L'altezza della colonna è proporzionale alla frequenza con cui si verifica il valore corrispondente. Nella fig. 3.1 mostra un istogramma della distribuzione della frequenza per l'esempio della tabella. 3.2.

Istogramma delle frequenze distorte differisce da un istogramma di distribuzione in quanto l'altezza di ciascuna barra è proporzionale alla frequenza accumulata fino a un dato valore (intervallo). Nella fig. 3.2 mostra un istogramma delle frequenze accumulate per i dati nella tabella. 3.2.

Costruzione poligono di distribuzione della frequenza assomiglia alla costruzione di un istogramma. In un istogramma, la parte superiore di ciascuna colonna, corrispondente alla frequenza con cui si verifica un dato valore (intervallo) di una caratteristica, è un segmento di linea retta. E per il poligono viene segnato un punto corrispondente al centro di questo segmento. Successivamente, tutti i punti sono collegati da una linea tratteggiata (Fig. 3.3). Invece di un istogramma o di un poligono, viene spesso rappresentata una curva di distribuzione della frequenza levigata. Nella fig. La Figura 3.4 mostra un istogramma di distribuzione per l'esempio della tabella. 3.3 (barre) e una curva smussata della stessa distribuzione di frequenza.

Le tabelle e i grafici della distribuzione della frequenza forniscono importanti informazioni preliminari su forma di distribuzione della caratteristica: su quali valori si riscontrano meno frequentemente e quali più spesso, e quanto sia pronunciata la variabilità della caratteristica. In genere, si distinguono le seguenti forme di distribuzione tipiche. Distribuzione uniforme - quando tutti i significati ricorrono ugualmente (o quasi ugualmente) spesso. Distribuzione simmetrica - quando i valori estremi si verificano altrettanto spesso. Distribuzione normale- distribuzione simmetrica, in cui i valori estremi sono rari e la frequenza aumenta gradualmente dai valori estremi a quelli medi della caratteristica. Distribuzioni distorte- Mancino(con predominanza di frequenze di valori bassi), lato destro(con predominanza di frequenze di valori elevati).

Le tabelle e i grafici della distribuzione del tratto stesso ci consentono di trarre alcune conclusioni significative confrontando gruppi di soggetti tra loro. Confrontando le distribuzioni, non solo possiamo giudicare quali valori sono più comuni in un particolare gruppo, ma anche confrontare i gruppi in base alla gravità delle differenze individuali - variabilità su questa base.

Tabelle e grafici delle frequenze accumulate consentono di ottenere rapidamente informazioni aggiuntive su quanti soggetti (o quale proporzione di essi) presentano la gravità di un tratto non superiore a un determinato valore.

Sezione 4. Statistiche descrittive
(Distribuzione statistica e sue caratteristiche numeriche)

Una variabile può assumere molti valori. Nella fase iniziale dell'elaborazione dei dati, invece di considerare tutti i valori di una variabile, è consigliabile analizzare le statistiche descrittive. Danno un'idea generale dei valori o dell'intervallo di valori che assume una variabile.

Alle statistiche descrittive primarie ( Statistiche descrittive) di solito si riferiscono alle caratteristiche numeriche della distribuzione di una caratteristica misurata in un campione. Ognuna di queste caratteristiche riflette in un valore numerico proprietà distributiva serie di risultati di misurazione: dal loro punto di vista posizione sull'asse dei numeri o in termini di loro variabilità. Lo scopo principale di ciascuna delle statistiche descrittive primarie è sostituire molti valori di una caratteristica misurata in un campione con un unico numero (ad esempio, la media come misura della tendenza centrale). Una descrizione compatta di un gruppo utilizzando le statistiche primarie consente di interpretare i risultati delle misurazioni, in particolare, confrontando le statistiche primarie di diversi gruppi.

Bersaglio: imparare a compilare distribuzioni statistiche di campioni, costruire poligoni, istogrammi, costruire funzioni di distribuzione empiriche.

Statistiche matematicheè una branca della matematica applicata dedicata ai metodi di raccolta, raggruppamento e analisi delle informazioni statistiche ottenute come risultato di osservazioni o esperimenti.

Popolazione generale chiamare un insieme di oggetti omogenei rispetto ad alcuni attributi.

Popolazione campione (campione)è una raccolta di oggetti selezionati casualmente.

Ripetere chiamato campione in cui l'oggetto selezionato (prima di selezionare quello successivo) viene restituito alla popolazione.

Ripetibile chiamato campione in cui l'oggetto selezionato non viene restituito alla popolazione.

Il numero di oggetti in una raccolta è chiamato its volume.

Il campione viene chiamato rappresentante, se ciascun elemento del campione viene selezionato casualmente dalla popolazione e se tutti gli elementi hanno la stessa probabilità di essere inclusi nel campione.

Viene chiamato il valore numerico di una caratteristica quantitativa opzione.

Distribuzione statistica i campioni sono chiamati un elenco di opzioni e le loro frequenze corrispondenti o frequenze relative.

Serie di variazioniè chiamata una serie di opzioni classificate in ordine ascendente (o discendente) con le frequenze corrispondenti.

La serie di variazioni viene chiamata discreto, se una qualsiasi delle sue varianti differisce di un valore costante, e – intervallo, se le opzioni possono differire tra loro di un importo arbitrariamente piccolo.

Una serie statistica discreta è specificata da una tabella che indica varianti, frequenze o frequenze relative della loro occorrenza. Viene chiamata una rappresentazione grafica di una serie statistica discreta poligono delle frequenze (frequenze relative). Questa è una linea spezzata in cui le estremità dei segmenti hanno coordinate o , .

Esempio. La legge di distribuzione di una serie statistica discreta e l'intervallo di frequenza.

Serie statistiche di intervallo per variabili casuali continue e per variabili casuali discrete con grandi dimensioni campionarie. Una serie di intervalli è una tabella che mostra intervalli parziali, densità di frequenza o densità di frequenza relative. Viene chiamata una rappresentazione grafica di una serie statistica di intervalli istogramma.È una figura a gradini di rettangoli con basi uguali agli intervalli dei valori degli attributi e altezze uguali alle frequenze degli intervalli.

Esempio. La legge della distribuzione delle serie statistiche a intervalli e dell'istogramma.

(55;60) (60;65) (65;70) (70;75) (75;80) (80;85) (85;90)

Algoritmo per costruire una serie di intervalli:

Lascia che venga dato un campione con volume.

1) trova l'intervallo del campione,

2) determinare il numero di classi di partizione utilizzando le formule:

(Formula di Sturgess per)

(Formula di Brooks per),

3) trova il valore dell'intervallo di classe,

4) troviamo i confini degli intervalli parziali utilizzando le formule:

, , , .



5) contare la frequenza di occorrenza della variante in ciascun intervallo.

Curva cumulativa (cumulata)– curva delle frequenze accumulate. Per una serie discreta, il cumulato è una linea spezzata che collega i punti o , . Per una serie di variazioni di intervallo, la linea spezzata inizia da un punto la cui ascissa è uguale all'inizio del primo intervallo e l'ordinata è uguale alla frequenza accumulata, pari a 0. Gli altri punti corrispondono alle estremità degli intervalli.

Funzione di distribuzione empirica si chiama la frequenza relativa con cui un segno assumerà un valore inferiore a quello dato.

Per una serie di variazioni discrete, la funzione empirica è una funzione a gradino discontinua; per una serie di intervalli coincide con la cumulata.

Caratteristiche numeriche fondamentali di una serie di variazioni:

Media serie di variazioni, dove sono le varianti di una serie discreta o il centro degli intervalli e sono le frequenze corrispondenti.

Proprietà fondamentali della media aritmetica:

6), dove è la media complessiva, è la media del gruppo con volume ed è il numero di gruppi.

Dispersione serie di variazioni .

Proprietà fondamentali della dispersione:

2) ,

3) ,

4) ,

5), dove è la varianza totale, - dispersione del gruppo, - media aritmetica delle varianze di gruppo, - dispersione intergruppo.

6) - dispersione del valore medio.

Deviazione standard .

Il coefficiente di variazione .

Mediano serie di variazioni , dove è l'inizio dell'intervallo mediano, è la sua lunghezza, è la dimensione del campione, è la somma delle frequenze degli intervalli che precedono la mediana, è la frequenza dell'intervallo mediano. Per una serie discreta, la mediana è il valore dell'attributo che si trova al centro della serie di osservazioni classificata.

Moda , dove è l'inizio dell'intervallo modale, è la sua lunghezza, è la frequenza dell'intervallo modale e sono le frequenze rispettivamente degli intervalli modali precedente e successivo. Per una serie discreta, la moda è la variante che corrisponde alla frequenza più alta.

Momento iniziale-esimo ordine.

Momento centrale-esimo ordine .

Coefficiente di asimmetria .

Eccesso .

Domande di controllo:

1. Popolazioni generali e campione, loro volume.

2. Distribuzione statistica del campione. Serie di variazioni.

3. Serie statistiche discrete. Poligono di frequenza.

4. Serie statistiche intervallari. Grafico a barre.

5. Algoritmo per la costruzione di una serie statistica ad intervalli.

6. Funzione di distribuzione empirica. Curva cumulativa.

7. La media aritmetica di una serie di variazioni e le sue proprietà.

8. Dispersione e sue proprietà. RMS.

Compiti di prova:

1. Come sai, la calligrafia di una persona, inclusa l'inclinazione delle lettere, è strettamente correlata al suo carattere. Una pendenza bassa (30-40 gradi) indica il carattere e l'eccitabilità di una persona, l'eccessiva immediatezza e la fretta nelle azioni; inclinazione di 40 – 50 gradi. caratterizza lo sviluppo armonioso della natura; inclinazione di 50 – 90 gradi. indica autocontrollo, una gamma ristretta di hobby.

Tra gli studenti dell'istituto, è stata studiata selettivamente la calligrafia di 50 persone. Si è scoperto che la grafia del 30% dei presenti aveva una pendenza bassa, il 50% aveva una pendenza di 40-50 gradi e il 20% aveva una pendenza di 50-90 gradi.

Trova la distribuzione delle frequenze, le frequenze relative, costruisci un poligono e un istogramma.

2. Data è la distribuzione della caratteristica ottenuta dalle osservazioni. Necessario:

4. È stata studiata l'altezza (cm) degli uomini di età compresa tra 25 anni. Basato su un campione casuale del volume 35: 175, 167, 168, 169, 168, 170, 174, 173, 177, 172, 174, 167, 173, 172, 171, 171, 170, 167, 174, 177, 171 , 172, 173, 169, 171, 173, 173, 168, 173, 172, 166, 164, 168, 172, 174, trovare le serie di distribuzione degli intervalli statistici e costruire un istogramma di frequenza.

Compiti a casa:

Viene fornita la distribuzione della caratteristica ottenuta dalle osservazioni. Necessario:

1) istogramma di costruzione (poligono), funzione di cumulo e di distribuzione empirica;

2) trovare: media aritmetica, moda e mediana, dispersione, deviazione standard e coefficiente di variazione, momento iniziale e centrale del th ordine.

5-10 10-15 15-20 20-25 25-30 30-35 35-40

Argomento n. 12 “Trovare stime puntuali e intervallari dei parametri di distribuzione”

Bersaglio: imparare a determinare stime statistiche puntuali e intervallari dei parametri generali di una distribuzione normale sulla base di dati campione provenienti dalla popolazione generale.

Brevi informazioni teoriche:

Valutazione statistica (statistica) parametro sconosciuto Q la distribuzione della popolazione è chiamata funzione dei risultati delle osservazioni Q* .

Valutazione statistica Q*è una variabile casuale.

Viene chiamata una stima determinata da un unico numero a seconda dei dati del campione punto.

Requisiti per le stime statistiche puntuali:

1) coerenza (cercando con probabilità il parametro stimato in ),

2) imparziale (assenza di errori sistematici per qualsiasi dimensione del campione (q*) = q),

3) efficienza (tra tutte le stime possibili, quella effettiva ha la varianza minore).

Stime puntuali dei parametri generali di una popolazione distribuita normalmente:

Stima dell'intervallo chiamata stima determinata da due numeri: le estremità dell'intervallo.

Le stime intervallari consentono di stabilire l'accuratezza e l'affidabilità di una stima puntuale.

Precisione stime è chiamata deviazione del modulo Q* da Q.

Ultimo errore campioni è detta deviazione massima ammissibile in valore assoluto Q* da Q.

Affidabilità (probabilità di fiducia) valutazioni Q* chiamata probabilità , con cui si realizza la disuguaglianza |q - q*|< . Generalmente = 0,95; 0,99; 0,999…

Probabilità che un parametro sconosciuto non rientri nell'intervallo |q - q*|< , è uguale a - livello di significatività.

Fidatoè chiamato intervallo ( Q*- ;q*+), che copre il parametro sconosciuto con una data affidabilità .

Stime intervallari dei parametri della distribuzione normale:

1) Intervallo di confidenza per l'aspettativa matematica con varianza nota.

, dove le funzioni di Laplace si trovano dalla tabella, tenendo conto di .

2) Intervallo di confidenza per l'aspettativa matematica con varianza sconosciuta.

Riso.:
, dove si ricavano dalla tabella dei coefficienti di Student.

3) Intervallo di confidenza per la varianza quando .

< < , Dove , - Trovato a con il numero di gradi di libertà.

4) Intervallo di confidenza per la varianza per l'incognita.

, Dove - trovato dalla tabella di distribuzione in 1- , - Trovato a con il numero di gradi di libertà.

Esempio 1. Calcolare stime imparziali dei parametri della popolazione dai dati del campione: 64 63 71 68 73 71 74 73 70 75 68 67 73.

,

,

.

Esempio 2. Trova gli intervalli di confidenza per l'aspettativa, la varianza e la deviazione standard a un livello di significatività di 0,05 se il campione utilizzato nell'esempio 1 è tratto dalla popolazione.

Soluzione. Utilizziamo i dati dell'esempio 1 per trovare l'intervallo di confidenza per l'aspettativa matematica con varianza sconosciuta:

,

.

Utilizziamo i dati dell'esempio 1 per trovare l'intervallo di confidenza per la varianza con un'aspettativa matematica sconosciuta:

,

Dove = ()= =4.4 e =

,

Domande di controllo:

1. Valutazione statistica del parametro incognito della distribuzione teorica.

2. Stima puntuale.

3. Requisiti per le stime puntuali: imparziali, coerenti, efficienti.

4. Media generale e campionaria.

5. Varianze generali e campionarie.

6. Fattore di correzione. Corretta la varianza del campione.

7. Deviazione standard generale e sua stima puntuale.

8. Stima della dispersione e della deviazione standard della media campionaria.

9. Stima intervallare di un parametro sconosciuto della popolazione.

10. Probabilità di confidenza e livello di significatività.

11. Intervallo di confidenza.

12. Regola per trovare l'intervallo di confidenza.

13. Intervallo di confidenza per l'aspettativa matematica con varianza nota.

14. Intervallo di confidenza per l'aspettativa matematica con varianza sconosciuta.

15. Intervallo di confidenza per la varianza con .

16. Intervallo di confidenza per la varianza per incognita.

Compiti di prova:

1. Durante il controllo dei progressi della facoltà, sono stati testati in modo casuale 50 studenti, distribuiti in base ai risultati del test come segue ( - punteggio, - numero di studenti con un determinato punteggio):

Trova la distanza di comunicazione media del campione.

3. Trova la diffusione del punteggio medio nell'attività 1 del test su 50 studenti.

4. Trova una stima della diffusione della velocità di lettura, la distribuzione presentata nella tabella, avendo precedentemente determinato la frequenza relativa della velocità di lettura media.

5. Trovare stime imparziali della media generale, della dispersione e della deviazione standard della popolazione per un campione di volume 12, descrivendo la durata in secondi dell'attività fisica prima dello sviluppo di un attacco di angina: 289, 208, 259, 243, 232, 210, 251, 246, 224, 239, 220, 211.

6. C'è un volume campione: questi sono i valori della pressione sistolica negli uomini nella fase iniziale dello shock: 127, 124, 155, 129, 77, 147, 65, 109, 145, 141. Determinare la dispersione e deviazione standard della media campionaria.

7. Secondo lo schema di campionamento non ripetitivo, da 400 soggetti negli esperimenti di Franzen e Offenloch utilizzando i potenziali evocati, sono state selezionate 100 persone e sono stati misurati i periodi di latenza. I risultati del test sono mostrati nella tabella:

Viene specificata la deviazione standard. Trovare:

a) la probabilità che il periodo di latenza medio di tutte le 400 persone differisca dal periodo medio del campione di non più di 0,31 ms (in valore assoluto),

b) i limiti entro i quali è probabile che sia contenuto il valore medio del periodo di latenza,

c) la dimensione del campione per il quale si verificherebbero limiti di confidenza con un errore massimo con una probabilità di confidenza.

8. La distribuzione delle visite giornaliere di Carlson a Baby durante il mese è mostrata nella tabella:

Determinare i limiti entro i quali è probabile che si trovi il numero medio di visite.

9. Una variabile casuale ha una distribuzione normale con una deviazione standard nota = 3. Trova gli intervalli di confidenza per stimare l'aspettativa matematica sconosciuta UN secondo la media campionaria = 24,5, se sono specificate la dimensione del campione e l'attendibilità della stima.

10. Una caratteristica quantitativa della popolazione generale è distribuita normalmente. Sulla base del volume del campione, sono state trovate la media del campione = 20,2 e la deviazione standard corretta. Stimare l'aspettativa matematica sconosciuta utilizzando un intervallo di confidenza con un'affidabilità di 0,95.

11. Per 9 candidati alla posizione di manager, è stato valutato un indicatore professionale, che caratterizza la capacità di guidare le persone. Considerando che l'indicatore sia distribuito secondo una legge normale con una deviazione standard di arb. unità, determinare in modo affidabile l’intervallo di confidenza per la vera deviazione standard dell’indicatore.

Compiti a casa:

1. Trova le stime della media generale, della dispersione e della deviazione standard, se la popolazione è specificata da una tabella di distribuzione:

Stimare con un'affidabilità pari a 0,95 l'aspettativa matematica di una caratteristica normalmente distribuita della popolazione utilizzando un intervallo di confidenza.

4. Trova gli intervalli di confidenza per l'aspettativa matematica, la varianza e la deviazione standard con una probabilità di confidenza di 0,95, se un campione viene prelevato dalla popolazione generale:

67 70 69 68 74 72 66 66 74 69 72 78 67

Argomento n. 13 « Verifica di ipotesi statistiche sull'uguaglianza delle varianze e delle aspettative matematiche"

Bersaglio: imparare a testare ipotesi statistiche sull'uguaglianza delle varianze e sulle aspettative matematiche delle popolazioni normali.

Brevi informazioni teoriche:

Statistico chiamata ipotesi sulla forma di una distribuzione sconosciuta o sui parametri di distribuzioni note.

Nullo(principale) è detta ipotesi avanzata.

Competere(alternativa) è un'ipotesi che contraddice l'ipotesi nulla.

Errore del primo tipoè che l’ipotesi corretta verrà respinta.

Errore del secondo tipoè che verrà accettata l’ipotesi sbagliata.

La probabilità di commettere un errore di tipo II è livello di significatività.

Criterio statistico chiamata variabile casuale che serve a verificare l'ipotesi nulla.

Valore osservato chiamare il valore del criterio calcolato dai campioni.

Zona criticaè un insieme di valori di criterio in corrispondenza dei quali l'ipotesi nulla viene rifiutata.

Area di accettazione delle ipotesi– un insieme di valori criterio ai quali l’ipotesi è accettata.

Se appartiene all'area critica l'ipotesi viene scartata; se appartiene all'area in cui l'ipotesi è accettata l'ipotesi è accettata.

Punti critici Chiamano i punti che separano la regione critica dalla regione in cui l'ipotesi è accettata.

I punti critici vengono ricercati sulla base del requisito che, a condizione che l'ipotesi nulla sia vera, la probabilità che il criterio cada nella regione critica sia uguale al livello di significatività accettato.

Per ogni criterio esistono tabelle corrispondenti da cui si ricava il punto critico che soddisfa questo requisito.

Una volta trovato, calcolare dai dati del campione e, se > (regione critica a destra),< (левосторонняя), < < , < (двусторонняя), то отвергается.

Confronto di due varianze di popolazioni normali:

Lascia che siano distribuiti normalmente. Utilizzando campioni indipendenti con volumi corrispondentemente uguali ed estratti da queste popolazioni, sono state trovate le varianze e le correzioni dei campioni. È necessario verificare l'ipotesi nulla utilizzando varianze corrette a un dato livello di significatività .

1) avanzare un'ipotesi concorrente (),

2) troviamo,

3) utilizzando la tabella dei punti critici di Fisher-Snedecor, troviamo (), dove , e è la dimensione del campione a cui , - , corrisponde.

4) se , allora accettiamo l'ipotesi nulla, altrimenti – l'alternativa.

Argomento 9. Serie di distribuzione

Serie di distribuzione statistica- questa è la caratteristica principale di una popolazione statistica di massa, una scomposizione ordinata di unità della popolazione studiata in gruppi secondo le caratteristiche di raggruppamento. Qualsiasi serie di distribuzione statistica è composta da due elementi:

1) valori individuali della caratteristica variabile ( opzioni );

2) valori che mostrano quante volte viene ripetuta una determinata opzione ( frequenze ).

Nota. Vengono chiamate frequenze espresse in frazioni di unità o in percentuale sul totale frequenze ; questo è il numero di serie di distribuzione espresse somma delle frequenze.

Se una caratteristica qualitativa viene presa come base per il raggruppamento, viene chiamata tale serie di distribuzione attributivo(distribuzione per tipologia di lavoro, per genere, per professione, per religione, nazionalità, ecc.). Se una serie di distribuzione è costruita su base quantitativa, viene chiamata tale serie variazionale. Costruire una serie di variazioni significa organizzare la distribuzione quantitativa delle unità di popolazione in base a valori caratteristici, e quindi contare il numero di unità di popolazione con questi valori (costruire una tabella di gruppo).

Evidenziare tre forme di serie di variazioni:

1) serie classificate- questa è la distribuzione delle singole unità della popolazione in ordine ascendente o discendente della caratteristica oggetto di studio; la classificazione consente di dividere facilmente i dati quantitativi in ​​gruppi, rilevare immediatamente i valori più piccoli e quelli più grandi di una caratteristica ed evidenziare i valori che si ripetono più spesso; altre forme di serie di variazioni - tavoli di gruppo, compilato in base alla natura della variazione dei valori della caratteristica studiata;

2) serie discrete- si tratta di una serie di variazioni, la cui costruzione si basa su caratteristiche con cambiamenti discontinui, tra i quali non esistono valori intermedi (caratteristiche discrete - categoria tariffaria, numero di figli in famiglia, numero di dipendenti nell'impresa, ecc. .); queste caratteristiche possono assumere solo un numero finito di valori specifici;

Serie discreta rappresenta tavolo di gruppo, che consiste di due colonne: la prima colonna indica il valore specifico dell'attributo e la seconda il numero di unità nella popolazione con un valore specifico dell'attributo;

3) se la caratteristica ha un cambiamento continuo (importo del reddito, anzianità di servizio, costo delle immobilizzazioni dell'impresa, ecc., Che entro certi limiti può assumere qualsiasi valore), allora per questa caratteristica è necessario costruire serie di intervalli (a intervalli uguali o disuguali).

Tavolo di gruppo anche qui ha due colonne. La prima indica il valore dell'attributo nell'intervallo “da - a” (opzioni), la seconda indica il numero di unità comprese nell'intervallo (frequenza). Molto spesso la tabella è integrata con una colonna in cui vengono calcolate le frequenze S accumulate, che mostrano quante unità della popolazione hanno un valore caratteristico non superiore a questo valore. Le frequenze della serie f possono essere sostituite da particolari w, espresso in numeri relativi (quote o percentuali). Rappresentano il rapporto tra le frequenze di ciascun intervallo e la loro somma totale (9.1):



(9.1)

Quando si costruisce una serie di variazioni con valori di intervallo, è necessario innanzitutto stabilire il valore dell'intervallo i, che è definito come il rapporto tra l'intervallo di variazione R e il numero di gruppi n (9.2):

dove R = x max - x min; n = 1 + 3.322 logN( Formula di Sturgess); N è il numero totale di unità della popolazione.

È possibile costruire serie di variazioni di intervallo anche per caratteristiche con variazione discreta. Spesso in uno studio statistico è inappropriato indicare un valore separato di un attributo discreto, perché questo tende a rendere difficile considerare la variazione di un tratto. Pertanto, i possibili valori discreti dell'attributo vengono distribuiti in gruppi e vengono calcolate le frequenze (particolari) corrispondenti. Quando si costruisce una serie di intervalli basata su un attributo discreto, i confini degli intervalli adiacenti non si ripetono: l'intervallo successivo inizia con il valore discreto successivo in ordine (dopo il valore superiore dell'intervallo precedente) dell'attributo.

Quando si confrontano le frequenze di una serie con intervalli disuguali, viene calcolata la densità di distribuzione per caratterizzare la loro pienezza. Densità media nell'intervalloè il quoziente di frequenza e particolarità diviso per il valore dell'intervallo. Nel primo caso la densità è assoluta, nel secondo relativa. La densità media mostra quante unità o percentuali sono presenti per unità di misura. Frequenza, particolarità, densità e frequenza accumulata sono funzioni diverse delle opzioni di magnitudo.

In corso analisi statistica dei dati, rappresentato da serie di distribuzione, oltre alla conoscenza della natura della distribuzione (o della struttura della popolazione), possono essere calcolati vari indicatori statistici (caratteristiche numeriche), che in forma generalizzata riflettono le caratteristiche della distribuzione delle caratteristiche in fase di studio. Queste caratteristiche (indicatori) possono essere suddivise in 3 gruppi principali

1) caratteristiche del centro di distribuzione(media, moda, mediana);

2) caratteristiche del grado di variazione(intervallo di variazione, deviazione lineare media, dispersione, deviazione standard, coefficiente di variazione);

3) caratteristiche della forma (tipo) di distribuzione(indicatori di curtosi e asimmetria, caratteristiche di rango, curve di distribuzione).

Il modo più affidabile per identificare i modelli di distribuzione è il seguente:
1) aumentare il numero di casi osservati (secondo la legge dei grandi numeri, in tali serie le deviazioni casuali dallo schema generale dei valori individuali si annulleranno a vicenda);

2) dividere inizialmente la popolazione nel massimo numero possibile di gruppi, poi, riducendo gradualmente il numero dei gruppi, ottimizzare il raggruppamento dal punto di vista dell'individuazione di modelli distributivi.

Quando si implementa questo approccio, il modello caratteristico di una determinata distribuzione apparirà sempre più chiaramente e la linea spezzata raffigurante il poligono si avvicinerà a una linea liscia e al limite dovrebbe trasformarsi in una linea curva.

Teoria della statistica: dispense Burkhanova Inessa Viktorovna

1. Serie di distribuzione statistica

Come risultato dell'elaborazione e della sistematizzazione dei dati di osservazione statistica primaria, si ottengono raggruppamenti chiamati serie di distribuzione.

Serie di distribuzione statistica rappresentano una disposizione ordinata di unità della popolazione studiata in gruppi in base alle caratteristiche di raggruppamento.

Esistono serie di distribuzione attributive e variazionali.

Attributivo è una serie di distribuzione costruita secondo caratteristiche qualitative. Caratterizza la composizione della popolazione secondo varie caratteristiche essenziali.

Sulla base di criteri quantitativi, è costruito serie di distribuzione variazionale. Consiste nella frequenza (numero) delle singole opzioni o di ciascun gruppo di una serie di variazioni. Questi numeri mostrano la frequenza con cui si verificano opzioni diverse (valori degli attributi) nelle serie di distribuzione. La somma di tutte le frequenze determina la dimensione dell’intera popolazione.

Il numero dei gruppi è espresso in valori assoluti e relativi. In termini assoluti è espresso dal numero di unità di popolazione in ciascun gruppo selezionato e in termini relativi - sotto forma di quote, pesi specifici, presentati come percentuale del totale.

A seconda della natura della variazione dell'attributo, si distinguono serie di distribuzione variazionali discrete e intervallari. In una serie di variazioni discrete, le distribuzioni di gruppo sono composte secondo una caratteristica che cambia in modo discreto e assume solo valori interi.

In una serie di distribuzione variazionale di intervallo, la caratteristica di raggruppamento che costituisce la base del raggruppamento può assumere qualsiasi valore in un determinato intervallo.

Le serie di variazioni sono costituite da due elementi: frequenze e variazioni.

Opzione chiamare il valore individuale di una caratteristica variabile che assume nella serie di distribuzione.

Frequenza– questo è il numero delle singole varianti o di ciascun gruppo di una serie di varianti. Se le frequenze sono espresse in frazioni di unità o come percentuale del totale, allora vengono chiamate frequenze.

Le regole e i principi per costruire serie di distribuzioni di intervalli si basano su regole e principi simili per costruire raggruppamenti statistici. Se la serie di variazione dell'intervallo della distribuzione è costruita con intervalli uguali, le frequenze consentono di giudicare il grado in cui l'intervallo è riempito con unità di popolazione. Per effettuare un'analisi comparativa dell'occupazione degli intervalli, viene determinato un indicatore che caratterizzerà la densità distributiva.

Densità di distribuzioneè il rapporto tra il numero di unità di popolazione e la larghezza dell'intervallo.

Dal libro Acquista un ristorante. Vendere un ristorante: dalla creazione alla vendita autore Gorelkina Elena

Metodi statistici Conteggio in mezzo alla folla. Il metodo, francamente, è ingenuo, ma molto popolare. L'organizzatore di un'attività di ristorazione prende un taccuino e una matita, si mette davanti alla porta di un locale simile in una zona equivalente e conta quante persone passano nell'unità di tempo.

Dal libro Un secolo di guerra. (La politica petrolifera anglo-americana e il Nuovo Ordine Mondiale) autore Engdahl William Frederick

Capitolo 6 INGLO-AMERICANI A RASSEGNA CHIUSA Conferenza di Genova Il 16 aprile 1922, nella genovese Villa Alberta, la delegazione tedesca, presente alla conferenza internazionale di economia del dopoguerra, fece esplodere una bomba, la cui onda d'urto raggiunse un'altra

Dal libro Teoria della statistica: appunti delle lezioni autore

1. Serie di distribuzione statistica Come risultato dell'elaborazione e sistematizzazione dei dati di osservazione statistica primaria, si ottengono raggruppamenti chiamati serie di distribuzione.Le serie di distribuzione statistica rappresentano una disposizione ordinata di unità

Dal libro Teoria generale della statistica: appunti delle lezioni autore Konik Nina Vladimirovna

3. Tabelle statistiche Sotto forma di tabelle statistiche, vengono presentati i risultati di un riepilogo e raggruppamento di materiali di osservazione. Una tabella statistica è un modo speciale per registrare in modo breve e chiaro informazioni sui fenomeni sociali studiati. Tabella statistica

Dal libro Teoria della statistica autore Burkhanova Inessa Viktorovna

LEZIONE N. 10. Serie dinamiche e loro studio nelle attività commerciali 1. Concetti di base sulle serie dinamiche Tutti i processi e i fenomeni che si verificano nella vita sociale umana sono oggetto di studio della scienza statistica; sono in costante movimento e

Dal libro Statistiche finanziarie autore Sherstneva Galina Sergeevna

3. Tabelle statistiche Dopo che i dati delle osservazioni statistiche sono stati raccolti e anche raggruppati, è difficile percepirli e analizzarli senza una certa sistematizzazione visiva. I risultati delle sintesi e dei raggruppamenti statistici sono presentati nel modulo

Dal libro Teoria generale della statistica autore Shcherbina Lidiya Vladimirovna

4. Serie di indici aggregati con pesi costanti e variabili Nello studio della dinamica dei fenomeni economici, gli indici vengono costruiti e calcolati per più periodi successivi. Formano serie di indici di base o di catena. In una serie di confronti di indici di base

Dal libro Piano aziendale al 100%. Strategie e tattiche aziendali efficaci di Rhonda Abrams

18. Serie di distribuzione statistica e loro rappresentazione grafica Le serie di distribuzione statistica rappresentano una disposizione ordinata di unità della popolazione oggetto di studio in gruppi in base alle caratteristiche di raggruppamento.Ci sono serie di attributi e di variazioni

Dal libro dell'autore

19. Tabelle statistiche Sotto forma di tabelle statistiche, vengono presentati i risultati di un riepilogo e raggruppamento di materiali di osservazione. Una tabella statistica è un modo speciale per registrare in modo breve e chiaro informazioni sui fenomeni sociali studiati. Tabella statistica

Dal libro dell'autore

6. Termini statistici Le informazioni statistiche ottenute a seguito dell'osservazione sono necessarie per fornire alle autorità governative, per fornire informazioni ai dirigenti di imprese, società, ecc., per informare il pubblico su

Dal libro dell'autore

44. Metodi statistici I metodi statistici sono particolarmente utilizzati nello studio degli investimenti finanziari. Lo studio degli investimenti finanziari si basa sulla costruzione di un'equazione di equivalenza, il cosiddetto bilancio di una transazione finanziaria. Contenuto di questo

Dal libro dell'autore

45. Modelli statistici Per lavorare efficacemente nel mercato azionario, è necessario sapere come il rendimento di un titolo specifico (o di un portafoglio di azioni di uno specifico investitore) è correlato al rendimento medio di mercato dell'intera popolazione di azioni, ovvero all'indice di mercato. Per

Dal libro dell'autore

15. Tabelle statistiche Una tabella statistica è una tabella che fornisce una descrizione quantitativa di una popolazione statistica ed è una forma di presentazione visiva dei dati numerici (digitali) ottenuti come risultato di un riepilogo e raggruppamento statistico

Dal libro dell'autore

19. Mappe statistiche Le mappe statistiche sono un tipo di immagini grafiche di dati statistici su una mappa geografica schematica, che caratterizza il livello o il grado di distribuzione di un particolare fenomeno in un determinato territorio.

Dal libro dell'autore

38. Serie di indici aggregati con pesi costanti e variabili Nello studio della dinamica dei fenomeni economici, gli indici vengono costruiti e calcolati per più periodi successivi. Formano serie di indici di base o di catena. In una serie di confronti di indici di base

Dal libro dell'autore

Statistiche internazionali Internet ha notevolmente semplificato la raccolta di dati su scala globale. La maggior parte dei paesi sviluppati e molti in via di sviluppo hanno accesso via Internet alle informazioni statistiche. Pubblicano i loro dati e quelli internazionali in libero accesso.