Esempi di statistica descrittiva e inferenziale/Le donne in USA

Wikibooks, manuali e libri di testo liberi.
Indice del libro

Caricamento librerie[modifica]

 library(ggplot2)
 library(dplyr)
 library(statsr)
 library(scales)


Parte 1: Dati[modifica]

Il "General Social Surveys" è un questionario sottoposto a persone intervistate di 18 anni o più che parlavano in inglese all'interno degli Stati Uniti d'America. In totale le interviste sono state 57.061 che rappresentano meno del 10% della popolazione Americana . Tali interviste sono state fatte tra il 1972 e il 2014 e ciascuna contiene 114 variabili di cui alcune numeriche ed altre categoriali. L'analisi fatta è osservazionale e non sperimentale quindi non si possono stabilire relazioni casuali tra le variabili.

Parte 2: Domanda di ricerca[modifica]

E' vero che il reddito familiare delle donne americane è inferiore a quello degli uomini negli anni in cui i dati sono stati raccolti? E' vero che la percentuale di donne americane che hanno i seguenti titoli di studio 'Lt High School','High School','Junior College','Bachelor' è maggiore degli uomini sempre negli anni in cui i dati sono stati raccolti? E' verò che la percentuale di donne con il titolo 'Graduate' è minore degli uomini...?

La variabili trattate nell'analisi statistica sono :

  • coninc: reddito familiare in dollari (variabile numerica)
  • sex: sesso del rispondente (variabile categorica con valori : Female e Male)>
  • degree: Titolo di studio di livello superiore del rispondente (variabile categorica con valori : Lt High School,High School,Junior College,Bachelor,Graduate)

Parte 3: Esplorazione dei dati[modifica]

Consideriamo la relazione esistente tra reddito familiare in dollari e il sesso del rispondente:

 gss %>% filter(!is.na(coninc),!is.na(sex)) %>% 
  ggplot(aes(coninc,fill=sex)) +
  geom_histogram (bins=30,color='black')+
  xlab("Family income in costant dollars") +
  ylab("Total number of respondents") +
  ggtitle("Family income of the respondent based on gender") +
  scale_fill_discrete(name="Sex")

 gss %>% 
  filter(!is.na(sex),!is.na(coninc)) %>% 
  ggplot(aes(sex,coninc)) + 
  geom_boxplot()+
  ylab("Family income in costant dollars") +
  xlab("Sex")

Entrambe le distribuzioni sono distorte a destra con numerosi outliers, inoltre la mediana negli uomini è maggiore di quella delle donne.

Per la media c'è una differenza statistica significativa ? Per rispondere alla domanda si condurrà un test delle ipotesi...

I grafici che indicano la percentuale di laureati e liceali in base al sesso sono i seguenti:

 gss %>% 
  filter(!is.na(sex),degree=='Graduate') %>% 
  ggplot(aes(sex,fill=sex)) + 
  geom_bar(aes(y=(..count../sum(..count..))))+
  scale_y_continuous(labels = percent_format())+
  ylab("Percentage of Graduate respondents") +
  xlab("Sex") 

 gss %>% 
  filter(!is.na(sex),degree=='High School') %>% 
  ggplot(aes(sex,fill=sex)) + 
  geom_bar(aes(y=(..count../sum(..count..))))+
  scale_y_continuous(labels = percent_format())+
  ylab("Percentage of High School respondents") +
  xlab("Sex")

Come si può vedere dal grafico a barre nel campione, la percentuale di donne con il diploma è maggiore di quella degli uomini, mentre la percentuale di donne che hanno una laurea è inferiore a quella degli uomini. Ma questo è generalmente vero per le donne statunitensi negli anni in cui è stato fatto il sondaggio?

Per rispondere a questa domanda troverò gli intervalli di confidenza...

Parte 4: Inferenza[modifica]

Le ipotesi per verificare se il reddito familiare medio degli uomini statunitensi è maggiore di quello delle donne è:

H0: mu_Male = mu_Female
HA: mu_Male> mu_Female

Ogni osservazione nel gruppo degli uomini non ha una corrispondenza speciale con esattamente un'osservazione nel gruppo delle donne, quindi i dati non sono accoppiati . Lavoriamo con un campione casuale di osservazioni che sono meno del 10% di un ampio insieme di dati di tutt gli Stati Uniti negli anni di indagine, quindi le osservazioni in ciascun gruppo sono indipendenti. Le dimensioni dei campioni sono 25146 per gli uomini e 31915 per le donne , quindi le dimensioni del campione sono molto grandi. Ci possiamo rilassare sul requisito della distribuzione quasi normale e possiamo usare la distribuzione t, sebbene ognuna delle 2 distribuzioni è fortemente distorta.

 g<- gss %>%
  filter(!is.na(sex),!is.na(coninc))

 inference(y = coninc, x = sex, data = g, statistic = "mean", type = "ht", null=0,
          alternative = "greater", method = "theoretical")
Response variable: numerical
Explanatory variable: categorical (2 levels) 
n_Male = 23043, y_bar_Male = 48763.6453, s_Male = 36916.3394
n_Female = 28189, y_bar_Female = 41020.2199, s_Female = 34728.8358
H0: mu_Male =  mu_Female
HA: mu_Male > mu_Female
t = 24.2541, df = 23042
p_value = < 0.0001


Rifiutiamo l'ipotesi nulla H0 essendo p_value <0,05. I dati forniscono una prova evidente che il reddito familiare dichiarato dagli uomini statunitensi è maggiore di quello dichiarato dalle donne statunitensi .


inference(y = coninc, x = sex, data = g, statistic = "mean", type = "ci", null=0,
          alternative = "greater", method = "theoretical")
Response variable: numerical, Explanatory variable: categorical (2 levels)
n_Male = 23043, y_bar_Male = 48763.6453, s_Male = 36916.3394
n_Female = 28189, y_bar_Female = 41020.2199, s_Female = 34728.8358
95% CI (Male - Female): (7117.6505 , 8369.2002)


Siamo sicuri al 95% che il reddito familiare dichiarato dagli uomini statunitensi sia tra 7177 e 8369 dollari in più rispetto a quello dichiarato dalle donne .

Ora valutiamo se esiste un'associazione tra il livello di istruzione e il sesso attraverso il test di indipendenza CHI QUADRO.

Le condizioni necessarie per eseguire il test CHI QUADRO sono: Indipendenza: i campioni sono sia casuali, non correlati e provenienti da meno del 10% della popolazione, quindi l'indipendenza tra le osservazioni è ragionevole.

g<- gss %>%
  filter(!is.na(sex),!is.na(degree))

inference(y = sex, x = degree, data = g, statistic = "proportion", type = "ht", 
          alternative = "greater", method = "theoretical")
Response variable: categorical (2 levels) 
Explanatory variable: categorical (5 levels) 
Observed:
                y
x                 Male Female
  Lt High School  5153   6669
  High School    12340  16947
  Junior College  1272   1798
  Bachelor        3822   4180
  Graduate        2091   1779
Expected:
               y
x                     Male    Female
  Lt High School  5204.962  6617.038
  High School    12894.410 16392.590
  Junior College  1351.652  1718.348
  Bachelor        3523.101  4478.899
  Graduate        1703.874  2166.126
H0: degree and sex are independent
HA: degree and sex are dependent
chi_sq = 254.3489, df = 4, p_value = 0


Dal momento che p-value = 0 <0,05, rifiutiamo l'ipotesi nulla. Vi è una forte evidenza che esiste un'associazione tra livello di istruzione e sesso .

 g<- gss %>%
  filter(!is.na(sex),degree=='Graduate')

 
 inference(y = sex, data = g, statistic = "proportion", type = "ci", 
           method = "theoretical",success = 'Female')
Single categorical variable, success: Female
n = 3870, p-hat = 0.4597
95% CI: (0.444 , 0.4754)

Quindi siamo sicuri al 95% che la percentuale di donne statunitensi che hanno il titolo di "Graduate" è compresa tra il 44,4% e il 47,5%, che è comunque inferiore al 50%, quindi le donne statunitensi con "Graduate" sono meno degli uomini con un livello di confidenza del 95%.


 for (deg in c('Lt High School','High School','Junior College','Bachelor')) {

  print(deg)
  
  g<- gss %>%
  filter(!is.na(sex),degree==deg)

 inference(y = sex, data = g, statistic = "proportion", type = "ci", 
         method = "theoretical",success = 'Female')
    
}
[1] "Lt High School"
Single categorical variable, success: Female
n = 11822, p-hat = 0.5641
95% CI: (0.5552 , 0.5731)
[1] "High School"
Single categorical variable, success: Female
n = 29287, p-hat = 0.5787
95% CI: (0.573 , 0.5843)
[1] "Junior College"
Single categorical variable, success: Female
n = 3070, p-hat = 0.5857
95% CI: (0.5682 , 0.6031)
[1] "Bachelor"
Single categorical variable, success: Female
n = 8002, p-hat = 0.5224
95% CI: (0.5114 , 0.5333)

Invece siamo fiduciosi al 95% che la percentuale di donne statunitensi che hanno un 'Lt High School', 'High School', 'Junior College', 'Bachelor' sia sempre più del 50% rispetto agli uomini, quindi le donne statunitensi con queste qualifiche sono sempre più degli uomini con un livello di confidenza del 95%.