Ricerca scientifica in ambito sociale/Diventare ricchi
L'Adult Income Dataset è una raccolta di dati derivata dal censimento statunitense del 1994, per la ricerca sulla classificazione del reddito. Creato da Wenrui Liu e ospitato su Kaggle, questo dataset ampiamente utilizzato mira a prevedere se il reddito annuo di un individuo superi o meno i 50.000 dollari. Basato su attributi demografici e socio-economici, come età, istruzione e occupazione, il dataset è fornito in formato CSV insieme a un dizionario dati. Destinato principalmente alla ricerca accademica e non all'uso commerciale, il suo utilizzo richiede la corretta citazione, con Huda Basharat accreditata per la pulizia e l'elaborazione. Distribuito sotto licenza Creative Commons Attribution 4.0, il dataset e la sua documentazione sono disponibili su Zenodo :
Citation: Huda Basharat (2024). Adult Income Dataset. Zenodo. DOI: 10.528/zenodo.14216482 Liu, W. (2024). Adult Income Dataset [Data set]. Zenodo. https://doi.org/10.5281/zenodo.14223441
Si vogliono evidenziare i fattori che contribuiscono maggiormente al superamento del reddito di 50.000 dollari e che rendono la persona benestante o persino ricca.
Livello di istruzione
[modifica | modifica sorgente]Tramite inferenza statistica in R si vuole evidenziare che il livello medio di istruzione è maggiore in chi percepisce un reddito superiore a 50.000 dollari. Innanzitutto i livelli di istruzione sono i seguenti:
library(dplyr)
cleaned_adult_income %>%
group_by(education) %>%
summarise(livello=unique(educational.num)) %>%
arrange(livello)
education livello 1 Preschool 1 2 1st-4th 2 3 5th-6th 3 4 7th-8th 4 5 9th 5 6 10th 6 7 11th 7 8 12th 8 9 HS-grad 9 10 Some-college 10 11 Assoc-voc 11 12 Assoc-acdm 12 13 Bachelors 13 14 Masters 14 15 Prof-school 15 16 Doctorate 16
library(statsr)
inference(x = income, y = educational.num, data = cleaned_adult_income,
statistic = "mean", type = "ht",
method = "theoretical", alternative = "less", null = 0,
conf_level = 0.95)
Response variable: numerical Explanatory variable: categorical (2 levels) n_<=50K = 34014, y_bar_<=50K = 9.6308, s_<=50K = 2.4204 n_>50K = 11208, y_bar_>50K = 11.5985, s_>50K = 2.3675 H0: mu_<=50K = mu_>50K HA: mu_<=50K < mu_>50K t = -75.8896, df = 11207 p_value = < 0.0001
Essendo p_value < 0,05 scartiamo l'ipotesi nulla H0 e accettiamo l'ipotesi alternativa HA quindi siamo fiduciosi al 95% che il livello medio di istruzione in chi ha un reddito superiore a 50K è maggiore di chi ha un reddito inferiore o uguale a 50K.
Ore settimanali di lavoro
[modifica | modifica sorgente]Analogamente si dimostra che essendo p_value < 0,05 l'ipotesi nulla H0 si può scartare e accettiamo l'ipotesi alternativa HA quindi siamo fiduciosi al 95% che il numero medio di ore lavorate settimanalmente in chi ha un reddito superiore a 50K è maggiore di chi ha un reddito inferiore o uguale a 50K.
Età
[modifica | modifica sorgente]Analogamente si dimostra che essendo p_value < 0,05 l'ipotesi nulla H0 si può scartare e accettiamo l'ipotesi alternativa HA quindi siamo fiduciosi al 95% che l'età media in chi ha un reddito superiore a 50K è maggiore di chi ha un reddito inferiore o uguale a 50K.
Sesso
[modifica | modifica sorgente]inference(y = income, x = gender, data = cleaned_adult_income,
statistic = "proportion", type = "ht",
method = "theoretical", success = ">50K", null = 0,
alternative = "less", conf_level = 0.95)
Response variable: categorical (2 levels, success: >50K) Explanatory variable: categorical (2 levels) n_Female = 14695, p_hat_Female = 0.1136 n_Male = 30527, p_hat_Male = 0.3125 H0: p_Female = p_Male HA: p_Female < p_Male z = -45.8825 p_value = < 0.0001
Essendo p_value < 0,05 scartiamo l'ipotesi nulla H0 e accettiamo l'ipotesi alternativa HA quindi siamo fiduciosi al 95% che la percentuale di chi ha un reddito superiore a 50K è maggiore tra gli uomini rispetto alle donne.
Tipo di lavoro
[modifica | modifica sorgente]Facciamo un test chi quadrato tra le variabili categoriali income e occupation scoprendo che siamo fiduciosi al 95% che ci sia una relazione di dipendenza tra le 2 variabili, essendo p_value <0,05, per cui scartiamo l'ipotesi nulla H0 e accettiamo l'ipotesi alternativa HA :
inference(y = income, x = occupation, data = cleaned_adult_income,
statistic = "proportion", type = "ht",
method = "theoretical", success = ">50K",alternative = "greater", conf_level = 0.95)
Response variable: categorical (2 levels)
Explanatory variable: categorical (14 levels)
Observed:
y
x <=50K >50K
Adm-clerical 4784 756
Armed-Forces 10 4
Craft-repair 4665 1355
Exec-managerial 3117 2867
Farming-fishing 1308 172
Handlers-cleaners 1911 135
Machine-op-inspct 2605 365
Other-service 4612 196
Priv-house-serv 229 3
Prof-specialty 3304 2704
Protective-serv 669 307
Sales 3953 1455
Tech-support 1009 411
Transport-moving 1838 478
Expected:
y
x <=50K >50K
Adm-clerical 4166.94441 1373.055592
Armed-Forces 10.53018 3.469816
Craft-repair 4527.97930 1492.020698
Exec-managerial 4500.90169 1483.098315
Farming-fishing 1113.19092 366.809075
Handlers-cleaners 1538.91124 507.088762
Machine-op-inspct 2233.90341 736.096590
Other-service 3616.36619 1191.633807
Priv-house-serv 174.50020 57.499801
Prof-specialty 4518.95343 1489.046570
Protective-serv 734.10429 241.895714
Sales 4067.65981 1340.340188
Tech-support 1068.06156 351.938437
Transport-moving 1741.99337 574.006634
H0: occupation and income are independent HA: occupation and income are dependent chi_sq = 5415.1378, df = 13, p_value = 0