Vai al contenuto

Ricerca scientifica in ambito sociale/Diventare ricchi

Wikibooks, manuali e libri di testo liberi.
Indice del libro

L'Adult Income Dataset è una raccolta di dati derivata dal censimento statunitense del 1994, per la ricerca sulla classificazione del reddito. Creato da Wenrui Liu e ospitato su Kaggle, questo dataset ampiamente utilizzato mira a prevedere se il reddito annuo di un individuo superi o meno i 50.000 dollari. Basato su attributi demografici e socio-economici, come età, istruzione e occupazione, il dataset è fornito in formato CSV insieme a un dizionario dati. Destinato principalmente alla ricerca accademica e non all'uso commerciale, il suo utilizzo richiede la corretta citazione, con Huda Basharat accreditata per la pulizia e l'elaborazione. Distribuito sotto licenza Creative Commons Attribution 4.0, il dataset e la sua documentazione sono disponibili su Zenodo :

Citation: 
Huda Basharat (2024). Adult Income Dataset. Zenodo. DOI: 10.528/zenodo.14216482
Liu, W. (2024). Adult Income Dataset [Data set]. Zenodo. https://doi.org/10.5281/zenodo.14223441 


Si vogliono evidenziare i fattori che contribuiscono maggiormente al superamento del reddito di 50.000 dollari e che rendono la persona benestante o persino ricca.

Livello di istruzione

[modifica | modifica sorgente]

Tramite inferenza statistica in R si vuole evidenziare che il livello medio di istruzione è maggiore in chi percepisce un reddito superiore a 50.000 dollari. Innanzitutto i livelli di istruzione sono i seguenti:

 library(dplyr)

 cleaned_adult_income %>%
  group_by(education) %>%
  summarise(livello=unique(educational.num)) %>%
  arrange(livello)
 education     livello
 1 Preschool         1
 2 1st-4th           2
 3 5th-6th           3
 4 7th-8th           4
 5 9th               5
 6 10th              6
 7 11th              7
 8 12th              8
 9 HS-grad           9
10 Some-college     10
11 Assoc-voc        11
12 Assoc-acdm       12
13 Bachelors        13
14 Masters          14
15 Prof-school      15
16 Doctorate        16


 library(statsr)

 inference(x = income, y = educational.num, data = cleaned_adult_income,
                statistic = "mean", type = "ht",
                method = "theoretical", alternative = "less", null = 0,
                conf_level = 0.95)
Response variable: numerical
Explanatory variable: categorical (2 levels)
n_<=50K = 34014, y_bar_<=50K = 9.6308, s_<=50K = 2.4204
n_>50K = 11208, y_bar_>50K = 11.5985, s_>50K = 2.3675
H0: mu_<=50K =  mu_>50K
HA: mu_<=50K < mu_>50K
t = -75.8896, df = 11207
p_value = < 0.0001

Essendo p_value < 0,05 scartiamo l'ipotesi nulla H0 e accettiamo l'ipotesi alternativa HA quindi siamo fiduciosi al 95% che il livello medio di istruzione in chi ha un reddito superiore a 50K è maggiore di chi ha un reddito inferiore o uguale a 50K.

Ore settimanali di lavoro

[modifica | modifica sorgente]

Analogamente si dimostra che essendo p_value < 0,05 l'ipotesi nulla H0 si può scartare e accettiamo l'ipotesi alternativa HA quindi siamo fiduciosi al 95% che il numero medio di ore lavorate settimanalmente in chi ha un reddito superiore a 50K è maggiore di chi ha un reddito inferiore o uguale a 50K.

Analogamente si dimostra che essendo p_value < 0,05 l'ipotesi nulla H0 si può scartare e accettiamo l'ipotesi alternativa HA quindi siamo fiduciosi al 95% che l'età media in chi ha un reddito superiore a 50K è maggiore di chi ha un reddito inferiore o uguale a 50K.

inference(y = income, x = gender, data = cleaned_adult_income,
                statistic = "proportion", type = "ht",
                method = "theoretical", success = ">50K", null = 0,
           alternative = "less", conf_level = 0.95)
Response variable: categorical (2 levels, success: >50K)
Explanatory variable: categorical (2 levels)
n_Female = 14695, p_hat_Female = 0.1136
n_Male = 30527, p_hat_Male = 0.3125
H0: p_Female =  p_Male
HA: p_Female < p_Male
z = -45.8825
p_value = < 0.0001

Essendo p_value < 0,05 scartiamo l'ipotesi nulla H0 e accettiamo l'ipotesi alternativa HA quindi siamo fiduciosi al 95% che la percentuale di chi ha un reddito superiore a 50K è maggiore tra gli uomini rispetto alle donne.

Tipo di lavoro

[modifica | modifica sorgente]

Facciamo un test chi quadrato tra le variabili categoriali income e occupation scoprendo che siamo fiduciosi al 95% che ci sia una relazione di dipendenza tra le 2 variabili, essendo p_value <0,05, per cui scartiamo l'ipotesi nulla H0 e accettiamo l'ipotesi alternativa HA :


inference(y = income, x = occupation, data = cleaned_adult_income,
                statistic = "proportion", type = "ht",
                method = "theoretical", success = ">50K",alternative = "greater", conf_level = 0.95)
Response variable: categorical (2 levels)
Explanatory variable: categorical (14 levels)
Observed:
                   y
x                   <=50K >50K
  Adm-clerical       4784  756
  Armed-Forces         10    4
  Craft-repair       4665 1355
  Exec-managerial    3117 2867
  Farming-fishing    1308  172
  Handlers-cleaners  1911  135
  Machine-op-inspct  2605  365
  Other-service      4612  196
  Priv-house-serv     229    3
  Prof-specialty     3304 2704
  Protective-serv     669  307
  Sales              3953 1455
  Tech-support       1009  411
  Transport-moving   1838  478
Expected:
                   y
x                        <=50K        >50K
  Adm-clerical      4166.94441 1373.055592
  Armed-Forces        10.53018    3.469816
  Craft-repair      4527.97930 1492.020698
  Exec-managerial   4500.90169 1483.098315
  Farming-fishing   1113.19092  366.809075
  Handlers-cleaners 1538.91124  507.088762
  Machine-op-inspct 2233.90341  736.096590
  Other-service     3616.36619 1191.633807
  Priv-house-serv    174.50020   57.499801
  Prof-specialty    4518.95343 1489.046570
  Protective-serv    734.10429  241.895714
  Sales             4067.65981 1340.340188
  Tech-support      1068.06156  351.938437
  Transport-moving  1741.99337  574.006634
H0: occupation and income are independent
HA: occupation and income are dependent
chi_sq = 5415.1378, df = 13, p_value = 0