Strutture dati e database/Creare e gestire un database
Principi base per la costruzione e la gestione di un database
[modifica | modifica sorgente]Il miglior modo per comprendere come impostare una corretta struttura di un database è provare a crearne una. Un esempio classico di una base di dati può essere un elenco di persone di cui vogliamo memorizzarne il nome, il cognome, l'indirizzo, il telefono, l'età e il numero di computer posseduti.
Visualizzazione tabulare dei dati: campi e record
[modifica | modifica sorgente]Il più diffuso modo di visualizzare una base di dati è inserirli in una griglia di questo tipo:
Nome | Cognome | Indirizzo | Telefono | Età | Num. Computer |
---|---|---|---|---|---|
Mario | Rossi | Via Dante Alighieri, 12 - Roma | 06 66555444 | 42 | 0 |
Luigi | Bianchi | Viale Alessandro Manzoni, 34 - Milano | 02 46802468 | 34 | 2 |
Dario | Verdi | Corso Cesare Pavese, 56 - Torino | 011 223344 | 38 | 1 |
Gli aspetti che interessa memorizzare di ogni persona vengono chiamati campi e sono nella tabella d'esempio le intestazioni delle colonne, le righe invece rappresentano i valori di questi aspetti per ciascuna persona, ovvero per ciascun record. Abbiamo quindi visualizzato i dati in una struttura a tabella dove in ogni cella è memorizzato un valore corrispondente ad un aspetto (campo) di una persona (record).
Capire il tipo di dati che si sta organizzando
[modifica | modifica sorgente]Per strutturare correttamente dei dati, il primo passo è capire di che tipo sono, specialmente in relazione all'uso che se ne dovrà fare.
I campi "Nome" e "Cognome" conterranno dati di tipo testuale; possiamo immaginare di cercare i dati di una persona partendo dal suo cognome ed in caso di omonimia di questo, raffinando la ricerca scegliendo il nome corretto tra i vari omonimi, ecco quindi perché non teniamo uniti il nome ed il cognome in un unico campo ad esempio chiamato "Nominativo".
Il campo "Indirizzo", anch'esso di tipo testuale, invece contiene al proprio interno due aspetti che potrebbe avere senso tenere separati; immaginando di voler filtrare, tra tutte le persone solo quelle residenti a Milano e non avendo per ora nessuna capacità di trovare una specifica sequenza di caratteri all'interno di un campo, dovremo quindi scorporare l'aspetto "Città" dal campo "Indirizzo".
Il campo "Telefono" potrebbe a prima vista contenere solamente cifre, ma sarebbe un errore considerarlo di tipo numerico per svariati motivi, si potrebbe scrivere un punto o uno spazio dopo il cosiddetto prefisso, oppure indicare frasi come "ore pasti", ma soprattutto eviteremo operazioni sgradite come errori di arrotondamento automatici o la mancata visualizzazione degli zeri all'inizio del numero (dovrebbero essere considerati campi numerici solo quelli contenenti valori su cui possiamo fare delle operazioni aritmetiche, non faremo in questo caso somme o sottrazioni dei numeri di telefono delle persone nel database), questo campo sarà perciò di tipo testuale.
Il campo "Età" può essere tranquillamente di tipo numerico, ha senso ad esempio calcorare l'età media delle persone nel database, ma si è incappati in un errore: nel momento in cui si considera la vita del database nel tempo, immaginando un inserimento di dati distribuito su più di un anno, l'età delle persone inserite dovrà essere aggiornata di anno in anno; molto più sensato è memorizzare la data di nascita, o almeno l'anno di nascita. Un campo di tipo data-ora consente di solito anche di sfruttare le funzioni integrate dell'elaboratore elettronico per calcorare ad esempio il numero di giorni mancanti ad una determinata scadenza o sapere in che giorno della settimana cadeva una certa data.
Infine il campo "Numero di computer" è il tipico campo numerico, con l'unica specifica di contenere solo numeri interi, considerando assurdi dati su frazioni di computer posseduti.
Un'organizzazione maggiormente corretta dei dati sopra riportati è la seguente:
Nome | Cognome | Indirizzo | Città | Telefono | Anno di nascita | Num. computer |
---|---|---|---|---|---|---|
Massimo | De Rossi | Viale Tito Livio, 14 | Napoli | 3470000001 | 1956 | 1 |
Mario | Rossi | Via Dante Alighieri, 12 | Roma | 06 66555444 | 1963 | 0 |
Luigi | Bianchi | Viale Alessandro Manzoni, 34 | Milano | 02 46802468 | 1971 | 2 |
Dario | Verdi | Corso Cesare Pavese, 56 | Torino | 011 223344 | 1967 | 1 |
Definire regole di convalida, maschere di input e campi obbligatori
[modifica | modifica sorgente]Esiste la possibilità di bloccare l'inserimento di dati che non rispettino regole predefinite, come ad esempio impedire l'inserimento di date di nascita superiori a quelle del giorno corrente o anche superiori a quelle di esattamente 18 anni fa, volendo per esempio dati di sole persone maggiorenni; per ogni regola di convalida è consigliabile, se si è in grado, far comparire un messaggio per l'operatore che inserisce il dato con la spiegazione dell'errore di inserimento eventualmente commesso.
Un'ulteriore raffinatezza è data dalle maschere di input che prevengono errori di battitura, pensiamo ad esempio il caso della partita IVA, questa deve essere scritta con esattamente 11 cifre, mettere lettere alfabetiche o una quantità non esatta di caratteri sarebbe un errore, che possiamo prevenire, consentendo la memorizzazione del dato solo se composto esattamente da 11 cifre, non una di più ne una di meno. La maschera di input può anche essere in grado di controllare la forma maiuscola o minuscola di ogni carattere digitato ed eventualmente modificarlo, si potrà quindi sempre scrivere in minuscolo avendo la certezza della correzione automatica delle iniziali di nomi e cognomi in maiuscolo.
Un'altra esigenza spesso fondamentale è rendere obbligatorio l'inserimento del valore in un determinato campo, prima di memorizzare un nuovo record; pensiamo ad un database indirizzario, usato per stampare etichette per fini postali: il campo o i campi che formano l'indirizzo completo devono essere obbligatori, in quanto non indicare nessun indirizzo equivarebbe a rendere inutile la stampa di un'etichetta.
Chiavi per identificare univocamente ogni record
[modifica | modifica sorgente]Un'esigenza primaria in un database è consentire l'identificazione univoca di un record, il fisco italiano ad esempio per non confondere la dichiarazione dei redditi di due persone con nome e cognome uguale ha ideato il codice fiscale (un codice di tipo posizionale, dove cioè ogni carattere prende senso a seconda della posizione che occupa; in grado di memorizzare 3 lettere del nome, 3 lettere del cognome, le ultime 2 cifre dell'anno di nascita, un codice legato alla città di nascita e il genere maschile o femminile) confidando nel fatto che non esistano due persone con lo stesso nome, cognome, data e luogo di nascita, nel qual caso viene variata dal fisco l'ultima lettera di controllo.
Nel momento in cui anche per noi diventa importante garantire l'univocità di ogni record, aggiungeremo un campo, che ovviamente sarà obbligatorio, che possiamo chiamare "ID" e che sarà la chiave univoca della tabella; questo campo potrà contenere codici personalizzati o anche più semplicemente numeri interi, progressivi con l'inserimento dei vari record, l'importante è che non esistano due record che ne abbiano lo stesso valore; il nostro database d'esempio diventa quindi:
ID | Nome | Cognome | Indirizzo | Città | Telefono | Anno di nascita | Num. Computer |
---|---|---|---|---|---|---|---|
1 | Mario | Rossi | Via Dante Alighieri, 12 | Roma | 06 66555444 | 1963 | 0 |
2 | Luigi | Bianchi | Viale Alessandro Manzoni, 34 | Milano | 02 46802468 | 1971 | 2 |
3 | Dario | Verdi | Corso Cesare Pavese, 56 | Torino | 011 223344 | 1967 | 1 |
I database relazionali
[modifica | modifica sorgente]Si definiscono database relazionali i database che consentono di creare relazioni tra i record di più tabelle, tali relazioni saranno definite per due tabelle alla volta, utilizzando la chiave univoca della prima tabella per riferire i dati del record così identificato ad uno o più record della seconda tabella; vediamo con un esempio pratico come realizzare una relazione e quali vantaggi danno questi tipi di database.
Volendo aggiungere alla nostra tabella di esempio la ragione sociale, l'indirizzo, la città ed il numero di telefono delle ditte per cui lavora ogni persona potrebbe capitare di avere dati ridondanti (escludiamo per praticità i campi "Anno di nascita" e "Num. Computer":
! Nome | Cognome !data di nascita ! Indirizzo | Indirizzo Città | Telefono | patente di guida | Mario | nato a scandiano il 18.03.1973|res. Via Dante Alighieri, 12 a Roma | 06 66555444 | RE2111889K ril. prefettura Reggio E. il 12.10.1991 | 3 | Dario | Verdi | Corso Cesare Pavese, 56 | Torino | 011 223344 | DeF S.p.a. | Piazza Disoccupati, 90 | Milano | 02 345678901 |
---|
Può essere conveniente scrivere i dati delle ditte in una tabella separata dove ogni record è contraddistinto da una chiave univoca:
ID ditta | Nome ditta | Indirizzo ditta | Città ditta | Telefono ditta |
---|---|---|---|---|
1 | ABC S.r.l. | Largo del Lavoro, 78 | Roma | 06 78901234 |
2 | DeF S.p.a. | Piazza Disoccupati, 90 | Milano | 02 34567890 |
e trasformare la tabella delle persone nel seguente modo:
ID | Nome | Cognome | Indirizzo | Città | Telefono | ID ditta |
---|---|---|---|---|---|---|
1 | Mario | Rossi | Via Dante Alighieri, 12 | Roma | 06 66555444 | 1 |
2 | Luigi | Bianchi | Viale Alessandro Manzoni, 34 | Milano | 02 46802468 | 2 |
3 | Dario | Verdi | Corso Cesare Pavese, 56 | Torino | 011 223344 | 2 |
il vantaggio più evidente è quello di dover scrivere una volta sola i dati delle ditte, risparmiando tempo ed evitando errori di battitura; basterà predisporre, nella tabella delle persone, un campo destinato a contenere solo le chiavi univoche dei record della tabella delle ditte; la possibilità di inserire in questo campo solo il valore di una precisa chiave univoca di una ditta garantisce il corretto riferimento di ogni persona all'esatta ditta per cui lavora.
Tipi di relazioni e strutture che ne conseguono
[modifica | modifica sorgente]Esistono due tipi di relazioni: le relazioni uno a uno e le relazioni uno a molti; vediamo che differenza c'è con due esempi: riferiamo ad ogni persona i dati del suo reddito e riferiamo ad ogni ditta i dati dei suoi dipendenti.
Immaginando di voler memorizzare la situazione dei redditi di ciascuna persona, potremmo aggiungere alla tabella delle persone quattro campi "Reddito da lavoro dipendente", "Reddito da rendite immobiliari", "Reddito da rendite finanziarie", "Tasse da pagare" (questi campi saranno di tipo valuta):
ID persona | Nome | Cognome | Indirizzo | Città | Telefono | Redd. Lav. Dip. | Redd. Rend. Imm. | Redd. Rend. Fin. | Tasse da pagare |
---|---|---|---|---|---|---|---|---|---|
1 | Mario | Rossi | Via Dante Alighieri, 12 | Roma | 06 66555444 | ||||
2 | Luigi | Bianchi | Viale Alessandro Manzoni, 34 | Milano | 02 46802468 | 10.000 Eur. | 2.000 Eur. | 1.000 Eur. | 750 Eur. |
3 | Dario | Verdi | Corso Cesare Pavese, 56 | Torino | 011 223344 | 15.000 Eur. | 5.000 Eur. | 20 Eur. | 1.200 Eur. |
4 | Carlo | Marroni | Vicolo Luigi Pirandello, 10 | Palermo | 09 90990099 | ||||
5 | Marco | Celesti | Strada Nino Costa, 34 | Moncalieri | 011 1001100 | 500 Eur. | 0 Eur. | 0 Eur. | 20 Eur. |
(da notare che il fatto di non conoscere un dato non vuol dire che questo sia uguale a zero, sebbene così pensino gli evasori fiscali)
utilizzando il campo "ID persona", possiamo scorporare i dati sul reddito, indicandoli solo per le persone di cui lo sappiamo, in una nuova tabella dei redditi:
ID persona | Redd. Lav. Dip. | Redd. Rend. Imm. | Redd. Rend. Fin. | Tasse da pagare |
---|---|---|---|---|
2 | 10.000 Eur. | 2.000 Eur. | 1.000 Eur. | 750 Eur. |
3 | 15.000 Eur. | 5.000 Eur. | 20 Eur. | 1.200 Eur. |
5 | 500 Eur. | 0 Eur. | 0 Eur. | 20 Eur. |
la tabella delle persone tornerà ad essere più "leggera" non contenendo campi che spesso possono risultare vuoti:
ID persona | Nome | Cognome | Indirizzo | Città | Telefono |
---|---|---|---|---|---|
1 | Mario | Rossi | Via Dante Alighieri, 12 | Roma | 06 66555444 |
2 | Luigi | Bianchi | Viale Alessandro Manzoni, 34 | Milano | 02 46802468 |
3 | Dario | Verdi | Corso Cesare Pavese, 56 | Torino | 011 223344 |
4 | Carlo | Marroni | Vicolo Luigi Pirandello, 10 | Palermo | 09 90990099 |
5 | Marco | Celesti | Strada Nino Costa, 34 | Moncalieri | 011 1001100 |
il fatto che ogni record della tabella dei redditi è in relazione con un unico record della tabella delle persone, definisce che le due tabelle siano in relazione di tipo uno a uno.
Mentre ogni record della tabella dei redditi deve essere obbligatoriamente riferito ad un record della tabella delle persone (avere dati sul reddito di qualcuno che non si può individuare non ha alcun valore), non necessariamente dobbiamo sempre associare un reddito ad ogni persona, quindi possiamo non avere un record nella tabella dei redditi per ogni record della tabella persone; ciò rappresenta un vantaggio in termini di occupazione della memoria dell'elaboratore elettronico (in quanto memorizzare record con valori vuoti nei campi, occupa più spazio che non memorizzare affatto alcun record); ne consegue anche che il numero di record nella tabella dei redditi sarà minore o al massimo uguale a quello della tabella delle persone.
Immaginando di voler memorizzare i dati dei dipendenti di alcune ditte, possiamo riciclare i dati di un esempio precedente, stavolta considerandolo dal punto di vista delle ditte:
ID ditta | Nome ditta | Indirizzo ditta | Città ditta | Telefono ditta |
---|---|---|---|---|
1 | ABC S.r.l. | Largo del Lavoro, 78 | Roma | 06 78901234 |
2 | DeF S.p.a. | Piazza Disoccupati, 90 | Milano | 02 34567890 |
3 | GHi S.a.s. | Piazza Sindacato, 12 | Torino | 011 2343211 |
la tabella delle persone diventa la tabella dei dipendenti e conterrà solo i dati dei lavoratori presso qualcuna delle ditte sopra citate:
ID ditta | Nome | Cognome | Indirizzo | Città | Telefono |
---|---|---|---|---|---|
1 | Mario | Rossi | Via Dante Alighieri, 12 | Roma | 06 66555444 |
2 | Luigi | Bianchi | Viale Alessandro Manzoni, 34 | Milano | 02 46802468 |
2 | Dario | Verdi | Corso Cesare Pavese, 56 | Torino | 011 223344 |
3 | Carlo | Marroni | Vicolo Luigi Pirandello, 10 | Palermo | 09 90990099 |
1 | Marco | Celesti | Strada Nino Costa, 34 | Moncalieri | 011 1001100 |
il fatto che ogni record della tabella delle ditte è in relazione con uno o più record della tabella dei dipendenti, definisce che le due tabelle siano in relazione di tipo uno a molti.
La relazione "molti a molti"
[modifica | modifica sorgente]La relazione molti a molti tra due tabelle si può realizzare ma in maniera non diretta, creando una tabella in grado associare con molteplici combinazioni le chiavi univoche di due tabelle; per fare un esempio pratico e capire l'utilizzo di questa relazione possiamo immaginare una tabella per memorizzare film e attori, ovviamente un film viene interpretato da più attori ed un attore nella sua carriera può aver partecipato a più film; creeremo quindi una tabella degli attori:
ID attore | Nome | Cognome |
---|---|---|
1 | Antonio | Albanese |
2 | Gerard | Depardieu |
3 | Clint | Eastwood |
4 | Al | Pacino |
5 | Luca | Zingaretti |
una tabella dei film:
ID film | Titolo | Anno |
---|---|---|
1 | Pitch | 1997 |
2 | Tu ridi | 1998 |
3 | Amici miei '400 | 2004 |
4 | Epreuves d'artistes | 2004 |
e una che realizza la relazione molti a molti:
ID attore | ID film |
---|---|
1 | 2 |
2 | 1 |
2 | 3 |
2 | 4 |
3 | 4 |
4 | 1 |
5 | 2 |
5 | 3 |
Notiamo che nel caso estremo si arriva ad associare tutti i record di una tabella A con tutti i record di una tabella B, in una tabella C con un numero di record pari a quelli della tabella A moltiplicati per il numero di record della tabella B.
Per memorizzare gli stessi dati senza relazioni avremmo dovuto creare questa tabella:
Nome attore | Cognome attore | Titolo film | Anno film |
---|---|---|---|
Antonio | Albanese | Tu ridi | 1998 |
Gerard | Depardieu | Pitch | 1997 |
Gerard | Depardieu | Amici miei '400 | 2004 |
Gerard | Depardieu | Epreuves d'artistes | 2004 |
Clint | Eastwood | Epreuves d'artistes | 2004 |
Al | Pacino | Pitch | 1997 |
Luca | Zingaretti | Tu ridi | 1998 |
Luca | Zingaretti | Amici miei '400 | 2004 |
Un'evoluzione interessante della tabella che realizza la relazione molti a molti è quella di aggiungere dati relativi alla specifica interazione tra i due aspetti associati, immaginiamo di voler indicare i minuti per cui un attore compare in un film in un campo "minuti":
ID attore | ID film | minuti di recitazione |
---|---|---|
1 | 2 | 26 |
2 | 1 | 14 |
2 | 3 | 22 |
2 | 4 | 9 |
3 | 4 | 62 |
4 | 1 | 18 |
5 | 2 | 31 |
5 | 3 | 27 |
(i minuti indicati sono stati indicati casualmente)
Questo è senza dubbio il miglior modo per realizzare la relazione molti a molti, ma può essere piuttosto complessa da implementare per un utente alle prime armi, esiste anche un'altra possibilità più semplice basata sul concetto di "molte relazioni uno a molti" dove però il "molte" è un numero ben definito di relazioni; immaginando un numero massimo di 4 film che vogliamo memorizzare per ogni attore:
ID attore | Nome | Cognome | ID film A | ID film B | ID film C | ID film D |
---|---|---|---|---|---|---|
1 | Antonio | Albanese | 2 | |||
2 | Gerard | Depardieu | 1 | 3 | 4 | |
3 | Clint | Eastwood | 4 | |||
4 | Al | Pacino | 1 | |||
5 | Luca | Zingaretti | 2 | 3 |
Incappiamo però nell'inconveniente già precedentemente analizzato della creazione di campi che saranno spesso vuoti o peggio ancora della non possibilità di inserire un quinto film altrettanto importante quanto i primi quattro inseriti.
L'integrità referenziale
[modifica | modifica sorgente]Possiamo immaginare l'integrità referenziale come un insieme di regole che garantiscono l'integrità dei dati quando si hanno relazioni associate tra loro attraverso una chiave esterna: queste regole servono per rendere valide le associazioni tra le tabelle e per eliminare gli errori di inserimento, cancellazione o modifica di dati collegati tra loro.