Crittografia/Analisi della frequenza

Wikibooks, manuali e libri di testo liberi.
Indice del libro

Le indagini quantitative sui testi si servono spesso di qualche forma di analisi delle frequenze.

Possono essere interessanti le analisi delle frequenze di caratteri, di parole, di gruppi di parole che si possono assegnare a lemmi o significati definiti; queste analisi possono riguardare un singolo testo (da un frammento epigrafico, a un'opera come la Divina commedia), un intero corpus letterario o un opportuno campione di un linguaggio specialistico o di un'intera lingua.

In particolare un primo metodo che si adotta in attività di crittanalisi si basa sul fatto che in ogni lingua la frequenza di uso di ogni lettera è piuttosto determinata; questo è vero in modo rigoroso solo per testi lunghi, ma spesso testi anche corti hanno frequenze non molto diverse da quelle previste.

Vediamo come riferimento le frequenze delle lettere più comuni di due lingue:

Italiano Inglese
E 11,79 E 12,31
A 11,74 T 9,59
I 11,28 A 8,05
O 9,83 O 7,94
N 6,88 N 7,19

Si può notare quanto le prime lettere di queste lingue siano presenti in quantità molto maggiore delle altre, ad esempio da un testo in cui un certo simbolo appare oltre il 12% delle volte si può facilmente intuire che quel simbolo corrisponde alla lettera E (in inglese la distanza della E dalle altre lettere è ancora più marcata).