13 dicembre 2014 - 11:20

Quesito n 22 : " SPAM, aiuto !!! "
Si calcola che attualmente più del 50 % delle e-mail che viaggiano nella rete siano costituiti da messaggi di spam.
Il fastidioso fenomeno , esploso verso la fine degli anni novanta, ha notevoli ripercussioni economiche : le energie complessivamente impiegate nel mondo per passare al vaglio e cancellare questi messaggi causano perdite per svariati miliardi di euro.
Moltri fornitori di servizi internet hanno adottato dei filtri antispam, che aiutano l'utente a scartare i messaggi di posta elettronica indesiderata.
Si tratta di programmi informatici che determinano, ogni volta che giunge una nuova mail, se il messaggio è legittimo, quindi va recapitato, oppure spam, quindi cestinato.
Ecco il bello:
Il funzionamento di questi programmi antispam si basano sul calcolo delle probabilità.
I filtri antispam non fanno altro che stimare automaticamente la probabilità che un messaggio in arrivo sia spam o meno.
1. Vogliamo approfondire questo lavoro di filtro ?
2. Quale famoso teorema ( o formula ) viene usato per questa azione antispam?
E' un teorema ( o formula ) importantissimo nel calcolo delle probabilità.
3. Che cos'è l'indice di spamicity ?
 

Le email indesiderate propongono pubblicità insistenti, truffe, veicolano virus. Un filtro antispam, debitamente programmato, riconosce quali messaggi sono potenzialmente spam e li elimina direttamente.
L'analisi compiuta si serve massicciamente del teorema di Bayes (sulla probabilità delle cause); un breve accenno al teorema: dato un evento H, è nota la probabilità del suo verificarsi, e, in relazione ad un evento E di cui si conosce la probabilità, la probabilità che E si verifichi dato H; è allora possibile, dato l'evento E, calcolare la probabilità che si sia verificato H; questo spiega il nome di teorema della probabilità delle cause. La formula: 
               p(H | E) = p(E | H)*p(H) / p(E).
Ora abbiamo gli strumenti per trattare il funzionamento del filtro antispam, altrimenti detto filtro bayesiano. L'assunto di base è che è equiprobabile che un messaggio sia o non sia spam. Si prevedono poi (magari mediante studi statistici) la probabilità che, data un'email spam, questa contenga un particolare elemento critico, e quella che, data un'email non spam, lo contenga comunque. Mediante il teorema di Bayes è poi possibile risalire a quale sia la probabilità che, data un'email contenente quell'elemento critico, quella sia spam o no. Questo valore è noto come indice di spamicity; il filtro, oltre una data soglia, catalogherà come spam l'email che contiene quell'elemento critico. 
Un filtro sofisticato sarà in grado di imparare dall'utente, correggendo le sue probabilità condizionate di partenza in base a ciò che verrà segnalato manualmente come spam.
Abbiamo ora semplificato la situazione, dal momento che, nella realtà, un filtro antispam opera considerando una quantità di variabili, che prima abbiamo chiamato elementi critici, non indifferenti, combinando poi le singole probabilità trovate per generare un indice conclusivo.
 
Samuele