CAPIRE IL PROBLEMA E INDIVIDUARE GLI STRUMENTI PER COMBATTERLO

Lo spam è un problema ormai noto ai più, ma a volte la confusione che regna intorno al fenomeno è tale da renderne difficile sia la comprensione che l'individuazione di possibili strumenti di difesa.

Ogni analisi che si rispetti parte da una precisa definizione... cerchiamo quindi di dare una definizione precisa dello spam. Quella che tecnicamente e universalmente viene riconosciuta come definizione di spam è: "Comunicazione elettronica non richiesta e massiva".

Tutti gli altri comportamenti (ad esempio l'invio di un singolo messaggio non richiesto) possono in qualche modo comportare un altro tipo di violazione, (ad esempio della vigente Legge sulla Privacy), piuttosto che una violazione di altre leggi, ma la definizione di spam "pura" è appunto di non richiesta e massiva.

Capire questo è importante, perché ci permette di inquadrare il problema e restringere il cerchio delle possibili soluzioni. I destinatari dello spam, sono gli utenti, e questi, insieme agli ISP sono quelli che sopportano la maggior parte dei costi.

Gli utenti, loro malgrado, dovranno sopportare il costo del collegamento ad Internet per il tempo necessario allo scaricamento dei messaggi (che nel caso di connettività mobile può anche essere ingente). C'è da notare che contrariamente a qualsiasi altro tipo di campagna pubblicitaria e/o informativa, dove i costi sono affrontati per intero da chi effettua la campagna, nel caso dello spam i costi sono ribaltati quasi esclusivamente sui destinatari e su chi effettua il trasporto.

L'ISP, poi, in quanto mezzo di trasporto dei messaggi, si trova a sostenere dei costi dovuti al trasporto stesso, all'elaborazione dei dati e al mantenimento degli stessi. Prendendo in considerazione il volume di spam circolante, i costi incidono di parecchio.

  • Secondo uno studio della Comunità Europea, questi si aggirano intorno ai 10 miliardi di euro l'anno. Ma chi sono i responsabili di tutto questo?
  • Chi sono i carnefici?

Contrariamente a quanto si possa pensare, non sono ignoti, anzi... il 90 % dello spam che arriva in nord America ed in Europa proviene da un gruppetto di persone molto ristretto, appena 200 persone note per nome, cognome e indirizzo.

Queste persone senza scrupoli, si muovono da un provider ad un altro e fanno spam dietro richiesta di mandanti (aziende, piuttosto che associazioni, ma più in generale chiunque abbia da pubblicizzare o da divulgare un'informazione) facendosi pagare per il servizio.

Fare pubblicità tramite questi mezzi, è un metodo che viene utilizzato sempre più spesso dalle aziende, perché è semplice, economico e garantisce anche un certo ritorno economico. I costi per la spedizione di un numero massiccio di e-mail sono estremamente bassi, e se anche l'1 dei riceventi questi messaggi dimostrasse un certo interesse anche senza comprare al primo colpo il prodotto pubblicizzato nell'e-mail di spam, ci sarebbe per chi ha commissionato la campagna pubblicitaria il ritorno assicurato.

Una campagna pubblicitaria tradizionale, sulle reti televisive, ad esempio, con uno spot singolo di 30 secondi, quindi un "one shot" che non ha assolutamente nessun appeal, costa all'incirca in fascia bassa, 70.000 Euro.

Un costo neanche minimamente paragonabile al costo della spedizione di milioni di e-mail (se togliessimo due zeri non sbaglieremmo di molto). Facendo un excursus sulle metodologie utilizzate dagli spammer per effettuare le loro spedizioni massive, vediamo che una di queste è lo spam diretto.

Banalmente lo spammer ha la propria connettività Internet, ha i propri server in casa, spedisce e-mail tramite la propria connettività e tramite i propri server. Questo è un sistema poco usato, perché comunque è facilmente individuabile, facilmente rintracciabile e, a meno che non ci siano contratti particolari, come alcune volte capita, la connettività viene presto cessata.

Un altro tipo di spam molto diffuso anche in Italia, ma generalmente in paesi dove esiste il free Internet, è lo spam da collegamento dinamico. Lo spammer, registra tonnellate di account free Internet a perdere, quindi li utilizza per una volta sola, e se anche il provider termina l'account per violazione delle condizioni di uso questo non ha importanza, perché tanto lo spammer non lo userà più e potrà crearsene subito degli altri.

L'open relay è un'altra tipologia che citiamo giusto per dovere di cronaca, ma che è quasi del tutto scomparsa. Viene banalmente sfruttato un server di posta lasciato incustodito sulla rete, o molte volte anche una macchina di test con il server di posta attivo involontariamente, e non configurato. In questo modo tale server può essere utilizzato da qualsiasi utente della rete per spedire messaggi a terzi senza alcun controllo e senza chiedere nessuna autorizzazione. Questo genere di metodologia, dicevamo, è ormai quasi scomparsa perché è un sistema abbastanza facile da scoprire, in più gli amministratori dei server hanno imparato (finalmente) a gestire con più cura i propri sistemi, e questo ha limitato fortemente il fenomeno.

L'evoluzione naturale dell'open relay è l'open proxy. Questo fenomeno si è sviluppato ed è esploso a partire dal 2001, ed è attualmente la metodologia di spam più utilizzata in assoluto. L'open proxy è una macchina, anche un singolo PC di un utente, collegato alla rete tramite connessione dial-up o connessione ADSL o connessione dedicata, su cui non è installato nessun software particolare, non c'è un server di posta, ma ci sono dei programmi per esempio di sharing della connessione ad Internet mal configurati che quindi permettono lo sharing delle risorse del PC a tutti, senza alcun controllo.

A volte la colpa è di software appositi (esempio worm o virus) che compromettono la funzionalità della macchina. La compromettono nella maggior parte dei casi rendendo la macchina una macchina spara spam. Buona parte dei virus, quasi il 90%, ha ormai perso la sua valenza distruttiva. I primi virus creavano dei danni devastanti sui PC degli utenti, mentre tutti o quasi tutti i recenti virus sono assolutamente silenti, non si vedono per nulla sulla macchina, ma trasformano la propria vittima in un open proxy. Se ne accorgono subito i server di posta degli ISP a cui l'utente è connesso, che si vedono arrivare da queste macchine un carico di messaggi spaventosamente anomalo.

Alle volte addirittura queste macchine open proxy si trasformano in teste di ponte per attacchi di denial of service verso i siti dei gestori delle blocking list o i siti delle organizzazioni antispam, che danno molto fastidio agli spammer ovviamente, o com'è successo di recente, presso i siti di gradi aziende, Microsoft e via dicendo.

Parlando di numeri, un ISP di medio/grandi dimensioni riceve più di 2 miliardi e 700 mila messaggi di spam al mese (statistiche di aprile 2004 di postini.com) su un totale di poco più di 5 miliardi di messaggi. Lo spam incide sullo spazio disco totale occupato dalla posta elettronica per 12,8 Terabyte e rappresenta il 54% dei messaggi di posta elettronica in circolazione. Il fenomeno è in rapida crescita e osservando le statistiche degli ultimi mesi (primavera 2004) non si è mai arrestato.

Ci sono molte difese che possono essere messe in atto, soprattutto da chi gestisce l'infrastruttura di trasporto, per contrastare e limitare questo fenomeno. Di meccanismi ce ne sono centinaia, ma si riassumono tutti quanti in due grosse categorie:

  • il filtraggio sul contenuto del messaggio (euristico o bayesiano);
  • il filtraggio sulla provenienza del messaggio.

Il primo che analizziamo (il sistema euristico) fa parte della categoria di filtraggio sul contenuto. L'analisi euristica funziona, molto banalmente, come un confronto all'americana L'amministratore del sistema di posta cataloga tutte le e-mail di spam che riceve e le riduce a una impronta che viene inserita in un database. Tutte le e-mail successive che arrivano sul sistema vengono confrontate con questa impronta, se esiste somiglianza il sistema tratta la mail in qualche maniera (la cestina, la sposta in un gray folder, e così via).

Ci sono dei pro e dei contro per questa soluzione.

  • Il pro è che questa è una soluzione con un basso numero di falsi positivi, cioè messaggi leciti scambiati per spam, perché viene effettuato un confronto con qualcosa che è già stato dichiarato spam (e a questo punto è difficile sbagliare).
  • Il contro, è che questo sistema perde di efficienza a mano a mano che il database invecchia.

Dato che lo spam si evolve, cambia, viene modificato ogni giorno, a ogni invio, l'amministratore deve aggiornare continuamente il database delle impronte, altrimenti tutti i messaggi di spam successivi rischiano di non essere riconosciuti come tali. Un altro dei contro è che l'e-mail deve arrivare necessariamente a destinazione, quindi è come se lo spammer il lavoro lo avesse fatto comunque. L'e-mail l'ha spedita, è arrivata sul server di destinazione, probabilmente è arrivata anche in casella dell'utente. Questo richiede comunque tempo di elaborazione e impegno delle risorse da parte dell'ISP, e quindi rappresenta un costo.

L'evoluzione di questo sistema di filtraggio del contenuto è l'analisi bayesiana. L'analisi bayesiana si basa su un teorema di calcolo probabilistico condizionato, inventato da un matematico del 1700, Thomas Bayes. Il funzionamento è abbastanza evoluto, l'amministratore del sistema che riceve le e-mail istruisce inizialmente i database con un numero sensibile di e-mail. Ogni email viene catalogata come e-mail di spam o come e-mail lecita. A questo punto l'e-mail viene scomposta in parole. Tutte le parole delle e-mail di spam popolano un database delle e-mail di spam, tutte le parole delle e-mail ritenute lecite, popolano un altro database con tutte le parole delle e-mail lecite. Quando il sistema è stato addestrato, è in grado di andare avanti in autonomia. Tutte le e-mail successive vengono esaminate e viene calcolata (in base alle parole in esse contenute) la probabilità che la mail sia spam oppure no (con il teorema di Bayes). Una volta che il sistema decide se la mail è spam oppure no, questa va ad auto-alimentare i database. Quindi il sistema è in grado di auto apprendere, non c'è bisogno che ci sia l'amministratore a istruire il database.

Uno dei pro di questo sistema, come per quello euristico, è il basso numero di falsi positivi, sempre perché viene fatto un confronto con qualcosa che si è già classificato. Un ulteriore pro è che il sistema ha un bassissimo costo di manutenzione, quasi nullo, perché auto apprende ed è in grado di andare avanti in autonomia.

Rispetto alla soluzione euristica, c'è però un contro in più, (oltre al costo dovuto al processing del messaggio) che scaturisce come effetto collaterale dell'auto apprendimento. Gli spammer adottano dei metodi di elusione dei controlli sul contenuto delle e-mail e inseriscono all'interno delle e-mail che spediscono parole nascoste, magari con font a dimensione 0, piuttosto che con testo di colore bianco su sfondo bianco (quindi invisibile all'utente). Queste parole sono normalissime parole che nulla hanno a che vedere con lo spam, ma il sistema di auto apprendimento le inserirà (a seconda della decisione) nel database nell'e-mail di spam o delle e-mail lecite, inquinando così i database. Il comportamento del sistema nell'identificazione delle e-mail successive diventa così imprevedibile.

L'altro sistema di filtraggio, che è il sistema di filtraggio basato sulla provenienza di messaggi, si appoggia alle blocking list. Le blocking list sono liste pubbliche di indirizzi IP noti come fonti di spam. Queste liste sono dinamiche, cambiano cioè in continuazione. Più volte al giorno vengono inseriti nuovi IP e rimossi gli IP esistenti. Ne esistono di diversi tipi, automatiche, semiautomatiche, a compilazione manuale, alcune sono gestite dagli amministratori stessi dei sistemi di posta che, in regime di collaborazione, si passano gli indirizzi IP degli utenti che hanno commesso spam sulla propria rete, per evitare che questo spam arrivi anche sulle reti degli altri. I pro e i contro di questa soluzione sono interessanti.

Il sistema ha un bassissimo costo di implementazione, perché l'opzione black listing o block list è prevista già per il 90% dei software di gestione dei server di posta elettronica. È un'opzione che va semplicemente abilitata, non c'è da implementare nulla. In più quello delle blocking list è un sistema che scoraggia gli spammers, perché viene sbattuta loro la porta in faccia, la connessione viene interrotta ancora prima che lo spammer riesca ad inviare la e-mail.

Inoltre, il sistema se adeguatamente gestito, ha un numero abbastanza basso di falsi positivi, mentre ha un altissimo valore di efficienza.

Di contro, se il sistema è gestito in malo modo può avere degli effetti devastanti.

Fra i due metodi di filtraggio (contenuto e provenienza) è senz'altro preferibile quello sulla provenienza, in quanto è necessario dare un segnale agli spammers. Rifiutare loro le mail è un segnale forte, e impedisce loro di portare a termine l'attività di spamming.

Inoltre, il sistema di blocking list non è facilmente eludibile come quello sul contenuto semplicemente variando le parole contenute all'interno delle mail. Lo spazio IP disponibile nelle mani di uno spammer è un insieme finito di IP, mentre le possibili combinazioni di parole all'interno di un messaggio sono un insieme pressoché infinito.

Per contrastare il fenomeno dello spam, non servono solo misure tecniche (filtraggi vari) ma è necessaria una certa attività di informazione da parte dei gestori dei sistemi di posta (gli ISP) sia al proprio interno (fare in modo che gli addetti ai sistemi di gestione dell'antispam conoscano gli strumenti con i quali operano) sia verso la clientela, sensibilizzandola all'uso di contromisure (quali personal firewall e antivirus) sui propri PC per evitare di essere violati e utilizzati dagli spammers.

Gli ISP possono inoltre certificare gli strumenti antispam che utilizzano, a vantaggio di chi non può o non si può permettere di avere del personale qualificato che operi sul proprio sistema di posta. Una cosa che molto spesso viene trascurata dagli ISP è che una corretta informazione verso l'esterno rende più semplice l'individuazione di fenomeni di spam all'interno della propria rete.

A tal proposito si rende necessaria da parte dell'ISP stesso una continua attività di aggiornamento della destinazione d'uso delle proprie reti nei database di RIPE. Inoltre, cosa fondamentale, gli ISP (ma più in generale chiunque offra un servizio su Internet) devono prevedere all'interno dei propri contratti delle clausole che prevedano la disconnessione temporanea o permanente di quei clienti che si siano resi colpevoli di attività di spamming (volontariamente o involontariamente, come nel caso degli open proxy).

CATALDO CIGLIOLA

  • Cataldo Cigliola, nato a Taranto il 25 Aprile del 1976.
  • Intraprende da subito la carriera informatica lavorando come tecnico in un negozio di personal computer non ancora terminati gli studi.
  • Specializzatosi in amministrazione di sistemi unix, gestisce come consulente i server di diversi internet service provider a Taranto.
  • Viene chiamato a Milano da Infostrada, dove lavora come amministratore di sistema per Libero, il portale internet della società.
  • Nel tempo si specializza in sicurezza informatica e in sistemi antispam, sperimentando moltissime soluzioni per la protezione della posta elettronica dallo spam.
  • È membro permanente del Gruppo di Coordinamento Newsgroup Italiani (GCN) e parte attiva della comunità antispam internazionale.
  • Attualmente è responsabile dell'esercizio applicativo dei servizi internet per Wind Telecomunicazioni S.p.A. e consulente tecnico per conto dell'azienda presso il ministero delle Comunicazioni al tavolo per la redazione del codice di autoregolamentazione in materia di spam.
  • la rete contro lo spam indice
    cigliola