Embedded Agency >

Il Data Mining Investigativo

Valutazione attuale:  / 1
ScarsoOttimo 

 

Il Data Mining al servizio dell’Intelligence per la sicurezza del nostro Paese. Forze dell’Ordine e agenzie di Intelligence utilizzano armi come l'intuizione e la deduzione per valutare fatti e collezionare informazioni utili a reprimere ma soprattutto a prevenire eventi criminosi.

Queste informazioni possono risultare in una mole considerevole di dati, con il rischio di imbattersi nel cosiddetto "overload informativo".

E' necessaria, quindi, una sempre più stretta collaborazione con gli "esperti della conoscenza", capaci di far venire alla luce fatti rilevanti, patterns significativi, associazioni, sequenze e anomalie.

Il Knowledge Discovery in Databases (KDD) riguarda proprio questo: l'estrazione di informazioni implicite, precedentemente sconosciute e potenzialmente utili, da fonti dati eterogenee.

Una particolare fase del processo di KDD é costituita dall'applicazione di tecniche di Data Mining cioè di metodi statistici e matematici che consentono l'esplorazione di grandi quantità di dati al fine di individuare una rappresentazione sintetica e significativa delle informazioni.

L'impiego di queste tecniche può facilitare il lavoro delle forze dell'Ordine, migliorando l'efficienza di utilizzo delle risorse, in particolar modo della risorsa tempo, che può essere allocata ad altre attività.

Un possibile scenario criminale potrebbe essere rappresentato tramite un modello di entità e relazioni: le entità potrebbero riguardare criminali, organizzazioni, conti correnti bancari, armi, veicoli etc. , le relazioni specificano come tali entità sono collegate tra loro.

L'attività di identificazione di possibili relazioni all'interno di uno specifico gruppo di entità richiederebbe un effort notevole senza l'aiuto di strumenti adeguati per l'analisi automatica e semiautomatica dei dati.

Tuttavia, occorre considerare che le tecniche di Data Mining sono in grado di generare migliaia di associazioni, regole, patterns e non tutto può risultare utile o interessante.

E' necessario quindi definire cosa sia un pattern significativo e come si possano generare tutti e soli patterns significativi.

Un pattern é significativo se: é facilmente compreso dalle persone

  • é valido su nuovi dati
  • é potenzialmente utile
  • non é stato mai scoperto in precedenza
  • avvalora una ipotesi o una intuizione espressa dall'utente

Esistono numerose misure oggettive della significatività dei patterns e ciascuna misura é associata a una soglia che puó essere definita dall'utente.

Sebbene le misure oggettive aiutino a identificare patterns significativi, esse non sono sufficienti, a meno che non vengano abbinate a misure soggettive che sono basate sulle convinzioni che gli utenti hanno sui dati.

I patterns di maggior interesse  riguardano la rilevazione di outliers, cioè di valori anomali, distanti dal resto dei dati raccolti. In campo statistico questi outliers vengono trattati come “rumore” ed eliminati. Il contrario avviene nell'ambito dell' individuazione di comportamenti criminosi  dove, invece, ignorare gli outliers può portare alla perdita di preziose informazioni nascoste.

Per concludere con un esempio, si consideri il problema di associare eventi criminosi commessi da una stessa persona. Esaminiamo le armi usate per compiere rapine: potremmo avere numerosi records con il valore “pistola”, ma nessun analista si sognerebbe di associare tutte le rapine alla stessa persona solo perché il campo “arma” ha lo stesso valore. Se invece ci trovassimo di fronte a molte rapine effettuate con un'arma non comune, ad esempio una spada giapponese (l'outlier), potremmo concludere, entro un certo intervallo di confidenza, che le rapine sono state perpetrate dallo stesso individuo.

 

 

di Luigi Serafino Carile