UIF, un modello di machine learning per l’identificazione di aziende collegate alla criminalità organizzata sulla base di dati di bilancio
Lo studio proposto dall’UIF ha l’obiettivo di sviluppare un algoritmo di machine learning per rilevare aziende potenzialmente collegate alla criminalità organizzata (CO). A questo scopo, si utilizza un dataset di imprese italiane ottenuto integrando informazioni finanziarie provenienti da varie fonti, tra cui dati di bilancio. Per addestrare e testare il modello, un campione di oltre 28 mila aziende italiane, caratterizzate da una elevata probabilità di essere collegate alla CO, viene confrontato con sottoinsiemi di aziende presumibilmente “sane” selezionati casualmente.
I risultati ottenuti mostrano che, in fase di test, l’algoritmo identifica con successo circa il 76% delle aziende collegate alla CO (recall) e il 74% delle aziende presumibilmente sane (specificity). Il principale output dell’algoritmo è un punteggio di rischio. L’indicatore – che è ancora in versione sperimentale – ha varie potenziali applicazioni. In ambito strategico, può consentire ad esempio l’elaborazione di mappe di rischio a livello territoriale o settoriale. In ambito operativo, può contribuire al patrimonio informativo che supporta le funzioni istituzionali dell’UIF; potrebbe anche essere utilizzato come strumento preliminare di screening per contribuire a orientare l’azione degli organi investigativi, ad esempio nel monitoraggio dell’utilizzo dei fondi pubblici (PNRR). Conferme della sua validità operativa dovranno tuttavia venire da ulteriori applicazioni sul campo.