Dati, modelli e incertezza: come cambia il Risk Assessment AML nell’era dell’analisi predittiva

Il Risk Assessment AML: una disciplina in trasformazione

Immaginate di dover valutare il rischio di riciclaggio di denaro di migliaia di clienti, ciascuno con una storia finanziaria diversa, operante in settori differenti, distribuito in paesi con profili normativi eterogenei. Fino a qualche anno fa, questo compito era affidato principalmente a esperti di compliance armati di questionari strutturati, check-list e giudizio professionale. Oggi, il panorama è cambiato in modo sostanziale.

È doverosa una premessa per circoscrivere il perimetro di questo approfondimento: nel processo AML, l’invio di segnalazioni su soggetti a rischio è preceduto da una fase di valutazione e analisi di esposizione al rischio costituito da un insieme strutturato di attività fondamentali. Dall’autovalutazione del rischio all’adeguata verifica della clientela, fino allo screening su liste sanzionatorie, misure restrittive e al monitoraggio continuo delle operazioni, ogni fronte contribuisce a identificare anomalie e comportamenti sospetti. La gestione degli alert e l’invio di segnalazioni periodiche verso gli organi regolatori completano il quadro, garantendo un presidio efficace a contrasto delle pratiche di riciclaggio e finanziamento del terrorismo (AML).

L’anti-money laundering (AML) è una delle aree in cui la pressione normativa incontra con maggiore intensità la rivoluzione dei dati. Le autorità di vigilanza — dalla Banca d’Italia all’EBA, passando per il FATF — chiedono alle istituzioni finanziarie di adottare un approccio basato sul rischio (risk-based approach) sempre più sofisticato. E la sofisticazione, nel 2026, ha diverse forme: analisi predittiva, Generative AI, LLM e Agenti, ciascuno in grado di fornire un suo valore aggiunto.

Dal questionario cartaceo al modello predittivo

Per decenni, il Risk Assessment AML si è fondato su un principio semplice: classificare i clienti in fasce di rischio (basso, medio, alto) sulla base di variabili qualitative (rischio soggettivo) e quantitative (rischio oggettivo) come, ad esempio, la provenienza geografica, il settore di attività, la tipologia e frequenza di operazioni, PEP status. Un processo lineare, documentabile, difendibile davanti al regolatore.

Il problema è che questo approccio è intrinsecamente statico. Fotografa il cliente in un momento preciso, ma non riesce a cogliere l’evoluzione dei comportamenti nel tempo. Non intercetta le anomalie sottili, quelle che emergono solo quando si analizzano centinaia e migliaia di transazioni che catturano comportamenti puntuali, multi periodali e di gruppo. Ed è proprio qui che entra in gioco la data science, con modelli predittivi che efficientano la struttura AML perché, prioritizzando e clusterizzando la clientela, permettono di mettere a fuoco con maggior celerità i casi a rischio più elevato,

Perché l’approccio tradizionale non basta più

I criminali finanziari si adattano. Le tecniche di layering – come il mascheramento dell’origine dei fondi tramite una serie di transazioni complesse – diventano sempre più sofisticate, le strutture societarie sempre più opache, i flussi sempre più veloci. Un sistema di valutazione del rischio che viene aggiornato periodicamente, non ha la prontezza necessaria per tenere il passo con il contesto in continua evoluzione.

La risposta del settore è stata quella di investire in sistemi di monitoraggio continuo expert-based, in grado di ricalcolare il profilo di rischio in tempo quasi reale, avvalendosi però di un sistema statico basato sull’impiego di regole fisse. Per un monitoraggio continuo, dinamico e il più possibile aggiornato servono invece modelli predittivi.

Il data scientist entra nella compliance

Un profilo inatteso in un contesto regolamentato

Chi avrebbe immaginato, dieci anni fa, che le funzioni di compliance delle banche avrebbero assunto data scientist? Eppure, è esattamente quello che sta accadendo. Non si tratta di una moda passeggera: è la risposta razionale a un problema genuinamente quantitativo.

Il Risk Assessment AML, nella sua essenza, è un problema di classificazione binaria: questo cliente è ad alto rischio o no? Questa transazione è sospetta o no? Sono domande che i modelli statistici e di apprendimento automatico sanno affrontare con logiche e potenza computazionale che nessun analista umano può replicare su larga scala.

Le competenze che fanno la differenza

Il valore di un data scientist in ambito AML non sta solo nella capacità di costruire modelli. Sta nella capacità di far dialogare tre elementi — la statistica applicata, i processi bancari e la norma giuridica — che parlano linguaggi molto diversi.

Feature engineering applicato al rischio di riciclaggio

Una delle attività più critiche è la costruzione delle variabili predittive (le cosiddette features). In ambito AML, questo significa trasformare flussi grezzi di dati transazionali in segnali interpretabili: la frequenza media delle operazioni per fascia oraria, la variazione del controvalore mensile rispetto alla media storica, la distribuzione geografica delle controparti. Non si tratta di dati ovvi: richiedono una profonda comprensione del dominio.

Modelli supervisionati e non supervisionati nel contesto AML

Esistono due grandi famiglie di approcci. I modelli supervisionati, come le foreste casuali (random forest) o il gradient boosting, vengono addestrati su dataset etichettati, dove casi di riciclaggio confermati fungono da esempi positivi. Il problema? I dati etichettati in ambito AML sono rari e spesso distorti: solo una piccola frazione dei casi sospetti si traduce in segnalazioni inviate.

I modelli non supervisionati, come clustering e anomaly detection, lavorano invece senza etichette: cercano pattern inusuali rispetto al comportamento atteso. Sono più adatti a intercettare fenomeni nuovi, mai visti prima, ma che possono comunque risultare leciti. Il rovescio della medaglia è che producono un numero maggiore di falsi positivi, a cui si aggiungono le problematiche della scarsa spiegabilità, la difficoltà di tradurre l’outlier in motivazione e il carico operativo che grava sugli analisti.

Come funziona l’analisi predittiva applicata all’AML

I dati come materia prima: quali fonti contano davvero

I modelli sono buoni quanto i dati su cui sono costruiti. In ambito AML, le fonti rilevanti sono molteplici: dati transazionali interni, informazioni di anagrafica e KYC, fonti esterne come liste sanzionatorie, registri societari, database di PEP, news screening. La vera sfida non è la quantità dei dati, visto che le banche ne producono in abbondanza, ma la qualità e la coerenza.

Dati mancanti, duplicati, mal codificati o aggiornati con ritardo possono compromettere l’affidabilità di qualsiasi modello. Prima ancora di costruire algoritmi, un data scientist che lavora in questo ambito deve fare i conti con la realtà spesso caotica della data pipeline istituzionale.

Dalla regressione logistica ai modelli di anomaly detection

Non tutti i problemi richiedono il modello più complesso disponibile. La regressione logistica, uno strumento di quasi un secolo, rimane uno dei riferimenti più utilizzati in ambito AML, anche se decisamente superata. Ad oggi parliamo di modelli basati su boosting o bagging come lightbm, gradient boosting, random forest, abbinati a metodi di spiegabilità come sharp o lime: permettono di capire perché un cliente ha ricevuto un certo punteggio di rischio. La spiegabilità, come vedremo, non è un attributo facoltativo ma un requisito mandatorio.

I modelli di anomaly detection, come gli autoencoder neurali o gli algoritmi di isolation forest, sono invece particolarmente efficaci per rilevare comportamenti atipici senza bisogno di esempi precedenti, ma non significa che non serva una conoscenza pregressa. Questi modelli hanno comunque bisogno di definire cosa sia standard, scegliere una finestra temporale oppure una granularità maggiore. Pensate a un autoencoder come a un sistema che impara a comprimere e poi ricostruire il comportamento usuale di un cliente: quando la ricostruzione fallisce, ovvero quando il comportamento non rientra nei pattern appresi, il sistema segnala un’anomalia.

I limiti che nessun modello può ignorare

Il rischio del modello: quando l’algoritmo si sbaglia

Anche i modelli hanno margine d’errore. I modelli predittivi vengono addestrati minimizzando una loss function con l’obiettivo di quantificare l’errore del modello, rappresentata da un’approssimazione matematica utilizzata per misurare la differenza tra il valore previsto dal modello e il valore reale desiderato (non sempre perfetta) delle metriche di performance, a loro volta derivate dagli obiettivi di business.

In statistica, si distinguono due tipi di errore: i falsi positivi (profili con operatività ordinaria classificati come sospetti) e i falsi negativi (profili effettivamente a rischio non intercettati). In ambito AML, entrambi hanno un costo: i falsi positivi aumentano i costi operativi e danneggiano la relazione con il cliente; i falsi negativi espongono l’istituzione a rischi legali e reputazionali.

Il rischio di modello (model risk) è ormai riconosciuto dalle autorità di vigilanza come una categoria di rischio operativo a sé stante. Le linee guida dell’EBA e le circolari di Banca d’Italia impongono processi di validazione indipendente, monitoraggio continuo delle performance e documentazione accurata delle assunzioni sottostanti.

Bias nei dati storici e discriminazione algoritmica

Un aspetto spesso sottovalutato è quello del bias. I modelli apprendono dai dati storici. Se nel passato certi gruppi di clienti sono stati oggetto di sorveglianza più intensa, per ragioni geografiche, culturali o di settore, il modello tenderà a replicare e amplificare questo squilibrio. Il risultato può essere una forma di discriminazione algoritmica: clienti appartenenti a determinate categorie vengono sistematicamente classificati come più rischiosi, non sulla base del loro comportamento effettivo, ma della storia distorta dei dati di addestramento.

È una questione etica prima ancora che tecnica. E in un contesto regolamentato come quello AML, diventa una questione di conformità.

Spiegabilità e supervisione umana: una questione regolamentare

Un modello che non sa spiegare le proprie decisioni è un modello problematico in ambito AML. I regolatori non accettano, e non accetteranno, la risposta “il modello ha detto così“. Ogni decisione significativa — in particolare le segnalazioni di operazioni sospette (SOS) — deve essere motivabile, documentabile, difendibile, come richiesto dai principi dichiarati nell’AI Act.

Nel contesto AML, l’AI Act introduce requisiti stringenti in materia di trasparenza e spiegabilità per i sistemi di intelligenza artificiale affidabili (trustworthy AI), soprattutto quando impiegati in ambiti ad alto rischio. Infatti, secondo il Regolamento UE 2024/1689 (AI Act), le decisioni automatizzate devono essere comprensibili, tracciabili e accompagnate da adeguata documentazione. Questo implica la capacità di ricostruire il ragionamento del modello, evidenziando i fattori che hanno portato a una determinata classificazione o segnalazione. Inoltre, è richiesto un livello adeguato di supervisione umana e la possibilità di audit da parte delle autorità competenti.

Questo ha spinto il settore verso un crescente interesse per le tecniche di Explainable AI (XAI): metodi come SHAP (SHapley Additive exPlanations) e LIME (Local Interpretable Model-agnostic Explanations) permettono di scomporre il contributo di ciascuna variabile alla decisione del modello. Non eliminano la complessità, ma la rendono comunicabile.

Costruire un framework sostenibile: dati, governance e cultura

La governance del modello in ambito AML

Un modello predittivo non è un prodotto finito che si installa e dimentica. È un sistema vivente che deve essere monitorato, validato e aggiornato. In ambito AML, questo si traduce in un ciclo di vita del modello che comprende: sviluppo e validazione iniziale, approvazione da parte del risk management, deployment controllato, monitoraggio delle performance, rivalutazione periodica.

La governance del modello deve essere chiaramente documentata: chi ha sviluppato il modello, con quali dati, con quali assunzioni e con quali limitazioni note. Questa documentazione non è burocrazia è la garanzia che il modello possa essere compreso, e contestato, anche da chi non ha un background tecnico.

Collaborazione tra compliance officer e data scientist

Il vero cambio culturale richiesto dall’analisi predittiva in ambito AML è organizzativo, non tecnologico. I modelli migliori emergono dalla collaborazione tra chi conosce la normativa e chi conosce gli algoritmi. Il compliance officer porta la comprensione del rischio regolamentare, dei casi tipologici, delle red flags consolidate nella pratica. Il data scientist porta la capacità di tradurre queste conoscenze in variabili misurabili e in strutture di modello adeguate.

Senza questa collaborazione, il rischio è quello di costruire modelli tecnicamente raffinati ma normativamente fragili o, al contrario, di avere una perfetta comprensione della norma senza la capacità di trasformarla in un sistema scalabile. Il futuro della compliance è dunque interdisciplinare.

Conclusione

Il Risk Assessment AML sta attraversando una trasformazione profonda, guidata dall’ingresso dei modelli quantitativi in un dominio che per decenni è stato territorio esclusivo della norma e del giudizio professionale. L’analisi predittiva offre strumenti potenti: la capacità di elaborare enormi volumi di dati, di rilevare pattern invisibili all’occhio umano, di aggiornare i profili di rischio in tempo reale.

Ma questa potenza non è priva di ombre. I modelli possono sbagliare, sono soggetti a bias, richiedono spiegabilità e governance rigorosa. Il data scientist che entra nel mondo AML non porta con sé soluzioni definitive, ma un metodo: quello di affrontare l’incertezza con rigore quantitativo, misurando gli errori invece di ignorarli, documentando le assunzioni invece di darle per scontate.

La vera sfida non è tecnologica. È costruire organizzazioni capaci di integrare competenze diverse — normative, statistiche, operative — in un framework coerente. Solo così l’analisi predittiva potrà mantenere la promessa che porta con sé: non eliminare l’incertezza, ma governarla meglio.

FAQ

1. Cosa si intende per Risk Assessment AML basato su modelli predittivi?

Si intende l’utilizzo di algoritmi di machine learning e tecniche statistiche avanzate per valutare il rischio di riciclaggio di denaro associato a clienti e transazioni. A differenza dei sistemi tradizionali basati su regole fisse, i modelli predittivi apprendono dai dati storici e sono in grado di rilevare pattern anomali in modo automatico e continuativo.

2. Quali dati vengono utilizzati nei modelli AML?

Le fonti principali includono dati transazionali interni (importi, frequenze, controparti), informazioni di anagrafica e KYC, liste sanzionatorie, registri di titolari effettivi, database di persone politicamente esposte (PEP) e fonti di news screening. La qualità e la coerenza di questi dati sono determinanti per l’affidabilità del modello.

3. Come si gestisce il problema della spiegabilità dei modelli AML?

Attraverso tecniche di Explainable AI (XAI) come SHAP e LIME, che permettono di quantificare il contributo di ciascuna variabile alla decisione del modello. Questo è fondamentale in ambito regolamentato, dove ogni segnalazione deve essere motivata e documentabile davanti alle autorità di vigilanza.

4. Quali sono i principali rischi nell’uso di modelli predittivi in ambito AML?

I rischi principali sono tre: il rischio di modello (errori sistematici nelle previsioni), il bias nei dati storici (che può portare a discriminazione algoritmica) e la mancanza di spiegabilità (che crea problemi di conformità normativa). Tutti e tre richiedono processi strutturati di validazione, monitoraggio e governance.

5. Come dovrebbero collaborare compliance officer e data scientist in un progetto AML?

La collaborazione deve essere strutturata fin dalla fase di progettazione del modello. Il compliance officer definisce i casi tipologici, le red flags e i requisiti normativi; il data scientist li traduce in variabili misurabili e strutture algoritmiche adeguate. La validazione del modello deve essere indipendente e la documentazione accessibile anche a chi non ha competenze tecniche.