Bastano 3 secondi della tua voce per clonarti: l'orecchio fallisce nel 27% dei casi

Indice dei contenuti

Un messaggio vocale del partner. Cinque in totale nella lista. Uno fabbricato da un’IA. Nel 27% dei casi, i partecipanti all’esperimento dello University College London non hanno colto la differenza. Il dato, pubblicato nel 2023 su PLOS ONE, ha l’aria di una statistica innocua. È invece un avvertimento operativo: chiunque abbia lasciato pochi secondi di voce su una segreteria telefonica è materiale grezzo sufficiente per una truffa.

L’esperimento che misura il fallimento dell’orecchio umano

I ricercatori di UCL hanno usato un algoritmo di sintesi vocale addestrato su due dataset pubblici, uno in inglese e uno in mandarino, per generare cinquanta campioni di parlato deepfake in ciascuna lingua. Le voci artificiali sono state mescolate a voci autentiche e proposte a 529 partecipanti, con la consegna di individuare il falso.

Il risultato: gli ascoltatori riconoscono correttamente i deepfake solo nel 73% delle occasioni, senza differenze significative tra le due lingue. Tradotto: una voce clonata su quattro supera il filtro dell’orecchio umano senza far suonare alcun allarme. Kimberly Mai, prima autrice dello studio, è stata diretta: «I nostri risultati confermano che gli esseri umani sono incapaci di rilevare in modo affidabile il parlato deepfake, indipendentemente dal fatto che abbiano ricevuto o meno una formazione». L’addestramento aiuta, ma di poco.

Tre secondi di audio bastano per fabbricare un clone

Quello che rende il problema vertiginoso è la banalità del processo. Strumenti come ElevenLabs, Resemble AI o modelli open source permettono oggi di riprodurre una voce umana convincente a partire da tre a dieci secondi di registrazione. Il messaggio lasciato sulla segreteria del medico. Il “Pronto?” catturato durante una telefonata qualsiasi. Le fonti più sfruttate sono le segreterie professionali e i video pubblici come conferenze, webinar, interviste.

Il clonaggio vocale ha superato quella che i ricercatori chiamano la “soglia di indiscernibilità”. Pochi secondi di audio bastano per generare un clone convincente, con intonazione, ritmo, accenti, emozioni, pause e perfino respiri naturali. Gli indizi percettivi che un tempo permettevano di smascherare una voce sintetica sono in gran parte scomparsi. Lo stesso fenomeno della comunicazione codificata, del resto, esiste anche nei contesti professionali: pensiamo ai linguaggi cifrati usati dal personale di bordo per scambiarsi informazioni senza allarmare i passeggeri.

Arup, 25,6 milioni di dollari volatilizzati con una videochiamata

La frode segue la tecnologia. L’azienda di ingegneria Arup ha perso 25,6 milioni di dollari in una truffa sofisticata in cui gli aggressori hanno imitato in modo convincente la voce di un dirigente durante videochiamate. Non è un caso isolato. In Francia diversi segnalamenti a cybermalveillance.gouv.fr riguardano truffe familiari basate su voci clonate di parenti. Interpol ha qualificato questa tendenza come minaccia emergente prioritaria per il biennio 2024-2025.

L’azienda di cybersicurezza DeepStrike stima che si sia passati da circa 500.000 deepfake online nel 2023 a quasi 8 milioni nel 2025, con una crescita annua vicina al 900%. Secondo i rapporti 2025 di Pindrop e Resemble AI, i tentativi di frode con voci sintetiche sono aumentati del 400% in due anni.

Sapresti riconoscere un deepfake vocale?

Sì sicuramente

Forse

No per niente

Non saprei

Il vero nemico è la fiducia, non l’algoritmo

Lo studio UCL punta il dito su qualcosa di più inquietante della tecnologia: la psicologia dell’ascoltatore. Quando a parlare è la voce di una persona cara, le difese cadono prima ancora che il ragionamento si attivi. La truffa del “finto parente in difficoltà” sfrutta esattamente questo meccanismo: la voce innesca una risposta emotiva immediata, la richiesta di denaro arriva subito dopo, il tempo per dubitare non c’è.

Un caso documentato da Futura Sciences mostra però che un riflesso semplice può bastare: un dirigente di Ferrari ha sventato un tentativo di truffa ponendo al presunto capo una domanda personale che solo il vero interlocutore poteva conoscere. La conversazione si è interrotta lì. Codice segreto condiviso in famiglia, domanda di controllo nota a due sole persone: meccanismi rudimentali ma efficaci contro la sofisticazione delle IA.

Watermark audio e perturbazioni: la contromossa tecnica

Quando un suono è generato da un’IA presenta spesso anomalie sottili, impercettibili all’orecchio ma visibili su uno spettrogramma. Su questo terreno si costruiscono le contromisure. Il watermarking audio inserisce un marcatore impercettibile nei file generati da IA, permettendo di identificarli a posteriori come contenuto sintetico. Meta ha rilasciato AudioSeal nel 2024 seguendo questo principio.

Il progetto DeFake lavora dall’altro lato: inserisce piccole perturbazioni in una registrazione vocale umana per rendere più difficile il lavoro dei sistemi di clonaggio. Questi leggeri rumori di disturbo confondono l’apprendimento dell’IA che tenta di riprodurre la firma vocale. L’idea è rendere la materia prima meno sfruttabile alla fonte, prima ancora che venga catturata.

La corsa resta sbilanciata. Man mano che gli algoritmi di sintesi diventano più realistici, la rilevazione si complica. Non siamo evoluti per distinguere voci sintetiche: il cervello tratta la voce di una persona cara come un segnale di fiducia quasi biologico. I truffatori lo sanno. La prossima volta che il telefono squilla con una voce familiare in panico, la domanda utile non è più “è davvero lui?” ma “ho un modo per verificarlo prima di agire?”.