L’ultima frontiera della disinformazione virale sfrutta le potenzialità dell’intelligenza artificiale per far muovere e parlare personaggi famosi con i volti, le espressioni e le parole di altri: il deep fake, ossia la sostituzione delle facce, o di alcuni elementi del viso dei protagonisti, grazie a software estremamente avanzati, garantiscono oggi risultati realistici.
Per ora la tecnica è stata sfruttata soprattutto nella satira e nel mondo del cinema hard, ma l’ombra di filmati-bufala con personaggi politici lanciati in dichiarazioni mai fatte pesa (per esempio) sulle prossime elezioni di medio termine americane. Un gruppo di ricercatori dell’Università di Albany, New York, sembra però avere identificato un tallone d’Achille del meccanismo.
Deep fake: come funziona? Come spiegato su The Conversation, i video deep fake sfruttano un sistema di reti neurali profonde (cioè adibite al deep learning, l’apprendimento automatico basato su diversi livelli di rappresentazione) per studiare i movimenti facciali di una persona e sintetizzare immagini del volto di un’altra persona facendole assumere espressioni analoghe.
Per queste operazioni serve un ampio database di fotografie di entrambi i volti: maggiore è il numero di immagini usate per “istruire” un deep fake, tanto più realistico risulterà il video finito. E qui casca l’asino.
Le foto che nessuno vuole. Nella realtà, gli esseri umani sbattono gli occhi ogni 2-10 secondi, e ogni battito di ciglia richiede tra un decimo e quattro decimi di secondo. Difficilmente, però, si trovano in Rete foto di persone con gli occhi chiusi: un po’ perché trascorriamo la maggior parte del tempo con gli occhi aperti, e un po’ perché raramente un fotografo pubblica ritratti ad occhi chiusi in un servizio.
Fissità sospetta. Le reti neurali dei video deep fake hanno quindi poco materiale da cui attingere: il risultato è che raramente nei video deep fake vedrete il protagonista sbattere gli occhi. Siwei Lyu, direttore del laboratorio di Visione artificiale e Machine Learning dell’Università di Albany, ha sviluppato con i colleghi algoritmi in grado di identificare automaticamente e con precisione la posizione degli occhi nei video, e tener traccia di ogni battito di ciglia.
Nei due filmati qui sotto: 1) una persona “autentica” sbatte gli occhi mentre parla; 2) in un video deep fake non si vedono battiti di ciglia.
Pronto a tutto. Per evitare che il sistema cadesse nello stesso tranello delle reti neurali “nemiche”, è stato istruito su una vasta libreria di foto di persone sia con gli occhi chiusi, sia aperti. La tecnica sembra funzionare e il team riesce ora a distinguere i video deep fake nel 95% dei casi.
Battaglia aperta. Si tratta tuttavia di una vittoria temporanea. Come ricordano i ricercatori, la tecnologia per produrre questi filmati è in continua evoluzione: i malintenzionati potrebbero per esempio recuperare frame di soggetti con occhi chiusi dai video usati per istruire le reti neurali, e aggirare così la falla temporanea. A ogni mossa segue una contromossa, come in una partita a scacchi.