Qualche giorno fa, sul web è apparsa una notizia che, nel giro di pochi click, si è trasformata in un acceso oggetto di dibattito: Amazon Alexa, la famigerata assistente vocale del colosso dell’e-commerce, farà “resuscitare i morti”. In che senso, si è domandata interdetta la maggior parte degli utenti che si sono imbattuti nell’informazione?
Eppure, la nuova funzionalità presentata alla Re:MARS Conference di Las Vegas da Rohit Prasad in persona, senior vicepresident and head scientist di Alexa (tradotto: colui che è a capo della divisione che si occupa dello sviluppo dell’assistente personale) non è uno scherzo di cattivo gusto, né un nuovo episodio di Stranger Things: gli smart speaker di Amazon saranno davvero in grado di imitare e riprodurre la voce di qualsiasi persona, inclusa quella dei propri cari passati a miglior vita.
Ma siamo sicuri che, dietro a un’innocua, sensazionalistica – seppur bizzarra – intenzione, non si annidi un’insidia potenzialmente minacciosa per noi “vivi”? Dopotutto, la nuova funzionalità Amazon ha un denominatore comune con la tecnologia deepfake, che negli anni ha sfoggiato con fierezza tutto il suo potenziale, ma anche i lati oscuri. Lo vediamo in questo articolo.
SOMMARIO
LE MIRE DI AMAZON
Dicevamo che l’obiettivo dichiarato di Amazon è “insegnare” al suo assistente vocale Alexa di riprodurre fedelmente qualsiasi voce umana proveniente da un file audio, anche di lunghezza irrisoria (meno di un minuto può essere più che sufficiente). L’azienda ha dunque intenzionalmente espresso il desiderio di offrire a chi ha subìto un lutto la possibilità di rivivere, seppur in modo fittizio, un contatto con i propri cari.
Tralasciando l’aspetto etico e i possibili risvolti psicologici di questa iniziativa, dal punto di vista tecnologico le mire di Amazon puntano a ben altro: riuscire a estrarre da pochi minuti di registrazione audio un modello vocale di buona qualità, che ricalchi con precisione il timbro e l’intonazione della sorgente, è chiaramente un passo ambizioso che, se riuscito, porterebbe a risultato ottenibile oggi senza poter prescindere da un parlato di lunghezza maggiore.
Tuttavia, come già accennato, l’imitazione così accurata di una voce umana, chiamata in gergo sintesi vocale, fa rima con un fenomeno dall’alto potere deflagrante, specie se impiegato per scopi malevoli: il deepfake, in questo caso in versione audio.
IL DEEPFAKE AUDIO
Senza addentrarci troppo nei tecnicismi, per deepfake si intende una tecnologia basata sul deep learning, costola dell’Intelligenza Artificiale, che elabora una riproduzione falsificata di un’immagine, un video o della voce di persone reali.
Sono numerosissimi i casi di deepfake diventati virali negli anni a partire dalla prima comparsa della tecnologia nel 2016, come il video che ritraeva l’ex Presidente degli Stati Uniti Barack Obama intento a denigrare, in un discorso manipolato a regola d’arte, Donald Trump. Il falso era stato realizzato dal comico e regista americano Jordan Peele per mostrare le potenzialità – e i rischi – della tecnologia, ma non si tratta di un caso isolato.
Se i video deepfake possono tradire imprecisioni o discrepanze, captabili dagli occhi più attenti e dettate in particolare da una scarsa sincronizzazione tra le immagini e il suono, nel caso dell’audio la situazione si complica, e anche un orecchio assoluto potrebbe essere più facilmente incastrabile. Di “fronte” a un’opera di deepfake audio ben riuscita, infatti, l’unica sbavatura che si potrebbe intercettare, non senza copiosi sforzi, starebbe nella differenza del tono della voce del presunto oratore, alterato da una minor qualità dell’algoritmo di sintetizzazione audio impiegato.
Essendo più camaleontico e meno distinguibile dalla realtà, l’audio deepfake risulta chiaramente più pericoloso. Il suo raggio d’azione è più ampio di quel che si pensi e capace di coprire i più disparati fronti; tra gli esempi empirici più eclatanti troviamo l’utilizzo della registrazioni di una voce umana nel corso di una conversazione telefonica per elaborare un modello vocale grazie agli algoritmi del deep learning. Una falsificazione della realtà costata cara, in passato, a un direttore di banca degli Emirati Arabi, vittima di una truffa da 35 milioni di dollari.
I RISCHI
Estorsione, fake news, truffe, divulgazione di informazioni riservate o personali sono solo alcune delle minacce velatamente veicolate da questa tecnologia. Non è un caso che le big tech si siano affrettate a circoscriverla a determinati utilizzi, come nel caso di Meta, Google, Twitter e Microsoft e altri colossi, che hanno deciso di sposare una linea più dura contro le fake news, mettendo la propria firma sul Codice di condotta aggiornato sulla disinformazione dell’Unione Europea. Tra i propositi dei firmatari, quello di impegnarsi più attivamente nella guerra ai deepfake, gli account falsi e la pubblicità politica (la non conformità porterebbe a sanzioni fino al 6% del fatturato globale dell’azienda, come affermato da un portavoce dell’UE). La stessa Microsoft, ancor prima della notizia di Alexa, ha sviluppato nuove linee guida per un utilizzo responsabile dell’Intelligenza Artificiale, con un occhio di riguardo verso i prodotti vocali.
Anche il Garante della privacy ha pubblicato una scheda informativa che sensibilizza gli utenti sui rischi e le conseguenze di un uso avverso di questa tecnologia.
È POSSIBILE SMASCHERARE UN AUDIO DEEPFAKE?
Esistono tuttavia software di AI che riescono a “smascherare” i deepfake audio e a capire se le caratteristiche di una voce reale coincidano con la traccia audio sospetta (una voce “falsata” avrebbe delle frequenze diverse da quelle di una voce umana). Alcuni rilevatori, ad esempio, mettendo a confronto un file audio “falso” con una voce reale, si affidano alle rappresentazioni grafiche delle clip audio (o meglio, dell’intensità di un suono in funzione del tempo e della frequenza), i cosiddetti spettrogrammi: a colpo d’orecchio i suoni risultano praticamente uguali ma, grazie agli spettogrammi, è possibile notare visivamente una netta differenza tra l’audio reale e quello falso.
Cadere nella sua trappola resta in ogni caso semplice, in particolare perché al giorno d’oggi è possibile ottenere risultati discreti utilizzando software e app accessibili a chiunque attraverso un banale smartphone. Programmi come Resemble AI e Descript, aperti gratuitamente al pubblico grazie alle demo online, sono un esempio calzante: basta registrare le frasi che appaiono sullo schermo e, in qualche istante, viene creato un modello della propria voce. Un gioco da ragazzi.
Il web è un valido banco di prova di questo fenomeno: se da un lato gli utenti si dilettano a utilizzare la propria voce, o il viso, per creare audio, foto o filmati deepfake ad alto grado di viralità, dall’altra aumentano i malintenzionati che fanno del deepfake una potente arma.
La cronaca lo dimostra: le ultime vittime dei cyber criminali sono stati sindaci di Berlino, Madrid e Vienna, convinti di aver partecipato a una videocall con il primo cittadino di Kiev che si è rivelata essere un pericoloso caso di deepfake.
IL POTERE DELL’INTELLIGENZA ARTIFICIALE
Che quella attuale sia l’età dell’oro dell’Intelligenza Artificiale è ormai appurato, come dimostra l’impeto rivoluzionario con cui si sta insidiando nei più disparati settori, così come nella vita di ogni giorno. A sorprendere, oltre ai progressi compiuti dalle tecnologie che la supportano (in questo caso restiamo nell’ambito delle tecniche di AI per la creazione di audio, foto o video fittizi), è il suo impatto sul meccanismo cognitivo degli esseri umani: il deepfake, spiega uno studio congiunto della Lancaster University e l’Università di Berkley, ha un incredibile potere manipolativo. Lo dimostra il fatto che gran parte degli intervistati in uno dei sondaggi abbia mostrato maggiore fiducia nei confronti dei prodotti artefatti, piuttosto che quelli reali.
Senza scendere in ulteriori riflessioni, è bene specificare che l’eticità di una tecnologia fondata sull’Intelligenza Artificiale dipenda dal fine per cui si usa. Esistono infatti anche numerosi casi virtuosi di deepfake, come le applicazioni che trova in ambito cinematografico, multimediale e artistico, che potrebbero portare all’evoluzione di tali settori.
Difficile, ad oggi, prevedere i possibili sviluppi di questa tecnologia: per ora, tra le promesse facilmente accessibili alla collettività, spicca quella di riportare in vita i defunti. La speranza è però che la funzionalità – per quanto “commovente” e “inquietante” sia – non nuoccia ai vivi.
VIDEO
[embedded content]
Altre fonti consultate per la stesura di questo articolo: