Un traduttore vocale che non si limita a tradurre ciò che diciamo. Ma lo fa usando la nostra stessa voce, invece di ricorrere a quella – artificiale – di un sintetizzatore vocale. Col risultato che all’interlocutore sembra di sentir parlare proprio noi. Non è fantascienza, ma… Translatotron, l’ultima trovata a cui stanno lavorando gli ingegneri di Google.
Che cosa fa? I sistemi di traduzione che si usano oggi, incluso Google Translate, si basano su tre fasi distinte: il riconoscimento automatico del parlato per trasformare il discorso di origine in testo, la traduzione automatica del testo scritto dalla lingua di partenza a quella di destinazione e infine la sintesi vocale (text-to-speech, TTS) per produrre il “parlato” nella lingua di destinazione a partire dal testo tradotto. Transalatotron fa qualcosa di molto più complesso: utilizza l’intelligenza artificiale per modificare la sua “voce” sulle stesse frequenze di quella di chi parla replicandone l’impronta vocale al momento in cui deve fornire la traduzione di un parlato. Il tutto avviene, rispetto ai sistemi tradizionali “a cascata”, in un modo più veloce e diretto, cioè con un processo che prevede un minore numero di fasi (e dunque una minore probabilità di generare errori).
Come lo fa? Translatotron utilizza una “rete neurale” (un modello matematico ispirato alla rete neurale umana) addestrata per analizzare lo spettrogramma della “voce input” (cioè la rappresentazione grafica della voce reale di chi parla) e produce gli spettrogrammi del contenuto tradotto nella lingua di destinazione. Per riuscire nel suo compito il sistema impiega due componenti: un “vocoder” (un decoder che trasforma un segnale audio in un codice) e un codificatore per altoparlanti, che ha il compito di riprodurre il carattere della voce del parlante di origine nel discorso tradotto sintetizzato. Il processo prevede una fase di addestramento, in cui il sistema “impara” a tradurre da una lingua all’altra partendo dalle registrazioni di frasi pronunciate sia nella lingua di partenza sia in quella di destinazione.
I vantaggi. Oltre ai vantaggi in termini di velocità e di accuratezza della traduzione, questo approccio promette di ottenere traduzioni più naturali, mantenendo nella traduzione vocale anche segnali non verbali importanti come il tono, il timbro e gli accenti. Per ora Translatotron è in fase sperimentale. Nei primi test, i ricercatori lo hanno sperimentato solo con la traduzione da spagnolo a inglese e viceversa: le due lingue più parlate al mondo e anche quelle su cui Google Translator a oggi è più efficace.
In futuro. I primi risultati sono stati già resi pubblici: tra le altre curiosità, è possibile ascoltare il set di voci originali (ground truth) impiegate per l’apprendimento (in spagnolo e in inglese), con le rispettive traduzioni lette da sintetizzatori vocali o dalla voce “imitata”.
Translatotron è un progetto promettente, ma ancora in fase (molto) sperimentale. Ma si può già intuire come potrebbe presto rendere più fluide le interazioni in una lingua straniera, catturando e riproducendo parte delle le sfumature che si perdono quando una voce robotica sintetizza il testo in un discorso.