SeamlessM4T, ecco la traduzione universale secondo Meta AI

Dalla società di Mark Zuckerberg il primo modello di conversione e trascrizione multilingua e multimodale che gestisce ben 100 idiomi

Meta: IA e traduzione universale: Meta presenta SeamlessM4T
L'ufficio Meta di Austin, in Texas: la divisione IA della compagnia di Mark Zuckerberg lavora alla traduzione universale (Foto: Meta)

Esistono nel mondo quasi 3.500 lingue vive che sono soprattutto parlate, e per cui non esiste un sistema di scrittura standard o ampiamente diffuso tra la popolazione parlante. Eppure, fino a oggi, i notevoli sforzi delle Big Tech per la traduzione in tempo reale, che hanno sempre e comunque fatto riferimento al Babel Fish nato dalla penna benedetta di Douglas Adams, si sono concentrate sulle lingue scritte.

Forse perché mettere a punto una tecnologia in grado di tradurre la lingua parlata senza avere a disposizione quintali (o terabyte) di pagine per l’addestramento di un modello di intelligenza artificiale è una sfida che richiede di fare un passo nel vuoto, superando in qualche misura le tecniche standard.

Ci ha pensato Meta AI, che ha presentato in anticipo su Google il primo modello di traduzione e trascrizione multimodale (e multilingue) all-in-one. Si chiama SeamlessM4T, ed è l’ultimo tassello dell’Universal Speech Translator, un ambizioso progetto a lungo termine nato per “abbattere le barriere linguistiche nel mondo fisico e nel metaverso”.

Il documento “SeamlessM4T – Massively Multilingual & Multimodal Machine Translation” di Meta (in lingua inglese)
Un magazine multilingua per innovare e arrivare davvero a tutti

Intelligenza Artificiale: Meta fa il balzo in avanti
La traduzione universale speech-to-speech di Meta apre nuovi orizzonti anche nel Metaverso (Foto: Envato)

La traduzione universale: in principio era il Babel Fish

Il Babelfish è piccolo, giallo, ricorda una sanguisuga ed è forse la cosa più strana dell’Universo”: quando viene ficcato nell’orecchio di qualcuno, permette di comprendere istantaneamente qualsiasi cosa, in qualunque lingua. Nella “Guida Galattica per gli Autostoppisti”, il Babel Fish permette ad Arthur Dent di capire la lingua dei Vogon, ripugnanti alieni intenti distruggere la Terra per la costruzione di un’autostrada intergalattica.

Il riferimento al romanzo di Douglas Adams è quasi d’obbligo quando si parla di traduzione universale: il primo servizio di traduzione automatizzata di Altavista si chiamava Babel Fish, e anche Google aveva usato l’immagine di un piccolo pesce giallo per i suoi servizi di traduzione.

Quando poi, nel 2016, Google Translate ha aggiornato uno dei suoi algoritmi in modo che cercasse di comprendere il significato delle frasi prima di tradurle, si è iniziato a dire apertamente che il Babel Fish era prossimo a diventare una realtà.

Dopo sette anni, ci siamo quasi. Meta AI ha appena presentato quello che sembra essere, ad oggi, l’interpretazione più accurata del piccolo pesce giallo: si chiama SeamlessM4T, ed è il primo modello IA di traduzione e trascrizione multilingue e multimodale. Ovvero: un software in grado di tradurre (e trascrivere) circa 100 lingue anche a partire dal linguaggio parlato.

La Neolingua di Facebook (o della… “Demenza Artificiale”)

IA, Meta presenta il primo modello di traduzione universale
Nel mondo esistono oltre 3.500 lingue che sono soprattutto parlate: il progetto di Meta AI per la traduzione speech-to-speech lavora per non lasciarle indietro (Foto: Envato)

Universal Speech Translation: è il progetto di Meta

Il nuovo sistema di traduzione rientra nell’Universal Speech Translator Project, che nel 2022 aveva visto nascere il primo traduttore speech-to-speech per la lingua Hokkien, un idioma parlato nella Cina orientale che non ha un sistema di scrittura standard diffuso.

Allora, Mark Zuckerberg aveva presentato il progetto mostrandosi in una conversazione multilingua con un collaboratore di lingua Hokkien, in cui annunciava la nascita del primo sistema IA in grado di tradurre simultaneamente una lingua a partire dal parlato.

Nella maggior parte dei software di traduzione automatica speech-to-speech, dalla voce alla voce, la lingua parlata viene convertita in testo, tradotta nella lingua di output e infine trasformata di nuovo in suono. Questo procedimento, spiega Meta, “rende le traduzioni speech-to-speech dipendenti dalla forma testuale, in modi che rendono molto complesso applicare la tecnologia a lingue che sono principalmente parlate”.

Il progetto di traduzione universale di Meta punta alla traduzione diretta speech-to-speech senza passare per inefficienti trascrizioni, che tra l’altro rischiano concretamente di lasciare indietro migliaia di lingue parlate.

Il progetto Universal Speech Translation, lanciato all’inizio dello scorso anno, è presentato da Meta come un impegno a lungo termine, e ha già dato vita a diversi progetti che puntano allo stesso scopo: sviluppare un nuovo modello di intelligenza artificiale in grado di apprendere dalle lingue a partire da pochi esempi, quindi di supportare linguaggi che non hanno un sistema di scrittura standard o di cui esistono pochi testi.

Meta lo chiama “approccio speech-based”, e promette che una tecnologia del generepuò aprire la strada a sistemi di traduzione molto più veloci ed efficienti”, dal momento che salta tutti i passaggi relativi alla conversione del parlato in testo e viceversa.

Codex: il software che trasforma il linguaggio in codice

IA e traduzione automatica: a che punto siamo
Gli uffici londinesi di Meta: l’azienda dà ai dipendenti la possibilità di personalizzare il proprio spazio di lavoro (Foto: Meta)

SeamlessM4T e lo stato dell’arte: il balzo in avanti di Meta

Anche SeamlessM4T rientra nell’ambizioso impegno a lungo termine che vede la società di Mark Zuckerberg impegnata nella traduzione integraleper un mondo più connesso e inclusivo. La nuova tecnologia sviluppata da Meta AI è multimodale, cioè può tradurre a partire da un output vocale o testuale e rendere la traduzione nell’uno o nell’altro modo, tutto all’interno di un singolo modello.

Attualmente, spiega Paco Guzmán, Research Scientist Manager di Meta AI, “supporta quasi 100 lingue a livello testuale e 35 per la traduzione vocale” (più l’inglese), ed è anche capace di di comprendere quando si cambia lingua durante una conversazione.

SeamlessM4T è già in grado di tradurre 36 lingue in modalità speech-to-speech, cioè solo con la voce, e sarà rilasciato con licenza CC BY-NC 4.0, una licenza aperta a università e ricercatori ma che non permette l’uso commerciale della tecnologia, a differenza di quanto avviene con il modello Whisper di OpenAI.

Il confronto con OpenAI aiuta a dare la misura dell’avanzamento di Meta rispetto allo stato dell’arte: SeamlessM4T-LARGE, il modello di riconoscimento automatico del linguaggio più esteso, usa 2,3 miliardi di parametri, la versione large di Whisper si ferma a 1,55 miliardi. Stessa cosa per i modelli più leggeri: 281 milioni di parametri contro i 39 milioni del modello di OpenAI.

Occhiali per la traduzione automatica: è la sfida di Google

Meta presenta SeamlessM4T, il Babelfish è vicino
Mark Zuckerberg sul palco del Facebook F8, l’evento annuale destinato a sviluppatori e imprenditori tenuto da Meta Platforms (Foto: Meta)

Da Mark Zuckerberg un sistema unico, ma multitask

Mentre gli uffici commerciali si preparano al lancio di Meta Quest 3, il nuovo headset per la realtà virtuale, i ricercatori di Meta AI proseguono con successo sulla strada della traduzione universale AI generated.

Il modello illustrato nel paper si basa sull’architettura multitask UnitY, che è in grado di generare direttamente traduzioni testuali e vocali grazie a tre principali componenti sequenziali, che sono pre-addestrate in modo da garantire la qualità del modello e la stabilità del training.

Gli encoder di testo e vocali hanno il compito di riconoscere il linguaggio; il decodificatore di testo quindi trasferisce il significato tradotto in un testo che arriva al modello text-to-unit, che lo traduce in “unità acustiche discrete”. Queste, infine, vengono trasformate in suono da un vocoder.

Rispetto agli approcci che usano modelli separati, l’approccio a sistema singolo di SeamlessM4T riduce gli errori e i ritardi, migliorando l’efficienza e la qualità del processo di traduzione”, si legge nel blog di Meta.

Costruire un traduttore universale, come il Babel Fish della Guida Galattica per gli Autostoppisti, è una grande sfida perché i sistemi esistenti speech-to-speech e speech-to-text coprono soltanto una piccola parte delle lingue del mondo”, spiega la Big Tech blu nello stesso post, “crediamo che questo sia un significativo passo in avanti in questo viaggio”.

L’intelligenza artificiale per decifrare il misterioso cipro-minoico

Meta: Meta AI presenta il primo traduttore multimodale
SeamlessM4T di Meta AI è il primo traduttore multilingue e multimodale in grado di riconoscere 100 idiomi diversi (Foto: Envato)