Un team di ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT ha sviluppato un nuovo algoritmo chiamato “Co-LLM”, che promette di rivoluzionare il modo in cui i modelli linguistici di grandi dimensioni (LLM) collaborano tra loro. Questa innovazione potrebbe portare a soluzioni di intelligenza artificiale miglio ed efficienti in vari campi, dalla medicina alla matematica.
L’algoritmo Co-LLM funziona accoppiando un LLM generico con un modello più specializzato, permettendo loro di lavorare insieme in modo sinergico. Il processo è paragonabile a una persona che, non conoscendo completamente la risposta a una domanda, chiede aiuto a un amico esperto in materia.
Shannon Shen, dottoranda in ingegneria elettrica e informatica al MIT e autrice principale dello studio, spiega: “Con Co-LLM, stiamo essenzialmente addestrando un LLM generico a ‘telefonare’ a un modello esperto quando necessario”. Questo approccio organico permette ai modelli di apprendere modelli di collaborazione che assomigliano al modo in cui gli esseri umani riconoscono quando chiamare un esperto per colmare le lacune.
Il cuore dell’innovazione è una “variabile di commutazione”, una sorta di project manager virtuale che decide quando il modello di base necessita dell’aiuto del modello esperto. Questa variabile valuta la competenza di ogni parola nelle risposte dei due LLM, intervenendo nei punti in cui può inserire un token migliore dal modello esperto.
I risultati sono promettenti. Ad esempio, quando è stato chiesto di risolvere un problema matematico come “a3 · a2 se a=5”, il modello generico ha calcolato erroneamente 125 come risposta. Tuttavia, collaborando con un LLM matematico specializzato chiamato Llemma, Co-LLM ha determinato correttamente che la soluzione era 3.125.
L’algoritmo ha dimostrato prestazioni superiori rispetto agli LLM semplici ottimizzati e ai modelli specializzati non ottimizzati che lavorano indipendentemente. Inoltre, a differenza di altri approcci di collaborazione LLM, Co-LLM può guidare due modelli addestrati in modo diverso a lavorare insieme, attivando il modello esperto solo per token particolari, portando a una generazione più efficiente.
Le applicazioni potenziali di questa tecnologia sono vaste. Nel campo medico, Co-LLM potrebbe fornire risposte più accurate a domande complesse, come spiegare i meccanismi alla base di una particolare malattia. Nel settore aziendale, potrebbe essere utilizzato per aggiornare documenti interni utilizzando le informazioni più recenti, combinando dati aggiornati con una forte capacità di ragionamento.
Colin Raffel, professore associato all’Università di Toronto e direttore associato di ricerca presso il Vector Institute, non coinvolto nella ricerca, ha commentato: “Co-LLM presenta un approccio interessante per imparare a scegliere tra due modelli per migliorare l’efficienza e le prestazioni. […] Co-LLM contribuisce a un’importante linea di ricerca che mira a sviluppare ecosistemi di modelli specializzati per superare le prestazioni di costosi sistemi AI monolitici.”
Guardando al futuro, i ricercatori del MIT stanno considerando ulteriori miglioramenti. Stanno esplorando un approccio di deferimento più robusto che possa tornare indietro quando il modello esperto non fornisce una risposta corretta, permettendo all’algoritmo di correggere il corso e dare comunque una risposta soddisfacente. Inoltre, stanno lavorando per mantenere le risposte il più aggiornate possibile, aggiornando il modello esperto quando sono disponibili nuove informazioni.