DeepSeek: la startup cinese sfida i giganti dell'AI con un modello low cost

Mentre ‘utilizzo di Gemini AI, ChatGPT e degli altri modelli di intelligenza artificiale generativa, continua a crescere, una piccola startup cinese sta facendo parlare di sé per aver sviluppato un modello che sembra superare in prestazioni i giganti del settore.

Si chiama DeepSeek V3, ed è un Large Language Model (LLM) con ben 671 miliardi di parametri, addestrato in soli due mesi con un investimento di appena 5,58 milioni di dollari. Stando alle prima indicazioni della testata cinese SCMP, ciò che sorprende di più è che DeepSeek è riuscita a ottenere questi risultati utilizzando risorse di calcolo significativamente inferiori rispetto ai modelli sviluppati da aziende come Meta e OpenAI.

Per capire l’importanza di questo risultato, è necessario spiegare cosa sono i parametri in un LLM. In parole semplici, più alto è il numero di parametri, maggiore è la capacità del modello di adattarsi a pattern di dati complessi e di fare previsioni accurate. DeepSeek V3, con i suoi 671 miliardi di parametri, si posiziona quindi tra i modelli più avanzati al mondo.

Ma come ha fatto DeepSeek a raggiungere questo traguardo con un budget così limitato? La chiave del successo risiede in una nuova architettura progettata per un addestramento efficiente in termini di costi. DeepSeek ha utilizzato solo 2,78 milioni di ore di GPU (Graphics Processing Unit) per addestrare il suo modello V3, contro i 30,8 milioni di ore di GPU utilizzate da Meta per addestrare il suo modello Llama 3.1.

Un altro fattore importante è l’utilizzo delle GPU H800 di Nvidia, una versione “ritagliata” per il mercato cinese delle più potenti H100, il cui export verso la Cina è bloccato dalle sanzioni statunitensi. Nonostante questo limite, DeepSeek è riuscita a ottenere prestazioni superiori al modello Llama 3.1 di Meta, addestrato proprio con le H100.

I risultati dei benchmark mostrano che DeepSeek V3 supera Llama 3.1 e Qwen 2.5 di Alibaba in una serie di test che valutano le capacità di un sistema di IA in diverse aree, tra cui la comprensione e la generazione del testo, la conoscenza di esperti di dominio, la programmazione e la risoluzione di problemi matematici.

Inoltre, DeepSeek V3 ha ottenuto risultati paragonabili a quelli di GPT-4 di OpenAI e Claude 3.5 Sonnet di Anthropic, dimostrando di poter competere ad armi pari con i modelli più avanzati al mondo.

DeepSeek è stata fondata nel luglio del 2023 da High-Flyer Quant, una società che utilizza l’AI per gestire uno dei più grandi hedge fund quantitativi in Cina. L’obiettivo di DeepSeek è quello di creare “un’AI che possa beneficiare tutta l’umanità”, parole già sentite più e più volte e che non sembrano andare a braccetto con le premesse d’utilizzo. E voi che ne pensate? Fatecelo sapere nei commenti.

Articolo originale disponibile qui

Related Articles