Dopo un anno di attesa, finalmente abbiamo tra noi il nuovo modello di OpenAI, l’ultima versione della loro famiglia di trasformatori: GPT-4o, o “omnimodal”.
Veloce e Veramente Multimodale
Questo nuovo modello si distingue per la sua incredibile velocità nell’elaborazione di testo, audio, immagini e video, e nella generazione di immagini. Mostra miglioramenti significativi nella codifica e nel ragionamento multimodale, consentendo nuove modalità come il rendering 3D. Secondo l’arena dei chatbot di lmsys.org, GPT-4o è già considerato il miglior modello a tutto tondo, basato sui risultati ottenuti dal suo modello proxy, il famoso gpt2-chatbot.
Tuttavia, le ragioni dietro il rilascio di GPT-4o non sono solo scientifiche. Come ha detto Sam Altman, l’obiettivo è mettere l’intelligenza artificiale all’avanguardia nelle mani di miliardi di persone, gratuitamente.
Ecco tutto ciò che devi sapere su ChatGPT-4o.
L’Evoluzione dei Modelli Multimodali
I modelli multimodali di grandi linguaggi, o MLLM, esistono da un po’ di tempo. Tuttavia, GPT-4o è il primo modello nativo in quattro modalità distinte: audio, video, immagini e testo. Modelli come Gemini 1.5 sembravano multimodali per testo, immagini e video, ma non per l’audio. GPT-4V, ad esempio, supportava l’elaborazione/generazione di audio e immagini, ma tramite integrazione con modelli distinti come Whisper, OpenAI TTO e Dall-e3.
ChatGPT-4o, invece, è un modello all-in-one che funziona nativamente con tutte queste modalità.
Ingresso Multimodale, Uscita Multimodale
La principale innovazione di ChatGPT-4o è che non è più “solo un modello linguistico di grandi dimensioni”. Gli LLM tradizionali accettano testo e producono testo. Quando combinati con componenti come encoder di immagini, possono elaborare immagini, ma questi componenti sono spesso esterni e non parte del modello stesso.
Mira Murati ha sottolineato che il discorso include più delle parole: tono, emozione, pause e altri segnali che trasmettono ulteriori informazioni. Fino ad ora, ChatGPT elaborava solo la trascrizione del discorso, perdendo tutti gli altri segnali. Ora, ChatGPT-4o può processare e generare testo, immagini, audio e video, ragionando tra queste modalità proprio come farebbe un essere umano.
Un Mostro a Tutto Tondo
Nonostante la breve durata della presentazione (30 minuti), molto è stato mostrato di significativo. ChatGPT-4o ha dimostrato di avere le caratteristiche necessarie per trasformare ChatGPT da un prodotto usato da milioni a uno usato da miliardi.
Showcase Impressionante
Una delle dimostrazioni più impressionanti è stata la capacità di riconoscimento video in tempo reale, qualcosa che Google ha promesso con Gemini, ma non ha realizzato. ChatGPT-4o ha anche eseguito perfettamente una traduzione in tempo reale, grazie alla riduzione della latenza a livello umano. Questa riduzione è probabilmente dovuta al fatto che il modello non richiede più l’invio di dati a modelli esterni.
Capacità Educative e Memoria
Un altro interessante utilizzo di ChatGPT-4o è nell’educazione, dove un modello di IA sempre paziente può aiutare gli studenti ad apprendere compiti complessi. Inoltre, la memoria del modello è notevole: può ricordare eventi precedenti e focalizzarsi su compiti specifici, ignorando il resto, rendendo il processo più efficiente.
Coerenza del Personaggio
Will Depue di OpenAI ha mostrato come GPT-4o mantenga la coerenza del personaggio attraverso generazioni multiple senza l’uso di tecniche come ControlNet, che influenza il processo di diffusione generativa tramite schizzi di riferimento.
Più Intelligente, Ma Non AGI
Come sospettato, il “gpt2-chatbot”, membro della linea “gpt2-chatbot”, era in realtà ChatGPT-4o. GPT-4o è significativamente migliore nei benchmark, superando GPT-4 e Claude 3 Opus nei punteggi ELO, una misura di qualità. In particolare, nel coding, GPT-4o ha mostrato un miglioramento di 100 punti ELO rispetto ai modelli precedenti, vincendo il 66% delle volte contro lo stato dell’arte precedente.
App Desktop e Miglioramenti Linguistici
L’annuncio della nuova app desktop di ChatGPT, che fornirà un accesso completo al modello, supporta compiti come il debug. Inoltre, il modello ha subito notevoli miglioramenti nel tokenizer, servendo il 97% della popolazione mondiale.
Le Vere Intenzioni di OpenAI
GPT-4o non è una rivoluzione in termini di intelligenza, come confermato da Mina Murati di OpenAI. Piuttosto, è un passo strategico in attesa del rilascio del prossimo grande modello, il cosiddetto “GPT-5”. OpenAI sta anche giocando una partita competitiva con Google, anticipando i loro annunci con presentazioni proprie.
La Battaglia per Siri
Una partnership con Apple per migliorare Siri potrebbe essere stata l’obiettivo fin dall’inizio. Con le sue potenti capacità di latenza, comportamento vocale, e funzionalità di visione su schermo, GPT-4o potrebbe essere l’alleato ideale per Apple. Tuttavia, le implicazioni etiche e di privacy restano un problema aperto.
Intanto è stata rilasciata l’Applicazione di Chat GPT per iOS 14
Per maggiori dettagli, puoi visitare l’annuncio ufficiale di OpenAI.
In conclusione, ChatGPT-4o rappresenta un notevole passo avanti per OpenAI, con il potenziale di portare l’intelligenza artificiale multimodale nelle mani di miliardi di persone, pur lasciando la porta aperta a future evoluzioni ancora più rivoluzionarie.
Generato dall’autore utilizzando ChatGPT-4o
Lascia un commento