OpenAI annuncia “omni”, l’evoluzione del modello alla base di ChatGPT. Che migliora notevolmente l'interazione tra uomo e computer
Qualcuno credeva sarebbe stato GTP-5. Qualcun altro, invece, che sarebbe stato il nuovo motore di ricerca al quale OpenAI sta lavorando (neanche troppo) segretamente da tempo. Poi, lo scorso 10 maggio, ecco arrivare il tweet di stesso Sam Altman, per anticipare i contenuti della diretta di ieri sera: “Non è GPT-5, non è un motore di ricerca, ma abbiamo lavorato duramente su alcune nuove cose che pensiamo piaceranno molto alle persone! A me sembra magia”. Alla fine, a tenere la presentazione non è stato il pupillo di Satya Nadella bensì Mira Murati, Chief Technology Officer di OpenAI. Che ha illustrato al mondo il nuovo modello GPT-4o (la ‘o’ sta per ‘omni’), che è possibile usare già da oggi in Chat-GPT.
UN BEL PASSO AVANTI
GPT-4o non è la rivoluzione annunciata da Sam Altman per GTP-5, ma rappresenta comunque un bel passo avanti nel campo dell'interazione tra uomo e computer. Questo nuovo modello accetta input di testo, audio e immagini, e genera output in qualsiasi combinazione di questi formati. La velocità di risposta agli input audio è notevole, con un tempo minimo di 232 millisecondi e una media di 320 millisecondi, paragonabile ai tempi di reazioni umani in una conversazione. Dal punto di vista delle prestazioni, GPT-4o eguaglia il modello GPT-4 Turbo per quanto riguarda il testo in inglese e il codice, con notevoli miglioramenti nella gestione del testo nelle altre lingue. Chi di voi l’ha già usato stamattina, se ne sarà accorto senz’altro.
L’OCCHIO DELL’IA…
Una delle caratteristiche più impressionanti di GPT-4o è la capacità di comprendere e discutere le immagini. OpenAI spiega che gli utenti possono ad esempio scattare la foto di un menu in una lingua straniera e usare GPT-4o per tradurlo, esplorare la storia e il significato dei piatti e ottenere consigli culinari. A noi ha fatto impressione quando ieri sera ha aiutato un presentatore a risolvere un’equazione scritta col pennarello su un foglio di carta e inquadrata con la fotocamera dello smartphone. Usiamo il termine “aiutato” non a caso, perché la richiesta non era di risolverla ma di guidare l’uomo a trovare la soluzione, come farebbe un insegnante con un alunno. Ma non si pensi di usare GPT-4o solamente per risparmiare sulle ripetizioni dei figli. Stando a OpenAI si potrà anche mostrare una partita sportiva dal vivo a ChatGPT e ricevere in tempo reale spiegazioni sulle regole dello sport in questione.
…E LA SUA VOCE
Un’altra caratteristica di GPT-4o che ha stupito è la capacità di sostenere conversazioni più naturali, veloci e di qualità. Prima dell'introduzione di GPT-4o, la modalità vocale di ChatGPT permetteva di conversare con una latenza media di 2,8 secondi per GPT-3.5 e 5,4 secondi per GPT-4. Ciò accadeva grazie a un procedimento suddiviso in tre fasi, corrispondenti ad altrettanti modelli che agivano separatamente. Uno trascriveva l'audio in testo, GPT-3.5 o GPT-4 elaborava il testo e produceva una risposta testuale, e infine un terzo modello convertiva nuovamente il risultato in audio. Questo procedimento comportava però una perdita d’informazioni per GPT-4, che non poteva osservare direttamente il tono della voce, distinguere tra più interlocutori o rilevare i rumori di fondo, né poteva esprimere emozioni. Cosa che GPT-4o sembra invece fare benissimo, come s’è visto ieri sera quand’è stato in grado di ripetere più volte la stessa frase con stati d’animo d’intensità crescente. Merito del nuovo modello unificato, addestrato per gestire testo, audio e video, grazie al quale tutti gli input e gli output vengono processati dalla stessa rete neurale. ChatGPT supporta ora oltre 50 lingue per la registrazione, l'accesso e le impostazioni utente, e OpenAI prevede di lanciare una nuova modalità vocale con funzionalità avanzate in fase alpha nelle prossime settimane, offrendo l’accesso anticipato agli utenti Plus.
UN MODELLO SICURO
OpenAI dichiara di aver progettato GPT-4o con la sicurezza bene in mente, utilizzando tecniche come il filtraggio dei dati di addestramento e il raffinamento del comportamento del modello dopo l'addestramento. Inoltre, ha creato appositi sistemi di sicurezza per fornire limiti agli output vocali. Secondo il Preparedness Framework di OpenAI, le valutazioni in ambiti come la cybersicurezza, CBRN (chimico, biologico, radiologico e nucleare), persuasione e autonomia del modello, mostrano che GPT-4o non supera il livello di rischio Medio in nessuna di queste categorie. Questa valutazione ha visto un'ampia fase di testing esterno, con la partecipazione di oltre 70 esperti esterni in campi come psicologia sociale, bias, equità e disinformazione. È stato però riconosciuto che le modalità audio di GPT-4o presentano una varietà di nuovi rischi. Ecco perché, al lancio, gli output audio saranno limitati alla selezione di voci preimpostate e rispetteranno le politiche di sicurezza esistenti. OpenAI s’impegna a mitigare i nuovi rischi man mano che verranno scoperti.
NUOVA APP, NUOVA INTERFACCIA
OpenAI lancerà una nuova app desktop di ChatGPT per macOS sia per gli utenti gratuiti che per quelli a pagamento. È pensata per integrarsi perfettamente con qualsiasi attività svolta sul computer e permette di scattare e commentare screenshot direttamente nell'app. Permette anche di avere conversazioni vocali con ChatGPT dal computer. Che si tratti di fare brainstorming per una nuova idea aziendale, prepararsi per un colloquio o discutere un argomento specifico, basta cliccare sull'icona delle cuffie nell'angolo in basso a destra per avviare una conversazione vocale.La distribuzione dell'app per macOS agli utenti Plus inizia oggi ed è previsto anche il lancio di una versione per Windows entro la fine dell'anno. Infine, OpenAI sta introducendo una nuova interfaccia per ChatGPT che proporrà una nuova schermata iniziale, un layout dei messaggi rinnovato e altre modifiche volte a migliorare l'esperienza complessiva.
PIÙ IA PER TUTTI
La missione di OpenAI è di rendere disponibile l’intelligenza artificiale al maggior numero di persone. Missione riuscita, visto che ogni settimana oltre cento milioni di persone utilizzano ChatGPT. Per quanto riguarda GPT-4o, le sue capacità verranno distribuite gradualmente. Le funzionalità di testo e immagine di GPT-4o sono già disponibili nella versione gratuita e agli utenti Plus, che beneficeranno di un limite ai messaggi fino a cinque volte superiore. Una volta superato, ChatGPT passerà automaticamente a GPT-3.5 per permettere di continuare le conversazioni.