Gemini di Google: il nuovo modello AI è davvero migliore di ChatGPT?  Modelli sono esempi di “IA generativa”. ChatGPT Gemini

Gemini di Google: il nuovo modello AI

Gemini di Google: il nuovo modello AI è davvero migliore di ChatGPT?  Articolo di Michael G. Madden Professore affermato di informatica, Università di Galway.

Google Deepmind

Google Deepmind ha recentemente annunciato Gemini, il suo nuovo modello di intelligenza artificiale per competere con ChatGPT di OpenAI. Mentre entrambi i modelli sono esempi di “IA generativa”, che impara a trovare modelli di informazioni di input training per generare nuovi dati (immagini, parole o altri media), ChatGPT è un modello linguistico di grandi dimensioni (LLM) che si concentra sulla produzione di testo.

Allo stesso modo in cui ChatGPT è un’app Web per conversazioni basata sulla rete neurale nota come GPT (addestrata su enormi quantità di testo), Google ha un’app Web conversazionale chiamata Bard che era basato su un modello chiamato LaMDA (addestrato al dialogo). Ma Google ora lo sta aggiornando in base a Gemini.

Ciò che distingue Gemini dai precedenti modelli di intelligenza artificiale generativa come LaMDA è che si tratta di un “modello multimodale”. Ciò significa che funziona direttamente con molteplici modalità di input e output: oltre a supportare l’input e l’output di testo, supporta immagini, audio e video. Nasce così un nuovo acronimo: LMM (large multimodal model), da non confondere con LLM.

A settembre, OpenAI ha annunciato un modello chiamato GPT-4Vision che può funzionare anche con immagini, audio e testo. Tuttavia, non è un modello completamente multimodale come promette Gemini.

Gemini di Google: il nuovo modello AI è davvero migliore di ChatGPT?  Modelli sono esempi di “IA generativa”. ChatGPT Gemini


Ad esempio, mentre ChatGPT-4, che è alimentato da GPT-4V, può funzionare con input audio e generare output vocali, OpenAI ha confermato che ciò avviene convertendo il parlato in testo in input utilizzando un altro modello di deep learning chiamato Whisper. ChatGPT-4 converte anche il testo in parlato in output utilizzando un modello diverso, il che significa che GPT-4V stesso funziona esclusivamente con il testo.

Allo stesso modo, ChatGPT-4 può produrre immagini, ma lo fa generando messaggi di testo che vengono passati a un modello di deep learning separato chiamato Dall-E 2, che converte le descrizioni testuali in immagini.

Al contrario, Google ha progettato Gemini per essere “nativamente multimodale”. Ciò significa che il modello principale gestisce direttamente una gamma di tipi di input (audio, immagini, video e testo) e può anche emetterli direttamente.

Il verdetto

La distinzione tra questi due approcci potrebbe sembrare accademica, ma è importante. La conclusione generale del rapporto tecnico di Google e di altri test qualitativi fino ad oggi è che l’attuale versione pubblicamente disponibile di Gemini, chiamata Gemini 1.0 Pro, non è generalmente buona come GPT-4 ed è più simile nelle sue capacità a GPT 3.5.

Google ha anche annunciato una versione più potente di Gemini, chiamata Gemini 1.0 Ultra, e ha presentato alcuni risultati che mostrano che è più potente di GPT-4. Tuttavia è difficile valutarlo per due ragioni. Il primo motivo è che Google non ha ancora rilasciato Ultra, quindi al momento i risultati non possono essere convalidati in modo indipendente.

Il secondo motivo per cui è difficile valutare le affermazioni di Google è che ha scelto di pubblicare un video dimostrativo alquanto ingannevole, vedi sotto. Il video mostra il modello Gemini che commenta in modo interattivo e fluido uno streaming video in diretta.


Tuttavia, come riportato inizialmente da Bloomberg, la dimostrazione nel video non è stata effettuata in tempo reale. Ad esempio, il modello aveva imparato in anticipo alcuni compiti specifici, come il trucco delle tre tazze e della palla, in cui Gemelli tiene traccia di quale tazza si trova sotto la palla. Per fare questo è stata fornita una sequenza di immagini fisse in cui le mani del presentatore sono sulle tazze che vengono scambiate.

Futuro promettente

Nonostante questi problemi, credo che Gemini e i grandi modelli multimodali rappresentino un passo avanti estremamente entusiasmante per l’intelligenza artificiale generativa. Ciò è dovuto sia alle loro capacità future, sia al panorama competitivo degli strumenti di intelligenza artificiale. Come ho notato in un articolo precedente, GPT-4 è stato addestrato su circa 500 miliardi di parole, essenzialmente tutto testo di buona qualità e disponibile al pubblico.

Le prestazioni dei modelli di deep learning sono generalmente guidate dalla crescente complessità del modello e dalla quantità di dati di addestramento. Ciò ha portato alla domanda su come potrebbero essere ottenuti ulteriori miglioramenti, dal momento che abbiamo quasi esaurito i nuovi dati di addestramento per i modelli linguistici. Tuttavia, i modelli multimodali aprono enormi nuove riserve di dati di formazione – sotto forma di immagini, audio e video.

Le IA come Gemini, che possono essere addestrate direttamente su tutti questi dati, probabilmente avranno capacità molto maggiori in futuro. Ad esempio, mi aspetterei che i modelli formati su video sviluppino rappresentazioni interne sofisticate  di quella che viene chiamata “fisica ingenua”. Questa è la comprensione di base che gli esseri umani e gli animali hanno riguardo alla causalità, al movimento, alla gravità e ad altri fenomeni fisici.

Sono anche entusiasta di ciò che questo significherà per il panorama competitivo dell’intelligenza artificiale. Nell’ultimo anno, nonostante l’emergere di molti modelli di intelligenza artificiale generativa, i modelli GPT di OpenAI sono stati dominanti, dimostrando un livello di prestazioni che altri modelli non sono stati in grado di avvicinare.

Gemini di Google segnala l’emergere di un importante concorrente che aiuterà a far avanzare il settore. Naturalmente, OpenAI sta quasi certamente lavorando su GPT-5 e possiamo aspettarci che sarà anche multimodale e dimostrerà nuove notevoli capacità.

Detto questo, sono ansioso di vedere l’emergere di modelli multimodali molto grandi, open source e non commerciali, che spero siano in arrivo nei prossimi anni.

Mi piacciono anche alcune funzionalità dell’implementazione di Gemini. Ad esempio, Google ha annunciato una versione chiamata Gemini Nano, che è molto più leggera e in grado di funzionare direttamente sui telefoni cellulari.

Modelli leggeri come questo riducono l’impatto ambientale dell’informatica basata sull’intelligenza artificiale e presentano molti vantaggi dal punto di vista della privacy, e sono sicuro che questo sviluppo porterà i concorrenti a seguirne l’esempio.

Sicurezza, Qualità, GDPR, HACCP, Medicina del lavoro, E-learning, Videoconferenza, Qualifica Fornitori, CRM...