L'AI ha fame! (#49)


Il terreno di scontro tra le grandi big dell’AI non sarà sulla potenza di calcolo, ma sulla capacità di addestrare i propri modelli su dati di alta qualità. Dati da trovare… a qualunque costo!

Lo slogan “I dati sono il nuovo petrolio” quest’anno compie 18 anni! Diventa maggiorenne insomma. Ed in effetti in queste ultime due decadi i dati sono dimostrati una risorsa preziosa in diversi ambiti: Meta e Google li hanno sfruttati per affinare le proprie strategie pubblicitarie, Netflix e Spotify per suggerire film e musica agli utenti, e i candidati politici per identificare e targettizzare specifici gruppi di elettori ai quali far arrivare messaggi capaci di influenzare e indirizzare.

Negli ultimi tre anni, se possibile, questo processo ha subito una accelerazione incredibile; i dati si sono rivelati infatti un ingrediente fondamentale per l’addestramento di sistemi sempre più sofisticati di Ai Generativa. Ma di quanti dati stiamo parlando?!

Fame di dati

Avere una comprensione della mole di informazioni che questi sistemi richiedono è davvero difficile. Pensiamo all’LLM più famoso in questo momento, ovvero ChatGPT. Beh la versione di GPT-4 è stato addestrata su una quantità stimata di 1 trilione di token; ma cosa significa? 1 token rappresenta una parola, una informazione o un frammento di informazione.

In pratica 1 trilione di token equivalgono a circa 500 miliardi di parole che corrispondono a circa 300 milioni di libri di media lunghezza (assumendo 200 pagine e 300 parole per pagina) o a circa 50 milioni di ore di video (assumendo un parlato medio di 150 parole al minuto).

Questa enorme mole di dati permette ai principali LLM come appunto GPT-4, ma anche Claude e Gemini di acquisire conoscenze e capacità linguistiche senza precedenti migliorando significativamente in accuratezza e capacità di emulazione del linguaggio umano; non stupisce quindi che la gara per guidare l’AI sia rapidamente diventata una disperata caccia ai dati necessari per far avanzare la propria tecnologia.

A qualunque costo?

Non sei contro le regole… se le cambi!

Quello che è successo, già a partire dal 2021, è che i ricercatori di OpenAI, ma anche di Google e di Meta, si sono trovati di fronte ad un problema inatteso.

Avevano esaurito tutte le riserve di testo di alta qualità disponibili su Internet, ma per addestrare la prossima versione della loro tecnologia, queste aziende avevano comunque bisogno di una quantità considerevolmente maggiore di dati.

Quindi? Quindi li hanno rubati! Come?

Il team di OpenAI, ad esempio, ha sviluppato uno strumento di riconoscimento vocale chiamato Whisper, in grado di trascrivere l’audio dei video di YouTube e generare nuovo testo utile per rendere il sistema di AI, beh… più intelligente. Geniale, se non fosse che l’utilizzo dei video di YouTube con queste finalità poteva potenzialmente violare le regole della piattaforma.

YouTube proibisce infatti l’uso dei suoi video per applicazioni che operano in modo indipendente dalla piattaforma stessa. Ma loro se ne sono fregati e sono andati avanti con la trascrizione di oltre un milione di ore di video; i testi risultanti sono stati successivamente integrati in GPT-4, considerato ancora oggi uno dei modelli di AI più potenti al mondo.

Meta, che ricordiamolo possiede Facebook e Instagram, non è stata da meno; l’anno scorso ha valutato l’acquisto della casa editrice Simon & Schuster per procurarsi le relative opere e ha messo in piedi un sistema di raccolta di dati protetti da copyright da tutto internet, anche se ciò significava affrontare cause legali. Pare che negoziare licenze con editori, artisti, musicisti e l’industria delle notizie avrebbe richiesto troppo tempo…

Sempre l’anno scorso Google ha ampliato anche i suoi “terms of service” con l’intento di permettere all’azienda di poter attingere a contenuti pubblicamente disponibili nelle app Google Docs, Google Sheets e per una serie di prodotti  pubblicamente disponibili come recensioni dei ristoranti su Google Maps e altro materiale.

Basterà? La risposta breve è NO!

Risorse finite?

Le aziende tecnologiche potrebbero esaurire i dati di alta qualità su internet già nel 2026, secondo Epoch, un istituto di ricerca. Stiamo usando i dati più velocemente di quanto vengano prodotti.

Che fare? Durante una conferenza di qualche tempo fa Sam Altman, CEO di OpenAI, ha rivelato che aziende come la sua avrebbero addestrato le loro intelligenze artificiali utilizzando testi generati dalle AI stesse, noto anche come dati sintetici.

In realtà pare che costruire un sistema di AI in grado di addestrarsi autonomamente è più facile a dirsi che a farsi. I modelli che imparano dai propri output rischiano di rimanere intrappolati in un ciclo in cui rinforzano le proprie stranezze, errori e limitazioni.

E allora?

Beh allora forse dobbiamo, noi umani, aumentare la produzione e “rassegnarci” a capire che in un mondo dove tutto è automatizzato, dove tutte le attività ripetitive e noiose possono essere demandate all’intelligenza artificiale, la vera risorsa scarsa saremo proprio noi. La nostra capacità di creare contenuti, testi ed immagini genuinamente autentiche ed uniche.

Se saremo in grado di trovare un equilibrio virtuoso tra le capacità dell’AI e le nostre unicità, che all’AI servono come il pane, allora davvero ci aspetta un futuro ricco di opportunità … stiamo solo attenti a non farci rubare nulla!

Sempre avanti, condannati all’ottimismo!

Giuseppe