Token AI: cos'è un token su ChatGPT, Gemini and Co.?

Quando si parla di AI generativa, cioè di intelligenza artificiale che crea contenuti, un certo numero di token è spesso importante per la sua forza, ma anche per il suo utilizzo finale. Ma cosa sono i token AI? Cosa dice la quantità di token possibili per comando immesso ("prompt") e risposta emessa? Cosa si può immaginare in base al costo in token che comporta un determinato abbonamento o utilizzo dell'API? E qual è la differenza tra token e token ID? Di seguito ho riassunto per voi tutti i fatti importanti sull’argomento.

Cos'è un token AI su ChatGPT, Google Gemini e Co.? Quanti token ha il mio prompt? E qual è l'ID token per le singole parole? Puoi ottenere le risposte a queste e ad altre domande qui. (L'immagine di anteprima e questa immagine sono state create con Microsoft Copilot.)
Cos'è un token AI su ChatGPT, Google Gemini e Co.? Quanti token ha il mio prompt? E qual è l'ID token per le singole parole? Puoi ottenere le risposte a queste e ad altre domande qui. (L'immagine di anteprima e questa immagine sono state create con Microsoft Copilot.)

Cosa sono i token AI?

I singoli token non devono necessariamente essere considerati come valute che possono essere accreditate 1:1 su determinate voci o caratteri. Sono valori più approssimativi o arrotondati. Possono anche variare a seconda della lingua. La “lingua madre” della maggior parte delle grandi IA è l’inglese, motivo per cui gli input in questa lingua significano relativamente meno token rispetto agli input in altre lingue, come il tedesco. Input e output più brevi e più semplici valgono meno token rispetto a input e output lunghi e complessi.

Valori medi dei token su ChatGPT

Se vuoi determinare quanti o quanto complessi prompt puoi creare con una certa quantità di token (ad esempio quelli che corrispondono ad un certo budget), questa descrizione generale è di scarsa utilità. Aiuta solo a risparmiare token perché aiuta a capire che il contenuto inserito in una forma più breve richiede meno sforzo di elaborazione rispetto a voci più complesse e dettagliate.

OpenAI fornisce quindi alcuni principi guida per l'utilizzo di ChatGPT che puoi seguire. Ciò ti dà la possibilità di stimare in anticipo la quantità di token necessari per i prompt e di immaginare i costi sostenuti nel rispettivo abbonamento o quando si utilizza l'API ChatGPT. Ecco i possibili valori che OpenAI specifica per i token ChatGPT:

  • 1 token corrisponde a circa 4 caratteri in inglese
  • Quindi 1 token corrisponde a circa 3/4 di una parola inglese media
  • 100 gettoni equivalgono a circa 75 parole in inglese

Ci sono anche le seguenti stime per la lingua inglese:

  • Uno o due set corrispondono a circa 30 gettoni
  • Un paragrafo equivale a circa 100 token
  • Un testo di 1.500 parole equivale a circa 2.048 gettoni

Come detto, queste sono solo stime. Possono differire, soprattutto quando si usano parole più lunghe, ma anche quando si usano altre lingue. OpenAI offre quindi un proprio strumento web, il Tokenizer, per il calcolo più preciso dei token. Qui si afferma, ad esempio, che la frase tedesca “Cosa sono i token AI?” è composta non solo da 30 caratteri, ma anche da 7 token. qui puoi provare tu stesso il tokenizzatore per ChatGPT.

La limitazione dei token per input e output

Ci si potrebbe chiedere: che senso ha tutto questo? Ebbene, le aziende sviluppatrici di IA generative possono utilizzare quantità di token per indicare quanto complessa può “pensare” un’IA, cioè quanto è ricettiva e quanto estese possono essere le possibili risposte. Se un'IA è limitata a pochi token, non è molto forte.

Tuttavia, se l'IA può accettare o elaborare un gran numero di token per input e quindi emettere numerosi token come risposta, è considerato forte il fatto che l'input e l'output corrispondano in termini di contenuto e che il contenuto di output renda Naturalmente bisogna tener conto anche del senso. Tuttavia, se così fosse, la complessità dell’IA aumenta con il possibile numero di token.

Ciò spiega anche i costi di utilizzo, ad esempio dell'API ChatGPT. Le iscrizioni per GPT-4 Turbo attualmente costano $ 0,01 per 1.000 token inseriti e $ 0,03 per 1.000 token emessi. Per GPT-4, l'input recupera $ 0,03 per 1.000 token e $ 0,06 per 1.000 token emessi. Ecco come è possibile monetizzare l’uso di chatbot e IA multimodali. Perché non tutte le richieste e le risposte possono essere estremamente brevi. E la valutazione dei PDF e le risposte alle domande sono pesanti in termini di token. 

Google Gemini 1.5 con un massimo di 1 milione di token

Finalmente ti ho preso sì, già mostrato, che Google ha ribattezzato la sua AI “Bardo” in “Gemelli”. È stato rilasciato anche Gemini 1.0 ed è stato introdotto l'accesso a pagamento a una versione Ultra. Non molto tempo dopo venne introdotto il modello Gemini 1.5, che non era ancora disponibile al grande pubblico. Dovrebbe essere in grado di gestire fino a 1.000.000 di token (input + output) per prompt. Secondo la spiegazione data sopra, questa affermazione mostra chiaramente quanto sia sviluppato questo modello e quanto complesso possa “pensare”.

Secondo Google, la comprensione di contesti lunghi e soprattutto di media all'interno di un unico messaggio è ancora in fase sperimentale. Coloro che possono testare Gemini 1.5 sono ancora limitati per impostazione predefinita a 128.000 token per richiesta (corrisponde a "GPT-4 Turbo"). Solo un piccolo gruppo di tester può già accedere al modello da 1 milione di token. Dovrebbero essere più di 700.000 parole o più di 30.000 righe di codice, oltre a 11 ore di audio o 1 ora di video a parte l'immissione di testo. 

Ma perché audio e video? Perché Gemini 1.5 non è solo un chatbot, ma un modello di intelligenza artificiale multimodale. Oltre alle informazioni di testo, può gestire anche immagini, video e altri media. Google offre diversi esempi in questo senso sotto forma di video, ad esempio esaminando la trascrizione del traffico radio della missione Apollo 11 (primo sbarco sulla Luna). Dopo aver valutato il PDF corrispondente, è stato caricato un disegno e è stato chiesto quale scena della trascrizione descrivesse. L'IA è stata in grado di assegnarli correttamente.

Un altro video mostra la valutazione di un film di 44 minuti all'interno di Gemini 1.5. Durante la valutazione del film per le seguenti domande tempestive, sono stati già utilizzati 696.417 token. È stato possibile chiedere con successo in quale timecode si trova una determinata scena (descritta come testo). Inoltre, è possibile caricare un disegno come descrizione della scena e richiederne il timecode. Anche in questo caso il modello AI multimodale ha trovato i dati giusti.

Ulteriori dettagli ed esempi possono essere trovati nel corrispondente post sul blog a Gemini 1.5 da Google.

Cos'è un ID token?

Ora devi dimenticare brevemente tutto ciò che hai appena imparato sui token. Il numero di token come misura della complessità dei media, dei suggerimenti e degli output non gioca qui un ruolo diretto. Vengono utilizzati altri valori numerici che hanno un significato diverso. Questa è solo una nota perché sono rimasto brevemente confuso durante la ricerca. Perché la quantità di token di una parola (secondo i valori sopra, circa 1,4 token per parola) non ha nulla a che fare con il suo ID token.

Perché il token ID è, come suggerisce il nome, un numero identificativo. Assegna un valore specifico alla parola, alla lettera di un'abbreviazione o ai singoli elementi di una parola flessiva. Questo viene confrontato con il modello AI e quindi come risposta viene restituita la combinazione più probabile di ID token. Ecco come funziona la rete neurale digitale: in realtà non "pensa", ma elabora la sequenza più probabile di parole e parti di parole che si adatta all'input e da esso forma la risposta.

Per dirla in modo un po’ più figurato: i token ID sono il linguaggio dell’intelligenza artificiale in cui gli input vengono convertiti per trovare una risposta dell’intelligenza artificiale appropriata, che a sua volta viene riconvertita nel linguaggio umano.

L'ID token utilizzando ChatGPT come esempio

Sembra certamente molto teorico e complicato. E devo ammettere che all'inizio non avevo compreso appieno la situazione a causa di una descrizione simile. UN Esempio, che viene fornito da OpenAI per il funzionamento del chatbot ChatGPT, mi ha aiutato a capirlo meglio. Mostra inoltre i criteri in base ai quali possono cambiare gli ID token per la stessa parola. Te lo riassumo:

La frase di esempio in inglese è “Il mio colore preferito è il rosso”. Il punto alla fine vale 13 gettoni. L'ultima parola prima (“rosso”) 2266 token. Tuttavia, se il “rosso” è in maiuscolo (“Rosso”), è più insolito e vale quindi 2297 gettoni. Se la frase viene cambiata in “Il rosso è il mio colore preferito.”, il valore del punto resta 13; Ma quello del “Rosso” all'inizio sale a 7738. Anche l'“è” è così universale che il suo valore rimane ovunque a 318.

Ciò mostra chiaramente che, a seconda del loro uso e della posizione nel suggerimento, le singole parole sono associate a un contesto diverso o con un significato diverso nello stesso contesto. Quindi vengono tradotti in un ID token diverso, che a sua volta provoca una risposta diversa da parte dell'IA. Ciò spiega anche perché il cambio di richieste produce risultati diversi anche se il contenuto è lo stesso. Inoltre, la ponderazione dei singoli contenuti può essere modificata in modo che la risposta segua esso piuttosto che altre parti del testo.

Controlla gli ID dei token del tuo input ChatGPT: ecco come!

Sopra ho collegato il Tokenizer OpenAI per calcolare i token per la tua richiesta. Oltre alle funzioni di conteggio dei caratteri immessi e dei token utilizzati, offre anche un'analisi degli ID dei token. La mia frase di esempio "Cosa sono i token AI?" con i suoi 7 token e 30 caratteri è suddivisa nei seguenti singoli elementi: 

[Cosa], [sono], [effettivamente], [K], [I], [Token], [?] - Gli ID token per questi singoli elementi sono i seguenti: 27125, 12868, 84980, 735, 40, 59266 , 30. La singola “I” senza spazio associato non è molto complessa e ha ID 40, il punto interrogativo ha 30. La parola “actually” ha l'ID più grande. La frase inglese “What are AI Tokens però?” con 6 token e 26 caratteri offre i seguenti valori: 3923, 527, 15592, 59266, 3582, 30.

Conclusione sui temi dei token AI e dell'ID token

Il numero di token possibili quando si utilizzano chatbot e IA multimodali indica quanto lunghi o complessi possono essere gli input e gli output. Dai suggerimenti testuali lunghi e dettagliati alla valutazione di interi film, molto è già possibile ed è già specificato con importi di token in milioni - mentre le semplici domande quotidiane ai chatbot difficilmente finiscono nell'intervallo di token a due cifre. Tuttavia, le risposte lunghe possono arrivare fino a tre cifre, di cui si dovrebbe tenere conto anche quando si utilizza.

Allo stesso tempo c’è il valore dell’ID del token, che ha meno a che fare con il numero di lettere. L'ID, che nel linguaggio AI equivale a una parola, risulta più dalla frequenza d'uso della parola, dell'abbreviazione o del simbolo, sia dal posizionamento nella rispettiva frase. Più è complesso o insolito, più alto è l'ID. Per l'elaborazione è necessario accedere a un set di formazione più ampio e a un'area più ampia della rete del modello. Questo è l’equivalente AI della conoscenza umana. Deve essere più grande per poter rispondere a domande più complesse.

Ti è piaciuto l'articolo e le istruzioni sul blog ti hanno aiutato? Allora sarei felice se tu il blog tramite un'iscrizione stabile sosterrebbe.

Scrivi un commento

Il tuo indirizzo e-mail non verrà pubblicato. I campi obbligatori sono contrassegnati con * segnato

Nel blog di Sir Apfelot troverai consigli, istruzioni e recensioni sui prodotti Apple come iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini e Mac Studio.

Speciali