Tokeny AI: Czym jest token w ChatGPT, Gemini and Co.?

Jeśli chodzi o generatywną sztuczną inteligencję, czyli sztuczną inteligencję tworzącą treści, często określona liczba tokenów jest istotna ze względu na jej siłę, ale także ostateczne wykorzystanie. Ale czym są tokeny AI? Co mówi ilość możliwych tokenów na wprowadzone polecenie („podpowiedź”) i wydaną odpowiedź? Co można sobie wyobrazić po symbolicznym koszcie, jaki niesie ze sobą dana subskrypcja lub użycie API? Jaka jest różnica między tokenami a identyfikatorem tokena? Poniżej podsumowałem dla Ciebie wszystkie istotne fakty na ten temat.

Co to jest token AI w ChatGPT, Google Gemini and Co.? Ile tokenów ma mój monit? A jaki jest identyfikator tokena dla poszczególnych słów? Odpowiedzi na te i inne pytania znajdziesz tutaj. (Obraz podglądu i ten obraz zostały utworzone za pomocą programu Microsoft Copilot.)
Co to jest token AI w ChatGPT, Google Gemini and Co.? Ile tokenów ma mój monit? A jaki jest identyfikator tokena dla poszczególnych słów? Odpowiedzi na te i inne pytania znajdziesz tutaj. (Obraz podglądu i ten obraz zostały utworzone za pomocą programu Microsoft Copilot.)

Czym są tokeny AI?

Indywidualne tokeny nie powinny być koniecznie traktowane jako waluty, które można przypisać w stosunku 1:1 do określonych wpisów lub znaków. Są to wartości bardziej przybliżone lub zaokrąglone. Mogą się także różnić w zależności od języka. „Językiem ojczystym” większości dużych AI jest angielski, dlatego dane wejściowe w tym języku oznaczają stosunkowo mniej tokenów niż dane wejściowe w innych językach – takich jak niemiecki. Krótsze i prostsze dane wejściowe i wyjściowe są warte mniej tokenów niż długie, złożone dane wejściowe i wyjściowe.

Średnie wartości tokenów w ChatGPT

Jeśli chcesz określić, ile i jak skomplikowane podpowiedzi możesz utworzyć przy określonej liczbie tokenów (np. odpowiadających określonemu budżetowi), ten ogólny opis jest mało przydatny. Pomaga to tylko zaoszczędzić tokeny, ponieważ pomaga zrozumieć, że treść wpisana w krótszej formie wymaga mniejszego wysiłku przetwarzania niż wpisy bardziej złożone i szczegółowe.

Dlatego OpenAI zapewnia kilka zasad przewodnich dotyczących korzystania z ChatGPT, których możesz przestrzegać. Daje to możliwość wcześniejszego oszacowania ilości tokenów wymaganych na monity i wyobrażenia sobie kosztów poniesionych w ramach danej subskrypcji lub podczas korzystania z API ChatGPT. Oto możliwe wartości, jakie OpenAI określa dla tokenów ChatGPT:

  • 1 token to około 4 znaki w języku angielskim
  • Zatem 1 żeton to około 3/4 przeciętnego angielskiego słowa
  • 100 żetonów to około 75 słów w języku angielskim

Istnieją również następujące szacunki dla języka angielskiego:

  • Jeden lub dwa zestawy odpowiadają około 30 żetonom
  • Jeden akapit to około 100 tokenów
  • Tekst zawierający 1.500 słów to około 2.048 tokenów

Jak już wspomniano, są to jedynie szacunki. Mogą się różnić, zwłaszcza przy użyciu dłuższych słów, ale także przy użyciu innych języków. Dlatego OpenAI oferuje własne narzędzie internetowe, Tokenizer, do bardziej precyzyjnego obliczania tokenów. Stanowi to na przykład, że niemieckie zdanie „Czym są tokeny AI?” składa się nie tylko z 30 znaków, ale także z 7 tokenów. tutaj możesz samodzielnie wypróbować tokenizer dla ChatGPT.

Ograniczenie tokenów dla wejścia i wyjścia

Ktoś może zapytać: jaki jest w tym wszystkim sens? Cóż, firmy zajmujące się generatywną sztuczną inteligencją mogą używać symbolicznych kwot, aby wskazać, jak złożona sztuczna inteligencja może „myśleć”, tj. jak jest otwarta i jak obszerne mogą być możliwe odpowiedzi. Jeśli sztuczna inteligencja jest ograniczona do kilku żetonów, nie jest zbyt silna.

Jeśli jednak sztuczna inteligencja może przyjąć lub przetworzyć dużą liczbę tokenów na dane wejściowe, a następnie w odpowiedzi wygenerować wiele tokenów, uważa się to za mocne — fakt, że dane wejściowe i wyjściowe są zgodne pod względem treści oraz że treść wyjściowa sprawia, że Oczywiście należy również wziąć pod uwagę rozsądek. Jeśli jednak tak jest, złożoność sztucznej inteligencji rośnie wraz z możliwą liczbą tokenów.

Wyjaśnia to również koszty użytkowania, na przykład API ChatGPT. Wpisy do GPT-4 Turbo kosztują obecnie 0,01 dolara za 1.000 wprowadzonych tokenów i 0,03 dolara za 1.000 wydanych tokenów. W przypadku GPT-4 dane wejściowe zwracają 0,03 USD za 1.000 tokenów i 0,06 USD za 1.000 wydanych tokenów. W ten sposób można zarabiać na wykorzystaniu chatbotów i multimodalnych AI. Ponieważ nie każde żądanie i odpowiedź można zapisać wyjątkowo krótko. Ocena plików PDF i odpowiedzi na pytania są bardzo symboliczne. 

Google Gemini 1.5 z aż 1 milionem tokenów

Wreszcie cię mam tak, już pokazane, że Google zmienił nazwę swojej sztucznej inteligencji „Bard” na „Gemini”. Wydano także Gemini 1.0 i wprowadzono płatny dostęp do wersji Ultra. Niewiele później wprowadzono jeszcze nie dostępny powszechnie model Gemini 1.5. Powinno to obsłużyć do 1.000.000 XNUMX XNUMX tokenów (wejście + wyjście) na monit. Zgodnie z powyższym wyjaśnieniem, stwierdzenie to wyraźnie pokazuje, jak rozwinięty jest ten model i jak skomplikowany może on „myśleć”.

Według Google zrozumienie długich kontekstów, a zwłaszcza multimediów w ramach jednego podpowiedzi, wciąż ma charakter eksperymentalny. Ci, którzy mogą przetestować Gemini 1.5, nadal są domyślnie ograniczeni do 128.000 4 tokenów na monit (co odpowiada „GPT-1 Turbo”). Tylko niewielka grupa testerów może już uzyskać dostęp do modelu 700.000 miliona tokenów. Powinno to obejmować ponad 30.000 11 słów lub ponad 1 XNUMX linii kodu, a także XNUMX godzin dźwięku lub XNUMX godzinę wideo oprócz wprowadzania tekstu. 

Ale dlaczego audio i wideo? Ponieważ Gemini 1.5 to nie tylko chatbot, ale multimodalny model AI. Oprócz informacji tekstowych obsługuje także obrazy, filmy i inne multimedia. Google podaje różne przykłady tego w formie wideo, np. badanie transkrypcji ruchu radiowego z misji Apollo 11 (pierwsze lądowanie na Księżycu). Po ocenie odpowiedniego pliku PDF przesłano rysunek i zapytano, którą scenę z transkrypcji opisuje. Sztuczna inteligencja potrafiła je poprawnie przypisać.

Kolejny film przedstawia ocenę 44-minutowego filmu w Gemini 1.5. Podczas oceny filmu pod kątem poniższych zapytań podpowiedzi wykorzystano już 696.417 XNUMX tokenów. Udało się zapytać, w jakim kodzie czasowym znajduje się dana scena (opisana jako tekst). Co więcej, jako opis sceny można załadować rysunek i poprosić o podanie jego kodu czasowego. Również w tym przypadku multimodalny model sztucznej inteligencji znalazł odpowiednie dane.

Dalsze szczegóły i przykłady można znaleźć w odpowiednich dokumentach post na blogu do Gemini 1.5 od Google.

Co to jest identyfikator tokena?

Teraz musisz na chwilę zapomnieć o wszystkim, czego się właśnie nauczyłeś o tokenach. Liczba tokenów jako miara złożoności mediów, podpowiedzi i wyników nie odgrywa tutaj bezpośredniej roli. Stosowane są inne wartości liczbowe, które mają inne znaczenie. To tylko uwaga, ponieważ byłem przez chwilę zdezorientowany podczas wyszukiwania. Ponieważ ilość tokenów słowa (wg powyższych wartości około 1,4 tokenów na słowo) nie ma nic wspólnego z jego identyfikatorem tokena.

Ponieważ identyfikator tokena jest, jak sama nazwa wskazuje, numerem identyfikacyjnym. Przypisuje określoną wartość słowu, literze skrótu lub poszczególnym elementom słowa odmienionego. Jest to porównywane z modelem AI, a następnie w odpowiedzi zwracana jest najbardziej prawdopodobna kombinacja identyfikatorów tokenów. Tak działa cyfrowa sieć neuronowa – tak naprawdę nie „myśli”, ale opracowuje najbardziej prawdopodobną sekwencję słów i części słów, która pasuje do danych wejściowych i tworzy na ich podstawie odpowiedź.

Mówiąc bardziej obrazowo: Token ID to język sztucznej inteligencji, na który konwertowane są dane wejściowe w celu znalezienia odpowiedniej odpowiedzi AI, która z kolei jest konwertowana z powrotem na język ludzki.

Identyfikator tokena na przykładzie ChatGPT

To z pewnością brzmi bardzo teoretycznie i skomplikowanie. I przyznam, że na początku nie do końca zrozumiałem sytuację ze względu na podobny opis. A Przykład, który jest udostępniany przez OpenAI do obsługi chatbota ChatGPT, pomógł mi lepiej to zrozumieć. Pokazuje także kryteria, według których mogą zmieniać się identyfikatory tokenów dla tego samego słowa. Podsumowałem to dla Ciebie:

Przykładowe zdanie w języku angielskim brzmi: „Mój ulubiony kolor to czerwony”. Punkt na końcu jest wart 13 żetonów. Ostatnie słowo przed („czerwonym”) 2266 żetonów. Jeśli jednak „czerwony” jest pisany wielką literą („czerwony”), jest bardziej nietypowy i dlatego jest wart 2297 żetonów. Jeśli zdanie zostanie zmienione na „Czerwony to mój ulubiony kolor”, wartość punktu pozostanie na poziomie 13; Ale ta dla „czerwonego” na początku wzrasta do 7738. „jest” jest również tak uniwersalne, że jego wartość wszędzie utrzymuje się na poziomie 318.

To wyraźnie pokazuje, że w zależności od użycia i miejsca w podpowiedzi poszczególne słowa kojarzone są z innym kontekstem lub mają różne znaczenie w tym samym kontekście. Są więc tłumaczone na inny identyfikator tokena, co z kolei powoduje inną reakcję AI. Wyjaśnia to również, dlaczego żądania przełączania dają różne wyniki, mimo że treść jest taka sama. Co więcej, wagę poszczególnych treści można zmienić tak, aby odpowiedź następowała po niej, a nie po innych częściach tekstu.

Sprawdź identyfikatory tokenów własnych danych wejściowych ChatGPT: Oto jak!

Powyżej podłączyłem Tokenizer OpenAI do obliczenia tokenów dla Twojego żądania. Oprócz funkcji zliczania wprowadzonych znaków i wykorzystanych tokenów, umożliwia to również analizę identyfikatorów tokenów. Moje przykładowe zdanie „Czym są tokeny AI?” składające się z 7 tokenów i 30 znaków jest podzielone na następujące pojedyncze elementy: 

[Co], [są], [właściwie], [K], [I], [Tokeny], [?] - Identyfikatory tokenów dla tych poszczególnych elementów są następujące: 27125, 12868, 84980, 735, 40, 59266 , 30. Pojedyncze „ja” bez powiązanej spacji nie jest bardzo złożone i ma identyfikator 40, znak zapytania ma 30. Słowo „faktycznie” ma największy identyfikator. Angielskie zdanie „What are AI Tokens?” składające się z 6 tokenów i 26 znaków oferuje następujące wartości: 3923, 527, 15592, 59266, 3582, 30.

Wnioski na tematy tokenów AI i identyfikatorów tokenów

Liczba możliwych tokenów podczas korzystania z chatbotów i multimodalnych AI wskazuje, jak długie lub złożone mogą być dane wejściowe i wyjściowe. Od długich, szczegółowych podpowiedzi tekstowych po ocenę całych filmów, wiele jest już możliwe i określone w symbolicznych kwotach liczonych w miliony – podczas gdy proste, codzienne pytania kierowane do chatbotów rzadko kończą się na dwucyfrowych tokenach. Długie odpowiedzi mogą jednak sięgać zakresu trzycyfrowego, co również należy wziąć pod uwagę przy jego stosowaniu.

Jednocześnie istnieje wartość identyfikatora tokena, która ma mniej wspólnego z liczbą liter. Identyfikator, będący odpowiednikiem słowa w języku AI, wynika bardziej z częstotliwości użycia słowa, skrótu lub symbolu oraz umiejscowienia w danym zdaniu. Im bardziej skomplikowany lub nietypowy, tym wyższy identyfikator. Do przetwarzania niezbędny jest dostęp do większego zbioru uczącego i większego obszaru sieci modelowej. Jest to odpowiednik ludzkiej wiedzy w AI. Musi być większy, aby móc odpowiedzieć na bardziej złożone pytania.

Podobał Ci się artykuł i czy instrukcje na blogu Ci pomogły? Wtedy byłbym szczęśliwy, gdybyś bloga poprzez stałe członkostwo będzie wspierać.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone * oznakowane

Na blogu Sir Apfelot znajdziesz porady, instrukcje i recenzje produktów Apple, takich jak iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini i Mac Studio.

Promocje