Les TOKENS d'IA EXPLIQUÉS SIMPLEMENT

Les TOKENS d'IA EXPLIQUÉS SIMPLEMENT

Lionel

2025-11-18

Les TOKENS d'IA EXPLIQUÉS SIMPLEMENT

ChatGPT, Gemini ou Claude, tu as sûrement dû entendre parler des tokens. Les tokens, c'est l'unité qui permet à l'IA de comprendre ton texte.\n\nAujourd'hui, on va essayer de comprendre ensemble pourquoi c'est le nerf de la guerre dans l'IA, car le token a une valeur et selon les modèles, le prix varie. On va voir comment ça marche, pourquoi ta facture peut exploser si tu envoies des textes énormes à ton IA, et comment tu peux réduire énormément ta facture avec les bons conseils.

Qu'est-ce qu'un token exactement ?

Pour bien comprendre les tokens, prenons l'exemple de ChatGPT. Quand on tape du texte dans la barre de conversation, tous ces mots vont être transformés en tokens.

En fait, ChatGPT ne comprend pas vraiment le texte qu'on lui envoie dans son moteur interne. Il ne sait pas exactement ce que chaque lettre signifie. On peut croire que ChatGPT comprend de façon magique ce qu'on lui demande quand on lui dit "comment ça va ?", mais en réalité c'est pas si magique que ça.

Le processus de transformation

Le texte qu'on tape va être transformé en token. Le token, c'est le moyen de communiquer avec la machine. Pourquoi on fait ça ? Parce que c'est plus rapide et plus compact.

Pour discuter avec un ordinateur, on transforme du texte en nombres et c'est là toute la magie. Le processus est le suivant :

Transformation du texte en nombres (tokenisation)
Passage dans la machine pour traitement
La machine ressort des nombres
Ces nombres sont retranscrits en texte pour nous

Démonstration avec Tiktonizer

Pour s'intéresser à la technologie qui permet de transformer du texte en nombres, appelée la tokenisation, découvrons Tiktonizer, une des librairies utilisées par OpenAI pour découper notre texte.

Prenons un exemple concret. Si je dis "bonjour, comment vas-tu ?", la machine le découpe en 5 tokens :

Un premier token : "bonjour"
Un deuxième token : "comment"
Ensuite : "va"
Puis : "tu"
Et enfin : le point d'interrogation

Chaque mot ou partie de mot transformé correspond à un nombre. C'est comme ça qu'il fait sa première transformation entre texte et nombre, car une machine préfère travailler avec des nombres - c'est beaucoup plus simple pour comparer et calculer.

Différences entre les modèles

Ce qui est intéressant, c'est que chaque modèle a sa façon de découper les tokens. Cette partie de tokenisation joue beaucoup sur la performance et la réponse.

Exemple avec la phrase "Peux-tu me rédiger un article sur les tokens au sein de l'IA ?" :

ChatGPT4 : découpage en gros tokens
Gemini : découpage plus fin (PE, puis UX séparément)
Llama (Facebook) : 19 tokens
GPT-2 : 20 tokens avec un découpage différent

Démonstration complète des tokens d'IA et leur impact sur les coûts

L'impact sur les coûts

Les tokens en entrée et en sortie n'ont pas le même prix. Cette différence de tarification peut rapidement faire exploser ta facture si tu n'y prêtes pas attention.

Avec ChatGPT à 20 dollars par mois, on a une enveloppe limitée. Quand on dépasse, on bascule sur des modèles gratuits moins performants. Par exemple, GPT-3.5 turbo coûte 10 fois moins cher que les derniers modèles.

Cas d'usage concret : génération d'articles

Pour les développeurs qui utilisent l'API, ces tarifs deviennent critiques. Voici un exemple concret de génération d'articles.

Quand je crée des articles avec ChatGPT via l'API, j'utilise des prompts très élaborés au format JSON avec :

La tâche à accomplir (rédiger un article)
L'audience cible (professionnels du secteur tech)
Le ton souhaité
Le nombre de mots
Les sections avec titres et points clés
Des demandes spécifiques (statistiques, etc.)

Un prompt comme celui-ci peut coûter 752 tokens, soit environ 1 centime par requête. Quand on en fait 30-40 par jour, ça peut vite monter.

Solutions d'optimisation : la syntaxe TON

Pour réduire les coûts, il existe des nouvelles syntaxes plus compactes que le JSON traditionnel.

Le JSON est coûteux car on répète plusieurs fois les mêmes éléments. La syntaxe TON (Token Oriented Object Notation) propose une alternative :

Suppression des accolades et crochets
Système de tableau avec séparateurs virgules
Format plus compact, inspiré du CSV
Réduction significative du nombre de tokens
Coût réduit proportionnellement

Conclusion

Comprendre les tokens est essentiel pour optimiser ses coûts d'IA. Plus ton prompt est compact, moins tu paies. C'est un équilibre à trouver entre clarté et efficacité économique.\n\nMaintenant que tu connais le principe, tu peux optimiser tes interactions avec l'IA et maîtriser ta facture !

Nos derniers articles
par Naleo

Les TOKENS d'IA EXPLIQUÉS SIMPLEMENT

Les TOKENS d'IA EXPLIQUÉS SIMPLEMENT

Qu'est-ce qu'un token exactement ?

Le processus de transformation

Démonstration avec Tiktonizer

Différences entre les modèles

L'impact sur les coûts

Cas d'usage concret : génération d'articles

Solutions d'optimisation : la syntaxe TON

Conclusion

Donnez vie a votre projet des maintenant

Nos derniers articles par Naleo

Les TOKENS d'IA EXPLIQUÉS SIMPLEMENT

Les TOKENS d'IA EXPLIQUÉS SIMPLEMENT

Qu'est-ce qu'un token exactement ?

Le processus de transformation

Démonstration avec Tiktonizer

Différences entre les modèles

L'impact sur les coûts

Cas d'usage concret : génération d'articles

Solutions d'optimisation : la syntaxe TON

Conclusion

Donnez vie a votre projet des maintenant

Nos derniers articles
par Naleo