Accueil / Glossaire SEO GEO / Token
GEO & IAToken
L'unité de base que traite un LLM (un mot ou un fragment de mot). Les modèles ont une limite de tokens par échange (la fenêtre de contexte) et facturent souvent au token.
Comment fonctionne Token
Avant tout traitement, le texte est découpé par un tokenizer en unités appelées tokens : souvent un mot court, un fragment de mot long ou un signe de ponctuation. Le modèle ne manipule que ces tokens, convertis en nombres. Deux limites en découlent : la fenêtre de contexte, soit le nombre maximal de tokens traités en un échange (prompt et réponse compris), et la facturation, généralement calculée au millier de tokens en entrée et en sortie. Optimiser un prompt revient souvent à économiser des tokens.
Exemple concret
En anglais, un token vaut environ 4 caractères, soit à peu près 0,75 mot ; en français, c'est souvent un peu plus découpé. La phrase Bonjour tout le monde fait environ 5 tokens. Un article de 1 000 mots pèse donc grossièrement 1 300 à 1 500 tokens. Si un modèle affiche une fenêtre de 128 000 tokens, il peut ingérer environ 90 000 mots d'un coup, prompt et réponse inclus. Côté coût, traiter 1 million de tokens en entrée à un tarif illustratif de quelques euros incite à envoyer un contexte ciblé plutôt que tout un site brut.
Trois ordres de grandeur pour raisonner en tokens.
Reperes illustratifs, a titre pedagogique. Les resultats reels varient selon la concurrence et la qualite editoriale.
- Confondre nombre de tokens et nombre de mots exact
- Oublier que la réponse consomme aussi la fenêtre de contexte
- Envoyer un contexte énorme et payer des tokens inutiles
- Ignorer que le français se découpe souvent en plus de tokens
Token avec Hack The SEO
Hack The SEO calcule un GEO Score par page et liste ce qui manque pour être cité par ChatGPT, Perplexity et les autres IA. Decouvrir le plugin SEO WordPress Hack The SEO.
Termes lies
Questions frequentes
- Combien de mots représente un token ?
- En anglais, un token vaut environ 0,75 mot, soit à peu près 4 caractères. Le français et les langues plus riches en accents se découpent souvent en davantage de tokens pour un même sens. C'est une approximation : la valeur exacte dépend du tokenizer du modèle utilisé.
- Qu'est-ce que la fenêtre de contexte ?
- C'est le nombre maximal de tokens qu'un modèle peut traiter en un seul échange, prompt et réponse compris. Au-delà, il faut tronquer ou résumer. Une grande fenêtre, par exemple 128 000 tokens, permet d'ingérer de longs documents, mais chaque token compte aussi dans le coût.
- Pourquoi les tokens influencent-ils le coût ?
- La plupart des API facturent au volume de tokens, avec un tarif distinct pour l'entrée et la sortie. Un prompt long ou une réponse verbeuse augmentent donc la facture. Réduire le contexte à l'essentiel et limiter la longueur des réponses est le levier direct pour maîtriser les coûts.
On en parle ?
Hack The SEO applique tout ca a votre site WordPress, pilote en langage naturel. Reservez 20 minutes, on regarde votre cas ensemble.
Reserver 20 minutes